說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732
全網(wǎng)監(jiān)測海量數(shù)據(jù)按需發(fā)布監(jiān)測預(yù)警
實時把握輿情動態(tài)精準追溯信息源頭
歷史回顧:
前段時間,多個站點抓取量出現(xiàn)過山車的現(xiàn)象,嚇尿了有木有?
果然的趕緊投訴,然后發(fā)現(xiàn),是百度自己的問題。
再然后,百度說了 宣布新版Baiduspider移動ua上線,同時公布了PC版Baiduspider ua。如下:
新版移動ua:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
PC ua:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
新的正確的識別Baiduspider移動ua的方法如下:
1. 通過關(guān)鍵詞“Android”或者“Mobile”來進行識別,判斷為移動訪問或者抓取。
2. 通過關(guān)鍵詞“Baiduspider/2.0”,判斷為百度爬蟲。
另外需要強調(diào)的是,對于robots封禁,如果封禁的agent是Baiduspider,會對PC和移動同時生效。即,無論是PC還是移動Baiduspider,都不會對封禁對象進行抓取。之所以要強調(diào)這一點,是發(fā)現(xiàn)有些代碼適配站點(同一個url,PC ua打開的時候是PC頁,移動ua打開的時候是移動頁),想通過設(shè)置robots的agent封禁達到只讓移動Baiduspider抓取的目的,但由于PC和移動Baiduspider的agent都是Baiduspider,這種方法是非常不可取的。
推薦閱讀
百度spider工程師給https站點的技術(shù)建議 | 文軍營銷答:如果以前有http站點,建議保留跳轉(zhuǎn)行為。之后注意通過百度站長平臺的抓取診斷工具和抓取異常工具關(guān)注抓取結(jié)果。 所以,站長們將http站點轉(zhuǎn)為https的話會更利于站點排名,同時百度對https站點的支持以后也會更好,但是也要注意純https收錄可能會不及時和慢的問題,站長們需要注意嘍。
說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732