說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732
全網(wǎng)監(jiān)測海量數(shù)據(jù)按需發(fā)布監(jiān)測預(yù)警
實時把握輿情動態(tài)精準追溯信息源頭
來源于:steven的博客“優(yōu)于詞”
標題為”奧義”,那么閱讀前必須先要讀者對于sitemap的有一定的了解,傳送門百度的sitemap工具幫助,對于基本這里是不做特別說明的。至于sitemap的制作方法,請各位自己研究。
這會有一系列的文章?篇主講百度wiki(是上面那個傳送門鏈接)值得注意的地方,希望能幫到大家。
百度wiki
1、sitemap中鏈接的順序?qū)τ谂琶麤]有邏輯關(guān)系,所以故意的將要排名的頁面放在前面是沒有用的;所以不用去試驗了。
2、百度目前支持的三種格式:文本格式、xml格式、Sitemap索引格式;而谷歌可以支持xml格式,Sitemap索引格式,RSS2.0 檔案,Atom 0.3 或 1.0,或純文本檔案,但RSS和Atom提供的資訊有限,只能幫助搜索引擎去找到其他的網(wǎng)頁。
3、上述的3種的格式,純文本文件多可包含 50,000 個網(wǎng)址,但不管怎樣,即使壓縮也要保證未壓縮的sitemap小于10MB(10,485,760字節(jié))。
4、XML格式的參考案例:以下紅色的注解可是百度wiki中沒有的
<?xml version=”1.0″ encoding=”UTF-8″?>;XML文件需以utf-8編碼
<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>;必填,給搜索引擎參照-”的通訊協(xié)定標準”。
<url>;必填,每個URL鏈接的母標記
<loc>http://www.example.com/</loc>;必填,以通訊協(xié)定開頭(例如http),如果服務(wù)器有需求,以尾端的斜杠結(jié)束
<lastmod>2005-01-01</lastmod>;選填
<changefreq>monthly</changefreq>;選填,這個是可能變更的頻率,可填以下屬性:always;hourly;daily;weekly;monthly;yearly;never,其中always用來描述”會隨著每次存取改變的文件”,而never用來描述”封存的URL”。這些屬性是提示而非指令,通訊協(xié)定里說可能,標記為hourly的網(wǎng)頁被索引相交之下會偏低,而yearly則可能較高,不是很有趣嗎?
<priority>0.8</priority>;選填,有效值為0.0-1.0,只是用來讓搜索引擎給高值的網(wǎng)頁更多建立索引的可能性,如果xml中的URL都為高優(yōu)先性,那對于搜索引擎來說所有這些鏈接的重要性沒有了意義,無法做判斷。
</url>;必填
</urlset>;必填
5、Sitemap 列出的所有網(wǎng)址必須和 Sitemap 位于同一個主機上。例如,如果 Sitemap 位于 http://www.example.com/sitemap.xml,不能包含 http://subdomain.example.com 中的網(wǎng)址(跨域名)。如果 Sitemap 位于 http://www.example.com/myfolder/sitemap.xml,不能包含 http://www.example.com 中的網(wǎng)址(低層級跨高層級)。
5、同時有“http”和“https”格式的網(wǎng)址,只列出一種格式的網(wǎng)址,包含多種格式的網(wǎng)址可能會導(dǎo)致抓取工具無法完整地抓取網(wǎng)站。
6、包含會話 ID的網(wǎng)址建議刪除,不然ID號可能會導(dǎo)致網(wǎng)站抓取不完整以及重復(fù)抓取。
7、百度建議的是把sitemap放在根目錄下,當然搜索引擎也建議放在HTML服務(wù)器的根目錄中,即 http://example.com/sitemap.xml。但在某些情況下,網(wǎng)站上針對不同的路徑可以創(chuàng)建不同的sitemap,比如某些公司有目錄的層級劃分。
針對第7個情況,下一篇文章講2部分,sitemap檔案的位置和如何做交叉提交。
說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732