WJMonitor輿情之聲

企業大數據智能輿情監測管理解決方案

全網監測海量數據按需發布監測預警

實時把握輿情動態精準追溯信息源頭

獲取驗證碼

企業采購 個人使用

首頁 > 網站優化 > SEO每日一博 > 淺談URL優化該怎么寫，如何判斷重要性@steven

淺談URL優化該怎么寫，如何判斷重要性@steven

時間:2015-07-09 09:07:50

轉載兩篇不錯的分享文章，能解決以前一直糾結的問題，對于seoer有不錯的指導意義：

來源：站長社區作者：Zewer

本人從事SEO多年，優化的案例從幾千到幾十萬IP的都有，正規灰色都有，正規站從未主動發過外鏈。也很不理解為什么非要去做外鏈。非企業站點來說，單錨本文提升單詞效果不大，可能是因為優化的站點原因。我接手的都是比較中大型的網站，不會刻意的去堆砌某個關鍵字的排名，更不用說去專門做某詞的錨文本進行投票了。那么應該如何優化大型站點呢。我覺得重要的因素是架構/結構。跟大家分享首要的架構：url優化。

URL優化的效果跟站點在百度的權重關聯性不大，但是對收錄、蜘蛛爬行和傳遞權重有明顯的提升。我雖然不常發貼但是經常觀察到大部分SEO的提問都是收錄怎么怎么不好，權重怎么怎么不高，我也觀看過很多站點，很多基礎的工作完全都處于迷糊的狀態。試想換一種思路，站長變成spider來爬行你的站，我相信大部分站長自己都跑不通。這里我只給出url優化的幾個重要點。

1.URL一致性：URL 一致性是一個非常重要的指標，推薦大家一本書《走進搜索引擎》里面有介紹spider是一種機器程序，而非人腦，雖然也有學習的過程，但是國內網站千千萬，每個網站有不同的url規范，你如果url命名規則雜亂無章spider又怎能的辨別你的內容規范？這里舉個個人覺得做的比較好的case：“吧”。讀者可以去翻閱吧的網站。他的主體結構為：首頁=>列表頁=>內容頁。這里因地制宜，只是舉例可能并不適合你的站點。

吧我分析到他的優化權重承載頁為他的內容頁。而百度有“偏權重”的說法(見2)，所以他把所有的列表頁統一用downlist/1~*.html的寫法。沒有給予列表頁過于集權也避免了“偏權重”的影響。這樣子spider可以很自由的識別，只要在downlist目錄下面的(數字.html)都屬于他的列表頁，層次清晰，爬取也很流暢。而他的集權重心在于內容頁。內容頁統一url為html/1~*.html 通過標簽優化和鏈輪把權重導向給html下面的目錄。“偏權重”集中在html目錄下。spider也很清晰的可以判斷/html目錄下面的(數字.html)都屬于內頁，層次清晰、爬取流暢，權重傳遞的也很集中，這也屬于集權的一種做法。自然收錄好權重高了。

Steven批注：這一點同意。

2.偏權重：偏權重可能是我自己創造的一個詞，大神們勿噴。通過我多年的分析發現，每個站點的流量是有集中點的。這個從愛站的工具里面大家可以看出來，這里拿我一個客戶和朋友的網站給大家做做案例。

同一個網站 90%的流量都出自于某個目錄，在這里面內容類型內容質量都是一樣的。相信大家在自己作站過程中也有所體會，百度會偏向給權重到某個目錄?？紤]到這個問題，url一致性和目錄規劃更重要了。

3.爬行原理：蜘蛛爬行原理有深度優先和寬度優先這里分開說一下：

(1)深度優先：深度優先適用于一些大站，蜘蛛很渴望得到他的內容，比如新浪網易他們的目錄很長，也能收錄。假如我們給蜘蛛一個線程只能爬取一個頁面，爬行軌跡：首頁-封面頁-頻道頁-內容頁，那么你網站的結構是：首頁=> xxx/a=> xxx/a/b=> xxx/a/b/c/1.html=>。蜘蛛會沿著你的深度爬行進去，但是無論多大的站，你的深度也必須有限，否則蜘蛛不可能無窮盡的挖掘進去，爬累了自然會離開。并且內容也沒帶回去。

(2)寬度優先：這個是我非常推崇的，而且我所有新站都是這種效果。我自己建了5天的站蜘蛛爬行800次。效果說明在扁平化的，寬度優先是可以讓蜘蛛非常的爬行和返回的。url結構 xxx/a/ xxx/b/ xxx/c/ 這類的叫寬度優化，爬行軌跡：首頁-頻道頁A-頻道頁B-頻道頁C/首頁-頻道頁A-內容頁A1-內容頁A2-內容頁A*

綜上所述。其實可以看出：寬度優先的效率明顯高于深度優先。而且蜘蛛的任務類別也單一，非常容易識別。同一線程爬取的幾乎是同一類型頁面，頁面樣式，外觀相同。蜘蛛不必花時間過于的去分析你的頁面內結構，層次清晰。

4.爬蟲黑洞：這個問題不是什么新問題了。百度也有做專門的闡述，因為一些url處理不當產生的動態參數后綴，或是刻意圈住蜘蛛所做的無限循環，這種的效果明顯是弊大于利。對URL 的規劃上一定要想辦法盡可能的處理掉無限動態參數后綴，并且也要合理的給蜘蛛出口，這才是真正有利于SEO 的做法，關于處理爬蟲黑洞的辦法這里我不做多講解。大家可以參考站長學院的《巧用robots避免蜘蛛黑洞》。

官方聲明：百度沒有“權重”，文章中提及的“權重”字樣僅為站長個人觀點。

轉載第二篇文章：

首先聲明，我們只談論有檢索意義的URL，也是用戶會從搜索引擎查找的頁面。其他頁面按照常用的方法做屏蔽好了。鑒于很多站長都愛討論整體的收錄量，我必須潑一下冷水，也許你的有效收錄是1/10。

URL參數

也叫URL query，是一個復雜，容易被忽視，容易被妥協的問題。他是網站運營中必不可少的元素，如果簡單的去除，其他部門無法工作了。靜態化是的話題，URL參數經常被用于以下幾方面：
同一個實體的不同狀態展示，比如同一個酒店，在不同時間點會有不同的房間庫存：http://www.travel.com/hotel/123/?checkindate=2015-06-09&checkoutdate=2015-06-10
　　為了統計不同渠道的流量：http://www.a.com/?tracking=website_a
　　為了統計不同渠道，具體模塊的點擊量：http://www.a.com/?tracking=website_a&click_spot=zone_abc
　　調試：http://www.a.com/product/item123/?debug=true
　　全奇葩的是亞馬遜，居然把統計參數放到了路徑中http://www.amazon.cn/abc/dp/B005TZHJEQ/ref=lp_2130608051_1_1

出現這種問題的壞處有幾點:
1. 浪費搜索引擎對你網站的各項配額，從而影響其他正常的頁面。
2. 丟失很多本應拿到的鏈接加分，站外渠道的鏈接往往是質的。同一個URL的分值可能分散成幾十份。
3. SEO的流量被統計到別的渠道(因為tracking字段寫的是別的渠道，而且被收錄被點擊)
4. 往往形成一種局面，產品用一套URL，SEO用另一套URL，甚至不同渠道用不同的URL，后期開發和維護的成本極高。

為了解決這個問題，首先要弄清URL的定義。以我的理解，每一個URL是一個靜態的、獨立不重復的、有意義的實體，一般也有檢索意義(是有人會搜)。比如一個人、一輛車、一條道路、一個零件。而不能混入各種”狀態”，比如這個人生病的時候，難道不是他自己了么? 一件商品在促銷的狀態難道是另一件商品了么?

理論上canonical標簽可以解決這個問題了，但是從實際測試結果看，百度對這個標簽的支持優先級非常低，幾乎可以忽略不計。那么我的解決方案是這樣的:
1. 建立好網站的思維導圖和元信息。 (可參考：SEO健康度?)
2. 所有和SEO元信息相關的參數都放到路徑中去
3. 所有和SEO元信息不相干的參數都放到#后邊，因為#后邊不影響web服務器返回的內容。簡單的說是用”#”替代”?”。
4. 每個頁面中都利用js獲取#后邊的參數對，通過二次請求發回給統計服務器
5. 如果#后邊的參數影響頁面內容，比如酒店的入住日期。那么這部分內容用ajax加載行，他是不穩定的，不屬于頁面內容的一部分。(當然還有變通的辦法，暫不贅述。)
6. 原始的#錨點定義肯定會沖突，定義一個#后邊的變量，并用js控制屏幕滾動，來保證原始錨點的作用。

有人可能會想到，根據ua判斷，如果是搜索引擎爬蟲，用跳轉的方式去掉URL參數。但效率的方法必然是從一開始不展示錯誤URL。那么前面的例子優化后變成了:
　　http://www.travel.com/hotel/123/#checkindate=2015-06-09&checkoutdate=2015-06-10
http://www.a.com/#tracking=website_a
http://www.a.com/#tracking=website_a&click_spot=zone_abc
http://www.a.com/product/item123/#debug=true

其實很多網站早使用這種方式了，但是還有很多網站由于開發效率無法及時實現。所以對于一般的小網站，一定要考慮開發成本，不要輕易冒進。只要能避免問題的發生，變通的方法是很多的。

Steven批注：#號是很不錯的規避方法。

路徑中使用非必要元素

很多網站仿照亞馬遜的做法，把商品名體現在URL中，然后再通過id來決定頁面展示的內容:http://www.amazon.cn/博集典藏館043?基督山伯爵-亞歷山大?仲馬/dp/B005TZHJEQ/

這樣雖然可以提高一些相關性，但是很危險。在長期甚至短期的時間內，大量商品的名稱是非?？赡苡凶兓?，那么URL也跟著變化。成本也是非常高的，因為加大了技術實現難度，不管從站內還是站外，每次增加鏈接都是一個很麻煩的事情。

在我接手藝龍SEO之前，URL被全部改成了這樣，對我早期的工作造成了非常巨大的負擔:http://www.a.com/Shangrila_International_Hotel-12345678-hotel/

通過日志分析發現基本所有的百度蜘蛛發起的請求都被301跳轉了一次(日志分析方法可參考SEO健康度?)。細致調查后發現，從SEO拼接規則到后臺的漢字和翻譯數據被一直修改。也是說，這個URL相關的元素有:
1. 中文 (非必要元素)
2. 由中文翻譯的英文 (非必要元素）
3. id (必要元素)

而當時負責SEO的同事把英文和id拼接在了URL中，那么這樣一個URL先后變成過:
http://www.a.com/Shangrila_International_Hotel-12345678-hotel/
http://www.a.com/Xianggelila_International_Hotel-12345678-hotel/
http://www.a.com/XiangGeLiLa_International_Hotel-12345678-hotel/
http://www.a.com/Shangrila_guoji_Hotel-12345678-hotel/

跟”相關性”比，URL的性和穩定性更重要。所以針對這個問題，URL的策略應該是：http://www.a.com/hotel/12345678/

如果這個id是隸屬于一個分類下的，比如城市，那么可以是：http://www.a.com/hotel/beijing/123/

從技術角度說， id一般是數據庫的primary key，可以是數字也可以是字符串，那么這個時候URL是一維的; id也可以是聯合的索引，那么URL是二維的，像上面的(bejing，123)缺一不可。電商類網站列表頁經常用到三維以上。

Steven批注：這一點可能和谷歌的解釋不太一樣，待定，不過從長度上來說我同意作者的觀點。

大小寫

如果網站的技術架構用的是開源系統，一般是不會有這個問題的。如果使用了微軟的技術架構，這個問題非常常見：
http://www.a.com/newyork/
　　http://www.a.com/Newyork/
http://www.a.com/NewYork/

我的建議是統一使用小寫，大寫自動跳轉為小寫(小心301死循環!)。

Steven批注：這一點OK，當初日報的站這么處理的。

目錄的規范

很多網站同時存在這樣的URL，無形中把收錄量擴大了一倍：
http://www.a.com/product/123
　　http://www.a.com/product/123/
上邊個路徑的意思是在product目錄下有一個123文件。第二個路徑的意思是在product目錄下有一個123目錄，這個目錄下可能有很多文件，但是他代表眾多文件中的index.html或index.php或default.aspx等優先級的那個文件。為了避免歧義，我定義文件都是用”.html”結尾的。

為了減少重復收錄，那么按我的習慣是:
http://www.a.com/product/123??=>?http://www.a.com/product/123/
http://www.a.com/product/123??=>?http://www.a.com/product/123.html

Steven批注：同意。

總結

1. 所有部門統一使用SEO定義的URL，屏蔽非SEO URL的入口。
2. 用”#”替代”?”
3. 統一使用小寫
4. 保證目錄的規范
5. 把不規范的URL跳轉到規范的URL

文章雖然結束但是討論可以繼續，大家可以到【學院同學匯】《如何避免大量重復URL被百度收錄》討論帖，與作者劉明進行探討。

產品與服務

WJMonitor輿情之聲 WJInsight品牌洞察 SEO搜索引擎優化網絡口碑營銷信息流推廣

ydjx168.com.cn-精品无码国产自产拍在线观看蜜,国产女主播喷水视频在线观看,成A人片亚洲日本久久,国产成人8X视频网站入口

WJMonitor輿情之聲

淺談URL優化該怎么寫，如何判斷重要性@steven

相關資訊

產品與服務

最新文章

熱門文章

ydjx168.com.cn-精品无码国产自产拍在线观看蜜,国产女主播喷水视频在线观看,成A人片亚洲日本久久,国产成人8X视频网站入口

WJMonitor輿情之聲

淺談URL優化該怎么寫，如何判斷重要性@steven

相關資訊

產品與服務

最新文章

熱門文章

淺談URL優化該怎么寫，如何判斷重要性@steven