WJMonitor輿情之聲

企業(yè)大數(shù)據(jù)智能輿情監(jiān)測管理解決方案

全網(wǎng)監(jiān)測海量數(shù)據(jù)按需發(fā)布監(jiān)測預(yù)警

實時把握輿情動態(tài)精準(zhǔn)追溯信息源頭

獲取驗證碼

企業(yè)采購 個人使用

首頁 > 網(wǎng)站優(yōu)化 > SEO每日一博 > 詞庫整理+詞庫篩選@steven

詞庫整理+詞庫篩選@steven

時間:2015-05-27 15:05:27

總結(jié)近的一些工作，這方面平常總結(jié)的少，爭取一周一次，慢慢完善這篇文章，希望能造福后來人。不一定對，作為參考吧。

近更新：2015.6.10

2015.6.10修改了大分類，在標(biāo)題一中增加了“處理關(guān)鍵詞”文檔，增加了3.3和3.31

2015.5.27文檔建立

一、詞庫整理

1 ? ?選取詞庫競爭對手->準(zhǔn)備階段：選擇基礎(chǔ)的根詞和相關(guān)的長尾詞

1.1 ? ?專業(yè)的seo分類站點上找；導(dǎo)航站上去批量找到；如果實在無資源的情況下可手動補(bǔ)充。目標(biāo)是盡量涵蓋行業(yè)內(nèi)的所有站點。

1.2 ? ?自有的抓取數(shù)據(jù)庫里找到行業(yè)根詞

1.3 ? ?行業(yè)競爭對手的網(wǎng)站地圖中找到行業(yè)根詞

1.4 ? ?手上擁有的資源站點中找到搜索流量的搜索詞（百度統(tǒng)計、GA統(tǒng)計等統(tǒng)計工具）

1.5 ? ?有資源的話，請花錢向?qū)I(yè)的整合公司購買行業(yè)關(guān)鍵詞數(shù)據(jù)庫

1.1批注 ? ?這個時候是拼資源的時候，網(wǎng)上有這樣的站點，例如，http://www.seo3.org/seo-sites-1003-0-1.html

1.2批注 ? ?如果先期已經(jīng)有網(wǎng)站了，請從自己站點的維度出發(fā)尋找，其中一定有讓底層的根詞庫

建議：

處理人員：助理

相關(guān)技能：火車頭或相關(guān)的采集工具

耗時估計：1-2天

大部分情況下我們不是1.5的土豪，花個萬把塊買整合好的數(shù)據(jù)，所以接著1.1-1.4如下處理

2 ? ?再次拓詞->將較為完整的1中的詞拿出來再做拓展，力求涵蓋整個行業(yè)的關(guān)鍵詞數(shù)據(jù)庫

2.1 ? ?將1.1中的站點分類，選出和你將要做的站點屬性相同的站

2.1.1 ? ?采集這些站點下的關(guān)鍵詞庫，可采用：愛站關(guān)鍵詞挖掘工具（非付費導(dǎo)出量有限，量級較少，噪點較少），5118數(shù)據(jù)庫（可采用火車頭采集，利用2次抓取的邏輯可采集到量級很大的詞，但噪點過多，很多100名開外的無用詞）；

2.2 ? ?將1.2，1.3，1.4，2.1中的詞放入關(guān)鍵詞拓展工具中進(jìn)行拓展

2.2.1 ? ?根詞的拓展量可以在6K左右；已經(jīng)較長尾的拓展量可以再600左右，請自適應(yīng)安排

2.3 ? ?將所有的詞整理，先初步去重（包含兩步，重復(fù)項和某些特定詞；建議程序）

2.1批注 ? ?以游戲站點為例，分類成：網(wǎng)游；頁游；手游；小游戲；綜合等，找出你要做的站點的屬性，將其記錄下來。

2.1批注 ? ?綜合類的站點，比如sina.com.cn，用愛站或5118找到其屬性和你相同的站，假使你要做頁游，看看有沒有web.sina.com.cn等站點，快速找到提取

2.1.1批注 ? ?要資源購買付費版的買付費版，能很大程度上節(jié)省時間，別老想著免費；

2.1.1批注 ? ?5118數(shù)據(jù)庫用火車頭可以批量抓取，量級大的話需要時間，請預(yù)估好；采集的方式，先通配采集每個域名/subdomains/下的翻頁數(shù)，再批量寫規(guī)則通配采集/baidu/rank/下的關(guān)鍵詞，這樣做是因為每個域名的排名頁數(shù)不同

2.2批注 ? ?愛站的拓長尾詞能力好一些，短詞（既行業(yè)根詞）可用愛站跑；中短詞長度（判斷標(biāo)準(zhǔn)，excel函數(shù)=len(*)在4-9左右）可用戰(zhàn)神工具跑；中長詞（=len(*)在9-18左右）也可用戰(zhàn)神工具跑；長詞（=len(*)在18-29左右）感覺可以該刪的刪掉，不用跑了

由于去重出來的重復(fù)量過大，有千萬級別的，所以必須過濾，分機(jī)器和人工同時進(jìn)行處理

3 ? ?處理關(guān)鍵詞

3.1 ? ?機(jī)器初過濾 – 處理噪詞；去重

3.1.1 ? ?直接匹配刪，比如：#，$，http，-，..，.com，.xml等等，根據(jù)自己的行業(yè)特性進(jìn)行篩選，包含的直接刪

3.1.2 ? ?替換，主要是轉(zhuǎn)義的和空格，比如：?，"，&

3.1.3 ? ?全數(shù)字刪除，根據(jù)行業(yè)情況處理

3.1.4 ? ?以上剩余的詞庫做去重

3.2 ? ?機(jī)器初篩選 – 提取精準(zhǔn)詞

3.1.1 ? ?再處理下根詞，把根詞中的噪詞處理一下，比如（）里面的內(nèi)容等，幫助接下來機(jī)器提取的精準(zhǔn)度

3.1.2 ? ?用行業(yè)詞庫和根詞去匹配所有的詞，整理出一份文檔，打包。這部分是精準(zhǔn)的詞。

3.3 ? ?人力去臟詞

3.3.1 ? ?軟件工具：notepad++；office excel 2010以上的版本（WPS不行）；?關(guān)鍵詞自動分類工具

3.3.2 ? ?步驟

3.3.2.1 ? ?用notepad++打開文檔，將所有詞復(fù)制到分類工具中

3.3.2.2 ? ?點擊分類工具中的開始查詢

3.3.2.3 ? ?等待，等到右邊跳出終的結(jié)果（過程可能持續(xù)5-15分鐘不等，不用理睬未響應(yīng)），期間可以同步進(jìn)行其他事情

3.3.2.4 ? ?復(fù)制分詞中的結(jié)果到notepad++，再到xls表格中（點擊結(jié)果，ctrl+a，因為沒有明顯的標(biāo)識，等待全部變藍(lán)，期間可能有幾次未響應(yīng)）

3.3.2.5 ? ?xls表格中，#字號分列

3.3.2.6 ? ?行插入四列，根詞，一級，二級，三級

3.3.2.7 ? ?選擇四列，插入數(shù)據(jù)透視表

3.3.2.8 ? ?在B列進(jìn)行數(shù)字標(biāo)識，直接刪除的為1（無關(guān)），待定的為2（其間既混有游戲詞也混有無關(guān)詞），OK的為3

3.3.2.9 ? ?處理完后在E2列輸入函數(shù)公式 ? =VLOOKUP(A2,Sheet4!A:B,2,0)，下拉到底等待處理完畢

3.3.2.10 ? ?選擇E2列，篩選，將1的去除，留下2和3的結(jié)果

3.3.2.11 ? ?保存文檔，一份整理完

（這部分待編輯，留優(yōu)化空間）

二、 ? ?采集底層文章 -> 根據(jù)2中的詞使用采集工具去采集底層文章

3.1 ? ?使用付費工具，水淼軟件，采集非百度的源（可使用360、搜狗、微信、bing、谷歌等，谷歌需翻墻）

3.2 ? ?文章篩選效率優(yōu)化

3.2.1 ? ?規(guī)則：a.包含主要根詞（以網(wǎng)頁游戲為例，文章中包含“頁游”or“webgame”)；b.和游戲有關(guān)；c.標(biāo)題限制；d.大小限制（大于多少K的可以直接去除）；e.文章內(nèi)容下限250字；f.再加上人工的篩選；g.機(jī)器替換競品詞和去除某些詞；總體篩選剩余在18%左右

3.3 ? ?采集源優(yōu)化：找非百度的源頭，哪些文章質(zhì)量命中更高一些，如果相同的情況下，可以看下抓取的質(zhì)量或抓取的時間時效性

3.3.1 ? ?先采集攻略，防止如果先采集新聞，將攻略類的資源分布進(jìn)去，增加后期調(diào)整的成本

三、 ? ?站點優(yōu)化

產(chǎn)品與服務(wù)

WJMonitor輿情之聲 WJInsight品牌洞察 SEO搜索引擎優(yōu)化網(wǎng)絡(luò)口碑營銷信息流推廣

ydjx168.com.cn-精品无码国产自产拍在线观看蜜,国产女主播喷水视频在线观看,成A人片亚洲日本久久,国产成人8X视频网站入口

WJMonitor輿情之聲

詞庫整理+詞庫篩選@steven

相關(guān)資訊

產(chǎn)品與服務(wù)

最新文章

熱門文章