1 ? ?選取詞庫競爭對手->準(zhǔn)備階段:選擇基礎(chǔ)的根詞和相關(guān)的長尾詞
1.1 ? ?專業(yè)的
seo分類站點上找;導(dǎo)航站上去批量找到;如果實在無資源的情況下可手動補(bǔ)充。目標(biāo)是盡量涵蓋行業(yè)內(nèi)的所有站點。
1.2 ? ?自有的抓取數(shù)據(jù)庫里找到行業(yè)根詞
1.3 ? ?行業(yè)競爭對手的網(wǎng)站地圖中找到行業(yè)根詞
1.4 ? ?手上擁有的資源站點中找到搜索流量的搜索詞(百度統(tǒng)計、GA統(tǒng)計等統(tǒng)計工具)
1.5 ? ?有資源的話,請花錢向?qū)I(yè)的整合公司購買行業(yè)關(guān)鍵詞數(shù)據(jù)庫
1.2批注 ? ?如果先期已經(jīng)有網(wǎng)站了,請從自己站點的維度出發(fā)尋找,其中一定有讓底層的根詞庫
建議:
處理人員:助理
相關(guān)技能:火車頭或相關(guān)的采集工具
耗時估計:1-2天
大部分情況下我們不是1.5的土豪,花個萬把塊買整合好的數(shù)據(jù),所以接著1.1-1.4如下處理
2 ? ?再次拓詞->將較為完整的1中的詞拿出來再做拓展,力求涵蓋整個行業(yè)的關(guān)鍵詞數(shù)據(jù)庫
2.1 ? ?將1.1中的站點分類,選出和你將要做的站點屬性相同的站
2.1.1 ? ?采集這些站點下的關(guān)鍵詞庫,可采用:愛站關(guān)鍵詞挖掘工具(非付費導(dǎo)出量有限,量級較少,噪點較少),5118數(shù)據(jù)庫(可采用火車頭采集,利用2次抓取的邏輯可采集到量級很大的詞,但噪點過多,很多100名開外的無用詞);
2.2 ? ?將1.2,1.3,1.4,2.1中的詞放入關(guān)鍵詞拓展工具中進(jìn)行拓展
2.2.1 ? ?根詞的拓展量可以在6K左右;已經(jīng)較長尾的拓展量可以再600左右,請自適應(yīng)安排
2.3 ? ?將所有的詞整理,先初步去重(包含兩步,重復(fù)項和某些特定詞;建議程序)
2.1批注 ? ?以游戲站點為例,分類成:網(wǎng)游;頁游;手游;小游戲;綜合等,找出你要做的站點的屬性,將其記錄下來。
2.1批注 ? ?綜合類的站點,比如sina.com.cn,用愛站或5118找到其屬性和你相同的站,假使你要做頁游,看看有沒有web.sina.com.cn等站點,快速找到提取
2.1.1批注 ? ?要資源購買付費版的買付費版,能很大程度上節(jié)省時間,別老想著免費;
2.1.1批注 ? ?5118數(shù)據(jù)庫用火車頭可以批量抓取,量級大的話需要時間,請預(yù)估好;采集的方式,先通配采集每個域名/subdomains/下的翻頁數(shù),再批量寫規(guī)則通配采集/baidu/rank/下的關(guān)鍵詞,這樣做是因為每個域名的排名頁數(shù)不同
2.2批注 ? ?愛站的拓長尾詞能力好一些,短詞(既行業(yè)根詞)可用愛站跑;中短詞長度(判斷標(biāo)準(zhǔn),excel函數(shù)=len(*)在4-9左右)可用戰(zhàn)神工具跑;中長詞(=len(*)在9-18左右)也可用戰(zhàn)神工具跑;長詞(=len(*)在18-29左右)感覺可以該刪的刪掉,不用跑了
由于去重出來的重復(fù)量過大,有千萬級別的,所以必須過濾,分機(jī)器和人工同時進(jìn)行處理
3 ? ?處理關(guān)鍵詞
3.1 ? ?機(jī)器初過濾 – 處理噪詞;去重
3.1.1 ? ?直接匹配刪 ,比如:#,$,http,-,..,.com,.xml等等,根據(jù)自己的行業(yè)特性進(jìn)行篩選,包含的直接刪
3.1.2 ? ?替換,主要是轉(zhuǎn)義的和空格,比如:?,",&
3.1.3 ? ?全數(shù)字刪除,根據(jù)行業(yè)情況處理
3.1.4 ? ?以上剩余的詞庫做去重
3.2 ? ?機(jī)器初篩選 – 提取精準(zhǔn)詞
3.1.1 ? ?再處理下根詞,把根詞中的噪詞處理一下,比如()里面的內(nèi)容等,幫助接下來機(jī)器提取的精準(zhǔn)度
3.1.2 ? ?用行業(yè)詞庫和根詞去匹配所有的詞,整理出一份文檔,打包。這部分是精準(zhǔn)的詞。
3.3 ? ?人力去臟詞
3.3.1 ? ?軟件工具 :notepad++;office excel 2010以上的版本(WPS不行);?關(guān)鍵詞自動分類工具
3.3.2 ? ?步驟
3.3.2.1 ? ?用notepad++打開文檔,將所有詞復(fù)制到分類工具中
3.3.2.2 ? ?點擊分類工具中的開始查詢
3.3.2.3 ? ?等待,等到右邊跳出終的結(jié)果(過程可能持續(xù)5-15分鐘不等,不用理睬未響應(yīng)),期間可以同步進(jìn)行其他事情
3.3.2.4 ? ?復(fù)制分詞中的結(jié)果到notepad++,再到xls表格中(點擊結(jié)果,ctrl+a,因為沒有明顯的標(biāo)識,等待全部變藍(lán),期間可能有幾次未響應(yīng))
3.3.2.5 ? ?xls表格中,#字號分列
3.3.2.6 ? ?行插入四列,根詞,一級,二級,三級
3.3.2.7 ? ?選擇四列,插入數(shù)據(jù)透視表
3.3.2.8 ? ?在B列進(jìn)行數(shù)字標(biāo)識,直接刪除的為1(無關(guān)),待定的為2(其間既混有游戲詞也混有無關(guān)詞),OK的為3
3.3.2.9 ? ?處理完后在E2列輸入函數(shù)公式 ? =VLOOKUP(A2,Sheet4!A:B,2,0),下拉到底等待處理完畢
3.3.2.10 ? ?選擇E2列,篩選,將1的去除,留下2和3的結(jié)果
3.3.2.11 ? ?保存文檔,一份整理完
(這部分待編輯,留優(yōu)化空間)
?
二、 ? ?采集底層文章 -> 根據(jù)2中的詞使用采集工具去采集底層文章
3.1 ? ?使用付費工具,水淼軟件,采集非百度的源(可使用360、搜狗、微信、bing、谷歌等,谷歌需翻墻)
3.2 ? ?文章篩選效率優(yōu)化
3.2.1 ? ?規(guī)則:a.包含主要根詞(以網(wǎng)頁游戲為例,文章中包含“頁游”or“webgame”);b.和游戲有關(guān);c.標(biāo)題限制;d.大小限制(大于多少K的可以直接去除);e.文章內(nèi)容下限250字;f.再加上人工的篩選;g.機(jī)器替換競品詞和去除某些詞;總體篩選剩余在18%左右
3.3 ? ?采集源優(yōu)化:找非百度的源頭,哪些文章質(zhì)量命中更高一些,如果相同的情況下,可以看下抓取的質(zhì)量或抓取的時間時效性
3.3.1 ? ?先采集攻略,防止如果先采集新聞,將攻略類的資源分布進(jìn)去,增加后期調(diào)整的成本
三、 ? ?站點優(yōu)化