說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732
全網監測海量數據按需發布監測預警
實時把握輿情動態精準追溯信息源頭
首先,我們在建立行業詞庫之前想一想:為什么要建立行業詞庫?
從搜索引擎本質上思考,不管是當今的百度、谷歌、雅虎等等,說白了都是做的關鍵詞搜索,關鍵詞是網站內容的通道。一個網站應用好的關鍵詞,如同建立了強有力的引流通道,在后期的建設過程中使得流量吸引的能力越來越強。
那么,如何建立行業詞庫?
這里,我拿到了一份8000萬數據量的游戲行業詞庫,需要整理。整理流程分別為:去重、去噪、篩選、篩選敏感詞反復去噪、規整、去重、產品劃分、產品屬性維度細分。
1 去重
8000萬的數據量,去重濃縮到了1500萬數據,將近20%。這個數據,我次看到并不吃驚,大量的網站,在整個行業中布局的詞有很多詞重復特別是主體頁面上爭的是那些高流量的詞,很正常。
2 去噪
初步去噪,識別ip段等數據直接刪掉,一些特殊符號直接替換。
3 篩選
根據游戲詞庫將1500萬詞庫一份為2,得到1200萬詞庫和300萬頁游詞庫。游戲部領導的意思是,先從度高的300萬詞庫入手,先反復去噪,用短的時間先把這個庫用起來。
4 篩選敏感詞反復去噪
其實,花時間的過程是這一步,需要你每天做一件事,從中找敏感詞,游戲行業敏感詞有哪些。比較短的詞風險比較大要慎重,長的詞相對風險較小。詞根是品牌的詞相對來說直接過了,不是我們要找的詞。舉個case,“三國演義趙云”和”三國無雙頁游”,兩個詞的詞根都是三國,其實你認為“三國演義趙云”需要刪除,的確它跟頁游無關,但它跟三國有關,這種詞可以引流,它定位是吸引潛在的游戲用戶群體。但如果詞根是一個形容詞,這種詞可以和各種詞組合,這種詞引流的意義不大了,因為含義相關度太差,信息匹配度非常的低,可以直接刪了或者找出敏感詞,進行過濾。
去噪,既是一件簡單事,也是一件體力活,但是不同的人為什么效率不一樣,自然再簡單的事情也有其精髓所在。
5 規整
詞庫篩選的過程中,你會發現游戲詞很多有一些臟的詞比如后綴加了三個零等等,需要整體規整這些數據,保證數據的準確性。
6 再次去重
規整以后的數據,詞庫中會有大量的重復,需要二次去重。300萬詞庫濃縮到->120萬,1200萬詞庫濃縮到->750萬。
7 產品劃分
將300萬的詞庫按產品劃分,這里主要分為三大類:頁游、平臺、其他。為什么這樣劃分?首先,300萬的詞庫的詞根都是屬于頁游品牌或平臺商或其他類別。300萬經過去噪后的數據可以再次根據這3份標準庫進行分類。分類的過程中,有一個注意點:26.5g熱血海賊王,既要出現在頁游庫的“熱血海賊王”文件中,同時也應當在平臺庫的文件名為”26.5g“的文件中出現。
8 產品屬性維度細分
從第7步,我們已經得到了分類詞庫的文件,每個產品生成頁面首先都要一定的維度,我這邊主要是按照:攻略、裝備、禮包、輔助、開服表。
這些維度也是后期我們要采集文章的維度。120萬詞庫雖然體量很大,但是實際發現這些維度分下來,還有數據缺口,后期可能還要臨時采集這些數據,去彌補。
頁游行業詞庫建設,幫助我們后期生成大量的文章頁面,通過強有力的內鏈架構,一方面增大網站的體量,增大收錄規模,將產品聚合頁、產品頁撐起來,同時通過詞庫的建設進而計算詞與詞的關系進而利用程序生成大量的tag頁面,將文章頁面撐起來,這樣的網站架構站內資源極其豐富,如果增加一定的站外資源,根據排名=內部因素+外部因素,網站的整體排名會。點擊率=排名*文案,文案優化好,點擊率會高。有了排名有了點擊率,流量會ok。由此可見,我們先做行業詞庫而不是直接寫文章發外鏈,是在苦心孤詣地磨刀,老話說得好:磨刀不誤砍柴工,刀磨好了,砍柴活何止事半功倍,更何況這活還是在seo界!
推薦閱讀
說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732