說(shuō)明:如果您有任何疑問(wèn)或想咨詢其他業(yè)務(wù)請(qǐng)撥打電話 400 685 0732
全網(wǎng)監(jiān)測(cè)海量數(shù)據(jù)按需發(fā)布監(jiān)測(cè)預(yù)警
實(shí)時(shí)把握輿情動(dòng)態(tài)精準(zhǔn)追溯信息源頭
一、詞庫(kù)的篩選與建立
建立一個(gè)幾十萬(wàn)的詞庫(kù)很好說(shuō),但是針對(duì)這些詞你是如何處理的呢?分類,去重,篩選,沒(méi)有用的高頻詞,停止詞,雜詞,相似度,等等,你都是如何解決的?
道哥:
分類通常不做,因?yàn)榫炔皇呛茏屓藵M意,分出一堆碎片分類看著頭疼建立詞庫(kù)的過(guò)程中不斷維護(hù)一個(gè)白名單和黑名單,抽取出強(qiáng)特征用于過(guò)濾高頻詞還有詞性等通常不過(guò)濾,尤其是不需要抽取query實(shí)體的場(chǎng)景下,高頻詞以及詞性的過(guò)濾反倒有可能導(dǎo)致語(yǔ)義轉(zhuǎn)義掉,這對(duì)于以分析為目的的詞庫(kù)而言是得不償失。
停止詞只過(guò)濾一個(gè)“的”行了,千萬(wàn)不要貪停止詞的多,反倒是空格需要過(guò)濾,然后不同來(lái)源的詞庫(kù)合并去重,同詞不同搜索量的再處理下。
,建議挖詞庫(kù)的時(shí)候一個(gè)個(gè)品類挖,否則挖出個(gè)幾十萬(wàn)上百萬(wàn)的詞庫(kù),沒(méi)點(diǎn)耐心和技巧處理起來(lái)真的很麻煩,屬于前期省事后期煩心。
Gogo闖:
擴(kuò)詞 – 過(guò)濾 – 找規(guī)律 – 評(píng)估 – 維護(hù)
擴(kuò)詞:根據(jù)指定詞根擴(kuò)展一批關(guān)鍵詞
過(guò)濾:去除與詞根不相關(guān)的詞(可以粗暴的把不包含詞根的詞拿出來(lái)),去除沒(méi)法上線的詞(比如帶空格,各種符號(hào),如“2013年工作總結(jié)”等不合符時(shí)效的、敏感詞:東莞…..),去重(完全匹配去重:“北京旅游,北京旅游”刪掉1個(gè);至于如“2015北京平均工資,北京平均工資2015”不完全匹配的,個(gè)人感覺(jué)沒(méi)有去重的必要,詞綴在整個(gè)詞中出現(xiàn)的位置對(duì)流量有些影響的,另外這些詞去重起來(lái)也麻煩)
找規(guī)律:把詞根前后的詞綴全拿出來(lái),把詞綴出現(xiàn)頻率高的篩出來(lái),這種詞都是有特定的搜索組合的。
之后再把包含高頻詞綴的詞都刪掉,再把搜索量高的詞拿出來(lái),基本都是沒(méi)有變量,適合做專題的詞:如“住房公積金提取條件”“按揭貸款申請(qǐng)流程”….
評(píng)估:評(píng)估哪些詞能上,哪些不能上;能上的詞都是有內(nèi)容,相關(guān)的。直接的動(dòng)作是找網(wǎng)站中有多少內(nèi)容跟這個(gè)詞相關(guān),跑搜索結(jié)果、數(shù)據(jù)庫(kù)均可,自己發(fā)散下~
半人工半程序處理,沒(méi)啥技術(shù)含量,純粹各種小技巧和歸納思維。
另外一種情況是根本沒(méi)有找不到詞根去挖詞,上面的流程根本沒(méi)法用,典型如新聞咨詢類的網(wǎng)站,如“派代網(wǎng)”那種,各種各樣毫不相干的tag,我這能想到的辦法是拿一堆新聞文章,至少幾十萬(wàn)的,挑幾個(gè)需要挖掘的主題,用word2vec把聚類的詞找出來(lái)。
二、怎樣從大批詞庫(kù)中給關(guān)鍵詞快速分類詞性?利用包含字眼怎么樣?
個(gè)人想法是統(tǒng)計(jì)各個(gè)詞性的包含字眼,如費(fèi)用類關(guān)鍵詞一般都包含:“錢(qián)”,“價(jià)”,“多少”,“費(fèi)”,“貴”,“便宜”大概這些字眼,統(tǒng)計(jì)好字眼利用excel的vlookup函數(shù)或者類似更好用的工具給詞庫(kù)中包含這些字眼的關(guān)鍵詞歸類為費(fèi)用類。
如果大家有更好的辦法求賜教啊~,如果跟我這個(gè)想法差不多的,希望能借鑒詞性包含的字眼這個(gè)我統(tǒng)計(jì)了好幾次都覺(jué)得不準(zhǔn)確。
道哥:
有監(jiān)督分類的難點(diǎn)在于分類特征選取及多分類分歧處理,gogo闖舉的正是此例。
而王楠包括之前民工提供的工具其實(shí)都屬于無(wú)監(jiān)督分類的范疇了。而事實(shí)是無(wú)監(jiān)督分類哪怕用上了樸素貝葉斯分類器這種高大上的NLP牛刀,其效果幾乎是慘不忍睹,因?yàn)檫@種方法會(huì)產(chǎn)生大量的碎片分類且分類可用性不高,而若要對(duì)碎片分類再做聚類,一來(lái)效果仍然不佳,二來(lái)顯然又一次舍近求遠(yuǎn)了。
題主的需求顯然以精度要求為先,因此推薦有監(jiān)督分類方法。分類特征選取可考慮人工給每個(gè)分類分出一定量級(jí)的結(jié)果,對(duì)合結(jié)果集合提取tfidf得分較高的詞再人工細(xì)看一遍,這種特征選取方法同樣適用于文章分類。多分類分歧比較傻瓜的方法是。。。
Gogo闖:
前期肯定要人工過(guò),盡可能窮盡同一類詞所有的共性特征及在詞中的位置。
之前用鳳巢找職位相關(guān)需求的時(shí)候,會(huì)出現(xiàn)各種亂七八糟的非職位詞,于是從智聯(lián)找出1w個(gè)職位詞當(dāng)樣本,窮舉職位詞共有的特征。
三、seo關(guān)鍵詞詞庫(kù)的分類篩選程序。
國(guó)平:
我們已經(jīng)開(kāi)發(fā)了一個(gè)SEO關(guān)鍵詞詞庫(kù)的分類程序,效果還不錯(cuò),打算在錄制SEO免費(fèi)視頻后免費(fèi)發(fā)出來(lái)。
這個(gè)分類篩選程序用到的算法也還不錯(cuò)的,只有一個(gè)缺點(diǎn),是在計(jì)算關(guān)鍵詞相關(guān)性的時(shí)候,目前只支持包含關(guān)系。比如:德國(guó)、法國(guó)都是國(guó)家,分類篩選程序在獲取到“德國(guó)”這個(gè)關(guān)鍵詞后,不可以智能地把“法國(guó)”也分類到一起。不過(guò)這個(gè)問(wèn)題是有解決辦法的,但是一個(gè)單機(jī)的計(jì)算量有限,要計(jì)算很長(zhǎng)時(shí)間才可以,所以暫時(shí)沒(méi)有這個(gè)功能。
稍后可以放一些效果圖來(lái)看看,大家可能不知道,僅僅是用包含關(guān)系來(lái)篩選詞庫(kù),獲得的分類足夠有用了。
說(shuō)明:如果您有任何疑問(wèn)或想咨詢其他業(yè)務(wù)請(qǐng)撥打電話 400 685 0732