說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732
全網(wǎng)監(jiān)測海量數(shù)據(jù)按需發(fā)布監(jiān)測預(yù)警
實(shí)時(shí)把握輿情動態(tài)精準(zhǔn)追溯信息源頭
在信息收集和采集的過程當(dāng)中,數(shù)據(jù)挖掘技術(shù)是一個(gè)非常重要的凡事也是必不可少的方式,那么數(shù)據(jù)挖掘技術(shù)的流程是什么以及如何使用呢?接下來我們就一起來好好的了解一下吧。
數(shù)據(jù)挖掘技術(shù)——數(shù)據(jù)挖掘技術(shù)的流程是什么
(1)信息收集:根據(jù)確定的數(shù)據(jù)分析對象抽象出在數(shù)據(jù)分析中所需要的特征信息,然后選擇合適的信息收集方法,將收集到的信息存入數(shù)據(jù)庫。對于海量數(shù)據(jù),選擇一個(gè)合適的數(shù)據(jù)存儲和管理的數(shù)據(jù)倉庫是至關(guān)重要的。
(2)數(shù)據(jù)集成:把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。
(3)數(shù)據(jù)規(guī)約:執(zhí)行多數(shù)的數(shù)據(jù)挖掘算法即使在少量數(shù)據(jù)上也需要很長的時(shí)間,而做商業(yè)運(yùn)營數(shù)據(jù)挖掘時(shí)往往數(shù)據(jù)量非常大。數(shù)據(jù)規(guī)約技術(shù)可以用來得到數(shù)據(jù)集的規(guī)約表示,它小得多,但仍然接近于保持原數(shù)據(jù)的完整性,并且規(guī)約后執(zhí)行數(shù)據(jù)挖掘結(jié)果與規(guī)約前執(zhí)行結(jié)果相同或幾乎相同。
(4)數(shù)據(jù)清理:在數(shù)據(jù)庫中的數(shù)據(jù)有一些是不完整的(有些感興趣的屬性缺少屬性值),含噪聲的(包含錯(cuò)誤的屬性值),并且是不一致的(同樣的信息不同的表示方式),因此需要進(jìn)行數(shù)據(jù)清理,將完整、正確、一致的數(shù)據(jù)信息存入數(shù)據(jù)倉庫中。
(5)數(shù)據(jù)變換:通過平滑聚集,數(shù)據(jù)概化,規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。對于有些實(shí)數(shù)型數(shù)據(jù),通過概念分層和數(shù)據(jù)的離散化來轉(zhuǎn)換數(shù)據(jù)也是重要的一步。
(6)數(shù)據(jù)挖掘過程:根據(jù)數(shù)據(jù)倉庫中的數(shù)據(jù)信息,選擇合適的分析工具,應(yīng)用統(tǒng)計(jì)方法、事例推理、決策樹、規(guī)則推理、模糊集、甚至神經(jīng)網(wǎng)絡(luò)、遺傳算法的方法處理信息,得出有用的分析信息。
(7)模式評估:從商業(yè)角度,由行業(yè)專家來驗(yàn)證數(shù)據(jù)挖掘結(jié)果的正確性。
(8)知識表示:將數(shù)據(jù)挖掘所得到的分析信息以可視化的方式呈現(xiàn)給用戶,或作為新的知識存放在知識庫中,供其他應(yīng)用程序使用。
數(shù)據(jù)挖掘技術(shù)如何操作
神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)由于本身良好的魯棒性、自組織自適應(yīng)性、并行處理、分布存儲和高度容錯(cuò)等特性非常適合解決數(shù)據(jù)挖掘的問題,用于分類、預(yù)測和模式識別的前饋式神經(jīng)網(wǎng)絡(luò)模型;以hopfield的離散模型和連續(xù)模型為代表的,分別用于聯(lián)想記憶和優(yōu)化計(jì)算的反饋式神經(jīng)網(wǎng)絡(luò)模型;以art模型、koholon模型為代表的,用于聚類的自組織映射方法。神經(jīng)網(wǎng)絡(luò)方法的缺點(diǎn)是”黑箱”性,人們難以理解網(wǎng)絡(luò)的學(xué)習(xí)和決策過程。
遺傳算法
遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法。遺傳算法具有的隱含并行性、易于和其它模型結(jié)合等性質(zhì)使得它在數(shù)據(jù)挖掘中被加以應(yīng)用。
sunil已成功地開發(fā)了一個(gè)基于遺傳算法的數(shù)據(jù)挖掘工具,利用該工具對兩個(gè)飛機(jī)失事的真實(shí)數(shù)據(jù)庫進(jìn)行了數(shù)據(jù)挖掘?qū)嶒?yàn),結(jié)果表明遺傳算法是進(jìn)行數(shù)據(jù)挖掘的有效方法之一[4]。遺傳算法的應(yīng)用還體現(xiàn)在與神經(jīng)網(wǎng)絡(luò)、粗集等技術(shù)的結(jié)合上。如利用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在不增加錯(cuò)誤率的前提下,刪除多余的連接和隱層單元;用遺傳算法和bp算法結(jié)合訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后從網(wǎng)絡(luò)提取規(guī)則等。但遺傳算法的算法較復(fù)雜,收斂于局部極小的較早收斂問題尚未解決。
決策樹方法
決策樹是一種常用于預(yù)測模型的算法,它通過將大量數(shù)據(jù)有目的分類,從中找到一些有價(jià)值的,潛在的信息。它的主要優(yōu)點(diǎn)是描述簡單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理。最有影響和最早的決策樹方法是由quinlan提出的著名的基于信息熵的id3算法。它的主要問題是:id3是非遞增學(xué)習(xí)算法;id3決策樹是單變量決策樹,復(fù)雜概念的表達(dá)困難;同性間的相互關(guān)系強(qiáng)調(diào)不夠;抗噪性差。針對上述問題,出現(xiàn)了許多較好的改進(jìn)算法,如schlimmer和fisher設(shè)計(jì)了id4遞增式學(xué)習(xí)算法;鐘鳴,陳文偉等提出了ible算法等。
粗集方法
粗集理論是一種研究不精確、不確定知識的數(shù)學(xué)工具。粗集方法有幾個(gè)優(yōu)點(diǎn):不需要給出額外信息;簡化輸入信息的表達(dá)空間;算法簡單,易于操作。粗集處理的對象是類似二維關(guān)系表的信息表。但粗集的數(shù)學(xué)基礎(chǔ)是集合論,難以直接處理連續(xù)的屬性。而現(xiàn)實(shí)信息表中連續(xù)屬性是普遍存在的。因此連續(xù)屬性的離散化是制約粗集理論實(shí)用化的難點(diǎn)。
以上就是有關(guān)數(shù)據(jù)挖掘技術(shù)的所有相關(guān)介紹,做好網(wǎng)站優(yōu)化,那么數(shù)據(jù)挖掘技術(shù)就一定要學(xué)會,所以各位站長們一定要注意了。如果大家還想了解更多與之有關(guān)的內(nèi)容,歡迎關(guān)注我們文軍營銷的官網(wǎng)。
推薦閱讀
輿情分析報(bào)告如何寫,以及網(wǎng)絡(luò)輿情目前的現(xiàn)狀 | 文軍營銷事件監(jiān)測數(shù)據(jù)計(jì)算-現(xiàn)狀:通常,關(guān)鍵詞進(jìn)入系統(tǒng)后,會先在目前的數(shù)據(jù)庫(一般是ES)中進(jìn)行查找,找到符合的數(shù)據(jù)并展現(xiàn)。但是好的系統(tǒng)會同時(shí)啟用多種手段提高數(shù)據(jù)召回率,例如搜索引擎、特定渠道的文章搜索等等。每篇文章都會進(jìn)行細(xì)致的NLP語義分析以用于更詳細(xì)的挖掘用,但是由于算力和技術(shù)問題,大部分NLP計(jì)算都用于標(biāo)簽分類、實(shí)體...李彥宏證監(jiān)會演講:百度是如何布局人工智能的? | 文軍營銷當(dāng)然,交通行業(yè)只是一個(gè)案例,未來的大數(shù)據(jù)將會從各行各業(yè)產(chǎn)生,而人工智能將會對這些各行各業(yè)的數(shù)據(jù)進(jìn)行自頂向下的標(biāo)準(zhǔn)化挖掘、關(guān)聯(lián),當(dāng)前只是在利用人工智能挖掘各個(gè)行業(yè)的效率,在未來各種行業(yè)的大數(shù)據(jù)整合到一起之后,需要更為強(qiáng)大的人工智能將其整合、解讀、分析,終實(shí)現(xiàn)全社會的資源為的分配調(diào)度,而這也是百度野心。 ...
說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732