說(shuō)明:如果您有任何疑問(wèn)或想咨詢其他業(yè)務(wù)請(qǐng)撥打電話 400 685 0732
全網(wǎng)監(jiān)測(cè)海量數(shù)據(jù)按需發(fā)布監(jiān)測(cè)預(yù)警
實(shí)時(shí)把握輿情動(dòng)態(tài)精準(zhǔn)追溯信息源頭
搜索引擎系統(tǒng)概述
本次培訓(xùn)內(nèi)容主要包括搜索引擎系統(tǒng)概述、搜索引擎系統(tǒng)、搜索引擎分析系統(tǒng)、搜索引擎索引系統(tǒng)和搜索引擎查詢系統(tǒng)六大板塊。搜索引擎的服務(wù)方式可以分為三種:目錄式搜索引擎、全文搜索引擎和元搜索引擎。
搜索引擎系統(tǒng)
目前萬(wàn)維網(wǎng)的結(jié)構(gòu)是一個(gè)蝴蝶結(jié)結(jié)構(gòu),位于蝴蝶結(jié)兩端的分別是目錄型網(wǎng)頁(yè)和權(quán)威型網(wǎng)頁(yè),目錄型網(wǎng)頁(yè)是蜘蛛爬取的入口,即種子站點(diǎn),它擁有大量的導(dǎo)出鏈接,而導(dǎo)入鏈接卻比較少。我們網(wǎng)站中的一些內(nèi)容頁(yè)便是權(quán)威型頁(yè)面,它們擁有很多的導(dǎo)入鏈接,卻鮮有導(dǎo)出鏈接。剩下的蝴蝶結(jié)的主體便是互聯(lián)網(wǎng)多數(shù)的頁(yè)面。
蜘蛛的爬行抓取策略分為廣度抓取和深度抓取,廣度抓取是先抓取層級(jí)比較低比較重要的目錄頁(yè)等,然后再去抓取下一層級(jí)的。而深度抓取便是沿著一個(gè)分類進(jìn)行深層次的抓取,直到這個(gè)分類全部抓取結(jié)束,然后繼續(xù)抓取下一分類。
Robots協(xié)議是寫給蜘蛛看的標(biāo)準(zhǔn),可以規(guī)定蜘蛛哪些頁(yè)面可以抓取哪些不可以抓取。
搜索引擎分析系統(tǒng)
互聯(lián)網(wǎng)上的頁(yè)面是由動(dòng)態(tài)頁(yè)面和靜態(tài)頁(yè)面組成的,靜態(tài)頁(yè)面指的是html頁(yè)面,html預(yù)言是超文本標(biāo)記語(yǔ)言,它是由形形的標(biāo)簽組成的。
因?yàn)橹形牟幌裼⑽膯卧~一樣中間有空格,所以中文搜索引擎需要應(yīng)用中文分詞技術(shù)P(S)=P(W1W2W3……Wn)=P(W1)*P(W2|W1)*P(Wt|W1W2……Wt-1),互聯(lián)網(wǎng)是喜歡原創(chuàng)的東西的,為了避免大量的抄襲文章的出現(xiàn),搜索引擎會(huì)運(yùn)用Shingle查重算法。鏈接是一個(gè)網(wǎng)站對(duì)另一個(gè)網(wǎng)站的信任投票,PR算法:PR(A) = (1-d)+ d(PR(t1)/C(t1)+ … + PR(tn)/C(tn))。
搜索引擎索引系統(tǒng)
索引分為正排索引和倒排索引,正排索引是把互聯(lián)網(wǎng)中的文章編號(hào),然后運(yùn)用分詞技術(shù),統(tǒng)計(jì)出每篇文章中有哪些關(guān)鍵詞。倒排索引是在正排索引的基礎(chǔ)上,將關(guān)鍵詞編號(hào),然后統(tǒng)計(jì)出這些關(guān)鍵詞對(duì)應(yīng)了哪些文章。這樣當(dāng)我們?cè)谒阉饕嫔蠙z索關(guān)鍵詞的時(shí)候,搜索引擎便可以輕松的將包含這些關(guān)鍵詞的文章頁(yè)面返回給我們。
搜索引擎查詢系統(tǒng)
當(dāng)我們?cè)谒阉饕娈?dāng)中查詢一個(gè)詞的時(shí)候,搜索引擎會(huì)調(diào)用布爾模型算法返回包含我們查詢?cè)~的頁(yè)面,這些頁(yè)面是經(jīng)過(guò)權(quán)重計(jì)算(內(nèi)容+鏈接+用戶點(diǎn)擊)排序過(guò)的,呈現(xiàn)出的結(jié)果包括url、標(biāo)題、描述、快照日期和圖片。
中心思想
搜索的本質(zhì)的將雜亂無(wú)章的信息通過(guò)合理的分類整合變得有序,并通過(guò)用戶的需求按照內(nèi)容質(zhì)量的程度呈現(xiàn)給用戶。搜索引擎會(huì)預(yù)先抓取互聯(lián)網(wǎng)上的網(wǎng)頁(yè)建立網(wǎng)頁(yè)庫(kù),然后運(yùn)用正排索引和倒排索引建立一個(gè)索引庫(kù),用戶在搜索引擎查找信息時(shí),再通過(guò)查詢系統(tǒng)呈現(xiàn)給用戶。
做seo的目的是將網(wǎng)站優(yōu)化的更合理,排到更好的位置將更好的內(nèi)容呈現(xiàn)給用戶。我們應(yīng)該從原理層面去理解搜索引擎,掌握它的每一個(gè)環(huán)節(jié),這樣才能夠?qū)⒐ぷ髯龅酶谩?/p>
心得
做搜索引擎優(yōu)化不僅要知其然還必須要知其所以然,只有真正明白了搜索引擎原理,我們才能更好的做好SEO。
百度更喜歡原創(chuàng)的內(nèi)容,我們要明白何為原創(chuàng),這要理解分詞技術(shù)和去重算法,不然即使是你自己寫的一篇文章,也可能會(huì)被搜索引擎誤判為抄襲。關(guān)鍵詞出現(xiàn)的頻率和位置,以及相關(guān)詞的密度,都是影響一篇文章質(zhì)量的重要因素。
發(fā)外鏈有三重意義,一是為網(wǎng)站獲得更多的信任投票,而且只有與網(wǎng)站內(nèi)容相關(guān)的網(wǎng)站的外鏈才能夠傳遞更高的權(quán)重。二是為蜘蛛提供更多的入口,有利于蜘蛛抓取網(wǎng)站更多更的內(nèi)容。是為用戶提供一個(gè)入口,用戶可能會(huì)通過(guò)點(diǎn)擊鏈接而進(jìn)入網(wǎng)站。
百度是一家商業(yè)機(jī)構(gòu),它擁有自己的盈利模式,而這一切的基礎(chǔ)便是搜索引擎良好的用戶體驗(yàn),百度是十分重視用戶體驗(yàn)的,所以無(wú)論搜索引擎的算法如何變,都會(huì)是圍繞著用戶體驗(yàn)為中心的。我們只有圍繞著用戶體驗(yàn)進(jìn)行優(yōu)化,才能使我們的網(wǎng)站更加符合百度的標(biāo)準(zhǔn),而不會(huì)因?yàn)檫^(guò)度優(yōu)化被百度降權(quán)。比如網(wǎng)站的扁平化設(shè)計(jì),更利于蜘蛛的抓取,更加利于百度的收錄,而從另一方面來(lái)說(shuō)扁平化的設(shè)計(jì)也更利于簡(jiǎn)化用戶的搜索流程,更利于用戶找到自己所需的內(nèi)容。
推薦閱讀
說(shuō)明:如果您有任何疑問(wèn)或想咨詢其他業(yè)務(wù)請(qǐng)撥打電話 400 685 0732