邯鄲搜索引擎蜘蛛是什么?

閱讀 ?·? 發(fā)布日期 2018-11-09 09:04 ?·? admin

蜘蛛的概念:

搜索引擎蜘蛛并不是真正意義上的蜘蛛,它只是搜索引擎指派出的一個有調(diào)度機制的抓取程序,用于抓取互聯(lián)網(wǎng)中的網(wǎng)頁,根據(jù)搜索引擎的不同,spider也會有不同的分類,但是大部分的蜘蛛都是解決相同的問題,有著相同的工作原理。

蜘蛛的分類 :

批量型蜘蛛,此類型的蜘蛛具有明確的抓取范圍和目標,抓取時間、抓取數(shù)量限制,或抓取固定范圍頁面的限制,當蜘蛛的工作達到預(yù)先設(shè)置的目標就會停止,我們一般自己用工具或程序采集的工具,所派出的spider一般就屬于批量型的蜘蛛,只抓取固定網(wǎng)站的固定內(nèi)容,或者對某一資源設(shè)置固定的目標抓取數(shù)量限制。

垂直型蜘蛛,垂直蜘蛛也可以稱為聚焦爬蟲,只對特定主題、特定內(nèi)容或特定行業(yè)的網(wǎng)頁進行抓取,一般都會聚焦在某一個限制范圍內(nèi)進行增量的抓取,此類型的spider不像增量型spider一樣追求大而廣的覆蓋面,而是在增量型spider上增加一個抓取網(wǎng)頁的限制,根據(jù)需求抓取含有目標內(nèi)容的網(wǎng)頁。

增量型蜘蛛是一種比較通用的爬蟲,這類爬蟲的目標和批量型spider的目標不同,它們不需要盡可能的抓取更多的網(wǎng)頁,增量型spider主要工作是對已經(jīng)抓取到的頁面進行再次的抓取和更新,因為互聯(lián)網(wǎng)中的網(wǎng)頁是不斷變化的,網(wǎng)頁上的內(nèi)容可能會隨著時間發(fā)生隨時發(fā)生改變,增量型蜘蛛就負責(zé)抓取不斷被更改更新的網(wǎng)頁,抓取后并返回給搜索引擎的預(yù)處理系統(tǒng)進行處理,重新計算該頁面的權(quán)值。

蜘蛛抓取網(wǎng)頁的策略

搜索引擎把蜘蛛分為這么多的類型,每個類型的spider都有它們各自的作用,如何協(xié)調(diào)這些蜘蛛進行協(xié)同工作,就需要搜索引擎有強大的spider抓取策略,因為互聯(lián)網(wǎng)中的網(wǎng)頁是無窮無盡的,每天都會產(chǎn)生數(shù)以百萬的網(wǎng)頁,優(yōu)秀搜索引擎的抓取策略也決定了它是否能為用戶提供高效的查詢服務(wù)。

首先搜索引擎會把網(wǎng)頁進行分類抓取,分為已抓取頁面、待抓取頁面、可抓取頁面、暗網(wǎng)頁面、這些頁面是搜索引擎抓取網(wǎng)頁和存儲的基本方式。

搜索引擎在面對不同類型網(wǎng)站的時候,會使用不同的抓取策略機制,常見的深度優(yōu)先策略、廣度優(yōu)先策略,這些策略的實施和抓取都是通過搜索引擎的調(diào)度機制來控制的。

深度優(yōu)先即沿著當前網(wǎng)頁被優(yōu)先發(fā)現(xiàn)的鏈接一直順著抓取下去,直到該鏈接頁面沒有其它頁面的鏈接,spider才會再次返回來抓取原來第一批發(fā)現(xiàn)頁面上的另外一個鏈接,依次這樣抓取循環(huán)下去。

廣度優(yōu)先的策略一般在新站上的體現(xiàn)比較明顯,spider在一個頁面上發(fā)現(xiàn)多個鏈接時,會先把該頁面抓取一遍,然后再抓從這些頁面上提取下來的鏈接,把鏈接放入到待抓取URL列表,在返回抓取原頁面上的其它鏈接頁面,重復(fù)上述步驟先抓取當前頁面的全部鏈接,放入到待抓取URL列表,依次這樣持續(xù)循環(huán)抓取下去。