當前位置:才華齋>計算機>SEO網站優化>

搜尋引擎抓取原理

SEO網站優化 閱讀(2.52W)

搜尋引擎的處理物件是網際網路網頁,日前網頁數量以百億計,所以搜尋引擎首先面臨的問題就是:如何能夠設計出高效的下載系統,以將如此海量的網頁資料傳送到本地,在本地形成網際網路網頁的映象備份。下面是YJBYS小編整理的搜尋引擎抓取原理,希望對你有幫助!

搜尋引擎抓取原理

搜尋引擎工作的第一大特點就是爬行抓取,就是儘可能的把需要抓取的資訊都抓取回來進行處理分析,因此爬行抓取的的工作方式也是搜尋引擎正常高效工作方式的第一步,爬行抓取的成功也是所有網路資源能夠有效正常展示給訪客的前提,所以這一步如果出現異常,那麼將導致搜尋引擎後續的工作都無法進行展開。

大家可以回憶一下我們在想要搜尋一個東西時,首先會在百度搜索框輸入我們要找的關鍵詞,而結果頁會出現眾多與關鍵詞有關資訊,而在這個從搜尋到展現的過程是以秒為單位來進行計算的。舉這個例子大家是否已經明白,搜尋引擎能在1秒鐘之內把所查詢的與關鍵詞有關的資訊從豐富的'網際網路中逐一抓取一遍,能有如此高的工作效率,還還是歸結為搜尋引擎在事先都已經處理好了這部分資料的原因。

再例如我們平時上網隨便開啟一個網頁也是在1秒鐘之內開啟,這雖然僅僅是開啟一個網頁的時間,但是搜尋引擎在以秒計算的情況並不可能把網際網路上的所有資訊都查詢一遍,這不僅費時費力也費錢。 因此我們不難發現現在的搜尋引擎都是事先已經處理好了所要抓取的網頁。而搜尋引擎在蒐集資訊的工作中也都是按照一定的規律來進行的,簡單的我們可以總結以下兩種特點。

第一、批量收集:對網際網路上所有的存在連結的網頁資訊都收集一遍,在這個收集的過程中可能會耗很長一段時間,同時也會增加不少額外的頻寬消耗,時效性也大大降低,但是這作為搜尋引擎的重要的一步,還是一如既往的正常的去收集。

第二、增量收集:這可以簡單的理解是批量收集的一個高潔階段,最大可能的彌補了批量收集的短處和缺點。在批量蒐集的基礎上搜集新增加的網頁內容資訊,再變更上次收集之後產生過改變的頁面,刪除收集重複和不存在的網頁。