當前位置：才華齋>計算機>SEO網站優化>

致新手：先了解搜尋引擎知識再做SEO

搜尋引擎的工作的過程非常複雜，而簡單的講搜尋引擎的工過程大體可以分成三個階段。爬行和抓取：搜尋引擎蜘蛛通過跟蹤連結訪問頁面，獲取頁面HTML程式碼存入資料庫。預處理：搜尋贏球對抓取來的頁面資料文字進行文字提取、中文分詞、索引等處理，以備排名程式呼叫。排名：使用者輸入關鍵字後，排名呼叫索引庫資料，計算相關性，然後按一定格式生成搜尋結果頁面。

　　爬行和抓取

爬行和抓取是搜尋引擎工作的第一步，完成資料收集任務。

　　蜘蛛

搜尋引擎用來爬行和訪問頁面的程式被稱為蜘蛛(spider)，也稱為機器人(bot)。

蜘蛛代理名稱：

百度蜘蛛：Baiduspider+(+) ·

雅虎中國蜘蛛：Mozilla/5.0 (compatible; Yahoo! Slurp China; ) ·

英文雅虎蜘蛛：Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; )

Google 蜘蛛：Mozilla/5.0 (compatible; Googlebot/2.1; +) ·

微軟 Bing 蜘蛛：msnbot/1.1 (+)·

搜狗蜘蛛： Sogou+web+robot+(+#07) ·

搜搜蜘蛛：Sosospider+(+) ·

有道蜘蛛：Mozilla/5.0 (compatible; YodaoBot/1.0; ; )

　　跟蹤連結

為了抓取網上儘量多的頁面，搜尋引擎蜘蛛會跟蹤頁面上的連結，從一個頁面爬到下一個頁面，就好像蜘蛛在蜘蛛網上爬行那樣，這也就是搜尋引擎蜘蛛這個名稱的由來。最簡單的爬行遍歷策略分為兩種，一是深度優先，二是廣度優先。

　　深度優先搜尋

深度優先搜尋就是在搜尋樹的每一層始終先只擴充套件一個子節點，不斷地向縱深前進直到不能再前進(到達葉子節點或受到深度限制)時，才從當前節點返回到上一級節點，沿另一方向又繼續前進。這種方法的搜尋樹是從樹根開始一枝一枝逐漸形成的。

深度優先搜尋亦稱為縱向搜尋。由於一個有解的問題樹可能含有無窮分枝，深度優先搜尋如果誤入無窮分枝(即深度無限)，則不可能找到目標節點。所以，深度優先搜尋策略是不完備的。另外，應用此策略得到的解不一定是最佳解(最短路徑)。

　　廣度優先搜尋

在深度優先搜尋演算法中，是深度越大的結點越先得到擴充套件。如果在搜尋中把演算法改為按結點的層次進行搜尋，本層的結點沒有搜尋處理完時，不能對下層結點進行處理，即深度越小的結點越先得到擴充套件，也就是說先產生的結點先得以擴充套件處理，這種搜尋演算法稱為廣度優先搜尋法。

　　吸引蜘蛛

哪些頁面被認為比較重要呢?有幾方面影響因素：

· 網站和頁面權重。質量高、資格老的網站被認為權重比較高，這種網站上的頁面被爬行的深度也會比較高，所以會有更多內頁被收錄。

· 頁面更新度。蜘蛛每次爬行都會把頁面資料儲存起來。如果第二次爬行發現頁面與第一次收錄的完全一樣，說明頁面沒有更新，蜘蛛也就沒有必要經常抓取。如果頁面內容經常更新，蜘蛛就會更加頻繁地訪問這種頁面，頁面上出現的新連結，也自然會被蜘蛛更快跟蹤，抓取新頁面。

· 匯入連結。無論是外部連結還是同一個網站的內部連結，要被蜘蛛抓取就必須有匯入連結進入頁面，否則蜘蛛根本沒有機會知道頁面的存在。高質量的匯入連結也經常使頁面上的匯出連結被爬行深度增加。一般來說網站上權重最高的是首頁，大部分外部連結是指向首頁，蜘蛛訪問最頻繁的也是首頁。離首頁點選距離越近，頁面權重越高，被蜘蛛爬行的機會也越大。

　　地址庫

為了避免重複爬行和抓取網址，搜尋引擎會建立一個地址庫，記錄已經被發現還沒有抓取的頁面，以及已經被抓取的頁面。地址庫中的uRL有幾個來源：

(1)人工錄入的種子網站。

(2)蜘蛛抓取頁面後，從HTML中解析出新的連結uRL，與地址庫中的資料進行對比，如果是地址庫中沒有的.網址，就存入待訪問地址庫。

(3)站長通過搜尋引擎網頁提交表格提交進來的網址。

蜘蛛按重要性從待訪問地址庫中提取uRL，訪問並抓取頁面，然後把這個uRL從待訪問地址庫中刪除，放進已訪問地址庫中。

大部分主流搜尋引擎都提供一個表格，讓站長提交網址。不過這些提交來的網址都只是存入地址庫而已，是否收錄還要看頁面重要性如何。搜尋引擎所收錄的絕大部分頁面是蜘蛛自己跟蹤連結得到的。可以說提交頁面基本t是毫無用處的，搜尋引擎更喜歡自己沿著連結發現新頁面。

檔案儲存搜尋引擎蜘蛛抓取的資料存入原始頁面資料庫。其中的頁面資料與使用者瀏覽器得到的HTML是完全一樣的。每個uRI，都有一個獨特的檔案編號。

　　爬行時的複製內容檢測

檢測並刪除複製內容通常是在下面介紹的預處理過程中進行的，但現在的蜘蛛在爬行和抓取檔案時也會進行定程度的複製內容檢測。遇到權重很低的網站上大量轉載或抄襲內容時，很可能不再繼續爬行。這也就是有的站長在日誌檔案中發現了蜘蛛，但頁面從來沒有被真正收錄過的原因。

　　預處理

在一些SEO材料中，“預處理”也被簡稱為“索引”，因為索引是預處理最主要的步驟。