當前位置:才華齋>設計>網頁設計>

關於Web日誌的研究分析

網頁設計 閱讀(7.51K)

描述了Web日誌資料預處理技術的一種改進技術——Frame過濾技術,對其關鍵部分與運作模式進行了研究與改進。討論了Frame頁面過濾預處理技術在Web頁面挖掘中的效率問題,分析了決策樹演算法中最著名的演算法——ID3演算法,並用ID3演算法對Frame過濾演算法進行了改進,比較新舊演算法的執行效率及演算法結果質量,得出了新演算法執行效率更高及質量更好的結論,從而搞高了對存在Frame頁面的網站實施Web日誌挖掘演算法時挖掘結果的興趣度。

關於Web日誌的研究分析

1 引言

Internet的迅速發展使得Web為人們提供了內容豐富且數量龐大的資訊,隨著資料探勘技術的出現以及發展,資料探勘逐漸被應用於Web資料。

Web日誌挖掘是三大類Web挖掘之一,它主要包括資料預處理和挖掘演算法實施兩個主要階段.實施挖掘演算法之前要對Web日誌檔案進行預處理,將其轉化為使用者會話集.本文著重討論Web日誌挖掘預處理技術中的Frame頁面過濾預處理技術,即在傳統的Web日誌預處理過程中加入Frame頁面過濾這一步驟,並提出了用決策樹演算法著名的ID3演算法進行Frame頁面過濾,進一步提高了日誌資料預處理的質量和效率,從而為挖掘演算法的實施提供更為準確的資料,提高了對存在Frame頁面的網站實施Web日誌挖掘演算法時整個Web日誌挖掘的效率及挖掘結果的興趣性。

2 Web日誌預處理中的Frame頁面過濾技術[2]2.1 Web日誌預處理技術現狀

Web日誌挖掘[1] [3-4]是指將資料探勘技術應用於Web伺服器日誌檔案,以發現隱藏在其中的使用者訪問模式。Web日誌預處理是在Web日誌挖掘前,對Web日誌進行清理、過濾以及重新組合的過程,其目的是剔除日誌中對挖掘過程無用的屬性及資料,並將Web日誌資料轉換為挖掘演算法可識別的儲存形式。到目前為止提出的Web日誌的預處理技術,它包含三種方法識別使用者的活動集合:

(1) Web伺服器提供Cookie,則具有相同Cookie值的頁面請求是來自同一個使用者,則使用者會話識別的主要的任務就是將Web日誌劃分為不同Cookie值所對應的頁面請求集合。

(2) Web伺服器沒有提供Cookie,但每個網站使用者都要一個登入識別符號方可訪問站點,則分析工具即可利用登入識別符號識別會話。

⑴如果Web伺服器既沒有Cookie也沒有登入識別符號,可以利用主機地址,同時分析日誌中每條記錄的請求頁和引用頁的URL,然後根據Web站點的拓撲結構(超連結)和其它啟發式規則識別使用者會話,但是這種方法的精確度較低,不能100%正確地識別出每個請求對應的使用者。這裡主要討論第3種預處理方法。一般Web日誌預處理主要包括:資料淨化、使用者識別、會話識別、路徑補充、事務識別資料淨化指刪除Web伺服器日誌中與挖掘演算法無關的資料。由於在Web日誌中通常只有HTML檔案與使用者會話相關,所以通過檢查URL的字尾刪除不相關的資料。

使用者識別是指要識別出每個訪問網站的使用者。一般Web日誌挖掘工具中常使用基於日誌/站點的方法,並輔助一些啟發式規則幫助識別使用者。

會話識別是將使用者的訪問記錄分為單個的會話。通常採用超時方法識別使用者會話,如果兩頁間請求時間的差值超過一定的界限(超時閾值)就認為使用者開始了一個新的會話。路徑補充是由於本地快取和代理伺服器快取的存在,使得伺服器的`日誌會遺漏一些重要的頁面請求。路徑補充就是將這些遺漏的請求補充到使用者會話中,解決的方法類似於使用者識別中的方法。

事務識別,使用者會話是Web日誌挖掘中唯一具備自然事務特徵的元素,但是,對於某些挖掘演算法來說可能使用者會話的粒度太大,需要利用分割演算法將其轉化為更小的事務。一般通常採用圖1所示的資料預處理過程。如果按照前面所介紹的日誌預處理技術對Web日誌進行預處理,則Frame頁面和其SubFrame頁面也將一起出現在使用者會話檔案中。在這樣的使用者會話檔案上進行資料探勘,Frame頁面和SubFrame頁面作為頻繁遍歷路徑或者頻繁訪問頁組出現的概率很高,並且他們同時出現在挖掘結果中,這就降低了挖掘結果的興趣性。

HTML規範通過“Frame”標記支援多視窗頁面,每個窗口裡裝載的頁面對應一個URL。 當用戶請求Frame頁面的URL時,Frame頁面和其中的SubFrame頁面作為一個多視窗頁面展現在使用者面前,我們可以將使用者對Frame頁面的請求看成就是對多視窗頁面的請求。這樣,在資料預處理階段將Frame頁面和其中的SubFrame頁面作為一個整體考慮,並且把Frame頁面對應的URL當作這個整體的代表。從全域性而言,這樣處理可以有效地消除Frame頁面對日誌挖掘的影響,最終提高挖掘結果的興趣性。

改進的Web日誌資料預處理過程中,在會話識別與路徑補充這兩個步驟之間增加了Frame頁面過濾。Frame頁面過濾要完成的任務是,根據從站點的拓撲結構中提取出的Frame-SubFrame關係表,從會話識別過程中生成的會話檔案中,尋找Frame頁面及其SubFrame頁面,將會話檔案中對Frame和其SubFrame頁面的請求用Frame頁面代替,從而刪除會話檔案中多餘的SubFrame頁面。由於刪除了會話檔案中的SubFrame頁面,因此會丟失SubFrame頁面中包含的超連結資訊,所以接下來的路徑補充步驟中必須使用提升的站點結構。

3 基於ID3演算法的Frame頁面過濾預處理技術

如上文所述,我們應用Frame頁面過濾技術有效地消除了Frame頁面對日誌挖掘的影響,然而我們知道Web日誌挖掘的記錄是成千上萬的,上述Frame頁面過濾演算法中是對每個使用者對話的每個頁面進行是否Frame和SubFrame的判斷,並且對判斷出的子框架逐個地進行刪除,而且因為SubFrame頁面的刪除導致後面必須用提升的站點結構,雖然較一般預處理技術增加了興趣度,但是效率還是比較低的,而且也增加了開銷。並且SubFrame過濾中被刪去,在後面的路徑補全中能否完全恢復也值得高榷。而且有快速分類性質允許多粒度層的決策樹分類演算法可以解決此問題。

ID3演算法的基本思想是貪心演算法,採用自上而下的分而治之的方法構造決策樹。首先檢測訓練資料集的所有特徵,選擇資訊增益最大的特徵A建立決策樹根節點,由該特徵的不同取值建立分枝,對各分枝的例項子集遞迴,用該方法建立樹的節點和分枝,直到某一子集中的資料都屬於同一類別,或者沒有特徵可以在用於對資料進行分割。