當前位置:才華齋>設計>網頁設計>

面向電子商務的Web日誌挖掘系統

網頁設計 閱讀(1.24W)

電子商務是指個人或企業通過國際網際網路,採用數字化方式進行商務資料交換和開展商務活動。目前,電子商務正在企業和商貿領域佔據著越來越多的市場份額,網路資訊挖掘主要用於對商品的市場定位和消費分析,以輔助制定市場策略,分析購物模式,預測銷售行情改進站點設計和提高站點效率。向特定的客戶推薦有關的商品。網路資訊挖掘可以提供不同使用者的特定資訊,有的放矢地傳播網路廣告。利用網路資料探勘技術建立客戶關係管理系統,可以極大地提升企業的競爭優勢。

面向電子商務的Web日誌挖掘系統

一、Web挖掘模式的應用

(一)發現潛在客戶。對一個電子商務網站來說,瞭解、關注在冊客戶群體非常重要,但從眾多的訪問者中發現潛在客戶群體也同樣非常關鍵。如果發現某些客戶為潛在客戶群體,就可以對這類客戶實施一定的策略,使他們儘快成為在冊客戶群體。對一個電子商務網站來說,也許就意味著訂單數的增多、效益的增加。通過利用WEB挖掘的分類技術先對歷史資料進行挖掘,可以有效的發現潛在客戶。

(二)延長客戶的駐留時間。對客戶來說,傳統客戶與銷售商之間的空間距離在電子商務中已經不存在了,Internet上每一個銷售商對於客戶來說都是一樣的,那麼如何使客戶在自己的銷售站點上駐留更長的時間,這對銷售商來說將是一個挑戰。為了使客戶在自己的網站上駐留更長的時間,就應該瞭解客戶的'瀏覽行為,知道客戶的興趣及需求所在,動態地調整Web頁面,以滿足客戶的需要。通過運用資料探勘中的序列模式發現技術對客戶訪問資訊的挖掘,就能知道客戶的瀏覽行為,從而瞭解客戶的興趣及需求。

(三)改進站點設計。站點上頁面內容的安排就如超級市場中物品在貨架上的擺設一樣,把具有一定支援度和信任度的相關聯物品擺放在一起有助於銷售,利用關聯規則發現可以針對客戶動態調整站點的結構,使客戶訪問的有關聯的檔案間的連結能夠比較直接,讓客戶更容易訪問到想訪問的頁面。

(四)針對不同客戶提供個性化產品。商家可以對客戶登記註冊記錄中和Web日誌進行挖掘,從而獲知訪問者的個人愛好,更加充分地瞭解客戶地需要,根據各個細分市場,甚至是每一個顧客的獨特需求提供個性化產品,有利於提高客戶的滿意度。

綜上所說,Web挖掘技術推動了個性化推薦,使站點瀏覽者變為購買者,增加交叉銷售和提升銷售,每一次購買都增加客戶的忠誠度。

二、面向電子商務的Web挖掘應用系統模型

當用戶訪問Web伺服器時,Web伺服器會自動建立訪問日誌資訊。隨著WWW技術的快速發展和時間的積累,Web伺服器中Web日誌檔案將越來越大,基於Web的電子商務伺服器將儲存大量的Web訪問日誌記錄。如何對這些大量的Web日誌記錄進行自動分析清理儲存並從中發現有用的、重要的知識,包括模式、規則和視覺化結構等是目前Web日誌挖掘的主要任務。

面向電子商務的Web挖掘系統模型包括資料採集、資料處理、資料儲存、模式發現、模式分析利用及客戶6個層次,見圖1。

資料採集層所採集的資料物件為Web伺服器日誌、客戶登記資訊和交易資料庫等。Web伺服器日誌是客戶訪問所產生的伺服器日誌資料。客戶登記資訊必須和訪問日誌整合,以提高資料探勘的準確度。交易資料庫儲存使用者在商務網站上購買商品的資訊,其內容隨資料庫結構的不同而有所不同,一般包括:使用者名稱、時間、商品ID、採購數量及價格等。

資料處理層實現對資料採集層所採集的源資料進行處理,包括日誌檔案的處理和資料倉庫的建立。日誌檔案處理得好壞直接影響挖掘演算法產生的結果,其處理過程是保證Web挖掘質量的關鍵。經過處理後的資料由資料儲存層進行儲存和管理。

模式發現層次包括:路徑分析、關聯規則挖掘、序列模式挖掘以及聚類和分類分析。

模式分析利用層由兩部分組成:個性化網站及商業智慧。這也代表了Web挖掘在電子商務中的兩大應用方向。資料探勘的結果可以幫助他們瞭解客戶,調整營銷策略,改進促銷手段,從而達到贏得競爭的目的。

三、改進站點設計的演算法

對Web站點的連結結構的優化可從兩個方面來考慮:一是通過對Web日誌的挖掘,發現使用者訪問頁面的相關性,從而對密切聯絡的頁面之間增加連結,方便使用者使用。二是通過對Web日誌的挖掘,發現使用者的期望位置。如果在期望位置的訪問頻率高於實際位置的訪問頻率,可考慮在期望位置和實際位置之間建立導航連結,從而實現對Web站點的優化。本文對第二點做深入探討。

通過該演算法,我們可以找到使用者的返回點,這個位置可能是期望位置,也可能是目標頁面,但可以通過確定時間閾值來解決這個問題。當用戶在返回點停留的時間較長,超過指定的閾值,則認為該頁面是目標頁面,、否則可以認為該頁面是期望位置找不到目標頁面,就會在第二期望位置找,如果還找不到,會在第三期望位置找……。其中我們最關心的是第一期望位置,而且是那些被第一期望且發生頻率高於系統設計者指定值的所有頁面。因此,尋找第一期望位置便成了我們關注的焦點。

②發現第一期望位置演算法。設Ei表示第一期望位置,演算法如下:先以使用者的ID為主關鍵字,時間為次關鍵字,對Web日誌檔案建立索引,掃描Web日誌索引檔案,對每一個使用者ID,摘取出頁面序列。

For(I=1;I<=1;I )// n為Web日誌中的記錄數

{統計EI中所有頁面支援數;sort page by support;

if support(P)>=SI // SI為Web設計者指定的閾值;

則P為被第一期望且發生頻率高於系統設計者指定值的頁面;}

根據該演算法的挖掘結果,我們可以及時調整Web站點連結結構,在第一期望位置和實際位置之間增加導航連結,從而優化Web站點的連結結構。

(二)確定請求網頁的相關性

使用者對Web站點的訪問存在某種有序關係,這種有序關係反映的是一種使用者的訪問興趣,也就是說群體使用者的訪問興趣與他們的訪問序列有很強的相關性,通過興趣關聯規則挖掘演算法能夠挖掘出這種有序關係。具體演算法如下:

設使用者訪問的頁面集P={p1,p2,…,pn},用weight表示由一個節點轉向另一個節點的可能性,則三元組(Pi,weight,Pj)表示有Pi轉向Pj的可能性,其中weight值定義為Pi到Pj的訪問次數之和與所有Pi到其它節點訪問次數之和的比值,0<WEIGHT<1。

●根據下式統計三元組

●if weight>St併為Sm個使用者所關注(其中St和Sm是根據實際情況確定的閾值);

●則Pi與Pj之間存在相關性。

通過實驗證明我們可以根據挖掘結果,在Pi和Pj之間直接建立連結,通過該方法可以改進網站的設計和佈局,方便使用者訪問站點,為使用者提供方便、快捷的服務,實現為客戶的個性化服務。

四、結束語

通過Web資料探勘,我們可以從數以億計的儲存大量多種多樣資訊的Web頁面中提取出我們需要的有用的知識。通過Web資料探勘,對總的使用者訪問行為、頻度、內容等的分析,可以得到關於群體使用者訪問行為和方式的普遍知識,用以改進我們的Web伺服器設計,而更重要的是,通過對這些使用者特徵的理解和分析,可以有助於開展有針對性的電子商務活動,給每個使用者個性化的介面,提供個性化的電子商務服務。