當前位置:才華齋>網路>網路診斷>

網路故障管理何去何從

網路診斷 閱讀(2.85W)

網路效能取決於連線使用者到應用的網路的型別和容量。本地使用者可能通過乙太網或無線網路連線,遠端使用者則通過各種WAN技術連線,包括公共網際網路或蜂窩網路等。每種連線都需要專門的方法來維持所需的效能。任何這些位置(應用或網路)的故障都可能降低客戶滿意度。

網路故障管理何去何從

  雲故障檢測

很多拓撲結構和設計(其中包括虛擬化伺服器、多個虛擬區域網和覆蓋網路)讓雲故障檢測和網路故障管理變得更加複雜。一個租戶的應用出現效能問題可能與影響另一個租戶的問題並沒有什麼關聯,但它們可能來自同一來源。每個租戶的應用可能在相同超載或配置錯誤的伺服器上執行,或者兩個租戶的覆蓋網路通過相同超載或故障連結來路由。

海量的伺服器、網路元件和連結是故障的一大來源。現代硬體極為可靠,儘管每個元件有多年故障平均時間,但對於數千獨立的裝置來說,依舊會有硬體故障發生。

配置錯誤是另一個問題來源,該問題可由網路故障管理進行跟蹤。伺服器和網路裝置不斷新增、升級或取代。大型雲端計算通常包括來自不同供應商的元件,甚至來自同一供應商的相同元件也可能執行著不同的軟體版本。在這種環境中,任何變更都可能導致錯誤的出現,同時,對一個元件的改變還可能影響到其他元件。

簡單地檢測和報告錯誤已經不夠,每個錯誤可能導致幾十份錯誤報告。鏈路故障會在鏈路兩端的交換機生成硬體故障指示,並且每次鏈路故障和恢復時都會發出新報告。2層和3層網路協議路由會改變,在備用路由流量水平接近最大數值時鏈路流量監控也會變化。同時,應用效能監控器會從通過該鏈路路由流量的每個應用報告問題。

  故障相關性及其在網路中的作用

沒有哪個網路管理員能夠整理完單一故障生成的海量報告,並快速發現其根本原因。對此,故障相關性軟體很重要,這是每個主流系統供應商網路管理產品的重要組成部分。

故障相關性產品利用各種機制來發現問題,其中包括SNMP trap、TL1訊息、應用日誌和SYSLOG條目。SNMP和特定產品輪詢監控器執行在伺服器、交換機和鏈路。相關性工具還可監控裝置問題、電源電壓和磁碟可用空間來預測未來的問題。

網路故障管理軟體必須提供對網路準確的且最新的檢視。該軟體必須保持更新(無論是通過手動或者通過網路對映),以追蹤新增的、移除的或更新的元件。它必須維護每種元件的內部型號,介紹其配置和功能,幷包含網路運營政策的描述。當新增應用時,還必須更新服務水平協議(SLA)等資訊。

此外,故障相關性軟體必須與雲編排軟體來互動,追蹤正在執行的應用、它們在哪些伺服器執行和VLAN以及與每個租戶相關的覆蓋網路。網路故障管理軟體還必須不斷根據SLAN監控應用效能水平。

當出現問題時,相關性軟體會獲取所有接收到的故障指示,並利用有關的網路拓撲以及在故障出現前資料如何移動的資訊來確定根本原因,併為網路管理人員提供簡要的報告。

  SDN網路

雲端計算與SDN技術管理的資料中心面臨著與依靠傳統技術的資料中心相同的潛在問題。它們都需要故障相關性軟體,但SDN架構需要將相關性軟體內建到網路控制器或與其緊密連線。

這種差異的原因是Spanning Tree和Open Shortest Path First等傳統協議在網路裝置內部部署。它們在鏈路或埠問題阻止流量時根據需要重新路由流量。通過SDN,所有路由都由控制器來確定,故障相關性軟體必須告知控制器問題的型別,以便它能夠確定備用路由。

OpenFlow相容的白盒交換機支援各種供應商的.作業系統,每個都有自己的檢測和故障報告方法。Big Switch和Pica8的作業系統都支援SNMP,但Big Switch的控制器和交換機作業系統利用OpenFlow訊息來與裝置進行通訊。相關性軟體通過介面與控制器通訊,從裝置處接收訊息,並輪詢其狀態。

  無線網路和廣域網

Wi-Fi依靠一組專門的工具來診斷問題。Wi-Fi連線可受到很多問題的影響,例如訊號干擾、牆壁或阻止訊號的固態物體,以及安全漏洞。現在有各種故障排除產品,包括免費軟體和專業的軟體產品。還需要專門的硬體產品來診斷某些型別的問題。

在網路服務提供商擁有和管理的WAN連線的情況下,關鍵引數是吞吐量和往返時間,這方面也有免費和專業產品可供選擇。

滿足終端使用者效能要求需要應用效能的各方面都正常執行。在出現問題時,網路故障管理和故障檢測產品必須能夠查明原因,使它們可快速被修復以及恢復正常運作。