當前位置:才華齋>計算機>網路技術>

關於資料中心網路故障維護策略

網路技術 閱讀(1.48W)

對於故障原因未能及時明確的,事後根據故障時收集的資訊進行分析。資料中心技術人員的能力有限,可以召集行業內專家、裝置廠商人員對故障資訊進行分析,直到找到故障原因為止。出現網路故障對資料中心是致命的打擊,下面是YJBYS小編收集關於資料中心網路故障維護策略,希望對你有幫助!

關於資料中心網路故障維護策略

資料中心是由大量電子裝置搭建起來的複雜資訊系統,這些電子裝置出現各種各樣的故障是不可避免的,尤其是網路裝置,就算是谷歌、臉譜、亞馬遜等這些網際網路巨頭的資料中心也難免會發生不少故障。

一旦網路裝置出現故障,往往大面積的業務就會受到影響。一方面我們要增加網路設計的健壯性,關鍵節點部署冗餘備份;另一方面要優化處理網路故障的手段,當出現網路故障時,如何快速恢復、並定位問題,消除隱患都需要諸多專業技術知識和豐富的網路經驗,同時制定完善的故障處理流程,這樣能大大縮短故障恢復的時間,同時還能有效找到故障原因,避免類似問題下次出現。

資料中心網路出了故障並不可怕,可怕的是故障後長時間無法恢復,可怕的是故障恢復後,依然不知道產生故障的原因,這樣資料中心網路在不採取任何防護措施的情況下,繼續執行可能出現二次故障,所以制定詳細的網路故障維護策略非常重要。一旦發生網路故障,迅速找到故障原因,快速恢復業務。

俗話說“養兵千日,用兵一時”,平時不做足功課,出了故障必然處理起來毛手毛腳。在資料中心網路日常管理中,要熟悉網路執行情況,並定期、準確、迅速、簡單概括評估其執行狀況,建立完善的檢修報告制度。維護人員要多學習,多總結,對網路執行的細節瞭如指掌。維護人員要對網路裝置的埠互連、組網配置、業務特點牢記,當出現故障時,腦海裡即刻就能浮現出網路拓撲,故障的位置,這可為搶修故障爭取寶貴時間。

如果遇到故障時,還在確認網路裝置埠互連關係,說明對網路認識還不夠深刻,這必然加長故障恢復的時間。同時,維護人員要對網路裝置進行週期性巡檢,並做詳細記錄,發現隱患及時修復,避免故障影響面擴大。維護人員需強化保養與監測,降低故障發生風險,確保網路能夠正常執行。

也許資料中心日常網路管理和維護工作開展都是非常規範的,但依然難免可能會發生網路故障。出了故障,不要慌亂,要冷靜思考。仔細觀察故障現象,詳細瞭解故障相關情況,明確出錯資訊細節,確定故障症狀。明確故障發生前是否有人操作了網路(70%的網路故障與人為操作有關)。如果沒有,再進一步明確網路故障的位置,確認故障的裝置或鏈路,這時可以採用PING、TRACERT命令或相關工具快速確認網路故障位置。同時,迅速收集故障裝置資訊。

維護人員根據故障發生的位置、故障基本資訊,對故障產生原因進行分析。若短時間內看不出原因,要啟動隔離故障預案。要再次確認故障資訊是否收集完整,避免有遺漏,否則日後可能分析不出故障原因。啟動隔離故障預案,將故障隔離後,觀察業務是否逐漸恢復,直到業務徹底恢復後,再進行後續的問題分析。一旦預案失效,業務仍不見恢復,需要啟動緊急應急措施,比如將業務轉移到另外資料中心上,或者災備資料中心上,再次確認業務是否完全恢復。這些故障預案在平時的網路維護中應該做一些故障演練、故障模擬測試,以免這些預案機制在真正故障來臨時失效。

對於故障原因未能及時明確的,事後根據故障時收集的資訊進行分析。資料中心技術人員的能力有限,可以召集行業內專家、裝置廠商人員對故障資訊進行分析,直到找到故障原因為止。有些時候,為了快速恢復業務,收集的資訊不完善,或者裝置記錄資訊不完整,往往很難找到故障原因,不可能在找到原因之前將業務割回。可以在現有的網路中做一些模擬測試,找一找故障原因,還不行就得對可能故障的節點進行優化或者更換,然後召集各類專家保障,再擇機將業務割回,進行觀察。割回後一旦故障復現或者執行一段時間後再次出現,各路專家及時出手,排查故障原因。這個過程也許要經歷過數次,最終才會找到故障原因,資料中心不允許將隱患留在網路中,不帶隱患執行。

網路故障處理完後,要進行細緻總結。看現有網路中哪些地方需要優化,維護人員哪些方面的技術要加強,避免相同的故障再次在網路中出現。對網路故障進行深刻總結,全方位進行巡檢,類似的隱患一律消除。這些工作做完後,要將故障排除過程文件化,對所做的工作進行文字記錄。文件是排錯寶貴經驗的'總結,是“經驗判斷和理論分析”這一過程中最重要的參考資料,比如要包括:故障現象描述及收集相關資訊、故障發生原因解釋、本次排錯的心得體會、後續網路優化工作、故障處理流程上是否存在瑕疵等,都要形成正式文件後日後查閱。維護人員必須養成及時進行故障排除的文件記錄和經驗總結習慣,一方面是網路維護工作的基本要求,另一方面也是自身提高排錯技術的需要。同時,還要對故障處理過程中,暴露出工作上的疏漏及時補救,優化整個故障處理分析的過程。

在資料中心裡,網路故障不可避免,通過以上的故障維護策略步驟,可以大大減少重複網路故障的發生。但是網路故障產生是受到很多因素影響的,而且故障型別較多,要徹底消除是非常困難的,這是那些網路技術實力非常雄厚的網際網路巨頭資料中心依然故障不斷的原因。隨著資料中心網路規模越來越大,新的網路技術越來越複雜,給網路故障排查製造了極大的障礙,這樣更需要對網路故障的維護策略進行不斷地優化和調整,以便適應新的資料中心網路環境