岳樹燁表示,企業(yè)對高效運維和測試技術需求日益迫切,通過激光器老化機器學習建模,可以實現(xiàn)模塊健康度預警,提前識別,快速定位,降低運維成本。
借助AIOps提升企業(yè)業(yè)務能力
隨著產(chǎn)業(yè)規(guī)模不斷擴大,需要常態(tài)化運維的網(wǎng)絡節(jié)點規(guī)模已達到上萬級別,且鏈路數(shù)目達到幾十萬級別,保持規(guī)模化網(wǎng)絡的穩(wěn)定可靠成為一大挑戰(zhàn)。將智能算法引入現(xiàn)有網(wǎng)絡管理平臺,實現(xiàn)數(shù)據(jù)驅動的網(wǎng)絡閉環(huán)系統(tǒng),將成為解決運維效率低下、定位成本高昂現(xiàn)狀的有力途徑。
然而,現(xiàn)有技術仍待與場景結合,存在異常檢測誤差大、故障網(wǎng)元定位難、計算響應不及時等限制,難以用于特定條件。
“針對上述情況,構建具備容錯能力的網(wǎng)絡已成為當前的重中之重。目前,一些通用的網(wǎng)絡平臺已經(jīng)實現(xiàn)了基礎的網(wǎng)絡異常診斷和故障定位功能,但受運 環(huán)境、品牌、型號等多維環(huán)境影響,工作效率低、誤差大。”岳樹燁指出,大規(guī)模網(wǎng)絡下,通過光模塊激光器的監(jiān)控關鍵指標可以預測故障的發(fā)生時間,減少運維 員壓力,美團開展光模塊故障預測研究有三大 標。
一是異常主動發(fā)現(xiàn),故障預測。利用機器學習分析告警閾值,網(wǎng)絡、設備、光模塊、光傳輸?shù)雀嗑毺卣髦笜水惓0l(fā)現(xiàn)及在線趨勢預測。
二是自我診斷,故障定位。結合業(yè)內(nèi)數(shù)據(jù)、 數(shù)據(jù)分析及專家經(jīng)驗和知識圖譜,分析光模塊異常趨勢。
三是智能聯(lián)動,快速通告。聯(lián)動失效告警、自動隔離、 單派發(fā)、效果驗收、業(yè)務恢復全鏈條的故障自動化處理。
實現(xiàn)光模塊故障預測的三大核心
從實際情況看,激光器故障在有源類產(chǎn)品故障中占比較高,光模塊單體故障的90%以上。增加故障預測可提前評估風險,降低運維復雜度,優(yōu)化全鏈路系統(tǒng)。那么,光模塊故障預測要如何實現(xiàn)呢?
岳樹燁介紹,首先要通過“針對異構監(jiān)控數(shù)據(jù)的深度清洗和特征提取 法”與“基于狀態(tài)檢測的激光器異常建模和故障預測”實現(xiàn)小時級激光器異常檢測和故障預測。然后,利用“面向真實網(wǎng)絡的算法驗證平臺”,以仿真數(shù)據(jù)進行有效性、可用性、先進性檢驗,繼而將真實數(shù)據(jù)接 檢驗。
具體而言,由于激光器原始監(jiān)控數(shù)據(jù)中存在噪聲數(shù)據(jù)較多、特征維度過 、數(shù)據(jù)集不平衡等情況,將導致預測精度降低。因此,要通過多維統(tǒng)計分析、深度數(shù)據(jù)清洗、上下采樣技術、動態(tài)特征 程,對數(shù)據(jù)進行預處理,從而實現(xiàn)高效特征提取。
在基于狀態(tài)檢測的激光器異常建模的初期,要率先構建區(qū)分正常和異常激光器的狀態(tài)檢測模型并生成動態(tài)閾值, 旦檢測到出光功率變化率 于異常閾值則激發(fā)壽命預測單元。
針對正常老化模型,可采用激光器的正常歷史數(shù)據(jù)進 建模,預測激光器 天后的出光功率,當出光功率低于標準規(guī)格時則上報 險;針對突發(fā)異常模型,根據(jù)突發(fā)異常前 段時間的歷史數(shù)據(jù)進行建模,當出光功率變化率大于計算閾值時激活該預測單元,計算異常發(fā)生概率及狀態(tài)分布。
“為實現(xiàn)異常檢測和故障定位的算法的有效性與可靠性,就要結合系統(tǒng)和模型在萬級規(guī)模網(wǎng)絡仿真平臺和多拓撲環(huán)境里進行綜合測試。”岳樹燁表示,測試平臺的部署分為三個階段。首先是經(jīng)典網(wǎng)絡布局模式下的仿真測試平臺,其次是VPC網(wǎng)絡布局模式下的仿真測試平臺,然后是仿真節(jié)點與實物并存的半實物測試平臺。完成上述工作后,將基于美團真實網(wǎng)絡環(huán)境進行部署與驗證。
會上,岳樹燁呼吁產(chǎn)業(yè)鏈上下游共同關注器件穩(wěn)定性,攜手建 有效性、可用性、先進性并存的故障預測體系,以提高產(chǎn)品的穩(wěn)定性為前提,實現(xiàn)終端用戶、模塊/設備商價、芯 廠商之間的三方共贏。