特別是隨著ChatGPT的爆火,人們逐漸意識到,模型參數(shù)規(guī)模與性能提升后,AI大模型訓練對于網(wǎng)絡的需求相比于傳統(tǒng)模型也隨之產生變化。對比現(xiàn)在緊缺的A100和A800的性能參數(shù),A800被限制的是互聯(lián)帶寬,而不是算力。
“大模型訓練需要大規(guī)模集群算力的保障,網(wǎng)絡帶寬和性能限制影響集群算力的發(fā)揮。”李俊杰表示,因此在AI時代,進一步加強了對網(wǎng)絡質量的要求,尤其是數(shù)據(jù)中心內部組網(wǎng)要求大規(guī)模、高帶寬、低時延、零丟包。
DCN高速光互聯(lián)是剛需
對于大模型的發(fā)展,國內已是“百模”大戰(zhàn)之勢!吨袊斯ぶ悄艽竽P偷貓D研究報告》數(shù)據(jù)顯示,截至5月底,中國已經(jīng)發(fā)布了79個大模型(10億參數(shù)以上)。
“百模”大戰(zhàn)帶來了數(shù)據(jù)中心流量的進一步升級,數(shù)通光模塊正逐漸實現(xiàn)100G-400G-800G三級跳躍。數(shù)據(jù)中心內部網(wǎng)絡(DCN)傳輸距離普遍在2km以內,考慮低成本IM-DD方案;數(shù)據(jù)中心間互聯(lián)(DCI)則必須使用相干(ZR/ZR+)。
在李俊杰看來,相對于數(shù)據(jù)中心互聯(lián)(DCI)網(wǎng)絡,數(shù)據(jù)中心內部(DCN)網(wǎng)絡面臨的挑戰(zhàn)更大,但機遇也更多。目前面向DCN的400G光模塊已日趨成熟,且標準完備。800G預計即將進入數(shù)通市場,相關標準仍在制定中,未正式發(fā)布,其中2km內光模塊將成為DC內主流。
不過,隨著速率的不斷提升,功耗和200Gb/s+ CEI電接口成為瓶頸。在主流設備商、互聯(lián)網(wǎng)廠商、光模塊廠商的推動下,CPO光電合封技術成為熱點, OIF等標準化組織也在積極推進CPO光模塊技術標準。
李俊杰指出,CPO能夠顯著降低功耗,降低電信號傳輸距離,提供信號質量;與可插拔相比,提高ASIC-光模塊互聯(lián)密度,高集成,節(jié)省空間。不過CPO相對依賴硅光子技術才能做到小型化高集成,需要借助硅光的工藝和封裝測試平臺;另外,更復雜的技術是否能帶來收益,目前可插拔方案能耗問題還能應對,沒到非用不可的地步。
在此背景下,LPO“線性直驅”成為新勢力。李俊杰介紹,LPO仍使用傳統(tǒng)光模塊封裝,DSP被放在設備側,非線性信號處理由設備實現(xiàn),模塊只處理線性信號,這種方式降低了光模塊功耗和成本。
據(jù)了解,進入2023年以來,“線性直驅”已經(jīng)開始影響產業(yè)界。今年3月,IPEC聯(lián)合Lightcounting舉辦了關于線性直驅技術的線上研討會;今年OFC上,模塊和芯片廠商聯(lián)合打造了112G Linear的樣機demo,OIF也在討論CEI-112G-Linear電氣標準。國內去年9月,由OTT牽頭在ODCC發(fā)布相關白皮書。
值得一提的是,全光交換技術開始走入數(shù)據(jù)中心。李俊杰介紹,先驅者已經(jīng)將光線路交換(基于MEMS的OCS)引入DCN,展現(xiàn)了成本、功耗、時延等多方面優(yōu)勢,但是需要架構性創(chuàng)新。“光線路交換技術進入數(shù)據(jù)中心內部是必然趨勢,光波長交換技術的應用值得研究。”
AI賦能光網(wǎng)絡智慧運營
發(fā)展AI大模型的主要目的是加速千行百業(yè)數(shù)字化轉型升級。因此光網(wǎng)絡技術的升級在推動AI大模型訓練高效可靠的同時,反過來AI技術和能力的持續(xù)提升,也將有效賦能光網(wǎng)絡智慧運營。
李俊杰指出,光網(wǎng)絡向超大容量、全光交換、超長距離、超大組網(wǎng)持續(xù)演進的同時,智慧運營也是光網(wǎng)絡發(fā)展的必然趨勢。
回顧光網(wǎng)絡智能化的進程,從傳統(tǒng)的人工運維,到逐步引入電層ASON、光層WSON,再到后來的SDN化實現(xiàn)集中管控和能力開放。如今已經(jīng)邁入智能化,李俊杰介紹,目前AI技術已經(jīng)在流量預測、態(tài)勢感知、故障溯源等多個場景展現(xiàn)了其價值。
在客戶流量預測場景,針對不同政企OTN用戶,實現(xiàn)對指定時段流量值的預測分析,現(xiàn)網(wǎng)數(shù)據(jù)(基于電信自研UMS控制器采集)驗證,預測準確度可達90%以上。“結合歷史數(shù)據(jù),分析預測未來的流量趨勢,對路由選擇、擴容建設等有指導意義。”
網(wǎng)絡態(tài)勢感知場景,通過光纖傳感+AI算法,識別不同振動模式,提前預警光纜外破風險;通過光纖傳感+智能識別算法,檢測光纜同溝同纜風險。“引入AI,對各類破壞事件展開準確定位,快速精準指導搶修工作,提升運維效率。”
面向未來,數(shù)字孿生、大模型都將助力實現(xiàn)智能光網(wǎng)絡。數(shù)字孿生以數(shù)字化方式在物理網(wǎng)絡上建立一個鏡像數(shù)字網(wǎng)絡,實時反映網(wǎng)絡資源的狀態(tài)以及業(yè)務的運行狀態(tài)。對于大模型,高質量的數(shù)據(jù)是大模型發(fā)揮價值的基礎,運營商若希望借助AI提升智慧運營能力,首先需要大力夯實自主掌控的數(shù)據(jù)基礎。