而智能算力的生產(chǎn)、分發(fā)、調(diào)度離不開人工智能公共算力開放創(chuàng)新平臺(tái)等基礎(chǔ)設(shè)施的支撐。同時(shí),我國算力分布不均衡,各地的智算中心、超算中心需要聯(lián)動(dòng),促進(jìn)東部地區(qū)靈活使用西部的算力,推動(dòng)全國一體化協(xié)同創(chuàng)新體系快速形成。
在此背景下,天翼云推出智能計(jì)算平臺(tái)“云驍”,提供智算、超算、通算多樣化算力服務(wù),這也是運(yùn)營商首個(gè)云智超一體化算力平臺(tái)。依托天翼分布式架構(gòu)云底座和海量計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源,“云驍”可提供軟硬一體的解決方案,實(shí)現(xiàn)高階算力供給、資源高效利用、多種能力服務(wù)一站式提供,助力行業(yè)數(shù)字化轉(zhuǎn)型、降低企業(yè)創(chuàng)新成本。
基于云網(wǎng)融合優(yōu)勢以及天翼云多年的技術(shù)沉淀,“云驍”在算力底座、算效提升、算力異構(gòu)、算力布局四個(gè)方面取得了新突破。具體而言,借助天翼云4.0底座,“云驍”打造了高性能算力底座,包括GPU裸金屬及云主機(jī)、HPFS并行文件系統(tǒng)、RDMA網(wǎng)絡(luò)等底座能力,統(tǒng)一支持智算和超算服務(wù);針對超大規(guī)模分布式集群訓(xùn)練進(jìn)行一系列技術(shù)優(yōu)化,實(shí)現(xiàn)高達(dá)80%以上超高線性加速比算效提升;支持多種主流AI框架與高性能計(jì)算任務(wù)管理器,支持多種CPU與GPU的多樣化異構(gòu)算力;支持智能算力全網(wǎng)分級部署,構(gòu)建從中心到區(qū)域,再到邊緣的多級訓(xùn)練推理體系。
目前,“云驍”已在多個(gè)行業(yè)場景落地應(yīng)用,賦能企業(yè)快速發(fā)展。在汽車制造行業(yè),吉利汽車基于天翼云智能計(jì)算平臺(tái)“云驍”,構(gòu)建起HPC專屬云資源池,大幅提升了算力速度、存儲(chǔ)空間、網(wǎng)絡(luò)響應(yīng),其計(jì)算速度能達(dá)到每秒千萬億次,能計(jì)算普通PC機(jī)和服務(wù)器不能完成的大型、復(fù)雜課題。目前,吉利汽車平均做一次模擬測試的時(shí)間從10小時(shí)縮短到6小時(shí),HPC排隊(duì)隊(duì)列的減少,有效增加了方案驗(yàn)證的數(shù)量,快速輸出結(jié)果,也保障了決策的快速輸出。
此外,天翼云智能計(jì)算平臺(tái)還為智能語音服務(wù)、人工智能研究機(jī)構(gòu)等客戶,進(jìn)行訓(xùn)練和微調(diào)大模型。“云驍”提供分布式訓(xùn)練一站式解決方案,融合GPU拓?fù)涓兄、親和調(diào)度、高IO并行文件系統(tǒng)等底層技術(shù),支持多種模型訓(xùn)練方式,兼容主流AI框架,擴(kuò)展定制業(yè)界主流分布式訓(xùn)練方案,提升訓(xùn)練數(shù)據(jù)量,縮短模型交付周期;提供定制化算法框架,采用代碼生成等方式,內(nèi)置提供豐富的算子,簡化數(shù)據(jù)集導(dǎo)入、特征工程處理、預(yù)訓(xùn)練模型依賴等步驟,提升AI訓(xùn)練開發(fā)效率;針對大模型分布式環(huán)境下的訓(xùn)練,顯存優(yōu)化方面使用ZeRo等技術(shù),打破顯存與內(nèi)存的隔閡,降低訓(xùn)練的顯存開銷。
憑借技術(shù)創(chuàng)新和在資源、平臺(tái)、應(yīng)用等核心能力方面的表現(xiàn),日前天翼云智能計(jì)算平臺(tái)率先順利通過中國信息通信研究院《可信算力服務(wù) 平臺(tái)技術(shù)能力要求 第3部分:智算平臺(tái)》評估,成為業(yè)內(nèi)首批通過該項(xiàng)評估的云服務(wù)商。
隨著數(shù)字化經(jīng)濟(jì)發(fā)展和產(chǎn)業(yè)變革持續(xù)推進(jìn),天翼云將加強(qiáng)科技創(chuàng)新,不斷提高云網(wǎng)算力技術(shù)與服務(wù)水平,完善智算基礎(chǔ)設(shè)施,與業(yè)界伙伴攜手探索算力應(yīng)用模式,賦能千行百業(yè)數(shù)智化發(fā)展,全面助推數(shù)字中國建設(shè)。