宋慶春指出,當(dāng)前數(shù)據(jù)中心異構(gòu)算力需求正在不斷提升,主要包括三個(gè)方面,一是HPC高性能業(yè)務(wù)不斷增長;二是AI應(yīng)用對算力需求正在不斷提升,包括大規(guī)模訓(xùn)練、推薦、推理系統(tǒng)等均需要大規(guī)模算力支撐;三是數(shù)字孿生、元宇宙等技術(shù)發(fā)展,對高性能、AI算力需求快速增長。多種異構(gòu)算力需求場景的涌現(xiàn)也對數(shù)據(jù)中心算力基礎(chǔ)設(shè)施發(fā)展帶來巨大挑戰(zhàn),用戶一方面需要算力平臺提供高可靠的算力性能,另一方面又希望算力平臺的功耗維持在較低水平。
“在傳統(tǒng)計(jì)算架構(gòu)中,CPU要參與到除加速計(jì)算外的所有事情,容易產(chǎn)生系統(tǒng)性能瓶頸,在性能和能耗間難以實(shí)現(xiàn)協(xié)同提升。”宋慶春講道。對此,他認(rèn)為云原生超級計(jì)算架構(gòu)能夠有效平衡性能提升和節(jié)能減排,是未來數(shù)據(jù)中心計(jì)算架構(gòu)的重要方向。
宋慶春表示,云原生超級計(jì)算架構(gòu)的核心是將原先由CPU執(zhí)行的操作卸載到DPU上,將存儲、計(jì)算框架等管理平面上的操作同樣卸載到DPU上,釋放CPU、GPU資源,使CPU、GPU能夠更加集中的處理業(yè)務(wù),DPU上的算力也可實(shí)現(xiàn)算力共享,最終確保CPU、DPU、加速器和網(wǎng)絡(luò)協(xié)同工作,數(shù)據(jù)在哪里,計(jì)算就在哪里,由此形成更高性能、更環(huán)保、更安全的計(jì)算平臺。
最后,宋慶春總結(jié)道,NVIDIA將持續(xù)關(guān)注網(wǎng)絡(luò)異構(gòu)計(jì)算的發(fā)展,為用戶提供高性能、低功耗的計(jì)算、存儲及網(wǎng)絡(luò)產(chǎn)品,提供高品質(zhì)的云原生超級計(jì)算架構(gòu),促進(jìn)數(shù)據(jù)中心異構(gòu)計(jì)算向前發(fā)展。