CTI論壇(ctiforum)12月16日消息(記者 凡易):華為今日宣布,中央研究院香農(nóng)實(shí)驗(yàn)室在2013Hadoop中國技術(shù)峰會(huì)(China Hadoop Summit 2013)上提出業(yè)界首創(chuàng)的HIMM (Hybrid Iterative Matrix Multiplication) 模型。使用該模型表達(dá)的圖數(shù)據(jù)挖掘算法能夠獲得10倍的性能提升,這對(duì)于大數(shù)據(jù)處理的實(shí)時(shí)性具有重要意義。
Hadoop中國技術(shù)峰會(huì)于2013年11月23日在北京圓滿落幕。作為本年度大中華地區(qū)規(guī)模最大的Hadoop技術(shù)峰會(huì),本屆大會(huì)的主題是“掘金大數(shù)據(jù)”。 華為香農(nóng)實(shí)驗(yàn)室的首席研究員顏友亮發(fā)表了“HiGraph:一種面向圖計(jì)算的領(lǐng)域編程語言”的演講,介紹了華為香農(nóng)實(shí)驗(yàn)室在圖計(jì)算以及Spark(Berkeley AMP Lab開發(fā)的一種基于內(nèi)存計(jì)算的并行計(jì)算框架)上所取得的研究成果。
“大數(shù)據(jù)時(shí)代的一個(gè)重要方面就是圖的規(guī)模越來越大。”顏友亮說,“Facebook人際關(guān)系網(wǎng),包含頂點(diǎn)數(shù)目超過10億。其他網(wǎng)絡(luò)的規(guī)模也在數(shù)千萬頂點(diǎn)左右。這使得這些圖上的大量應(yīng)用,例如好友推薦、尋找最短路徑等無法準(zhǔn)實(shí)時(shí)地得到結(jié)果。”
華為香農(nóng)實(shí)驗(yàn)室提出業(yè)界首創(chuàng)的HIMM模型,與傳統(tǒng)圖計(jì)算模型相比,具有操作更簡單,接口更實(shí)用,編程更輕松等優(yōu)點(diǎn)。算法開發(fā)者使用了HIMM模型,不僅可以用矩陣的方式來表達(dá)圖結(jié)構(gòu),而且還可以用自定義的矩陣運(yùn)算來表達(dá)圖上的各種操作,并通過提供一整套圖計(jì)算算子來實(shí)現(xiàn)高效的并行圖算法。在底層框架上,基于HIMM的圖計(jì)算框架HiGraph會(huì)根據(jù)不同的硬件環(huán)境實(shí)現(xiàn)有針對(duì)性的一些優(yōu)化措施,使得HiGraph的性能相比于業(yè)界獲得顯著提升。通過測試Pagerank和單源最短路徑的算法,結(jié)果顯示:在集群環(huán)境模式下,HiGraph借助Spark在迭代計(jì)算上的優(yōu)勢(shì),相比其他的解決方案如Bagel和Giraph,HiGraph的性能提高3倍到20倍;在單機(jī)環(huán)境模式下,HiGraph充分利用了多核的并行處理能力,實(shí)現(xiàn)最大化的并行加速設(shè)計(jì),使得在業(yè)界開源方案的性能上獲得了至少10倍的提升。
“我們的HiGraph性能比業(yè)界高出了一個(gè)數(shù)量級(jí),能夠在秒級(jí)完成PageRank、單源最短路徑等算法,完全能夠勝任大數(shù)據(jù)處理實(shí)時(shí)性的要求。”顏友亮說道。
HIMM模型與HiGraph框架對(duì)于完善香農(nóng)實(shí)驗(yàn)室在高性能計(jì)算研究的布局具有重要意義。華為香農(nóng)實(shí)驗(yàn)室也將繼續(xù)在圖計(jì)算領(lǐng)域和Spark框架上發(fā)力,并進(jìn)一步完善HiGraph,為華為的大數(shù)據(jù)研究提供了堅(jiān)實(shí)基礎(chǔ),助力華為更好地進(jìn)駐大數(shù)據(jù)領(lǐng)域。