CTI論壇(ctiforum)5月9日消息(記者 李文杰):2016年3月14日,德國電信在CeBIT2016大會上宣布正式發(fā)布開放電信云,并選擇華為為其提供基礎(chǔ)設(shè)施和技術(shù)專家支持。這是華為IT業(yè)務(wù)首次突破歐洲頂級運營商。消息傳至華為杭州研究所,辦公室里一片歡騰。在這場歷時一年多的大會戰(zhàn)中,年輕的杭州團隊圍繞云操作系統(tǒng)解決方案,走過了一段艱辛而又充實的道路。
德電公有云網(wǎng)絡(luò)團隊
獲性能準(zhǔn)入通行證
2014年12月的一天,UVP團隊公有云PM黃鵬接到云計算性能部主管的電話,問他的團隊能否幫助聯(lián)合攻關(guān)SAP公司的HANA(高性能分析設(shè)備)認(rèn)證。原來,德國電信正在尋找公有云聯(lián)合運營伙伴,而德電有近70%客戶使用SAP公司提供的HANA業(yè)務(wù),具備SAP HANA認(rèn)證資質(zhì)是準(zhǔn)入前提。
SAP將典型客戶場景提煉成2000多個極其嚴(yán)苛的測試用例,每個用例必須在其指定的時間范圍內(nèi)通過虛擬化平臺測試,全部用例通過后才能滿足認(rèn)證條件。當(dāng)時我們有1000多個用例已經(jīng)通過測試,虛擬化平臺整體性能指標(biāo)維持在50%左右,卻一直苦于不能繼續(xù)往上突破。
接到任務(wù),UVP團隊成員許志闖、蔣毅飛火速趕往SAP中國區(qū)總部西安,在指定的測試環(huán)境中蹲點進行性能調(diào)優(yōu)。根據(jù)以往經(jīng)驗,突破一兩個關(guān)鍵點就能實現(xiàn)性能大幅提升,然而蔣毅飛很快發(fā)現(xiàn),調(diào)整單個性能參數(shù)往往是按下葫蘆又起瓢,整體用例通過數(shù)量基本保持不變。原以為兩周就可以搞定的攻關(guān)任務(wù)兩個月還沒有進展,每天接到產(chǎn)品線的“進度催命call”,團隊心急如焚。
為了進一步定位問題,2015年3月,黃鵬等人飛往SAP德國總部拜訪,剛一見面,就遭到SAP工程師質(zhì)疑,“這么久還沒有進展,是不是不行。”每個人臉上火辣辣的,但依然態(tài)度誠懇地請教了幾個用例中的底層內(nèi)核相關(guān)問題。這讓專注于上層應(yīng)用開發(fā)的SAP工程師態(tài)度一百八十度轉(zhuǎn)變,他驚訝于團隊在用例分析上的深度,并主動給我們分享了典型用例的分類細(xì)節(jié),讓團隊對用例分類有了更準(zhǔn)確的定位。基于此,大家針對未通過測試且數(shù)量最多的用例類別快速展開分析,逐漸發(fā)現(xiàn)了CPU、存儲、內(nèi)存等多個領(lǐng)域共二十幾個待攻克的性能關(guān)鍵點。沉下心來,團隊成員一頭扎入到從底層CPU到虛擬化平臺的研究分析中,一點點啃下了各領(lǐng)域的“硬骨頭”,終于在5月將性能提升至80%。
重振旗鼓的兄弟們按照相同方法瞄準(zhǔn)其余尚未通過的用例進行分析,在7月,實現(xiàn)性能提升的又一次突破,所有用例通過測試。HANA認(rèn)證終于順利過關(guān),華為云解決方案獲得了德電的入場券。2016年CeBIT展上,華為成為業(yè)界第一家通過SAPHANA多機認(rèn)證的公司。
大家回溯發(fā)現(xiàn),一路走來,整體代碼改動量并不大,然而每一小步,都凝聚著持之以恒的分析和鉆研,蔣毅飛感嘆,“這也許是厚積薄發(fā)的另一種體現(xiàn)吧。”
突圍安全“上甘嶺”
德電公有云是基于OpenStack的IaaS(Infrastructure-as-a-Service),是一朵開放的“云”。伴隨開放而來的,除了經(jīng)濟便捷的服務(wù),也有不容忽視的安全風(fēng)險。德國電信十分重視公有云服務(wù)的安全性,并將其視為廠商準(zhǔn)入門檻之一。
考慮到歐洲客戶一貫的高標(biāo)準(zhǔn)嚴(yán)要求,2015年11月底,OpenStack集成開發(fā)團隊交付第二個商用版本時已完成大量安全紅線整改,還從歐洲專門請來幾位資深安全專家“把脈”,確保系統(tǒng)安全性達(dá)到公司各項安全標(biāo)準(zhǔn)。所有人都成竹在胸,然而12月,客戶發(fā)來了一封封郵件,認(rèn)為交付版本的安全要求遠(yuǎn)遠(yuǎn)達(dá)不到“準(zhǔn)入門檻”。幾百條超出以往公司標(biāo)準(zhǔn)的嚴(yán)苛條件一時間讓大家懵了,一場突圍戰(zhàn)迫在眉睫。
痛定思痛,團隊很快敲定了策略,對外立即派駐安全接口人員,趕往客戶現(xiàn)場實時收集第一手信息,主動對齊客戶的思路和要求;對內(nèi)火速成立整改小組,由組長傅斌杰統(tǒng)一組織網(wǎng)絡(luò)、存儲和UVP等團隊對口一線聯(lián)合攻關(guān)。一個月里,大家邊查資料邊討論設(shè)計方案,常常一天連口水都喝不上。為了確保服務(wù)器能支持德電要求的版本安全加密協(xié)議,主攻Web-UI領(lǐng)域安全的小蘭日夜奔忙,一周還沒見上新搬來的室友。在大家的并肩努力下,來自操作系統(tǒng)、公共組件、Web-UI等領(lǐng)域的上百個安全問題被逐一攻克。經(jīng)過這場“百科全書”式的安全大考后,團隊負(fù)責(zé)人徐承武坦言,“我們基本上和各領(lǐng)域的問題都過了招,相信之后再遇到它們就跟遇到老朋友一樣,能輕松搞定。”
然而安全無止境,層層構(gòu)筑的安全屏障會使“云”越來越笨重,影響系統(tǒng)易用性及用戶體驗。對此,團隊還主動從最終用戶的角度分析并設(shè)計開發(fā)了一鍵加固系統(tǒng)安全等功能特性,減少用戶的操作步驟,讓體驗更輕盈,維護更便捷。從“被動突圍”到“主動進攻”,終于成功跨越安全這一準(zhǔn)入門檻。
挺進網(wǎng)絡(luò)商用“無人區(qū)”
作為德電公有云的“大腦”,F(xiàn)usionSphere是業(yè)界少數(shù)完全基于OpenStack開源架構(gòu)并真正投入商用的云操作系統(tǒng)。網(wǎng)絡(luò)是云操作系統(tǒng)的神經(jīng),然而相比計算和存儲,開源網(wǎng)絡(luò)領(lǐng)域的全球商用在公司缺少技術(shù)儲備,也無可參照的業(yè)界經(jīng)驗,如何在三個月內(nèi)快速突破OpenStack網(wǎng)絡(luò)商用這一業(yè)界“無人區(qū)”,是橫亙在公有云Fusion Network團隊面前最大的考驗。
OpenStack開源社區(qū)的原生方案是基于實驗性質(zhì)設(shè)計和實現(xiàn)網(wǎng)絡(luò)功能,但在商用場景下,開源網(wǎng)絡(luò)的性能不足以支撐大規(guī)模用戶使用,不到一千個用戶上線就會導(dǎo)致網(wǎng)絡(luò)系統(tǒng)全面癱瘓。剛接到任務(wù)時,團隊成員徐聰、王睿和高家睿首先嘗試通過網(wǎng)絡(luò)參數(shù)調(diào)優(yōu)來提升性能,在反復(fù)調(diào)試了十多個關(guān)鍵參數(shù)后,情況并沒有任何改善。核心服務(wù)的CPU負(fù)載一直居高不下,所有新任務(wù)不能下發(fā)執(zhí)行。原生方案的網(wǎng)絡(luò)任務(wù)分配方式出了問題,但又不知道問題出在哪里。
此時距離交付時間只剩一個月,大家卻連一行代碼都無從改起,感覺已經(jīng)“山窮水盡”的徐聰手機關(guān)機整整兩天,驚得大家一度以為他要“撂擔(dān)子”了,然而這兩天“任性”的封閉卻帶來新的轉(zhuǎn)機。徐聰和他的團隊決定拋開糾結(jié)很久的性能參數(shù)問題,追本溯源去研究OpenStack網(wǎng)絡(luò)的底層調(diào)度機制和整體框架。大家埋頭于歷史資料和文檔中,研究原生方案的設(shè)計背景和目的,并對照業(yè)務(wù)執(zhí)行流程,一步步打開各個環(huán)節(jié)去閱讀對應(yīng)的代碼。通過這種抽絲剝繭式的分析,團隊發(fā)現(xiàn)原生方案的架構(gòu)并不支持多客戶場景下虛擬路由器功能,大家不得不硬著頭皮推翻原生架構(gòu),挺進網(wǎng)絡(luò)“無人區(qū)”的最深處。
無數(shù)個夜晚,大家自發(fā)聚集在一起分析疑難問題,帶著打破砂鍋問到底的勁兒,反復(fù)質(zhì)疑和推敲整體架構(gòu)的每一個細(xì)節(jié),辦公室里常常上演激烈的辯論賽。在這個過程中,團隊還從OpenStack社區(qū)的一個設(shè)計方案中獲得靈感,并借鑒該方案的實現(xiàn),將網(wǎng)絡(luò)任務(wù)分配機制進行徹底改造。成功源于堅持,在修改了數(shù)千行原生代碼,修復(fù)了無數(shù)個bug后,最終方案出爐,實現(xiàn)了商用場景下用戶大規(guī)模網(wǎng)絡(luò)部署。第一次看到CPU低負(fù)載運行,徐聰心中感到無比幸福。這一創(chuàng)造性的解決方案不僅突破了OpenStack網(wǎng)絡(luò)商用的“無人區(qū)”,同時也成功應(yīng)用于客戶公有云項目,為其注入了強勁的網(wǎng)絡(luò)性能動力。
回望這段時光,所有的艱辛都釋釀成了雋永的馨香。然而路漫漫其修遠(yuǎn),隨著全球公有云朵朵花開,我們的萬里長征才剛剛起步。守好質(zhì)量生命線,確保運維零事故,F(xiàn)usion Network團隊LM徐齊剛道出了大家的心聲,“我們正經(jīng)歷IT產(chǎn)業(yè)最好的時代,為客戶提供高質(zhì)量的云服務(wù),接下來一定要踏踏實實地走好每一步。”