股票市場上的投資者往往依賴金融風(fēng)險理論來幫助他們獲得最大化投資回報,同時又能將市場波動造成的金融損失降至最小。這些理論幫助投資者保持一個平衡的投資組合,以確保他們在任何時候都不會損失超過他們愿意放棄的錢。
受這些理論的啟發(fā),MIT計算機科學(xué)與人工智能實驗室(CSAIL)的研究人員與微軟合作開發(fā)了一個“風(fēng)險意識”數(shù)學(xué)模型,可以提高全球云計算網(wǎng)絡(luò)的性能。畢竟,云計算的基礎(chǔ)設(shè)施極其昂貴,消耗了世界上大量的能源。
數(shù)據(jù)連接失敗概率,類比股價的波動
他們的模型考慮了全球數(shù)據(jù)中心之間鏈接失敗的概率——類似于預(yù)測股票的波動性。然后,它運行一個優(yōu)化引擎,通過最佳路徑分配流量,以最小化損失,同時最大化網(wǎng)絡(luò)的整體利用率。
該模型可以幫助市面上的主要云服務(wù)提供商——如微軟、亞馬遜和谷歌——更好地利用其基礎(chǔ)設(shè)施。傳統(tǒng)方法是保持鏈路空閑,以處理鏈路故障導(dǎo)致的意外流量轉(zhuǎn)移,這是對能量、帶寬和其他資源的浪費。
另一方面,這個名為TeaVar的新模型保證了在一定的目標時間百分比內(nèi)(比如99.9%)內(nèi)網(wǎng)絡(luò)能夠處理所有數(shù)據(jù)流量,因此沒有必要保持任何鏈接空閑。在那0.1%的例外時間內(nèi),模型也會將數(shù)據(jù)中斷的可能性保持得越低越好。
在基于真實數(shù)據(jù)的實驗中,該模型支持的流量是傳統(tǒng)方式的三倍,同時保持了相同高的網(wǎng)絡(luò)可用性。一篇描述模型和結(jié)果的論文將在本周的ACM SIGCOMM會議上發(fā)表。
麻省理工學(xué)院電子工程和計算機科學(xué)系TIBCO職業(yè)發(fā)展助理教授、該研究的合著者Manya Ghobadi說,更好地利用網(wǎng)絡(luò)可以為服務(wù)提供商節(jié)省數(shù)百萬美元,這些好處同時也會惠及到消費者身上。
Ghobadi說:“更好地利用基礎(chǔ)設(shè)施不僅對云服務(wù)有好處,對世界也有好處。企業(yè)不需要購買那么多基礎(chǔ)設(shè)施來向客戶銷售服務(wù)。此外,能夠有效地利用數(shù)據(jù)中心資源可以節(jié)省云基礎(chǔ)設(shè)施的大量能源消耗。所以,這對用戶和環(huán)境都是好的。”
Ghobadi的論文作者中包括她的學(xué)生Jeremy Bogle和Nikhil Bhatia,他們都是CSAIL的學(xué)生;微軟研究院的Ishai Menache和Nikolaj Bjorner,以及希伯來大學(xué)的Asaf Valadarsky和Michael Schapira。
權(quán)衡可用性和利用率,成本最小化
云服務(wù)提供商使用運行在地下的光纖電纜網(wǎng)絡(luò),連接不同城市的數(shù)據(jù)中心。為了路由流量,提供商依賴于“流量工程”( traffic engineering ,TE)軟件,該軟件可以通過所有網(wǎng)絡(luò)路徑優(yōu)化分配數(shù)據(jù)帶寬(一次可以傳輸?shù)臄?shù)據(jù)量)。
其目標是確保世界各地的用戶獲得最大的可用性。但是,當(dāng)一些連接可能意外失敗時,這就很有挑戰(zhàn)性了,比如斷電時導(dǎo)致信號質(zhì)量下降,或者施工造成的線路中斷等因素。為了減輕這些意外事故帶來的影響,供應(yīng)商將許多鏈接的利用率保持在非常低的水平,只是在那里等著在需要時從被迫關(guān)閉的鏈接中承受全部數(shù)據(jù)負載。
因此,在網(wǎng)絡(luò)可用性和利用率之間,這是一個微妙的權(quán)衡,這將實現(xiàn)更高的數(shù)據(jù)吞吐量。研究人員說,這就是傳統(tǒng)TE方法失敗的地方。他們基于各種因素找到最佳路徑,卻不量化鏈路的可靠性。Bogle說:“他們不會說,‘這條鏈路啟動和運行的概率更高,所以這意味著你應(yīng)該在這里發(fā)送更多的流’。”網(wǎng)絡(luò)中的大多數(shù)鏈路利用率都很低,發(fā)送的流量也沒有達到預(yù)期的水平。"
于是,研究人員設(shè)計了一個TE模型,該模型采用了核心數(shù)學(xué)中的“風(fēng)險條件價值”, 這是一種量化平均資金損失的風(fēng)險評估方法。在投資股票時,如果你今天99%的條件價值風(fēng)險為50美元,那么你當(dāng)天最壞情況1%的預(yù)期損失就是50美元。但99%的情況下,你會做得更好。這一指標用于投資股市,而股市是出了名的難以預(yù)測。
“但數(shù)學(xué)實際上更適合我們的云基礎(chǔ)設(shè)施設(shè)置,” Ghobadi說。“大多數(shù)情況下,鏈路故障是由于設(shè)備老化造成的,因此故障概率不會隨著時間的推移發(fā)生很大變化。這意味著與股市相比,我們的概率更可靠。”
風(fēng)險意識模型
在網(wǎng)絡(luò)中,數(shù)據(jù)帶寬份額類似于投入的“錢”,具有不同故障概率的網(wǎng)絡(luò)設(shè)備是“股票”及其股價變化的不確定性。利用這些基本公式,研究人員設(shè)計了一個“風(fēng)險意識”模型,與金融模型一樣,該模型保證數(shù)據(jù)在99.9%的時間內(nèi)到達目的地,但在0.1%的最壞情況下,流量損失最小。這幫助了云提供商調(diào)優(yōu)可用性和利用率之間的權(quán)衡。
研究人員將微軟連接其數(shù)據(jù)中心的網(wǎng)絡(luò)三年的網(wǎng)絡(luò)信號強度映射到鏈路故障的概率分布上。輸入是圖形中的網(wǎng)絡(luò)拓撲,數(shù)據(jù)源-目的地數(shù)據(jù)流通過線路(鏈路)和節(jié)點(城市)連接,每條鏈路分配一個帶寬。
每隔15分鐘對每個環(huán)節(jié)的信號質(zhì)量進行檢測,得到故障概率。如果信號質(zhì)量低于接收閾值,他們認為這是鏈路故障。高于接收閾值即意味著鏈接已經(jīng)啟動并運行。在此基礎(chǔ)上,該模型生成了每個鏈接上升或下降的平均時間,并計算了每個鏈接在每個15分鐘時間窗口的失敗概率(或“風(fēng)險”)。從這些數(shù)據(jù)中,它能夠預(yù)測在任何給定的時間段內(nèi),風(fēng)險鏈接什么時候會失效。
研究人員將該模型與其他TE軟件進行了測試,測試對象是通過遍布全球的谷歌、IBM、ATT和其他網(wǎng)絡(luò)發(fā)送的模擬流量。研究人員根據(jù)故障發(fā)生的概率創(chuàng)建了各種故障場景。然后,他們通過網(wǎng)絡(luò)發(fā)送模擬的和真實的數(shù)據(jù)需求,并提示他們的模型開始分配帶寬。
研究人員的模型將相對可靠的鏈接保持在接近滿負荷的狀態(tài),同時引導(dǎo)數(shù)據(jù)遠離風(fēng)險更高的鏈接。與傳統(tǒng)方法相比,他們的模型通過網(wǎng)絡(luò)運行的數(shù)據(jù)是傳統(tǒng)方法的三倍,同時仍然確保所有數(shù)據(jù)都到達目的地。
相關(guān)報道:
https://www.csail.mit.edu/news/using-wall-street-secrets-make-cloud-computing-cheaper
https://github.com/manyaghobadi/teavar