首頁>>>技術>>>計費  計費產(chǎn)品

中移動山東公司建立“三多一小”的BOSS應急體系

崔可升 2010/03/08

  建設IT應急(容災)系統(tǒng)似乎是一件不討好的事,花費很多錢只是為了防“萬一”,“萬一”不出現(xiàn),大量的投入看起來就浪費了,但是又不得不預防“萬一”。最壞的情況是,盡管花了不少錢,但真正出現(xiàn)“萬一”的時候,應急系統(tǒng)卻沒有發(fā)揮作用。

  中國移動山東公司(以下簡稱“山東移動”)歷經(jīng)多年的建設,針對BOSS系統(tǒng)建立了相對完整的應急保障體系。2009年12月,山東移動的BOSS應急體系建設項目榮獲中國移動集團“2009年度最佳應急保障高效獎”。2010年1月,中國計費網(wǎng)(泰力信息)公布“2009中國電信業(yè)運營支撐&IT系統(tǒng)年度評選”結(jié)果,山東移動在BOSS應急體系建設中實施的云計算應用項目榮獲“年度管理創(chuàng)新項目獎”。在此,我介紹一些應急體系建設的經(jīng)驗和體會,跟IT同行們參考。

  “三多一小”的應急體系

  山東移動的BOSS應急體系建設,概括起來就是“三多一小”,即多級冗余,數(shù)據(jù)為先;多級預案,逐步升級;多級聯(lián)動,重點保障;實現(xiàn)業(yè)務最小化影響。

  多級冗余,數(shù)據(jù)為先。一是主機和磁盤陣列的冗余配置,主機的電源、內(nèi)存、磁盤、光纖卡、網(wǎng)卡等都是冗余的,冗余的網(wǎng)卡、光纖卡要確保連接在不同的交換機上。二是機房、空調(diào)、電源的冗余,電源要配獨立的雙UPS和雙電源線接入。三是物理傳輸路由的冗余,冗余光纖傳輸要來自不同的物理路由。四是數(shù)據(jù)中心的冗余,三個中心互為災備,任何一個癱瘓,都可以由另外兩個數(shù)據(jù)中心接管。

  多級預案,逐步升級。一級為業(yè)務應急預案,在業(yè)務本地運行模式下,系統(tǒng)出現(xiàn)故障時啟動,以實現(xiàn)對業(yè)務的影響最小或者沒有影響。通過業(yè)務部署、業(yè)務冗余處理模塊等多種方式實現(xiàn)。二級為本地接管預案,在單點故障或設備主動維護時,BOSS各個業(yè)務系統(tǒng)均實現(xiàn)本地HA(高可用性)接管,關鍵系統(tǒng)如營業(yè)、計費、漫游、接口都實現(xiàn)了自動接管。三級為容災切換預案,山東移動建設了負荷分擔、互為備份的三中心容災體系,數(shù)據(jù)庫層采用1對2的架構(gòu),采用“存儲底層同步復制+定時快照復制”技術,防止數(shù)據(jù)的物理或邏輯錯誤。四級為備份恢復系統(tǒng),它提供生產(chǎn)數(shù)據(jù)快照及磁帶備份,日常全備和增量備份均直接通過遠程SAN備份到異地中心,用于嚴重事件的應急恢復工作。從第一級到第四級預案,故障帶來的損害程度逐漸增大,處理時間也逐步增長,當然對業(yè)務的影響程度也逐漸增大。根據(jù)事件發(fā)生的性質(zhì)和影響程度,優(yōu)先采用影響業(yè)務小的預案,并視情況逐步升級應急預案,目的是使事件對業(yè)務的影響減少到最低。

  多級聯(lián)動,重點保障。建立完善的應急管理制度,才可以保證在遇到突發(fā)事件時,應急管理組織體系能夠有效運轉(zhuǎn)。經(jīng)過幾年的實踐,山東移動建立了應急監(jiān)測預警機制、信息溝通機制、應急決策和協(xié)調(diào)機制、分級負責與響應機制。理順了業(yè)務與IT部門在應對突發(fā)事件中的關系、應急指揮和實施部門的關系、綜合應急部門和支持廠商的關系,建立了信息統(tǒng)一、管理對接、資源共享、協(xié)同有力的應急管理機制,調(diào)動各方面應急管理的積極性。一方面,梳通內(nèi)部流程,打通省市間、賬務中心與其它部門間的通道;另一方面,梳通廠家支持流程,與支持廠商建立合作關系,從而構(gòu)建了“省-市-合作伙伴”多級聯(lián)動的應急保障體系。

  不同業(yè)務及系統(tǒng)的應急代價是完全不同的,同時帶來的應急手段差異也很大,需要以“最小的代價”進行系統(tǒng)的“最快應急”。對開戶、繳費、業(yè)務變更等關鍵業(yè)務,山東移動自主獨立開發(fā)了單獨的關鍵業(yè)務保障小系統(tǒng),獨立于BOSS系統(tǒng)外,同時和BOSS系統(tǒng)建立自動接口,確保緊急情況下可以啟用該系統(tǒng),進行最關鍵業(yè)務的辦理。在系統(tǒng)異常、版本上線、本地接管、容災切換的過程中,可以啟用關鍵業(yè)務保障子系統(tǒng),進而打造一個關鍵業(yè)務不間斷的BOSS系統(tǒng)。

  立足業(yè)務 自主創(chuàng)新

  山東移動BOSS系統(tǒng)的核心業(yè)務都是構(gòu)建在EMC公司的設備和軟件之上,包括EMC Symmetrix DMX存儲陣列、SRDF/快照等。EMC在業(yè)務連續(xù)性保障方面也具有豐富的經(jīng)驗。按照慣例,運營商一般將系統(tǒng)架構(gòu)設計和建設主要交給廠商/系統(tǒng)集成商來主導,山東移動在BOSS應急體系建設中堅持自己主導,與廠商進行互動,充分利用廠商技術、產(chǎn)品、服務和經(jīng)驗,進行自主創(chuàng)新,取得了良好的效果。

  山東移動的“多中心業(yè)務容災”模式,就是在應急系統(tǒng)架構(gòu)上的一個自主創(chuàng)新。具體做法是,將容災機房和生產(chǎn)機房混合部署。例如,A、B、C三個機房,每個機房都有完整的BOSS系統(tǒng),各自承擔一部分地市的業(yè)務。C機房最大,對A和B機房同時進行災備,任何一個機房出現(xiàn)嚴重問題,其它兩個機房能夠接管全部的業(yè)務。

  “多中心業(yè)務容災”的關鍵在于,根據(jù)多年系統(tǒng)維護經(jīng)驗,提出對業(yè)務處理進行縱向拆分。業(yè)務處理縱向拆分,就是山東移動根據(jù)對業(yè)務應用的思考,自己做出的決定,目的是將故障對客戶的影響減少到最低。這也是實現(xiàn)多中心良好運轉(zhuǎn)的前提。這樣,山東移動就將業(yè)務處理分布到三個數(shù)據(jù)中心,每個中心平時均有完整的BOSS系統(tǒng),承擔一個區(qū)的業(yè)務。當一個系統(tǒng)發(fā)生故障時,影響的只是該區(qū)域,而且可以切換到別的區(qū)域系統(tǒng)上應急處理。相比之下,橫向拆分,是指讓全省所有用戶運行一個系統(tǒng),例如全省的營業(yè)系統(tǒng)、全省的帳務系統(tǒng),當一個系統(tǒng)發(fā)生故障時,會影響到全省。

  這樣做也有利于提高應急平臺的可用性。當業(yè)務處理系統(tǒng)處于“正常狀態(tài)”時,業(yè)務負載均衡,應急系統(tǒng)處理壓力不大,業(yè)務服務響應速度很快。而當某個數(shù)據(jù)中心的業(yè)務系統(tǒng)處于“應急狀態(tài)”時,只需要數(shù)據(jù)中心的相關業(yè)務資源進行應急切換即可,可以很快做出應急響應。

  在具體拆分業(yè)務處理時,山東移動充分利用廠商資源,參照EMC的業(yè)務負載分析工具,對業(yè)務處理進行合理的拆分。

  從技術上,“多中心業(yè)務容災”運用了虛擬化技術,將生產(chǎn)資源和容災資源放在統(tǒng)一的資源池里,在節(jié)假日或業(yè)務突發(fā)時,將容災資源動態(tài)分配給生產(chǎn)應用。這種做法,跟時下的熱門話題云計算不謀而合,山東公司的做法也是云計算成功落地的典范案例。

  通過“資源動態(tài)管理”對應急管理手段進行創(chuàng)新,根據(jù)業(yè)務發(fā)展量和實際需要分配資源,為業(yè)務高峰、業(yè)務應急、重大賽事期間提供了臨時集中資源保障方案,可瞬間提升系統(tǒng)處理能力,從而支持了應急系統(tǒng)的功效。如遇業(yè)務高峰期,或應用軟件效率不高、HA接管等突發(fā)事件時,可以通過動態(tài)調(diào)整資源,保證系統(tǒng)運行穩(wěn)定。例如,2008年12月1日,一臺服務器CPU故障,造成系統(tǒng)宕機,營業(yè)一區(qū)數(shù)據(jù)庫B結(jié)點切換至A結(jié)點,但由于月初業(yè)務量大,營業(yè)一區(qū)A結(jié)點機器壓力非常大,通過將該結(jié)點所在的其它分區(qū)容災資源動態(tài)調(diào)整給該機器使用,確保了前臺系統(tǒng)的穩(wěn)定運行。在月底夜間進行帳務處理或生產(chǎn)報表時,也可以將其它分區(qū)的資源調(diào)劑給帳務系統(tǒng)使用。任務完成后,再返回給原系統(tǒng)。

  通過發(fā)揮資源池的規(guī);蟠蠊(jié)省了資源。正常運轉(zhuǎn)時,10%的資源給容災。如果采用主備方式,需要將50%左右的資源給容災。橫向比較,全國的標準是,每增加一個用戶,業(yè)務支撐系統(tǒng)的建設投資平均增加20元左右,而山東移動只需要10元左右。

  為關鍵業(yè)務開設“綠色應急通道”,是山東移動的另一項自主創(chuàng)新。BOSS系統(tǒng)的首要任務是服務好客戶,提高客戶滿意度,提高繳費、開機的時效,做到業(yè)務影響最小化。山東移動對6個場景的8類業(yè)務開辟了綠色應急通道,例如繳費、開機延遲達到30秒時,從業(yè)務層面自動打開綠色通道,先為用戶開機,系統(tǒng)恢復時再進行標準的流程處理。

  目前,山東移動為BOSS應急體系申請了9項專利。

  “功夫在詩外”

  山東公司領導對業(yè)務支撐系統(tǒng)的高度重視,是BOSS應急系統(tǒng)得以加強的動力和保障。公司領導要求BOSS系統(tǒng)使用最好的設備,所有的關鍵環(huán)節(jié)都要求有備份設備。通過加大系統(tǒng)的投入來保證系統(tǒng)運行的可靠性和穩(wěn)定性,這也是實現(xiàn)公司“以客戶為中心”服務理念有力保障。

  最后要強調(diào)的一點是,應急體系的建設不應該是狹義的。“功夫在詩外”,要強身健體,才能少生病,這也與中醫(yī)的“上醫(yī)治未病”理論一脈相承。建立完善的系統(tǒng),不出問題,少出問題,讓應急系統(tǒng)很少啟用,才是應急體系的根本。例如,山東移動的話單查詢系統(tǒng)和計費系統(tǒng)是分開的。我們這樣有利于減輕系統(tǒng)的負荷,讓計費系統(tǒng)輕裝前進,保證繳費、開機的時效,這也屬于應急體系的考慮范疇。山東移動還在BOSS系統(tǒng)上部署了EMC企業(yè)級閃盤,提高客戶資料的讀取速度,從而提高了整體系統(tǒng)的處理能力,這也屬于應急體系的考慮范疇。

  此外,應急體系的演練也非常重要。山東移動每個季度都要進行一次演練。山東移動制定了6類應急場景,針對可實施場景進行了演練。每次演練都有大的收獲。演練分為多個級別,小的方面,比如,關掉一個交換機,檢查是否兩個網(wǎng)卡在同一交換機,關掉一個UPS,關掉一個HA節(jié)點等;大的方面,比如把整個機房某個業(yè)務停掉,通過演練不斷優(yōu)化。在演練中發(fā)現(xiàn),通過容災導航軟件進行系統(tǒng)導航,可以提高應急響應速度及處理準確性。

  山東移動應急體系正式建設以來,BOSS系統(tǒng)退服時間指標逐月下降,客戶投訴率指標下降明顯,BOSS系統(tǒng)客服滿意度指標上升明顯,話費信息獲取速度、繳費成功率、開機速度都大大提高,營業(yè)廳很少遇到故障,應急系統(tǒng)的貢獻明顯。根據(jù)業(yè)務部門內(nèi)部評價、集團考核和外部客戶滿意度調(diào)查的結(jié)果,山東移動BOSS系統(tǒng)的滿意度處于全國前幾名的位置。系統(tǒng)每天的計劃外退服時長縮短了幾十倍,應急系統(tǒng)建設之前,每年的退服時長在幾百分鐘,現(xiàn)在,每年的退服時間達到100分鐘以內(nèi),用戶端幾乎感受不到系統(tǒng)停頓。每萬用戶的支撐類投訴比從0.4下降到0.05左右。繳費開機的速度也大大加快,由原來的幾分鐘達到目前的平均幾秒數(shù)量級。
共 2 頁: 1  2 

通信產(chǎn)業(yè)網(wǎng)



相關閱讀:
華為為上海聯(lián)通部署OSS系統(tǒng) 2009-09-18

分類信息:  移動_與_計費技術