刀片服務(wù)器在移動業(yè)務(wù)支撐系統(tǒng)中的應(yīng)用
2009/07/28
河南移動業(yè)務(wù)支撐系統(tǒng)遵循集團總部BOSS3.0整體規(guī)劃和規(guī)范,已經(jīng)基本完成相關(guān)部署工作,包含客戶服務(wù)應(yīng)用部署、BOSS與DSMP接口改造、欠費風(fēng)險控制、門戶網(wǎng)站業(yè)務(wù)和數(shù)據(jù)一致性管理機制。另外進一步完善和明晰河南移動BOSS系統(tǒng)的體系結(jié)構(gòu)、應(yīng)用軟件結(jié)構(gòu)、系統(tǒng)邊界和外部接口、系統(tǒng)功能及系統(tǒng)指標(biāo)等基本定位與要求,從而為河南移動業(yè)務(wù)組織、管理及市場經(jīng)營、客戶服務(wù)等工作提供持續(xù)、有效的運營支撐。系統(tǒng)改造完成后,將支撐河南移動4000萬計費用戶話務(wù)量增長以及業(yè)務(wù)發(fā)展的要求,滿足其對集團類業(yè)務(wù)、數(shù)據(jù)業(yè)務(wù)、奧運業(yè)務(wù)和其他新業(yè)務(wù)快速開發(fā)和上線的要求。
河南作為中國的人口大省,移動通信運營的競爭將更加激烈,河南移動如何在支撐系統(tǒng)建設(shè)過程中引入先進的系統(tǒng)建設(shè)思路和技術(shù),建立一個能夠滿足不斷增長和變化的業(yè)務(wù)需求的系統(tǒng)架構(gòu),這套系統(tǒng)架構(gòu)易于管理和維護,并在最大程度上降低設(shè)備采購成本和運營成本?
問題分析和解決思路
1.原業(yè)務(wù)支撐系統(tǒng)的建設(shè)模式
建設(shè)BOSS3.0以前,河南移動的業(yè)務(wù)支撐系統(tǒng)全部選用UNIX小型機作為主服務(wù)器設(shè)備,UNIX小型機具有處理能力高,單機穩(wěn)定性好的優(yōu)點。同時,UNIX小型機也存在采購成本高、運行維護成本高、運行維護相對復(fù)雜等問題。隨著業(yè)務(wù)支撐系統(tǒng)能力要求不斷提升,UNIX小型機的高成本成為系統(tǒng)建設(shè)的瓶頸。“降低TCO成本、提升性能、節(jié)能減排”成為河南移動業(yè)務(wù)支撐系統(tǒng)建設(shè)關(guān)注的重點。
2.業(yè)務(wù)支撐基礎(chǔ)架構(gòu)設(shè)施的建設(shè)思路
河南移動一直在追蹤最新的互聯(lián)網(wǎng)技術(shù)與硬件技術(shù)的發(fā)展,發(fā)現(xiàn)互聯(lián)網(wǎng)企業(yè)系統(tǒng)架構(gòu)模式值得借鑒:互聯(lián)網(wǎng)應(yīng)用多運行于PC服務(wù)器、刀片服務(wù)器等低端設(shè)備上,系統(tǒng)通過先進的技術(shù)架構(gòu)與集群部署方式支撐大量在線訪問、交易并保持高效、穩(wěn)定的運行,典型的如Google、淘寶均使用刀片集群作為運行平臺。河南移動借鑒互聯(lián)網(wǎng)系統(tǒng)架構(gòu)思路,結(jié)合系統(tǒng)特點對業(yè)務(wù)支撐系統(tǒng)架構(gòu)進行優(yōu)化、創(chuàng)新,實現(xiàn)了將CRM應(yīng)用部署于刀片服務(wù)器機群的創(chuàng)新。
在軟件技術(shù)層面上,河南移動BOSS3.0的CRM系統(tǒng)采用三層軟件架構(gòu),基于亞信公司AppFrame平臺設(shè)計、開發(fā)。AppFrame平臺采用分布式架構(gòu)設(shè)計,底層采用分布式EJB實現(xiàn),整體系統(tǒng)架構(gòu)完全支持集群化、分布業(yè)務(wù)處理。AppFrame平臺完全基于J2EE開發(fā),具備良好的可移植性,應(yīng)用組件可以運行于任何支持J2EE的操作系統(tǒng)上。AppFrame平臺提供了多種應(yīng)用系統(tǒng)級容錯機制,通過會話復(fù)制、服務(wù)可用性判斷、路由分發(fā)、應(yīng)用自適應(yīng)調(diào)整、災(zāi)備切換等方式保證系統(tǒng)穩(wěn)定。AppFrame平臺提供Deploy機制和應(yīng)用監(jiān)控機制,使基于該平臺的應(yīng)用具備自動快速部署能力和分布式應(yīng)用的集中監(jiān)控、跟蹤能力。基于AppFrame平臺的CRM系統(tǒng)具備了“分布式處理能力、跨平臺運行能力、系統(tǒng)級容錯能力、集群部署能力、集中監(jiān)控能力”。上述能力的具備,使河南移動CRM系統(tǒng)具備了運行于刀片機群的條件。
在硬件設(shè)備層面,隨著AMD皓龍等x86處理器多核技術(shù)的高速發(fā)展,其每瓦效能越來越高,也使得刀片服務(wù)器技術(shù)日趨成熟。刀片服務(wù)器是一種高密度服務(wù)器,專為實現(xiàn)數(shù)據(jù)中心的便利性而打造,在標(biāo)準(zhǔn)高度的機架式機箱內(nèi)可插裝多個卡式的服務(wù)器單元,實現(xiàn)高可用和高密度。與傳統(tǒng)服務(wù)器相比具有很多優(yōu)勢:適用于服務(wù)器集群;低成本;線纜大規(guī)模地減少;低功耗;模塊化,實現(xiàn)了物理“即插即用”和“即購即換”處理的高效性。
結(jié)合先進的軟件、硬件技術(shù),CRM系統(tǒng)應(yīng)用服務(wù)器替換為刀片服務(wù)器集群成為可能。新的CRM系統(tǒng)架構(gòu)將具備由冗余節(jié)點方式提供的高可靠性,一旦單臺刀片節(jié)點發(fā)生故障,應(yīng)用系統(tǒng)將自動切換至其他節(jié)點提供服務(wù);支持通過擴充應(yīng)用服務(wù)器數(shù)量的方式擴展業(yè)務(wù)處理能力。最為重要的是,這種新的BOSS基礎(chǔ)架構(gòu)設(shè)備投資低于采用小型機方案的數(shù)倍。
業(yè)務(wù)支撐系統(tǒng)引入刀片服務(wù)器的
技術(shù)方案
1.河南移動BOSS3.0CRM系統(tǒng)采用三層架構(gòu)部署,分別為前端業(yè)務(wù)接入服務(wù)器、應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器。網(wǎng)絡(luò)拓撲圖如圖1所示。
(1)應(yīng)用服務(wù)器。在應(yīng)用服務(wù)器上部署中間件,提供營業(yè)業(yè)務(wù)處理邏輯,并連接后端數(shù)據(jù)庫服務(wù)器,應(yīng)用服務(wù)器群集通過中間件提供并行處理方式,提高系統(tǒng)的可用性和可擴展性,應(yīng)用服務(wù)器采用HPBladeSystemBL685c G5刀片服務(wù)器,HP ProLiant BL685c具有極密集4處理器刀片式服務(wù)器的杰出性能,包括四核處理器、大內(nèi)存容量和同類設(shè)備中更出色的網(wǎng)絡(luò)連接:最多4個AMD 四核皓龍8300系列處理器,具有64位四核計算功能以及業(yè)界領(lǐng)先的每瓦性能和每瓦性價比;支持AMD Dual Dynamic Power Management 技術(shù),以優(yōu)化設(shè)備性能、降低設(shè)備功耗。AMD四核皓龍?zhí)幚砥鞯某瑐鬏斂偩為處理器核心、I/O子系統(tǒng)、內(nèi)存及其他芯片組之間提供了可擴展的高帶寬互連,使得每個處理器都可以擁有24Gbit/s的峰值帶寬;集成內(nèi)存控制器優(yōu)化了每個處理器的性能和帶寬,消除了傳統(tǒng)前端總線架構(gòu)固有的延遲。
尤其是在部署多路服務(wù)器時,基于AMD皓龍?zhí)幚砥鞯膬?nèi)存帶寬會相應(yīng)增加而完全不受北橋芯片的限制;AMD的直連架構(gòu)技術(shù)能夠完全消除傳統(tǒng)前端總線架構(gòu)所固有的瓶頸,從而提升了總的系統(tǒng)性能和多路處理器的效率,尤其是在HPBladeSystemBL685c G5此類多路服務(wù)器中,直連架構(gòu)和超傳輸總線能夠最大限度消除不同物理處理器之間的傳輸瓶頸,真正發(fā)揮出多路處理器的性能優(yōu)勢;此外HP Blade System BL685c G5刀片服務(wù)器具有16個 DIMM插槽可支持高達128GB ECC 667MHz寄存式DDR2內(nèi)存,可用于內(nèi)存密集型應(yīng)用;2個嵌入式多功能千兆網(wǎng)卡帶有TCP/IP卸載引擎(TOE)和 iSCSI支持;2個嵌入式千兆以太網(wǎng)網(wǎng)卡;3個中間件I/O擴展插槽可安裝配置選件,例如多功能千兆網(wǎng)卡、1GB和 10GB千兆以太網(wǎng)網(wǎng)卡、光纖通道和Infiniband。
(2)接入服務(wù)器。接入服務(wù)器為營業(yè)系統(tǒng)提供自建營業(yè)廳、合作營業(yè)廳、代辦點、連鎖店等所有的營業(yè)終端接入服務(wù),以及電子渠道等營業(yè)相關(guān)業(yè)務(wù)接入,通過網(wǎng)頁的形式展現(xiàn)。前端訪問請求可以通過負載均衡器,分配訪問量到各個WEBServer。這樣,即使有某臺Server出現(xiàn)故障,其他Server將繼續(xù)提供服務(wù),接入服務(wù)器群主要采用HPProLiantBladeSystem刀片服務(wù)器系統(tǒng),機型是基于AMD四核皓龍的HP Blade System BL465c G5,BL465c 配備兩顆AMD四核皓龍?zhí)幚砥,具有與標(biāo)準(zhǔn)1U機架安裝式服務(wù)器相同的特性,集成了節(jié)能的計算功能和高密度性、擴展的內(nèi)存和I/O,極大地提高了性能。此款均衡架構(gòu)帶有AMD四核皓龍?zhí)幚砥、DDR2內(nèi)存、串行硬盤、多功能千兆網(wǎng)絡(luò)支持和多I/O卡,可提供一個適合多種應(yīng)用的高性能系統(tǒng)。尤其是采用的AMD四核皓龍?zhí)幚砥鳎瑧{借直連架構(gòu)以及超傳輸總線和集成內(nèi)存控制器等優(yōu)秀技術(shù),為接入服務(wù)器帶來了業(yè)界領(lǐng)先的性能和穩(wěn)定性。同時,外形小巧的BL465c中還包括確保高可用性的特性,如熱插拔硬盤驅(qū)動器、內(nèi)存交錯、嵌入式RAID功能、以及提高的遠程Lights-Out管理。采用HP C7000機箱,10U高,可放16個半高或8個全高的刀片服務(wù)器。
(3)數(shù)據(jù)庫服務(wù)器。數(shù)據(jù)庫服務(wù)器采用UNIX小型機,直接與應(yīng)用服務(wù)器進行數(shù)據(jù)交換,應(yīng)用服務(wù)器訪問數(shù)據(jù)庫進行數(shù)據(jù)操作,數(shù)據(jù)庫服務(wù)器采用RAC方式提供性能和可靠性的保證。
2.在進行CRM應(yīng)用服務(wù)器替換為刀片服務(wù)器的同時,CRM應(yīng)用、部署進行了相應(yīng)的優(yōu)化、調(diào)整,保證設(shè)備替換后系統(tǒng)運行的高性能、高穩(wěn)定性。
。1)CRM應(yīng)用優(yōu)化。針對應(yīng)用部署的集群化,優(yōu)化應(yīng)用發(fā)布模塊,實現(xiàn)應(yīng)用分布式、自動化部署。優(yōu)化系統(tǒng)監(jiān)控模塊提供對分布式系統(tǒng)應(yīng)用追蹤、監(jiān)控功能,實現(xiàn)對服務(wù)、事物/數(shù)據(jù)庫連接、系統(tǒng)訪問、SQL的多方面監(jiān)控。及時發(fā)現(xiàn)問題和缺陷并進行優(yōu)化調(diào)整。如:服務(wù)跟蹤功能可以實時進行營業(yè)員前臺操作、后臺服務(wù)調(diào)用、數(shù)據(jù)庫數(shù)據(jù)操作的整個操作軌跡的跟蹤、分析。
(2)應(yīng)用整合。CRM應(yīng)用架構(gòu)整合所有業(yè)務(wù)功能,而不是原有的一套業(yè)務(wù)屬性對應(yīng)一套業(yè)務(wù)系統(tǒng)。在每臺服務(wù)器上均部署相同的應(yīng)用,通過設(shè)置實現(xiàn)不同服務(wù)器/業(yè)務(wù)域?qū)崿F(xiàn)不同的功能;單個模塊或者功能點的失效、升級或者failover通過模塊控制進行設(shè)置。
。3)應(yīng)用部署集群化。CRM應(yīng)用采用集群部署,將若干服務(wù)器設(shè)置為一個功能域,為特定的接入渠道服務(wù);同時,同一集群的刀片分布于不同的機框中,避免一個機柜故障導(dǎo)致整個應(yīng)用集群的不可用。采用分散部署的方式可以在單個進程/設(shè)備/機柜不可用情況下由其他設(shè)備進行應(yīng)用分擔(dān),任一點出現(xiàn)問題,不會造成系統(tǒng)整體影響問題,提高系統(tǒng)的可用性。
。4)應(yīng)用部署自適應(yīng)調(diào)整機制。不同應(yīng)用集群應(yīng)用負載設(shè)置性能壓力閾值,當(dāng)某個集群壓力超過閾值將自適應(yīng)/手工進行調(diào)整,使用備用集群或其它集群部分資源進行負載分擔(dān)。當(dāng)業(yè)務(wù)量降低,又會調(diào)整回去。通過自適應(yīng)調(diào)整機制均衡各應(yīng)用集群的能力。
。5)設(shè)置備用刀片集群。當(dāng)生產(chǎn)設(shè)備故障時可以將應(yīng)用接入到備用集群;同時,在應(yīng)用系統(tǒng)升級、生產(chǎn)設(shè)備檢修時也可以將應(yīng)用切換到備用集群上。通過備用刀片集群的設(shè)置提升了系統(tǒng)的穩(wěn)定性和可維護性。
業(yè)務(wù)支撐系統(tǒng)應(yīng)用刀片服務(wù)器
效果分析
1.降低購置成本
如果用8臺機架式服務(wù)器和8臺基于AMD皓龍?zhí)幚砥鞯牡镀⻊?wù)器相比較,帶有光纖通道連接的HPBladeSystem的成本比機架式服務(wù)器成本低15%~20%,服務(wù)器數(shù)量超過3~4臺之后,購買刀片服務(wù)器就要比傳統(tǒng)機架式服務(wù)器更加經(jīng)濟。
采用上面相同的比較,不帶光纖通道連接的HPBladeSystem(只有內(nèi)部驅(qū)動器)的成本比同級別機架安裝基礎(chǔ)設(shè)施成本低1%~4%,服務(wù)器數(shù)量超過6~8臺之后,購買刀片服務(wù)器就要比傳統(tǒng)機架式服務(wù)器更加經(jīng)濟。
2.降低運營成本
初始設(shè)置時間從每臺服務(wù)器12小時降低到30分鐘,實施變更和重新配置的時間從4小時降低到30分鐘,假設(shè)每小時的平均管理成本為43美元,若使用基于AMD皓龍?zhí)幚砥鞯腍PBladeSystem,每年100臺服務(wù)器的成本可從68800美元降至8600美元。
與采用專用服務(wù)器存儲相比,采用網(wǎng)絡(luò)存儲可管理多達6倍的存儲,從而將從存儲管理節(jié)省的資源用于戰(zhàn)略創(chuàng)新。
3.更好的性能表現(xiàn)
采用分布式系統(tǒng)設(shè)計和操作系統(tǒng)優(yōu)秀的內(nèi)核應(yīng)用處理效率獲得顯著提升。CRM部分業(yè)務(wù)的性能提高在30%~50%之間。
現(xiàn)有系統(tǒng)采用集群方式部署、分布式計算,在計算能力提升的同時有效降低單主機負載。采用小型機時,主機忙時平均負載在35%;替換后,單主機忙時平均負載降低到20%。
4.更高可用性
(1)系統(tǒng)可用性提升
河南移動CRM系統(tǒng)的刀片服務(wù)器安置于多臺機柜中,應(yīng)用劃分為多個業(yè)務(wù)組,同一分組的應(yīng)用部署于不同機柜的刀片上。通過應(yīng)用部署避免設(shè)備故障導(dǎo)致全系統(tǒng)癱瘓。
系統(tǒng)提供故障節(jié)點判斷能力,當(dāng)發(fā)現(xiàn)某進程/設(shè)備故障時,系統(tǒng)自動將請求分發(fā)至其他節(jié)點并進行告警,由于采用多服務(wù)器集群方式進行負載分擔(dān),降低了單節(jié)點故障對整體系統(tǒng)影響。
系統(tǒng)提供應(yīng)用分組負載自適應(yīng)調(diào)整機制,某分組壓力過大時,可以將服務(wù)請求分流至其他低負載分組上。
設(shè)置備用刀片組作為系統(tǒng)設(shè)備冗余。備用服務(wù)器上應(yīng)用部署與其他設(shè)備相同,處于在線運行狀態(tài),當(dāng)生產(chǎn)設(shè)備故障、應(yīng)用升級、設(shè)備檢修時可以將服務(wù)請求接入至備用集群。
(2)硬件可用性提升
刀片服務(wù)器具備“熱插拔”的能力。某臺刀片設(shè)備故障時,僅需將故障刀片拖出機箱,插入新刀片替換即可。
整合的基礎(chǔ)設(shè)施可避免由于各種原因所造成的停機現(xiàn)象,諸如線纜、服務(wù)器、存儲、開關(guān)故障;人為配置錯誤、以及軟件、電源和散熱問題。解決上述問題的時間大幅度減少,每年計劃內(nèi)和計劃外的停機時間可減少近100%;設(shè)備內(nèi)建N+1冗余,因而無需閑置、備用的部件,另外還提供了N+1冗余設(shè)計,因此而降低了冗余硬件成本。
5.更高可維護性
刀片服務(wù)器通過集群方式提供高性能的服務(wù),但設(shè)備數(shù)量成倍增加給系統(tǒng)的維護、管理帶來一定的難度和工作量的增加?紤]到這一問題,CRM系統(tǒng)提供了自動部署和系統(tǒng)服務(wù)追蹤、監(jiān)控功能,保證應(yīng)用服務(wù)器刀片化的同時系統(tǒng)仍具備高可維護性。
自動應(yīng)用部署支持自動化、分布式的部署方式,極大簡化應(yīng)用部署。發(fā)布通過控制設(shè)備支持全量、增量可視化發(fā)布,整個發(fā)布過程無須人工干預(yù),僅需要15分鐘;支持針對不同邏輯業(yè)務(wù)組定向發(fā)布。通過平臺發(fā)布組件的應(yīng)用自動發(fā)布功能,系統(tǒng)不因服務(wù)器數(shù)量的增加而增加發(fā)布的工作量和差錯率。
CRM系統(tǒng)實現(xiàn)了追蹤、監(jiān)控功能,可以實現(xiàn)對服務(wù)、事物/數(shù)據(jù)庫連接、系統(tǒng)訪問、SQL的多方面監(jiān)控。及時發(fā)現(xiàn)問題和缺陷并進行優(yōu)化調(diào)整。如:服務(wù)跟蹤功能可以實時進行營業(yè)員前臺操作、后臺服務(wù)調(diào)用、數(shù)據(jù)庫數(shù)據(jù)操作的整個操作軌跡的跟蹤、分析。系統(tǒng)的實時監(jiān)控、服務(wù)狀態(tài)跟蹤和故障定位能力使維護人員可以及時發(fā)現(xiàn)薄弱環(huán)節(jié)、準(zhǔn)確定位問題從而指導(dǎo)系統(tǒng)優(yōu)化。
系統(tǒng)使用刀片服務(wù)器替換后,數(shù)據(jù)中心設(shè)備與管理員的比例大為降低,節(jié)省大量的管理投入。
6.更高可擴展性
軟件系統(tǒng)由于采用J2EE技術(shù),具備了跨平臺運行能力和極強的擴展能力。系統(tǒng)在不進行任何編碼的情況下,可以實時,在線的進行容量擴展,利用更多的設(shè)備,為移動業(yè)務(wù)發(fā)展提供了更高的保證。
硬件設(shè)備擴容上,刀片服務(wù)器可以通過在線/離線增加設(shè)備的方式進行擴容和優(yōu)化,即Scaleout模式。刀片集群擴展時,僅需要根據(jù)處理能力需求將擴容刀片插入機框即可。系統(tǒng)可以實時、在線的進行容量擴展。
采用全新的軟件架構(gòu)與刀片服務(wù)器的CRM系統(tǒng)擴容更加靈活性、簡便。計算能力需求實現(xiàn)的顆粒度更加細致。
7.更好的節(jié)能減排效果
通過CRM應(yīng)用服務(wù)器替換,因為引入了節(jié)能高效的AMD四核皓龍?zhí)幚砥,?biāo)準(zhǔn)42U機柜占用減少40%,耗電量更是節(jié)省高達57%。
8.線纜復(fù)雜度降低
傳統(tǒng)服務(wù)器架構(gòu)的布線增加了巨大的復(fù)雜性,是系統(tǒng)停機和不靈活的一個主要根源。
采用刀片服務(wù)器可以減少87%的線纜,平均每個1000M網(wǎng)絡(luò)端口可節(jié)約100到350美元。
通過先進的采用IP的iLO2管理功能,消除了KVM交換機和線纜的需要,每個機架可另外節(jié)省高達25000美元。
創(chuàng)新性分析
1.設(shè)備選擇創(chuàng)新
率先在業(yè)務(wù)支撐系統(tǒng)的核心應(yīng)用系統(tǒng)中采用刀片服務(wù)器,與傳統(tǒng)的UNIX服務(wù)器相比,刀片服務(wù)器的采購成本大大降低,且具備占用空間小、耗電量低、管理和配置簡單靈活等特點,在實際的系統(tǒng)運營過程中同時降低了機房空間、耗電和管理成本。
2.系統(tǒng)架構(gòu)創(chuàng)新
傳統(tǒng)的業(yè)務(wù)支撐系統(tǒng)應(yīng)用服務(wù)器部署一般采用集群軟件形成主備方式的集群,當(dāng)主服務(wù)器發(fā)生故障時,集群軟件監(jiān)測到故障,自動將系統(tǒng)和應(yīng)用切換到備份服務(wù)器上。河南移動BOSS3.0CRM系統(tǒng)應(yīng)用服務(wù)器采用統(tǒng)一開發(fā)、運行平臺,所有的應(yīng)用服務(wù)器統(tǒng)一提供對外服務(wù),業(yè)務(wù)邏輯分布在多個節(jié)點上處理,單臺節(jié)點發(fā)生故障不影響系統(tǒng)正常服務(wù),從另外一個層面提供了系統(tǒng)可靠性保證。
此外,系統(tǒng)性能的擴展也可以通過增加服務(wù)器節(jié)點的方式實現(xiàn),不需要停止現(xiàn)有的應(yīng)用服務(wù),簡單靈活。
3.系統(tǒng)運營管理創(chuàng)新
新系統(tǒng)建成后,整體的系統(tǒng)管理從單一服務(wù)器管理轉(zhuǎn)換為刀片服務(wù)器集群管理,利用HP刀片服務(wù)器完善的管理工具,新服務(wù)器的擴展從傳統(tǒng)的單機安裝、連線、加電、配置、上線,轉(zhuǎn)換成插板、集群配置和發(fā)布、上線,大大降低了系統(tǒng)升級、配置和管理的工作量。
通信世界周刊
相關(guān)鏈接: