容災(zāi)項(xiàng)目需要注意的幾大問題
Christophe
2004/05/24
一、容災(zāi)項(xiàng)目需要多大的投資?
其實(shí)這個(gè)問題也可以被反問為:你希望容災(zāi)系統(tǒng)能達(dá)到什么效果?要想闡述清楚此問題,首先要明白兩個(gè)指標(biāo):RTO和RPO。
RTO,Recover Time Object,恢復(fù)時(shí)間指標(biāo),是指當(dāng)災(zāi)難發(fā)生后,生產(chǎn)系統(tǒng)需要多長時(shí)間能夠恢復(fù)生產(chǎn),它是衡量企業(yè)在災(zāi)難發(fā)生后多長時(shí)間能重新開始運(yùn)轉(zhuǎn)的指標(biāo)。
RPO,Recover Point Object,恢復(fù)點(diǎn)指標(biāo),是指災(zāi)難發(fā)生后,容災(zāi)系統(tǒng)能把數(shù)據(jù)恢復(fù)到災(zāi)難發(fā)生前的哪一個(gè)時(shí)間點(diǎn)的數(shù)據(jù),它是衡量企業(yè)在災(zāi)難發(fā)生后會(huì)丟失多少生產(chǎn)數(shù)據(jù)的指標(biāo)。
理想狀態(tài)下,我們希望RTO=0,RPO=0,即災(zāi)難發(fā)生對(duì)企業(yè)生產(chǎn)毫無影響,既不會(huì)導(dǎo)致生產(chǎn)停頓,也不會(huì)導(dǎo)致生產(chǎn)數(shù)據(jù)丟失。從當(dāng)前計(jì)算機(jī)技術(shù)水平來說,我們可以為用戶建設(shè)這種類型的容災(zāi)系統(tǒng),其中最著名的例子當(dāng)屬VISA和Master的結(jié)算系統(tǒng),由于這兩個(gè)銀行結(jié)算組織占據(jù)了全球銀行結(jié)算業(yè)務(wù)的重要地位,他們的結(jié)算系統(tǒng)不允許發(fā)生任何停頓和數(shù)據(jù)丟失的情況,即使在"911"這種極端情況下。但實(shí)現(xiàn)這樣的容災(zāi)系統(tǒng)的投資巨大,它結(jié)合了存儲(chǔ)數(shù)據(jù)復(fù)制技術(shù)、服務(wù)器操作系統(tǒng)鏡像技術(shù)、集群技術(shù)、數(shù)據(jù)庫高可用性設(shè)計(jì)、應(yīng)用系統(tǒng)高可用性設(shè)計(jì)、同步容災(zāi)技術(shù)、異步容災(zāi)技術(shù)、同城容災(zāi)方案、異地容災(zāi)方案,以及相應(yīng)的管理流程和意外事件反映處理流程等詳細(xì)的規(guī)章制度,和人員配備、行政保障手段(通信、交通等),綜合在一起完成一個(gè)完整的容災(zāi)方案(實(shí)際是雙生產(chǎn)中心或多生產(chǎn)中心方案,并沒有單純的容災(zāi)中心)。但是這種方案的投資過于巨大,目前中國可能除了中國銀聯(lián)這種特殊性質(zhì)的企業(yè)外,不會(huì)有太多的企業(yè)會(huì)去實(shí)現(xiàn)這個(gè)系統(tǒng)。
因此,在電信企業(yè)BSS/OSS系統(tǒng)容災(zāi)系統(tǒng)建設(shè)中,投資規(guī)模為多少是合理的?如果業(yè)務(wù)部門能確認(rèn)RTO/RPO指標(biāo),那技術(shù)部門選擇了合適的容災(zāi)技術(shù)以及配套的管理流程就可以確定投資規(guī)模了。例如,如果業(yè)務(wù)部門確認(rèn),災(zāi)難發(fā)生后,3個(gè)小時(shí)內(nèi)營業(yè)廳恢復(fù)生產(chǎn)就可以滿足用戶需求,且營業(yè)系統(tǒng)數(shù)據(jù)不能丟失,那RTO=3小時(shí),RPO=0,那就必須選擇基于存儲(chǔ)平臺(tái)數(shù)據(jù)復(fù)制技術(shù)的同步容災(zāi)方案;如果業(yè)務(wù)部門確認(rèn),災(zāi)難發(fā)生后,3天能恢復(fù)經(jīng)營分析系統(tǒng)工作,且以前的數(shù)據(jù)丟失可以忽略不計(jì),那RTO=3天,RPO無,那選擇ATA磁盤實(shí)現(xiàn)異地備份,就能滿足要求。
另外需要提的是,為了百年不遇的災(zāi)難投入巨資建設(shè)一個(gè)容災(zāi)中心,容災(zāi)中心的設(shè)備在災(zāi)難發(fā)生前不能給企業(yè)帶來效益,這是企業(yè)決策者很難接受的,因此如何合理分配投資,將容災(zāi)中心建設(shè)成為第二生產(chǎn)中心,與生產(chǎn)中心成為企業(yè)支持企業(yè)正常運(yùn)行的雙中心,并實(shí)現(xiàn)互為容災(zāi),是降低總體擁有成本(TCO,Total Cost of Ownership),提高投資回報(bào)率(ROI,Return Of Investment)的一個(gè)重要措施,應(yīng)該得到企業(yè)的高度重視。
二、容災(zāi)項(xiàng)目對(duì)生產(chǎn)系統(tǒng)性能的影響
容災(zāi)系統(tǒng)的本質(zhì)是將生產(chǎn)系統(tǒng)的數(shù)據(jù)以及這些數(shù)據(jù)的變化,完整地復(fù)制到容災(zāi)系統(tǒng)中,并通過相關(guān)技術(shù)手段,確保容災(zāi)系統(tǒng)中數(shù)據(jù)的完整性和一致性。容災(zāi)系統(tǒng)對(duì)生產(chǎn)數(shù)據(jù)和生產(chǎn)數(shù)據(jù)的變化的復(fù)制操作,必然需要與完成這些操作相對(duì)應(yīng)的CPU資源(存儲(chǔ)的CPU、或服務(wù)器的CPU)、內(nèi)存資源(存儲(chǔ)的Cache、或服務(wù)器的RAM)、網(wǎng)絡(luò)資源(TCP/IP、FC或FICON),如果這些資源不能獨(dú)立分配給容災(zāi)系統(tǒng)(實(shí)際上不可能獨(dú)立),則必然會(huì)影響生產(chǎn)系統(tǒng)的性能。
因此更準(zhǔn)確的問題是,如何確保容災(zāi)系統(tǒng)上線后,在可以實(shí)現(xiàn)既定的RTO/RPO指標(biāo)的同時(shí),不會(huì)影響生產(chǎn)系統(tǒng)的正常運(yùn)行?答案是可以通過技術(shù)手段實(shí)現(xiàn)的。
要想實(shí)現(xiàn),則必須對(duì)現(xiàn)有生產(chǎn)系統(tǒng)進(jìn)行詳細(xì)的性能分析,包括系統(tǒng)I/O特性(IOPS,Respond Time,讀寫比,I/O塊大小,I/O峰值、均值,時(shí)間特性等等)、系統(tǒng)內(nèi)各子系統(tǒng)業(yè)務(wù)特點(diǎn)、存儲(chǔ)空間分配、服務(wù)器CPU和RAM資源的使用狀況、SAN網(wǎng)絡(luò)情況(端口使用狀況、Zoning劃分狀況、端口IOPS等)、能夠使用的數(shù)據(jù)復(fù)制鏈路(FC、TCP/IP、ATM、E1/E3)以及鏈路的QoS保障等。獲得這些數(shù)據(jù)后,通過對(duì)容災(zāi)系統(tǒng)I/O分布的詳細(xì)設(shè)計(jì),將I/O均勻分布到更多的設(shè)備上,從而確保生產(chǎn)系統(tǒng)實(shí)現(xiàn)容災(zāi)后,不會(huì)造成性能下降影響正常生產(chǎn)的情況出現(xiàn)。
三、容災(zāi)不能替換備份
容災(zāi)系統(tǒng)會(huì)完整地把生產(chǎn)系統(tǒng)的任何變化復(fù)制到容災(zāi)端去,包括不想讓它復(fù)制的工作,比如不小心把計(jì)費(fèi)系統(tǒng)內(nèi)的用戶信息表刪除了,同時(shí)容災(zāi)端的用戶信息表也會(huì)被完整地刪除。如果是同步容災(zāi),那容災(zāi)端同時(shí)就刪除了;如果是異步容災(zāi),那容災(zāi)端在數(shù)據(jù)異步復(fù)制的間隔內(nèi)就會(huì)被刪除。這時(shí)就需要從備份系統(tǒng)中取出最新備份,來恢復(fù)被錯(cuò)誤刪除的信息。因此容災(zāi)系統(tǒng)的建設(shè)不能替代備份系統(tǒng)的建設(shè)。
反過來,建設(shè)了備份系統(tǒng),是否就不需要容災(zāi)系統(tǒng)?這還要看業(yè)務(wù)部門對(duì)RTO/RPO指標(biāo)的期望值,如果允許RTO=14天,RPO=1天,那備份系統(tǒng)就能滿足要求。不過,可要考慮清楚了:從磁帶上恢復(fù)50TB的數(shù)據(jù),并要確保數(shù)據(jù)完整恢復(fù)回?cái)?shù)據(jù)庫,是否能在2周內(nèi)完成?
四、選擇什么容災(zāi)技術(shù)能保證項(xiàng)目實(shí)施成功?
容災(zāi)項(xiàng)目實(shí)施成功,與技術(shù)關(guān)系不大。能舉出成功案例的容災(zāi)技術(shù),則必有它的可行性。但作為一個(gè)工程師,除了考慮項(xiàng)目的可行性外,還要考慮項(xiàng)目的不可行性。任何技術(shù)的實(shí)現(xiàn),都有它的制約條件。在自己的生產(chǎn)環(huán)境中,能否避免這些制約條件的出現(xiàn)?或者出現(xiàn)后,是否有資源可以解決它?
比如ORACLE在中國實(shí)施了一個(gè)基于DataGuard的容災(zāi)方案,但在實(shí)施過程中出現(xiàn)了大量意想不到的問題和BUG,作為對(duì)中國電信客戶的重視,ORACLE甚至派遣R&D人員到現(xiàn)場(chǎng)編制PATCH以保證項(xiàng)目能實(shí)施,但這種資源,是否每個(gè)客戶都能向ORACLE索。
因此,選擇一個(gè)簡(jiǎn)單的容災(zāi)方案,并選擇一個(gè)曾經(jīng)成功實(shí)施過該方案的工程團(tuán)隊(duì),才是確保容災(zāi)項(xiàng)目實(shí)施成功的關(guān)鍵。
中國計(jì)費(fèi)網(wǎng)(www.billingchina.com)
相關(guān)鏈接: