金融行業(yè)在業(yè)務(wù)運(yùn)營中會(huì)產(chǎn)生大量紙制憑證,傳統(tǒng)的業(yè)務(wù)處理方式存在著憑證保存成本高,手工錄入、翻閱,效率低,無法進(jìn)行歷史交易統(tǒng)計(jì)和關(guān)聯(lián)交易分析等種種不便。隨著金融電子化、流程銀行及集中作業(yè)中心等理念的深入推廣,許多金融機(jī)構(gòu)建設(shè)了票據(jù)影像集中管理平臺(tái)。這是一個(gè)集檔案錄入、圖像處理、智能識(shí)別、數(shù)據(jù)核對(duì)、統(tǒng)計(jì)分析、海量存儲(chǔ)、精確查詢于一體的計(jì)算機(jī)輔助管理系統(tǒng)。此平臺(tái)為其它業(yè)務(wù)系統(tǒng)提供影像管理方面的業(yè)務(wù)支持,極大地提高了工作效率,降低銀行自身的生產(chǎn)運(yùn)營成本和管理成本,同時(shí)提高客戶和員工的滿意度。
海量票據(jù)影像數(shù)據(jù)的管理難題
IDC研究表明,金融行業(yè)未來80%的數(shù)據(jù)主要呈現(xiàn)為影像、照片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)。 從2010年到2020年,非結(jié)構(gòu)化數(shù)據(jù)將以44倍的發(fā)展速度迅猛增長(zhǎng)。
票據(jù)影像數(shù)據(jù)為銀行業(yè)務(wù)流程中產(chǎn)生的掃描文件、照片等業(yè)務(wù)憑證,隨著業(yè)務(wù)的發(fā)展,總體數(shù)據(jù)量增長(zhǎng)迅速。票據(jù)影像數(shù)據(jù)與傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)有很大的不同,其具有以下特點(diǎn):
·文件小
·數(shù)量大
·空間占用大
·調(diào)閱頻率與生成時(shí)間有關(guān)
總體上講,銀行票據(jù)影像系統(tǒng)的數(shù)據(jù)特點(diǎn)是一個(gè)典型的“海量小文件”場(chǎng)景。
從監(jiān)管上講,在銀行業(yè)務(wù)流程過程中產(chǎn)生的數(shù)據(jù)是交易的重要憑據(jù),應(yīng)當(dāng)長(zhǎng)期保存;系統(tǒng)要對(duì)生產(chǎn)系統(tǒng)中的票據(jù)影像文件進(jìn)行備份,保證生產(chǎn)系統(tǒng)數(shù)據(jù)損壞后能夠快速恢復(fù);對(duì)業(yè)務(wù)發(fā)生達(dá)到一定時(shí)間,訪問概率低的票據(jù)影像數(shù)據(jù)應(yīng)當(dāng)實(shí)現(xiàn)歸檔,以降低對(duì)生產(chǎn)存儲(chǔ)的占用;當(dāng)業(yè)務(wù)需要時(shí),譬如在司法場(chǎng)景下、客戶投訴、業(yè)務(wù)調(diào)取場(chǎng)景下,能夠迅速地查詢到已經(jīng)歸檔的票據(jù)影像文件。 然而,票據(jù)影像系統(tǒng)數(shù)據(jù)的文件小、數(shù)目多、總量大的特點(diǎn),使得數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)保護(hù)存在諸多技術(shù)難點(diǎn):
·備份時(shí)間長(zhǎng): 針對(duì)文件系統(tǒng)進(jìn)行數(shù)據(jù)保護(hù)時(shí),首先需要對(duì)全部文件進(jìn)行掃描,當(dāng)文件數(shù)量過多時(shí),掃描時(shí)間會(huì)非常長(zhǎng)。其次,需要逐一定位文件,拷貝文件,當(dāng)文件海量時(shí),備份時(shí)間也會(huì)非常長(zhǎng)。這使得客戶在指定的備份窗口內(nèi),無法實(shí)現(xiàn)數(shù)據(jù)備份
·離線保存后文件調(diào)閱麻煩: 如果將長(zhǎng)期不用的文件離線保存至光盤或磁帶,需要人工操作。調(diào)閱時(shí),必須遵守一系列業(yè)務(wù)流程進(jìn)行。如由業(yè)務(wù)發(fā)起調(diào)閱請(qǐng)求,科技人員受理,找到相應(yīng)的介質(zhì),并將離線介質(zhì)回遷至生產(chǎn)存儲(chǔ)進(jìn)行查詢,查詢后還需要進(jìn)行刪除
·數(shù)量逐年增加: 隨著銀行業(yè)務(wù)的拓展、網(wǎng)點(diǎn)數(shù)目不斷的增加、上線時(shí)間的變長(zhǎng),數(shù)據(jù)量成顯著上升的趨勢(shì)。這導(dǎo)致生產(chǎn)系統(tǒng)容量需求不斷增加,需要不斷的擴(kuò)容
以某城城市商業(yè)銀行為例,其票據(jù)影像系統(tǒng)上線3年,文件總數(shù)目達(dá)8000萬,數(shù)據(jù)總量已達(dá)10TB,且以每年2~3TB的速度增長(zhǎng)。大量的票據(jù)文件很快消耗了主存儲(chǔ)系統(tǒng)的空間,面臨著對(duì)昂貴主存擴(kuò)容的壓力。更為嚴(yán)峻的是,業(yè)界目前主流的數(shù)據(jù)保護(hù)方案,都沒有充分考慮到票據(jù)影像“海量小文件”的特點(diǎn),只能管理約百萬級(jí)的文件,備份速度在每小時(shí)幾十GB,10TB的數(shù)據(jù)備份需要數(shù)周時(shí)間。但實(shí)際環(huán)境中,是不可能有這么長(zhǎng)的備份窗口。 因此,所有票據(jù)影像文件根本無法完成備份。
近幾年,我國有上百家銀行逐漸建設(shè)了自己的票據(jù)影像系統(tǒng),由于票據(jù)影像數(shù)據(jù)管理的技術(shù)難點(diǎn),幾乎都沒有實(shí)現(xiàn)數(shù)據(jù)保護(hù),系統(tǒng)長(zhǎng)期處于高風(fēng)險(xiǎn)運(yùn)行狀態(tài),一旦生產(chǎn)系統(tǒng)出現(xiàn)故障,后果不堪設(shè)想。
針對(duì)票據(jù)影像的業(yè)務(wù)特點(diǎn),我們認(rèn)為在票據(jù)影像數(shù)據(jù)管理上需要滿足以下需求:
·票據(jù)影像數(shù)據(jù)是交易中的重要憑證,必須滿足監(jiān)管部門對(duì)系統(tǒng)可靠性及數(shù)據(jù)保護(hù)的監(jiān)管要求,實(shí)現(xiàn)千萬級(jí)數(shù)據(jù)文件在給定的時(shí)間窗口內(nèi)實(shí)現(xiàn)備份是基本要求
·對(duì)于已經(jīng)歸檔的票據(jù)影像文件需要調(diào)閱的情況下,在一堆歸檔磁帶或光盤中人工搜索文件工作量是無法想象的,必須提供“自動(dòng)化”的、快速的歸檔文件調(diào)閱手段
·長(zhǎng)期不用的票據(jù)影像文件需要從高端生產(chǎn)存儲(chǔ)遷移到成本更低的近線存儲(chǔ),減少高端存儲(chǔ)的擴(kuò)容費(fèi)用; 數(shù)據(jù)的備份與恢復(fù)、歸檔與調(diào)閱、數(shù)據(jù)校驗(yàn)等數(shù)據(jù)管理操作需要實(shí)現(xiàn)“自動(dòng)化”, 降低運(yùn)行與維護(hù)的難度,減少人力投入
華為票據(jù)影像數(shù)據(jù)管理解決之道
設(shè)計(jì)理念
票據(jù)影像文件數(shù)據(jù)管理所存在的問題不是一個(gè)簡(jiǎn)簡(jiǎn)單單的提高備份性能的問題。備份性能再高,也不能趕上票據(jù)影像數(shù)據(jù)增長(zhǎng)的速度,不能滿足票據(jù)影像管理的需求,管理“海量小文件”要建立相應(yīng)的管理理念,通過系列的技術(shù)組合來實(shí)現(xiàn)。
華為票據(jù)影像數(shù)據(jù)管理解決方案的“一體化設(shè)計(jì)”實(shí)現(xiàn)“備得出、查得快”
華為金融票據(jù)影像數(shù)據(jù)管理解決方案“一體化”的實(shí)現(xiàn)了“海量小文件”場(chǎng)景的存儲(chǔ)、備份、歸檔、分析、重刪、搜索等管理需求,實(shí)現(xiàn)自動(dòng)化的全生命周期管理。
解決方案架構(gòu)
該解決方案有四大主要功能:
·分級(jí)存儲(chǔ)功能:根據(jù)票據(jù)影像文件生成時(shí)間與訪問頻度,合理利用在線、近線、離線存儲(chǔ)介質(zhì),減少生產(chǎn)存儲(chǔ)容量,降低TCO
·自動(dòng)歸檔功能:根據(jù)歸檔策略,將訪問頻度低的文件通過“打包歸檔”方式實(shí)現(xiàn)數(shù)據(jù)保護(hù),滿足監(jiān)管要求
·自動(dòng)備份功能:實(shí)現(xiàn)“海量小文件”的高速備份,在系統(tǒng)故障和個(gè)別文件損毀的情況下,能有效管理數(shù)億的文件,并能夠?qū)崿F(xiàn)數(shù)據(jù)的快速恢復(fù)
·面向應(yīng)用“透明訪問”:當(dāng)應(yīng)用系統(tǒng)訪問已經(jīng)歸檔的文件時(shí),方案可以自動(dòng)將歸檔數(shù)據(jù)從近線存儲(chǔ)中回調(diào)至生產(chǎn)存儲(chǔ),保證應(yīng)用在等待若干秒后能夠訪問到所需數(shù)據(jù),無需人工干預(yù),操作人員無感知
華為的解決方案將為客戶帶來如下價(jià)值:
·備得出:對(duì)海量小文件的備份效率提高到每小時(shí)數(shù)百GB,備份時(shí)間縮短至傳統(tǒng)方式的十分之一左右
·查得快:“透明訪問”技術(shù),通過“存根”的設(shè)計(jì),保留歸檔后的文件位置信息,在需要調(diào)取歸檔文件場(chǎng)景下,應(yīng)用觸發(fā)“存根”回調(diào)歸檔的文件,時(shí)間僅需幾十秒,而且應(yīng)用無感知。
·成本低:首先,采用“分級(jí)存儲(chǔ)”思想,用廉價(jià)的近線存儲(chǔ)替代昂貴的生產(chǎn)存儲(chǔ),降低存儲(chǔ)采購成本;其次,方案“一體化”設(shè)計(jì),一站式解決海量文件存儲(chǔ)、備份、歸檔、管理問題,建設(shè)成本低;最后,全自動(dòng)數(shù)據(jù)管理方案,減少大量運(yùn)維成本與人員投入
要實(shí)現(xiàn)上述價(jià)值,主要得益于“透明訪問”、“二級(jí)索引”兩項(xiàng)關(guān)鍵技術(shù):
“透明訪問”
方案的核心價(jià)值是“透明訪問”。在歸檔操作時(shí),一方面將超過一定時(shí)間的數(shù)據(jù)文件遷移到“近線存儲(chǔ)”,另一方面在生產(chǎn)存儲(chǔ)留下相應(yīng)的“存根”。該存根指向文件遷出后的實(shí)際位置。在應(yīng)用系統(tǒng)訪問已經(jīng)歸檔的文件時(shí),就訪問到了“存根”,此時(shí)會(huì)觸發(fā)一個(gè)將歸檔文件回調(diào)至生產(chǎn)存儲(chǔ)的操作,使得應(yīng)用系統(tǒng)能夠讀到該文件。這就是“透明訪問”功能。
“二級(jí)索引”
采用備份/歸檔技術(shù)進(jìn)行數(shù)據(jù)保護(hù),被保護(hù)的文件是“打包”保存的,需要在備份系統(tǒng)中建立索引才能進(jìn)行恢復(fù)與查詢操作。“二級(jí)索引”的設(shè)計(jì),是將記錄文件的一級(jí)索引與介質(zhì)一起存放,由介質(zhì)服務(wù)器管理,備份服務(wù)器只管理“二級(jí)索引”。這種分布式的索引技術(shù),可以支持?jǐn)?shù)十億文件的高性能管理。
通過華為票據(jù)影像數(shù)據(jù)管理解決方案,實(shí)現(xiàn)客戶數(shù)據(jù)“備得出、查得快”,保障金融系統(tǒng)安全、高效運(yùn)行。