中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

IBM產(chǎn)品介紹(西安站)
2014-11-28 11:43:42   評(píng)論:0 點(diǎn)擊:

  隨著中國(guó)金融市場(chǎng)的快速發(fā)展,互聯(lián)網(wǎng)金融對(duì)傳統(tǒng)金融行業(yè)的競(jìng)爭(zhēng),以及監(jiān)管力度的不斷加強(qiáng),IT咨詢服務(wù)公司對(duì)金融企業(yè)的商業(yè)智能方案也面臨不斷創(chuàng)新。如何提升金融機(jī)構(gòu)在管理、盈利、風(fēng)險(xiǎn)控等多方位的能力?如何將國(guó)際經(jīng)驗(yàn)更好的為中國(guó)市場(chǎng)服務(wù)?如何通過(guò)解決方案將海量數(shù)據(jù)轉(zhuǎn)化為對(duì)經(jīng)營(yíng)決策有價(jià)值的信息之路?如何將客戶智能分析成果行之有效地運(yùn)用于服務(wù)渠道,并最終轉(zhuǎn)換為銷售業(yè)績(jī)?為解決中國(guó)金融機(jī)構(gòu)在發(fā)展中所面臨的新問(wèn)題,文思海輝在西安、蘇州、北京、成都、深圳五地舉辦了6場(chǎng)“乘數(shù)據(jù)之舟,達(dá)價(jià)值彼岸”系列活動(dòng)。

  在主題為“乘數(shù)據(jù)之舟,達(dá)價(jià)值彼岸”的文思海輝商業(yè)智能解決方案系列研討會(huì)西安站現(xiàn)場(chǎng),IBM大數(shù)據(jù)專家張光業(yè)做了IBM產(chǎn)品介紹。

  以下為演講實(shí)錄:

  各位來(lái)賓下午好,我是IBM公司軟件部的張光業(yè)。剛才賈總已經(jīng)給大家介紹了建設(shè)企業(yè)基礎(chǔ)的信息平臺(tái)以及信息管控這方面的重要性,接下來(lái)我給大家介紹如何使用IBM的軟件包括IBM的解決方案幫助您來(lái)構(gòu)建基礎(chǔ)的數(shù)據(jù)平臺(tái),也解決數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)以及怎么幫我們實(shí)現(xiàn)信息管控和信息治理,也就是幫我們構(gòu)建端到端的數(shù)據(jù)分析的解決方案,一個(gè)技術(shù)一個(gè)架構(gòu)。

  剛才已經(jīng)講了很多的,今天專門(mén)談數(shù)據(jù),正是因?yàn)閿?shù)據(jù)現(xiàn)在已經(jīng)是我們整個(gè)企業(yè)的重要資產(chǎn),我們?nèi)绾胃玫睦眠@些數(shù)據(jù),特別是現(xiàn)在我們進(jìn)入了大數(shù)據(jù)時(shí)代,對(duì)數(shù)據(jù)從它的緯度來(lái)講,從外延來(lái)講有了更多的延伸,比如銀行核心的還是我們現(xiàn)在客戶的信息,帳務(wù)信息,但是我們要做擴(kuò)展,我們有很多微博信息,包括微信,社交媒體等等這些信息,旅游媒體信息,怎么來(lái)?yè)肀Ц訌V泛的數(shù)據(jù)幫助我們做更時(shí)時(shí)的決策這是對(duì)我們的要求,我們?cè)诿鎸?duì)大數(shù)據(jù)時(shí)代,怎么來(lái)實(shí)現(xiàn)剛才這些訴求,也就是在大數(shù)據(jù)時(shí)代,怎么來(lái)做?大家都聽(tīng)過(guò)大數(shù)據(jù),一提就是Hadoop、streams非常熱,但是一定要有自己的原則,也就是說(shuō)在大數(shù)據(jù)時(shí)代,如何發(fā)揮作用首先一點(diǎn)我們還要堅(jiān)持我們?cè)瓉?lái)的現(xiàn)在已有的結(jié)構(gòu)化數(shù)據(jù),我們業(yè)務(wù)系統(tǒng),數(shù)據(jù)倉(cāng)的數(shù)據(jù),還是最重要的源泉,同時(shí)我們要拓展我們思考的外延,也就是要納入一些更清新的東西,比如提到的一些媒體信息,包括日志信息,圖形圖象傳感器信息,幫助我們決策做到更精準(zhǔn),更時(shí)時(shí)。

  基于這些訴求,從IBM來(lái)講,也是提供了很好的大數(shù)據(jù)管理以及分析基礎(chǔ)的平臺(tái),通過(guò)大數(shù)據(jù)分析技術(shù)平臺(tái)架構(gòu),我們現(xiàn)在做應(yīng)用一定要做架構(gòu)信息,一定要有穩(wěn)定的架構(gòu),再這個(gè)架構(gòu)上來(lái)構(gòu)建我們的應(yīng)用,才能保證我們的系統(tǒng)長(zhǎng)久的發(fā)展。從IBM來(lái)講也是提供了大數(shù)據(jù)分析基礎(chǔ)的平臺(tái),這個(gè)基礎(chǔ)平臺(tái)從架構(gòu)來(lái)講,基本上從幾個(gè)方面考慮,這邊是我們?cè)瓉?lái)的核心系統(tǒng),一些業(yè)務(wù)系統(tǒng),包括新興的數(shù)據(jù),比如社交媒體,位置信息,流的信息,怎么進(jìn)行實(shí)現(xiàn)呢?首先我們會(huì)通過(guò)信息整合的平臺(tái)來(lái)幫助把分布在各個(gè)業(yè)務(wù)系統(tǒng)里面的結(jié)構(gòu)化信息,包括新興的非結(jié)構(gòu)化信息,通過(guò)信息整合平臺(tái)來(lái)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)包括ODS系統(tǒng),包括數(shù)據(jù)集市幫助我們做信息分析,以做出更好的決策。

  因?yàn)榇髷?shù)據(jù)時(shí)代,我們的數(shù)據(jù)隔聲越來(lái)越多,現(xiàn)在我們有很多包括社交媒體信息,包括一些影像等等非結(jié)構(gòu)化信息,我們就會(huì)通過(guò)系統(tǒng)對(duì)非結(jié)構(gòu)化的信息可能做一些預(yù)處理,加工,把數(shù)據(jù)里面重要信息做提純,提純出來(lái)之后形成一個(gè)結(jié)構(gòu)化信息,同樣保存在我們的數(shù)據(jù)倉(cāng)庫(kù)里面,這樣我們的分析外延會(huì)更加廣泛。

  另外還有一類叫流媒體信息,比如現(xiàn)在有很多視頻頭,傳感器,這些傳播數(shù)據(jù)是時(shí)時(shí)的不斷流動(dòng)數(shù)據(jù),我們就不能像傳統(tǒng)這樣,把數(shù)據(jù)都放到數(shù)據(jù)倉(cāng)庫(kù)里面再做分析,這個(gè)時(shí)效性有問(wèn)題,我們?cè)趺丛谶@種其他下做更時(shí)時(shí)的方式,我們就會(huì)有流數(shù)據(jù)的處理,也就是當(dāng)這個(gè)數(shù)據(jù)流動(dòng)過(guò)來(lái)之后,我立刻對(duì)數(shù)據(jù)做時(shí)時(shí)的響應(yīng),做時(shí)時(shí)分析做時(shí)時(shí)決策,這樣就能夠?yàn)槲覀兲峁⿻r(shí)時(shí)的決策,我們稱為叫T+0的分析決策,采用這個(gè)方式。

  從我們產(chǎn)品來(lái)講,在傳統(tǒng)的數(shù)據(jù)庫(kù)這邊,基礎(chǔ)架構(gòu)平臺(tái)IBM會(huì)提供一體機(jī),因?yàn)槲覀冎涝趥鹘y(tǒng)數(shù)據(jù)倉(cāng)庫(kù)里面,大家都會(huì)知道有一個(gè)數(shù)據(jù)庫(kù),包括硬件的方式會(huì)結(jié)合起來(lái),但是這個(gè)方式會(huì)有一個(gè)問(wèn)題,我軟件硬件單獨(dú)采購(gòu),比如我要建一個(gè)T規(guī)模的數(shù)據(jù)倉(cāng),我應(yīng)該選什么樣的硬件,每個(gè)硬件的配置是什么,網(wǎng)絡(luò)怎么配,存儲(chǔ)怎么配,以前做真的是憑經(jīng)驗(yàn)的過(guò)程,現(xiàn)在就有很好的方式采用一體機(jī)的方式,就像我們買了電視拿過(guò)來(lái)就用,現(xiàn)在在數(shù)據(jù)倉(cāng)庫(kù)這個(gè)領(lǐng)域,也有一個(gè)趨勢(shì)就是采用數(shù)據(jù)倉(cāng)庫(kù)一體機(jī)的方式,也就是軟件、硬件存儲(chǔ)預(yù)先配置好的,預(yù)先優(yōu)化的,我們開(kāi)箱就用的,這種方式好處是效率比較高,管理簡(jiǎn)單,而且擴(kuò)展性好,所以在這里面IBM會(huì)提供一個(gè)產(chǎn)品叫PDA,我們和文思海輝這邊在很多商行都做,包括北京銀行都實(shí)施了數(shù)據(jù)倉(cāng)庫(kù)的一體機(jī)來(lái)做。

  另外一點(diǎn)在我們構(gòu)建一個(gè)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)時(shí),除了在基礎(chǔ)平臺(tái)會(huì)分層,所以我們?cè)敿?xì)數(shù)據(jù)區(qū)和匯總區(qū)我們可能會(huì)針對(duì)不同的業(yè)務(wù)部門(mén)建一些數(shù)據(jù)集市,針對(duì)你的部門(mén),不同的主題有很多不同的集市來(lái)做,在數(shù)據(jù)集市方面,現(xiàn)在有一個(gè)很大的問(wèn)題,一定要有響應(yīng)速度好,我查一個(gè)東西要立刻得到響應(yīng),在這里面怎么提高數(shù)據(jù)集市的分析效率,現(xiàn)在在業(yè)界有一個(gè)趨勢(shì),能不能用基于內(nèi)存的,采用內(nèi)式的存儲(chǔ)方式,高度壓縮的方式做,這樣的好處減少了IO,因?yàn)樵趦?nèi)存里面,所以你的響應(yīng)效果會(huì)非常高,在這方面IBM會(huì)推出一個(gè)產(chǎn)品BB2blue,就是基于內(nèi)存的采用列式壓縮的方式,而且高度壓縮的方式,它所有的處理分析不需要解壓,完全在壓縮數(shù)據(jù)上進(jìn)行分析,這樣的好處一個(gè)效率非常高,非常非常快,另外一點(diǎn)管理起來(lái)非常簡(jiǎn)單。

  在我們來(lái)構(gòu)建傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù),傳統(tǒng)的基礎(chǔ)數(shù)據(jù)平臺(tái),包括我們引入了大數(shù)據(jù)的技術(shù)擴(kuò)展我們的數(shù)據(jù)基礎(chǔ)平臺(tái),這里面還有很重要一點(diǎn),就是我們要考慮信息管控和治理。信息管控和治理是保證您的數(shù)據(jù)倉(cāng)庫(kù)能夠提供高質(zhì)量的數(shù)據(jù),標(biāo)準(zhǔn)的數(shù)據(jù),這樣能對(duì)您的決策真正有意義,這里面會(huì)考慮幾個(gè)問(wèn)題,上面已經(jīng)講了,如何定義我們數(shù)據(jù)標(biāo)準(zhǔn),如何構(gòu)建我們的原數(shù)據(jù),怎么保證您的數(shù)據(jù)是高質(zhì)量可信的數(shù)據(jù),這樣才能保證我們真正的數(shù)據(jù)倉(cāng)庫(kù)發(fā)揮作用,因?yàn)槲覀兣龅胶芏嗫蛻,早就建?shù)據(jù)倉(cāng)庫(kù)了,業(yè)務(wù)員一看你的報(bào)表數(shù)據(jù)都是錯(cuò)誤的,或者說(shuō)有問(wèn)題的,整個(gè)系統(tǒng)沒(méi)法使用,他會(huì)反過(guò)來(lái),又做新的治理,由做數(shù)據(jù)質(zhì)量,所以在我們構(gòu)建倉(cāng)庫(kù)時(shí),數(shù)據(jù)質(zhì)量一定要放在很重要的議事日程之上,來(lái)保證您分析的數(shù)據(jù)是可信數(shù)據(jù),包括我們?cè)阢y行里面大家都建了一些客戶的主數(shù)據(jù)管理。

  還有一點(diǎn)當(dāng)我們構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)之后,大量的數(shù)據(jù)包括很核心的數(shù)據(jù)都放在一塊,這時(shí)候數(shù)據(jù)安全是很重要的,如何保證大量的敏感數(shù)據(jù)不被非法篡改,非法閱讀,這時(shí)候有幾種方式來(lái)做,一個(gè)我們要做很好的審計(jì)制度,也就是說(shuō)能夠記住誰(shuí)什么時(shí)候?qū)@些數(shù)據(jù)做了訪問(wèn),同時(shí)我們還要做預(yù)先的試防,也就是定一些規(guī)則,當(dāng)一些特權(quán)用戶要對(duì)我們的敏感數(shù)據(jù)做訪問(wèn)時(shí),立刻告警,立刻阻斷他,這樣能保證整個(gè)在基礎(chǔ)數(shù)據(jù)平臺(tái)的安全性得到保證,這個(gè)怎么考慮IBM下一個(gè)產(chǎn)品會(huì)做,易夠數(shù)據(jù)庫(kù),數(shù)據(jù)審計(jì)以及安全的解決方案。

  另外一點(diǎn)當(dāng)我們數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建越來(lái)越多之后,數(shù)據(jù)量越來(lái)越大,我們考慮到數(shù)據(jù)生命周期的管理,因?yàn)榇蠹抑澜〝?shù)倉(cāng)的時(shí)候,都要用高端存儲(chǔ),這樣成本會(huì)很高,同樣在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)也是有很多的,我們雖然經(jīng)常做趨勢(shì)分析,但可能五年前,十年前的數(shù)據(jù)其實(shí)是很少接觸到的,但是為了監(jiān)管考慮我們要保持,這時(shí)候我是不是采用生命周期的管理,因?yàn)閿?shù)據(jù)是有溫度的,我也就把這些數(shù)據(jù)按不同溫度采用多級(jí)存儲(chǔ)的方式,我經(jīng)常訪問(wèn)的數(shù)據(jù)放在高效盤(pán)上,甚至在SSB上,不太訪問(wèn)的可能放在光盤(pán)部上,這樣我能夠通過(guò)層級(jí)方式存儲(chǔ),減少數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的成本,同時(shí)我需要的數(shù)據(jù)都能夠很好的得到,這個(gè)怎么來(lái)做在IBM來(lái)講,在整個(gè)大數(shù)據(jù)分析的基礎(chǔ)架構(gòu)里面,有兩種實(shí)現(xiàn)方式,對(duì)傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)有一個(gè)產(chǎn)品(01:45:33英),由這個(gè)產(chǎn)品幫助我們做數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)庫(kù)生命周期的管理。

  另外一點(diǎn)剛才賈總也談到光大銀行做了歷史數(shù)據(jù)查詢,因?yàn)槲覀儌鹘y(tǒng)經(jīng)常訪問(wèn)的數(shù)據(jù)還是放在數(shù)據(jù)倉(cāng)庫(kù)里面,剛才講了不太查的數(shù)據(jù),我們稱為比較冷的數(shù)據(jù),我把它放在hadoop平臺(tái)上,因?yàn)閔adoop的本質(zhì)是用廉價(jià)服務(wù)器組成的集群,它會(huì)通過(guò)運(yùn)算得到高效的處理,這樣它的存儲(chǔ)很低,查詢效率也是可以接受,所以我們采用另一種方式,來(lái)把這些冷的數(shù)據(jù)放到Hadoop平臺(tái),實(shí)現(xiàn)歷史數(shù)據(jù)的查詢,這兩種方式都可以幫助我們做生命周期的管理。

  我們?cè)诖髷?shù)據(jù)分析的平臺(tái)里面,除了我們要使用結(jié)構(gòu)化信息,一體機(jī),我們的數(shù)據(jù)集市,可能通過(guò)BB2blue來(lái)幫助您加速數(shù)據(jù)集市的查詢效率,在傳統(tǒng)的大數(shù)據(jù)這邊,IBM的hadoop的解決方案是一個(gè)企業(yè)級(jí)的hadoop,它是基于標(biāo)準(zhǔn)的技術(shù),但是增加了一個(gè)企業(yè)的特性,這后面會(huì)具體來(lái)講,也就是說(shuō)真正的為我們企業(yè)使用hadoop平臺(tái),因?yàn)閔adoop是一個(gè)標(biāo)本,它只是考慮它的功能,不考慮企業(yè)的特性,真正流的處理IBM有一個(gè)產(chǎn)品,就是能夠針對(duì)流的數(shù)據(jù)時(shí)時(shí)的處理,時(shí)時(shí)的響應(yīng),幫助我們做時(shí)時(shí)的決策。

  通過(guò)數(shù)據(jù)的基礎(chǔ)平臺(tái)包括我們的信息管控平臺(tái),之后我們就可以為我們的客戶實(shí)現(xiàn)很多東西,大家可能很清楚了,我們基于這些數(shù)據(jù)平臺(tái)做分析應(yīng)用,典型的可以做一些數(shù)據(jù)分析,數(shù)據(jù)報(bào)表,數(shù)據(jù)多維查詢,IBM有一個(gè)產(chǎn)品就是做報(bào)表多維查詢的工具,同時(shí)IBM還有一個(gè)產(chǎn)品(01:48:21英)這個(gè)是專門(mén)針對(duì)財(cái)務(wù)績(jī)效分析的工具,叫TMY。同時(shí)我可能還要預(yù)測(cè)一下未來(lái)會(huì)發(fā)生什么,就剛才提到的IBM提供的一些數(shù)據(jù)挖掘的工具,IBM有一個(gè)產(chǎn)品叫SPSS,來(lái)做一些挖掘分析,另外我們還可以通過(guò)這個(gè)來(lái)看當(dāng)前正在發(fā)生的事情,對(duì)當(dāng)前的數(shù)據(jù)做探索,通過(guò)我可以了解當(dāng)前發(fā)生了什么,為什么發(fā)生了什么,可能會(huì)發(fā)生什么之后,我就可以做一些行動(dòng),基于它做一些決策,這里IBM有一個(gè)產(chǎn)品(英)來(lái)做一些決策分析的工具,通過(guò)大數(shù)據(jù)的基礎(chǔ)平臺(tái),我們就可以幫助您構(gòu)建數(shù)據(jù)基礎(chǔ)平臺(tái),幫助我們實(shí)現(xiàn)信息管控與治理。

  同樣這套解決方案在硬件部屬上,我們不僅可以使用傳統(tǒng)的用硬件服務(wù)器的方式部屬,現(xiàn)在也很難要做云,不管是共有云,私有云,當(dāng)然我們行內(nèi)一般建私有云,這里面都會(huì)到云的平臺(tái)上,這是整個(gè)IBM大數(shù)據(jù)分析的基礎(chǔ)架構(gòu)。

  下面我們具體看一下在架構(gòu)里面的一些產(chǎn)品,因?yàn)槲抑v的主要是產(chǎn)品,剛才講的是一些理念,具體的落地怎么實(shí)現(xiàn),可能要通過(guò)一些產(chǎn)品和解決方案來(lái)做,我們來(lái)看IBM的產(chǎn)品怎么來(lái)做,首先剛才講了大數(shù)據(jù)分析平臺(tái)里面,很重要一點(diǎn)要做數(shù)據(jù)整合,來(lái)保證您數(shù)據(jù)質(zhì)量,這個(gè)IBM有一個(gè)產(chǎn)品一個(gè)企業(yè)級(jí)的整合平臺(tái),通過(guò)它能夠幫助我們提供統(tǒng)一的一致的可信的數(shù)據(jù),怎么來(lái)實(shí)現(xiàn)?從IBM的信息整合平臺(tái),就能考慮是這樣,如果我們要對(duì)一個(gè)信息做整合,我們首先要對(duì)您的各個(gè)異構(gòu)數(shù)據(jù)源越了解,您之后的轉(zhuǎn)換才能夠有的放矢,也就是說(shuō)在整個(gè)過(guò)程中,怎么保證我們數(shù)據(jù)源的質(zhì)量,在信息服務(wù)家族里面有一個(gè)產(chǎn)品叫(01:51:07英),這個(gè)來(lái)做什么?它可以了解您數(shù)據(jù)源是什么樣的,都采用了什么樣的數(shù)據(jù)庫(kù),采用了什么樣的表,什么樣的字段,字段的定義是什么,字段值的分布是什么,通過(guò)它字段和字段之間的關(guān)系是什么,通過(guò)它你可以知道數(shù)據(jù)源的質(zhì)量,比如我們?cè)谛欣锩娼?jīng)常做一些客戶的營(yíng)銷,客戶營(yíng)銷其實(shí)用一個(gè)很重要的技術(shù)手段,就是數(shù)據(jù)挖掘的客戶分群。大家知道男孩子女孩子消費(fèi)習(xí)慣不一樣,一定要把信件放到模型里做數(shù)據(jù)因子,但是我通過(guò)IA來(lái)看數(shù)據(jù)源時(shí),一看性別99%都是男的,數(shù)據(jù)源的質(zhì)量可能有問(wèn)題,可能原來(lái)系統(tǒng)里面性別缺的是男的,可能錄入的時(shí)候大家都沒(méi)錄入,回車了,都變成男的,您要把這個(gè)作為您這個(gè)系統(tǒng)的模型輸因子,您建的模型肯定問(wèn)題,這樣我們之后做相應(yīng)的處理,可能做一些加全處理,或者性別不納入這個(gè)模型輸入因子,這樣才有的放矢。

  另外一點(diǎn)我們來(lái)看地址大量都是空的,之后做轉(zhuǎn)換很多復(fù)雜處理其實(shí)沒(méi)意義,您對(duì)您的數(shù)據(jù)源越了解,對(duì)數(shù)據(jù)整合才更有效,通過(guò)IA我們可以來(lái)看數(shù)據(jù)源的質(zhì)量情況,同時(shí)IBM有一個(gè)產(chǎn)品幫助我們定義您的業(yè)務(wù)源數(shù)據(jù),剛才已經(jīng)講了,數(shù)據(jù)標(biāo)準(zhǔn)是在信息管控里面很重要的一點(diǎn),標(biāo)準(zhǔn)我們會(huì)有一個(gè)軟科學(xué),您做咨詢等等來(lái)梳理您的業(yè)務(wù)指標(biāo),之后怎么做IT管理,其實(shí)IBM的BG就是做業(yè)務(wù)指標(biāo)的管理工作,把業(yè)務(wù)指標(biāo)存入到這里面,對(duì)它做更好的操作,可以他您的業(yè)務(wù)指標(biāo)和真正的業(yè)務(wù)數(shù)據(jù)連到一塊,這個(gè)叫BG,通過(guò)可以更好的做您的業(yè)務(wù)源數(shù)據(jù)的管理。

  之后采用Data Studio這個(gè)工具做數(shù)據(jù)質(zhì)量的處理工作,通過(guò)它能夠保證我們數(shù)據(jù)是完整統(tǒng)一的數(shù)據(jù),在這里面還有一個(gè)工具幫助我們實(shí)現(xiàn)數(shù)據(jù)的質(zhì)量保證,因?yàn)榇蠹抑雷龅臅r(shí)候都是對(duì)一些數(shù)據(jù)做處理,但是有很多東西是基于一段話,一個(gè)文字的東西就很難處理,比如我叫張光業(yè),我是IBM的公司,比如我銷售額是什么,另一個(gè)系統(tǒng)來(lái)也是張光業(yè)你看的是兩個(gè)人,但是你說(shuō)是一個(gè)人,當(dāng)我系統(tǒng)里有大量數(shù)據(jù)之后,如何通過(guò)電子方式自動(dòng)識(shí)別您的信息,自動(dòng)對(duì)這些數(shù)據(jù)做去重,保證你的數(shù)據(jù)是可信的數(shù)據(jù),這怎么做,其實(shí)IBM有一個(gè)產(chǎn)品來(lái)幫你完成。另外一點(diǎn)通過(guò)生產(chǎn)過(guò)程中的持續(xù)的適量監(jiān)控,也就是當(dāng)一上線之后,比如我通過(guò)報(bào)表來(lái)看數(shù)據(jù)時(shí),比如我們的營(yíng)業(yè)額都是千萬(wàn)級(jí),突然有一天數(shù)據(jù)一看上億了,肯定有問(wèn)題,業(yè)務(wù)員知道你之后,你怎么解決,其實(shí)我們也不知道,通過(guò)這個(gè)就可以做數(shù)據(jù)分析,能知道報(bào)表這個(gè)字段是從數(shù)據(jù)源的哪個(gè)表,哪個(gè)字段經(jīng)過(guò)哪些處理得到的,第二當(dāng)這個(gè)報(bào)表有問(wèn)題時(shí),就可以檢查問(wèn)題。

  同時(shí)可以做影響分析,當(dāng)我們數(shù)據(jù)源某一個(gè)字段變化了,已經(jīng)上線了,跟他影響的相應(yīng)的流程要做相應(yīng)的變化,你相應(yīng)的報(bào)表做變化,通過(guò)這個(gè)影響可以知道,我要改變數(shù)據(jù)源的某一個(gè)指標(biāo),相應(yīng)的流程怎么改,包括報(bào)表的定義怎么改,這樣保證我們生產(chǎn)過(guò)程中的整個(gè)數(shù)據(jù)質(zhì)量是有保證,這個(gè)是IBM的信息整合平臺(tái),同時(shí)在數(shù)據(jù)的抽取過(guò)程中我們還有一個(gè)產(chǎn)品叫CDC,它是復(fù)制工具,能夠識(shí)別您的生產(chǎn)系統(tǒng)變化信息,能夠及時(shí)的做數(shù)據(jù)通過(guò),保證數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是時(shí)時(shí)的分析,就是CDC完成。

  另外一塊是在基礎(chǔ)平臺(tái)里面很重要的做存儲(chǔ),做數(shù)據(jù)倉(cāng)庫(kù),剛才講了在這里面,其實(shí)業(yè)界有一個(gè)趨勢(shì)用數(shù)據(jù)倉(cāng)庫(kù)的一體機(jī),從IBM來(lái)講提供PDA,專門(mén)針對(duì)數(shù)據(jù)分析的一體機(jī),它的好處是通過(guò)提供的并行處理的架構(gòu),完成了CRIC的結(jié)構(gòu),同時(shí)采用了業(yè)界非常重要的技術(shù)PGA,它把數(shù)據(jù)的處理都變成電子信號(hào),這樣的好處是效率非常高,大家看這是一個(gè)原理,我們所有的數(shù)據(jù)都存在磁盤(pán)上,磁盤(pán)上FBTA的板,這是PDA的專利技術(shù),它通過(guò)背板來(lái)連接到您的磁盤(pán),比如我們做一個(gè)操作時(shí),當(dāng)發(fā)查詢之后,數(shù)據(jù)通過(guò)背板直接變成電子信號(hào),通過(guò)FBTA板,首先對(duì)它做解壓,之后做一些條件,同時(shí)我們還有一些條件再做一些過(guò)濾,大家看到這樣得到數(shù)據(jù)是非常小的,所有這個(gè)過(guò)程都是轉(zhuǎn)變了電子信號(hào),通過(guò)硬件板極實(shí)現(xiàn),所以效率會(huì)非常高。

  首先在數(shù)據(jù)這邊,基于電子信號(hào)方式做,所以效率很高,這也是PDA為什么在一體機(jī)領(lǐng)域里面比較強(qiáng)的技術(shù),另外一點(diǎn)雖然很高效,大家管理非常簡(jiǎn)單,不像傳統(tǒng)數(shù)據(jù)庫(kù),我們要建表空間,建索引,作為數(shù)據(jù)庫(kù)不需要,它非常簡(jiǎn)單我們就建一個(gè)桌面,裝載數(shù)據(jù)就可以用,效率高,管理簡(jiǎn)單。另外應(yīng)用開(kāi)發(fā)上線簡(jiǎn)單,我們就是一個(gè)數(shù)據(jù),所以非常簡(jiǎn)單,很快速,這也是我們和文思一起在很多的客戶,特別在商業(yè)銀行里面有很多案例都是這么做的,北京銀行,大商所等等都是通過(guò)野鴿PAD做,另外一個(gè)剛才講的在我們數(shù)據(jù)集市領(lǐng)域,我們?yōu)榱颂岣邤?shù)據(jù)集市的查詢效率,往往都會(huì)采用居列式存儲(chǔ)內(nèi)存的方式進(jìn)行訪問(wèn),IBM的產(chǎn)品就是blue,它的核心是基于內(nèi)存列式的存儲(chǔ),而且壓縮的方式做,它很重要的一點(diǎn),處理都是基于壓縮數(shù)據(jù)進(jìn)行操作,不需要解壓,所以效率非常高,而且可以充分利用CPU的并行機(jī)制實(shí)現(xiàn)并行處理,使我們的產(chǎn)品效率很高,但是同樣它也是這樣,使用起來(lái)也非常簡(jiǎn)單,跟PAD一樣,我不需要建你的表空間,不需要建索引,不需要對(duì)數(shù)據(jù)庫(kù)做統(tǒng)計(jì),不需要做調(diào)優(yōu),也是直接一個(gè)數(shù)據(jù)就可以,也是速度非常高,我們統(tǒng)計(jì)基本采用Blue,比傳統(tǒng)的數(shù)據(jù)集市方式至少有十倍,到二十五倍的性能提高,壓縮比也會(huì)節(jié)省十到二十倍,所以效率非常高,存儲(chǔ)成本很低,使用起來(lái)非常簡(jiǎn)單。

  另外一塊除了我們現(xiàn)在要針對(duì)傳統(tǒng)的高價(jià)值的數(shù)據(jù)做分析,我們現(xiàn)在要擁抱,在大數(shù)據(jù)時(shí)代擴(kuò)展數(shù)據(jù)外延,擁抱新的一些數(shù)據(jù)格式,新的數(shù)據(jù)格式從IBM來(lái)講,主要是兩種,一種結(jié)構(gòu)化半結(jié)構(gòu)化的靜態(tài)數(shù)據(jù),也就是把它存到hadoop里面進(jìn)行并行分析,IBM這邊會(huì)這個(gè)之后,就是對(duì)企業(yè)級(jí)hadoop,另外針對(duì)流的處理IBM有一個(gè)steeams,首先來(lái)看big in side(02:01:13英),這是基本的組成部分,在這里面黃色都是阿帕奇的標(biāo)志,big in side是基于標(biāo)準(zhǔn)的阿帕奇,藍(lán)色都是IBM的拓展,基于傳統(tǒng)的標(biāo)準(zhǔn)的阿帕奇的hadoop的技術(shù),同時(shí)提供了一些企業(yè)科技,包括統(tǒng)一的管理安全工作附帶的優(yōu)化和各個(gè)傳統(tǒng)結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的連接,包括一些高級(jí)處理引擎,統(tǒng)一開(kāi)發(fā)管理界面,通過(guò)可視化的工具可以為我們企業(yè)提供更好的hadoop的應(yīng)用支撐。

  在hadoop里面也有很重要的趨勢(shì),因?yàn)橐郧按蠹矣胔adoop的時(shí)候,大家可能用JAVA來(lái)寫(xiě),因?yàn)榇蠹覀鹘y(tǒng)的跟數(shù)據(jù)領(lǐng)域相關(guān)的人員對(duì)C語(yǔ)言比較熟悉,所以在Hadoop里面,大家經(jīng)常用MapReduce集做數(shù)據(jù)處理,但是它不支持子查詢,多維處理函數(shù)都不支持,它的處理是有限制的,IBM提供一個(gè)hadoop,我們叫InfoSphere BigInsights它是完全基于標(biāo)準(zhǔn)做的,它會(huì)支持子查詢,多維函數(shù)查詢都會(huì)這樣做,在這個(gè)領(lǐng)域里面,其實(shí)采用hadoop來(lái)做會(huì)有一些問(wèn)題,因?yàn)樗肑AVA做時(shí),它開(kāi)銷比較高,單運(yùn)行會(huì)很高,所以對(duì)大數(shù)據(jù)處理現(xiàn)在有一個(gè)趨勢(shì),就是采用傳統(tǒng)的SQ并行引擎來(lái)代替它做的,因?yàn)镾Q的引擎都是用C++來(lái)寫(xiě)的,包括資源調(diào)度會(huì)很好,所以現(xiàn)在有一個(gè)趨勢(shì),而IBM的3.0也是采用SQ的LPP的引擎代理了一些來(lái)做,這樣并行處理算法會(huì)更好,效率會(huì)很高,資源調(diào)度更好,子查詢多維查詢都會(huì)支持,這是它的體系結(jié)構(gòu)我們就不講了。

  另外一點(diǎn)IBM企業(yè)級(jí)的InfoSphere BigInsights和傳統(tǒng)的阿帕奇的區(qū)別,要注意整合,因?yàn)閔adoop是作為我們傳統(tǒng)數(shù)據(jù)的擴(kuò)展,一定要把你的Hadoop和傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)有機(jī)的聯(lián)系起來(lái),有效的整合,這怎么做,在IBM里有很大的優(yōu)勢(shì),包括我們的3.0它可以采用數(shù)據(jù)聯(lián)邦的技術(shù),可以把你的hadoop數(shù)據(jù)和我們的傳統(tǒng)數(shù)據(jù)庫(kù)包括數(shù)據(jù)倉(cāng)庫(kù)技術(shù)做很好的整合,這樣真正能夠在大數(shù)據(jù)時(shí)代同時(shí)整合我們的結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化外延的數(shù)據(jù)得到更好更全面的分析,其實(shí)這才是有用的,這在標(biāo)準(zhǔn)的阿帕奇里面其實(shí)很少有這方面的東西,這是一個(gè)它的優(yōu)勢(shì)。

  另外一點(diǎn)3.0也很快和傳統(tǒng)的HV做測(cè)試,基本有40倍的提高,在新的IBM里面除了具備統(tǒng)一企業(yè)特性之外,從信息整合,集成管理方面都有很大的提高。另外一個(gè)因?yàn)榇髷?shù)據(jù)它的本質(zhì)是做分析,所以在這里面會(huì)有高級(jí)文本分析引擎,對(duì)飛碟化的文本分析,會(huì)通過(guò)高級(jí)文本分析引擎可以轉(zhuǎn)變成一個(gè)結(jié)構(gòu)化數(shù)據(jù)和傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)結(jié)合起來(lái)做更好的分析,這個(gè)典型例子,銀行里面對(duì)客戶的360深度分析,現(xiàn)在各個(gè)行都建了微博,把一些社交媒體的數(shù)據(jù)和我們傳統(tǒng)數(shù)據(jù)結(jié)合起來(lái),這種方式做本質(zhì)上輿情分析就用了高級(jí)文本分析引擎完成。

  另外就是流的處理,IBM有一個(gè)產(chǎn)品streams,它能夠?qū)z象頭、傳感器時(shí)時(shí)流動(dòng)的傳輸數(shù)據(jù)之后,我對(duì)這個(gè)數(shù)據(jù)做時(shí)時(shí)的響應(yīng),從而得到時(shí)時(shí)決策,能達(dá)到T+0的洞察力,就是通過(guò)這個(gè)產(chǎn)品實(shí)現(xiàn)。這個(gè)產(chǎn)品本身也是一個(gè)并行處理架構(gòu),它能夠只關(guān)注您的數(shù)據(jù)流處理的流程,不需要管理后面怎么部屬,它會(huì)根據(jù)您的硬件情況自動(dòng)的擴(kuò)充,是一個(gè)很好的流處理的基礎(chǔ)平臺(tái),同時(shí)我還可以和一些數(shù)據(jù)挖掘工具結(jié)合起來(lái),比如我們?cè)阢y行里面要做風(fēng)險(xiǎn),我們來(lái)看風(fēng)險(xiǎn)防范,就可以通過(guò)采用這個(gè)技術(shù),對(duì)您的七大防范做時(shí)時(shí)的檢測(cè)和時(shí)時(shí)響應(yīng),這就和SPS這種數(shù)據(jù)挖掘模型結(jié)合起來(lái)。

  另外一點(diǎn)剛才講了,整個(gè)構(gòu)建數(shù)據(jù)基礎(chǔ)平臺(tái)之外,很重要一點(diǎn)要考慮信息管控,信息管控里面重要的就是數(shù)據(jù)安全,怎么提供可信的安全的數(shù)據(jù),這是大數(shù)據(jù)時(shí)代重要的東西,安全怎么做,剛才講了IBM有一個(gè)產(chǎn)品易構(gòu)數(shù)據(jù)庫(kù)的審計(jì)安全管理的工具,大家看就是這個(gè)產(chǎn)品,它會(huì)針對(duì)您的所有易構(gòu)的數(shù)據(jù)源包括現(xiàn)在的hadoop數(shù)據(jù),對(duì)這些易構(gòu)數(shù)據(jù)進(jìn)行識(shí)別,來(lái)收集對(duì)這些數(shù)據(jù)所有的訪問(wèn),所有訪問(wèn)流程都能做記載,對(duì)事后審計(jì),同時(shí)還可以定一些規(guī)則,定完規(guī)則之后,當(dāng)對(duì)敏感數(shù)據(jù)做訪問(wèn)時(shí),能夠時(shí)時(shí)的告警,甚至?xí)r時(shí)阻斷,這樣保證我們整個(gè)企業(yè)數(shù)據(jù)環(huán)境的安全性。

  采用這種方式的好處是采用盤(pán)務(wù)的方式,也就是說(shuō)您用了之后,對(duì)您所有的數(shù)據(jù)庫(kù)應(yīng)用不需要做任何修改,只要把這個(gè)盒子插上去,安裝上就可以進(jìn)行收集,進(jìn)行時(shí)時(shí)的數(shù)據(jù)安全監(jiān)控,所以使用起來(lái)非常方便,也不需要打開(kāi)所有數(shù)據(jù)庫(kù)的日志,所以對(duì)性能沒(méi)有任何影響。

  再一個(gè)就是數(shù)據(jù)的生命周期管理,剛才講了,如果對(duì)結(jié)構(gòu)化數(shù)據(jù)IBM有一個(gè)產(chǎn)品來(lái)做生命周期的管理,但是很大的好處和我們自己實(shí)現(xiàn)做傳統(tǒng)的生命周期管理有很大的區(qū)別,它可以采用在數(shù)據(jù)抽取時(shí),是采用面向業(yè)務(wù)對(duì)象來(lái)做,也就是說(shuō)您的數(shù)據(jù)之間是有關(guān)聯(lián)的,它抽取時(shí)不是按照一個(gè)數(shù)據(jù)點(diǎn)做,而是數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系統(tǒng)一的業(yè)務(wù)對(duì)象來(lái)做,同時(shí)當(dāng)你抽下來(lái)存儲(chǔ)時(shí),是采用了自己的格式,這樣做的好處可能你從這個(gè)數(shù)據(jù)庫(kù)歸檔的數(shù)據(jù),以后可能恢復(fù)到BB2上都是可以的,因?yàn)樗凶约簝?nèi)部的格式,因?yàn)樽龅囊患垰w檔,比如您實(shí)際來(lái)做的,可能十年之后實(shí)際軟件早沒(méi)有了,您數(shù)據(jù)要恢復(fù)沒(méi)法恢復(fù),采用這種方式,因?yàn)樗鎯?chǔ)的是自己內(nèi)部格式,從實(shí)際歸檔一下數(shù)據(jù),以后可能在20G照樣可以恢復(fù),所以是它很大的好處,同時(shí)可以采用層級(jí)存儲(chǔ)的方式。

  它還可以做隱私管理,這個(gè)不講了,通過(guò)IBM大數(shù)據(jù)分析平臺(tái),我們就可以借助一個(gè)平臺(tái)之上,構(gòu)建針對(duì)各個(gè)行業(yè)的數(shù)據(jù)分析,包括對(duì)它的分析,這個(gè)后面我們會(huì)講銀行的應(yīng)用知道,就講構(gòu)建分析。同樣IBM來(lái)做是提供基礎(chǔ)的平臺(tái),我們要和合作伙伴比如文思海輝一起幫助您實(shí)現(xiàn)行里面的一些數(shù)據(jù)分析應(yīng)用,數(shù)據(jù)治理,基本上我就今天講這么多,大家有什么問(wèn)題沒(méi)有,謝謝。

錯(cuò)誤報(bào)告  分享到:
評(píng)論排行更多>>