從2007年開始,大數(shù)據(jù)應(yīng)用成為很多企業(yè)的需求,2012年興起并產(chǎn)生了大數(shù)據(jù)平臺(tái),使用者主要是程序員;2013年到2017年間,數(shù)據(jù)逐漸增多,大數(shù)據(jù)平臺(tái)變成了融合大數(shù)據(jù)平臺(tái),使用者從程序員變成數(shù)據(jù)管理員和數(shù)據(jù)分析師;從2018年開始,大數(shù)據(jù)進(jìn)入企業(yè)數(shù)據(jù)智能新階段,普通的工程師也能輕松應(yīng)用。
當(dāng)數(shù)據(jù)越來越多,需求也越來越高,環(huán)境越來越復(fù)雜,分析處理的方式也多種多樣,這對(duì)平臺(tái)有了更高的要求。
華為FusionInsight就是迎合著這種趨勢(shì)來開發(fā)的一個(gè)混合負(fù)載的、開放的、統(tǒng)一大數(shù)據(jù)平臺(tái)。
從HD、MPP DB到AI、數(shù)據(jù)智慧,F(xiàn)usionInsight平臺(tái)滿足四大場(chǎng)景需求
華為FusionInsight平臺(tái)圍繞大數(shù)據(jù)提供了系列產(chǎn)品,最主要的是與Hadoop兼容的開源平臺(tái)FusionInsight HD、MPP DB平臺(tái)、數(shù)據(jù)挖掘和人工智能的平臺(tái)以及數(shù)據(jù)智慧的平臺(tái)。其中,F(xiàn)usionInsight HD是一個(gè)融合的大數(shù)據(jù)平臺(tái),滿足各種用戶需求同時(shí)混合負(fù)載、開放應(yīng)用。
在企業(yè)當(dāng)中,大數(shù)據(jù)平臺(tái)的主體是Hadoop平臺(tái),其業(yè)務(wù)場(chǎng)景主要有離線處理、實(shí)時(shí)流處理、交互查詢或數(shù)據(jù)集市和實(shí)時(shí)檢索。這四個(gè)場(chǎng)景都是隨著大數(shù)據(jù)的發(fā)展逐步出現(xiàn)的。
針對(duì)離線處理場(chǎng)景,F(xiàn)usionInsight HD由如下組件來實(shí)現(xiàn):HDFS負(fù)責(zé)存儲(chǔ)所有數(shù)據(jù);Yarn負(fù)責(zé)調(diào)度在離線平臺(tái)上運(yùn)行的所有任務(wù),從數(shù)據(jù)加工、數(shù)據(jù)挖掘到數(shù)據(jù)分析;Mapreduce和Hive專門處理離線的具體任務(wù),其中Mapreduce處理非SQL類、Hive處理SQL類,對(duì)應(yīng)的有另外叫離線處理引擎的兩個(gè)組件——Spark和Spark SQL,作用與Mapreduce和Hive相同。借助上述組件,再加上數(shù)據(jù)采集組件(FusionInsight HD也提供了很多功能和組件),即可完成離線處理。
交互查詢場(chǎng)景通常需要在三秒內(nèi)實(shí)現(xiàn)。FusionInsight HD的Elk提供交互查詢的引擎是存儲(chǔ)和查詢一體的組件,類似于Hadoop的組件但是功能更強(qiáng)。數(shù)據(jù)的采集可以用華為提供的工具,也可以用第三方的工具。
流處理場(chǎng)景核心的要求就是快,所以也叫實(shí)時(shí)流處理,一般用時(shí)在4到5秒之內(nèi)。FusionInsight HD滿足流處理方案主要是三個(gè)組件,Kafka接受數(shù)據(jù)做緩存,流處理的引擎——Spark Streaming與Fhink(前者速度相對(duì)較慢,但是成本偏低,后者成本稍高,但速度更快),Redis主要處理流處理之后的結(jié)果數(shù)據(jù)。
實(shí)時(shí)檢索場(chǎng)景常見于運(yùn)營(yíng)商、銀行、公安等行業(yè),性能要求高,并發(fā)大,其查詢條件比較簡(jiǎn)單且相對(duì)固定。用華為FusionInsight HD來實(shí)現(xiàn),主要是Hbase和Solr/ESX,兩個(gè)組件的組合可以滿足低時(shí)延、高并發(fā)并且查詢條件相對(duì)固定的檢索。
不論是合作伙伴還是客戶,都可以在FusionInsight HD平臺(tái)上輕松地開發(fā)出滿足四個(gè)業(yè)務(wù)場(chǎng)景的應(yīng)用。
FusionInsight HD組件中的6大特色
FusionInsight HD有鮮明的特色。
1、統(tǒng)一的SQL接口
華為統(tǒng)一的SQL接口,可以支持各種組件進(jìn)行統(tǒng)一查詢,而不需要把數(shù)據(jù)從一個(gè)組件遷移到另一個(gè)組件。
2、FusionInsight SparkSQL
SparkSQL概念并非華為提出,但華為為社區(qū)做出了很多貢獻(xiàn),自己的產(chǎn)品能力更強(qiáng),例如華為主導(dǎo)向Spark SQL貢獻(xiàn)的CPU優(yōu)化器,使得穩(wěn)定性和高性能比社區(qū)的開源的SQL更強(qiáng)。
3、完全自研的SQL引擎Elk
讓華為的SQL引擎更接近數(shù)據(jù)庫(kù)甚至超過數(shù)據(jù)庫(kù),用戶能夠得到跟數(shù)據(jù)庫(kù)一樣甚至超過數(shù)據(jù)庫(kù)交互體驗(yàn)效果。
4、Apach
CarbonData是華為主導(dǎo)的一個(gè)社區(qū)開展項(xiàng)目,參與者有國(guó)內(nèi)眾多互聯(lián)網(wǎng)公司和大型企業(yè),也有國(guó)外IT企業(yè),其特點(diǎn)是對(duì)上層的應(yīng)用無感知,提升了數(shù)據(jù)分析、數(shù)據(jù)查詢的性能。
5、多級(jí)租戶管理功能
FusionInsight提供的多級(jí)租戶管理功能來匹配企業(yè)的組織架構(gòu),也就是說,可以有這種公司級(jí)的租戶和管理員,有部門級(jí)的綜合管理員,還有子部門租戶和管理員,在給用戶設(shè)置權(quán)限、設(shè)置資源配合有更方便的對(duì)應(yīng)。
6、對(duì)異構(gòu)設(shè)備支持。
FusionInsight提供了對(duì)異構(gòu)設(shè)備支持,既支持高低配的設(shè)備在同一個(gè)大集群里,又支持開發(fā)應(yīng)用可以指定某些應(yīng)用運(yùn)行在不同的機(jī)器上。
除此之外,華為FusionInsight還具備資源的靈活配置、多租戶的能力、分級(jí)存儲(chǔ)、超大集群、滾動(dòng)升級(jí)、異構(gòu)磁盤集群熱點(diǎn)數(shù)據(jù)均衡、Flink流數(shù)據(jù)引擎、可視化的集群管理與運(yùn)維、可信產(chǎn)品、可信開發(fā)流程等十大優(yōu)勢(shì),是一個(gè)幫助用戶以最低的成本解決最復(fù)雜問題的可信平臺(tái)。
用戶實(shí)踐與啟迪
中國(guó)60%的TOP 10金融、保險(xiǎn)、銀行,全球Top50運(yùn)營(yíng)商中的25%都用了華為的大數(shù)據(jù)平臺(tái);中國(guó)的平安城市建設(shè)有30%的客戶選擇了華為。華為在全球的項(xiàng)目、合作伙伴相當(dāng)可觀。
迄今為止,F(xiàn)usionInsight HD已經(jīng)交付了700多個(gè)項(xiàng)目,產(chǎn)生了300多個(gè)合作伙伴和客戶;這些項(xiàng)目覆蓋到金融、公共安全、交通、政務(wù)、電信、電力、石油等各個(gè)行業(yè)。
選擇FusionInsight HD作為大數(shù)據(jù)的承載平臺(tái)和處理平臺(tái),可以盡可能地將大數(shù)據(jù)價(jià)值發(fā)揮到極致。