SparkMR on QingCloud 集成了 Spark 與 Hadoop MapReduce 雙計(jì)算引擎,提供統(tǒng)一的 HDFS 數(shù)據(jù)存儲(chǔ)引擎及 YARN 調(diào)度系統(tǒng),為用戶提供靈活、高效、可多模式切換的全新云端大數(shù)據(jù)處理平臺(tái)。
大數(shù)據(jù)時(shí)代,數(shù)據(jù)資源是企業(yè)的無(wú)形資產(chǎn),也是核心競(jìng)爭(zhēng)力之一。如何低成本、高效率地進(jìn)行數(shù)據(jù)統(tǒng)一管理和分析,獲得商業(yè)決策支持成為擺在企業(yè)面前的一道難題。大數(shù)據(jù)平臺(tái)正是為了企業(yè)的這種需求應(yīng)運(yùn)而生并持續(xù)發(fā)展創(chuàng)新。
青云QingCloud 于 2015 年 8 月推出了基于 Spark 的大數(shù)據(jù)集群服務(wù),同年 12 月,推出 Hadoop 集群服務(wù)作為大數(shù)據(jù)基礎(chǔ)平臺(tái)的有力補(bǔ)充,以此來(lái)滿足企業(yè)在大數(shù)據(jù)領(lǐng)域的不同需求。
但由于 Spark 與 Hadoop 作為兩個(gè)獨(dú)立的服務(wù),用戶同時(shí)使用這兩種處理引擎時(shí),需要部署兩套 HDFS,相同的數(shù)據(jù)需要加載并存放兩份,無(wú)論是成本還是效率都不是最好的選擇。
同時(shí),從數(shù)據(jù)統(tǒng)一管理角度出發(fā),青云QingCloud 推出 SparkMR on QingCloud,通過(guò) QingCloud AppCenter 以云應(yīng)用方式交付用戶使用,對(duì)原有大數(shù)據(jù)平臺(tái)的 Spark 與 Hadoop 服務(wù)進(jìn)行了全方位的升級(jí)與整合。(SparkMR 支持 Apache Hadoop 2.7.3 與 Apache Spark 2.2.0。)
Spark 和 Hadoop 兩者結(jié)合后,除了可以顯著降低成本之外,相對(duì)原大數(shù)據(jù)平臺(tái)還提供了更豐富、靈活的可選配置,用戶可以分角色定制節(jié)點(diǎn)配置(CPU 2~16 核可選,內(nèi)存 2~64 GB 可選)。
總的來(lái)說(shuō),SparkMR on QingCloud 作為支撐全新雙引擎大數(shù)據(jù)平臺(tái)的重要組件,具有多重亮點(diǎn):
靈活的計(jì)算模式
SparkMR 在底層提供統(tǒng)一的 HDFS 作為數(shù)據(jù)存儲(chǔ)引擎,在上層提供 Spark 及與 MapReduce 兩種計(jì)算引擎,并提供 YARN 作為調(diào)度系統(tǒng)。用戶可以輕松實(shí)現(xiàn)三種不同的計(jì)算模式,即 Spark Standalone、Spark on YARN 和 MapReduce on YARN 三者之間的切換。
強(qiáng)大的計(jì)算能力
SparkMR 為了方便用戶開(kāi)發(fā) Spark 應(yīng)用,除了支持 Java 和 Scala 開(kāi)發(fā)之外, 還提供了 Python 與 R 兩種語(yǔ)言的運(yùn)行環(huán)境。其中為 Python 用戶提供了 Anaconda 發(fā)行版的 Python 2 和 Python 3,并支持在這兩種 Python 版本間進(jìn)行切換。同時(shí),分別為這兩個(gè) Python 版本預(yù)置了多個(gè) Anaconda 發(fā)行版的數(shù)據(jù)科學(xué)包,為數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)/深度學(xué)習(xí)等 AI 開(kāi)發(fā)場(chǎng)景,提供了強(qiáng)大的計(jì)算能力支撐。
便捷的集成能力
SparkMR 支持指定依賴服務(wù)的功能,即通過(guò) AppCenter 2.0 框架內(nèi)原生的應(yīng)用感知機(jī)制,實(shí)現(xiàn)與其他大數(shù)據(jù)分析組件之間自動(dòng)化的無(wú)縫集成。
SparkMR 與 QingStor? 對(duì)象存儲(chǔ)平臺(tái)也進(jìn)行了預(yù)置集成,用戶可以通過(guò)簡(jiǎn)單的配置即可開(kāi)啟對(duì) QingStor? 對(duì)象存儲(chǔ)的支持,以應(yīng)對(duì)海量大規(guī)模數(shù)據(jù)的存儲(chǔ)問(wèn)題。
良好的調(diào)度策略
SparkMR 提供 Spark 與 YARN 的自定義調(diào)度器的功能,用戶可以根據(jù)自己實(shí)際的需求,自定義集群內(nèi)資源調(diào)度策略,賦予用戶在多租戶使用場(chǎng)景下更為精細(xì)化的管理能力。
簡(jiǎn)易的服務(wù)定制
SparkMR 通過(guò)控制臺(tái)提供近 60 個(gè)配置參數(shù),用戶通過(guò)控制臺(tái)的 UI 操作即可完成集群部署及服務(wù)的個(gè)性化定制, 比如用戶可以通過(guò) UI 即可完成設(shè)置 Hadoop 代理用戶的功能。
配置參數(shù)頁(yè)面
SparkMR 的 Client(客戶端)節(jié)點(diǎn)也實(shí)現(xiàn)了完全的自動(dòng)化配置,用戶無(wú)需再單獨(dú)創(chuàng)建并手動(dòng)配置 BigData Client 或者 Spark Client。這意味著用戶在控制臺(tái)完成配置及服務(wù)定制后,在部署完成時(shí),已經(jīng)可以開(kāi)始執(zhí)行計(jì)算任務(wù),真正實(shí)現(xiàn)了一鍵部署、即刻使用。
完善的服務(wù)監(jiān)控
節(jié)點(diǎn)監(jiān)控信息
SparkMR 提供了完善的服務(wù)級(jí)別分角色的監(jiān)控能力,用戶不僅可以看到常規(guī)資源層監(jiān)控,還可以通過(guò)可視化的方式清晰了解整體服務(wù)的運(yùn)行情況。同時(shí)基于服務(wù)監(jiān)控,還提供了監(jiān)控告警、健康檢查和服務(wù)自動(dòng)恢復(fù)等功能。
未來(lái),SparkMR 應(yīng)用將逐步替代現(xiàn)有的 Spark 與 Hadoop 服務(wù),為用戶提供功能更為強(qiáng)大、使用更加便捷的大數(shù)據(jù)基礎(chǔ)組件服務(wù)。
掃描下方二維碼,獲取更多 SparkMR 的使用說(shuō)明
同期上線大數(shù)據(jù)服務(wù)
https://appcenter.qingcloud.com/apps/app-3k61fkmg
HBase 是一個(gè)開(kāi)源的、分布式的、數(shù)據(jù)多版本的,列式存儲(chǔ)的 NoSQL 數(shù)據(jù)庫(kù)。依托 Hadoop 的分布式文件系統(tǒng) HDFS 作為底層存儲(chǔ), 能夠?yàn)閿?shù)十億行數(shù)百萬(wàn)列的海量數(shù)據(jù)表提供隨機(jī)、實(shí)時(shí)的讀寫(xiě)訪問(wèn)。
HBase on QingCloud 提供原生 Apache HBase 1.2.6 發(fā)行版,HDFS 使用原生 Apache Hadoop 2.7.3 發(fā)行版。提供的服務(wù)包含:HBase 數(shù)據(jù)庫(kù)服務(wù)、HDFS 分布式文件系統(tǒng)、Phoenix 查詢引擎、HBase Restful 服務(wù)、HBase Thrift 服務(wù),壓縮格式方面支持 GZIP、BZIP2、LZO、SNAPPY。
https://appcenter.qingcloud.com/apps/app-o1rl71en
MongoDB 是一個(gè)可擴(kuò)展的高性能,高可用,開(kāi)源的文檔型數(shù)據(jù)庫(kù),是當(dāng)前 NoSQL 數(shù)據(jù)庫(kù)產(chǎn)品中最熱門的一種。它在許多場(chǎng)景下用于替代傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)或鍵值對(duì)存儲(chǔ)方式,也可以使用它的 MapReduce 功能進(jìn)行數(shù)據(jù)分析。MongoDB 原生支持副本集和分片,可以在高可用性的同時(shí)儲(chǔ)存海量數(shù)據(jù)。得益于其無(wú)模式 (Schema-free) 的特性,開(kāi)發(fā)人員能夠快速的迭代式開(kāi)發(fā),靈活的應(yīng)對(duì)業(yè)務(wù)變化。
MongoDB on QingCloud 提供原生 MongoDB Replication 云服務(wù),提供冗余并增加了數(shù)據(jù)的高可用性。