——馬歇爾。麥克盧漢,思想家
大數(shù)據(jù)和人工智能正以前所未有的態(tài)勢(shì)洶涌而來。一方面是風(fēng)投和創(chuàng)業(yè)創(chuàng)新,堅(jiān)信大數(shù)據(jù)和人工智能是下一個(gè)尚未被開墾的寶地;另一方面是應(yīng)用,比起概念盛行的階段,現(xiàn)在的AlphaGo、AR/VR、疾病預(yù)測(cè)、精準(zhǔn)營銷等已經(jīng)把大數(shù)據(jù)和人工智能技術(shù)帶到了“看得到摸得著”的境地。
反觀國內(nèi),雖然大數(shù)據(jù)領(lǐng)域的建設(shè)如火如荼,但項(xiàng)目多以解決傳統(tǒng)數(shù)據(jù)處理技術(shù)性能瓶頸,以及利用數(shù)據(jù)統(tǒng)計(jì)進(jìn)行探索性分析為主。真正利用機(jī)器學(xué)習(xí)、人工智能技術(shù)進(jìn)行數(shù)據(jù)挖掘,還未形成通用行業(yè)標(biāo)準(zhǔn),但這正是大數(shù)據(jù)未來發(fā)展的重要方向。
機(jī)器學(xué)習(xí)(ML)與人工智能(AI)
人工智能(Artificial Intelligence,縮寫為AI),是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué),是計(jì)算機(jī)科學(xué)的一個(gè)重要分支,也是大數(shù)據(jù)領(lǐng)域不可忽視的一個(gè)發(fā)展方向。可以預(yù)見,未來的大數(shù)據(jù)系統(tǒng)勢(shì)必會(huì)變得更加智能,我們的生活也勢(shì)必因?yàn)锳I帶來巨大的改變。而機(jī)器學(xué)習(xí)(Machine Learning,簡(jiǎn)稱ML)作為人工智能研究的核心問題,也備受關(guān)注。該子學(xué)科是實(shí)現(xiàn)人工智能的重要途徑之一,也推動(dòng)了人工智能、人機(jī)互補(bǔ)的進(jìn)步。未來,人工智能(AI)、商業(yè)智能(Business Intelligence,簡(jiǎn)稱BI)、機(jī)器學(xué)習(xí)(ML)都將成為我們生活中的重要工具,在機(jī)器人、經(jīng)濟(jì)政治決策、控制系統(tǒng)、仿真、生物基因等領(lǐng)域發(fā)揮巨大作用。
和石器、鐵器、指南針、火藥、互聯(lián)網(wǎng)一樣,機(jī)器學(xué)習(xí)是一種工具,促進(jìn)人類的進(jìn)步。人類正是不斷制造和改進(jìn)工具,才有了今天的發(fā)展和繁榮。不斷改進(jìn)和發(fā)展是相關(guān)聯(lián)的,也即所謂永不滿足、進(jìn)取精神。
DataEngine大數(shù)據(jù)平臺(tái) 開創(chuàng)機(jī)器學(xué)習(xí)新篇章
。ㄐ氯A三 DataEngine 大數(shù)據(jù)平臺(tái))
新華三集團(tuán)基于對(duì)市場(chǎng)的敏銳觸覺和前瞻性的研究,于近日發(fā)布了DataEngine大數(shù)據(jù)平臺(tái),致力于為用戶提供挖掘大數(shù)據(jù)金礦的高效工具。
DataEngine大數(shù)據(jù)平臺(tái)對(duì)用戶來說,最有趣也最有價(jià)值的服務(wù),就是在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方面,基于底層數(shù)據(jù)平臺(tái)推出的ML可視化服務(wù),讓機(jī)器學(xué)習(xí)變得簡(jiǎn)單易用。
ML可視化服務(wù)能帶給用戶舒暢靈動(dòng)的數(shù)據(jù)挖掘體驗(yàn),輕松拖拽就可以完成機(jī)器學(xué)習(xí),對(duì)用戶零代碼技術(shù)要求,快速上手。并且可以基于Hive數(shù)倉和Spark引擎,讓機(jī)器學(xué)習(xí)更加高效。
下面,以一個(gè)實(shí)際的操作案例,帶你進(jìn)入ML可視化服務(wù)的奇妙之旅。
。∕L可視化服務(wù)歡迎界面)
ML可視化服務(wù) 繪畫出數(shù)據(jù)價(jià)值
以預(yù)測(cè)個(gè)人年收入為例,通過歷史個(gè)人數(shù)據(jù)訓(xùn)練預(yù)測(cè)算法,來預(yù)測(cè)人們的年薪,是否高于5w美元。首先,準(zhǔn)備好相關(guān)的歷史訓(xùn)練數(shù)據(jù),這里選擇了關(guān)于個(gè)人信息和年收入的3萬行數(shù)據(jù)進(jìn)行訓(xùn)練(訓(xùn)練數(shù)據(jù)越大,機(jī)器學(xué)習(xí)算法的精確度會(huì)越高)。這些數(shù)據(jù)包含個(gè)人信息的15個(gè)維度特征值,以及其最終年收入情況。
值得一提的是,Data Engine大數(shù)據(jù)平臺(tái)能夠支持最豐富的數(shù)據(jù)庫類型。這些數(shù)據(jù)來源可以是在Hadoop的HDFS或者Hive組件里面,可以是CSV數(shù)據(jù)格式的文件,也可以來自類似Orcale的傳統(tǒng)關(guān)系型數(shù)據(jù)庫。
(第一步,歷史訓(xùn)練數(shù)據(jù)準(zhǔn)備)
第二步,通過簡(jiǎn)單的拖拽進(jìn)行機(jī)器學(xué)習(xí)整體流程圖的繪制。充分體現(xiàn)了H3C DataEngine大數(shù)據(jù)平臺(tái)ML可視化服務(wù)的強(qiáng)大之處,這里我們選用了回歸算法中的分類樹進(jìn)行歷史數(shù)據(jù)的訓(xùn)練,配合預(yù)測(cè)器進(jìn)行其他個(gè)人的年收入預(yù)測(cè)。值得一提的是,機(jī)器學(xué)習(xí)的算法選擇實(shí)在是一門藝術(shù),并非越復(fù)雜的算法精確度越高,只有和業(yè)務(wù)場(chǎng)景適配的算法,才能事半功倍。這也體現(xiàn)出數(shù)據(jù)分析師的價(jià)值,需要對(duì)業(yè)務(wù)有深入了解且不斷反復(fù)調(diào)整優(yōu)化。當(dāng)然,這也是他們拿到高薪的原因。其次,工具的用戶體驗(yàn)也是立身之本,ML可視化服務(wù)的易用簡(jiǎn)便讓數(shù)據(jù)挖掘真正做到了“化繁為簡(jiǎn)”。
。ǖ诙剑嫴忌,繪出機(jī)器學(xué)習(xí)整體流程)
第三步,輸入待預(yù)測(cè)的數(shù)據(jù)到預(yù)測(cè)器中,可以直接看到最終的顯示結(jié)果。
最終輸出的收入分析圖非常有意思,該圖顯示,總體來說年齡在40歲左右的年收入較高。但其中獨(dú)樹一幟的黃色,則表示如果是20歲左右的自由職業(yè)者,同時(shí)是擁有一個(gè)公司的創(chuàng)業(yè)者,年收入大于5w美元的比例最高。
大數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)(ML)、人工智能(AI)讓數(shù)據(jù)會(huì)說話,而ML可視化服務(wù)讓機(jī)器學(xué)習(xí)像在油畫布上作畫一樣靈動(dòng)便捷,讓高深的技術(shù),“飛入尋常百姓家”。
新華三集團(tuán)
新華三集團(tuán)(簡(jiǎn)稱新華三)是全球領(lǐng)先的新IT解決方案領(lǐng)導(dǎo)者,致力于新IT解決方案和產(chǎn)品的研發(fā)、生產(chǎn)、咨詢、銷售及服務(wù),擁有H3C品牌的全系列服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)、安全、超融合系統(tǒng)和IT管理系統(tǒng)等產(chǎn)品,能夠提供大互聯(lián)、大安全、云計(jì)算、大數(shù)據(jù)和IT咨詢服務(wù)在內(nèi)的一站式、全方位IT解決方案。同時(shí),新華三也是HPE品牌的服務(wù)器、存儲(chǔ)和技術(shù)服務(wù)的中國獨(dú)家提供商。