中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

您當前的位置是:  首頁 > 新聞 > 專家觀點 >
 首頁 > 新聞 > 專家觀點 >

專訪汪源:網(wǎng)易杭研為孵化創(chuàng)新而生 不止于云和大數(shù)據(jù)

2016-12-16 16:25:39   作者:   來源:CTI論壇   評論:0  點擊:


  2016年,網(wǎng)易杭州研究院(以下簡稱“杭研”)成立十周年之際,我們推出系列訪談文章,針對親歷杭研核心技術(shù)體系變遷的數(shù)位技術(shù)大牛發(fā)問,揭秘網(wǎng)易云背后的技術(shù)脈絡(luò)、研發(fā)思想和技術(shù)人成長的故事。本期的受訪嘉賓,是網(wǎng)易杭州
  2016年,網(wǎng)易杭州研究院(以下簡稱“杭研”)成立十周年之際,我們推出系列訪談文章,針對親歷杭研核心技術(shù)體系變遷的數(shù)位技術(shù)大牛發(fā)問,揭秘網(wǎng)易云背后的技術(shù)脈絡(luò)、研發(fā)思想和技術(shù)人成長的故事。本期的受訪嘉賓,是網(wǎng)易杭州研究院執(zhí)行院長汪源。本篇介紹了杭研成立的背景和初衷,杭研技術(shù)體系的演進,當前的應(yīng)用進展,和未來的一些重點工作。除了云計算的實踐經(jīng)驗,汪源還解析了網(wǎng)易大數(shù)據(jù)實踐的思路和成果,并分享了企業(yè)實施大數(shù)據(jù)的關(guān)鍵步驟。
\
  網(wǎng)易杭州研究院執(zhí)行院長汪源
  十年,杭研支撐了整個網(wǎng)易互聯(lián)網(wǎng)業(yè)務(wù)
  十年前在什么樣的情況下成立的杭研,當時的初衷是什么?
  汪源:網(wǎng)易的傳統(tǒng)業(yè)務(wù)板塊包括郵箱、門戶、游戲等,到2005-2006年的時候,很多創(chuàng)新的互聯(lián)網(wǎng)業(yè)務(wù)形態(tài)開始出現(xiàn),包括博客(如MSN Space)、在線相冊(如Flickr)等,丁總(網(wǎng)易CEO丁磊)認為互聯(lián)網(wǎng)領(lǐng)域?qū)⒊霈F(xiàn)很多值得探索、孵化的業(yè)務(wù)創(chuàng)新方向,網(wǎng)易需要在原有的業(yè)務(wù)板塊之外,重新建立一個面向創(chuàng)新業(yè)務(wù)孵化、探索的獨立組織,所以成立了網(wǎng)易杭州研究院。
  成立之后,杭研做的第一個業(yè)務(wù)就是博客,博客能夠讓所有的網(wǎng)民都可以發(fā)表自己的觀點,代表Web 2.0時代的誕生。另外,我們還做了在線相冊。在這些探索中,我們發(fā)現(xiàn)新的Web 2.0業(yè)務(wù)形態(tài)對技術(shù)的要求相比Web 1.0有了質(zhì)的飛越,需要如海量數(shù)據(jù)管理等基礎(chǔ)軟件的支撐,因為所有網(wǎng)民帶來的數(shù)據(jù)量,相比之前門戶網(wǎng)站至少有兩個數(shù)量級以上的提升。所以,杭研的第二個職責,就是為網(wǎng)易接下來的互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展籌備基礎(chǔ)軟件技術(shù),構(gòu)建一個現(xiàn)代化的互聯(lián)網(wǎng)知識體系和技術(shù)體系。
  經(jīng)過了十年的迭代,現(xiàn)在杭研技術(shù)體系的全貌是什么樣子?
  汪源:網(wǎng)易目前的技術(shù)體系可以總結(jié)為如下七個方面:
  1. 服務(wù)端技術(shù)和云計算體系;
  2. 整個大前端的技術(shù)體系,包含Web前端、PC客戶端和移動端;
  3. 信息安全體系;
  4.  QA(質(zhì)量保障)體系;
  5. 運維體系;
  6.  大數(shù)據(jù)分析/挖掘體系;
  7. 感知與智能體系。
\
  形成這個體系,這十年來重大技術(shù)變革的時間節(jié)點和革新的契機有哪些?
  汪源:杭研在不同時期的研發(fā)重心與整個互聯(lián)網(wǎng)環(huán)境的變化基本是一致的,當然網(wǎng)易因為體量的緣故,比一般的互聯(lián)網(wǎng)公司能夠更早地感受到新的技術(shù)需求。
  • 2006年,杭研研發(fā)核心是海量數(shù)據(jù)管理平臺,包括分布式數(shù)據(jù)庫和分布式文件系統(tǒng)等,也是現(xiàn)在網(wǎng)易對象存儲的核心組件。外部因素是Web 1.0到Web 2.0的過渡,導(dǎo)致網(wǎng)易整個互聯(lián)網(wǎng)產(chǎn)品對數(shù)據(jù)量的需求突然暴增。
  • 2007年,我們開始做MapReduce這樣的分布式計算平臺,支持大規(guī)模分析。因為Web 2.0產(chǎn)品發(fā)展逐漸成熟,催生了基于大量數(shù)據(jù)統(tǒng)計的個性化推薦等數(shù)字化運營模式,也帶來了大數(shù)據(jù)分析的需求。
  • 2009-2010年,重點是內(nèi)容安全。那個時候SNS風頭正盛,UGC(用戶生產(chǎn)內(nèi)容)業(yè)態(tài)發(fā)展逐漸成熟,反垃圾需求也越來越強。
  • 2011-2012年,我們從網(wǎng)易的業(yè)務(wù)規(guī)劃,預(yù)感到有很多新業(yè)務(wù)要開發(fā)、運維和管理,需要一個很好的基于虛擬化技術(shù)的云計算平臺來支撐,因為傳統(tǒng)的基于物理機的資源管理模式變得非常低效,尤其是對運維而言,所以我們構(gòu)建了云計算平臺。
  • 2012-2013年,我們開始做人工智能,這是人臉、語音等需求的促進。
  基于這些技術(shù),杭研今年推出了網(wǎng)易云,根據(jù)網(wǎng)易對產(chǎn)品品質(zhì)的一貫要求,這表明了我們對技術(shù)積累較高的滿意度,那么能否說我們目前的技術(shù)儲備已經(jīng)很完善了?
  汪源:技術(shù)體系其實永遠是不可能完善的,因為業(yè)務(wù)發(fā)展會不斷提出新的需求,而且一個龐大的技術(shù)體系中也會存在很多可以優(yōu)化的地方。但是,有兩個事實表明我們整個技術(shù)體系是很成功的:
  1. 這套技術(shù)體系確實成為了一個統(tǒng)一的、標準化的平臺,承載網(wǎng)易的各個互聯(lián)網(wǎng)產(chǎn)品,無論是杭研還是非杭研的產(chǎn)品,所有的典型互聯(lián)網(wǎng)業(yè)務(wù),都在使用杭研構(gòu)建的這套技術(shù)體系來支撐,網(wǎng)易內(nèi)部不存在不同的技術(shù)體系。
  2. 2012-2013年,我們開始做教育、音樂、易信,2014-2015年,我們做了電商、金融、手游等業(yè)務(wù)。這三四年,網(wǎng)易業(yè)務(wù)呈現(xiàn)爆發(fā)性增長。但無論是業(yè)務(wù)范圍還是業(yè)務(wù)規(guī)模,這個技術(shù)體系都很好地完成了本職使命——在業(yè)務(wù)爆發(fā)式增長的時候,它能夠及時地提供有力的支撐,沒有出現(xiàn)技術(shù)拖后腿的情況。
\
 
  現(xiàn)在,我們將這個技術(shù)體系逐步產(chǎn)品化、商業(yè)化,對外提供網(wǎng)易云服務(wù),而我們的云服務(wù)也很好地支撐了很多外部客戶的業(yè)務(wù)。
  這套體系之所以能夠支撐整個網(wǎng)易互聯(lián)網(wǎng)業(yè)務(wù),您的主要經(jīng)驗是什么?
  汪源:這其中有兩個方面的原因。
  1.  技術(shù)原因:技術(shù)體系的能力可以支持各個業(yè)務(wù)的需要。例如,針對業(yè)務(wù)的高可用需求,云計算提供了基于虛擬化的集群調(diào)度能力,和很好的資源隔離機制,即多AZ(Availability Zone)機制,包括普通云主機和RDS之間相互隔離的機制,這些機制都是成規(guī)模的、可用性要求高的互聯(lián)網(wǎng)應(yīng)用所需要的。不同AZ云主機一定在不同的交換機、不同的物理機下面,做到可用性隔離。我們在IaaS層設(shè)計上提供了很好的保障手段,云計算平臺可以支撐這種placement的需求。在性能方面,我們也針對網(wǎng)絡(luò)虛擬化做了很多優(yōu)化,能夠在萬兆網(wǎng)絡(luò)條件下較好地榨干硬件的性能。所以,無論性能指標還是非功能性指標,我們都能很好地滿足業(yè)務(wù)的需求。
  2. 團隊原因:網(wǎng)易云計算平臺是杭研構(gòu)建的,網(wǎng)易互聯(lián)網(wǎng)業(yè)務(wù)的運維也是杭研運維團隊承擔的。云計算團隊和運維團隊會聯(lián)合制定一些運維規(guī)范,除了某些特定的場景使用物理機之外,其他場景都使用標準化的網(wǎng)易云架構(gòu)來部署應(yīng)用。如果要把老業(yè)務(wù)從物理環(huán)境遷移到云環(huán)境,遷移工作也是杭研運維團隊來執(zhí)行。所以,80%的工作只要運維團隊和云計算團隊合作就能推動,不需要和所有業(yè)務(wù)團隊去溝通,難度降低了很多。
  大數(shù)據(jù),敏捷BI非常重要
  業(yè)界認為云計算為大數(shù)據(jù)的處理提供了基礎(chǔ),對于杭研來說,云計算很好地支撐了網(wǎng)易的互聯(lián)網(wǎng)業(yè)務(wù),那么我們的大數(shù)據(jù)體系如何發(fā)揮作用?
  汪源:我們的技術(shù)通常都是幫助應(yīng)用,在網(wǎng)易這樣的互聯(lián)網(wǎng)公司里面,大數(shù)據(jù)的應(yīng)用層最主要的是兩種模式:
  一是服務(wù)的智能化,讓大數(shù)據(jù)實時參與業(yè)務(wù)流程,通過大數(shù)據(jù),讓用戶體驗更好。個性化推薦是一個典型的案例,通過個性化推薦提供不同的服務(wù)內(nèi)容給不同的用戶;再如反垃圾技術(shù),用來給郵件自動分類,準確分出是正常郵件、訂閱郵件還是垃圾郵件。
  二是決策的科學(xué)化;跀(shù)據(jù)的決策、運營,如產(chǎn)品功能、模塊是否存在問題,哪些模塊比較受歡迎,哪些模塊不太受歡迎,都根據(jù)數(shù)據(jù)結(jié)果做設(shè)計和調(diào)整;產(chǎn)品的用戶群有什么典型的特征,也可以通過大數(shù)據(jù)來做分析,得出用戶群的畫像、用戶群的行為分析結(jié)果,提供給產(chǎn)品經(jīng)理、產(chǎn)品策劃作為決策依據(jù);在市場營銷上,哪個渠道帶來的效果更好,也是根據(jù)數(shù)據(jù)的情況來調(diào)整。目前,網(wǎng)易的金融、教育、電商、游戲等業(yè)務(wù)都有大數(shù)據(jù)的支撐。
\
  我們的技術(shù)如何支持這兩種模式?
  汪源:大數(shù)據(jù)應(yīng)用需要優(yōu)秀的大數(shù)據(jù)系統(tǒng)的支持。我們圍繞Hadoop、Spark、Impala等大量開源大數(shù)據(jù)的框架構(gòu)建自己的大數(shù)據(jù)平臺,降低數(shù)據(jù)開發(fā)的門檻,集中管理我們的數(shù)據(jù)資產(chǎn)。要降低數(shù)據(jù)開發(fā)門檻,首先要做的是讓數(shù)據(jù)集成變的容易,一個業(yè)務(wù)的數(shù)據(jù)通常是分布在業(yè)務(wù)MySQL、Oracle等數(shù)據(jù)庫中、分散在成百上千臺的服務(wù)器的日志中,或者是存在于文件中。如何批量或者實時地把數(shù)據(jù)收集起來,并同步到大數(shù)據(jù)系統(tǒng)里面,是大數(shù)據(jù)的第一步。所以杭研自己做了很多大數(shù)據(jù)平臺子產(chǎn)品,比如有一個產(chǎn)品叫做Data Stream,負責把海量的線上日志數(shù)據(jù)和MySQL、Oracle等數(shù)據(jù)庫的數(shù)據(jù)實時同步到大數(shù)據(jù)平臺的中。 其次,我們通過可視化界面和SQL簡化數(shù)據(jù)處理過程, 使得普通的服務(wù)端開發(fā)人員也能很快上手數(shù)據(jù)開發(fā)。網(wǎng)易有很多大型產(chǎn)品,每個大型產(chǎn)品都有大量數(shù)據(jù)表,所以沒有一個人能完全知道每張數(shù)據(jù)表的作用,當然更不知道每個字段的含義,不知道數(shù)據(jù)表的計算過程。為管理這些數(shù)據(jù)資產(chǎn),首先,我們的平臺得提供好的數(shù)據(jù)組織方式,使得數(shù)據(jù)使用人員能夠找到高質(zhì)量的數(shù)據(jù),促進數(shù)據(jù)在產(chǎn)品間共享,推動數(shù)據(jù)價值挖掘。其次,平臺還要提供細粒度的權(quán)限控制和操作審計,確保數(shù)據(jù)使用安全。
  企業(yè)利用大數(shù)據(jù)驅(qū)動業(yè)務(wù)發(fā)展,您還有哪些比較好的經(jīng)驗可以分享?
  汪源:企業(yè)在實施大數(shù)據(jù),第一步就是剛才說的,要考慮數(shù)據(jù)集成問題。第二步,應(yīng)該要有很熟悉業(yè)務(wù)領(lǐng)域的人,梳理數(shù)據(jù)的模式,梳理數(shù)據(jù)倉庫的ETL、建模等工作,才能使后續(xù)的大數(shù)據(jù)應(yīng)用有一個比較好的數(shù)據(jù)倉庫基礎(chǔ)。比如一個產(chǎn)品,原始數(shù)據(jù)是日志、數(shù)據(jù)庫的數(shù)據(jù),通過數(shù)據(jù)集成技術(shù)集成到大數(shù)據(jù)平臺里面來,都是可以訪問的,假設(shè)這個產(chǎn)品要基于大數(shù)據(jù)做5件事情,這個時候不應(yīng)該直接由5個人分頭做這五件事情,應(yīng)該先由1-2個人針對這個數(shù)據(jù)做一個很好的數(shù)據(jù)倉庫的建模設(shè)計,把核心的主題、Feature梳理出來,為后面的5個人提供幫助,不然這5個人需要做很多重復(fù)性的工作和很多重復(fù)性的計算。
  第三,敏捷BI是非常重要的。當前利用數(shù)據(jù)提升服務(wù)和決策能力的理念已經(jīng)深入人心,整個組織的不同角色都要從不同角度關(guān)注數(shù)據(jù),老板、高層、中層甚至基層都有可能需要用數(shù)據(jù)來做工作的分析和決策,整個大數(shù)據(jù)的使用場景在組織中是分布式存在的,所以需要企業(yè)大數(shù)據(jù)分析能力很好地賦能,讓組織中的各個角色都能夠比較方便地獲得想要的大數(shù)據(jù)分析能力。大數(shù)據(jù)具有“3V”的特點,并且數(shù)據(jù)往往是分散在不同的業(yè)務(wù)系統(tǒng),傳統(tǒng)BI 使用門檻高,以IT人員為中心,業(yè)務(wù)人員要把需求提交給IT人員,IT人員排班、建立數(shù)據(jù)模型、制作報表,往往要幾天甚至幾周,無法做到實時指導(dǎo)決策;如果IT人員對需求理解錯誤,或者業(yè)務(wù)根據(jù)當前報表要做進一步的分析,這個過程還要循環(huán),業(yè)務(wù)上錯失良機的概率就更大了。
  對于這樣的挑戰(zhàn),網(wǎng)易已經(jīng)有了解決方案,我們研發(fā)的敏捷BI工具網(wǎng)易有數(shù),具有數(shù)據(jù)可視化、實時多維分析的能力,在網(wǎng)易內(nèi)部已經(jīng)有很多的應(yīng)用。敏捷BI以業(yè)務(wù)人員為中心,更理解業(yè)務(wù)和需求的業(yè)務(wù)人員可以自助分析,結(jié)果是多贏的:IT部門可以在管控權(quán)限的基礎(chǔ)上從大量枯燥的提數(shù)需求中解放出來;業(yè)務(wù)部門可以根據(jù)業(yè)務(wù)情況進行實時分析,根據(jù)分析結(jié)果調(diào)整業(yè)務(wù),再根據(jù)數(shù)據(jù)來驗證調(diào)整的結(jié)果;管理者可以隨時隨地了解經(jīng)營數(shù)據(jù)狀況。這種結(jié)果也是傳統(tǒng)大中型企業(yè)數(shù)字化轉(zhuǎn)型所需要的,我們將會輸出這方面的能力,助力他們數(shù)字化轉(zhuǎn)型。
  未來,共創(chuàng)云上精彩世界
  您如何看待杭研未來發(fā)展面臨的挑戰(zhàn)?
  汪源:杭研面臨的主要挑戰(zhàn)是商業(yè)化層面。杭研的基礎(chǔ),主要在于工程技術(shù)方面,也有一些產(chǎn)品方面的技術(shù),但面向企業(yè)級市場的商業(yè)化能力是我們的弱項,這是我們面臨的一個很大的挑戰(zhàn)。應(yīng)對這個挑戰(zhàn)有兩條路,一是仔細選擇特定的行業(yè)、領(lǐng)域,有針對性地構(gòu)建比較強的面向企業(yè)的商業(yè)化團隊和能力,包括銷售、售前咨詢、交付實施、售后服務(wù)等方面的能力,但是我們不會鋪開來做,只選擇一些網(wǎng)易比較擅長的領(lǐng)域,或者自認為能夠聚焦、專注做的領(lǐng)域。其次,就是我們的產(chǎn)品要和第三方合作伙伴進行開放合作,共創(chuàng)云上精彩世界。
\
  網(wǎng)易技術(shù)商業(yè)化最典型的是網(wǎng)易云,丁總說網(wǎng)易云要解放程序員,您認為我們現(xiàn)在距離這個目標還有多遠?
  汪源:解放程序員,就是讓程序員從那些低級、繁瑣的工作中解脫出來,做一些有價值、有創(chuàng)造力的工作。通過技術(shù)的手段,把底層基礎(chǔ)的重復(fù)性工作封裝成現(xiàn)成可用的解決方案,就達到解放程序員的目的。其實網(wǎng)易技術(shù)體系一直都在解放程序員,我們非常關(guān)注這件事情。比如我們在做一個大數(shù)據(jù)的Benchmark,傳統(tǒng)的Benchmark是比拼性能的,但我們是用來比較哪種大數(shù)據(jù)編程模型的編程效率最高,而不是運行效率最高,這就是典型的重視解放程序員的思路。
  至于說解放到多大的程度,我們確實有一些統(tǒng)計數(shù)據(jù)。比如整個前端開發(fā),使用網(wǎng)易大前端的技術(shù)框架,工作效率可以提高1倍;如果程序員不僅僅指開發(fā),還包括運維,我們也針對云計算對運維效率的提升做過統(tǒng)計,包括創(chuàng)建主機、部署數(shù)據(jù)庫、發(fā)布上線等20多個常見工作,使用云計算平臺,相比之前使用物理環(huán)境,通?梢怨(jié)約80%的工作量。這些側(cè)面不是主觀感知,是我們花了比較多的精力,從具體數(shù)據(jù)統(tǒng)計得到的結(jié)論,是可以說明問題的。但是解決了這些問題之后,還有很多解放程序員的事情可以繼續(xù)做,而程序員會越來越走向更高附加值的工作,可以直接和業(yè)務(wù)掛鉤。
  從另一個角度來看,機器運行效率可以通過硬件升級、軟件優(yōu)化等方式解決,而硬件成本越來越低,但人力成本會越來越高,所以重點關(guān)注提高人的勞動效率,而不是機器運算效率,也符合商業(yè)規(guī)律。所以我們不僅解放網(wǎng)易的程序員,也要通過網(wǎng)易云解放別人家的程序員。
  談到“共創(chuàng)云上精彩世界”,未來還要做哪些事情?
  汪源:網(wǎng)易云不同于一些典型的IaaS云,是有很多場景化的能力的。要把網(wǎng)易云做好,讓這些場景化的能力落到實處,更加需要和合作伙伴一起開拓市場。這些典型的場景化能力,可以集成到合作伙伴面向某個業(yè)務(wù)的解決方案中去。通過場景化的能力跟合作伙伴之間有一個集成的關(guān)系,形成網(wǎng)易云的一個生態(tài)構(gòu)建,最終獲得市場成功。生態(tài)不是我們獨家的想法,但我們更加強調(diào)生態(tài)中我們不尋求主導(dǎo)地位。我們的產(chǎn)品線和網(wǎng)易找業(yè)務(wù)場景、找應(yīng)用的風格一脈相承,自然而然形成一種格局,未來會越來越強調(diào)這種格局,通過比較擅長的場景化能力輸出,來實現(xiàn)網(wǎng)易云業(yè)務(wù)的成長。
  大數(shù)據(jù)方面也可以做類似的事情。比如敏捷BI工具網(wǎng)易有數(shù),我們正在致力于讓它能夠和不同行業(yè)的集成商、軟件提供商做一個很好的集成,讓數(shù)據(jù)可視化能力可以集成到各個面向業(yè)務(wù)的解決方案中去,因為網(wǎng)易不可能把所有行業(yè)解決方案都做出來,也沒有必要做,關(guān)鍵是把核心敏捷BI平臺做好,之后就跟很多生態(tài)合作伙伴來合作。

專題