中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

您當(dāng)前的位置是:  首頁(yè) > 資訊 > 文章精選 >
 首頁(yè) > 資訊 > 文章精選 >

自然語(yǔ)言處理:讓機(jī)器善解人意

2019-04-26 11:26:31   作者:   來(lái)源:《營(yíng)贏》   評(píng)論:0  點(diǎn)擊:


  華為諾亞方舟實(shí)驗(yàn)室語(yǔ)音語(yǔ)義首席科學(xué)家劉群指出,隨著人類進(jìn)入智能時(shí)代,智能設(shè)備和數(shù)據(jù)量都空前增長(zhǎng),通過語(yǔ)音和語(yǔ)言進(jìn)行人機(jī)交互的需求也在急速增長(zhǎng),語(yǔ)音和自然語(yǔ)言處理領(lǐng)域?qū)⒂楷F(xiàn)更多有影響力的前沿研究和技術(shù)創(chuàng)新。
  自然語(yǔ)言是人類智慧的獨(dú)特表現(xiàn)。自然語(yǔ)言處理(Natural Language Processing,NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域的一個(gè)重要研究方向,旨在研究人機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的理論和方法。根據(jù)Gartner發(fā)布的《2018世界人工智能產(chǎn)業(yè)發(fā)展藍(lán)皮書》,到2021年,全球自然語(yǔ)言處理市場(chǎng)的價(jià)值預(yù)計(jì)會(huì)達(dá)到160億美元。
  自然語(yǔ)言處理是AI皇冠上的明珠
  《營(yíng)贏》:從整個(gè)科學(xué)領(lǐng)域的角度來(lái)考慮,您覺得自然語(yǔ)言處理的意義是什么?
  劉群:語(yǔ)言學(xué)是一門古老的學(xué)科,人類為什么會(huì)有語(yǔ)言?動(dòng)物為什么沒有發(fā)展出人類這樣復(fù)雜高級(jí)的語(yǔ)言?語(yǔ)言機(jī)制是人類大腦中先天就有的,還是像其他能力一樣后天獲得的?語(yǔ)言是如何形成和發(fā)展的?語(yǔ)言本身服從一些怎樣的規(guī)律?無(wú)數(shù)的不解之謎等待著科學(xué)家來(lái)回答。
  計(jì)算語(yǔ)言學(xué),或者自然語(yǔ)言處理,既是一門科學(xué),也是一門應(yīng)用技術(shù)。從科學(xué)角度說,像其他計(jì)算機(jī)科學(xué)一樣,它是一種從模擬角度來(lái)研究語(yǔ)言的學(xué)科。自然語(yǔ)言處理并不直接研究人類語(yǔ)言的機(jī)制,而是試圖讓機(jī)器去模擬人類的語(yǔ)言能力。如果說計(jì)算機(jī)擁有了像人一樣的語(yǔ)言能力,從某種角度,我們就可以說,我們理解了人類的語(yǔ)言機(jī)制。由于理解自然語(yǔ)言需要關(guān)于外在世界的廣泛知識(shí)以及運(yùn)用操作這些知識(shí)的能力,所以自然語(yǔ)言處理是一個(gè)人工智能完備(AI-complete)的問題,并被視為人工智能的核心問題之一。
  《營(yíng)贏》:有人認(rèn)為“自然語(yǔ)言處理應(yīng)該是實(shí)現(xiàn)通用人工智能的關(guān)鍵挑戰(zhàn),得語(yǔ)言者得天下”,您怎么看?
  劉群:這句話有一定的道理。有人把人的智能分為三大類:感知智能、運(yùn)動(dòng)智能和認(rèn)知智能。
  第一,感知智能,包括聽覺、視覺、觸覺等;最近兩年,深度學(xué)習(xí)的引入大幅度提高了語(yǔ)音和圖像的識(shí)別率,所以計(jì)算機(jī)在感知智能層面已經(jīng)做得相當(dāng)不錯(cuò)了,在一些典型的測(cè)試下,達(dá)到或者超過了人類的平均水平。
  第二,運(yùn)動(dòng)智能,指能夠在復(fù)雜的環(huán)境中自由行動(dòng)的能力。運(yùn)動(dòng)智能是機(jī)器人研究的核心問題之一。
  第三,認(rèn)知智能屬于最高級(jí)的智能活動(dòng)。動(dòng)物也具有感知智能和運(yùn)動(dòng)智能,但在認(rèn)知智能方面,卻明顯低于人類。認(rèn)知智能是包括理解、運(yùn)用語(yǔ)言的能力,掌握知識(shí)、運(yùn)用知識(shí)的能力,以及在語(yǔ)言和知識(shí)基礎(chǔ)上的推理、規(guī)劃和決策能力。認(rèn)知智能中最基礎(chǔ)也是最重要的部分就是語(yǔ)言智能,研究語(yǔ)言智能的學(xué)科就是自然語(yǔ)言處理。
  自然語(yǔ)言處理的研究對(duì)象是人類語(yǔ)言,如詞語(yǔ)、短語(yǔ)、句子、篇章等。通過對(duì)這些語(yǔ)言單位的分析,我們不僅希望理解語(yǔ)言所表達(dá)的字面含義,還希望能理解說話人所表達(dá)的情感,以及說話人通過語(yǔ)言所傳達(dá)的意圖。沒有成功的自然語(yǔ)言處理,就不會(huì)有真正的認(rèn)知智能。
  自然語(yǔ)言理解和處理也是人工智能中最難的部分。比如一幅圖像,改變像素,或者一個(gè)局部,對(duì)整個(gè)圖像的內(nèi)容影響并不太大。但文字就不一樣了,很多情況下,一句話中改變一個(gè)字,意思會(huì)完全不一樣。
  很多人工智能/機(jī)器學(xué)習(xí)技術(shù),在圖像識(shí)別領(lǐng)域,已經(jīng)獲得了很大的成功,但在自然語(yǔ)言處理領(lǐng)域,還處于起步的階段。比如說,風(fēng)格的生成。現(xiàn)在人們很容易把一幅畫轉(zhuǎn)變成梵高的風(fēng)格,但要把一段話轉(zhuǎn)換成莎士比亞風(fēng)格,還沒有技術(shù)能夠做得很好。
  所以,有些學(xué)者把自然語(yǔ)言處理稱為“人工智能皇冠上的明珠”,是很有道理的,我非常認(rèn)同這種說法。
  自然語(yǔ)言處理的賽道
  《營(yíng)贏》:您認(rèn)為目前自然語(yǔ)言處理面臨的最大問題是什么?
  劉群:我認(rèn)為自然語(yǔ)言處理今后面臨的主要問題是兩個(gè)。
  一是語(yǔ)義理解,或者說知識(shí)的學(xué)習(xí),或常識(shí)的學(xué)習(xí)問題。這是自然語(yǔ)言處理技術(shù)如何變得更“深”的問題。盡管常識(shí)的理解對(duì)人類來(lái)說不是問題,但是它卻很難被教給機(jī)器。比如我們可以對(duì)手機(jī)助手說“查找附近的餐館”,手機(jī)就會(huì)在地圖上顯示出附近餐館的位置。但你如果說“我餓了”,手機(jī)助手可能就無(wú)動(dòng)于衷,因?yàn)樗狈?ldquo;餓了需要就餐”這樣的常識(shí),除非手機(jī)設(shè)計(jì)者把這種常識(shí)灌入到了這個(gè)系統(tǒng)中。但大量的這種常識(shí)都潛藏在我們意識(shí)的深處,AI系統(tǒng)的設(shè)計(jì)者幾乎不可能把所有這樣的常識(shí)都總結(jié)出來(lái),并灌入到系統(tǒng)中。
  二是低資源問題。所謂無(wú)監(jiān)督學(xué)習(xí)、Zero-shot學(xué)習(xí)、Few-shot學(xué)習(xí)、元學(xué)習(xí)、遷移學(xué)習(xí)等技術(shù),本質(zhì)上都是為了解決低資源問題。面對(duì)標(biāo)注數(shù)據(jù)資源貧乏的問題,譬如小語(yǔ)種的機(jī)器翻譯、特定領(lǐng)域?qū)υ捪到y(tǒng)、客服系統(tǒng)、多輪問答系統(tǒng)等,自然語(yǔ)言處理尚無(wú)良策。這類問題統(tǒng)稱為低資源的自然語(yǔ)言處理問題。對(duì)這類問題,我們除了設(shè)法引入領(lǐng)域知識(shí)(詞典、規(guī)則)以增強(qiáng)數(shù)據(jù)能力之外,還可以基于主動(dòng)學(xué)習(xí)的方法來(lái)增加更多的人工標(biāo)注數(shù)據(jù),以及采用無(wú)監(jiān)督和半監(jiān)督的方法來(lái)利用未標(biāo)注數(shù)據(jù),或者采用多任務(wù)學(xué)習(xí)的方法來(lái)使用其他任務(wù),甚至其他語(yǔ)言的信息,還可以使用遷移學(xué)習(xí)的方法來(lái)利用其他的模型。這是自然語(yǔ)言處理技術(shù)如何變得更“廣”的問題。
  《營(yíng)贏》:過去十年,自然語(yǔ)言處理領(lǐng)域影響最深遠(yuǎn)的研究是什么?
  劉群:答案很明確,就是深度學(xué)習(xí)技術(shù)的引入。
  基于深層神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法從根本上改變了自然語(yǔ)言處理技術(shù)的面貌,把自然語(yǔ)言處理問題的定義和求解從離散的符號(hào)域搬到了連續(xù)的數(shù)值域,導(dǎo)致整個(gè)問題的定義和所使用的數(shù)學(xué)工具與以前完全不同,極大地促進(jìn)了自然語(yǔ)言處理研究的發(fā)展。
  在深度學(xué)習(xí)技術(shù)引入自然語(yǔ)言處理之前,自然語(yǔ)言處理所使用的數(shù)學(xué)工具跟語(yǔ)音、圖像、視頻處理所使用的數(shù)學(xué)工具截然不同,這些不同模態(tài)之間的信息流動(dòng)存在巨大的壁壘。而深度學(xué)習(xí)的應(yīng)用,把自然語(yǔ)言處理和語(yǔ)音、圖像、視頻處理所使用的數(shù)學(xué)工具統(tǒng)一起來(lái)了,從而打破了這些不同模態(tài)信息之間的壁壘,使得多模態(tài)信息的處理和融合成為可能。
  總之,深度學(xué)習(xí)的應(yīng)用,使得自然語(yǔ)言處理達(dá)到了前所未有的水平,也使得自然語(yǔ)言處理應(yīng)用的范圍大大擴(kuò)展。可以說,自然語(yǔ)言處理的春天已經(jīng)來(lái)臨。
  《營(yíng)贏》:自然語(yǔ)言處理對(duì)框架乃至硬件層面提出了哪些獨(dú)特的需求呢?
  劉群:AI研究對(duì)硬件的需求是無(wú)止境的?梢哉f,貧窮限制了想象力,硬件限制了模型。只有在更好的硬件條件下,科學(xué)家才能嘗試更復(fù)雜的模型,才能發(fā)展出更新更好的方法。
  我不覺得自然語(yǔ)言處理對(duì)框架和硬件有獨(dú)特的需求,自然語(yǔ)言處理的需求跟其他AI研究的需求應(yīng)該是類似的,更多的內(nèi)存、更高的帶寬、更多的并行、更高的速度,永遠(yuǎn)都是需求的。有了這些,針對(duì)自然語(yǔ)言處理問題做一些特定的優(yōu)化,并不是太大的問題。
  《營(yíng)贏》:2018年,學(xué)術(shù)界有哪些新的方法或者趨勢(shì),讓您覺得會(huì)對(duì)自然語(yǔ)言處理的應(yīng)用產(chǎn)生新的影響?
  劉群:2018年自然語(yǔ)言處理研究領(lǐng)域最令人驚艷的成果是預(yù)訓(xùn)練語(yǔ)言模型,這包括基于RNN的Elmo和基于Transformer的GPT和Bert。預(yù)訓(xùn)練語(yǔ)言模型的成功充分證明了我們可以從海量的無(wú)標(biāo)注文本中學(xué)到大量潛在的知識(shí),而無(wú)需為每一項(xiàng)自然語(yǔ)言處理任務(wù)都標(biāo)注大量的數(shù)據(jù)。
  在應(yīng)用方面,Google演示的Duplex技術(shù)讓人耳目一新。與此同時(shí),國(guó)內(nèi)幾個(gè)公司提供的會(huì)議同聲翻譯技術(shù)也令人印象深刻,語(yǔ)音同傳雖然還有很多錯(cuò)誤,與人類同聲傳譯相比還有很大差距,但其實(shí)用性已經(jīng)毋庸置疑。這項(xiàng)技術(shù)的實(shí)際應(yīng)用在幾年前還難以想象,在這么短時(shí)間內(nèi)就達(dá)到了現(xiàn)在這樣可以初步實(shí)用的水平,真是非常出乎意料。
  華為發(fā)力自然語(yǔ)言處理
  《營(yíng)贏》:華為諾亞方舟實(shí)驗(yàn)室在自然語(yǔ)言處理領(lǐng)域的技術(shù)布局包括哪些?取得了哪些進(jìn)展?
  劉群:華為諾亞方舟實(shí)驗(yàn)室的自然語(yǔ)言處理研究主要包括三個(gè)大的方向:語(yǔ)音技術(shù)、機(jī)器翻譯和對(duì)話技術(shù)。
  諾亞方舟的自然語(yǔ)言處理技術(shù),已經(jīng)開始在華為的各種產(chǎn)品和服務(wù)中獲得廣泛的應(yīng)用。以大家日常使用的華為手機(jī)為例,華為的手機(jī)語(yǔ)音助手就集成了諾亞方舟的語(yǔ)音識(shí)別和對(duì)話技術(shù)。諾亞方舟的機(jī)器翻譯技術(shù)支持了華為內(nèi)部海量的技術(shù)資料的翻譯。諾亞方舟基于知識(shí)圖譜的問答技術(shù)為華為的全球技術(shù)支持系統(tǒng)(GTS),提供了快速準(zhǔn)確地回答復(fù)雜技術(shù)問題的能力。
  諾亞方舟實(shí)驗(yàn)室的自然語(yǔ)言處理在研究方面也取得了突出的成果。我們?cè)谧匀徽Z(yǔ)言文本匹配、對(duì)話生成、神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯方面的研究成果被研究者廣泛引用。在NIPS近五年來(lái)引用最多的50篇論文中就有一篇是我們的論文,在ACL近五年來(lái)應(yīng)用最高的20篇論文中也有我們的一篇論文、引用最高的30篇論文中有我們的3篇論文。
  《營(yíng)贏》:聽覺、視覺結(jié)合的多模態(tài)是否會(huì)是自然語(yǔ)言處理未來(lái)很有前途的研究方向?華為是否已有這方面的研究了?
  劉群:是的。我們已經(jīng)開始在這一領(lǐng)域開展研究了。
  自然語(yǔ)言處理場(chǎng)景應(yīng)用產(chǎn)業(yè)化
  《營(yíng)贏》:自然語(yǔ)言作為人類社會(huì)信息的載體,使得自然語(yǔ)言處理不只是計(jì)算機(jī)科學(xué)的專屬。自然語(yǔ)言處理如何能成為其他領(lǐng)域(如金融、法律、醫(yī)療健康等)的重要支撐技術(shù)?
  劉群:自然語(yǔ)言處理技術(shù)早已深入我們的日常生活。很多人都沒有意識(shí)到,我們每天都在享受自然語(yǔ)言處理技術(shù)提供的便利,比如,拼音輸入法。很多人大概有印象,20年前流行過五筆字型輸入法。但后來(lái),拼音輸入法幾乎完全取代了五筆字型。
  其實(shí)當(dāng)年五筆字型流行的時(shí)候并非沒有拼音輸入法,那時(shí)的拼音輸入法智能程度非常低,用戶需要為每一個(gè)拼音從大量同音字中選擇正確的漢字,聯(lián)想功能也非常弱,輸入速度非常慢。只有到后來(lái)自然語(yǔ)言處理技術(shù)取得了長(zhǎng)足的進(jìn)步,統(tǒng)計(jì)語(yǔ)言模型使得我們能夠?yàn)橐婚L(zhǎng)串的拼音自動(dòng)選擇最可能的漢字序列,才使得拼音輸入法最終取代五筆字型,并占據(jù)了漢字輸入法的主導(dǎo)地位。
  另外,現(xiàn)在的搜索引擎也大量使用了自然語(yǔ)言處理技術(shù)。你在百度或者谷歌搜索“四川的人口”,搜索引擎除了給你一系列相關(guān)的網(wǎng)頁(yè)以外,還會(huì)直接給出一個(gè)具體的答案,這就用到了自然語(yǔ)言問答技術(shù)。
  在金融、法律、醫(yī)療健康等領(lǐng)域,自然語(yǔ)言處理技術(shù)也得到了越來(lái)越廣泛的應(yīng)用。在金融領(lǐng)域,自然語(yǔ)言處理可以為證券投資提供各種分析數(shù)據(jù),如熱點(diǎn)挖掘、輿情分析等,還可以進(jìn)行金融風(fēng)險(xiǎn)分析、欺詐識(shí)別等。在法律領(lǐng)域,自然語(yǔ)言處理可以幫助進(jìn)行案例搜索、判決預(yù)測(cè)、法律文書自動(dòng)生成、法律文本翻譯、智能問答等等。在醫(yī)療健康領(lǐng)域,自然語(yǔ)言處理技術(shù)更是有著廣闊的應(yīng)用前景,如病歷的輔助錄入、醫(yī)學(xué)資料的檢索和分析、輔助診斷等等,F(xiàn)代醫(yī)學(xué)資料浩如煙海,新的醫(yī)學(xué)手段、方法發(fā)展迅猛,沒有任何醫(yī)生和專家能夠掌握所有的醫(yī)學(xué)發(fā)展的動(dòng)態(tài),自然語(yǔ)言處理可以幫助醫(yī)生快速準(zhǔn)確地找到各種疑難病癥最近的研究進(jìn)展,使得病人最快地享受醫(yī)學(xué)技術(shù)進(jìn)步的成果。
  《營(yíng)贏》:自然語(yǔ)言的研究對(duì)普通人有什么影響,會(huì)給我們的生活帶來(lái)什么方便或沖擊?
  劉群:會(huì)讓大家的生活越來(lái)越方便。比如打客服電話,你不用再選擇一大堆的語(yǔ)音菜單。語(yǔ)音助手可以理解你的需求,貼心地幫你完成日常生活中的各種任務(wù)。機(jī)器甚至可以幫你寫報(bào)告、寫詩(shī)、寫情書等等。與此同時(shí),技術(shù)的進(jìn)步也會(huì)給我們的生活帶來(lái)一些沖擊。比如就業(yè)方面,機(jī)器取代人工會(huì)造成一些人失業(yè)。但新技術(shù)的應(yīng)用讓一些職業(yè)消失的同時(shí),又創(chuàng)造出大量新的就業(yè)機(jī)會(huì)。作為個(gè)人應(yīng)該主動(dòng)積極地想辦法去適應(yīng)這種變化,而不是消極等待和抱怨。
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專題

CTI論壇會(huì)員企業(yè)