中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

 首頁 > 新聞 > 專家觀點(diǎn) >

對(duì)話科大訊飛馬漢君:AIUI將讓智能語音大爆發(fā)?

2016-07-06 13:52:09   作者:   來源:網(wǎng)易科技   評(píng)論:0  點(diǎn)擊:


  今年以來,隨著人工智能和機(jī)器人技術(shù)的發(fā)展,智能語音行業(yè)迎來了一個(gè)爆發(fā)式的增長。最明顯的趨勢(shì)就是,做語義分析的公司越來越多,而且行業(yè)越來越細(xì)分,其中兒童市場(chǎng)和車載市場(chǎng)的語音解決方案也隨之興起。作為國內(nèi)最大的智能語音廠商,科大訊飛發(fā)布了一整套的語音交互解決方案AIUI?拼笥嶏w將AIUI定義為物聯(lián)網(wǎng)時(shí)代的人機(jī)交互標(biāo)準(zhǔn),AIUI集成了科大訊飛在雙全工技術(shù)、麥克風(fēng)陣列技術(shù)、聲紋識(shí)別技術(shù)、方言識(shí)別、語義理解技術(shù)和內(nèi)容服務(wù)等技術(shù)和服務(wù)。該技術(shù)的核心是智能化的多輪對(duì)話管理和上下文理解。
  近日,科大訊飛語音云平臺(tái)的副總經(jīng)理馬漢君接受了網(wǎng)易科技的獨(dú)家專訪。作為AIUI的負(fù)責(zé)人,馬漢君闡述了對(duì)語音、語言、語義的技術(shù)解決方案有著深刻的理解,以及對(duì)國內(nèi)智能語音市場(chǎng)的變化和今年的趨勢(shì)的看法。
\
馬漢君在網(wǎng)易未來科技峰會(huì)上發(fā)言
  以下為采訪實(shí)錄(由網(wǎng)易科技整理):
  關(guān)于AIUI
  網(wǎng)易科技:科大訊飛的AIUI到底是一個(gè)什么樣的項(xiàng)目?怎樣去定位它?
  馬漢君:訊飛希望打造一套語音交互的標(biāo)準(zhǔn),在這套模式中,我們把科大訊飛的語音識(shí)別、對(duì)語音的思考理解貫穿起來,AIUI就是一套軟硬一體的模塊方案。針對(duì)于聊天機(jī)器人,我們可以去做聊天機(jī)器人的場(chǎng)景定制,可以做一些智能家居的服務(wù)的定制。但是不管是怎樣的模式,這些交互的程序,我們會(huì)把它固定下來。這種固定的交互模式比如說,AIUI是隨時(shí)在錄音的,你可以隨時(shí)將它喚醒等等。當(dāng)然,有些特性會(huì)開放,比如語音喚醒詞、視頻通話等等,方便用戶自己定制。
  不管是家庭的機(jī)器人,還是家庭智能設(shè)備,車載智能設(shè)備,AIUI能解決企業(yè)與客戶之間的交互問題。AIUI不是一個(gè)系統(tǒng),而是一套交互的解決方案。
  網(wǎng)易科技:與DingDong平臺(tái)是什么關(guān)系?
  馬漢君:AIUI是一套語音集成的解決方案,DingDong平臺(tái)是從音樂本身的內(nèi)容來做運(yùn)營,從家居廠商的合作去拓展。前者是橫向的方案,后者是縱向的拓展平臺(tái)。
  網(wǎng)易科技:AIUI有沒有集成進(jìn)某些系統(tǒng),比如Android系統(tǒng)的計(jì)劃呢?
  馬漢君:AIUI肯定是要融入到目前的系統(tǒng)上面的,例如Android系統(tǒng)、Windows系統(tǒng)等等,成為系統(tǒng)本身的一部分。
  AIUI對(duì)于硬件的需求,首先是噪音環(huán)境的問題,這一點(diǎn)上就需要硬件上必須有麥克風(fēng)陣列。系統(tǒng)方面,AIUI對(duì)運(yùn)算能力有一定需求,也就是對(duì)CPU和GPU有一定要求。具體的我們會(huì)給出一套方案來,按照我們給出的參考來進(jìn)行硬件設(shè)計(jì),以便更好的進(jìn)行降噪拾音。目前看來,AIUI只支持Android系統(tǒng)。就像游戲引擎對(duì)顯卡的邀請(qǐng),AIUI也會(huì)對(duì)硬件有一定要求。
  訊飛自己的產(chǎn)品會(huì)打造一些標(biāo)桿,比如訊飛與京東合作開發(fā)的DingDong音箱,我們會(huì)把它做成家庭應(yīng)用場(chǎng)景中的標(biāo)桿。在車載交互上也會(huì)與合作伙伴共同開發(fā)打造標(biāo)桿型的產(chǎn)品。在兒童機(jī)器人、家庭機(jī)器人等領(lǐng)域我們會(huì)挑選一個(gè)戰(zhàn)略合作伙伴。在教育領(lǐng)域我們要做全行業(yè)的教育解決方案。而在某些領(lǐng)域我們只作為一個(gè)技術(shù)方案提供方,我們會(huì)把我們的技術(shù)向合作方的合作領(lǐng)域提供。
  網(wǎng)易科技:訊飛會(huì)專注于某些領(lǐng)域?說到與合作伙伴的合作,AIUI如何與他們合作改善交互體驗(yàn)?
  馬漢君:訊飛會(huì)在很多的服務(wù)領(lǐng)域去拓展,在不同的領(lǐng)域有不同的定位。在家庭領(lǐng)域,訊飛與京東合作打造了DingDong音箱,這是一個(gè)標(biāo)桿型的產(chǎn)品。在教育領(lǐng)域,訊飛會(huì)做深度的教育解決方案。在車載交互、機(jī)器人、其他智能硬件上面,訊飛提供底層的技術(shù),通過與合作廠商的合作深耕這一領(lǐng)域。我們是與行業(yè)廠商一起合作來構(gòu)建一個(gè)市場(chǎng)。
  網(wǎng)易科技:說到合作,就會(huì)涉及數(shù)據(jù)的共享。那么訊飛是以一個(gè)什么樣的模式來共享這些數(shù)據(jù)呢?大數(shù)據(jù)時(shí)代,用戶都特別擔(dān)心數(shù)據(jù)隱私的問題,在這方面如何去分配和協(xié)調(diào)?
  馬漢君:關(guān)于合作,訊飛會(huì)關(guān)注一些普適性的數(shù)據(jù)。舉個(gè)例子來說,比如音樂數(shù)據(jù),這個(gè)數(shù)據(jù)不管是在智能家居、機(jī)器人,還是手機(jī)APP上,都有它的價(jià)值。在類似這些普適性的數(shù)據(jù)上,訊飛要做深做透。對(duì)于一些特定的行業(yè)才會(huì)使用的數(shù)據(jù),比如說運(yùn)營商,就需要運(yùn)營商服務(wù)的業(yè)務(wù)留存數(shù)據(jù),這方面我們必須選擇與大的運(yùn)營商進(jìn)行深度合作,運(yùn)營商一定有一些深度的想法,這就需要雙方深度的合作。所以說,特定的行業(yè)更具特定行業(yè)的訴求來具體探討。
  對(duì)于用戶的數(shù)據(jù)來說,訊飛是與合作伙伴共享的。即使有一些用戶數(shù)據(jù)會(huì)留存在訊飛的平臺(tái)上,也不會(huì)提供給第三方,而是會(huì)與合作伙伴共同決定是否進(jìn)行深度開發(fā)。在此前提下,訊飛對(duì)于用戶的數(shù)據(jù)只會(huì)用來做語音的優(yōu)化。比如說訊飛與音樂平臺(tái)合作語音搜歌,那么用戶對(duì)于音樂的喜好這些數(shù)據(jù)要不要進(jìn)一步往電商去探索,需要兩方共同決定。
  關(guān)于智能語音行業(yè)
  網(wǎng)易科技:在語音識(shí)別上,訊飛是不是已經(jīng)足夠完善,還有沒有可以改進(jìn)的空間?
  馬漢君:從語音識(shí)別上看,在發(fā)音相對(duì)標(biāo)準(zhǔn)的情況下,識(shí)別的精準(zhǔn)度已經(jīng)很不錯(cuò)了。但是從實(shí)際交互的層面說,智能語音識(shí)別需要結(jié)合你的實(shí)際情況,甚至要結(jié)合上下文的語境,這個(gè)識(shí)別才能進(jìn)一步的去提升。所以語音識(shí)別與語義理解是分不開的,還有與用戶個(gè)性化數(shù)據(jù)的結(jié)合等方面。
  網(wǎng)易科技:雖然訊飛已經(jīng)是國內(nèi)智能語音領(lǐng)域公認(rèn)的老大,但面對(duì)這么多興起的語義分析廠商,如何面對(duì)未來的行業(yè)競(jìng)爭?
  馬漢君:競(jìng)爭肯定是存在的。今年,做語音識(shí)別的公司沒有增加,但是做語義分析的公司增加了很多。這里有兩個(gè)原因,語音識(shí)別上還是涉及到一些深度領(lǐng)域的知識(shí),技術(shù)門檻比較高,需要技術(shù)沉淀。另外一個(gè)很重要的原因就是深度學(xué)習(xí)之后,將語義分析的門檻降低了很多,通過數(shù)據(jù)、模型、訓(xùn)練三個(gè)步驟,很快能得到一個(gè)不錯(cuò)的細(xì)分領(lǐng)域語義分析解決方案。但是語義這個(gè)東西往深做的時(shí)候,對(duì)你原有的技術(shù)沉淀積累要求很高,而且這個(gè)事情本來就是一個(gè)長跑的競(jìng)爭。我們可以把語義分析這個(gè)事情形容是一個(gè)球隊(duì),當(dāng)門檻降低了以后,很多業(yè)余的比賽是看不出差異性的,只有到了高度協(xié)同和對(duì)抗的時(shí)候才會(huì)顯出更好的專業(yè)性。目前的很多語義公司,他們可能會(huì)專注某一個(gè)領(lǐng)域去做,但是真正到了成熟的時(shí)候,還是要依靠整體的專業(yè)性解決問題。
  網(wǎng)易科技:那自然語言理解是不是從細(xì)分領(lǐng)域入手會(huì)更快的成熟?
  馬漢君:是的。所以訊飛和其他的NLP自然語言理解的公司并不是競(jìng)爭的關(guān)系。大家都會(huì)選一個(gè)具體的領(lǐng)域,在這個(gè)領(lǐng)域中看看誰能最先做透。當(dāng)大家做的領(lǐng)域足夠多,這個(gè)領(lǐng)域才會(huì)慢慢起來。
  訊飛在切蛋糕的時(shí)候,還是聚焦在服務(wù)的需求上。我們可以把智能語音分為兩類,一類是閑聊,另一類是服務(wù)。服務(wù)的需求就是車載導(dǎo)航、打電話、聽音樂、導(dǎo)購咨詢、簡單信息互動(dòng)。
  目前的語義理解,還是以單句的形式,但是語義理解有時(shí)候必須知道你的上下文信息。所以,這方面大家在用深度學(xué)習(xí)來做一些突破。所以我認(rèn)為,對(duì)于NLP來說,大家目前是剛剛找到突破口,還需要快速成長,預(yù)計(jì)在兩三年以后NLP這方面會(huì)有一個(gè)明顯的質(zhì)變。
  網(wǎng)易科技:您之前在網(wǎng)易未來科技峰會(huì)上說“機(jī)器人這個(gè)領(lǐng)域目前是屬于前期擴(kuò)張、快速沉淀的模式”您能否詳細(xì)解釋下這種商業(yè)模式?未來機(jī)器人的發(fā)展方向是什么?
  馬漢君:做機(jī)器人這個(gè)方向是比較明確。舉個(gè)例子來說,大家目前不清楚自己是要做商用服務(wù)還是家庭服務(wù),這是兩個(gè)比較大的不同選擇。如果我面向的是兒童教育,但是在兒童教育領(lǐng)域,到底哪一個(gè)方向會(huì)產(chǎn)生比較清晰的路線,是兒童,還是情感,還是老年陪護(hù),這些有很多公司探索,但是我們并不明白到底哪一塊是最有前景的路。
  那就需要去做前期的擴(kuò)張,然后對(duì)用戶數(shù)據(jù)進(jìn)行快速沉淀分析,然后再?zèng)Q定朝哪個(gè)方向發(fā)展。在沉淀的過程中,訊飛對(duì)合作廠商來說可能更多的是一種助力的角色。更多的是要機(jī)器人廠商去做,找到用戶的剛需等等。但是,在這個(gè)過程中,需要依賴交互的完善以及用戶需求的挖掘。
  關(guān)于語音在兒童市場(chǎng)、車載市場(chǎng)的應(yīng)用
  網(wǎng)易科技:對(duì)于目前討論比較熱的兒童市場(chǎng)、車載市場(chǎng),您怎么看?
  馬漢君:先看兒童市場(chǎng)。兒童市場(chǎng)上玩具的量是很大的,這其中包括可以語音講故事的玩具。所以說,今年兒童市場(chǎng)的趨勢(shì)可能是玩具更加高端化,產(chǎn)品上是玩具機(jī)器人這樣一個(gè)形態(tài),如果找到一個(gè)合理價(jià)格的結(jié)合點(diǎn),這個(gè)市場(chǎng)很快會(huì)出現(xiàn)爆發(fā)。所以說兒童這個(gè)市場(chǎng)還是有很大的空間的,一個(gè)就是娛樂互動(dòng),一個(gè)是早期教育。從中國的家庭環(huán)境上來說,這個(gè)意愿或者是說用戶需求還是蠻大的。但與此同時(shí),這里邊還有很多的問題,一個(gè)就是內(nèi)容,你的機(jī)器人是否能形成體系化的內(nèi)容,是否能吸引兒童的興趣。另外一個(gè)方面在交互上,兒童的挑戰(zhàn)很大,因?yàn)閮和恼Z言表達(dá)不像成人那么清晰。這兩個(gè)方面需要進(jìn)一步的突破。
  在車載市場(chǎng),訊飛也比較重視。目前我們已經(jīng)把訊飛的方案繼承在合作伙伴奇瑞的車上,今年四月份已經(jīng)上市。其實(shí),在車載領(lǐng)域有一個(gè)很大的挑戰(zhàn),就是從語音廠商到車載系統(tǒng)廠商,再到汽車廠商,這個(gè)融合會(huì)很難。訊飛的解決方案是在語音解決方案的基礎(chǔ)上,提供車機(jī)、車載系統(tǒng)的一整套解決方案和汽車廠商合作,這樣我們能把鏈條收到最短。同時(shí),我們也可以按照車場(chǎng)的需求來調(diào)整這個(gè)方案。
  網(wǎng)易科技:那么訊飛在自動(dòng)駕駛上有沒有涉足呢?
  馬漢君:還沒有嘗試自動(dòng)駕駛,因?yàn)槟壳白詣?dòng)駕駛還處于一個(gè)概念性的階段。我們還是提供比較實(shí)用的交互解決方案,比如語音導(dǎo)航,通過全程語音來查詢目的地,可以保證駕駛安全。在此之外,我們會(huì)嘗試一些輔助駕駛的解決方案,而不是直接去研究自動(dòng)駕駛的語音解決方案。
  AIUI就是要樹立行業(yè)標(biāo)桿性的產(chǎn)品,一個(gè)是音樂方面做了DingDong音箱,在車載上也會(huì)與合作廠商共同打造標(biāo)桿,與其進(jìn)行深度合作。
  關(guān)于今年的行業(yè)趨勢(shì)
  網(wǎng)易科技:預(yù)測(cè)一下今年智能語音的發(fā)展?
  馬漢君:我認(rèn)為技術(shù)方面最大的發(fā)展就是突破了單點(diǎn)的能力,從聲學(xué)的遠(yuǎn)場(chǎng)識(shí)別,到語義分析和語義理解都有了很大的進(jìn)步。今年會(huì)呈現(xiàn)一種整體的交互方案。我們提出的問題不會(huì)局限于某一個(gè)識(shí)別的問題,我們會(huì)突出的解決交互的問題。比如,“我想聽,劉德華的歌”,我在說的時(shí)候中間有停頓,如果按照語音識(shí)別的結(jié)果,那可能識(shí)別成兩句話,一句是“我想聽”,一句是“劉德華的歌”,但是要把語音識(shí)別和語義理解結(jié)合在一起的時(shí)候,這兩句話就是一個(gè)含義,而不應(yīng)該拆成兩句話來處理。如果再說“我想聽他最新的歌”,那么這個(gè)“他”如果能從上下文理解的話,也能識(shí)別出來。還有就是在復(fù)雜環(huán)境中,機(jī)器人應(yīng)該聽哪些聲音,哪些聲音應(yīng)該處理?這些都屬于交互場(chǎng)景的問題,這些需要用整體的方案去解決。這就是我認(rèn)為的今年技術(shù)上最大的發(fā)展。
  從行業(yè)上面來說,并不是大家想象的那么樂觀。今年確實(shí)因?yàn)檎Z義交互對(duì)整個(gè)行業(yè)有一個(gè)明顯的提升。所以會(huì)有更多的公司在語義上面去嘗試,是否能深度融合進(jìn)去。但是到底哪一個(gè)領(lǐng)域能夠開花和落地?今年并不能完全展現(xiàn)出來。這個(gè)也需要一到兩年之后,才能看出用戶的趨勢(shì),那個(gè)時(shí)候才能進(jìn)入一個(gè)比較大的量產(chǎn)階段。
 
分享到: 收藏

專題