隨著越來(lái)越多的機(jī)器人產(chǎn)品走進(jìn)家庭,人工智能領(lǐng)域也不再是人們心中太過(guò)遙遠(yuǎn)的事物,人們對(duì)智能產(chǎn)品的要求也隨之提升,作為實(shí)現(xiàn)人工智能與用戶(hù)場(chǎng)景交互功能服務(wù)的關(guān)鍵因素,語(yǔ)音識(shí)別、人臉識(shí)別的技術(shù)發(fā)展水平尤為重要。
千家智客有幸邀請(qǐng)捷通華聲董事長(zhǎng)張連毅先生,和大家探討分享關(guān)于智能家居、人工智能產(chǎn)業(yè)發(fā)展趨勢(shì)和未來(lái)語(yǔ)音交互技術(shù)方向。
智能終端交互應(yīng)用:家電、車(chē)載、機(jī)器人三大場(chǎng)景
智能終端交互應(yīng)用:家電、車(chē)載、機(jī)器人三大場(chǎng)景
與機(jī)器進(jìn)行交流,讓機(jī)器明白用戶(hù)在說(shuō)什么,這是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情,有人曾把語(yǔ)音識(shí)別形象得比做為“機(jī)器的聽(tīng)覺(jué)系統(tǒng)”。簡(jiǎn)單來(lái)說(shuō),語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)等方面。
捷通華聲董事長(zhǎng)張連毅
(北京捷通華聲科技股份有限公司董事長(zhǎng)、清華企業(yè)家協(xié)會(huì)成員、清華校友人工智能聯(lián)盟秘書(shū)長(zhǎng)、北京軟件行業(yè)協(xié)會(huì)理事。1989年畢業(yè)于清華大學(xué)。2000年與國(guó)內(nèi)多位頂尖人工智能技術(shù)專(zhuān)家聯(lián)合創(chuàng)建北京捷通華聲科技股份有限公司,致力于人工智能產(chǎn)業(yè)發(fā)展。)
作為在人工智能行業(yè)有著多年技術(shù)研發(fā)和創(chuàng)業(yè)經(jīng)驗(yàn)的“清華大咖”,張連毅認(rèn)為,人工智能在智能終端交互方面的應(yīng)用將聚焦在家電、車(chē)載和機(jī)器人三個(gè)場(chǎng)景中。在對(duì)應(yīng)的產(chǎn)品設(shè)計(jì)方向上注重兩點(diǎn):
一是落地用戶(hù)實(shí)際使用習(xí)慣,打造出具有創(chuàng)新性、用戶(hù)體驗(yàn)良好的產(chǎn)品;
二是注重家電、芯片廠商的合作,在幫助他們將遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成、人臉識(shí)別等人工智能技術(shù)與產(chǎn)品充分結(jié)合的同時(shí),保證產(chǎn)品高性?xún)r(jià)比,從而實(shí)現(xiàn)雙贏。
操作太繁瑣,識(shí)別環(huán)境受限制等,語(yǔ)音識(shí)別交互產(chǎn)品目前的用戶(hù)口碑仍是有許多的不足之處,要如何實(shí)現(xiàn)落地用戶(hù)使用習(xí)慣?張連毅表示,比如在電視的應(yīng)用上,考慮到目前中國(guó)用戶(hù)在和電視語(yǔ)音交互時(shí),會(huì)有個(gè)適應(yīng)過(guò)程,不會(huì)突然拋開(kāi)手持遙控器,于是推出了全球第一款遠(yuǎn)場(chǎng)語(yǔ)音遙控器。用戶(hù)既可以手持遙控器操作,也可以將遙控器放在遠(yuǎn)處,背靠沙發(fā),進(jìn)行遠(yuǎn)距離語(yǔ)音遙控,從而實(shí)現(xiàn)觀看全程的語(yǔ)音交互體驗(yàn)。
他強(qiáng)調(diào),技術(shù)要為產(chǎn)品服務(wù),產(chǎn)品要為用戶(hù)體驗(yàn)服務(wù),而不是凌駕于用戶(hù)體驗(yàn)之上,強(qiáng)迫用戶(hù)接受并使用新技術(shù),人工智能也不例外。
語(yǔ)音交互解決方案:全鏈條產(chǎn)品服務(wù)
人與智能產(chǎn)品交互的方面,語(yǔ)音識(shí)別、語(yǔ)義理解等技術(shù)一直尋求更多的突破,以滿(mǎn)足用戶(hù)對(duì)準(zhǔn)確性,智能化,方便性的需求。
張連毅表示,想要實(shí)現(xiàn)直對(duì)著電視、空調(diào)、車(chē)載設(shè)備說(shuō)話就能進(jìn)行交互控制,在語(yǔ)音識(shí)別上會(huì)面臨一個(gè)大問(wèn)題:在實(shí)際環(huán)境下,類(lèi)似場(chǎng)景的對(duì)話距離都在一兩米以上,周?chē)h(huán)境噪音會(huì)對(duì)識(shí)別率有著嚴(yán)重影響。于是,針對(duì)遠(yuǎn)距離語(yǔ)音交互推出的麥克風(fēng)陣列技術(shù)成了解決問(wèn)題的關(guān)鍵。
人有靈敏的雙耳,但機(jī)器沒(méi)有。而靈云麥克風(fēng)陣列就好比給機(jī)器裝上了“靈動(dòng)雙耳”,可以讓電視、空調(diào)等智能設(shè)備清晰聽(tīng)到用戶(hù)的聲音,另外通過(guò)回聲消除技術(shù),讓設(shè)備即便在播放聲音時(shí),也可隨意打斷進(jìn)行語(yǔ)音交互,極大地改善了人機(jī)交互體驗(yàn);線性、環(huán)形的麥克風(fēng)陣列布局,給了設(shè)備“雙耳”定位聲源的功能,達(dá)到準(zhǔn)確操作的目的。
麥克風(fēng)陣列技術(shù)作為物聯(lián)網(wǎng)時(shí)代語(yǔ)音交互的入口,和語(yǔ)音喚醒技術(shù)一樣,是人機(jī)交互的第一步。結(jié)合靈云麥克風(fēng)陣列技術(shù)、語(yǔ)音喚醒、語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成等人工智能技術(shù),已經(jīng)形成了全鏈條的語(yǔ)音交互產(chǎn)品,可以幫助芯片廠家、家電廠家、汽車(chē)及配件廠家持續(xù)優(yōu)化產(chǎn)品用戶(hù)體驗(yàn)。
智能音箱將成為智能家居新交互入口?
最近谷歌、微軟都推出了智能語(yǔ)音產(chǎn)品來(lái)?yè)屨贾悄芗揖尤肟,張連毅認(rèn)為,不論智能家居的中控是機(jī)器人、是音箱,還是其他設(shè)備,語(yǔ)音交互始終是會(huì)是第一入口,也是未來(lái)的用戶(hù)趨勢(shì)。設(shè)備是載體,核心是語(yǔ)音交互的能力。
但他也表示,目前這些產(chǎn)品要想實(shí)現(xiàn)真正的“人機(jī)交互”,還要取決于是否符合中國(guó)人的使用習(xí)慣。在中國(guó),語(yǔ)音音箱類(lèi)的產(chǎn)品,與機(jī)器人的對(duì)話等等,大多是抱著新奇的態(tài)度,都還沒(méi)有成為國(guó)人的主流使用習(xí)慣。
他認(rèn)為真正的“人機(jī)交互”是讓人與設(shè)備溝通像人與人交流一樣簡(jiǎn)單自然。除了更準(zhǔn)確的語(yǔ)音識(shí)別技術(shù),更自然的語(yǔ)音合成技術(shù),設(shè)備還需擁有更接近人思維方式的強(qiáng)大語(yǔ)義理解能力。捷通華聲研發(fā)的的語(yǔ)音識(shí)別技術(shù)準(zhǔn)確率已經(jīng)超過(guò)97%,語(yǔ)音合成也已經(jīng)擁有幾十種音色,并且可以模擬人類(lèi)的情緒,語(yǔ)義理解也能實(shí)現(xiàn)復(fù)雜的多輪對(duì)話,解決了大部分場(chǎng)景下人機(jī)遠(yuǎn)距離交流的問(wèn)題。
他認(rèn)為真正的“人機(jī)交互”是讓人與設(shè)備溝通像人與人交流一樣簡(jiǎn)單自然。除了更準(zhǔn)確的語(yǔ)音識(shí)別技術(shù),更自然的語(yǔ)音合成技術(shù),設(shè)備還需擁有更接近人思維方式的強(qiáng)大語(yǔ)義理解能力。捷通華聲研發(fā)的的語(yǔ)音識(shí)別技術(shù)準(zhǔn)確率已經(jīng)超過(guò)97%,語(yǔ)音合成也已經(jīng)擁有幾十種音色,并且可以模擬人類(lèi)的情緒,語(yǔ)義理解也能實(shí)現(xiàn)復(fù)雜的多輪對(duì)話,解決了大部分場(chǎng)景下人機(jī)遠(yuǎn)距離交流的問(wèn)題。
不過(guò)現(xiàn)有技術(shù)仍面臨很多客觀現(xiàn)實(shí)問(wèn)題的考驗(yàn),行業(yè)也要理性看待,不過(guò)分高估現(xiàn)有技術(shù),距離實(shí)現(xiàn)完全自由的“人機(jī)交互”還任重道遠(yuǎn)。
平臺(tái)如何真正開(kāi)放:全技術(shù)整合+新服務(wù)模式
目前許多平臺(tái)推出的智能生態(tài)圈仍處在互不相通的封閉環(huán)境,如何保證平臺(tái)的開(kāi)放性和穩(wěn)定性和聯(lián)通性,成為行業(yè)的一大關(guān)注點(diǎn)。早在2011年,捷通華聲推出國(guó)內(nèi)最大最全的人工智能開(kāi)放平臺(tái)--靈云(aicloud.com)。在2015年,更推出靈云全智能能力平臺(tái),全面進(jìn)軍企業(yè)級(jí)市場(chǎng),致力于讓每一家企業(yè)都擁有人工智能技術(shù)。
張連毅表示,靈云平臺(tái)的核心競(jìng)爭(zhēng)力,有三大方面,第一是開(kāi)放性。在于不論是哪個(gè)生態(tài)圈,都會(huì)全面開(kāi)放,為其提供全方位的AI技術(shù)和支持。靈云各項(xiàng)AI能力提供離線、在線兩種服務(wù)模式,也提供公有云與私有云兩種服務(wù)模式讓用戶(hù)選擇,平臺(tái)目標(biāo)幫助用戶(hù)使用AI能力,即不想“搶奪”最終用戶(hù),也不會(huì)去“搶奪”數(shù)據(jù),僅這兩點(diǎn)就保證了靈云平臺(tái)的全面開(kāi)放,消除了很多客戶(hù)的“戒備”心理。
第二是技術(shù)全面整合。區(qū)別于其他單一技術(shù)開(kāi)放的平臺(tái),靈云平臺(tái)真正意義上做到了各項(xiàng)AI技術(shù)的整合與開(kāi)放。在靈云平臺(tái),開(kāi)發(fā)者可以下載使用靈云語(yǔ)音交互、語(yǔ)義理解、人臉識(shí)別、OCR識(shí)別等多種SDK,也可獲取像靈云種子這樣將語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成技術(shù)整合在一起的融合型SDK,簡(jiǎn)單地說(shuō)靈云“幾乎什么都有”,能夠滿(mǎn)足大部分用戶(hù)對(duì)多種AI能力的需求。
第三是強(qiáng)大的穩(wěn)定性。靈云平臺(tái)采用了先進(jìn)的多節(jié)點(diǎn)分布式服務(wù)部署,并應(yīng)用了國(guó)內(nèi)領(lǐng)先的自動(dòng)化運(yùn)維技術(shù),支持服務(wù)的高并發(fā)請(qǐng)求和高速度響應(yīng),確保了平臺(tái)的穩(wěn)定性。
人工智能行業(yè)發(fā)展:未來(lái)5年定格局
人工智能行業(yè)發(fā)展:未來(lái)5年定格局
目前全球資本市場(chǎng)迎來(lái)“寒冬”,各大領(lǐng)域的巨頭企業(yè)紛紛找尋新型模式進(jìn)行市場(chǎng)拓展和生存空間,To-B還是To-C,哪個(gè)商業(yè)模式是人工智能企業(yè)目前最倚重的?
據(jù)張連毅透露,捷通華聲的商業(yè)模式以B端為主,C端為輔,有面向普通大眾提供圖像、語(yǔ)音云服務(wù)、靈云輸入法、維漢友誼橋這樣的C端產(chǎn)品,目前更側(cè)重在B端,尤其是最近火熱的智能家居、智能家電、智能車(chē)載等領(lǐng)域,已經(jīng)有了近百家合作客戶(hù)。未來(lái)將致力與更多市場(chǎng)資源廣泛或?qū)W⑸罡骋活I(lǐng)域,擁有較深行業(yè)資源,或擁有一線城市、省會(huì)級(jí)城市地域資源的伙伴建立戰(zhàn)略合作,共同分享人工智能產(chǎn)業(yè)機(jī)遇。
張連毅表示,從2011年到2016年上半年可以說(shuō)是中國(guó)人工智能行業(yè)啟蒙的5年,現(xiàn)階段很多客戶(hù)都是好奇、蹭熱度的姿態(tài)而來(lái),單一領(lǐng)域的需求很分散,還沒(méi)有形成剛需,人工智能產(chǎn)業(yè)發(fā)展比較稚嫩。而接下來(lái)的3-5年,人工智能產(chǎn)業(yè)格局就會(huì)逐漸形成,甚至還或許誕生類(lèi)似BAT一樣的巨頭。
人工智能是一個(gè)以技術(shù)驅(qū)動(dòng)發(fā)展的行業(yè),也經(jīng)歷了最初在中國(guó)的生根發(fā)芽、狂風(fēng)暴雨到現(xiàn)在的蓬勃生機(jī)。人工智能企業(yè)創(chuàng)業(yè)很困難,捷通華聲之所以能夠堅(jiān)持下來(lái),除了在技術(shù)研發(fā)有著核心優(yōu)勢(shì)之外,也是因?yàn)閳?jiān)信人工智能將為大眾創(chuàng)造出一番美好新天地。
【關(guān)于捷通華聲】
北京捷通華聲科技股份有限公司成立于2000年,是一家專(zhuān)注于智能語(yǔ)音、智能圖像、生物特征識(shí)別、智能語(yǔ)義等全方位人工智能技術(shù)研究與應(yīng)用,致力于讓機(jī)器“能說(shuō)會(huì)聽(tīng)、能寫(xiě)會(huì)看、能辨音、會(huì)認(rèn)人、能思考、會(huì)判斷”的高新技術(shù)企業(yè)。
2011年捷通華聲推出了國(guó)內(nèi)外第一個(gè)全方位人工智能開(kāi)放平臺(tái)—靈云(AIcloud。com)。2013年,清華產(chǎn)業(yè)基金投資捷通華聲,共同創(chuàng)建“清華靈云人工智能研究中心”,致力于實(shí)現(xiàn)“靈云科技源自清華服務(wù)全球”的戰(zhàn)略發(fā)展目標(biāo)。2016年登陸新三板,成為國(guó)內(nèi)人工智能板塊領(lǐng)軍企業(yè)。