以下內(nèi)容由思必馳轉(zhuǎn)寫一體機(jī)記錄并轉(zhuǎn)寫。思必馳智能會(huì)議轉(zhuǎn)寫系統(tǒng),自從開(kāi)會(huì)用上它,職場(chǎng)“社畜”早回家!
1、思必馳人工智能語(yǔ)音技術(shù)簡(jiǎn)介
分享環(huán)節(jié)中,思必馳商務(wù)總監(jiān)申曉宇率先為參會(huì)人員介紹思必馳公司概況及主要產(chǎn)品技術(shù)、解決方案。思必馳一直以來(lái)專注于語(yǔ)音交互核心技術(shù)不斷升級(jí)以及AI+行業(yè)的商業(yè)落地,同時(shí)也擁有產(chǎn)業(yè)基金來(lái)孵化不同行業(yè)場(chǎng)景下的商業(yè)化應(yīng)用,以擴(kuò)大思必馳在整個(gè)行業(yè)里的布局。
思必馳目前為合作伙伴提供全渠道的智能服務(wù),主要集中在IoT、智能家居、智能車載、智能電子、機(jī)器人等領(lǐng)域。同時(shí),思必馳業(yè)務(wù)范圍也逐漸覆蓋智慧金融、智慧醫(yī)療、智慧物流、智慧酒店等場(chǎng)景。
目前,在整個(gè)IoT場(chǎng)景及車載場(chǎng)景市場(chǎng)占有率里,思必馳以亮眼數(shù)據(jù)占據(jù)了行業(yè)領(lǐng)先地位;同時(shí),智慧城市、智慧政務(wù)、智能客服等也是思必馳所嘗試的戰(zhàn)略發(fā)展新方向。細(xì)化AI+行業(yè),以AI賦能全行業(yè),是思必馳一直以來(lái)的用心所在。
2、端側(cè)專用芯片——AI算法的理想載體
思必馳全資子公司——深聰智能芯片總監(jiān)查亮則對(duì)思必馳端側(cè)專用AI芯片做出了更詳細(xì)的闡述。
根據(jù)IDC預(yù)測(cè),2021年全球AI生態(tài)市場(chǎng)規(guī)模將超過(guò)520億美金;2021年全球AI生態(tài)系統(tǒng)的發(fā)展態(tài)勢(shì),AI芯片迎來(lái)了新的發(fā)展機(jī)遇及挑戰(zhàn),軟件定義芯片的時(shí)代已經(jīng)來(lái)臨。在傳統(tǒng)通用芯片市場(chǎng)上,芯片可匹配的應(yīng)用場(chǎng)景很多,對(duì)算力要求不高,可以適配多種產(chǎn)品,但是通用性強(qiáng)可能導(dǎo)致芯片的專業(yè)性較弱。此外在市場(chǎng)層面,從最初的產(chǎn)品定義到軟件功能、硬件設(shè)計(jì),及最后的用戶體驗(yàn),能夠給用戶帶來(lái)一套完整芯片方案是當(dāng)前比較剛性的需求。所以軟硬件的結(jié)合,是更符合市場(chǎng)趨勢(shì)的一個(gè)產(chǎn)品方向。
深聰智能自研發(fā)的TH系列芯片作為思必馳語(yǔ)音算法與芯片的完美結(jié)合,令客戶在選擇對(duì)傳統(tǒng)產(chǎn)品進(jìn)行智能化改造時(shí)擁有了更多樣化、更靈活的軟硬一體解決方案。深聰智能第一代芯片TH1520已量產(chǎn)上市并落地諸多案例,下一代芯片在開(kāi)發(fā)中針對(duì)算法、架構(gòu)、物理實(shí)現(xiàn)了IP優(yōu)化,多模態(tài)視覺(jué)識(shí)別也在規(guī)劃中。
3、語(yǔ)音前端信號(hào)處理技術(shù)
在全鏈路語(yǔ)音技術(shù)分享環(huán)節(jié)中,思必馳前端信號(hào)處理負(fù)責(zé)人周強(qiáng)認(rèn)為,語(yǔ)音交互仍面臨著遠(yuǎn)場(chǎng)拾音、多聲道同步采集、回聲消除、去混響、平穩(wěn)噪聲降噪、自動(dòng)目標(biāo)偵聽(tīng)和喚醒、目標(biāo)聲源波達(dá)方向估計(jì)、目標(biāo)聲源波束形成和干擾抑制等諸多聲學(xué)場(chǎng)景挑戰(zhàn)。信號(hào)處理可以提升語(yǔ)音的可懂度和信噪比,用來(lái)提升人人交互和人機(jī)交互的性能。
思必馳在遠(yuǎn)場(chǎng)語(yǔ)音通話、遠(yuǎn)場(chǎng)語(yǔ)音喚醒識(shí)別等方面都有自己的一套處理算法,在不同的系統(tǒng)中做好降噪量和失真的權(quán)衡問(wèn)題也有著比較充足的實(shí)戰(zhàn)經(jīng)驗(yàn)。在談到思必馳所掌握的核心基礎(chǔ)技術(shù)時(shí),周強(qiáng)著重介紹了波束成形技術(shù)及盲源分離技術(shù)的技術(shù)原理及關(guān)鍵指標(biāo)。
技術(shù)終將凝練成產(chǎn)品再系統(tǒng)形成成熟方案,基于過(guò)硬的全鏈路語(yǔ)音技術(shù),周強(qiáng)也簡(jiǎn)要介紹了思必馳的遠(yuǎn)/近場(chǎng)交互方案。近場(chǎng)交互方案多應(yīng)用于智能客服終端、機(jī)器人、自動(dòng)售賣機(jī)等案例中,它采用大陣列近場(chǎng)模型,對(duì)角度和距離進(jìn)行建模,能有效去除范圍外的噪聲干擾。遠(yuǎn)場(chǎng)交互方案則廣泛用于家居場(chǎng)景中,目前思必馳遠(yuǎn)場(chǎng)交互方案配合麥陣方案,可實(shí)現(xiàn)遠(yuǎn)場(chǎng)3~5米識(shí)別率在94%以上。
4、思必馳ASR(++)技術(shù)與平臺(tái)化應(yīng)用
思必馳語(yǔ)音識(shí)別技術(shù)總監(jiān)薛少飛則從語(yǔ)音識(shí)別技術(shù)(ASR)、語(yǔ)音富信息技術(shù)(ASR++)以及語(yǔ)音技術(shù)平臺(tái)化幾個(gè)方向分享了思必馳的技術(shù)和產(chǎn)品思路。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用到語(yǔ)音識(shí)別中由來(lái)已久,最早應(yīng)用在圖像識(shí)別領(lǐng)域,大約在2014年引入到語(yǔ)音識(shí)別領(lǐng)域。利用CNN將整個(gè)語(yǔ)音信號(hào)分析得到的時(shí)頻譜當(dāng)作一張圖像一樣來(lái)處理,采用圖像中廣泛應(yīng)用的深層卷積網(wǎng)絡(luò)對(duì)其進(jìn)行建模;從實(shí)用性上考慮,CNN也比較容易實(shí)現(xiàn)大規(guī)模并行化計(jì)算。在深度學(xué)習(xí)領(lǐng)域,思必馳聯(lián)合實(shí)驗(yàn)室推出極深卷積神經(jīng)網(wǎng)絡(luò)(VDCNN)在識(shí)別魯棒性上展現(xiàn)出巨大的優(yōu)勢(shì)。產(chǎn)學(xué)研一體化之下,思必馳語(yǔ)音識(shí)別準(zhǔn)確率高達(dá)98%,并具有反饋速度快、快速定制、強(qiáng)魯棒性等優(yōu)勢(shì),這得益于思必馳語(yǔ)音算法的行業(yè)前瞻性及先進(jìn)性。
語(yǔ)音識(shí)別支持通用以及包括金融、教育、音視頻等在內(nèi)的領(lǐng)域場(chǎng)景,同時(shí)也提供語(yǔ)音識(shí)別自定制能力,賦能客戶自主優(yōu)化應(yīng)用場(chǎng)景中的識(shí)別體驗(yàn);即使在本地也可以支持普通話、方言以及外語(yǔ)小語(yǔ)種的識(shí)別。而語(yǔ)音副信息技術(shù)則在語(yǔ)音識(shí)別基礎(chǔ)上加上了富信息識(shí)別,例如說(shuō)話人、情緒、年齡、性別等。
目前思必馳語(yǔ)音富信息技術(shù)已落地至IoT、智能客服、金融安全、會(huì)議轉(zhuǎn)寫、國(guó)防安全等場(chǎng)景。作為對(duì)話式AI平臺(tái)型公司,思必馳在語(yǔ)音技術(shù)平臺(tái)化方面也做了很多工作,推出的DUI平臺(tái)可面向物聯(lián)網(wǎng)場(chǎng)景進(jìn)行智能對(duì)話交互的定制化輸出,會(huì)話精靈則作為企業(yè)虛擬機(jī)器人定制平臺(tái),幫助企業(yè)快速定制專屬服務(wù)和解決方案。
5、全雙工及多模態(tài)交互技術(shù)
思必馳全鏈路語(yǔ)音技術(shù)為各行各業(yè)智能交互添磚加瓦的同時(shí),全雙工交互貫穿始終。思必馳對(duì)話組負(fù)責(zé)人樊帥指出,在過(guò)去半雙工狀態(tài)下,用戶的跨領(lǐng)域交互每次交互都需要重新喚醒,而現(xiàn)在,思必馳全雙工技術(shù)方案可實(shí)現(xiàn)一次喚醒,在多個(gè)領(lǐng)域持續(xù)交互,跨領(lǐng)域指代消解。不僅如此,全雙工語(yǔ)音交互可以結(jié)合專業(yè)領(lǐng)域知識(shí)庫(kù)實(shí)現(xiàn)智能語(yǔ)義糾正、支持多領(lǐng)域的模糊信息確認(rèn)、打破沉默主動(dòng)交互、根據(jù)用戶說(shuō)話節(jié)奏和內(nèi)容動(dòng)態(tài)斷句等。
全雙工交互技術(shù)的提升涉及到對(duì)話系統(tǒng)的各個(gè)模塊,不僅各個(gè)模塊的功能性、穩(wěn)定性需要提升,對(duì)各模塊間的配合也提出了更高要求。思必馳專注人性化的智能語(yǔ)音技術(shù),依托DUI平臺(tái),思必馳全雙工與當(dāng)前全鏈路語(yǔ)音技術(shù)全面兼容,客戶可以選用思必馳全鏈路技術(shù)或采用云對(duì)云的方式接入全雙工。
此外,樊帥提到多模態(tài)交互將極大提升人機(jī)交互體驗(yàn),他現(xiàn)場(chǎng)演示了一段視頻,展示多模態(tài)交互中的人臉拒識(shí)可以將非喚醒人的指令過(guò)濾,指令執(zhí)行有條不紊。多模態(tài)交互可讓全雙工交互技術(shù)發(fā)揮更大的能量,配合聲紋識(shí)別、圖像處理等技術(shù),過(guò)濾無(wú)用信息,人機(jī)交互會(huì)變得更加貼合人性,這也是未來(lái)思必馳發(fā)力的方向。
6、語(yǔ)音技術(shù)在IoT場(chǎng)景的應(yīng)用
成立至今,思必馳以AI賦能多種IoT產(chǎn)品,覆蓋了包括音箱、電視、穿戴、白電、故事機(jī)、廚電在內(nèi)的多種IoT設(shè)備,為實(shí)現(xiàn)物聯(lián)網(wǎng)的智慧互聯(lián)而不懈努力。
思必馳IoT產(chǎn)品負(fù)責(zé)人于鵬偉從語(yǔ)音交互流程出發(fā),簡(jiǎn)單系統(tǒng)解釋全鏈路的概念。說(shuō)話人說(shuō)話通過(guò)陣列采集形成原始音頻,進(jìn)入到信號(hào)處理模塊,包括回聲消除、降噪等流程,然后獲得一段相對(duì)純凈的音頻。這時(shí)通過(guò)本地語(yǔ)音識(shí)別進(jìn)入到本地語(yǔ)音播報(bào)并傳達(dá)給說(shuō)話人;或者通過(guò)云端語(yǔ)音識(shí)別進(jìn)入到自然語(yǔ)言理解模塊、對(duì)話管理、自然語(yǔ)言生成,最后再文字轉(zhuǎn)語(yǔ)音傳達(dá)給說(shuō)話人。
基于關(guān)鍵全鏈路語(yǔ)音技術(shù),思必馳的近/遠(yuǎn)場(chǎng)方案可以滿足智能客服、家居等多樣化場(chǎng)景需求。思必馳算法技術(shù)中的就近喚醒、聲紋識(shí)別、方言識(shí)別、通話降噪、圖像與多模態(tài)皆達(dá)到行業(yè)領(lǐng)先水平;此外,思必馳算法模型也已通過(guò)亞馬遜驗(yàn)證標(biāo)準(zhǔn)測(cè)試,成為亞馬遜前端軟件推薦供應(yīng)商,可協(xié)助合作客戶通過(guò)AmazonAlexa實(shí)驗(yàn)室聲學(xué)認(rèn)證測(cè)試,將來(lái)可為本土廠商發(fā)展海外市場(chǎng)、優(yōu)化多語(yǔ)言模型提供強(qiáng)大技術(shù)支持。
7、聲動(dòng)無(wú)限共話未來(lái)
美的科技月活動(dòng)始于1996年,在美的集團(tuán)內(nèi)部素有“科研奧斯卡”之稱,一直被美的視為科技創(chuàng)新實(shí)力和科技人員風(fēng)采的內(nèi)部展示與交流平臺(tái)。
思必馳與美的集團(tuán)的合作由來(lái)已久,近日更是與美的集團(tuán)共同創(chuàng)立“AI聯(lián)合研究實(shí)驗(yàn)室”,旨在攜手打造全鏈路智能家居生態(tài)平臺(tái)。未來(lái),雙方也將在創(chuàng)新研發(fā)、產(chǎn)品更新、市場(chǎng)拓展等方面不斷深化合作,共建雙贏格局,推進(jìn)未來(lái)設(shè)備數(shù)字化與智能化升級(jí)。