CTI論壇(ctiforum.com)(編譯/老秦):在2019年,語音引擎變得更加復(fù)雜,現(xiàn)在能夠支持其他語言和方言,但也還有更多工作要做。這些解決方案,包括語音到文本,文本到語音,語音識別,語音命令和控制,語音搜索,轉(zhuǎn)錄,翻譯以及相關(guān)活動的技術(shù),現(xiàn)在在識別單詞方面做得更好,但具有諷刺意味的是,這種能力并不是用戶最終想要的。相反,他們需要可以像人一樣對它們做出反應(yīng)的系統(tǒng)。但是,對于供應(yīng)商而言,實現(xiàn)該目標仍然遙遙無期。
年度回顧
在2019年添加的新語言和方言中,亞馬遜的Alexa現(xiàn)在支持印地語語音交互。此外,該供應(yīng)商還增強了系統(tǒng)以了解當(dāng)?shù)亓餍姓Z言的變體,例如美國西班牙語和巴西葡萄牙語,從而使更多的消費者可以查看天氣,控制智能家居設(shè)備以及使用亞馬遜品牌的設(shè)備聽音樂。Bose,LG電子和索尼等第三方訪問Alexa語音服務(wù)應(yīng)用程序編程接口(API)來開發(fā)Alexa Skills。
LumenVox還擴展了其系統(tǒng)的支持范圍,以支持本地方言,例如美國,英國澳大利亞人,新西蘭英語和北美西班牙語。
而且由于許多個人和家庭說多種語言,因此Amazon Web Services進一步引入了多語言模式,該模式允許Alexa在兩種語言之間切換。該系統(tǒng)通過識別用戶說出的語音并以相同的語言進行響應(yīng)來自動進行調(diào)整。此功能分為三對可用:美國的英語和西班牙語,印度的印度英語和北印度語以及加拿大的英語和法語。
LumenVox客戶服務(wù)副總裁Jeff Hopper表示,與此類似,LumenVox還添加了一個新的轉(zhuǎn)錄引擎,專門針對無音頻格式。他解釋說:“它可以實時工作,因此[交互式語音響應(yīng)(IVR)]應(yīng)用程序不僅可以接收結(jié)構(gòu)化數(shù)據(jù)或自然語言輸入,還可以處理原始文本。”
但是,對于整個語音行業(yè)來說,更有意義的是人工智能(AI)和深度神經(jīng)網(wǎng)絡(luò)正在開展的工作。人工智能工作已迅速進入主流語音技術(shù),允許更多自然語言,對話交互,并且隨著引擎處理越來越多的語音,機器學(xué)習(xí)使系統(tǒng)的準確性和性能得以提高。
今年,第四代深度神經(jīng)網(wǎng)絡(luò)(DNN)的出現(xiàn)也顯示了語音引擎的進步。它們在輸入和輸出之間具有多層,因此可以使用線性或非線性關(guān)系得出結(jié)論。
Nuance Communications是該領(lǐng)域的領(lǐng)導(dǎo)者,該公司在7月推出了Nuance Lightning Engine,這是一種DNN,結(jié)合了語音生物識別技術(shù)和自然語言理解,可以跨語音渠道提供個性化,人性化的體驗。
展望未來
盡管語音引擎已在許多方面得到了改進,但基礎(chǔ)技術(shù)仍存在很多缺點。根據(jù)Booz,Allen&Hamilton的前專業(yè)人士StephenArnold的說法,當(dāng)今的系統(tǒng)在識別單個單詞方面明顯要好得多,但需要的是能夠在上下文中理解單詞的解決方案。
由于此限制,當(dāng)將語音系統(tǒng)部署為企業(yè)和消費者使用時,它們有時無法正常運行。用戶專注于最終結(jié)果,例如從語音搜索中獲取結(jié)果,但是系統(tǒng)通常無法提供所需的理解水平。因此,根據(jù)普華永道最近的一項調(diào)查,有71%的美國人更愿意與人互動,而不是聊天機器人或其他自動化過程。
供應(yīng)商正在完善他們的系統(tǒng)以彌合這一差距。Google開發(fā)了BERT(來自“變形金剛”的雙向編碼器表示),這是一種語音識別解決方案,旨在連接單詞和更好地理解句子上下文。例如,如果某人正在尋找有關(guān)在另一個國家旅行的信息,則BERT會認識到“去(to)”一詞比“來自(from)”更重要。
類似地,Translate Your World一直在構(gòu)建語音解決方案,以識別對話中的語氣,并且供應(yīng)商發(fā)現(xiàn),各個人的語氣會因情況而異。“最終目標是指導(dǎo)AI翻譯,以便它們在對話的背景下為與個人打交道提供正確的模式,”該公司總裁SueReager解釋說。例如,“shingles”一詞通常是指房屋屋頂上的物品,但在醫(yī)療保健領(lǐng)域,它代表病毒感染。
同樣,交流因群體而異。“我們發(fā)現(xiàn),消費者通常不會像企業(yè)高管那樣講的很清楚。”Reager補充說:“消費者的發(fā)音有時不清楚,他們通常不使用完整的句子。他們的思想缺乏組織,因此有時很難找到固定的模式。”
培訓(xùn)語音引擎以識別和適當(dāng)?shù)貞?yīng)對此類差異是她的公司以及其他多個行業(yè)細分領(lǐng)域?qū)⒃?020年解決的問題。
誰來承擔(dān)當(dāng)前的語音挑戰(zhàn)一直在變化。“試圖翻譯語音變得越來越困難,而且非常昂貴,”Arnold堅持認為。“在過去的日子里,麻省理工學(xué)院機器學(xué)習(xí)實驗室的一些人能夠建立一個商業(yè)系統(tǒng)。但是不做了。”
如今,語音引擎的研究需要大量資金,高技能的數(shù)據(jù)科學(xué)家和龐大的數(shù)據(jù)中心,而這些數(shù)據(jù)中心將擁有巨大的計算處理能力。因此,谷歌,亞馬遜網(wǎng)絡(luò)服務(wù),微軟和IBM等國內(nèi)行業(yè)巨頭正在承擔(dān)許多工作。
在國際上,中國公司,例如百度,也在挑戰(zhàn)這些問題。根據(jù)Arnold的說法,中國供應(yīng)商之所以處于有利地位,是因為它們不受傳統(tǒng)技術(shù)的束縛,可以采用新的方法來解決這些長期存在的問題。
供應(yīng)商在擴展其產(chǎn)品功能方面也取得了進展,因此他們支持更多類型的語音,但是仍需要努力以幫助該技術(shù)將單個單詞置于上下文中,以便系統(tǒng)可以適當(dāng)?shù)仨憫?yīng)。隨著市場的變化,開發(fā)負擔(dān)急劇增加。展望未來,似乎只有財大氣粗的行業(yè)巨頭才能擁有推動語音解決方案前進所需的資源,從而變得更加人性化。
聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
作者:Paul Korzeniowski
原文網(wǎng)址:https://www.speechtechmag.com/Articles/Editorial/Features/The-State-of-Speech-Engines-139107.aspx