首頁>>廠商>>交換機(jī)/ACD系統(tǒng)平臺廠商>>IBM>>語音產(chǎn)品ViaVoice

語音識別重在應(yīng)用

2001/11/14

近兩年CPU的發(fā)展很快,語音識別中的算法也日益精湛,兩者有機(jī)地集成在一起后,應(yīng)用的條件就日趨成熟了。

從語音識別技術(shù)的角度來看,目前有3個研究發(fā)展方向,即面向電腦、電話和手機(jī)的應(yīng)用。電腦的語音錄入應(yīng)用是指電腦能夠把人所說的話記錄下來,解決文字輸入的問題;電話的語音識別應(yīng)用是借助通信平臺,實現(xiàn)語音技術(shù)的更廣泛應(yīng)用;手機(jī)的語音識別應(yīng)用是嵌入式的語音識別技術(shù),實現(xiàn)手機(jī)、尋呼機(jī)在移動通信中的語音識別應(yīng)用。據(jù)專業(yè)人士預(yù)測,5~10年以后,上述3個方向?qū)l(fā)生相互融合。

IBM公司在電腦的語音錄入方面取得了重大的突破,Philips則在不斷挑戰(zhàn)手機(jī)的語音識別的難題。而言豐科技所研究的領(lǐng)域?qū)W⒃陔娫挼恼Z音識別和語音合成技術(shù)上。言豐科技希望通過基于通信平臺的語音識別,能夠得到廣泛的、有實際價值的商業(yè)應(yīng)用。

從語音信號的采集方式來看,電腦錄入對語音質(zhì)量的要求比較嚴(yán)格,而電話采集的語音質(zhì)量就比較寬容。電腦錄入使用的是非自然語言,而電話是自然語言。要做好對電話語音的識別,就需要系統(tǒng)能夠?qū)δ信仙伲踔潦菐в幸恍┑胤娇谝舻母鞣N語言進(jìn)行識別。另外,基于通信平臺的語音識別應(yīng)用是有一定范圍的,它所涉及的詞匯量是可以控制的,這一點要比電腦語音錄入容易實現(xiàn)。

在討論了語音識別技術(shù)很多年之后,為什么這個話題在最近又大幅度升溫了呢?言豐科技的梁康忠博士說:“技術(shù)發(fā)展到一定階段時打破了應(yīng)用的瓶頸,從而帶來了應(yīng)用的進(jìn)步。語音識別是一項難度很大的技術(shù),里面的算法非常復(fù)雜,對CPU的要求也非常高,過去應(yīng)用的條件不具備。而近兩年CPU的發(fā)展很快,語音識別中的算法也日益精湛,兩者有機(jī)地集成在一起后,應(yīng)用的條件就日趨成熟了!

語音識別面臨的問題

國外已經(jīng)有了不少較大規(guī)模的語音識別IVR系統(tǒng)或者呼叫中心的應(yīng)用,然而在國內(nèi),雖然有將語音識別和呼叫中心結(jié)合起來的趨勢,但仍沒有多少應(yīng)用。這其中雖然有諸多影響因素,但重要的一點就是漢語語音識別技術(shù)還不夠完善。那么,語音識別技術(shù)要進(jìn)入大規(guī)模商用,還要跨越哪些障礙呢?

1.用戶的獨立性

所謂用戶的獨立性,就是指語音識別軟件能夠識別有不同嗓音和口音的用戶,而無需通過訓(xùn)練軟件來使其識別一個特殊用戶的聲音。目前的許多語音識別軟件,是基于標(biāo)準(zhǔn)的發(fā)音來進(jìn)行識別的; 而實際上,人們說話千差萬別,發(fā)音也各不相同,特別對于有口音的語音來說,更是對語音識別軟件提出了嚴(yán)峻的挑戰(zhàn)。

2.自然語言的能力

有少數(shù)復(fù)雜的語音識別系統(tǒng)使用提示性對話,而這樣的語音識別系統(tǒng)提示用戶,是用一個單詞或記號來回答。根據(jù)專門機(jī)構(gòu)的調(diào)查,多數(shù)人更喜歡用約定俗成的自然語言,而不喜歡使用提示性對話。

3.處理插入的能力

插入的能力是指允許用戶在系統(tǒng)提示時中斷系統(tǒng),但系統(tǒng)依然能知道用戶的請求! 

這點對于實際的應(yīng)用來說有相當(dāng)重要的意義。因為人們在說話時,總是在不自覺地思考,經(jīng)常會打斷語言的連續(xù)性,而插入一些補(bǔ)充性的語言。這樣的語言,在語法上來說經(jīng)常是不正確的,常規(guī)的語音識別系統(tǒng)很難處理這些語音。

4.軟件身份驗證的能力

軟件身份驗證的能力是指根據(jù)用戶的嗓音和語言特點來識別用戶的能力。這在實際中是一個非常有價值的特點,如可用于人事管理中。

語音識別研究現(xiàn)狀

1.語音識別獲得應(yīng)用

伴隨著語音識別技術(shù)的不斷發(fā)展,誕生了全球首套多語種交談式語音識別系統(tǒng)e-talk。這是由言豐科技自主開發(fā)的、全球惟一擁有中英混合語言的識別系統(tǒng),能聽、能講普通話、廣東話和英語,還可以高度適應(yīng)不同的口音,因而可以廣泛適用于不同文化背景的使用者,尤其是中國地區(qū)語言差別較大的廣大用戶。

2.語音合成信息服務(wù)被用戶接受

語音合成技術(shù)把可視的文本信息轉(zhuǎn)化為可聽的聲音信息,其應(yīng)用的經(jīng)濟(jì)效益和社會效益前景良好。尤其對漢語語音合成技術(shù)的應(yīng)用而言,全球有十幾億人使用中文,其市場需求、應(yīng)用前景和經(jīng)濟(jì)效益都是十分有潛力的。

語音技術(shù)已逐漸在電信聲訊信息服務(wù)領(lǐng)域的智能電話查詢系統(tǒng)中展開應(yīng)用,并迅速得到推廣。目前電話高度普及,如果通過最便捷的電話方式就能查詢到所需信息,無疑將給人們的日常生活帶來極大方便。漢語語音合成技術(shù)應(yīng)用到聲訊服務(wù)領(lǐng)域內(nèi),將對現(xiàn)有的電話查詢系統(tǒng)產(chǎn)生革命性的影響。

隨著互聯(lián)網(wǎng)的出現(xiàn)和推廣,在技術(shù)上,語音與互聯(lián)網(wǎng)已能夠成功地結(jié)合。用戶可以通過電話,方便地發(fā)送電子郵件和類似的留言信息,不僅具有傳統(tǒng)的語音信箱功能,還可以將用戶語音以IP的方式廉價地發(fā)送到全球任何一個電腦或電話終端上,大大降低了信息交流的成本。

3.面向?qū)ο蟮恼Z音編碼技術(shù)獲得突破

長期以來,在通信網(wǎng)的發(fā)展中,提高信息傳輸效率是一個關(guān)鍵問題。目前已有兩個途徑可以解決這一問題:一是研究新的調(diào)制方法與技術(shù),來提高信道傳輸信息的比特率,指標(biāo)是每赫茲帶寬所傳送的比特數(shù);二是壓縮信源編碼的比特率,例如標(biāo)準(zhǔn)PCM編碼,對3.4kHz頻帶信號需用64Kbps編碼比特率傳送,而壓縮這一比特率顯然可以提高信道傳送的話路數(shù)。實際上,壓縮語音編碼比特率與話音存儲、語音識別及語音合成等技術(shù)都直接相關(guān)。

4.口語機(jī)器翻譯受到重視

口語翻譯的一個重要目的就是幫助聾啞人與正常人交流。首先,聾啞人要戴上一副特制的手套,計算機(jī)根據(jù)他打出的手語進(jìn)行識別,然后,通過語音合成系統(tǒng)就可以把圖像信息翻譯成語言信息。同時,系統(tǒng)還能夠完成將正常人的語言翻譯成聾啞人的手語。將正常人說的話鍵入計算機(jī),經(jīng)程序分析處理之后,翻譯成有表情、有動作的三維圖像,就可最終達(dá)到聾啞人與正常人之間通過翻譯機(jī)進(jìn)行交流的目的?谡Z翻譯的研究在其他很多方面都有重要價值,如用手勢控制計算機(jī),甚至用手勢導(dǎo)航等。

語音識別技術(shù)進(jìn)入商用

語音技術(shù)開辟了一個巨大的應(yīng)用市場,目前的語音技術(shù)應(yīng)用的程度如何呢?

1.技術(shù)成熟

在技術(shù)方面,英語的語音技術(shù)比漢語的語音技術(shù)的商用程度更廣,實用程度更好。在漢語的語音技術(shù)方面,國內(nèi)的語音合成技術(shù)比較成熟,已經(jīng)達(dá)到了商用的標(biāo)準(zhǔn); 在語音識別方面,已經(jīng)有一些產(chǎn)品開始投入商用,如言豐科技的e-talk產(chǎn)品。

2.廠家眾多

在語音識別方面,有國外的IBM、Philips、Nuance等公司;國內(nèi)的有香港的InfoTalk、捷通等。在語音合成方面,能夠提供產(chǎn)品的公司就十分多了,有的產(chǎn)品是用軟件來實現(xiàn),有的專門設(shè)計了硬件芯片。

3.促進(jìn)網(wǎng)絡(luò)的融合

語音技術(shù)的發(fā)展,帶動了網(wǎng)絡(luò)的融合過程。目前,世界上的兩大通信網(wǎng)絡(luò)是電信網(wǎng)和計算機(jī)網(wǎng),電信網(wǎng)是以語音信號為處理對象,計算機(jī)網(wǎng)則是以數(shù)據(jù)信號為其處理內(nèi)容。語音技術(shù)為兩個網(wǎng)絡(luò)的結(jié)合,奠定了技術(shù)基礎(chǔ)。

4.語音接入通過PSTN

目前,人們進(jìn)行信息交流的主要方式還是通過電話網(wǎng)。用戶可以通過撥打一個電話號碼,接入到信息訪問中心。

語音技術(shù)商機(jī)無限

1.金融

采用了語音技術(shù)后,通過電話,不用人工的干預(yù),就可以進(jìn)行賬戶余額查詢,完成賬戶間的轉(zhuǎn)賬等工作。不僅提高了工作的效率,也改善了服務(wù)商的形象。

2.證券

用戶通過電話可以查詢當(dāng)前的股市情況,不用再按電話上的按鍵,而是直接說出自己關(guān)心的股票的名稱,計算機(jī)就通過語音合成技術(shù),將結(jié)果播報出來。

3.電信和尋呼

采用語音技術(shù),在電信業(yè)務(wù)中將產(chǎn)生很多的應(yīng)用。例如在“114”電話黃頁中,目前還要有大量的人工服務(wù); 而如果采用語音技術(shù),就可以不用人工服務(wù),讓計算機(jī)自動接聽用戶的需要,然后回放查詢的電話號碼。尋呼目前還是通過尋呼小姐記下用戶要尋呼的目標(biāo)號碼,然后將內(nèi)容輸入到尋呼系統(tǒng)進(jìn)行發(fā)射; 采用語音技術(shù)后,可以讓計算機(jī)自動地進(jìn)行整個操作過程。

4.旅游

用戶可以通過電話,自動查詢那些感興趣的景點的語音介紹材料,相當(dāng)于請了一個電話導(dǎo)游。當(dāng)出現(xiàn)問題時,也可以通過電話,進(jìn)行各種求助。

5.娛樂

語音技術(shù)在娛樂方面,也可以激發(fā)出許多的新應(yīng)用。例如,在通過電話進(jìn)行電視MTV點播時,可以避免重復(fù)地按電話上的按鍵,而是直接說出是哪個歌手的哪首歌,電視臺就通過接收語音輸入,播放相應(yīng)的曲目。

技術(shù)為本,應(yīng)用為先。言豐科技在研發(fā)語音識別技術(shù)產(chǎn)品時,就希望能夠通過自然的語言交流,實現(xiàn)人機(jī)交互式的對話形式,使電腦能理解我們的語言,并按照我們的指示去工作。因為這一目標(biāo)的實現(xiàn)將會給人類的工作和生活帶來質(zhì)的變化,同時將產(chǎn)生巨大的商業(yè)價值。因此,目前基于通信平臺的語音識別技術(shù)的商業(yè)應(yīng)用已被眾多的企業(yè)所關(guān)注。有專家預(yù)測,隨著技術(shù)的快速發(fā)展,再過10~20年的時間,我們將可以做到非常自然的人機(jī)交互式對話。

IBM供稿 CTI論壇編輯



相關(guān)鏈接:
ViaVoice語音上網(wǎng)新概念 2001-11-14
IBM ViaVoice更方便更健康 2001-11-14
IBM ViaVoice Telephony——完善的中文電話語音技術(shù) 2001-11-14
CRM中的IBM語音技術(shù) 2001-10-10
IBM Viavoice:掛在嘴邊的輸入法 2001-10-10