首頁>>>技術(shù)>>>語音應用>>>語音合成(TTS)  語音合成產(chǎn)品

 

語音為CTI注新活力

段云峰、盛志健


  語音應用(VAP)技術(shù)指基于語音進行處理的技術(shù),包括語音識別技術(shù)和語音合成技術(shù)等。語音應用技術(shù)(以下簡稱VAP技術(shù))反映了對語音信號進行處理的能力,其發(fā)展的程度,將影響計算機通過語音與人類進行交互的能力,并將影響計算機應用的領(lǐng)域。

  下面將就VAP技術(shù)與CTI技術(shù)的結(jié)合進行有關(guān)的介紹。


  四大變化


  我們知道,目前世界范圍內(nèi)最大的通信網(wǎng)絡仍然是電話網(wǎng)絡。不管將來數(shù)據(jù)網(wǎng)絡技術(shù)如何發(fā)展,人與人之間最方便的交流方式還是語音交流。畢竟對于很多人來說,熟練地操作鍵盤并不是容易的事情。

  對于CTI技術(shù)也是一樣。CTI技術(shù)的優(yōu)勢,在于將傳統(tǒng)的電話語音網(wǎng)絡發(fā)展成為用戶獲得各種信息的接入手段,而通過VAP技術(shù)可以極大地加強這種接入手段的能力。例如,通過VAP技術(shù),用戶可以在旅行的過程中,通過電話“聽”取自己電子郵件的內(nèi)容,并通過語音留言回復有關(guān)的郵件,而不必攜帶笨重的計算機。

  CTI技術(shù)的核心是有個龐大的信息庫,通過CTI技術(shù)完成與用戶的交互功能。而采用了VAP技術(shù)后,用戶就可以通過語音,直接對這個信息庫進行24小時的訪問,并十分容易地獲得各種個性化服務,這無疑將會對CTI技術(shù)產(chǎn)生革命性的影響。

  1.接入手段的提升

  通過VAP技術(shù),我們可以直接用語音進行有關(guān)的交互工作。其優(yōu)勢表現(xiàn)在如下幾個方面。

  第一,效率提高了。例如,目前在聽完了大段的語音提示選單后,我們還要不斷地停下來,按動電話上有限的數(shù)字按鍵,進行相應的選擇,然后繼續(xù)聽下一段的語音提示。

  在使用了VAP技術(shù)后,我們可以像與服務員一樣,采用語音的方式,連續(xù)地聽語音選單,并直接通過語音“說”出相關(guān)的選擇,避免了連續(xù)按鍵的過程。

  第二,交互的界面更加豐富了。我們知道,傳統(tǒng)的電話僅能通過DTMF信號,傳送有限的幾個數(shù)字及符號按鍵,這使得與用戶的交互界面常常受到限制,而VAP技術(shù)則采用了語音識別的方式,其交互的界面幾乎不受限制,極大地擴展了交互的能力。

  第三,信息終端的小型化。在目前,信息終端普遍是計算機,體積大而不便攜帶。采用VAP技術(shù)以后,電話將成為有效的信息終端。用戶在馬路邊的公共電話亭,就可以方便地獲得信息,將產(chǎn)生出許多嶄新的應用。

  2.開辟語音服務的廣闊市場

  將VAP技術(shù)與CTI技術(shù)相結(jié)合,將產(chǎn)生許多新的業(yè)務應用。這些應用不僅可以強化CTI傳統(tǒng)的一些應用,如語音自動應答業(yè)務等,而且能夠發(fā)展出許多嶄新的業(yè)務應用,既豐富了為用戶服務的形式,也給運營商帶來巨大的利潤。具體的例子詳見本文下面的應用舉例。

  3.與移動通信技術(shù)的結(jié)合,促進個人化信息終端的發(fā)展

  目前的移動通信技術(shù),可以使用戶在語音通信方面具有移動性。與VAP技術(shù)結(jié)合后,用戶可以方便地在移動中,通過語音獲得各種信息。

  這可以在某種程度上,分擔WAP技術(shù)中顯示屏幕過小所帶來的信息訪問的不便。例如,可以通過WAP進行有關(guān)文字方面的檢索,然后將大段的信息通過語音拼讀以語音的形式通知用戶。

  4.促進自動信息服務的發(fā)展

  在傳統(tǒng)的IVR系統(tǒng)中,只能事先錄好各種提示音,既占用了大量的存儲資源,又很難靈活應對用戶的交互需求。采用VAP技術(shù)以后,事先可以不用錄制提示音,信息仍以數(shù)字化方式存在,通過語音合成技術(shù)將信息“讀”給用戶聽。這樣,IVR還可以擔負有關(guān)的信息檢索的功能。例如,通過有關(guān)的搜索引擎,可以直接在互聯(lián)網(wǎng)上檢索信息,并將結(jié)果“讀”給用戶。

  由于這種技術(shù)是24小時不間斷的,而且服務的內(nèi)容完全可以依據(jù)海量的信息庫自動進行,因此將完全改變現(xiàn)有IVR系統(tǒng)的形式和內(nèi)容。


  四大新應用


  下面列舉一些VAP技術(shù)與CTI技術(shù)結(jié)合后的應用例子。

  1. 電子郵件語音識別

  采用VAP技術(shù)后,用戶可以直接通過撥打一個電話,而“聽”自己的新郵件內(nèi)容,并通過電話直接進行語音回復。在撥通號碼的時候,系統(tǒng)首先進行有關(guān)的用戶身份鑒別,然后檢查郵箱。如果有新的電子郵件到達,將通過語音合成技術(shù),將郵件的題目和發(fā)信人直接“讀”給用戶聽,然后通過語音識別技術(shù)判斷用戶的選擇,如果用戶想知道郵件的內(nèi)容,則繼續(xù)通過語音合成技術(shù),將郵件的內(nèi)容讀給用戶聽。當用戶需要進行立刻回復時,系統(tǒng)將自動錄取用戶的回復內(nèi)容,并將該錄音文件通過電子郵件系統(tǒng)回復給發(fā)信人。

  如果用戶想發(fā)新的郵件,可以通過語音識別技術(shù),告訴系統(tǒng)收信人地址,然后將該郵件直接發(fā)給收信人。如果“語音”郵件不方便閱讀,則可以通過語音識別技術(shù)將用戶的語音信息轉(zhuǎn)成文字信息,然后傳給有關(guān)的閱信人。

  2. 虛擬主持人

  通過語音合成技術(shù),目前已經(jīng)出現(xiàn)了虛擬主持人主持的新聞節(jié)目。用戶在互聯(lián)網(wǎng)上有關(guān)站點檢索到自己感興趣的內(nèi)容后,屏幕上將顯示一個虛擬的主持人形象(一般是通過動畫技術(shù)來顯示),這位主持人將根據(jù)信息的內(nèi)容,自動地通過語音合成技術(shù)將這些信息播放給用戶,同時嘴唇做相應的動作,就像新聞播音員直接進行報道一樣。這種虛擬主持人技術(shù),可以提供24小時的全天候報道,報道的內(nèi)容根據(jù)用戶選擇的內(nèi)容決定。

  這種虛擬的主持人技術(shù),可以應用到新聞、娛樂等不同的領(lǐng)域,如果與電視應用結(jié)合,還會產(chǎn)生出更多的應用內(nèi)容。

  3. 聲紋密碼識別

  目前,我們的身份識別可以采用指紋、照片等方式進行。另一方面,每個人的聲音也包含了其自身的特點,如果將其作為身份鑒別的一種依據(jù),就要考慮聲紋密碼識別技術(shù)。

  能夠通過聲紋識別技術(shù),可以完全確定一個人的身份,就可以極大地加強在語音方面的應用領(lǐng)域。例如,在現(xiàn)有的電話系統(tǒng)中,如果沒有專用的端加密設(shè)備,通過DTMF信號輸入身份密碼,很容易就可能被別人竊取。而如果是通過聲紋鑒別技術(shù),可十分安全地保證系統(tǒng)的可靠性,同時別人無法模仿,即使竊取了也沒有用處。這樣,將來就可以很容易地進行有關(guān)的電話銀行業(yè)務的處理。通過電話,用戶就可以進行各種銀行業(yè)務,遠遠超出今天電話銀行所能夠提供的業(yè)務內(nèi)容。

  另一方面,在CTI應用中,傳統(tǒng)的“Screen Pop”功能,僅能夠通過用戶的主叫號碼進行用戶身份的自動識別,而電話號碼并不能唯一地確定用戶的身份。通過聲紋識別技術(shù),可以唯一地確定用戶的身份,因此能更加快捷地為用戶提供“個性化”服務。

  同時,在電話訂購商品方面,也將有極大的推動作用。廠家可以根據(jù)有關(guān)的聲紋識別技術(shù),判斷這些信息的可信度如何,并據(jù)此決定是否送貨等,由此可以大大地提高電話訂購商品的效率,推動“電話商務”的發(fā)展。

  4. 語音瀏覽互聯(lián)網(wǎng)

  目前,互聯(lián)網(wǎng)是世界上最大的信息庫,而通過計算機進行信息檢索,對移動用戶等十分地不便。如果通過電話網(wǎng)絡,就可以在互聯(lián)網(wǎng)上進行信息檢索,無疑具有十分誘人的前景。通過語音合成技術(shù),可以將檢索到的信息以簡單的形式播放給用戶聽,然后用戶可選擇是否聽詳細的內(nèi)容。

  以上僅列舉了一些應用的內(nèi)容。因為CTI技術(shù)代表的是與電話網(wǎng)絡的接口,而VAP技術(shù)則代表了通過語音技術(shù)進行信息處理的能力。因此,兩者的結(jié)合,能夠產(chǎn)生出更多的、目前無法預料的業(yè)務應用。


  影響力還會更深


  目前的VAP技術(shù),還存在許多的技術(shù)難點。英語方面研究較多,也比較成熟,有些方面已經(jīng)可以進行商用。但在漢語方面,還有很多的工作要做。另一方面,由于VAP技術(shù)還比較新,因此在CTI產(chǎn)業(yè)中還沒有形成影響力,缺乏一支相應的產(chǎn)業(yè)化隊伍進行推動。

  為此,應加大在兩者相互結(jié)合方面的研究工作。同時,結(jié)合一些已經(jīng)可以商用的VAP技術(shù),尋找可以商用的應用業(yè)務,為用戶帶來真正的實惠。

  在VAP技術(shù)與CTI技術(shù)結(jié)合方面,還要做大量的宣傳工作,吸引兩方面企業(yè)聯(lián)合,共同開拓有關(guān)的市場。

賽迪網(wǎng)》2000/09/28


分類信息:  語音合成TTS_與_語音識別ASR     文摘   cti文摘   呼叫中心文摘   技術(shù)_語音合成_文摘
           技術(shù)_語音識別_文摘