統(tǒng)一消息平臺中的語音技術
北京炎黃網(wǎng)絡科技有限公司 陳穎
柳呈文
2001/06/04
目前,各種各樣的通信設備及信息在給我們帶來方便的同時也帶來一些麻煩,信息多了,通信設備多了,使用也變得復雜化了。怎樣簡化我們獲取信息的方式,讓信息無所不在,這就是目前統(tǒng)一消息平臺所要解決的問題。另外,針對中國目前互聯(lián)網(wǎng)用戶只有1600萬,而電話用戶已經達到了1.6億戶的現(xiàn)狀,統(tǒng)一消息平臺為傳統(tǒng)的電話用戶拓展了信息獲取的范圍,也就是說,電話用戶可以通過傳統(tǒng)的語音、傳真獲取互聯(lián)網(wǎng)上無窮無盡的信息。
統(tǒng)一消息平臺集成了固定電話網(wǎng)、移動電話網(wǎng)和Internet網(wǎng)絡。目前,電話網(wǎng)和Internet網(wǎng)各自擁有獨立的網(wǎng)絡資源和信息服務領域,而這兩大網(wǎng)絡的用戶群存在著很大的交叉。電話的使用在中國已經占有很高的普及率,傳統(tǒng)的160/168聲訊服務已經成為中國百姓所熟悉的最具代表性的電話信息服務,而Internet作為在中國剛剛興起的信息媒體,尚需要普通百姓逐漸認識它、使用它。統(tǒng)一消息平臺將電話網(wǎng)和Internet網(wǎng)結合在一起,極大地擴大了兩大網(wǎng)絡各自的用戶群,電話用戶可以用電話或者傳真獲取Internet上的信息,電子郵件服務也可以不局限于Internet,而能對廣大的電話用戶開放。統(tǒng)一消息平臺為用戶帶來的是信息的方便、及時,使人們在任何時間、任何地點都能夠獲取需要的信息。
統(tǒng)一消息服務系統(tǒng)實現(xiàn)的關鍵是如何解決各種不同的消息表現(xiàn)格式間的兼容問題,從而將語音、傳真、電子郵件、語音信箱/語音郵件等不同信息格式的業(yè)務有機地集成于一體。
統(tǒng)一消息平臺體系結構
統(tǒng)一消息平臺體系結構如圖1所示。
圖1 統(tǒng)一消息平臺體系結構
TTS語音網(wǎng)關及應用案例
TTS語音網(wǎng)關是炎黃新星網(wǎng)絡科技公司研發(fā)的新一代的語音處理中間系統(tǒng)。其核心技術TTS(text to speech)系統(tǒng)采用了炎黃新星與清華大學合作成立的華意語音計算研究中心的第二代文語轉換技術,它支持多語言的語音合成,音速、音質及韻律均可靈活調整,合成質量貼近自然話務播音員。語音網(wǎng)關接收其他系統(tǒng)模塊的文字信息,通過TTS合成對應的語音文件,然后傳送到相應的系統(tǒng)模塊。通過統(tǒng)一消息平臺的TTS語音網(wǎng)關,用戶就可以用電話收聽Internet上的任何信息。
案例1: 中國電信168信息臺
炎黃新星公司與北京168信息臺合作,將最新的TTS語音技術和Internet技術應用于傳統(tǒng)的聲訊平臺,初期聯(lián)合開展了基于Internet電子郵件服務的統(tǒng)一消息服務,為統(tǒng)一消息服務用戶提供使用語音和傳真方式的電子郵件服務及相關的增值服務。在此基礎上完成了統(tǒng)一消息服務平臺的搭建,共同開發(fā)提供更豐富的基于Internet的金融信息和實用信息查詢、電子商務服務、娛樂游戲服務等新的電話信息服務業(yè)務,以將Internet服務和用戶群引入電話信息服務,擴大電話信息服務用戶群和業(yè)務使用量。
(1)技術目標
通過炎黃新星Internet語音服務系統(tǒng)與160/168聲訊平臺進行集成,使160/168系統(tǒng)用戶具備使用傳統(tǒng)電話進行Internet信息獲取的功能。
(2)技術實現(xiàn)
以E-mail郵件收發(fā)業(yè)務為例。炎黃新星E-mail語音服務系統(tǒng)使用了炎黃新星統(tǒng)一消息平臺中的兩個組件產品:
E-mail網(wǎng)關 完成用戶郵件的接收與發(fā)送功能。
語音合成網(wǎng)關 完成與160/168現(xiàn)有系統(tǒng)的技術接口通信,進行160/168系統(tǒng)與E-mail網(wǎng)關的協(xié)議轉換,合成E-mail語音數(shù)據(jù)。160/168的IVR系統(tǒng)可以直接播放合成的語音文件。
160/168聲訊平臺通過炎黃新星的網(wǎng)關產品與Internet相聯(lián),為了保證原有聲訊系統(tǒng)的安全性,在炎黃新星多終端信息訪問平臺的網(wǎng)絡結構中增加了防火墻設置,原有的160/168聲訊平臺置于防火墻的后端,只與炎黃新星的語音合成網(wǎng)關存在通信聯(lián)系。
(3)系統(tǒng)網(wǎng)絡結構
系統(tǒng)網(wǎng)絡結構如圖2所示。
圖2 系統(tǒng)網(wǎng)絡結構
需要解決的問題
在實際項目中我們發(fā)現(xiàn),TTS語音網(wǎng)關作為一個產品應用于統(tǒng)一消息平臺,為大家提供語音服務,需要解決以下幾大問題:
1.語音質量
TTS的語音合成質量應該清晰、連貫,在保證用戶聽懂的前提下,具有一定的自然度,使聽起來親切、舒服。
2.處理速度
TTS語音網(wǎng)關在統(tǒng)一消息平臺中要與其他系統(tǒng)通信,處理大量用戶的并發(fā)請求,所以,需要設計資源分配系統(tǒng)進行排隊及負載平衡,從而根據(jù)用戶的數(shù)量方便地增加TTS處理主機,滿足電信級用戶收聽語音的速度。
3.通信接口
TTS語音網(wǎng)關應能提供多種標準的通信協(xié)議接口,包括TCP/IP、S.100及其他數(shù)據(jù)流格式等,方便其他系統(tǒng)調用語音資源。
4.語音壓縮格式
TTS語音網(wǎng)關應能支持多種語音壓縮格式,包括G.723、G.726等標準的語音壓縮格式,以及一些大的語音板卡廠商的專用語音格式。
5.行業(yè)應用
TTS語音網(wǎng)關應能根據(jù)不同行業(yè)的應用特點外掛接口,從而實現(xiàn)行業(yè)的語音處理定制。
6. 用戶的個人語音定制
TTS語音網(wǎng)關能為用戶提供個人音庫,從而能讓用戶在使用統(tǒng)一消息平臺時聽到自己或朋友的語音。
《計算機世界》 2001/06/04
文本-可視語音轉換及其應用 2001-06-04 |
數(shù)據(jù)挖掘走入語音處理 2001-06-04 |
神經網(wǎng)絡與漢語TTS韻律模型 2001-06-01 |
語音技術的拓展與展望 2001-06-01 |
語音門戶:讓網(wǎng)絡接入更便捷 2001-05-11 |