首頁>>廠商>>語音識別與合成>>科大訊飛

技術(shù)創(chuàng)新推動應(yīng)用進(jìn)程
——
簡述訊飛中英文混讀系統(tǒng)的創(chuàng)新性和實用性

2002/01/07

  最近,263網(wǎng)站開通了“263在線”語音郵箱服務(wù),用戶只要通過電話就能獲悉油箱中的電子郵件,而且無論是中文、英文還是中英文混合的內(nèi)容,都可以打電話及時聽取。諸如此類的及時語音服務(wù)已在上海、遼寧、山西、安徽等省市的電信行業(yè)開通,讓人們切身感受到語音技術(shù)帶來的便捷、高效的信息獲取方式。

  處在一個信息爆炸的時代,如何快速準(zhǔn)確地獲取各種信息,對人們的日常工作和生活已經(jīng)具有越來越重要的意義。在電話高度普及的今天,如果所需信息都能及時轉(zhuǎn)換為語音的方式,通過電話就能查詢到這些所需信息,無疑將給人們的日常生活帶來極大方便。

  眾所周知,語音合成技術(shù)能夠以有限的資源占用,將各種文字信息及時轉(zhuǎn)化為連續(xù)的語音,是一種能夠在任何時間、任何地點向任何人提供公共信息服務(wù)的有效手段。近年來,隨著中文語音合成技術(shù)的迅速發(fā)展,中英文混讀技術(shù)也不斷獲得突破,已經(jīng)能夠完全適應(yīng)大規(guī)模、多領(lǐng)域的應(yīng)用。

  在中文語音領(lǐng)域處于領(lǐng)先水平的科大訊飛最近推出訊飛InterPhonic C&E Rev 1.0系統(tǒng),能夠解決中文和英文混合出現(xiàn)在各種文本中的語音合成問題,并在業(yè)界首次實現(xiàn)了中文、英文抑或中英文混合的合成,都能夠達(dá)到普通人說話時的連續(xù)、自然、可懂的語音效果。此外,針對大吞吐量、高性能、穩(wěn)定的高端應(yīng)用,該系統(tǒng)還提供基于TCP/IP網(wǎng)絡(luò)的集群式語音合成服務(wù),語音合成服務(wù)采用動態(tài)負(fù)載均衡機(jī)制對任務(wù)進(jìn)行動態(tài)調(diào)度,很好地解決了海量信息和動態(tài)信息的實時查詢,滿足了企業(yè)級乃至電信級的CTI應(yīng)用要求。

技術(shù)創(chuàng)新

  對于中英文混合的語音合成,傳統(tǒng)的解決方案是采用中文和英文兩種合成引擎,合成時先分離中英文文本,再在不同的引擎下進(jìn)行合成,最后匯集合成數(shù)據(jù)輸出。但這種合成方法存在著中英文不同音、銜接部分跳躍大等弊端,難以實現(xiàn)較好的合成效果。另外,語音合成技術(shù)領(lǐng)域,在已有的單一語種(如中文、英文等)語音合成方法的基礎(chǔ)上,開發(fā)不同語種的語音合成系統(tǒng),可行性不大。

  訊飛InterPhonic C&E Rev 1.0語音合成系統(tǒng)首次將中英文混雜的文本作為第三種語言進(jìn)行專門研究,并建立了一套綜合考慮中英文混合情況的文本分析體系和韻律規(guī)則模型,中英文音庫的錄制也由同一個人完成,保證了合成效果的一致性;同時采用了獨立于語種研究的方法,提高了不同語種的重用性,使得該套研究方法易于擴(kuò)展到其它語種。

  具體來講,該套系統(tǒng)創(chuàng)新方法有:

  多語種文本分析體系 能同時對純中文、純英文或是中英文混合文本進(jìn)行相應(yīng)的處理。該分析體系具有完備的文本分析庫知識,并在人名識別規(guī)則、多音字處理規(guī)則、特殊符號處理規(guī)則的積累方面已走在世界前列;

  先進(jìn)的語言學(xué)層次結(jié)構(gòu)體系 首次將國內(nèi)最新的漢語連續(xù)語流標(biāo)注體系CToBI的進(jìn)行工程化應(yīng)用,可以準(zhǔn)確的對連續(xù)語流中不同層次的語言現(xiàn)象進(jìn)行描述,同時采用先進(jìn)的漢語語音韻律描述體系,提高了系統(tǒng)的整體語音效果;

  基于數(shù)據(jù)統(tǒng)計和人工智能的韻律模型構(gòu)架 該系統(tǒng)基于先進(jìn)的大語料庫語音合成方法,進(jìn)行了超大規(guī)模的自然語流數(shù)據(jù)庫的制作,并以此作為數(shù)據(jù)統(tǒng)計和機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù),并建立了較為完善的基頻、時長、能量、停頓模型,同時將規(guī)則方法和統(tǒng)計方法進(jìn)行了很好的綜合,有效地提高了系統(tǒng)的總體水平;

  改進(jìn)型PSOLA算法的韻律調(diào)整功能 采用最先進(jìn)的Psola語音算法工具,使得系統(tǒng)在語速調(diào)整和運(yùn)行穩(wěn)定性等方面有更加優(yōu)秀的表現(xiàn)。

  由于進(jìn)行一系列的技術(shù)創(chuàng)新,該中英文混讀系統(tǒng)達(dá)到了高自然度、高流暢度的語音合成效果,據(jù)權(quán)威機(jī)構(gòu)評測,該系統(tǒng)在針對新聞等不同文體的文本合成,均可達(dá)到4.3分(5分制)的自然度,完全能夠適應(yīng)各種多語種文本的語音合成場合,在社會的各行各業(yè)都有極為廣闊的應(yīng)用前景。

應(yīng)用范圍

  訊飛InterPhoic C&E Rev 1.0語音平臺能夠運(yùn)用于新一代(電信級集群)聲訊服務(wù)、企業(yè)級呼叫中心、、電信、銀行、證券等行業(yè)的客戶服務(wù)中心、網(wǎng)站語音門戶、語音郵件系統(tǒng)、統(tǒng)一信息服務(wù)等系統(tǒng)之中,也可以運(yùn)用于現(xiàn)有IVR平臺之上。

電信業(yè)客戶服務(wù)中心

  訊飛語音合成技術(shù)除了能夠完成電信業(yè)原有的114查號系統(tǒng)、話費查詢、話費催繳、代繳以及電信法規(guī)、業(yè)務(wù)咨詢等基本業(yè)務(wù),還可以促進(jìn)電信業(yè)結(jié)合自己的電話網(wǎng)絡(luò)資源優(yōu)勢和信息源優(yōu)勢,搭建各種電話信息應(yīng)用平臺,提供諸如預(yù)訂業(yè)務(wù)、大眾呼叫等多項增值服務(wù)。在提供高質(zhì)高效的服務(wù)的同時,節(jié)省了運(yùn)營成本,促成呼叫中心由成本中心向利潤中心轉(zhuǎn)換。

證券業(yè)客戶服務(wù)中心

  訊飛語音合成技術(shù)完全可以滿足用戶海量、動態(tài)信息高質(zhì)量的語音查詢需求,以清晰自然的語音實現(xiàn)像個人信息(包括資金、股份、委托情況、成交情況等)、股市行情(包括股票行情、指數(shù)、指標(biāo)等)以及股評與業(yè)績報告的實時查詢。采用語音合成技術(shù)還可以將證券業(yè)務(wù)拓展到通信網(wǎng),用戶可以通過電話很方便的進(jìn)行股票交易、銀行轉(zhuǎn)帳等多項業(yè)務(wù)。

銀行業(yè)客戶服務(wù)中心

  訊飛語音合成技術(shù)可以使銀行業(yè)客服中心實現(xiàn)賬戶資料查詢、歷史記錄查詢、利率匯率實時查詢等多項動態(tài)查詢業(yè)務(wù),同時可以幫助電話銀行擴(kuò)展自動服務(wù)業(yè)務(wù)種類,可以全天候的提供轉(zhuǎn)帳、自助繳費(包括手機(jī)費、尋呼費、電費等多種費用)、銀證轉(zhuǎn)帳、銀證通(客戶可直接使用銀行賬戶在電話銀行中進(jìn)行股票買賣業(yè)務(wù))、外匯買賣(客戶進(jìn)行按鍵操作進(jìn)行外匯買賣)、賬戶掛失等多項服務(wù)。

保險業(yè)客戶服務(wù)中心

  語音合成技術(shù)能夠提供公司公共信息、客戶保單信息、業(yè)務(wù)員認(rèn)證信息的動態(tài)咨查詢服務(wù),而對語音合成技術(shù)的充分應(yīng)用可以改變目前保險業(yè)客服中心可操作性差的弱點,完成從投保續(xù)保、出險理賠直至賠案查付等多項職能,同時業(yè)非常方便各地保險公司針對當(dāng)?shù)厥袌銮闆r開展特色服務(wù)。

電力行業(yè)客戶服務(wù)中心

  在電力行業(yè)中語音合成技術(shù)可以向用戶提供業(yè)務(wù)受理進(jìn)程查詢、電費額明細(xì)查詢、電費催繳、故障通知以及其他各類信息咨詢,如供電企業(yè)概況、供電營業(yè)區(qū)劃分、主營業(yè)務(wù)、供電搶修聯(lián)絡(luò)方式、國家及地方政府的有關(guān)電力方面的政策、文件、規(guī)定、措施等信息。在此基礎(chǔ)上,可以利用已有的資源進(jìn)行外包,可以充分利用公司的各種軟、硬設(shè)備和優(yōu)勢促進(jìn)公司發(fā)展,增加公司收入。

郵政行業(yè)客戶服務(wù)中心

  語音合成技術(shù)可以幫助郵政客戶服務(wù)中心將以一個統(tǒng)一的服務(wù)平臺面向用戶,融合包括郵政金融、郵政特快、報刊發(fā)行、集郵等在內(nèi)的各項郵政服務(wù),為用戶提供咨詢、查詢、受理以及投訴等多項業(yè)務(wù)。通過服務(wù)水平的提高和服務(wù)內(nèi)容的增加,帶來經(jīng)濟(jì)效益和社會效益的雙豐收。

  此外,采用語音合成技術(shù)可以改變原有聲訊平臺提供服務(wù)種類單一的弱點,開展諸如考試查分、廣播電視節(jié)目的動態(tài)查詢、節(jié)目的實時點播與點評、電話學(xué)位防偽查詢系統(tǒng)、電話產(chǎn)品防發(fā)展空間。采用語音技術(shù)的電話因特網(wǎng)可以實現(xiàn)電話網(wǎng)和因特網(wǎng)之間的信息互訪:一方面,能夠?qū)⒁蛱鼐W(wǎng)上的文字信息轉(zhuǎn)換成電話網(wǎng)上的語音信息,另一方面,也能夠?qū)⒁蛱鼐W(wǎng)上的信息流發(fā)送到電話網(wǎng)的電話終端上,從而使得網(wǎng)站語音門戶可以提供諸如有聲電子郵件、語音聊天室、電話購物等服務(wù)。在不遠(yuǎn)的將來,集成語音技術(shù)的語音門戶系統(tǒng)必將成為一個全能的“翻譯器”,將無窮的互聯(lián)網(wǎng)資源通過電話提供給用戶,為用戶提供全天候、全方位的服務(wù)。

科大訊飛公司供稿 CTI論壇編輯



相關(guān)鏈接:
訊飛暢言語音教具系統(tǒng)榮獲“創(chuàng)新軟件產(chǎn)品” 2009-09-08
科大訊飛嵌入式語音新產(chǎn)品發(fā)布會在深圳舉行 2009-09-07
“會說話”的顯示屏提升居民小區(qū)信息服務(wù)水平 2009-09-07
訊飛語音助力太平人壽客服中心 2009-08-28
訊飛語音助力CDMA手機(jī)競爭終端市場 2009-08-14

分類信息:  呼叫中心_與_語音合成TTS  呼叫中心_與_語音合成TTS     技術(shù)_呼叫中心_解決方案   技術(shù)_呼叫中心_文摘   技術(shù)_語音合成_文摘