CSSML(中文語音合成標(biāo)記語言)的發(fā)展與應(yīng)用
2003/12/17
近年來,隨著中文語音技術(shù)的迅速發(fā)展和應(yīng)用的逐步深入,語音產(chǎn)業(yè)的廣闊市場及其所凸現(xiàn)的強(qiáng)大的產(chǎn)業(yè)帶動效應(yīng)已經(jīng)初步顯示出來。為促進(jìn)中文語音產(chǎn)業(yè)的蓬勃發(fā)展,國家863專家組、國家信標(biāo)委和技術(shù)監(jiān)督局聯(lián)合決定由科大訊飛作為唯一的企業(yè)代表牽頭制訂中文語音技術(shù)接口標(biāo)準(zhǔn)與規(guī)范。2003年10月15日,由國家信息產(chǎn)業(yè)部主辦、安徽中科大訊飛信息科技有限公司承辦的"語音標(biāo)準(zhǔn)研討會"在合肥順利召開。來自國家信標(biāo)委、863專家組、相關(guān)科研院校的語音技術(shù)專家、學(xué)者和語音技術(shù)的關(guān)鍵應(yīng)用廠商共40余人參加了此次會議。會上確定了由科大訊飛牽頭制定語音標(biāo)準(zhǔn)。
CSSML(Chinese Speech Synthesis Markup Language),即中文語音合成標(biāo)記語言,正是在上述背景下由科大訊飛起草,經(jīng)歷數(shù)次中文語音技術(shù)標(biāo)準(zhǔn)研討會討論后形成的。
CSSML標(biāo)記語言針對中文合成領(lǐng)域內(nèi)的特殊要求,對W3C定義的SSML規(guī)范中的標(biāo)記進(jìn)行擴(kuò)展,并與SSML完全兼容。SSML(語音合成標(biāo)記語言)是由W3C制定并在VoiceXML中使用,作為電話語音流程中語音合成控制的標(biāo)準(zhǔn)。SSML的基本任務(wù)就是在不同的應(yīng)用平臺上為合成文本提供一個(gè)標(biāo)準(zhǔn)的控制語音輸出的方法,例如發(fā)音、音量、音調(diào)、語速等參數(shù)。而VoiceXML作為人與電話應(yīng)用交互的流程描述語言,在當(dāng)今的語音門戶、統(tǒng)一消息平臺等以語音驅(qū)動的應(yīng)用中正發(fā)揮著越來越重要的作用。
CSSML在交互式語音應(yīng)用中前景廣闊。通常,語音合成(Text-To-Speech)系統(tǒng)會根據(jù)當(dāng)前的語流環(huán)境確定文本的具體合成方式,例如,數(shù)字按數(shù)值發(fā)音還是按數(shù)字串發(fā)音、人名地名的識別、分句、英文按單詞發(fā)音或者按字母發(fā)音等等。
隨著語音技術(shù)的迅速進(jìn)步,目前這種自動處理在一般的語料中已經(jīng)可以達(dá)到很好的效果,但用戶可能使用到一些專業(yè)性較強(qiáng)的、不符合常規(guī)的文本,特定文本集合的發(fā)音本身固有的不確定性往往是現(xiàn)有語音合成系統(tǒng)需要面對的一個(gè)難題,合成系統(tǒng)在處理這些文本時(shí)可能會出現(xiàn)一些錯誤,而使用加詞、特殊規(guī)則等手段難以解決,這時(shí)用戶可以通過CSSML標(biāo)記文本來指定文本的合成方式,靈活解決一些語音合成系統(tǒng)難以自動處理的問題。再如,隨著信息服務(wù)的不斷豐富與深入,運(yùn)營服務(wù)商常常需要面臨在同一語音平臺上需要提供不同的應(yīng)用的情況。通過CSSML可以為同一平臺上的不同應(yīng)用指定相應(yīng)的合成風(fēng)格與方式,從而滿足不同客戶的個(gè)性化要求。
CSSML中使用基礎(chǔ)元素指定文本的格式。例如CSSML語言提供了一個(gè)段落元素、句子元素和詞語元素。通過像指定段落一樣指定句子、詞語的地址,包括起始地址和終止地址,根據(jù)制定的格式,語音合成系統(tǒng)就能更準(zhǔn)確的生成語音。
CSSML語言提供的Break元素,可以讓用戶調(diào)整詞語間停頓的時(shí)長,以逼近最真實(shí)的發(fā)音風(fēng)格。用戶也可以通過文本替換"sub"元素,將合成文本中的特定文字替換為指定的文字,這在面向一些縮寫詞或者特殊用語的語音合成中非常實(shí)用。
CSSML還提供指定某個(gè)預(yù)定的詞語或者詞語集合發(fā)音的標(biāo)記。這個(gè)功能由"say-as"元素來實(shí)現(xiàn)。它是SSML中一個(gè)非常有用的組件。它能讓你指定一個(gè)模板,這個(gè)模板描述如何發(fā)音某個(gè)單詞或者單詞集合。通過"say-as",我們可以為縮寫的單詞指定如何發(fā)音,也可以為拼寫與發(fā)音不同的單詞指定發(fā)音。我們還可以列出數(shù)字和日期之間的區(qū)別。"say-as"元素包含了對email地址、貨幣和電話號碼等的支持。
CSSML語言高級特性之一還體現(xiàn)在它的"prosody"元素上。通過它我們可以以某種指定地方式生成某個(gè)確定的文本集合的語音。我們可以指定聲音的語調(diào)、范圍、語速(單詞每分鐘)。通過指定一個(gè)文本集合的"prosody"元素值,我們可以更精確的定義如何生成語音。
隨著中文語音技術(shù)的迅速發(fā)展以及市場應(yīng)用的不斷深入,其前景日益受到來自社會各方面的重視,國家相關(guān)管理部門為了規(guī)范中文語音合成的良性發(fā)展而委托科大訊飛制定的CSSML,必然在今后的中文語音合成領(lǐng)域中發(fā)揮著至為重要的規(guī)范作用。作為中文語音技術(shù)與市場領(lǐng)導(dǎo)者的科大訊飛公司,從其InterPhonic CE 2.1產(chǎn)品開始已全面支持CSSML。為了便于用戶實(shí)際應(yīng)用,在InterPhonic CE 2.2產(chǎn)品中,科大訊飛提供了CSSML Editor-一個(gè)可視化的CSSML編輯工具,幫助用戶直觀快速的生成、試聽和發(fā)布CSSML文本。
我們有理由相信,隨著CSSML的發(fā)展和應(yīng)用,將有助于中文語音合成技術(shù)邁向更加成熟和規(guī)范的明天。
科大訊飛公司供稿 CTI論壇編輯
相關(guān)鏈接: