VoiceXML語音上網(wǎng)
2004/04/12
有許多交互式語音應用程序可以讓用戶通過按鍵式電話與計算機交流。但是,通常呼叫者需要瀏覽的菜單很長,而且很花時間。同時,讓呼叫者一邊聽電話,一邊在蜂窩電話的小型鍵盤上搜索并且按鈕要按得正確,是很困難的事情。因此用戶需要IVR用戶界面來與計算機交流。
VoiceXML 2.0是一種標記語言,用來構建語音界面——有語音的 HTML。語音瀏覽器類似 Web 瀏覽器,它通過解釋VoiceXML 2.0腳本來向用戶提供語音信息并接受用戶的語音請求。
萬維網(wǎng)聯(lián)盟(W3C,World Wide Web Consortium)全力推薦使用VoiceXML 2.0,它通常被理解為一種Web標準。該標準添加了語音識別語法格式,用來識別用戶可能就提示回答的字詞,上一版本沒有這一功能。
為了更好地理解VoiceXML 2.0,可以將VoiceXML和HTML進行類比。采用HTML的Web應用可以分為兩部分:瀏覽器和Web服務器。相應地,VoiceXML涉及的組件也可分為語音瀏覽器和相當于Web服務器功能的應用服務器。
由于電話(包括很多蜂窩電話)沒有計算功能,無法管理語音瀏覽器,所以語音瀏覽器駐留在網(wǎng)絡上的語音服務器中。語音服務器可以位于企業(yè)數(shù)據(jù)中心,或者位于主管供應商處。用戶撥叫一臺語音服務器,該服務器從一臺應用服務器上下載VoiceXML 2.0腳本、語法格式和聲音文件。語音瀏覽器以一種語音信息的形式將VoiceXML 2.0腳本翻譯給用戶聽,語音信息可以是預先錄制的語音,或經(jīng)由一個文本語音合成器產生的文本。然后語音瀏覽器調用一個自動語音識別(ASR)軟件,使用語法格式來識別出用戶響應的語音詞匯。
下面我們來看一個具體的例子:
系統(tǒng):“歡迎致電小李。請問您想接通銷售部門、會計部門還是維護部門?”
用戶:“維護部門!
ASR 將識別用戶的語音回復。在上面這個例子中,語法格式只包括三個詞:“銷售部門”、“會計部門”和“維護部門”。由于ASR的語法格式僅由有限數(shù)量的單詞組成,這種語法驅動的ASR比起聽寫式ASR執(zhí)行更為精確。聽寫式ASR則是試圖識別用戶說出的大多數(shù)英語或其他語言的單詞。
開發(fā)人員使用VoiceXML 2.0來為多種應用程序和信息(包括有時效性的數(shù)據(jù)、業(yè)務數(shù)據(jù)和個人信息)提供電話用戶界面。有了這些應用程序,用戶只需要從任意電話撥入,表明身份并請求所需的信息,就可以隨時隨地訪問企業(yè)數(shù)據(jù)?蛻暨可以使用這些系統(tǒng)來訪問訂單狀態(tài);以及目錄、交付和賬戶信息。
有許多交互式語音應用程序可以讓用戶通過按鍵式電話與計算機交流。但是,通常呼叫者需要瀏覽的菜單很長,而且很花時間。同時,讓呼叫者一邊聽電話,一邊在蜂窩電話的小型鍵盤上搜索并且按鈕要按得正確,是很困難的事情。因此用戶需要IVR用戶界面來與計算機交流。
VoiceXML 2.0是一種標記語言,用來構建語音界面——有語音的 HTML。語音瀏覽器類似 Web 瀏覽器,它通過解釋VoiceXML 2.0腳本來向用戶提供語音信息并接受用戶的語音請求。
萬維網(wǎng)聯(lián)盟(W3C,World Wide Web Consortium)全力推薦使用VoiceXML 2.0,它通常被理解為一種Web標準。該標準添加了語音識別語法格式,用來識別用戶可能就提示回答的字詞,上一版本沒有這一功能。
為了更好地理解VoiceXML 2.0,可以將VoiceXML和HTML進行類比。采用HTML的Web應用可以分為兩部分:瀏覽器和Web服務器。相應地,VoiceXML涉及的組件也可分為語音瀏覽器和相當于Web服務器功能的應用服務器。
由于電話(包括很多蜂窩電話)沒有計算功能,無法管理語音瀏覽器,所以語音瀏覽器駐留在網(wǎng)絡上的語音服務器中。語音服務器可以位于企業(yè)數(shù)據(jù)中心,或者位于主管供應商處。用戶撥叫一臺語音服務器,該服務器從一臺應用服務器上下載VoiceXML 2.0腳本、語法格式和聲音文件。語音瀏覽器以一種語音信息的形式將VoiceXML 2.0腳本翻譯給用戶聽,語音信息可以是預先錄制的語音,或經(jīng)由一個文本語音合成器產生的文本。然后語音瀏覽器調用一個自動語音識別(ASR)軟件,使用語法格式來識別出用戶響應的語音詞匯。
下面我們來看一個具體的例子:
系統(tǒng):“歡迎致電小李。請問您想接通銷售部門、會計部門還是維護部門?”
用戶:“維護部門。”
ASR 將識別用戶的語音回復。在上面這個例子中,語法格式只包括三個詞:“銷售部門”、“會計部門”和“維護部門”。由于ASR的語法格式僅由有限數(shù)量的單詞組成,這種語法驅動的ASR比起聽寫式ASR執(zhí)行更為精確。聽寫式ASR則是試圖識別用戶說出的大多數(shù)英語或其他語言的單詞。
開發(fā)人員使用VoiceXML 2.0來為多種應用程序和信息(包括有時效性的數(shù)據(jù)、業(yè)務數(shù)據(jù)和個人信息)提供電話用戶界面。有了這些應用程序,用戶只需要從任意電話撥入,表明身份并請求所需的信息,就可以隨時隨地訪問企業(yè)數(shù)據(jù)?蛻暨可以使用這些系統(tǒng)來訪問訂單狀態(tài);以及目錄、交付和賬戶信息。
VoiceXML組件
賽迪網(wǎng)
中國信息化(industry.ccidnet.com)
相關鏈接: