首頁>>廠商>>語音識別與合成>>天朗語音

天朗分布式語音識別系統(tǒng)在語音門戶中的使用

2003/10/13

1.語音門戶發(fā)展的背景

  語音門戶是指基于互聯(lián)網(wǎng)平臺,應(yīng)用語音識別、語音合成和其他技術(shù),為固定電話、移動電話以及使用手持設(shè)備(如:PDA)的用戶提供語音訪問互聯(lián)網(wǎng)并獲取網(wǎng)上資訊的門戶,這是全球互聯(lián)網(wǎng)發(fā)展的最新動態(tài)。

  由于傳統(tǒng)的上網(wǎng)方式限制了互聯(lián)網(wǎng)的上網(wǎng)人數(shù),互聯(lián)網(wǎng)的訪問模式逐漸從單一的訪問方式向多種用戶終端發(fā)展 ,如:電話、移動電話、PDA、機(jī)頂盒等。在當(dāng)今科技飛速發(fā)展的地區(qū),語音上網(wǎng)成為繼無線WAP上網(wǎng)之后的又一個發(fā)展熱點。人們喜歡用人類自然的語音,通過友好的語音交互方式直接來獲取信息和服務(wù)。1999年 ,Evans Group Research分析了對250個使用不同語音系統(tǒng)的用戶進(jìn)行調(diào)查,調(diào)查的結(jié)果反饋和定量分析表明:對語音系統(tǒng)和按鍵式系統(tǒng)的使用受歡迎程度,83%的用戶更喜歡使用語音系統(tǒng)而不是使用按鍵式系統(tǒng);而對于語音驅(qū)動系統(tǒng)和與坐席進(jìn)行通話,74%的用戶更傾向于前者。

  語音訪問,作為人類最原始、最自然、最人性化,也是最有效的交流方式,正以其不可阻擋的強(qiáng)勁勢頭融入到互聯(lián)網(wǎng)中。在美國市場,以Tellme.com和Nuance 、SpeechWorks為代表的企業(yè)異軍突起 ,倡導(dǎo)人性化的語音上網(wǎng)服務(wù)。隨后Yahoo、Lycos等著名互聯(lián)網(wǎng)公司紛紛進(jìn)入相應(yīng)的服務(wù)領(lǐng)域,建立大規(guī)模的語音門戶網(wǎng)站,而AOL則提供所謂AOL-By-Phone服務(wù)。

  從技術(shù)角度看,過去數(shù)十年來,語音識別(ASR)技術(shù)、文語轉(zhuǎn)換(TTS)技術(shù)已經(jīng)從實驗室中逐步走向成熟,其算法的復(fù)雜性也逐年下降,從而使這些技術(shù)逐步在市場中得以應(yīng)用;另一方面,計算機(jī)的運算能力每兩年就翻一番,也為這些技術(shù)的商業(yè)應(yīng)用奠定了堅實的基礎(chǔ);再加上移動用戶終端的種類與功能也在以前所未有的速度增長;所有這些技術(shù)的發(fā)展都為基于語音的互聯(lián)網(wǎng)門戶的發(fā)展提供的可靠的保證。

2.語音門戶

  豐富的網(wǎng)絡(luò)內(nèi)容,電話的普及。所謂的語音門戶是集合了所有那些已經(jīng)成熟的網(wǎng)絡(luò)資源的一種新型網(wǎng)站。那么語音門戶到底是什么呢?語音門戶就是通過任何一部電話使用人類自然的語音來訪問互聯(lián)網(wǎng)上的一些基本信息、電子商務(wù)以及個人通訊服務(wù)。語音門戶闡明的是使用電話來訪問互聯(lián)網(wǎng)上的相關(guān)內(nèi)容和信息。

  對于用戶而言,通過使用電話的會話方式來瀏覽信息和管理事務(wù)仍然是目前最自然和最有效的方法之一。隨著計算機(jī)運算能力的提高和識別技術(shù)算法的快速發(fā)展,促使基于各種平臺的語音識別系統(tǒng)能識別人類的自然會話。在20世紀(jì)90年代中期以來,許多主要的有自己獨特技術(shù)的公司開始運轉(zhuǎn)語音商務(wù)(基于語音的電子商務(wù))系統(tǒng)。他們這樣做的目的是為了給那些希望通過使用語音技術(shù)無論在何時、何地都能獲得大量的信息和查詢一些實時股票交易信息的人提供服務(wù)。正如個人通過使用計算機(jī)來解決訪問因特網(wǎng)的方法一樣,這些圍繞著基于語音技術(shù)應(yīng)用來展開的一種新型的網(wǎng)絡(luò)叫做語音門戶。

  語音門戶發(fā)展到現(xiàn)在,越來越多的公司正迅速朝著包含有各種服務(wù)(如:統(tǒng)一消息、網(wǎng)上購物)和基于互連網(wǎng)的各種內(nèi)容(如:電影,黃頁)的網(wǎng)站發(fā)展,從而讓用戶只要通過任何一部電話就能使所有的這些都成為有用信息。企業(yè)和電子商務(wù)公司也明白通過語音技術(shù)和全球所擁有的電話用戶人群來發(fā)展他們的用戶是一個非常好的機(jī)會;谛袠I(yè)技術(shù)標(biāo)準(zhǔn)的出現(xiàn)和產(chǎn)品實用性的加強(qiáng)將加快語音門戶的發(fā)展,同樣對于語音行業(yè)標(biāo)準(zhǔn)的產(chǎn)生也將有助于互聯(lián)網(wǎng)的快速成長。

3.市場的影響產(chǎn)生對語音門戶的需求

  市場的多方面影響以及結(jié)合一些實際的需求即某一用戶無論在何時,何地都能直接通過語音來提供給個人在某方面的內(nèi)容以及服務(wù)。

3.1隨著個人電話的普及,尤其是手機(jī)的普及。
  隨著手機(jī)服務(wù)商的快速增加,手機(jī)的用戶數(shù)也將隨之增加。預(yù)計到2003年全球?qū)惺畠|個手機(jī)用戶。這些數(shù)字表明未來通過電話來訪問互聯(lián)網(wǎng)無疑是最普遍的一種工具,既然人類的自然語音通過電話能夠被識別何理解的話,那么電話將無疑是最適合的一種工具用來提供關(guān)于大多數(shù)用戶所需求的市場和服務(wù)。

3.2互聯(lián)網(wǎng)的快速發(fā)展
  在最近5年以來,互聯(lián)網(wǎng)作為信息傳輸?shù)囊环N新興的媒體而使整個世界發(fā)生了根本性的改變,現(xiàn)在全球大約有2億個用戶使用互聯(lián)網(wǎng)作為他們在日常生活中必不可少的一部份,用戶通過互聯(lián)網(wǎng)能得到他們所想要的便利、娛樂以及提高他們的工作效率。

  互聯(lián)網(wǎng)提供了大量的各種各樣的實用信息,但是要獲得這些信息并不是隨處可得,用戶必須在家里或辦公室通過電腦聯(lián)網(wǎng)來獲得這些信息。這對于在一個信息快速更新的社會并不是一件令人愉快的事情。所以消費者對于互聯(lián)網(wǎng)內(nèi)容和信息的大量需求促使各種生產(chǎn)廠商設(shè)計出各種各樣的產(chǎn)品,如PDA、手機(jī)等這些可隨身攜帶又能直接與網(wǎng)絡(luò)互聯(lián)的產(chǎn)品。

  這些設(shè)備的快速發(fā)展促使通過手持設(shè)備和手機(jī)來訪問互聯(lián)網(wǎng)的內(nèi)容是可實現(xiàn)的,而基于文本的互聯(lián)網(wǎng)的內(nèi)容也是非常有用的,但緩慢的傳輸速度與互聯(lián)網(wǎng)連接的困難以及這些設(shè)備的小屏幕都限制了這些設(shè)備的使用價值。

  電信的增值服務(wù)改變用戶無論在何地、何時的要求都能直接訪問互聯(lián)網(wǎng)的內(nèi)容是激動人心的。但個性化的服務(wù)可使個人和商務(wù)快速獲得和容易訪問他們所關(guān)心的內(nèi)容和信息。因而語音門戶的出現(xiàn)及時改變了電話的應(yīng)用范圍,從而使電話成為從網(wǎng)絡(luò)媒體上得到語音和數(shù)據(jù)信息的一種最便利的設(shè)備。

4.語音門戶的優(yōu)勢

  語音門戶簡單易用,讓用戶可隨時隨地輕松獲取各種信息--無論是通過PC、手機(jī)或者固定電話,也無論是在辦公室、家中還是在路上、車上,"瀏覽"網(wǎng)絡(luò)的過程變得輕松無比!

  根據(jù)語音門戶平臺面向的對象來說,我們可以從個人,也就是最終消費用戶,以及企業(yè),也就是服務(wù)提供方,兩個角度來考察語音門戶平臺的優(yōu)勢。首先,對廣大最終用戶來講,語音門戶平臺方便、快捷、自然,而且不需要額外成本來添加設(shè)備。用戶只要對著普通電話說話就行了,不再受制于按鍵音頻,不再受制于電腦和一大堆連線,也不再受制于網(wǎng)絡(luò)專業(yè)知識的貧乏。同時,用戶還可以根據(jù)自己的喜好定制個性化服務(wù),集中關(guān)注個人業(yè)務(wù);并且可以從各種各樣的信息源、信息終端中解放出來,獲得統(tǒng)一消息服務(wù)帶來的自由和方便。

  其次,企業(yè)本身也必然會得益于語音門戶平臺。企業(yè)利用語音門戶,不僅可以通過節(jié)省人工坐席成本來低成本地發(fā)布信息,提供客戶服務(wù),而且可以實現(xiàn)其他一些有價值的業(yè)務(wù),開創(chuàng)新的市場空間和利潤。

  總之,語音門戶將電話交互過程從以廠商為中心轉(zhuǎn)向以用戶為中心。這一轉(zhuǎn)變在為用戶提高效率和降低業(yè)務(wù)成本的同時,還將提高用戶的滿意度。未來數(shù)年,語音門戶將大大改變?nèi)藗兪褂秒娫挼姆绞揭约皬S商與主叫用戶溝通的方式。在當(dāng)今以廠商為中心的模式中,主叫用戶只能以掛斷電話的方式來"擺脫"某一企業(yè)的按鍵式交互語音應(yīng)答(IVR)系統(tǒng) 。而在未來以用戶為中心的模式中 ,主叫用戶可與語音門戶展開交互式對話,可以象"網(wǎng)上沖浪"般快捷、方便地從一家企業(yè)自由地 "跳" 到另外一家企業(yè)。

5.語音識別技術(shù)

  電話的出現(xiàn)已經(jīng)有120多年的歷史,而使用在商業(yè)應(yīng)用上相關(guān)的語音識別最近幾十年才開始進(jìn)行研究。事實上,一直到90年代中期基于電話并且提供大量的詞匯、使用者不需要經(jīng)過任何的培訓(xùn)并且支持各種類型電話的語音識別軟件才出現(xiàn),目前語音識別系統(tǒng)能支持自然的習(xí)慣用語,例如"我想查詢四川長虹的最新價格"。

  語音識別的處理是在網(wǎng)絡(luò)服務(wù)器中進(jìn)行處理而不是在電話中進(jìn)行處理,可升級的系統(tǒng)配置可支持幾百萬訪問者同時也支持通過不同的線路來發(fā)出相同的信息請求來進(jìn)行識別,訪問者也可以在他們得到他們想要的信息后自動返回。

  對于目前所采用的任何一種新建的主流服務(wù)它們必須要有一定靈活性和易使用性。使用基于語音服務(wù)來構(gòu)建的所有商業(yè)信息是因為語音識別提供了對不同年齡和不同生活方式的用戶可以通過他們手中的任何一部電話來得到他們所需要的信息。

6.語音門戶的核心技術(shù)
  語音門戶的核心技術(shù)是Voice-XML(簡稱為V-XML)。
  V-XML是W3C組織制定的主要用于電話語音識別的一個腳本描述語言,它和現(xiàn)在的IVR系統(tǒng)常用的腳本的功能和目的類似,但是不同的是,V-XML是一個標(biāo)準(zhǔn),它是在眾多IVR應(yīng)用的經(jīng)驗基礎(chǔ)上加以規(guī)整、合并而制定出來的,繼承了眾家之長。目前,有許多廠商都采用該描述語言作為他們建立IVR系統(tǒng)的描述語言。

  V-XML本身就定義了語音識別有關(guān)的tag,因此,集成天朗分布式語音識別系統(tǒng)到VXML引擎中變得更加簡單。只要參照VXML本身的定義來做就行。另外,VXML腳本也不過是一種IVR常用的腳本語言,因此,集成工作和IVR系統(tǒng)集成天朗分布式語音識別系統(tǒng)基本類似。

天朗語音公司供稿 CTI論壇編輯



相關(guān)鏈接:
天朗分布式語音識別系統(tǒng)改造傳統(tǒng)IVR 2003-10-10
天朗分布式語音識別系統(tǒng)產(chǎn)品白皮書 2003-09-27
鍵盤漸成擺設(shè),未來手機(jī)一呼通 2003-09-22
天朗語音成功開發(fā)出分布式語音識別系統(tǒng) 2003-09-19
天朗"一呼通",提升智能化 2003-04-28

分類信息:  語音識別ASR_與_voicexml  語音識別ASR_與_voicexml     技術(shù)_語音識別_解決方案   技術(shù)_voicexml_解決方案   技術(shù)_voicexml_文摘