首頁>>>技術>>>語音應用>>>語音識別(ASR)  語音識別產品

 

語音上網掀起第三次上網浪潮

彭芳、李瀛寰



  你會說話嗎?會說話就能上網。這種簡單的語音上網方式, 據說是繼PC、WAP手機上網之后的第三次上網浪潮。

  也許有一天,繁忙的人們可以離開PC、離開筆記本,只是隨手撥通電話,就可以知道當天發(fā)生的國際大事,就可以了解同步的股票行情,還可以知道他鄉(xiāng)的天氣是否合適旅游……通過電話來上網,以“說話”來代替鍵盤輸入,以“語音控制”來代替鍵盤控制,實現語音上網一直是人類的夢想。而今天,隨著語音技術的發(fā)展,特別是語音識別技術的突破,語音上網已經離我們越來越近了。


  ■ 語音成為第三種上網方式


  在PC成為傳統(tǒng)的上網方式后,手機或者其他手持終端上網正鋪天蓋地地吸引著人們的注意力,成為目前最熱門的話題。在人們還來不及細細消化理解手機上網時,技術的發(fā)展又迫不及待地將語音上網推到人們面前。據了解,在美國語音上網已經成為繼PC上網、WAP上網之后的第三次浪潮。

  在PC時代,人們需要掌握一些基本的電腦知識、并且具備相關的有線接口才可登錄互聯(lián)網;在WAP時代,通過隨身攜帶的手機,人們可以隨時隨地接入互聯(lián)網,在便利性方面大大提高;在語音上網時代,在提供便利性之外,更大的突破應該是將互聯(lián)網的門檻降低到“零”。你會說話嗎?會說話就能上網,你不再需要掌握一些基本的輸入方式,你不再需要熟悉小小的鍵盤。張嘴說話,就是你給系統(tǒng)給互聯(lián)網下達的指令。從PC到WAP到Voice,每一次浪潮都把互聯(lián)網的門檻降低了一大截。

  語音上網是傳統(tǒng)電話與互聯(lián)網相結合的產物,它應用語音識別技術,只要用戶按下電話號碼,系統(tǒng)就可識別相關的命令,從而給用戶提供網站上的信息,包括股票行情、交通狀況與流量、天氣情況、電影餐廳訂票等服務。它通過在PSTN與互聯(lián)網之間放置中文語音網網關,來實現語音識別和語音合成等,最終對用戶實現語音上網。

  以“說話”來控制的電話自動信息系統(tǒng)是銀行、電信、證券、運輸等行業(yè)提高服務質量、增強競爭能力、節(jié)省時間的有力武器。語音識別技術在美國已有很長歷史,但應用方面基本上是以英文為主,語音互聯(lián)網在國外已經開始應用。近年來,隨著CTI技術的發(fā)展,我國香港、臺灣及內地等許多CTI領域里的開發(fā)商開始致力于中文的語音識別。隨著中文語音識別技術發(fā)展,語音互聯(lián)網的概念開始在亞洲逐步成形,并正在逐成為現實。在語音互聯(lián)網中,用戶可以通過電話實現計算機上網的功能。在亞洲,由于Internet的普及程度較低,而無線通信發(fā)展卻非常快,用語音作為界面來獲取信息將極具前途。

  語音互聯(lián)網和目前我們所使用的文字互聯(lián)網一樣,也涉及網站、上網終端、線路等諸多內容。但不同的是,語音互聯(lián)網的終端就是電話,線路就是我們天天用的電話網,這也是語音互聯(lián)網概念一推出就激起千層浪的原因,實現起來似乎太容易了。


  ■ 語音門戶浮出水面


  伴隨著語音上網概念的出現,作為提供信息服務的語音門戶也浮出水面。在目前國內的一些語音上網應用中,掌門網與新太合作,主要提供語音電子郵件,用戶可以通過電話來收取并且接聽自己的電子郵件,同時也可通過說話來發(fā)送電子郵件。而在另一個由亞洲語音提供的語音上網服務實驗中,北京的用戶可以在注冊后通過撥號享受語音郵件、個人信息定制、股票行情、生活速遞、旅游熱線等服務。那如何來定位語音上網用戶的信息服務呢?它與手機等手持終端上網的定位是否相差不大呢?

  亞洲在線的總裁廖杰遠先生認為,在這兩者之間還是有一些差別的。對于語音上網來說,信息服務更加強調與用戶的息息相關性。基本上可以分為三類應用:首先,電子郵件是最重要的一項應用。這樣,人們在外時,可以拋卻無線信道的種種不足之處,僅僅通過PSTN網來進行收發(fā)電子郵件。其次,人們可通過語音上網來獲取一些實用信息,如交通路況、股票行情等。最后,語音上網的第三大用途是獲取個人信息,如地址簿、日程安排等。

  語音門戶應該說也是一個很有吸引力的市場,一些新成立的公司躍躍欲試,而一些老牌的ICP為了保持自己的傳統(tǒng)優(yōu)勢,自然也不會將這塊肥肉讓給他人,他們可以在做傳統(tǒng)文字網站的同時,開設語音門戶來吸引更多的人用電話上網,促進電子商務的發(fā)展。已有ICP開始瞄準語音門戶,像北京郊區(qū)電信局下屬的暢捷網苑就非?春秒娫捝暇W。那語音門戶會不會比它的前輩們幸運一點,可以賺到錢呢?這還是個未知數,但業(yè)內人士依然將目光放在了廣告身上。也許會由于電話這種溝通方式的不同,語音門戶在創(chuàng)收方面會有所作為。


  ■ 語音上網難在語音識別


  在前不久召開的Dialogic亞太區(qū)高峰會議上,最引人注目的就是Dialogic 總裁Howard Bubb先生演示的語音門戶。Bubb先生用電話撥通一個號碼,講出其用戶名及密碼后,就登錄上了一個語音門戶站。在這里,他查詢了新聞、股市信息,并“閱讀”了自己的電子郵件。由于有了計算機系統(tǒng)和電腦語音卡的幫助,文字形式的郵件就可以被轉換為語音信息讀給他聽。最讓人感興趣的是,語音門戶中的語音提示音已經不是簡單的“按1”、“按2”了,而是交互式的對話形式的電腦提示音。

  談到語音門戶的發(fā)展前景,Bubb先生指出,語音門戶仍是很新的應用,未來一兩年才有更大的發(fā)展,原因在于目前的語音識別技術還未成熟,真正有效的語音識別技術二三年后才會發(fā)展起來。而且語音識別的過程非常復雜,1臺800M容量的計算機才能完成1個語音的識別,同時還要考慮不同說話者的不同口音。基于電話品質及線路的原因,一般電話上的語音都有不同程度的變化,語音識別系統(tǒng)能夠容納多大差異的語音是語音識別中的關鍵。

  在拿到亞洲在線的上網卡后,記者興沖沖地撥通了那個神往已久的電話號碼,在聽到經合成發(fā)出的提示音后,清清嗓子發(fā)出了自己的第一道命令,還好算順利過關。然好景不長,在一個關鍵的“收取郵件”命令上卡殼了,無論怎么強調,系統(tǒng)似乎就是識別不出來。記者第一次的語音上網嘗試只好收場。其實,語音識別正是目前語音上網存在的技術上的最大的困難。

  目前,Intel已經開始投資發(fā)展語音識別技術,Intel在中國建立的研究中心的一個重要項目就是語音識別。來自我國臺灣地區(qū)的言豐科技所開發(fā)的Voice Touch交談式語音識別電話系統(tǒng)已經可以識別英語、普通話和廣東話三種語言,而同時國外公司如IBM、L&H,國內公司如捷通等也都在開展相關的研究。

  據掌門網北京辦事處郄建軍介紹,目前掌門網推出的語音平臺離真正的識別語音還有一段距離。用戶撥打其特服號碼95003、95002之前,會被告知盡量采用簡短的語句來“點擊”,如“新聞”、“查郵件”、“讀郵件”等等,這樣語音系統(tǒng)才會識別出來。而目前用語音“寫郵件”恐怕還有困難。


  ■ 語音控制挑戰(zhàn)傳統(tǒng)鍵盤輸入


  雖然電話是消費者最習慣不過的溝通方式,但如果真的要用它來上網卻似乎不是那么回事。尤其在技術還不是特別成熟的今天,要在大庭廣眾之下,對著電話話筒一遍又一遍地簡單地重復幾個“命令”,這對一般用戶來說還真是一個很大的考驗和挑戰(zhàn)。

  Duack.com是一家專門提供交通報告給消費者的語音入門網站,就發(fā)現人們不怎么習慣用電話來查詢交通信息。而相比之下,股票等金融信息則更容易吸引人們的注意力,因為后者是用戶普遍關心的話題。在歐洲所作的一項調查結果表明,許多使用手機的用戶習慣使用按鍵,而不喜愛用語音指令。據Jupiter市場調查公司的統(tǒng)計,按鍵的確比語音控制來得實用,其分析師Seamus McAteer說,“我不相信用戶會坐著聽取他們的電子郵件。”那如何來改變用戶用鍵盤輸入的習慣,的確是當前要考慮的問題。

  但也有人持有不同看法,他們認為語音上網更是作為計算機上網、手機上網方式的一種補充,而不是競爭關系。在用戶沒法使用手機或計算機時,就可以用電話來進行語音上網。

  語音互聯(lián)網作為計算機上網的有效的補充手段,是一個新興的領域,也是一個非常讓人看好的領域。

摘自《中國計算機報》2000.07.06



相關鏈接:
雙節(jié)流行3G視頻新業(yè)務——化身(AVATAR) 2009-09-17
Ditech語音轉換文本技術將打造新型移動服務 2009-09-14
科大訊飛嵌入式語音新產品發(fā)布會在深圳舉行 2009-09-07
英國科學家成功開發(fā)識別多種語言唇讀技術 2009-09-07
Convergys定制式語音鑒權方案獲市場領袖獎 2009-09-02

分類信息:  語音合成TTS_與_語音識別ASR     技術_語音合成_新聞   技術_語音識別_新聞