首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識(shí)別(ASR)  語音識(shí)別產(chǎn)品


國內(nèi)電腦語音識(shí)別技術(shù)屢獲突破

  記者日前在中國科大人機(jī)語音通信實(shí)驗(yàn)室采訪時(shí)看到令人震驚的一幕:操作人員只需按動(dòng)電腦電源,隨后信口發(fā)號(hào)施令,電腦即可按主人的意思進(jìn)行文字輸入、文件處理、收發(fā)郵件,甚至可以與使用者對(duì)話等等。該研究室負(fù)責(zé)人、智能計(jì)算機(jī)成果轉(zhuǎn)化基地中央研究院院長王仁華教授告訴記者:“中文‘傻瓜’電腦悄然向我們走來!”

  “讓電腦聽懂說話,讓電腦開口說話!睅缀踉谟(jì)算機(jī)誕生的時(shí)候,專家們就開始向這一方面努力。只有達(dá)到這一目標(biāo),電腦才能成為世界上最聰明的“傻瓜”。

  在計(jì)算機(jī)王國美國,行業(yè)頭號(hào)霸主IBM率先進(jìn)行電腦語音識(shí)別研究。經(jīng)過20多年的努力,先后推出英文、法文、德文等近十種文字的語音識(shí)別技術(shù)。由于漢語結(jié)構(gòu)復(fù)雜,單章節(jié)為主,同音字多,方言多,語法亦不規(guī)范,直到1997 年底,IBM才推出不太成熟的漢語識(shí)別技術(shù)。這些頂尖高手們深知漢語音識(shí)別技術(shù)艱難,自身難以攻克,就以較低的價(jià)格,或技術(shù)互換的方式向全世界二次開發(fā)商、科研機(jī)構(gòu)提供軟件內(nèi)核。

  此后的一年多時(shí)間里,“讓電腦聽懂說話”技術(shù)獲得迅疾突破,微軟、IBM、摩托羅拉等世界級(jí)開發(fā)商投入大量人力物力。首創(chuàng)電腦聲卡的新加坡創(chuàng)新公司,臺(tái)灣清華大學(xué)和香港中文大學(xué)等華語研究開發(fā)機(jī)構(gòu)在漢語音技術(shù)方面做了大量工作,語音導(dǎo)航、語音識(shí)別等技術(shù)日臻成熟。IBM公司1998年推出的漢語識(shí)別軟件ViaVioice98,可在普通話基礎(chǔ)上適應(yīng)廣東、四川、上海等有代表性的方音,只要讀5個(gè)詞、3句話即可建立一個(gè)語音模型,并有使用中自學(xué)功能。

  “英雄所見略同”,漢語音技術(shù)在我國是“863”計(jì)劃支持最早、時(shí)間最長的智能計(jì)算機(jī)領(lǐng)域攻關(guān)課題。清華大學(xué)、中國科學(xué)院聲學(xué)所、中國科學(xué)技術(shù)大學(xué)等8家研究機(jī)構(gòu)成立相關(guān)技術(shù)攻關(guān)組,接受“863”計(jì)劃支持。到1997年底,由王仁華教授領(lǐng)導(dǎo)的中國科大人機(jī)語音通信實(shí)驗(yàn)室、國家智能計(jì)算機(jī)研究開發(fā)中心在漢語音識(shí)別、合成方面取得突破;與 IBM進(jìn)行技術(shù)交流獲得語音識(shí)別內(nèi)核基礎(chǔ)上進(jìn)行再開發(fā),漢語音識(shí)別技術(shù)與IBM同步;語音合成方面通過十幾年的摸索,毅然放棄國際通行的方法,獨(dú)創(chuàng)“人聲道模擬技術(shù)”,結(jié)束了在語音信號(hào)處理,音頻、視頻編碼和傳輸?shù)阮I(lǐng)域內(nèi)多項(xiàng)關(guān)鍵技術(shù)上達(dá)到國際領(lǐng)先水平,結(jié)束了漢語音合成清晰度與自然度的制約,電腦終于可以說出流利的漢語。

  記者在中國科大看到,操作者從因特網(wǎng)上下載一篇新聞,電腦即可略帶情感地讀出它!863”專家組曾作過檢測(cè),把電臺(tái)播音員播出水平打成5分,中國科大電腦合成的語音可打4分。

  理論研究基礎(chǔ)和科技上的突破,為漢語“能聽會(huì)說”電腦問世提供了前提。以中國科大研究機(jī)構(gòu)為依托成立的國家863智能計(jì)算機(jī)成果轉(zhuǎn)化基地中央研究院、安徽硅谷天音信息科技有限公司對(duì)已取得的高新技術(shù)產(chǎn)品進(jìn)行了產(chǎn)品化,其第一個(gè)語音輸入和控制計(jì)算機(jī)產(chǎn)品“天音話王”已投放市場(chǎng),月銷量達(dá)百萬元,港、臺(tái)地區(qū)總銷量逾10成萬套。此前的IBM 產(chǎn)品、“漢王”聽寫產(chǎn)品在市場(chǎng)上都有較好表現(xiàn)。

  王仁華教授介紹,國內(nèi)智能電腦技術(shù)發(fā)展相當(dāng)迅速。中國科大的漢語音識(shí)別軟件對(duì)電腦常用命令、術(shù)語,如打開文件、刪除、新開窗口等,使用者不用進(jìn)行適應(yīng)性訓(xùn)練,亦可有較高的識(shí)別率;接受訓(xùn)練后的電腦,語音識(shí)別已超過實(shí)用標(biāo)準(zhǔn),配合手寫修改,完全可以讓普通人享受電腦文本處理的便利。中國科大研究成功的語音合成技術(shù)則是通過建立語音庫,先期大量錄入語音,用特殊的算法對(duì)要合成的語音進(jìn)行尋找、對(duì)應(yīng),因此擺脫了機(jī)器發(fā)聲,實(shí)際播出的聲音就是人聲。電腦已能初步識(shí)別諸如人手勢(shì)、形體動(dòng)作。

  但王教授也表示,包括語音識(shí)別在內(nèi),技術(shù)上要走的路還很遠(yuǎn)。如人的耳朵可以在嘈雜的聲音中區(qū)別出需要的聲音,而現(xiàn)行語音識(shí)別軟、硬件對(duì)背景場(chǎng)都沒有什么辦法。只有在弄清人耳朵語音識(shí)別機(jī)理,做出仿生識(shí)別系統(tǒng),才是語音識(shí)別的新臺(tái)階。

  盡管語音識(shí)別與合成技術(shù)是基礎(chǔ)而又專業(yè)的領(lǐng)域,但人們已認(rèn)定“傻瓜”電腦技術(shù)勢(shì)將對(duì)以家電為主的其他領(lǐng)域帶來新一輪的產(chǎn)業(yè)革命:將來不僅是電腦操作,洗衣、調(diào)整電視、甚至是開車、控制車床等,只要?jiǎng)觿?dòng)口即可;保安系統(tǒng)不僅可以報(bào)告發(fā)生不測(cè),還可以告訴您具體發(fā)生什么事情,如此等等!吧倒稀彪娔X技術(shù)的成熟,使真正意義上的智能電器、智能家庭、智能大廈得以出現(xiàn)。可喜的是,國內(nèi)這一方面基礎(chǔ)理論研究成果、關(guān)鍵技術(shù)屢獲突破,專家預(yù)測(cè),不久的將來,民族化、能聽會(huì)說、善于察言觀色的聰明的“傻瓜”電腦將出現(xiàn)在千家萬戶。

摘自《光明日?qǐng)?bào)》1999年11月17日



相關(guān)鏈接:
IBM推出Linux版本的ViaVoice 2002-01-30
Intel推出語音軟件項(xiàng)目 2002-01-30
IBM公司舉行ViaVoice電話語音識(shí)別新技術(shù)發(fā)布會(huì) 2002-01-30
語音識(shí)別新天地 2002-01-30
語音識(shí)別用于國內(nèi)呼叫中心 2002-01-30

分類信息:  語音合成TTS_與_語音識(shí)別ASR     技術(shù)_語音合成_新聞   技術(shù)_語音識(shí)別_新聞