首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識別(ASR)  語音識別產(chǎn)品


國內(nèi)電腦語音識別技術(shù)屢獲突破

  記者日前在中國科大人機語音通信實驗室采訪時看到令人震驚的一幕:操作人員只需按動電腦電源,隨后信口發(fā)號施令,電腦即可按主人的意思進行文字輸入、文件處理、收發(fā)郵件,甚至可以與使用者對話等等。該研究室負(fù)責(zé)人、智能計算機成果轉(zhuǎn)化基地中央研究院院長王仁華教授告訴記者:“中文‘傻瓜’電腦悄然向我們走來!”

  “讓電腦聽懂說話,讓電腦開口說話!睅缀踉谟嬎銠C誕生的時候,專家們就開始向這一方面努力。只有達(dá)到這一目標(biāo),電腦才能成為世界上最聰明的“傻瓜”。

  在計算機王國美國,行業(yè)頭號霸主IBM率先進行電腦語音識別研究。經(jīng)過20多年的努力,先后推出英文、法文、德文等近十種文字的語音識別技術(shù)。由于漢語結(jié)構(gòu)復(fù)雜,單章節(jié)為主,同音字多,方言多,語法亦不規(guī)范,直到1997 年底,IBM才推出不太成熟的漢語識別技術(shù)。這些頂尖高手們深知漢語音識別技術(shù)艱難,自身難以攻克,就以較低的價格,或技術(shù)互換的方式向全世界二次開發(fā)商、科研機構(gòu)提供軟件內(nèi)核。

  此后的一年多時間里,“讓電腦聽懂說話”技術(shù)獲得迅疾突破,微軟、IBM、摩托羅拉等世界級開發(fā)商投入大量人力物力。首創(chuàng)電腦聲卡的新加坡創(chuàng)新公司,臺灣清華大學(xué)和香港中文大學(xué)等華語研究開發(fā)機構(gòu)在漢語音技術(shù)方面做了大量工作,語音導(dǎo)航、語音識別等技術(shù)日臻成熟。IBM公司1998年推出的漢語識別軟件ViaVioice98,可在普通話基礎(chǔ)上適應(yīng)廣東、四川、上海等有代表性的方音,只要讀5個詞、3句話即可建立一個語音模型,并有使用中自學(xué)功能。

  “英雄所見略同”,漢語音技術(shù)在我國是“863”計劃支持最早、時間最長的智能計算機領(lǐng)域攻關(guān)課題。清華大學(xué)、中國科學(xué)院聲學(xué)所、中國科學(xué)技術(shù)大學(xué)等8家研究機構(gòu)成立相關(guān)技術(shù)攻關(guān)組,接受“863”計劃支持。到1997年底,由王仁華教授領(lǐng)導(dǎo)的中國科大人機語音通信實驗室、國家智能計算機研究開發(fā)中心在漢語音識別、合成方面取得突破;與 IBM進行技術(shù)交流獲得語音識別內(nèi)核基礎(chǔ)上進行再開發(fā),漢語音識別技術(shù)與IBM同步;語音合成方面通過十幾年的摸索,毅然放棄國際通行的方法,獨創(chuàng)“人聲道模擬技術(shù)”,結(jié)束了在語音信號處理,音頻、視頻編碼和傳輸?shù)阮I(lǐng)域內(nèi)多項關(guān)鍵技術(shù)上達(dá)到國際領(lǐng)先水平,結(jié)束了漢語音合成清晰度與自然度的制約,電腦終于可以說出流利的漢語。

  記者在中國科大看到,操作者從因特網(wǎng)上下載一篇新聞,電腦即可略帶情感地讀出它!863”專家組曾作過檢測,把電臺播音員播出水平打成5分,中國科大電腦合成的語音可打4分。

  理論研究基礎(chǔ)和科技上的突破,為漢語“能聽會說”電腦問世提供了前提。以中國科大研究機構(gòu)為依托成立的國家863智能計算機成果轉(zhuǎn)化基地中央研究院、安徽硅谷天音信息科技有限公司對已取得的高新技術(shù)產(chǎn)品進行了產(chǎn)品化,其第一個語音輸入和控制計算機產(chǎn)品“天音話王”已投放市場,月銷量達(dá)百萬元,港、臺地區(qū)總銷量逾10成萬套。此前的IBM 產(chǎn)品、“漢王”聽寫產(chǎn)品在市場上都有較好表現(xiàn)。

  王仁華教授介紹,國內(nèi)智能電腦技術(shù)發(fā)展相當(dāng)迅速。中國科大的漢語音識別軟件對電腦常用命令、術(shù)語,如打開文件、刪除、新開窗口等,使用者不用進行適應(yīng)性訓(xùn)練,亦可有較高的識別率;接受訓(xùn)練后的電腦,語音識別已超過實用標(biāo)準(zhǔn),配合手寫修改,完全可以讓普通人享受電腦文本處理的便利。中國科大研究成功的語音合成技術(shù)則是通過建立語音庫,先期大量錄入語音,用特殊的算法對要合成的語音進行尋找、對應(yīng),因此擺脫了機器發(fā)聲,實際播出的聲音就是人聲。電腦已能初步識別諸如人手勢、形體動作。

  但王教授也表示,包括語音識別在內(nèi),技術(shù)上要走的路還很遠(yuǎn)。如人的耳朵可以在嘈雜的聲音中區(qū)別出需要的聲音,而現(xiàn)行語音識別軟、硬件對背景場都沒有什么辦法。只有在弄清人耳朵語音識別機理,做出仿生識別系統(tǒng),才是語音識別的新臺階。

  盡管語音識別與合成技術(shù)是基礎(chǔ)而又專業(yè)的領(lǐng)域,但人們已認(rèn)定“傻瓜”電腦技術(shù)勢將對以家電為主的其他領(lǐng)域帶來新一輪的產(chǎn)業(yè)革命:將來不僅是電腦操作,洗衣、調(diào)整電視、甚至是開車、控制車床等,只要動動口即可;保安系統(tǒng)不僅可以報告發(fā)生不測,還可以告訴您具體發(fā)生什么事情,如此等等!吧倒稀彪娔X技術(shù)的成熟,使真正意義上的智能電器、智能家庭、智能大廈得以出現(xiàn)?上驳氖牵瑖鴥(nèi)這一方面基礎(chǔ)理論研究成果、關(guān)鍵技術(shù)屢獲突破,專家預(yù)測,不久的將來,民族化、能聽會說、善于察言觀色的聰明的“傻瓜”電腦將出現(xiàn)在千家萬戶。

摘自《光明日報》1999年11月17日



相關(guān)鏈接:
IBM推出Linux版本的ViaVoice 2002-01-30
Intel推出語音軟件項目 2002-01-30
IBM公司舉行ViaVoice電話語音識別新技術(shù)發(fā)布會 2002-01-30
語音識別新天地 2002-01-30
語音識別用于國內(nèi)呼叫中心 2002-01-30

分類信息:  語音合成TTS_與_語音識別ASR     技術(shù)_語音合成_新聞   技術(shù)_語音識別_新聞