首頁>>>技術>>>語音應用>>>語音識別(ASR)  語音識別產(chǎn)品

顏永紅:“搜索”語音識別技術的未來

2010/05/28

  顏永紅:中科院聲學所中科信利語音識別實驗室主任。

  1990年畢業(yè)于清華大學,1995年獲得美國俄勒岡研究院博士學位,后在該校任教,曾擔任OGI口語研究中心的副主任、英特爾微處理器實驗室的主任工程師和人機界面總框架師,英特爾中國研究中心的主任和首席研究員,英特爾全球人機界面學術委員會主席。

  2002年入選中科院百人計劃,任聲學所研究員、博士生導師,中科信利語音實驗室主任和所長助理。長期從事人機界面研究工作,目前從事的研究領域:大詞表非特定人連續(xù)語音識別,多模口語系統(tǒng),嵌入式系統(tǒng),多媒體數(shù)據(jù)檢索,系統(tǒng)自適應和快速搜索算法。


  10年前,他曾是英特爾微處理器實驗室的主任工程師和人機界面總框架師,英特爾中國研究中心的主任和首席研究員。

  如今,他一手創(chuàng)辦的中科院聲學所中科信利語音識別實驗室已發(fā)展成為國內(nèi)語言聲學領域規(guī)模最大、學科最全的實驗室,與實驗室同時成立的中科信利技術有限公司也取得了長足的發(fā)展。

  兩個“孩子”的長大讓他倍感欣慰。而同時,他錯過了兩個寶貝女兒的成長,這是他最遺憾的。

  “沒有什么后悔的,時間無法倒流,只能往前看。”中科院聲學所中科信利語音識別實驗室主任顏永紅說。

  一項技術,牽制搜索引擎

  “在不久的將來,互聯(lián)網(wǎng)將成為一個浩大的音視頻檔案庫,對下一代搜索引擎來說,語音識別技術是關鍵!鳖佊兰t說。

  在浩繁的音視頻數(shù)據(jù)庫中,要查找出所需的音視頻片斷,已經(jīng)成為困擾互聯(lián)網(wǎng)搜索的難題——目前的技術主要是搜索音視頻的關鍵詞,比如音視頻的名字或作者,并沒有辦法搜索音視頻內(nèi)容。而通過語音識別技術,可以把多媒體文件變成可識別的計算機語言,從而有效快速的實現(xiàn)準確搜索。

  事實上,語音識別技術也是各大公司競爭的一大焦點。

  去年11月份,谷歌推出的語音搜索引起極大關注。用戶只需在手機上安裝一個軟件,然后利用手機原有的麥克風,用普通話對手機說出需要查詢的內(nèi)容,谷歌中文語音搜索會自動返回整合的搜索結(jié)果。

  “從實驗室成立到現(xiàn)在,我們一直在做這方面的技術積累,很快,我們和國內(nèi)公司合作的語音搜索將面世!鳖佊兰t笑著說。

  目前,中科信利的中文電視廣播新聞節(jié)目識別系統(tǒng),就已經(jīng)被多家公司采用,并作為其提供給全國各電視臺的數(shù)字媒體管理系統(tǒng)中一個核心技術模塊。

  這個系統(tǒng)立刻引起本報記者的強烈興趣——當系統(tǒng)“收聽”到一段“新聞聯(lián)播”節(jié)目,自動將節(jié)目內(nèi)容生成文字,并且識別準確率驚人地高。

  “那是不是我們的采訪錄音直接可以被轉(zhuǎn)化成文字?”記者頓時興致勃勃。

  “現(xiàn)在還不行。”顏永紅笑著說,“因為語音識別包括語言模型和聲學模型,新聞語言可以建立語言模型,但口語卻很難建立語言模型!

  在語音識別實驗室里,視頻精確搜索已不是問題。

  在一段王楠比賽的視頻中,你只要輸入“側(cè)身搶拉”、“前三板”等關鍵詞,就可以找到精確到秒的視頻。這就意味著,如果你想找一部電影里的精彩片段,只需記得其中的經(jīng)典臺詞即可搜索。
  兩塊牌子,連起創(chuàng)新鏈條

  顏永紅記得,語音實驗室獲得的第一筆項目經(jīng)費來自科技部863項目2003年語音識別領域的比賽!拔覀兊淖R別率是最高的,獲得了20萬元的項目!

  如今,上千萬的課題在這里已不是新聞。他領導的這個年輕的團隊,已獲得授權發(fā)明專利22項;軟件著作權登記36項;有30余項發(fā)明專利正在審查中;在國內(nèi)外各種學術會議和刊物上,已經(jīng)發(fā)表了200多篇學術文章。

  中科信利技術有限公司在業(yè)內(nèi)也小有名氣,人們將他看成顏永紅的“著作”之一。

  事實上,8年前,公司的成立僅僅是給科研人員“畫了個餅”。

  “科研人員不會成為富翁,但是至少應該體面地工作、體面地生活,所以,成立一個公司,讓大家研發(fā)出來的技術有一個走出去的載體,這就是田靜所長和我當時的想法!鳖佊兰t說。于是,在只有100多萬元啟動資金的情況下,中科信利成立。

  萬事開頭難!肮厩皫啄甓紱]有收入,最困難的時候甚至瀕臨倒閉了!闭f這話時,顏永紅是微笑的,但笑容背后的艱辛是旁觀者無法體會的,而他也不愿多言。

  峰回路轉(zhuǎn),中科信利等到了第一次商機。其研發(fā)的產(chǎn)品嵌入式語音軟件被應用在了手機上,這就是大家比較熟悉的語音撥號。

  “有些人的手機里存了幾百上千個電話號碼,找起來很麻煩,安裝這一軟件后,只要對著手機叫出對方名字,即可調(diào)出他的資料!鳖佊兰t介紹道。

  這個嵌入式語音軟件支持語音撥號、命令控制、來電短信提醒、語音讀出短信、連呼數(shù)字撥號等功能。此外,他們還開發(fā)出基于分布式集群架構的語音處理平臺TSE。

  “在此之前,電信級語音識別引擎技術完全被美國公司壟斷,但現(xiàn)在我們完全有底氣說,我們占據(jù)了大半壁江山!毖灾链耍佊兰t的語調(diào)高了很多。確實,在國內(nèi),真正能夠?qū)⒄Z音識別產(chǎn)品拿出來,放在電信網(wǎng)上規(guī)模使用的,也只有中科信利。

  語音實驗室承擔著國家科研任務,中科信利公司開發(fā)語音技術產(chǎn)品,這兩個牌子的作用互為配合,相得益彰。顏永紅介紹說:“實用技術的推廣應用,不是所有實驗室的人員能夠勝任的事情。在科技創(chuàng)新的整個鏈條上,我們分為概念產(chǎn)生、原理研究、原理性樣機研制、產(chǎn)品化、市場推廣,總共為五個階段。語音實驗室基本承擔前三段,后兩段則由中科信利技術有限公司完成!

  “十一五”期間的策略是由公司支持實驗室,而“十二五”期間,需要大力發(fā)展公司。顏永紅說:“下一步我們需要積極探索,怎樣通過發(fā)展公司帶來更多機會,打破實驗室發(fā)展的瓶頸!
共 2 頁:1 2 

《科技日報》



相關閱讀:
淺析我國面向移動互聯(lián)網(wǎng)的終端產(chǎn)業(yè)發(fā)展 2010-05-26
3G,從行業(yè)應用突破 2010-05-24
海外運營商移動互聯(lián)網(wǎng)發(fā)展方向 2010-05-13
從手機支付看RFID在物聯(lián)網(wǎng)的切實應用 2010-05-05
開發(fā)者的夢工廠--移動應用程序 2010-04-26

熱點專題:  移動增值
相關頻道:  增值電信文摘