淺析語(yǔ)音識(shí)別的移動(dòng)互聯(lián)網(wǎng)應(yīng)用
2010/08/18
摘要:語(yǔ)音識(shí)別技術(shù)發(fā)展到現(xiàn)在已經(jīng)達(dá)到應(yīng)用水平,這項(xiàng)技術(shù)的推廣普及必在移動(dòng)互聯(lián)網(wǎng)行業(yè)。也許有一天我們可以通過(guò)藍(lán)牙耳機(jī)直接呼出我們的問(wèn)題,在通過(guò)藍(lán)牙耳機(jī)聽(tīng)到我們想得到的答案,而這除了浪費(fèi)點(diǎn)流量一切都是免費(fèi)的。
最早接觸的語(yǔ)音識(shí)別軟件是臺(tái)灣的賽微,這家公司的語(yǔ)音識(shí)別技術(shù)在當(dāng)時(shí)已經(jīng)達(dá)到應(yīng)用的水平。軟件本身不錯(cuò),但是有兩個(gè)問(wèn)題:一是對(duì)不常用的詞語(yǔ)的識(shí)別率不高,識(shí)別速度一般,占用先相對(duì)多的內(nèi)存;二是市場(chǎng)需求不強(qiáng)烈,因?yàn)榧夹g(shù)不是非常成熟和市場(chǎng)處于培育期,多數(shù)用戶(hù)只是打著試試的想法試用軟件。
賽微的語(yǔ)音識(shí)別技術(shù)只是應(yīng)用于手機(jī)本身并不應(yīng)用于網(wǎng)絡(luò)搜索,讓我們意料之外的是,最早將語(yǔ)音識(shí)別技術(shù)應(yīng)用于移動(dòng)搜索的是歌曲的移動(dòng)搜索。在這類(lèi)移動(dòng)應(yīng)用中佼佼者要數(shù):midomi和shazam,這兩個(gè)軟件都支持多個(gè)手機(jī)平臺(tái),感興趣的用戶(hù)可以下載,注意的是shazam是免費(fèi)的。
這類(lèi)應(yīng)用的功能和百度即將推出的哼唱搜索是一個(gè)概念,用戶(hù)只需打開(kāi)軟件通過(guò)話(huà)筒哼唱歌曲或接受播放的音樂(lè),軟件根據(jù)采集的數(shù)據(jù)來(lái)識(shí)別相應(yīng)的歌曲。原理是采集音頻數(shù)據(jù),上傳數(shù)據(jù),核對(duì)數(shù)據(jù)庫(kù)里類(lèi)似的音頻數(shù)據(jù),發(fā)送結(jié)果到設(shè)備。這種技術(shù)已經(jīng)達(dá)到非常成熟的水平,識(shí)別率達(dá)到90%以上甚至更高(這里的識(shí)別率只針對(duì)標(biāo)準(zhǔn)的唱片音頻,每個(gè)人的水平參差不齊識(shí)別率的標(biāo)準(zhǔn)不好確定)。而且通過(guò)這類(lèi)手機(jī)軟件產(chǎn)生的流量也很少,一般維持在15k~30k。
賽微的語(yǔ)音識(shí)別技術(shù)止步于單純的手機(jī)應(yīng)用,midomi和shazam等移動(dòng)終端應(yīng)用也止步于音樂(lè)的在線(xiàn)搜索,而搜索引擎廠商如Google、Bing、還有后面跟進(jìn)的百度都在大力推進(jìn)語(yǔ)音識(shí)別搜索的網(wǎng)絡(luò)化。微軟的Bing移動(dòng)版和Google的Google地圖等率先實(shí)現(xiàn)語(yǔ)音識(shí)別技術(shù)應(yīng)用于移動(dòng)搜索領(lǐng)域,而百度在語(yǔ)音移動(dòng)搜索這個(gè)領(lǐng)域看來(lái)也想分一杯羹。
從已經(jīng)發(fā)布的微軟和Google語(yǔ)音搜索應(yīng)用中我們可以發(fā)現(xiàn),語(yǔ)音搜索離我們的生活還是有一段距離。最大的阻礙還是語(yǔ)音識(shí)別率不高,尤其是生詞的識(shí)別率超低,生詞基本不能識(shí)別,識(shí)別時(shí)間較長(zhǎng),占用的內(nèi)存和CPU較多等。就拿Bing移動(dòng)版來(lái)說(shuō),目前只支持英文語(yǔ)音搜索,而像Washington、blog、twitter等這類(lèi)超常用的詞匯識(shí)別率很高,識(shí)別用時(shí)也很短,而比較生僻的詞匯用時(shí)較長(zhǎng),識(shí)別率也很低。我們平時(shí)用手機(jī)鍵盤(pán)或虛擬鍵盤(pán)只要2~3秒可以完成的輸入,在語(yǔ)音搜索這里可能需要多達(dá)1分鐘才能輸入,而且還不一定準(zhǔn)確。這就是我們現(xiàn)在語(yǔ)音搜索還不普及的原因,用戶(hù)要的是效率而不是新穎的噱頭。
個(gè)人還是相對(duì)看好百度的歌曲哼唱搜索,原因是這方面的語(yǔ)音識(shí)別中的音樂(lè)搜索技術(shù)相對(duì)要成熟些,但鑒于每個(gè)人哼唱的水平不一,識(shí)別率自然天差地別。今年以來(lái),百度開(kāi)始加強(qiáng)語(yǔ)音識(shí)別的投入力度。尤其上個(gè)月連續(xù)發(fā)出啟事,招募語(yǔ)音識(shí)別的技術(shù)帶頭人、高級(jí)工程師和工程師等崗位。并提出能敏銳把握語(yǔ)音識(shí)別技術(shù)方向,主導(dǎo)開(kāi)發(fā)過(guò)應(yīng)用級(jí)別的語(yǔ)音識(shí)別系統(tǒng),四年以上語(yǔ)音方向的研究經(jīng)驗(yàn)等要求。
從國(guó)內(nèi)來(lái)看,除百度外,盛大也對(duì)語(yǔ)音識(shí)別技術(shù)情有獨(dú)鐘。盛大網(wǎng)絡(luò)創(chuàng)新院早在去年便靜悄悄地組建了中國(guó)最強(qiáng)悍的語(yǔ)音識(shí)別團(tuán)隊(duì),而且盛大決定對(duì)外開(kāi)放哼唱搜索技術(shù)相關(guān)源代碼,以幫助國(guó)內(nèi)這個(gè)領(lǐng)域的研究人員得到分享和幫助。
音樂(lè)搜索只是語(yǔ)音搜索的冰山一角,移動(dòng)語(yǔ)音搜索才是語(yǔ)音搜索的重頭戲。而現(xiàn)在語(yǔ)音搜索技術(shù)正在逐漸成熟,語(yǔ)音搜索正在擺脫噱頭的頭銜走向普及應(yīng)用。請(qǐng)大家放心,短時(shí)間內(nèi)語(yǔ)音搜索只能是噱頭,無(wú)聊地時(shí)候當(dāng)噱頭在眾人前面擺弄下還是游刃有余的。 若干年后,我們的生活可以被“語(yǔ)音”得很科幻。
21世紀(jì)網(wǎng)
相關(guān)閱讀: