中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

語(yǔ)音識(shí)別——車(chē)機(jī)革命從這里興起

2013-10-09 16:57:33   作者:   來(lái)源:車(chē)音網(wǎng)    評(píng)論:0  點(diǎn)擊:


  “語(yǔ)音識(shí)別”作為一場(chǎng)解放雙手的革命,幾十年來(lái)一直備受推崇,但這場(chǎng)革命總是處在不溫不火的狀態(tài),從電腦到手機(jī),再到如今的車(chē)機(jī),“語(yǔ)言識(shí)別”一直是叫好不叫座。這樣“溫水煮青蛙”的狀態(tài)什么時(shí)候才能改變?“語(yǔ)音識(shí)別”將是下一個(gè)互聯(lián)網(wǎng)的入口?它會(huì)掀起車(chē)機(jī)領(lǐng)域的變革嗎?帶著這些疑問(wèn),筆者采訪(fǎng)了專(zhuān)注人機(jī)交互語(yǔ)音識(shí)別的企業(yè)——車(chē)音網(wǎng)首席執(zhí)行官王力劭。


語(yǔ)音識(shí)別——車(chē)機(jī)革命從這里興起

  數(shù)據(jù)采集 提高用戶(hù)感受度

  “沒(méi)有任何一種引擎可以說(shuō)把方言語(yǔ)音識(shí)別處理好,這是由人們采集的語(yǔ)音量來(lái)決定的。”

  車(chē)音網(wǎng)一直致力于人機(jī)交互的語(yǔ)音識(shí)別系統(tǒng)的研發(fā)和推廣,而車(chē)音網(wǎng)提出的自然語(yǔ)言識(shí)別概念一直為外界所津津樂(lè)道。何為自然語(yǔ)言識(shí)別?通俗的來(lái)說(shuō)就是可以識(shí)別人們的日常語(yǔ)言習(xí)慣,你講普通話(huà)也好,講方言也好,系統(tǒng)都能識(shí)別出你要表達(dá)的意思,這就是在最自然的狀態(tài)下達(dá)到了人機(jī)交互的目的。

  方言的語(yǔ)音識(shí)別到底準(zhǔn)還是不準(zhǔn)呢?如何提升用戶(hù)體驗(yàn)度?王力劭解釋說(shuō),語(yǔ)音識(shí)別還是機(jī)器學(xué)習(xí)技術(shù)的一種,因?yàn)橛?jì)算機(jī)沒(méi)有聯(lián)想能力,它只能按你告訴它的規(guī)則去做。所以識(shí)別不是完全靠程序來(lái)實(shí)現(xiàn)的,還要靠采集到的大量同一句話(huà)的不同波形,建立龐大的語(yǔ)音信息資源庫(kù)來(lái)實(shí)現(xiàn)。在普通話(huà)語(yǔ)系里有各種各樣的樣本,當(dāng)采集的某一個(gè)樣本跟之前的聲音很像,可能落在之前采集的樣本里,系統(tǒng)就能識(shí)別這句話(huà)。當(dāng)采集到十萬(wàn)、百萬(wàn)、千萬(wàn)個(gè)人說(shuō)話(huà)的樣本后,覆蓋面就非常廣了。作為這方面的先行者,王總又補(bǔ)充道,采集的樣本必須分布合理,根據(jù)地域、年齡段、性別將其區(qū)分。所以采集的樣本越多,機(jī)器識(shí)別的就越準(zhǔn)確。

  在方言識(shí)別方面,車(chē)音網(wǎng)把方言按語(yǔ)系來(lái)劃分,如廣東話(huà)、上海話(huà)、閩南話(huà)等。但是同一語(yǔ)系不同地區(qū)的人方言也會(huì)有很大的區(qū)別,為此王總打了一個(gè)比方,就像同樣講英語(yǔ),北美地區(qū)的、非洲地區(qū)的和亞洲地區(qū)的講起來(lái)的感覺(jué)也是不盡相同,所以在采集數(shù)據(jù)時(shí)就要求覆蓋面廣,一個(gè)語(yǔ)系內(nèi)不同地區(qū)的方言都要采集到。而車(chē)音網(wǎng)在英語(yǔ)識(shí)別方面也采集了很多地區(qū)英語(yǔ)口音的樣本,這些樣本主要來(lái)自于東南亞地區(qū)。所以王總不無(wú)感慨的說(shuō):“沒(méi)有一種引擎可以說(shuō)自己的方言語(yǔ)音識(shí)別處理的好,更多的還要依賴(lài)于研究團(tuán)隊(duì)采集的語(yǔ)音量。”

  十年磨一劍 成就技術(shù)壁壘

  “這三輪數(shù)據(jù)的采集就是現(xiàn)在車(chē)音網(wǎng)的核心,一個(gè)公司低下頭一直這樣踏踏實(shí)實(shí)地干不是件容易的事。”

  上千萬(wàn)的語(yǔ)音樣本采集聽(tīng)起來(lái)就是一項(xiàng)持久而艱辛的工作,在這個(gè)過(guò)程中車(chē)音網(wǎng)花費(fèi)了多少時(shí)間、多少精力,這些都是他人不知道的。王力劭說(shuō),國(guó)外最早出現(xiàn)的語(yǔ)音識(shí)別是IBM ViaVoice ,就是一個(gè)人對(duì)著機(jī)器不停地說(shuō)話(huà),訓(xùn)練機(jī)器的次數(shù)越多,機(jī)器的識(shí)別率越高。但是這種方式只針對(duì)特定的人,換一個(gè)人就不行了。特定的人不需要采集語(yǔ)樣,只需要不停地訓(xùn)練就可以了,機(jī)器運(yùn)算相對(duì)來(lái)說(shuō)也簡(jiǎn)單多了?梢哉f(shuō),IBM ViaVoice所帶來(lái)的不用雙手的輸入方式,是一場(chǎng)解放雙手的革命。車(chē)音網(wǎng)做語(yǔ)音識(shí)別是從99年開(kāi)始的,是中國(guó)最早一批研究非特定人語(yǔ)音識(shí)別技術(shù)的企業(yè),那時(shí)他們?cè)谧瞿M推演時(shí)發(fā)現(xiàn),即使能夠采集來(lái)數(shù)據(jù),機(jī)器也沒(méi)有那么大的計(jì)算能力,服務(wù)器性能低下,根本無(wú)法進(jìn)行系統(tǒng)開(kāi)發(fā),所以決定投入大量的精力進(jìn)行語(yǔ)音采集。

  語(yǔ)音的采集也不是一件容易的事,當(dāng)時(shí)車(chē)音網(wǎng)想到的就是最原始的方法——雇人,全國(guó)各地找代表收集語(yǔ)音樣本。他們制定了一套采集標(biāo)準(zhǔn),有明確的區(qū)間劃分,然后整理了一份大約50句話(huà)的腳本。這50句話(huà)也是經(jīng)過(guò)了一番研究確定的,正常人在讀這50句話(huà)時(shí),可以把聲音的鏈接方式、發(fā)聲規(guī)律、特征點(diǎn)概括出來(lái)。這個(gè)苦力活一直干到2004年,從今天的眼光來(lái)看,當(dāng)年做這件事是一個(gè)非常明智的決定。這項(xiàng)工作依靠融資和風(fēng)投耗費(fèi)了幾千萬(wàn)的資金,但是獲得的語(yǔ)音量是非常廣的,并且都是按照車(chē)音網(wǎng)自己的規(guī)范來(lái)的。而這一點(diǎn),如今的多數(shù)創(chuàng)業(yè)公司已經(jīng)很難做到了,資金消耗動(dòng)輒上億,風(fēng)投也會(huì)更加謹(jǐn)慎評(píng)估了。所以說(shuō)采集的數(shù)據(jù)也成為車(chē)音網(wǎng)語(yǔ)音識(shí)別的一個(gè)壁壘。

  2001年,車(chē)音網(wǎng)開(kāi)始跟多家電信運(yùn)營(yíng)商合作,負(fù)責(zé)語(yǔ)音點(diǎn)歌、語(yǔ)音查詢(xún)等,并且上線(xiàn)了一系列電子系統(tǒng),和一些城市的114也展開(kāi)了合作,這樣他們就可以收集到大量的8K信道的數(shù)據(jù),8K數(shù)據(jù)是最基本電話(huà)通道的數(shù)據(jù),F(xiàn)在人們很容易收集到16K的聲音,如微信等軟件,但16k的聲音和電話(huà)里的不同,所以現(xiàn)在一些公司缺乏8K數(shù)據(jù)采集的機(jī)會(huì), 8K的數(shù)據(jù)是稀缺的。

分享到: 收藏

專(zhuān)題