中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

 首頁(yè) > 新聞 > 專家觀點(diǎn) >

語(yǔ)音識(shí)別領(lǐng)域的“潛行者”

--專訪普強(qiáng)信息CEO何國(guó)濤、CTO李全忠

2014-06-30 16:37:29   作者:   來(lái)源:21CN股票   評(píng)論:0  點(diǎn)擊:


  隨著蘋果Siri的出現(xiàn),語(yǔ)音識(shí)別技術(shù)開始逐步走進(jìn)我們的視野。最直觀的感受,就是現(xiàn)在移動(dòng)互聯(lián)網(wǎng)的應(yīng)用中越來(lái)越多地以語(yǔ)音識(shí)別作為新的人機(jī)交互手段。

  那么語(yǔ)音識(shí)別究竟是怎么一回事,它又是怎樣被應(yīng)用并實(shí)現(xiàn)其價(jià)值的,通過它企業(yè)又能獲取怎樣的增值服務(wù)?帶著這些疑問,我們走進(jìn)普強(qiáng)信息技術(shù)(北京)有限公司,請(qǐng)被譽(yù)為語(yǔ)音識(shí)別領(lǐng)域舵手的普強(qiáng)CEO何國(guó)濤,和CTO李全忠先生來(lái)一一解說(shuō)。

  何國(guó)濤:普強(qiáng)CEO,北京大學(xué)及美國(guó)雪城大學(xué)計(jì)算機(jī)碩士,曾就職于硅谷惠普實(shí)驗(yàn)室及多家高科技創(chuàng)業(yè)企業(yè), 成功管理多個(gè)跨國(guó)項(xiàng)目。 擁有管理上億元營(yíng)收的公司經(jīng)驗(yàn)。 專長(zhǎng):大規(guī)模企業(yè)級(jí)服務(wù)器, Voice XML, IVR System.現(xiàn)主管公司運(yùn)營(yíng)。

  李全忠:普強(qiáng)聯(lián)合創(chuàng)始人和CTO,負(fù)責(zé)公司語(yǔ)音識(shí)別及語(yǔ)音分析技術(shù)。曾在IBM Almaden研究中心任研究員,在數(shù)據(jù)庫(kù)、數(shù)據(jù)分析、大數(shù)據(jù)處理及云計(jì)算等信息科技領(lǐng)域領(lǐng)導(dǎo)了多項(xiàng)研究項(xiàng)目。李全忠于1995年和1998年分別獲得北京大學(xué)計(jì)算機(jī)學(xué)士和碩士學(xué)位,隨后留學(xué)美國(guó),在亞利桑那大學(xué)獲得計(jì)算機(jī)博士學(xué)位。

  問:現(xiàn)在語(yǔ)音識(shí)別技術(shù)已經(jīng)成為目前快速推廣、作用顯著的一種技術(shù),但是對(duì)于普通用戶來(lái)說(shuō),這個(gè)概念可能更局限于諸如微信的語(yǔ)音輸入,請(qǐng)問這二者有什么異同點(diǎn),語(yǔ)音識(shí)別技術(shù)究竟是怎樣的一門技術(shù)呢?

  何國(guó)濤:語(yǔ)音識(shí)別技術(shù),簡(jiǎn)單地說(shuō)就是把用戶語(yǔ)音轉(zhuǎn)換成文本。它可以適用于不同的領(lǐng)域,例如移動(dòng)互聯(lián)網(wǎng),可以讓很多人工密集的呼叫中心實(shí)現(xiàn)自動(dòng)化和智能化,保障信息安全的如聲紋識(shí)別類,作為大數(shù)據(jù)挖掘的語(yǔ)音分析系統(tǒng),以及車聯(lián)網(wǎng)和教育產(chǎn)品等等。

  李全忠:微信的語(yǔ)音輸入只是一個(gè)應(yīng)用例子。未來(lái)在我們的日常生活中會(huì)越來(lái)越多的情況下使用語(yǔ)音識(shí)別技術(shù),能夠給我們的生活工作帶來(lái)很多便捷。

  問:嗯,語(yǔ)音識(shí)別技術(shù)就是把語(yǔ)音轉(zhuǎn)換成文本的技術(shù),那語(yǔ)音識(shí)別在哪些領(lǐng)域使用的比較多,能夠?yàn)檫@些企業(yè)帶來(lái)哪些效益?

  何國(guó)濤:語(yǔ)音識(shí)別技術(shù)可以應(yīng)用于許多不同的領(lǐng)域。現(xiàn)在使用最多的是移動(dòng)互聯(lián)網(wǎng)領(lǐng)域,可以直接把語(yǔ)音轉(zhuǎn)換成文字,為用戶解決了在小屏幕鍵盤輸入的困難;呼叫中心領(lǐng)域,通過采用語(yǔ)音識(shí)別技術(shù),自動(dòng)化處理大量的重復(fù)性工作,例如語(yǔ)音分析、語(yǔ)音IVR導(dǎo)航;導(dǎo)航及車聯(lián)網(wǎng),通過智能語(yǔ)音輸入,使駕駛?cè)藛T能夠通過語(yǔ)音控制相應(yīng)的非駕駛操作,讓駕駛?cè)藛T專注駕駛操作,增加駕駛的安全性;教育領(lǐng)域:口語(yǔ)評(píng)測(cè);玩具領(lǐng)域:語(yǔ)音控制;聲紋識(shí)別領(lǐng)域:增強(qiáng)系統(tǒng)安全性能,這是今年語(yǔ)音識(shí)別的主要收入增長(zhǎng)點(diǎn);醫(yī)療保健領(lǐng)域:應(yīng)用到電子病歷中,可自動(dòng)實(shí)現(xiàn)醫(yī)生口述病歷及醫(yī)囑等等。

  問:確實(shí)是給我們?nèi)粘I顜?lái)了很大的便捷,也為企業(yè)提供了有效的解決方案。作為語(yǔ)音識(shí)別領(lǐng)域的重要研發(fā)企業(yè),普強(qiáng)在語(yǔ)音識(shí)別領(lǐng)域有著怎樣的技術(shù)優(yōu)勢(shì)?

  李全忠:普強(qiáng)目前已經(jīng)為金融、電信、保險(xiǎn)等行業(yè)提供高準(zhǔn)確度和高性能的電話線信道的 ASR(語(yǔ)音識(shí)別)引擎。

  移動(dòng)互聯(lián)網(wǎng)方面,普強(qiáng)早在2010年7月便與愛幫網(wǎng)推出了語(yǔ)音版的LBS手機(jī)應(yīng)用,這是國(guó)內(nèi)首個(gè)基于開放語(yǔ)音云平臺(tái)下支持多操作系統(tǒng)的手機(jī)應(yīng)用。近年來(lái),隨著公司不斷的積累,語(yǔ)音識(shí)別的技術(shù)和產(chǎn)品都相應(yīng)獲得了全方面領(lǐng)先優(yōu)勢(shì)的發(fā)展。在產(chǎn)品的聲學(xué)建模上,開發(fā)使用了深度神經(jīng)網(wǎng)絡(luò)技術(shù);公司研發(fā)的語(yǔ)音切分技術(shù)及識(shí)別結(jié)果的置信度算法,不但為企業(yè)級(jí)應(yīng)用提供準(zhǔn)確的識(shí)別結(jié)果,同時(shí)也提供了精確的說(shuō)話人分割、時(shí)間邊界以及識(shí)別結(jié)果的置信度等信息,這些信息使企業(yè)在應(yīng)用中(例如呼叫中心),更加便捷和準(zhǔn)確地利用語(yǔ)音作為主要的交互方式,并且可以進(jìn)一步挖掘、分析和利用海量語(yǔ)音數(shù)據(jù)的內(nèi)容。

 

  何國(guó)濤:普強(qiáng)智能語(yǔ)音分析系統(tǒng)可以廣泛應(yīng)用于客服中心的質(zhì)檢和企業(yè)的精準(zhǔn)營(yíng)銷中。該產(chǎn)品提供例如熱點(diǎn)發(fā)現(xiàn),趨勢(shì)分析,自動(dòng)建模等領(lǐng)先的功能。

  普強(qiáng)在不斷開發(fā)新技術(shù)的同時(shí),也在企業(yè)語(yǔ)音應(yīng)用的多個(gè)領(lǐng)域,(例如保險(xiǎn)、銀行、證券及電信等的客服中心、增值服務(wù)等)積累了海量的數(shù)據(jù)、模型信息和項(xiàng)目的經(jīng)驗(yàn)。

  問:由此可以看出普強(qiáng)信息的技術(shù)實(shí)力和優(yōu)勢(shì)。目前依托語(yǔ)音識(shí)別技術(shù),普強(qiáng)有哪些成熟的產(chǎn)品?

  何國(guó)濤:成熟的產(chǎn)品主要有,千語(yǔ)語(yǔ)音平臺(tái),向企業(yè)提供語(yǔ)音識(shí)別產(chǎn)品和服務(wù);千語(yǔ)語(yǔ)音云平臺(tái),為手機(jī)互聯(lián)網(wǎng)應(yīng)用提供的語(yǔ)音識(shí)別云服務(wù);普強(qiáng)智能語(yǔ)音分析系統(tǒng),為企業(yè)提供全方位、多維度的大數(shù)據(jù)分析(語(yǔ)音,視頻,文本數(shù)據(jù)等)。

  問:您所提到的語(yǔ)音分析系統(tǒng)與傳統(tǒng)的人工分析相比,有哪些優(yōu)勢(shì)?

  何國(guó)濤:語(yǔ)音分析系統(tǒng)的優(yōu)勢(shì)主要有以下幾個(gè)方面。

  1. 數(shù)據(jù)覆蓋更全:很顯然,智能語(yǔ)音分析人工分析工具所難以比擬的數(shù)據(jù)覆蓋性,語(yǔ)音分析可以做到100%覆蓋,但人工分析一般抽樣比例低于5%.

  2. 數(shù)據(jù)處理能力更強(qiáng):相比于人工分析,智能語(yǔ)音分析數(shù)據(jù)處理能力更高,每一個(gè)CPU線程每一小時(shí)可以處理分析2.6小時(shí)的錄音,而人工分析每人每一小時(shí)只能處理分析0.4小時(shí)的錄音。一般標(biāo)配服務(wù)器為16核CPU,一般等同于104人。(Elwin,這里需要說(shuō)得更簡(jiǎn)單直白一些,“一般標(biāo)配服務(wù)器16和CPU,一般等同于104人”,具體是什么意思?)

  3. 具有精確的分析功能:語(yǔ)音分析可以通過聚類算法知道熱點(diǎn)業(yè)務(wù)、高頻詞匯;同時(shí)也可以通過篩選算法,在幾秒鐘內(nèi)就可找到目標(biāo)數(shù)據(jù),而人工分析無(wú)法處理大數(shù)據(jù)量計(jì)算統(tǒng)計(jì)工作。

  4. 更具智能性:語(yǔ)音分析可以進(jìn)行大數(shù)據(jù)量的統(tǒng)計(jì)計(jì)算,從而找出中間的具有某個(gè)特定特性的集合,并且分析集合間的相關(guān)性,而人工分析無(wú)法進(jìn)行大數(shù)量的計(jì)算。

  5.自動(dòng)性:語(yǔ)音分析可以事先預(yù)設(shè)統(tǒng)計(jì)規(guī)則,并設(shè)置回溯期的數(shù)據(jù)重新統(tǒng)計(jì)計(jì)算,人工無(wú)法將歷史數(shù)據(jù)采用新算法計(jì)算。

  6.統(tǒng)計(jì)計(jì)算工具:語(yǔ)音分析具備大量的數(shù)據(jù)挖掘和分析工具,人工分析只能做簡(jiǎn)單的計(jì)算統(tǒng)計(jì)。

  問:與國(guó)際水平相比,國(guó)內(nèi)的語(yǔ)音識(shí)別技術(shù)整體上處在一個(gè)怎樣的層次?

  何國(guó)濤:在中文語(yǔ)音識(shí)別領(lǐng)域,國(guó)內(nèi)的科研院所及公司的數(shù)據(jù)積累要遠(yuǎn)遠(yuǎn)多于國(guó)外的同行,因此在中文的識(shí)別準(zhǔn)確度上要好于國(guó)外。國(guó)內(nèi)技術(shù)型創(chuàng)業(yè)公司(包括普強(qiáng))在研發(fā)和利用新技術(shù)方面有很大的靈活性,站在技術(shù)的前沿,這同時(shí)也提高了國(guó)內(nèi)語(yǔ)音技術(shù)在國(guó)內(nèi)的產(chǎn)業(yè)化水平。在企業(yè)應(yīng)用市場(chǎng)方面仍然落后于歐美的發(fā)達(dá)國(guó)家,但是目前處于迅速跟進(jìn)和快速發(fā)展的階段,這給語(yǔ)音產(chǎn)業(yè)的創(chuàng)業(yè)公司尤其是面向企業(yè)市場(chǎng)的公司提供了廣闊的市場(chǎng)空間。

  問:作為國(guó)內(nèi)語(yǔ)音識(shí)別技術(shù)的優(yōu)秀創(chuàng)業(yè)企業(yè)之一,普強(qiáng)預(yù)計(jì)語(yǔ)音識(shí)別的未來(lái)發(fā)展會(huì)是怎樣的?

  李全忠:在技術(shù)方面,從簡(jiǎn)單的聲音模板匹配,到GMM/HMM,再到DNN/HMM每個(gè)新技術(shù)的發(fā)展都能給ASR的準(zhǔn)確率帶來(lái)一個(gè)飛躍,但仍然有很多問題需要解決,比如適應(yīng)各種環(huán)境的噪音,尤其是含有人聲的背景噪聲、口音及方言的識(shí)別、以及在嵌入式設(shè)備中降低功耗等。

  普強(qiáng)會(huì)繼續(xù)投入大量的資源去解決這些問題。以保證普強(qiáng)在技術(shù)上的領(lǐng)先地位。

  問:您認(rèn)為普強(qiáng)未來(lái)的發(fā)展方向是怎樣的?

  何國(guó)濤:正如我之前提到的,ASR可應(yīng)用在很多不同領(lǐng)域。包括:企業(yè)呼叫中心,車載導(dǎo)航領(lǐng)域、教育領(lǐng)域、玩具領(lǐng)域、聲紋識(shí)別領(lǐng)域和醫(yī)療保健領(lǐng)域等。普強(qiáng)的自主專利核心技術(shù)都可以支持這些領(lǐng)域。目前,我們集中資源在企業(yè)呼叫中心和移動(dòng)互聯(lián)網(wǎng)領(lǐng)域。我們的產(chǎn)品在這一領(lǐng)域有明顯的優(yōu)勢(shì),會(huì)繼續(xù)投資現(xiàn)有的領(lǐng)域,同時(shí)也會(huì)在此領(lǐng)域繼續(xù)加大投入以保持我們的優(yōu)勢(shì),當(dāng)然,也會(huì)投入在車載、教育等領(lǐng)域來(lái)建立技術(shù)屏障。

分享到: 收藏

專題