語音識別是“最具前途”的領(lǐng)域
從北京大學和美國費城大學分別獲得計算機系碩士學位后,何國濤曾在HP、Aruba等公司從事Opencall、Voice XML、無線網(wǎng)關(guān)等產(chǎn)品的研究和開發(fā),HP多媒體服務(wù)器的語音識別技術(shù),就是他所在的小組研發(fā)的。
而也就是在Aurba,何國濤結(jié)識了蒲瑤。后者本科畢業(yè)于中國科技大學,是科大訊飛CEO劉慶峰同系校友,同樣也是從事語音識別相關(guān)產(chǎn)品的研發(fā)。
2008年,科大訊飛上市,一度壟斷國內(nèi)語音識別市場的半壁江山。但那時的語音識別創(chuàng)業(yè)領(lǐng)域,還是一片待開發(fā)的處女地。后來被蘋果收購的Siri也成立沒有多久,而何國濤卻動了創(chuàng)業(yè)的念頭。
“我剛畢業(yè)時,根本還沒有人會說自己是學人工智能相關(guān)的。因為那意味著失業(yè)。”何國濤說。“也有很多人質(zhì)疑,總是說這個方向不對,那個技術(shù)不好。而我們就決定,自己出來,在這個領(lǐng)域做一些事情。”
何國濤和蒲瑤最終還是決定,在語音識別領(lǐng)域做下去。“創(chuàng)業(yè),我認為一是要有技術(shù)壁壘,二就是要有能夠賺錢的市場。我在惠普接觸了客戶需求,也懂得應(yīng)用,我認為,語音識別仍然是最具前途的領(lǐng)域之一,而當時,其他人要進入這塊領(lǐng)域,也并非容易。”為了解決核心算法,何國濤還“挖”來了自己的師弟——IBM Almaden研究中心的李全忠博士。后者一直從事數(shù)據(jù)庫及云計算研究,還獲得過IBM發(fā)明成就獎。
于是,普強信息最初的創(chuàng)始團隊形成了。何國濤擔任CEO,負責公司運營;李全忠博士任CTO,負責核心算法的研究;蒲瑤(普強信息VP)負責產(chǎn)品。2009年,普強信息在美國加州硅谷成立,并獲得了EDA之父黃炎松博士的100萬美元A輪投資。第二年,普強信息設(shè)立了中國運營公司,在硅谷和中關(guān)村都設(shè)有技術(shù)研發(fā)中心。2013年,普強獲得戈壁領(lǐng)投500萬美元B輪投資,2016年獲得四維圖新領(lǐng)投的近億人民幣的C輪融資。
目前,普強研發(fā)團隊占公司人員的80%左右,其中博士、碩士以上學歷者超過30%。
挑戰(zhàn)語音大數(shù)據(jù)分析
何國濤對公司的發(fā)展方向有長期的思考。“小公司做事要專注,現(xiàn)在普強一百多人只做垂直領(lǐng)域,包括車載和電話信道語音識別,而且要做到最好。其實這很簡單,就集中優(yōu)勢力量做好一個小事情。”
普強在自身的語音識別和語義分析技術(shù)基礎(chǔ)上,就鎖定了兩個方向:語音大數(shù)據(jù)和車載。
當前,由于智能設(shè)備的大量應(yīng)用,大量數(shù)據(jù),尤其是呼叫中心等領(lǐng)域,大部分數(shù)據(jù)都是語音和圖像等非結(jié)構(gòu)化數(shù)據(jù)。普強力圖提供語音大數(shù)據(jù)分析能力,為企業(yè)解決非結(jié)構(gòu)化數(shù)據(jù)分析的需求。
2010年,普強面向呼叫中心推出了“千語語音識別引擎系統(tǒng)”和“千語千尋語音分析系統(tǒng)”。
據(jù)介紹,普強已經(jīng)為金融、電信、保險等多個行業(yè),提供了準確度較高的電話信道的ASR(語音識別)引擎。針對呼叫中心座席與客戶的對話,千語千尋系統(tǒng)的算法和模型接入后,能將不同地域口音的來電轉(zhuǎn)換成文字,還能根據(jù)不同的系統(tǒng)用戶需求,標注出關(guān)鍵用詞。
李全忠博士向黑智(VR-2014)介紹,“千語語音識別引擎系統(tǒng)”開發(fā)應(yīng)用了深度神經(jīng)網(wǎng)絡(luò)技術(shù),通過語音切分技術(shù)和對識別結(jié)果的算法,進行語速探測、情緒識別等,以及對講話對象、時間邊界等進行分割,不僅提高了語音識別結(jié)果,也可以輔助企業(yè)進一步挖掘和分析海量語音數(shù)據(jù)。
當坐席和客戶通話時,接入了普強的千語千尋系統(tǒng)模型,不僅能將不同方言的來電轉(zhuǎn)換成文字,還能根據(jù)不同的系統(tǒng)用戶需求,標注出關(guān)鍵用詞,并針對其進行統(tǒng)計和專業(yè)化分析,挖掘客戶需求;對客戶流失進行預(yù)警分析,挖掘客戶投訴原因,進行干預(yù);或者替代人工質(zhì)檢。何國濤舉例說,例如某保險公司就有2萬左右名保險銷售,管理者需要知道如何提高銷售成功率,客戶投訴的是什么問題,客戶購買保險服務(wù)的原因是什么等。“千尋”把這些問題都細化成文字,以解決客戶的需求,提升公司工作效率和營銷轉(zhuǎn)化率。
進行語音大數(shù)據(jù)分析,最基本的一點就是數(shù)據(jù)。李全忠表示,普強在呼叫中心電話線領(lǐng)域積累了十多年的數(shù)據(jù),對電話語音數(shù)據(jù)處理和標注的積累,在業(yè)內(nèi)是首屈一指的。
而對語音分析,最關(guān)鍵的比拼點,則是“快”和“準”。“準確度和識別速度往往要平衡,在不損失精度的前提下,我們可以做到最快,系統(tǒng)的全文識別率可達85%以上,關(guān)鍵詞識別率達95%以上。”李全忠博士說。他表示,千語千尋語音分析系統(tǒng)目前中文語音分析速度,是國內(nèi)最快的。它擁有的文本分析引擎和索引處理技術(shù),能夠?qū)崿F(xiàn)分析操作在秒級以內(nèi)完成,而業(yè)內(nèi)多數(shù)語音公司的產(chǎn)品則要半小時甚至更久,千語千尋比之,要高出一個數(shù)量級。
除識別引擎及分析系統(tǒng)外,與國內(nèi)外廠商相比,普強的優(yōu)勢是擁有多年呼叫中心工作經(jīng)驗的專家們所組成的專業(yè)咨詢團隊,以及完整的識別設(shè)備和工具,來協(xié)助客戶進行定制化應(yīng)用服務(wù),以保障企業(yè)最高的投資報酬率。
而據(jù)何國濤對黑智(VR-2014)透露,目前普強在業(yè)界公開招投標的項目中,始終保持著最高的中標率。
聯(lián)手四維圖新,切入車載場景
經(jīng)過十多年的發(fā)展,四維圖新已成為國內(nèi)數(shù)字地圖內(nèi)容、車聯(lián)網(wǎng)和動態(tài)交通信息服務(wù)、基于位置的大數(shù)據(jù)垂直應(yīng)用服務(wù)主要提供商之一。其數(shù)字地圖一直主導(dǎo)中國前裝車載導(dǎo)航市場,獲得大量、東風日產(chǎn)、北京現(xiàn)代等主流車廠的訂單。而和四維圖新的聯(lián)手,顯然加快了普強切入車載場景,迅速滲透車廠和車機系統(tǒng)集成商,積累大數(shù)據(jù)的步伐。
2015年,普強聯(lián)手四維圖新和騰訊,共同開發(fā)智能車聯(lián)網(wǎng)大數(shù)據(jù)系統(tǒng)WeDrive。其中,四維負責導(dǎo)航,騰訊負責內(nèi)容,普強主攻前裝。
這套智能車載語音系統(tǒng),是由“云+端+芯片”組成的。普強自主研發(fā)的是離線、在線的兩個聲學模型,其他的為集成。
陣列麥克風可抑制噪音回音,進行聲源定位。車載降噪DSP芯片可進行車載降噪去回聲,這也是普強的投資方——美國的一家芯片公司提供的。“他們只做芯片,花了大概一億美金做了十年,這就是壁壘。”
“從前端麥克風技術(shù),包括硬件的DSP處理三到四個麥克風,到后端的云端,整個一條脈絡(luò)已經(jīng)打通了,基本上這個解決方案是最優(yōu)的。”李全忠說。
另外,普強還可以做嵌入式識別,車機識別的系統(tǒng)直接在車機里面做,不用跑到云端。車載需要保證穩(wěn)定性、安全性,對嵌入式識別壓力非常大。普強會針對不同的系統(tǒng)和車機本身的噪音特性,分低中高端方案,量身定制識別算法。“把這些都優(yōu)化進去,才能做到最佳,當然也要滿足用戶識別率的需求。”李全忠表示。
目前,普強車載語音系統(tǒng)已經(jīng)被集成進多家國內(nèi)主流車廠。普強最近也把嵌入式的算法嵌到四維收購的公司杰發(fā)科技,后者占后裝市場的70%,大幅提高了市占率。
用戶需求優(yōu)先的“田忌賽馬”戰(zhàn)術(shù)
在何國濤看來,“專注”還有另外一層含義,即要準確理解用戶的需求。而對人工智能創(chuàng)業(yè)公司而言,算法并不是唯一,更重要的是,理解用戶的產(chǎn)品需求。從產(chǎn)品、界面、工作流到用戶層面的交互設(shè)計,都要圍繞它進行。比如,對車載產(chǎn)品而言,車速變化時,會影響到語音識別的準確率;車開得快,根本不會出現(xiàn)車旁邊有個人在走路的情況;車開得慢,就要小心旁邊打球的小孩……
針對用戶對產(chǎn)品的強需求出發(fā),何國濤為普強提出了“田忌賽馬”的戰(zhàn)術(shù)。“算法肯定有最快的,但是在語音交互領(lǐng)域,準確率相差一兩個點并沒有本質(zhì)差別。原來從GMM跳到DNN,相對準確率增加了20%到30%,是很大的提升?墒乾F(xiàn)在大家使用的都是神經(jīng)網(wǎng)絡(luò),準確率達到95%或者96%,對用戶有什么區(qū)別?我們沒有必要做20個系統(tǒng)功能,都保證96%的準確率。”
在車載領(lǐng)域,普強重點做的是導(dǎo)航、電話、音樂這幾個系統(tǒng)功能。“在車里人機交互的時候,一般用戶50%以上%的需求是在導(dǎo)航上,40%以上是打電話,還有10%是聽音樂、聽收音機、查股票等。如果把這3個主要需求都做到近100%的準確率,那么整個系統(tǒng)的準確率就能超過90%。如果大家都只有100人,別人每個功能5個人,普強的3個功能每個都有30個人并且做到最好,這就是所謂的田忌賽馬。”何國濤說。
中國一年生產(chǎn)約2700萬輛新車,如果人機交互的系統(tǒng)每輛車收取一百塊,市場規(guī)模能達到27億。如何能在這片藍海中切到大塊蛋糕?按照何國濤的設(shè)想,未來普強會將多種交互方式融合,讓車像人一樣具備視覺、聽覺等多種感知能力。比如人可以用手勢調(diào)節(jié)聲音大小、調(diào)控座椅位置。要把這些技術(shù)很順暢地切到場景里面,這些工作更多是需要工程師來實現(xiàn)。“算法是第一步,剩下10%的事情,需要再花90%的時間做好。”