上世紀(jì)九十年代,羅杰·凱在一家名為ILA的小型計(jì)算機(jī)語言學(xué)公司工作。那時(shí)候,美國麻省理工學(xué)院語言學(xué)教授諾姆·喬姆斯基的“普遍語法”理論吸引了一批追隨者,他試圖將所有人類語言借用同一個(gè)模型進(jìn)行演繹。一開始,羅杰和他的同事也試著如此去設(shè)計(jì)語言模型,但他們很快發(fā)現(xiàn),真實(shí)的語言常常違背這個(gè)模型,有太多反例讓這一理論顯得充滿任意性。
一種語言障礙亟須彌合的想法隨即映射進(jìn)他們腦中,這同樣是許多科技業(yè)巨頭想要打開的一扇大門。谷歌從2009年開始就一直在采錄語音信箱的信息;微軟則將類似技術(shù)置入Windows Vista操作系統(tǒng);蘋果的智能語音控制程序Siri則讓這種技術(shù)更趨商業(yè)。
附近有什么好吃的?我應(yīng)該在哪搭乘公共交通?今晚的電影是幾點(diǎn)的?語音助手幫忙實(shí)現(xiàn)日程管理及查詢,并回答常識問題,令人著迷。而消費(fèi)電子產(chǎn)品、汽車甚至自動呼叫中心“傾聽”使用者的指令,已經(jīng)有數(shù)年時(shí)間。
一種能夠翻譯各種語言的“巴別魚”技術(shù)可能在不久的將來成為現(xiàn)實(shí),廣闊的產(chǎn)業(yè)應(yīng)用空間漸漸打開。
《圣經(jīng)》里有一個(gè)著名的故事:人類想上天堂,造巴別塔。上帝為阻止人類登天,迫使人類說不同的語言。由于溝通不暢,巴別塔最終半途而廢。
有趣的是,英國作家道格拉斯·亞當(dāng)斯在其廣為流傳的科幻小說《銀河系漫游指南》中,提及一種能聽懂外星人語言的小魚,名字就叫“巴別魚”(Babelfish)。
今天,智能語音技術(shù)的發(fā)展令“巴別魚”的出現(xiàn)變得不再科幻。
“由于大量可供實(shí)時(shí)語音翻譯信息資源的存在,"巴別魚"系統(tǒng)正在走進(jìn)現(xiàn)實(shí)。”人工智能專家、南安普頓大學(xué)教授奈杰爾·沙德博爾特稱,未來市場出現(xiàn)類似藍(lán)牙耳機(jī)的實(shí)時(shí)翻譯工具,是“非常自然的事情”。
遠(yuǎn)不止于人與人之間,人類和汽車、電視或者廚房電器“說話”,也可能變得毫無障礙。智能語音技術(shù)正在改變我們發(fā)現(xiàn)信息的方法,相反的,它們也找到了進(jìn)入其他終端的途徑。
難怪英國媒體最近認(rèn)定:科技業(yè)下一件大事,就是智能語音翻譯。
⊙記者 王宙潔 ○編輯 龔維松
語音識別日趨精準(zhǔn)
現(xiàn)在,羅杰·凱已經(jīng)創(chuàng)辦了行業(yè)研究機(jī)構(gòu)——Endpoint技術(shù)協(xié)會,但他仍然記得最初那段對機(jī)器語言的探索時(shí)光。
在近日的一篇專欄文章中,羅杰·凱回憶道:“喬姆斯基教授的理論依舊是我們中很多人的指路明燈。我們試著去實(shí)現(xiàn)語言模型,但僅僅發(fā)現(xiàn)這只是一個(gè)工具而已,諸多反例讓我們明白,要做的可不僅僅是模型。”
羅杰在ILA工作時(shí)的好友戴夫·巴戈特認(rèn)為,更高級的語言特征無法在模型里被描述,“音系學(xué)很容易理解,詞法學(xué)沒那么容易,句法就更難一點(diǎn),要理解語意,這幾乎沒成功過。”
事實(shí)上,對于語言識別的探索很早便已經(jīng)開始。上世紀(jì)五十年代,貝爾實(shí)驗(yàn)室組裝了一套原始系統(tǒng),可以識別電話里報(bào)出的數(shù)字。盡管此后進(jìn)展算不上太快,但隨著計(jì)算技術(shù)的不斷強(qiáng)化,如今的系統(tǒng)已經(jīng)可以處理各種口音、方言和怪異的聲調(diào)。
最近幾年,這種探索在科技業(yè)熱度高升。蘋果推出的語音助手Siri讓iPhone 4S風(fēng)靡的同時(shí),也使得聲音識別技術(shù)為更多普通人所認(rèn)知并關(guān)注。
近日,蘋果公司又宣布推出車載iOS系統(tǒng)CarPlay,通過汽車與智能手機(jī)連接,再配合方向盤上的Siri按鈕,可實(shí)現(xiàn)電話、地圖、音樂或查看信息等功能。
而首批搭載CarPlay系統(tǒng)的汽車,包括法拉利、奔馳和沃爾沃等汽車業(yè)巨頭。
外媒近日報(bào)道稱,微軟正著力發(fā)展所謂自然交互科技,語音識別就是其中重要一環(huán)。
英特爾在今年1月份舉行的美國消費(fèi)電子展上就曾宣布,將在今年推出的超薄筆記本電腦Ultrabook上采用一種新的語音控制技術(shù)。
在這些科技業(yè)大佬的背后,有一個(gè)名字不得不提:Nuance。
不僅僅是蘋果和三星旗下的熱門智能手機(jī)產(chǎn)品,航空公司甚至是頂級銀行的自動呼叫中心也有著它的身影。Nuance是一家語音識別技術(shù)公司。
研究機(jī)構(gòu)Research and Markets近期發(fā)布報(bào)告稱,語音識別市場的主流趨勢之一,是“聲音密碼”越來越廣泛地被使用。
“一般的密碼很容易被記住,但同時(shí)也容易被破解,這帶來了安全方面的威脅。”該報(bào)告說,因此各大組織開始越來越頻繁地使用生物密碼——往常的符號被人們的聲音所代替,聲音變成密碼并作為身份認(rèn)證的依據(jù)。
更重要的是,聲音還擁有一個(gè)顯著優(yōu)點(diǎn)——無法被復(fù)制。
根據(jù)該公司的研究,這一市場的主要驅(qū)動因素之一,是對基于語音的生物識別或身份鑒定技術(shù)的需求。但目前主要的挑戰(zhàn)就是缺乏系統(tǒng)準(zhǔn)確性。語音識別設(shè)備對嘈雜的環(huán)境極為敏感,這降低了準(zhǔn)確率。
不過,愛爾蘭聯(lián)合銀行從2008年開始就嘗試通過聲音來鑒定員工的身份。VoiceVault生物測定系統(tǒng)能夠捕捉“語音痕跡”,該系統(tǒng)能識別打電話者的聲音,而后,還可以幫助用戶進(jìn)行重置密碼等工作。
用途可不局限于幫助員工修改密碼,在此之后,越來越多的金融服務(wù)公司也開始使用這種系統(tǒng)打擊欺詐行為。
語音也可以“計(jì)算”
自然輸入方法從一開始便是個(gè)人電腦行業(yè)的一大圣杯。在創(chuàng)建公司不久后,微軟CEO比爾·蓋茨便開始尋找除了鍵盤和鼠標(biāo)之外的,可以將數(shù)據(jù)輸入電腦的方法。
蓋茨認(rèn)為,一定有某些本質(zhì)上是“奇怪的”輸入設(shè)備,最終會被人們接受。
2010年,微軟Kinect來了,手勢輸入從此風(fēng)靡。
但是聲音難以捉摸。聲音同時(shí)可被用于控制或翻譯,不過人們對語音轉(zhuǎn)為文字的精確度要求極高。海外媒體稱,按照目前的技術(shù)水平,一頁有300個(gè)英文單詞的文件中,平均每頁有3個(gè)錯(cuò)誤,盡管正確率超過90%,但剩下的那小部分仍需長途跋涉。
不過,在羅杰·凱看來,計(jì)算能力已經(jīng)變得更強(qiáng)大,語言數(shù)據(jù)庫也變得更加龐大。
依靠這些工具,類似Nuance這樣的公司已經(jīng)幾乎轉(zhuǎn)向統(tǒng)計(jì)學(xué)方法。與其依靠語言模型這樣的老方法,商業(yè)性語音公司已經(jīng)開始在他們的產(chǎn)品中采用關(guān)鍵字檢測以及基于規(guī)則的技術(shù)。
換句話說,基于資料庫和快速計(jì)算能力,它能夠確定一個(gè)單詞后面跟著某個(gè)特定單詞的幾率,而不在意語法聯(lián)系。
“你不必在意喬姆斯基教授語言和意思的結(jié)構(gòu)性,你可以用數(shù)學(xué)的方法來實(shí)現(xiàn)它。”羅杰·凱說。
語音識別是第一步,之后,分析則是一項(xiàng)難度更大的工程。
盡管基于人工智能和語音識別的語音個(gè)人助手并不鮮見,安卓平臺便同樣有類似的程序如Voice Actions,但Siri的風(fēng)靡證明只是語音識別技術(shù)是不夠的,它還是一種人工智能形式,如今的系統(tǒng)還需要更強(qiáng)大的自學(xué)能力。
去年末,投資銀行Piper Jaffray的分析師設(shè)計(jì)了800道語音問答題,考察蘋果Siri和谷歌Google Now的水平,結(jié)果后者獲得了進(jìn)步最快獎(jiǎng)。
不過,Siri也取得了一定的進(jìn)步。就在一年前,Siri還有27%的答案來自谷歌搜索,如今這個(gè)數(shù)字已經(jīng)大幅下降到4%。
英國媒體近日發(fā)表文章指出,語音翻譯將成為科技業(yè)下一件大事。《圣經(jīng)》有一個(gè)著名的故事:人類想上天堂,造巴別塔。上帝為阻止人類登天,所以迫使人類說不同的語言。由于溝通不暢,巴別塔最終半途而廢。但英國作家道格拉斯·亞當(dāng)斯曾在其小說《銀河系漫游指南》中提及一種能夠聽懂外星人語言的小魚“巴別魚”(Babelfish)。
如今,這種“小魚”科技的出現(xiàn)似乎變得有可能。人工智能專家、南安普頓大學(xué)教授奈杰爾·沙德博爾特稱,由于大量可供實(shí)時(shí)語音翻譯信息資源的存在,“巴別魚”系統(tǒng)正在走進(jìn)現(xiàn)實(shí),未來市場出現(xiàn)類似藍(lán)牙耳機(jī)的實(shí)時(shí)翻譯工具是非常自然的事情。
在四、五年前,谷歌便開始研發(fā)語音翻譯軟件,時(shí)任機(jī)器翻譯總裁的弗朗茲·歐克認(rèn)為,實(shí)現(xiàn)語音翻譯是有可能的。他們在向著讓這種服務(wù)運(yùn)行流暢的方向努力,并且還需要結(jié)合高精度的機(jī)器翻譯和高精度的語音識別。
Google Now就是語音識別加人工智能技術(shù)最好的例證——它幫助用戶通過語音識別技術(shù)進(jìn)行網(wǎng)絡(luò)搜索。
谷歌搜索工程部副總裁斯科特·霍夫曼說,搜索領(lǐng)域目前正努力實(shí)現(xiàn)的是,根據(jù)用戶的聲音準(zhǔn)確理解“用戶想要什么”,并給出符合需求的答案。
據(jù)海外媒體報(bào)道,谷歌已經(jīng)構(gòu)筑了與人、地區(qū)、事件相關(guān)的數(shù)據(jù)庫“知識圖譜”等,因此語音搜索方式的實(shí)現(xiàn)指日可待。
而依靠一種名為語音輸入應(yīng)用程序接口工具,谷歌旗下的瀏覽器Chrome 11 Beta版已經(jīng)可以理解用戶所說的話。
下一步:搶奪更多入口
語音識別技術(shù)市場正在走向競爭激烈的十字路口。
海外媒體預(yù)計(jì),隨著語音識別將取代輸入、鍵盤、寫字和觸摸,成為人機(jī)互動最主要的界面,語音技術(shù)將遍布世界各個(gè)角落。
研究機(jī)構(gòu)BCC曾發(fā)布報(bào)告預(yù)測,全球語音識別市場的規(guī)模到2017年會達(dá)到1130億美元,五年復(fù)合年增長率高達(dá)16.2%。
該機(jī)構(gòu)認(rèn)為,語音識別市場將分化為三大終端市場:企業(yè)、消費(fèi)者以及健康保健。
在這其中,企業(yè)終端的市場規(guī)模將在2017年達(dá)到422億美元,復(fù)合年增長率為15.9%;消費(fèi)者終端則將以17.2%的五年復(fù)合年增長率,在2017年達(dá)到651億美元的規(guī)模;健康保健終端在2017年的規(guī)模則將達(dá)到59億美元,復(fù)合年增長率為9.4%。
語音識別系統(tǒng)Nuance公司是語音識別軟件Dragon的開發(fā)者,這款軟件在醫(yī)療保健行業(yè)的應(yīng)用已經(jīng)長達(dá)十年之久。
當(dāng)病人前去看病時(shí),內(nèi)科醫(yī)生的桌面上運(yùn)行Nuance的軟件,它便可以利用一個(gè)夾式微型話筒來錄音。隨著問診的推進(jìn),這款軟件會及時(shí)更新病人的電子健康記錄。
未來的語音識別功能也可以幫音樂愛好者大忙:用戶可以通過口述歌曲或歌手的名字進(jìn)行點(diǎn)播,并且它會記住用戶的喜好。
臉譜網(wǎng)曾收購一家語音識別和語言翻譯應(yīng)用程序制造商Mobile科技公司。該公司旗下?lián)碛兄苿討?yīng)用程序Jibbigo Translator,這款應(yīng)用可以自動翻譯超過20種語言。
有分析稱,MT的技術(shù)確實(shí)能夠幫助臉譜網(wǎng)做許多事情,包括在未來實(shí)現(xiàn)跨語言聊天、旅行者語音翻譯和信息流即時(shí)翻譯等。此外,還有可能幫助臉譜網(wǎng)實(shí)現(xiàn)語音圖譜搜索。
汽車領(lǐng)域同樣是語音識別技術(shù)的重要陣地。
寶馬汽車已經(jīng)開始提供語音識別服務(wù),通過數(shù)據(jù)中心進(jìn)行實(shí)時(shí)處理,轉(zhuǎn)換為文本并通過郵件發(fā)送,司機(jī)不需要?jiǎng)邮直憧梢酝瓿蛇@一系列動作。
有報(bào)道稱,蘋果正致力于允許第三方服務(wù)與Siri進(jìn)行整合,以便使其智能手機(jī)上的數(shù)字助手能執(zhí)行除本公司外的各項(xiàng)服務(wù),例如預(yù)訂航班和酒店,餐廳訂座,或在其他短信應(yīng)用中發(fā)送文本等。
面對來自Google Now和微軟愈發(fā)激烈的競爭,蘋果被認(rèn)為必須要升級Siri的功能。甚至有曝料稱,連語音識別公司Nuance也在提升其自己的數(shù)字助理Wintermute搜索各種第三方應(yīng)用程序的能力。
不難想象,不久的將來,可穿戴腕表、頭戴式終端、汽車、電視機(jī)甚至是襪子或是襯衫,所有物體都有望作為網(wǎng)絡(luò)終端使用,而通過語音提取所需信息的搜索和助手功能,將使這些終端更緊密地聯(lián)系并讀懂人類的需求。
數(shù)說科技
投資銀行Piper Jaffray的分析師設(shè)計(jì)了800道語音問答題,考察蘋果Siri和谷歌Google Now的水平,結(jié)果后者獲得了進(jìn)步最快獎(jiǎng)。不過,蘋果語音智能助手Siri也取得了一定的進(jìn)步。在此一年前,Siri還有27%的答案來自谷歌搜索,如今這個(gè)數(shù)字已經(jīng)大幅下降到4%
聲音可被用于控制或是翻譯,但是人們對語音轉(zhuǎn)為文字的精確度要求極高。按照目前的技術(shù)水平,一頁有300個(gè)英文單詞的文件中,平均每頁有三個(gè)錯(cuò)誤,盡管正確率超過90%,但剩下的那小部分仍需長途跋涉
投資銀行Piper Jaffray的分析師設(shè)計(jì)了800道語音問答題,考察蘋果Siri和谷歌Google Now的水平,結(jié)果后者獲得了進(jìn)步最快獎(jiǎng)。不過,蘋果語音智能助手Siri也取得了一定的進(jìn)步。在此一年前,Siri還有27%的答案來自谷歌搜索,如今這個(gè)數(shù)字已經(jīng)大幅下降到4%
研究機(jī)構(gòu)BCC發(fā)布報(bào)告預(yù)測,全球語音識別市場的規(guī)模到2017年會達(dá)到1130億美元,五年復(fù)合年增長率高達(dá)16.2%。該機(jī)構(gòu)認(rèn)為,語音識別市場將分化為三大終端市場:企業(yè)、消費(fèi)者以及健康保健
其中,企業(yè)終端的市場規(guī)模將在2017年達(dá)到422億美元,復(fù)合年增長率為15.9%;消費(fèi)者終端則將以17.2%的五年復(fù)合年增長率,在2017年達(dá)到651億美元的規(guī)模;健康保健終端在2017年的規(guī)模則將達(dá)到59億美元,復(fù)合年增長率為9.4%
臉譜網(wǎng)曾收購一家語音識別和語言翻譯應(yīng)用程序制造商 Mobile Technologies,該公司旗下?lián)碛兄囊苿討?yīng)用程序Jibbigo Translator,這款應(yīng)用可以自動翻譯超過20種語言。有分析稱,MT的技術(shù)確實(shí)能夠幫助臉譜網(wǎng)做許多事情,包括在未來實(shí)現(xiàn)跨語言聊天、旅行者語音翻譯和信息流即時(shí)翻譯等