發(fā)表評(píng)論分享按鈕

Siri背后的技術(shù)

2011/10/25

  今年10月,Apple發(fā)布了iphone 4S with IOS 5,其中最大的亮點(diǎn)就是一個(gè)語音搜索軟件-Siri。一時(shí)間,各種geek,偽geek,碼農(nóng),非碼農(nóng)都流行起調(diào)戲siri,各種調(diào)戲視頻,音頻大量出現(xiàn)。不過,常言道“外行看熱鬧,內(nèi)行看門道”,作為一個(gè)“偽內(nèi)行”,或者“欲做內(nèi)行而不得”的人,根據(jù)自己的知識(shí),以及一些搜索工具,嘗試了解了一下Siri的“門道”,在這里做個(gè)總結(jié),列出siri所可能用到的技術(shù)。

  Siri是IOS上的個(gè)人助理應(yīng)用:此軟件使用到自然語言處理技術(shù),使用者可以使用自然的對(duì)話與手機(jī)進(jìn)行互動(dòng),完成搜尋資料、查詢天氣、設(shè)定手機(jī)日歷、設(shè)定鬧鈴等服務(wù)。

  Siri所用到的技術(shù),很多人會(huì)回答,人工智能以及云計(jì)算,的確,總體來說,是這兩樣技術(shù),不過,這種概述感覺幾乎沒有任何意義,和不直接說“計(jì)算技術(shù)”(注意,不是計(jì)算機(jī)技術(shù))呢。因此,在本文,我將介紹下我了解Siri可能采用的技術(shù)。

  首先,在前端方面,即面向用戶,和用戶交互(User Interface,UI)的技術(shù),主要是語音識(shí)別以及語音合成技術(shù)。語音識(shí)別技術(shù)是把用戶的口語轉(zhuǎn)化成文字,其中需要強(qiáng)大的語音知識(shí)庫,因此需要用到所謂的“云計(jì)算”技術(shù)。而語音合成則是把返回的文字結(jié)果轉(zhuǎn)化成語音輸出,這個(gè)技術(shù)理論上本地就能完成(以前用過科大訊飛的在windows mobile上的本地語音閱讀軟件,軟件很小,但能讀的很好,還支持方言),但不知道Siri是否如此,當(dāng)然,在云端完成也并無不可,在當(dāng)前無線帶寬下,那點(diǎn)語音流量根本不算什么。

  其次,后臺(tái)技術(shù),這些其實(shí)才是真正的大角色(當(dāng)然,普通用戶是不會(huì)在意的,他們只會(huì)覺得前端很炫,哎,這就是做后端的悲哀,小小感嘆一下)。這些技術(shù)的目的就是處理用戶的請(qǐng)求,并返回最匹配的結(jié)果,這些請(qǐng)求類型很多,千奇百怪,要處理好并不簡(jiǎn)單;镜慕Y(jié)構(gòu)猜測(cè)可能是分析用戶的輸入(已經(jīng)通過語音轉(zhuǎn)化),根據(jù)輸入類型,分別采用合適的技術(shù)(合適的技術(shù)后面)進(jìn)行處理。這些合適的后臺(tái)技術(shù)包括,①以Google為代表的網(wǎng)頁搜索技術(shù);②以Wolfram Alpha為代表的知識(shí)搜索技術(shù)(或者知識(shí)計(jì)算技術(shù));③以Wikipedia為代表的知識(shí)庫(和Wolfram Alpha不同的是,這些知識(shí)來自人類的手工編輯)技術(shù)(包括其他百科,如電影百科等);④以Yelp為代表的問答以及推薦技術(shù)。

  下面,對(duì)上面提到的各種技術(shù)進(jìn)行簡(jiǎn)要介紹(如有空,后面的博文可能會(huì)對(duì)某些技術(shù)詳細(xì)的介紹,大家耳熟能詳?shù)木兔饬耍,?qiáng)調(diào)下,介紹的有些參考來源是維基百科相關(guān)詞條,下面不一一列出:

  語音識(shí)別以及語音合成技術(shù)語音識(shí)別技術(shù),也被稱為自動(dòng)語音識(shí)別(英語:Automatic Speech Recognition, ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識(shí)別及說話人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。語音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。

  語音合成是將人類語音用人工的方式所產(chǎn)生。若是將電腦系統(tǒng)用在語音合成上,則稱為語音合成器,而語音合成器可以用軟/硬件所實(shí)現(xiàn)。文字轉(zhuǎn)語音(text-to-speech, TTS)系統(tǒng)則是將一般語言的文字轉(zhuǎn)換為語音,其他的系統(tǒng)可以描繪語言符號(hào)的表示方式,就像音標(biāo)轉(zhuǎn)換至語音一樣。

  相比于語音識(shí)別,語音合成感覺難度要低,并且基本能夠在本地完成(很多OS都有內(nèi)置的語音合成引擎)。而語音識(shí)別,由于涉及到語義理解,難度大大加大,需要大量的知識(shí)庫,一般需要在云端完成。

  另外,在國內(nèi),這方面做的很好的公司也有,比如鄙人本科所在學(xué)校的科大訊飛,就是中文語音合成以及識(shí)別的領(lǐng)軍企業(yè),在英文語音合成領(lǐng)域其實(shí)也很牛,拿過很多獎(jiǎng)。國外的話,比較早的應(yīng)該是IBM ViaVoice。

  網(wǎng)頁搜索技術(shù)這個(gè)我想沒必要介紹,大家天天用的Google就是這個(gè)技術(shù)的代表。而國內(nèi)的話,則以百度為代表。

  知識(shí)計(jì)算(搜索)技術(shù)(Computational Knowledge)這個(gè)技術(shù)的代表是Wolfram|Alpha。

  不同于搜索互聯(lián)網(wǎng)信息,Wolfram|Alpha將從公眾的(包括公開的網(wǎng)頁等)和獲得授權(quán)的資源中,發(fā)掘、建立起一個(gè)異常龐大的經(jīng)過組織的數(shù)據(jù)庫,再利用高級(jí)的自然語言算法進(jìn)行處理,最終構(gòu)造出一個(gè)類似于谷歌搜索的工具。

  和網(wǎng)頁搜索技術(shù)不同的是,在這個(gè)系統(tǒng)中,得到的答案結(jié)構(gòu)化程度很高,比如搜索China,能得到和中國相關(guān)的各種參數(shù)以及資料,并以接近表格的方式呈現(xiàn)。Wolfram|Alpha也能理解部分自然語言,比如輸出How old are you,其會(huì)回答Wolfram|Alpha的年齡。想測(cè)試這項(xiàng)技術(shù)的請(qǐng)移步Wolfram|Alpha。

  這個(gè)技術(shù)國內(nèi)做的應(yīng)該有,但還沒有產(chǎn)品,也許百度的框計(jì)算算是半個(gè)。所以機(jī)會(huì)大大的有。

  知識(shí)庫技術(shù)這名字是我自己起的,不知道有沒有貽笑大方。。。這個(gè)技術(shù)的代表是維基百科,以及各種專門的百科網(wǎng)站。相比于網(wǎng)頁搜索技術(shù),基本以一個(gè)詞條或者主題為單位,因此得到的數(shù)據(jù)價(jià)值高,知識(shí)量大,并且結(jié)構(gòu)化程度好。相比于知識(shí)計(jì)算技術(shù),這些技術(shù)需要人的參與,這有利也有弊,利就是,畢竟暫時(shí)人比機(jī)器聰明,編輯出來的知識(shí)更豐富,準(zhǔn)確;弊就是,人力有限,即使像維基那樣,發(fā)動(dòng)社區(qū)的力量,也不能產(chǎn)生足夠的知識(shí),而知識(shí)計(jì)算,理論上,只需要算法夠牛叉,是可以產(chǎn)生“無限”的知識(shí)的。

  另外,寫到這里,我想起Yahoo和Google的故事,當(dāng)年,Yahoo是搜索老大,就像現(xiàn)在的Wekipedia在知識(shí)搜索領(lǐng)域一樣,而Google是小弟,就像Wolfram|Alpha在知識(shí)搜索領(lǐng)域一樣。但后來,卻反過來了,Googe成了網(wǎng)頁搜索老大,Yahoo成了小弟,原因就是Google相信算法的結(jié)果,把所有事都交給算法做,而Yahoo,很多索引都是人工編輯的。我想,也許有一天,Wekipedia和Wolfram|Alpha也會(huì)出現(xiàn)這樣的情況。

  問答推薦技術(shù)其實(shí)這不能稱為一個(gè)技術(shù),應(yīng)該屬于知識(shí)庫的技術(shù)。不同的是,這個(gè)技術(shù)針對(duì)的是一些生活信息,這些信息的地域化程度很高,典型代表為Yelp。由于這東西比較簡(jiǎn)單,就不仔細(xì)介紹了。

  其實(shí)在國內(nèi),這方面的網(wǎng)站也有,那就是大眾點(diǎn)評(píng)網(wǎng)這些。

  讀完此文,你也許會(huì)發(fā)現(xiàn),其實(shí)Siri并沒有什么革命性的技術(shù),其本質(zhì)是將各種已經(jīng)比較成熟的技術(shù)融合成一個(gè)產(chǎn)品,最終呈現(xiàn)給用戶,因此,完全沒必要對(duì)Siri神圣化。

  另外,Siri其實(shí)是蘋果買來的,在蘋果買來之前,Siri本來是會(huì)推出Android版本的,可是,被蘋果購買后,Android版本的Siri遙遙無期了(不過,這為廣大的Android開發(fā)者以及公司提供了機(jī)會(huì))。而Siri之前默默無聞,但是一從蘋果推出,卻聲名鵲起,不得不佩服Apple以及Jobs的眼光以及執(zhí)行力。

Sigma



相關(guān)閱讀:
Siri10種“非娛樂”的“正經(jīng)”用法 2011-10-24
蘋果iPhone 4S銷量達(dá)到創(chuàng)紀(jì)錄 2011-10-18
Siri語音助手大受歡迎 蘋果服務(wù)器不堪重負(fù) 2011-10-18
蘋果:Siri語音識(shí)別明年將支持5國語言 2011-10-17
回憶喬布斯:不為外界所知的“WiFi教父” 2011-10-17

熱點(diǎn)專題:  語音合成TTS 語音識(shí)別ASR    移動(dòng)增值   移動(dòng)互聯(lián)網(wǎng)
分類信息:  移動(dòng)增值_與_移動(dòng)互聯(lián)網(wǎng)  移動(dòng)增值_與_CTI文摘  移動(dòng)互聯(lián)網(wǎng)_與_移動(dòng)  CTI文摘_與_移動(dòng)
相關(guān)頻道:  增值電信文摘