Siri工作方式詳解:本地語音識別+云計算服務(wù)
2011/11/04
導(dǎo)語:ZDNet網(wǎng)站今天刊文稱,蘋果的語音助理服務(wù)Siri時髦而聰明,在一些情況下也很有用。那么Siri是如何工作的?“語音識別”是Siri的核心,但這并未解釋Siri理解用戶所說內(nèi)容的詳細過程。本周有業(yè)內(nèi)人士撰文,解釋了Siri的工作步驟。
以下為文章全文:
當用戶對iPhone說話后,語音將被立即編碼,成為一個壓縮的數(shù)字文件,其中包含著所有有用的信息。這一信息將通過互聯(lián)網(wǎng)服務(wù)提供商(ISP)的網(wǎng)絡(luò)被發(fā)送至云計算服務(wù)器,而服務(wù)器中的模塊將識別用戶所說的內(nèi)容。
與此同時,用戶的語音將在手機端被識別。安裝在手機中的語音識別器將與云計算服務(wù)器通信,了解指令是否適合在本地被處理。用戶的指令可能要求手機播放一首歌曲,而另一些指令則有可能需要手機連接至網(wǎng)絡(luò),尋求進一步的幫助。如果語音識別器認為,手機內(nèi)部模塊足以處理用戶的指令,那么將會告知云計算服務(wù)器,不再需要服務(wù)器的支持。
根據(jù)用戶的聲調(diào)和語序,服務(wù)器將對語音進行靜態(tài)對比,了解語音中包含哪些字母。與此同時,本地的語音識別器也將對用戶語音進行靜態(tài)對比。在服務(wù)器端和手機端,可能性最高的識別內(nèi)容將優(yōu)先獲得處理。
此時,識別出的內(nèi)容已經(jīng)包含一系列的元音和輔音字母。隨后這些內(nèi)容將被發(fā)送至一個語言模塊,以評估用戶的語音中包含哪些單詞。根據(jù)不同的可信度,計算機將創(chuàng)建一個用戶所說內(nèi)容的列表。
如果判斷結(jié)果具有足夠的可信度,那么計算機將能理解用戶所說的內(nèi)容,例如發(fā)送短信或查找聯(lián)系人列表中的聯(lián)系人。隨后用戶將會看到手機屏幕上出現(xiàn)所需的內(nèi)容,而不必手動操作。在這一過程中,如果用戶的語音含義過于模糊,那么計算機將會詢問用戶,例如用戶希望查找的聯(lián)系人是埃里卡·奧爾森(Erica Olssen)還是埃里卡·施密特(Erica Schmidt)。
新浪科技
相關(guān)閱讀: