首頁>>廠商>>軟件開發(fā)商>>Microsoft

跨語音交流——同聲傳譯電話不再是夢想

Rob Knies 2010/03/17

  近年來,計算機似乎變得越發(fā)有效(responsive)了,人們可以處理非常復(fù)雜的文檔,存儲并篩選海量數(shù)據(jù),也可以與世界范圍內(nèi)的眾多對象進行交流,而這些復(fù)雜任務(wù)往往通過簡單地點擊某個按鈕就能實現(xiàn)。現(xiàn)今的計算設(shè)備非常善于完成上述類似的任務(wù),并且對于某些任務(wù)而言,計算機的功能似乎已經(jīng)達到了頂點。


  但是這并不盡然,未來的計算機——或許應(yīng)該說是在不遠的未來,比如五到十年后——將會使得現(xiàn)今我們視為奇跡的事情變的完全微不足道。舉例說來,現(xiàn)在計算機能夠非常好的完成用戶的指令;但是如果計算機不用等待用戶的指令即可完成某些任務(wù),這聽起來怎么樣?

  換句話說,如果你的計算機能夠預(yù)測你的需求并以你的意愿來工作,那又將變得如何?這聽起來似乎有點不太現(xiàn)實,多少帶有點科幻小說的味道,但是也先別太早下結(jié)論。在現(xiàn)今的環(huán)境中,我們需要應(yīng)對急劇增加的數(shù)據(jù),一旦計算機能夠智能的對這些信息進行分析處理,則將意味著在你睡覺、娛樂或是忙于其他工作的時候,計算機也能夠獨立的為你分擔(dān)掉很多工作。

  現(xiàn)在請你想象一下,有一臺非?斓挠嬎銠C,它能夠在你為一些事情發(fā)愁的之前就幫你把這些事都處理掉;它也能夠即時的處理信息,從而使得你的注意力能夠完全集中在其他一些更為緊迫的事情上。這樣的計算機似乎非常符合現(xiàn)在的白日夢者和技術(shù)理想家的愿望,你可能會說,這肯定是個妄想,其野心超出了科技創(chuàng)新的疆界。但是今年微軟技術(shù)節(jié)(TechFest 2010)的參觀者可能會有不同的看法。

  現(xiàn)在我們將以微軟亞洲研究院的同聲傳譯電話為例,去窺探計算技術(shù)的未來:

  假設(shè)你是一個美國商人,要與德國的一位同事開會。最便利的方式是通過電話聯(lián)系,但是這位德國同事并不會說英語,而你自己則只會講英語。在這種情況下,似乎來不及找一個合適的翻譯了,那么你該怎么辦?到目前為止,可能的解決方案非常少。但是在不久之后,很快就有一種新的方案面世,因為微軟亞洲研究院開發(fā)出了一種新的技術(shù)——同聲傳譯電話(Translating! Telephone)!

  這一項目把三種關(guān)鍵技術(shù)結(jié)合起來:語音識別(speech recognition)、機器翻譯(machine translation)和文字到語音的轉(zhuǎn)換(text-to-speech)。相信微軟技術(shù)節(jié)的參加者看到這些技術(shù)時,肯定無法掩飾自己的興奮之情。

  “不同語音間的翻譯器歷來被很多研究者所關(guān)注,”Kit Thambiratnam,微軟亞洲研究院語音組(Speech Group)的一位研究員說,“但是這種翻譯器非常難以實現(xiàn),需要結(jié)合很多目前尚不完善的技術(shù)。而我們關(guān)注的是自然交談中的實時性的口語化語言,而不是敘述性的或者結(jié)構(gòu)化的語言,這就越發(fā)難上加難!彪m然上述三種相關(guān)技術(shù)仍然在不斷發(fā)展,當(dāng)該項目把這些技術(shù)依次串聯(lián)在一起時,則能夠呈現(xiàn)出一種非常穩(wěn)定的體驗。


  上圖為從Thambiratnam (說英語) 的角度看到、聽到的內(nèi)容:Seide說的德語被轉(zhuǎn)錄為文本,該文本被翻譯為英文——上述兩種語言的文本都可以在屏幕上看到;Thambiratnam也可以聽到英文文本合成的英語語音。

  Thambiratnam說:“當(dāng)多種不同背景的人需要一起交流時,我們的技術(shù)就能提供非常大的便利!盩hambiratnam用同聲傳譯電話展示了這樣一種的情景:Thambiratnam說英語,他要給他的德國籍經(jīng)理Frank Seide打個電話,這個電話是通過VoIP音字轉(zhuǎn)換(voice-over IP)進行的。首先,Seide說的德語被一個語音識別器識別,接著,微軟雷德蒙研究院(Microsoft Research Redmond)發(fā)明的機器翻譯技術(shù)把德語翻譯成英語,然后再把英文的文字合成為英文語音(通過文語轉(zhuǎn)化的語音合成技術(shù)(text-to-speech)實現(xiàn),下文有介紹),于是,Thambiratnam聽起來就像是Seide在說英語一樣。同樣的,Thambiratnam說的英語也被轉(zhuǎn)化為德語。這樣,就可以實現(xiàn)不同語言間的電話對話了。使這一效果真正能夠?qū)崿F(xiàn)的重要一點是保證轉(zhuǎn)換文本能夠同時呈現(xiàn)給對話的雙方,一旦出現(xiàn)對話不暢時,雙方可以根據(jù)轉(zhuǎn)換文本重復(fù)相關(guān)內(nèi)容來很快的解決相關(guān)問題。

  “由于口語與可以用Bing的翻譯機來翻譯的書面語有很大的不同,這對我們來說是個很大的挑戰(zhàn),”Seide解釋說,“所以我們先把口語轉(zhuǎn)化為更加規(guī)整的書面語體,然后再把它傳遞給翻譯模塊!

  同聲傳譯系統(tǒng)從英文的VoIP技術(shù)(這一技術(shù)能夠為用戶提供電話的實時文本轉(zhuǎn)錄)演化而來,這些轉(zhuǎn)錄文本可能并不完美,但是它們的優(yōu)勢在于在“剪切粘貼情境(cut-and-paste scenarios)”中可存儲、瀏覽、搜索以及修改。

  另外,微軟亞洲研究院語音組的負責(zé)人宋謌平博士和他的同事共同開發(fā)的文語轉(zhuǎn)化的語音合成技術(shù)(text-to-speech technologies, TTS,這一技術(shù)能夠?qū)⑽谋巨D(zhuǎn)化為非常逼真的語音)對同聲傳譯電話的實現(xiàn)具有非常重要的意義,這一技術(shù)使得從文本到語音的轉(zhuǎn)換聽起來更加自然。

  同時,Seide和Thambiratnam開發(fā)的對話語音識別技術(shù)也發(fā)揮了非常關(guān)鍵的作用!坝芯渲V語說得很對,‘無用輸入則無用輸出(garbage in, garbage out)’,獲得正確的文本對我們而言非常重要。我們采用機器學(xué)習(xí)算法來自動形成更為準確的個人化的語音模式,”Thambiratnam說,“用戶不需要花費精力,他們只要通過VoIP電話說話就可以了,系統(tǒng)會學(xué)習(xí)他們的語言,然后變得越來越好,越來越像!

  考慮到同聲傳譯電話涉及技術(shù)的巨大進步,它們對于方便我們?nèi)粘=涣鞯拇龠M作用似乎指日可待了,Thambiratnam說:“我們要做的還很多,這些技術(shù)還很不完美,但是我們認為,這些技術(shù)應(yīng)該足可以幫助兩個母語不同的人進行日常交流,只要他們在講話時稍微仔細一點,并偶爾重復(fù)一下模糊的內(nèi)容!

圖:為Seide和Thambiratnam

  Seide和Thambiratnam對他們的成就以及這一技術(shù)的未來發(fā)展都比較滿意,Seide說:“我覺得最酷的一點是我們把語音識別器中的文本進行翻譯,這也就意味著當(dāng)從一臺有屏幕的PC上打電話時,用戶就能一邊聽一邊看屏幕上同時出現(xiàn)的部分文本,而不用等待一個句子結(jié)束了!

  當(dāng)被問及這些技術(shù)對跨國交流的作用時,Thambiratnam說:“跨語音交流是計算技術(shù)的宏偉愿景之一,我們的這些技術(shù)是實現(xiàn)它的第一步,最使我激動的是人們通過我們的技術(shù)能夠明白對方在說什么(get it)”

  “相信世界上的所有人都會因此而激動,又有誰會不希望擁有這樣一個系統(tǒng)呢?這樣的一個系統(tǒng)能夠完美的將整個世界聯(lián)系在一起!

http://blog.sina.com.cn



相關(guān)閱讀:
微軟披露WP7手機應(yīng)用商店及硬件要求有關(guān)細節(jié) 2010-03-17
微軟為Symbian測試版提供Silverlight軟件 2010-03-15
微軟推出跨平臺游戲預(yù)示未來三大平臺整合 2010-03-08
微軟推出Android平臺二維碼應(yīng)用軟件 2010-03-08
微軟發(fā)布適用Android手機平臺應(yīng)用程序 2010-03-04