國際語音合成大賽是由美國和日本聯(lián)合發(fā)起的國際上規(guī)模最大、最具影響力的語音合成大賽,歷屆大賽吸引了美國卡耐基-梅隆大學(xué)、英國愛丁堡大學(xué)、日本名古屋工業(yè)大學(xué)、IBM研究院、微軟亞洲研究院等語音技術(shù)領(lǐng)域的世界一流研究機構(gòu)與企業(yè)參加。
與前兩屆相比,本次大賽再次將主要測試語種由非英語語種轉(zhuǎn)換到英語,要求測試的數(shù)據(jù)庫是一個5小時英文兒童有聲讀物,共有16個系統(tǒng)參測。主辦方擬定的測試指標除了傳統(tǒng)的相似度、自然度、聽寫錯誤率外,還有針對故事合成的段落評分,包括總體感覺等共7項指標,科大訊飛全部是以顯著優(yōu)勢獲得第一。其中,在非常關(guān)鍵的自然度指標上,訊飛是4.2分,第二名是3.9分,訊飛是唯一超過4.0分的參賽系統(tǒng)。
本次參賽,在不到兩個月的時間內(nèi),研究團隊克服了時間緊、音庫小、風(fēng)格變化極大等困難,充分發(fā)揮了科大訊飛的核心技術(shù)優(yōu)勢,采用基于統(tǒng)計聲學(xué)模型的單元挑選與參數(shù)合成技術(shù)方案,并研發(fā)了基于深度神經(jīng)網(wǎng)絡(luò)的語音合成新方法,高質(zhì)量完成了語音合成系統(tǒng)的構(gòu)建。最終提交的參賽系統(tǒng)獲得了英語合成語音相似度與自然度、可懂度等共計7個指標的第一名。
此次參賽再創(chuàng)佳績,進一步擴大了科大訊飛在語音合成等關(guān)鍵技術(shù)領(lǐng)域的國際領(lǐng)先優(yōu)勢,對推動智能語音技術(shù)在社會各領(lǐng)域的深入應(yīng)用、贏取國際競爭、開拓國際市場等方面具有重大而深遠的戰(zhàn)略意義。
一直以來,科大訊飛的語音合成技術(shù)代表著世界最高水平,不僅中文語音合成技術(shù)超過了普通人說話水平,而且在英語等多語種語音合成上牢牢樹立了國際領(lǐng)先地位。未來科大訊飛將積極開展人機對話、小說合成等熱點領(lǐng)域的研究,著力提升語音合成的表現(xiàn)力和真實感,通過語音處理、個性化、定制化等技術(shù),進一步擴大應(yīng)用范圍,不斷提升核心效果。
語音及語言信息處理國家工程實驗室
語音及語言信息處理國家工程實驗室是由國家發(fā)改委于2011年批復(fù)成立,由科大訊飛和中國科學(xué)技術(shù)大學(xué)聯(lián)合共建,是我國智能語音領(lǐng)域唯一的國家級研究平臺。