在當今世界,英語無疑是一種最強勢的語言。由于歷史原因和不可逆轉(zhuǎn)的國際化趨勢,英語對其他國家的語言帶來了巨大的影響,比如混合語言(Mixlingual)現(xiàn)象的產(chǎn)生。
在中國的大城市里,那些在海外受過高等教育、或在跨國公司工作的高級白領(lǐng)們,講中文的時候夾雜一些英語單詞,已經(jīng)是一種司空見慣的現(xiàn)象,比如“我非常努力,不想成為人生的loser(失敗者)”。在一些長期受英國殖民統(tǒng)治的國家,如印度,本地語言和英語單詞混合,是當?shù)厝巳粘=涣髦凶顬槠毡榈恼Z言現(xiàn)象。即便完全沒有讀過書的人,在交談中也會夾雜個把英語單詞。筆者曾在印度旅居多年,雖然不懂印地語,但并不妨礙在一定程度上揣測本地人之間交流的大致內(nèi)容,因為他們在交談中使用大量的英語單詞。
這種語碼混合(Code-mixing)現(xiàn)象,不僅帶來了各國本土語言的微妙演化,也同時為語音識別技術(shù)帶來了巨大的挑戰(zhàn)。目前,各大語音識別引擎巨頭,在單一語言的識別率方面,往往能達到90%以上、甚至高達95%的識別準確率。但遇到包含語碼混合現(xiàn)象的語音時,其識別準確率會大幅下降。其原因雖是多方面的,但其中一個最主要的原因是:大規(guī)模、高品質(zhì)的混合語言訓(xùn)練數(shù)據(jù)(比如中、英混讀語音訓(xùn)練數(shù)據(jù))目前還很少見。
在這次會議上,對于混合語言現(xiàn)象的研究是來自各國參會代表們普遍關(guān)注的重點之一,有若干篇會議論文談及混合語音數(shù)據(jù)庫和基于這些數(shù)據(jù)庫之上所做的混合語音識別研究成果。中國的語音技術(shù)研究水平,一直在亞洲、乃至全世界保持領(lǐng)先水平。在本次會議上,來自國內(nèi)的研究機構(gòu)和企業(yè),在來自亞洲其他國家同行們的面前,展現(xiàn)了中國在該領(lǐng)域的獨特風(fēng)采!
作為國內(nèi)領(lǐng)先的語音技術(shù)研究機構(gòu),清華大學(xué)語音語言技術(shù)中心(CSLT)聯(lián)合北京海天瑞聲科技有限公司(SpeechOcean),國內(nèi)唯一具有多達110種語言能力的數(shù)據(jù)資源與服務(wù)提供商,在此次會議上發(fā)起了“Special Session for Mixlingual Speech Processing”(混合語言語音處理特殊議題),其內(nèi)容包括(但不限于)混合語言的語音學(xué)分析、語音識別、語音合成、說話人識別、語言理解等混合語言處理任務(wù)。
除此之外,清華大學(xué)和海天瑞聲還在會議上聯(lián)合發(fā)起了一個“中英文混合語音識別競賽(OC16 MixASR-CHEN Challenge)”。
該混合語音特殊議題和語音識別競賽,面向亞洲所有的大學(xué)、科研機構(gòu)以及企業(yè)的語音技術(shù)研發(fā)機構(gòu)發(fā)起召集。清華大學(xué)CSLT提供了實驗Baseline,實驗數(shù)據(jù)庫OC16-CE80則由北京海天瑞聲科技有限公司提供。
OC16-CE80是一個錄音總長度為80個小時、包括1445名發(fā)音人的中英文混合語音數(shù)據(jù)庫,也是國內(nèi)目前罕見的大規(guī)模中英文混合語音數(shù)據(jù)庫。該語音識別數(shù)據(jù)庫是在目前市場占有率最高的三種手機操作平臺上進行錄音(其中Android系統(tǒng)占50%,iPhone占30%)?紤]到在大中城市里、受過良好教育的年輕一代更傾向于“中英文混合”式的語言風(fēng)格,在發(fā)音人的地域選擇、年齡分布、語料來源等方面,也做了精心的設(shè)計和安排。據(jù)海天瑞聲的陳清介紹,目前還有100多個小時的數(shù)據(jù)沒有公布,這些數(shù)據(jù)將在以后類似的學(xué)術(shù)交流活動中逐步公布出來。
該特殊議題收集到了若干篇論文,其中,由“清華大學(xué)”和“海天瑞聲”的合作論文《OC16-CE80:AChinese-English Mixlingual Data base and A Speech Recognition Baseline》獲得了Oriental COCOSDA2016最佳論文獎。
(“清華大學(xué)”與“海天瑞聲”合作論文獲得最佳論文獎)
在若干提交競賽結(jié)果的參賽隊伍中,三星中國研究院(Samsung R&D Institute of China-Beijing)力拔頭籌,以中英文語音識別綜合WER達到14.75%的成績,在競賽中獲得了第一名,充分展示了中國語音技術(shù)研究者的實力!除此之外,三星中國研究院還獲得了會議頒發(fā)的“Best Performance Award(最佳表現(xiàn)獎)”
該競賽的第二由上海師范大學(xué)獲得,中英文識別綜合WER達到16.11%;第三名是臺灣中央研究院與華碩Da Vinci Innovation Lab合作獲得,中英文識別綜合WER達到19.05%;
海天瑞聲的市場總監(jiān)陳清,在會議上介紹了該次競賽所使用的數(shù)據(jù)庫“OC16-CE80”,及其他混合語言數(shù)據(jù)庫,包括一個臺灣語+英語的混合語音庫,四個在建的混合語音庫(印尼語+英語、印地語+英語、日語+英語、韓語+英語)。海天瑞聲以其多達110種語言的數(shù)據(jù)服務(wù)能力、近10萬小時的多種語音識別和語音合成數(shù)據(jù)庫資源,及多語種文本和發(fā)音詞典等,得到了與會代表們的普遍關(guān)注和垂詢。同時,“海天瑞聲”也是目前國內(nèi)唯一有能力提供稀有語種數(shù)據(jù)服務(wù)的供應(yīng)商,包括北朝鮮語、希伯來語、加泰羅尼亞語、阿拉伯語、捷克語、波蘭語等,給聽眾們留下了深刻的印象。
海天瑞聲表示未來將攜手各大國際科研機構(gòu)推出更多高質(zhì)量免費的科研學(xué)術(shù)數(shù)據(jù)。并介紹了在即將舉辦的APSIPA16(2016年12月14日在韓國濟州島召開)上,與清華大學(xué)CSLT共同舉辦的Oriental Multiple Language Special Session&Language Recognition Challenge。這個活動也是由海天瑞聲提供免費實驗數(shù)據(jù),并由清華大學(xué)提供實驗Baseline。
(清華大學(xué)CSLT的王東老師,在會議上介紹實驗baseline,并宣布競賽結(jié)果)
(海天瑞聲的陳清在介紹試驗數(shù)據(jù)庫詳情)
獲獎人員與會議組織者合影
三星中國研究院的余驍捷在接受會議主席頒獎