人工智能的應(yīng)用中,語音識別在今年來取得顯著進(jìn)步,不管是英文、中文或者其他語種,機(jī)器的語音識別準(zhǔn)確率在不斷上升。其中,語音聽寫技術(shù)的發(fā)展最為迅速,目前已廣泛在語音輸入、語音搜索、語音助手等產(chǎn)品中得到應(yīng)用并日臻成熟。但是,語音應(yīng)用的另一層面,即語音轉(zhuǎn)寫,目前仍存在一定的難點(diǎn),由于在產(chǎn)生錄音文件的過程中使用者并沒有預(yù)計(jì)到該錄音會(huì)被用于語音識別,因而與語音聽寫相比,語音轉(zhuǎn)寫將面臨說話風(fēng)格、口音、錄音質(zhì)量等諸多挑戰(zhàn)。
語音轉(zhuǎn)寫的典型場景包括,記者采訪、電視節(jié)目、課堂及交談式會(huì)議等等,甚至包括任何人在日常的工作生活中產(chǎn)生的任何錄音文件。語音轉(zhuǎn)寫的市場及想象空間是巨大的,想象一下,如果人類可以征服語音轉(zhuǎn)寫,電視節(jié)目可以自動(dòng)生動(dòng)字幕、正式會(huì)議可以自動(dòng)形成記要、記者采訪的錄音可以自動(dòng)成稿……人的一生中說的話要比我們寫過的字多的多,如果有一個(gè)軟件能記錄我們所說過的所有的話并進(jìn)行高效的管理,這個(gè)世界將會(huì)多么的讓人難以置信。
基于DFCNN的聲學(xué)建模技術(shù)
語音識別的聲學(xué)建模主要用于建模語音信號與音素之間的關(guān)系,科大訊飛繼去年12月21日提出前饋型序列記憶網(wǎng)絡(luò)(FSMN,F(xiàn)eed-forward Sequential Memory Network)作為聲學(xué)建模框架后,今年再次推出全新的語音識別框架,即深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN,Deep Fully Convolutional NeuralNetwork)。
目前最好的語音識別系統(tǒng)采用雙向長短時(shí)記憶網(wǎng)絡(luò)(LSTM,LongShort Term Memory),這種網(wǎng)絡(luò)能夠?qū)φZ音的長時(shí)相關(guān)性進(jìn)行建模,從而提高識別正確率。但是雙向LSTM網(wǎng)絡(luò)存在訓(xùn)練復(fù)雜度高、解碼時(shí)延高的問題,尤其在工業(yè)界的實(shí)時(shí)識別系統(tǒng)中很難應(yīng)用。因而科大訊飛使用深度全序列卷積神經(jīng)網(wǎng)絡(luò)來克服雙向LSTM的缺陷。
CNN早在2012年就被用于語音識別系統(tǒng),但始終沒有大的突破。主要的原因是其使用固定長度的幀拼接作為輸入,無法看到足夠長的語音上下文信息;另外一個(gè)缺陷將CNN視作一種特征提取器,因此所用的卷積層數(shù)很少,表達(dá)能力有限。
針對這些問題,DFCNN使用大量的卷積層直接對整句語音信號進(jìn)行建模。首先,在輸入端DFCNN直接將語譜圖作為輸入,相比其他以傳統(tǒng)語音特征作為輸入的語音識別框架相比具有天然的優(yōu)勢。其次,在模型結(jié)構(gòu)上,借鑒了圖像識別的網(wǎng)絡(luò)配置,每個(gè)卷積層使用小卷積核,并在多個(gè)卷積層之后再加上池化層,通過累積非常多的卷積池化層對,從而可以看到非常長的歷史和未來信息。這兩點(diǎn)保證了DFCNN可以出色的表達(dá)語音的長時(shí)相關(guān)性,相比RNN網(wǎng)絡(luò)結(jié)構(gòu)在魯棒性上更加出色,同時(shí)可以實(shí)現(xiàn)短延時(shí)的準(zhǔn)在線解碼,從而可用于工業(yè)系統(tǒng)中。
(DFCNN 結(jié)構(gòu)圖)
口語化和篇章級語言模型處理技術(shù)
語音識別的語言模型主要用于建模音素與字詞之間的對應(yīng)關(guān)系。由于人類的口語為無組織性的自然語言,人們在自由對話時(shí),通常會(huì)出現(xiàn)猶豫、回讀、語氣詞等復(fù)雜的語言現(xiàn)象,而以文字形式存在的語料通常為書面語,這兩種之間的鴻溝使得針對口語語言的語言模型建模面臨極大的挑戰(zhàn)。
科大訊飛借鑒了語音識別處理噪聲問題采用加噪訓(xùn)練的思想,即在書面語的基礎(chǔ)上自動(dòng)引入回讀、倒裝、語氣詞等口語“噪聲”現(xiàn)象,從而可自動(dòng)生成海量口語語料,解決口語和書面語之間的不匹配問題。首先,收集部分口語文本和書面文本語料對;其次,使用基于Encoder-Decoder的神經(jīng)網(wǎng)絡(luò)框架建模書面語文本與口語文本之間的對應(yīng)關(guān)系,從而實(shí)現(xiàn)了口語文本的自動(dòng)生成。
另外,上下文信息可以較大程度幫助人類對語言的理解,對于機(jī)器轉(zhuǎn)錄也是同樣的道理。因而,科大訊飛在去年12月21提出了篇章級語言模型的方案,該方案根據(jù)語音識別的解碼結(jié)果自動(dòng)進(jìn)行關(guān)鍵信息抽取,實(shí)時(shí)進(jìn)行語料搜索和后處理,用解碼結(jié)果和搜索到的語料形成特定語音相關(guān)的語言模型,從而進(jìn)一步提高語音轉(zhuǎn)寫的準(zhǔn)確率。
。ㄆ录壵Z言模型流程圖)
噪聲和遠(yuǎn)場識別技術(shù)
語音識別的應(yīng)用遠(yuǎn)場拾音和噪聲干擾一直是兩大技術(shù)難題。例如在會(huì)議的場景下,如果使用錄音筆進(jìn)行錄音,離錄音筆較遠(yuǎn)說話人的語音即為遠(yuǎn)場帶混響語音,由于混響會(huì)使得不同步的語音相互疊加,帶來了音素的交疊掩蔽效應(yīng),從而嚴(yán)重影響語音識別效果;同樣,如果錄音環(huán)境中存在背景噪聲,語音頻譜會(huì)被污染,其識別效果也會(huì)急劇下降。科大訊飛針對該問題使用了單麥克及配合麥克風(fēng)陣列兩種硬件環(huán)境下的降噪、解混響技術(shù),使得遠(yuǎn)場、噪聲情況下的語音轉(zhuǎn)寫也達(dá)到了實(shí)用門檻。
單麥克降噪、解混響
對采集到的有損失語音,使用混合訓(xùn)練和基于深度回歸神經(jīng)網(wǎng)絡(luò)降噪解混響結(jié)合的方法。即一方面對干凈的語音進(jìn)行加噪,并與干凈語音一起進(jìn)行混合訓(xùn)練,從而提高模型對于帶噪語音的魯棒性(編者注:Robust的音譯,即健壯和強(qiáng)壯之意);另一方面,使用基于深度回歸神經(jīng)網(wǎng)絡(luò)進(jìn)行降噪和解混響,進(jìn)一步提高帶噪、遠(yuǎn)場語音的識別正確率。
麥克風(fēng)陣列降噪、解混響
僅僅考慮在語音處理過程中的噪音可以說是治標(biāo)不治本,如何從源頭上解決混響和降噪似乎才是問題的關(guān)鍵。面對這一難題,科大訊飛研發(fā)人員通過在錄音設(shè)備上加上多麥克陣列,利用多麥克陣列進(jìn)行降噪與解混響。具體地,使用多個(gè)麥克風(fēng)采集多路時(shí)頻信號,利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)波束形成,從而在目標(biāo)信號的方向形成一個(gè)拾音波束,并衰減來自其他方向的反射聲。該方法與上述單麥克降噪和解混響的結(jié)合,可以進(jìn)一步顯著的提高帶噪、遠(yuǎn)場語音的識別正確率。
文本處理實(shí)時(shí)糾錯(cuò)+文字后處理
前面所說的都只是對于語音的處理技術(shù),即將錄音轉(zhuǎn)錄成文字,但正如上文所述人類的口語為無組織性的自然語言,即使在語音轉(zhuǎn)寫正確率非常高的情況下,語音轉(zhuǎn)寫文本的可閱讀性仍存在較大的問題,所以文本后處理的重要性就體現(xiàn)了出來。所謂文本后處理即對口語化的文本進(jìn)行分句、分段,并對文本內(nèi)容的流利性進(jìn)行處理,甚至進(jìn)行內(nèi)容的摘要,以利于更好的閱讀與編輯。
后處理Ⅰ:分句與分段
分句,即對轉(zhuǎn)寫文本按語義進(jìn)行子句劃分,并在子句之間加注標(biāo)點(diǎn);分段,即將一篇文本切分成若干個(gè)語義段落,每個(gè)段落描述的子主題各不相同。
通過提取上下文相關(guān)的語義特征,同時(shí)結(jié)合語音特征,來進(jìn)行子句與段落的劃分;考慮到有標(biāo)注的語音數(shù)據(jù)較難獲得,在實(shí)際運(yùn)用中科大訊飛利用兩級級聯(lián)雙向長短時(shí)記憶網(wǎng)絡(luò)建模技術(shù),從而較好的解決了分句與分段問題。
后處理Ⅱ:內(nèi)容順滑
內(nèi)容順滑,又稱為不流暢檢測,即剔除轉(zhuǎn)寫結(jié)果中的停頓詞、語氣詞、重復(fù)詞,使順滑后的文本更易于閱讀。
科大訊飛通過使用泛化特征并結(jié)合雙向長短時(shí)記憶網(wǎng)絡(luò)建模技術(shù),使得內(nèi)容順滑的準(zhǔn)確率達(dá)到了實(shí)用階段。