范冰冰吻戏视频大全,后入翘臀美女视频

首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音識(shí)別(ASR)　　語(yǔ)音識(shí)別產(chǎn)品

識(shí)別語(yǔ)音的幾種依據(jù)

清華大學(xué) 劉加 2006/07/31

　　語(yǔ)音識(shí)別技術(shù)就是通過(guò)機(jī)器識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令; 說(shuō)話人識(shí)別技術(shù)就是讓機(jī)器通過(guò)你的聲音紋路確定你的身份; 語(yǔ)種識(shí)別技術(shù)就是讓機(jī)器識(shí)別你所說(shuō)的語(yǔ)言的種類，如是英語(yǔ)還是漢語(yǔ)等。

　　近二十年來(lái)，語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步，開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。專家預(yù)計(jì)，未來(lái)10年內(nèi)，語(yǔ)音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。

　　由于朗讀方式的連續(xù)語(yǔ)音和通常自然口語(yǔ)化語(yǔ)音（Spontaneous）發(fā)音方式有很大的不同，電話語(yǔ)音通常包含更多的環(huán)境噪聲、信道噪聲和語(yǔ)音失真，因此如何有效提高自然口語(yǔ)化語(yǔ)音電話語(yǔ)音和廣播語(yǔ)音識(shí)別性能是目前重要挑戰(zhàn)。目前語(yǔ)音識(shí)別技術(shù)研究開(kāi)始重點(diǎn)向電話語(yǔ)音和廣播語(yǔ)音識(shí)別研究方向發(fā)展。利用目前已經(jīng)比較成熟的技術(shù)，開(kāi)發(fā)針對(duì)各種應(yīng)用的語(yǔ)音識(shí)別產(chǎn)品，包括語(yǔ)音專用芯片、嵌入式語(yǔ)音識(shí)別系統(tǒng)、口語(yǔ)對(duì)話系統(tǒng)、聲紋識(shí)別系統(tǒng)等，也是目前語(yǔ)音技術(shù)領(lǐng)域的熱點(diǎn)之一。

　　語(yǔ)音識(shí)別整體模型

　　大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研究主要集中在聲學(xué)模型和語(yǔ)言模型兩個(gè)方面。語(yǔ)音信號(hào)本身的特點(diǎn)造成了語(yǔ)音識(shí)別的困難。這些特點(diǎn)包括多變性、動(dòng)態(tài)性、瞬時(shí)性和連續(xù)性等。語(yǔ)音識(shí)別和理解是一項(xiàng)非常困難的任務(wù)，必須建立在從聲學(xué)、語(yǔ)音學(xué)到語(yǔ)言學(xué)的知識(shí)為基礎(chǔ)的語(yǔ)音處理機(jī)制上，才有可能獲得高性能的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)。目前主流的語(yǔ)音識(shí)別的理論是基于統(tǒng)計(jì)模式識(shí)別原理。語(yǔ)音識(shí)別系統(tǒng)通常假設(shè)語(yǔ)音信號(hào)是由一系列編碼組成。輸入的語(yǔ)音波形首先被轉(zhuǎn)換為一組離散的參數(shù)矢量。通常用O=o1，o2,∧,or表示語(yǔ)音發(fā)聲一組待識(shí)別的特征參數(shù)矢量（觀察矢量），其中每個(gè)矢量時(shí)間間隔典型取值為10ms～20ms。識(shí)別器的作用是把輸入的語(yǔ)音特征矢量映射為潛在的文字序列。

　　語(yǔ)音識(shí)別的整體模型就是要把可利用的語(yǔ)音學(xué)和語(yǔ)言學(xué)信息用一個(gè)統(tǒng)一的模型來(lái)進(jìn)行描述，以得到盡可能正確的句子識(shí)別。假設(shè)一句語(yǔ)音可以由字串W=w1，w2,∧,wr組成，識(shí)別系統(tǒng)要完成的任務(wù)是在給定觀察矢量情況下，尋找最大可能（概率最大）的字串W。漢語(yǔ)和西方語(yǔ)言識(shí)別系統(tǒng)不同的地方在于漢語(yǔ)中的同音字和同音詞比較多，漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)必須包含音字轉(zhuǎn)換的過(guò)程。

　　建立語(yǔ)音識(shí)別模型的任務(wù)就是要把檢測(cè)到的聲學(xué)層語(yǔ)音信息通過(guò)適當(dāng)?shù)臄?shù)學(xué)公式將識(shí)別結(jié)果W與O的關(guān)系表示出來(lái)。目前被認(rèn)為最有效的語(yǔ)音識(shí)別模型就是基于統(tǒng)計(jì)的隱含馬爾可夫模型。根據(jù)統(tǒng)計(jì)模式識(shí)別理論，在已知特征O的條件下，選擇可以利用各種信息使后驗(yàn)概率最大。具有最大后驗(yàn)概率的結(jié)果為系統(tǒng)最可能的識(shí)別結(jié)果。

　　語(yǔ)音識(shí)別整體模型反映了實(shí)際中語(yǔ)音識(shí)別系統(tǒng)要解決的四個(gè)具有挑戰(zhàn)的問(wèn)題。首先，一個(gè)穩(wěn)健的特征參數(shù)提取算法是必須的，并且該參數(shù)能很好地適用于語(yǔ)音的聲學(xué)層模型。第二，必須根據(jù)不同語(yǔ)言的發(fā)音特點(diǎn)，建立具有很好鑒別力的聲學(xué)層模型。模型參數(shù)必須能夠從并不充分的語(yǔ)音數(shù)據(jù)中訓(xùn)練出來(lái)，并表現(xiàn)出穩(wěn)健性。第三，必須建立一個(gè)語(yǔ)言模型，根據(jù)前面的歷史語(yǔ)言模型能夠指導(dǎo)向前搜索的過(guò)程。完善的語(yǔ)言模型還必須包含處理新詞的能力，并且盡可能做到和文本的內(nèi)容無(wú)關(guān)。第四，由于詞匯數(shù)量是巨大的，一個(gè)實(shí)用系統(tǒng)必須有適合聲學(xué)模型和語(yǔ)言模型的剪枝算法。

　　語(yǔ)音識(shí)別特征

　　選取語(yǔ)音的識(shí)別特征參數(shù)是語(yǔ)音識(shí)別系統(tǒng)中非常重要的一個(gè)方面。選取的特征應(yīng)該對(duì)發(fā)音模板有較大的區(qū)分度和抗噪聲性能。語(yǔ)音信號(hào)可以看成是準(zhǔn)平穩(wěn)的隨機(jī)過(guò)程。在10～25ms的時(shí)間范圍內(nèi)語(yǔ)音信號(hào)可以被認(rèn)為是平穩(wěn)的，因此可以分幀對(duì)語(yǔ)音信號(hào)進(jìn)行分析。對(duì)語(yǔ)音識(shí)別系統(tǒng)，典型幀長(zhǎng)取值為25ms，幀移為10ms。漢明窗（Hamming）通常在分析中使用以提高分析準(zhǔn)確性。預(yù)加重濾波器通常被用于補(bǔ)償由于嘴唇輻射引起的高頻頻譜的衰減。

　　目前比較有效識(shí)別參數(shù)為Mel頻率倒譜系數(shù)（Mel-Frequency Cepstral Coefficients MFCC）。MFCC參數(shù)都符合人耳的聽(tīng)覺(jué)特性，在有信道噪聲和頻譜失真情況下，該參數(shù)表現(xiàn)的比較穩(wěn)健。由線性預(yù)測(cè)系數(shù)（Linear Prediction LP）導(dǎo)出倒譜系數(shù)也是一種常用的語(yǔ)音識(shí)別參數(shù)，在安靜的環(huán)境下，線性預(yù)測(cè)倒譜系數(shù)和MFCC系數(shù)的性能相差不多。近來(lái)研究表明用感覺(jué)加權(quán)的線性預(yù)測(cè)（Perceptually Weighted Linear Prediction Cepstral Coefficients PLPCC）倒譜系數(shù)能有更好的識(shí)別穩(wěn)健性。

　　在語(yǔ)音信號(hào)特征提取過(guò)程中，通常做一個(gè)不精確的假設(shè)，即不同幀間的語(yǔ)音是不相關(guān)的，由于人發(fā)音的物理?xiàng)l件限制，不同幀間語(yǔ)音必須是相關(guān)的，變化是連續(xù)的。可以用一階差分系數(shù)和二階差分系數(shù)來(lái)近似描述語(yǔ)音幀間的相關(guān)性。通常把分析得出的語(yǔ)音信號(hào)的倒譜特征稱為語(yǔ)音的靜態(tài)特征，而把這些靜態(tài)特征的差分譜稱為語(yǔ)音信號(hào)的動(dòng)態(tài)特征。這些動(dòng)態(tài)信息和靜態(tài)信息成互補(bǔ)，能很大程度提高系統(tǒng)的識(shí)別性能。更好的語(yǔ)音動(dòng)態(tài)特征可以用語(yǔ)音的幀間相關(guān)模型來(lái)描述，但是，其運(yùn)算量較大。

　　簡(jiǎn)單增加語(yǔ)音特征參數(shù)的數(shù)量并不一定能夠提高系統(tǒng)的識(shí)別率。增加模型參數(shù)的雖然能提高系統(tǒng)的鑒別能力，但同時(shí)也增加了系統(tǒng)的混淆性。因此如何有效的選取特征參數(shù)是一個(gè)重要問(wèn)題。目前一種從多種參數(shù)中選取重要特征的方法是使用線性鑒別分析（Linear Discriminant Analysis LDA），通過(guò)LDA可以把原始的特征參數(shù)變換到一個(gè)維數(shù)更低的矢量空間，其改進(jìn)方法包括異方差區(qū)分分析（Heteroscedastic Discriminant Analysis HAD）和混淆數(shù)據(jù)分析（Confusion Data Analysis CDA）。

　　聲學(xué)模型

　　識(shí)別系統(tǒng)的聲學(xué)模型是識(shí)別系統(tǒng)的底層模型。聲學(xué)模型是語(yǔ)音識(shí)別系統(tǒng)中最為關(guān)鍵的一部分。聲學(xué)模型的目的是提供一種有效的方法計(jì)算語(yǔ)音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。人的發(fā)音在每一時(shí)刻都受到其前后發(fā)音的影響，為了模仿自然連續(xù)語(yǔ)音中協(xié)同發(fā)音作用和鑒別這些不同發(fā)音，通常要求使用復(fù)雜的聲學(xué)模型。聲學(xué)模型的設(shè)計(jì)和語(yǔ)言發(fā)音特點(diǎn)密切相關(guān)。

　　漢語(yǔ)的發(fā)音特點(diǎn)和西方語(yǔ)言有很大的不同。漢語(yǔ)的每個(gè)字發(fā)音較短，為帶調(diào)單音節(jié)。它屬于有調(diào)語(yǔ)言，調(diào)對(duì)區(qū)分漢字的意思起了很大的作用。漢語(yǔ)的每個(gè)發(fā)音中的輔音部分發(fā)音相對(duì)較短且詞間的連音程度不如英語(yǔ)那么強(qiáng)。針對(duì)漢語(yǔ)的這些發(fā)音特點(diǎn)，目前的研究表明取半音節(jié)作為識(shí)別系統(tǒng)的識(shí)別單元就能夠很好的描述漢語(yǔ)語(yǔ)音的細(xì)節(jié)。這些半音節(jié)通常稱為聲母和韻母，當(dāng)然如果詳細(xì)考慮到聲母的左半連接關(guān)系和韻母的左半和右半連接關(guān)系，還可以細(xì)化為聲韻母的三音子（Triphone）模型。進(jìn)一步考慮前面兩個(gè)和后面兩個(gè)發(fā)音關(guān)系，還可以細(xì)化為五音子。三音子通常比二音子的數(shù)目大很多，可多達(dá)上萬(wàn)個(gè)。太多的模板，則要求非常大量的訓(xùn)練數(shù)據(jù)，才能達(dá)到穩(wěn)健的參數(shù)估值。

　　基于一種語(yǔ)言學(xué)知識(shí)構(gòu)成的判決樹(shù)（Phonetic Decision Trees）方法可以結(jié)合語(yǔ)言學(xué)知識(shí)，由數(shù)據(jù)驅(qū)動(dòng)方法根據(jù)語(yǔ)音數(shù)據(jù)多少，針對(duì)由語(yǔ)言學(xué)總結(jié)出來(lái)的發(fā)音特點(diǎn)對(duì)不同三音子構(gòu)成在最大似然準(zhǔn)則下進(jìn)行聚類。保證生成模型在給定的數(shù)據(jù)下，模型參數(shù)能夠穩(wěn)健的估值。該方法收到良好的效果，有效地提高了系統(tǒng)的識(shí)別率。對(duì)統(tǒng)計(jì)模型語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō)，語(yǔ)音訓(xùn)練的數(shù)據(jù)相對(duì)來(lái)說(shuō)總是不夠的。提高模型參數(shù)估值穩(wěn)健性的另一種辦法是使用捆綁技術(shù)，捆綁技術(shù)使一些不同的發(fā)音模型在某些狀態(tài)上共享模型參數(shù)，這可以很大程度上減少對(duì)訓(xùn)練數(shù)據(jù)的要求。

　　目前隱含馬爾可夫模型HMM仍然是大詞匯量語(yǔ)音識(shí)別算法的主流，它能對(duì)語(yǔ)音的時(shí)變性和動(dòng)態(tài)性有很強(qiáng)的模型能力。HMM的從左到右狀態(tài)轉(zhuǎn)移模型，很好地描敘了語(yǔ)音發(fā)音特點(diǎn)。HMM可以分為連續(xù)密度隱含馬爾柯夫模型、半連續(xù)隱含馬爾柯夫模型和離散隱含馬爾柯夫模型。通常連續(xù)密度隱含馬爾柯夫模型精度最高，但計(jì)算量較大。每個(gè)發(fā)音音素通常采用3個(gè)狀態(tài)隱含馬爾柯夫模型。其結(jié)構(gòu)如附圖所示�？紤]到在不同的幀上噪聲、清音、濁音的短時(shí)能量和過(guò)零率有重疊的部分，語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)準(zhǔn)確率不可能很高，尤其是在噪聲較大的環(huán)境下。為解決這個(gè)問(wèn)題，還必須設(shè)計(jì)能夠模擬語(yǔ)句開(kāi)頭、結(jié)尾靜音模型，以及句子中詞間短暫停頓靜音模型，要注意的是這兩種靜音模型有不同的統(tǒng)計(jì)特性和模型結(jié)構(gòu)，必須分別加以考慮。

　　語(yǔ)音識(shí)別系統(tǒng)這一層模型通常稱為聲學(xué)模型，它是識(shí)別系統(tǒng)的最基礎(chǔ)部分，對(duì)系統(tǒng)性能起到最關(guān)鍵的作用。近年來(lái)基于概率圖模型和基于隨機(jī)段模型的識(shí)別算法研究也取得顯著進(jìn)展，其識(shí)別率在一定程度上好于隱含馬爾可夫模型的識(shí)別系統(tǒng)，并開(kāi)始受到重視。

　　語(yǔ)言模型

　　一個(gè)識(shí)別系統(tǒng)必須在每一時(shí)刻檢測(cè)是否遇到語(yǔ)音的發(fā)音邊界，這樣許多不正確字或詞的猜測(cè)將會(huì)從不正確段的語(yǔ)音中識(shí)別出來(lái)。為了消除這些猜測(cè)字詞之間的模糊性，語(yǔ)言模型是必須的。語(yǔ)言模型可以提供字或詞之間的上下文信息和語(yǔ)義信息。由于語(yǔ)音信號(hào)的復(fù)雜性，不同音的發(fā)聲類之間存在著疊接現(xiàn)象，有些單音如果沒(méi)有前后聯(lián)想即使人來(lái)分辨也是很困難的。通過(guò)語(yǔ)言模型可以提高聲學(xué)模型的區(qū)分度，語(yǔ)言模型可以是語(yǔ)言中一些規(guī)則或語(yǔ)法結(jié)構(gòu)，也可以是表現(xiàn)字或詞的上下文之間的統(tǒng)計(jì)模型。目前比較成熟的方法是統(tǒng)計(jì)語(yǔ)言模型，它通過(guò)對(duì)大量文本文件的統(tǒng)計(jì)，得出了不同字詞之間先后發(fā)生的統(tǒng)計(jì)關(guān)系。

　　語(yǔ)言模型是近年來(lái)自然語(yǔ)言處理領(lǐng)域研究的熱點(diǎn)之一。雖然語(yǔ)音識(shí)別的聲學(xué)模型可以做到于任務(wù)無(wú)關(guān)，但常規(guī)的語(yǔ)言模型目前還做不到這點(diǎn)。由于語(yǔ)言模型都是通過(guò)特定方面內(nèi)容文本訓(xùn)練而成的，因此從新聞?wù)Z料訓(xùn)練出來(lái)的語(yǔ)言模型，不能夠用于識(shí)別文學(xué)方面的有關(guān)內(nèi)容，這是常規(guī)語(yǔ)言模型的主要缺點(diǎn)之一。

　　語(yǔ)言模型不僅能用于語(yǔ)音識(shí)別，而且在音字轉(zhuǎn)換、漢語(yǔ)分詞、詞性標(biāo)注中也有應(yīng)用。漢語(yǔ)的同音字現(xiàn)象很嚴(yán)重，雖然漢語(yǔ)只有無(wú)調(diào)拼音408個(gè)，有調(diào)拼音1254個(gè)，但平均一個(gè)有調(diào)拼音要對(duì)應(yīng)5、6個(gè)漢字，有的高達(dá)十幾個(gè)。漢語(yǔ)可讀的文本是漢字形式，所以音字轉(zhuǎn)換是語(yǔ)音識(shí)別的重要步驟。

　　語(yǔ)言模型不僅可以用于語(yǔ)音識(shí)別系統(tǒng)中，還可以用于一般的音字轉(zhuǎn)換系統(tǒng)中。

　　在轉(zhuǎn)換中可以用基于詞的語(yǔ)言模型或基于字的語(yǔ)言模型。實(shí)驗(yàn)表明，基于詞的語(yǔ)言模型要比基于字的語(yǔ)言模型更精確。表中對(duì)應(yīng)音字轉(zhuǎn)換的數(shù)據(jù)是在三元文法語(yǔ)言模型下轉(zhuǎn)換字正確率的百分比。

　　表中的Perplexity通常稱為語(yǔ)言模型困惑度或分支度，它可以用于度量語(yǔ)言模型的性能，表明在語(yǔ)言模型的限制下，每個(gè)詞后面平均能夠連接詞的個(gè)數(shù)，其值越小說(shuō)明語(yǔ)言模型越有效。反過(guò)來(lái)，如果保持系統(tǒng)識(shí)別率不變，則Perplexity越大，系統(tǒng)對(duì)語(yǔ)言文法的限制也越寬松。從表中可以看出，基于詞的語(yǔ)言模型確實(shí)比基于字的語(yǔ)言模型效果好。基于詞的模型Perplexity低，而且音字轉(zhuǎn)換準(zhǔn)確率高，但是構(gòu)造基于詞的語(yǔ)言模型比較復(fù)雜，構(gòu)造起來(lái)也比較麻煩。

　　鏈接:說(shuō)話人自適應(yīng)

　　說(shuō)話人之間的差異對(duì)非特定人語(yǔ)音識(shí)別系統(tǒng)造成的影響主要有兩方面原因: 1.當(dāng)某一使用該系統(tǒng)的說(shuō)話人語(yǔ)音與訓(xùn)練語(yǔ)音庫(kù)中的所有說(shuō)話人的語(yǔ)音都有較大的差別時(shí)，對(duì)該使用者的語(yǔ)音識(shí)別將很難進(jìn)行; 2. 訓(xùn)練一個(gè)較好的識(shí)別系統(tǒng)需要采集數(shù)量很大的說(shuō)話人的語(yǔ)音用于訓(xùn)練，讓訓(xùn)練語(yǔ)音庫(kù)覆蓋更為廣泛的語(yǔ)音空間，這樣雖然可以減低原因1中的影響，但同時(shí)會(huì)造成識(shí)別系統(tǒng)參數(shù)分布較廣，而不是較為尖銳的分布，造成識(shí)別性能的普遍下降。

　　特定人識(shí)別系統(tǒng)雖然可以克服非特定人系統(tǒng)的以上缺點(diǎn)，但該系統(tǒng)需要使用者錄入大量的語(yǔ)音用于訓(xùn)練，給使用者帶來(lái)很大的不便，對(duì)于大詞匯量的識(shí)別系統(tǒng)，所需的語(yǔ)音訓(xùn)練的數(shù)量是令人無(wú)法忍受的。

　　近年來(lái)，人們采用說(shuō)話人自適應(yīng)（Speaker Adaptation, SA）算法有效地解決了特定人和非特定人系統(tǒng)各自的缺點(diǎn)。該方案利用系統(tǒng)使用者的少量訓(xùn)練語(yǔ)音，調(diào)整系統(tǒng)的參數(shù)，使得系統(tǒng)對(duì)于該使用者的性能有明顯的提高。與非特定人識(shí)別系統(tǒng)相比, 說(shuō)話人自適應(yīng)系統(tǒng)由于考慮了用戶的特殊信息，因此識(shí)別性能優(yōu)于非特定人語(yǔ)音識(shí)別系統(tǒng); 而與特定人語(yǔ)音識(shí)別系統(tǒng)相比，說(shuō)話人自適應(yīng)系統(tǒng)納入了非特定人識(shí)別系統(tǒng)的先驗(yàn)信息，需要用戶提供的訓(xùn)練音數(shù)量遠(yuǎn)低于特定人語(yǔ)音識(shí)別系統(tǒng)，有更好的實(shí)用性。因此非特定人+自適應(yīng)成為當(dāng)前各語(yǔ)音識(shí)別系統(tǒng)采用的實(shí)用框架。

　　按照訓(xùn)練語(yǔ)音獲取的不同形式，自適應(yīng)方式可以分為: 批處理式: 訓(xùn)練語(yǔ)音是由用戶一次性錄入，然后進(jìn)行統(tǒng)一的自適應(yīng)訓(xùn)練，更新系統(tǒng)參數(shù); 在線式: 訓(xùn)練語(yǔ)音是用戶使用識(shí)別系統(tǒng)時(shí)所識(shí)別的語(yǔ)音，系統(tǒng)根據(jù)累積的統(tǒng)計(jì)量，按照一定時(shí)間間隔更新系統(tǒng)參數(shù); 立即式: 訓(xùn)練語(yǔ)音是當(dāng)前正在識(shí)別的語(yǔ)音，該模式與在線式模式間的差別在于立即式自適應(yīng)只利用當(dāng)前的語(yǔ)音作自適應(yīng)，沒(méi)有在線式自適應(yīng)的累積過(guò)程。

　　從實(shí)用角度看，在線式和立即式自適應(yīng)模型由于不需要用戶一次性輸入一批訓(xùn)練語(yǔ)音，所以對(duì)用戶的界面更具友好性。從實(shí)現(xiàn)的角度看，批處理式自適應(yīng)的實(shí)現(xiàn)難度低于在線式和立即式。而從自適應(yīng)的性能看，批處理與在線式的算法本質(zhì)是一致的，因此性能也基本一致，立即式自適應(yīng)由于沒(méi)有累積的過(guò)程，利用語(yǔ)音的信息少，所以性能劣于前兩者。

計(jì)算機(jī)世界網(wǎng)(www.ccw.com.cn)

語(yǔ)音識(shí)別技術(shù)突飛猛進(jìn) 終有一天超過(guò)人？ 2006-07-20

語(yǔ)音識(shí)別標(biāo)準(zhǔn)之痛 2006-06-19

你好！新語(yǔ)音識(shí)別時(shí)代 2006-06-01

藏在舌尖上的“身份證”:走向民品市場(chǎng)的聲音識(shí)別技術(shù) 2006-05-30

相關(guān)頻道: 文摘技術(shù)_語(yǔ)音識(shí)別_文摘