林允儿动态壁纸视频,全屏美女视频来电铃声

首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音識(shí)別(ASR)　　語(yǔ)音識(shí)別產(chǎn)品

聲紋識(shí)別的模式識(shí)別方法

2011/01/05

對(duì)于模式識(shí)別，有以下幾大類方法：

模板匹配方法：利用動(dòng)態(tài)時(shí)間彎折(DTW)以對(duì)準(zhǔn)訓(xùn)練和測(cè)試特征序列，主要用于固定詞組的應(yīng)用(通常為文本相關(guān)任務(wù))；
最近鄰方法：訓(xùn)練時(shí)保留所有特征矢量，識(shí)別時(shí)對(duì)每個(gè)矢量都找到訓(xùn)練矢量中最近的K個(gè)，據(jù)此進(jìn)行識(shí)別，通常模型存儲(chǔ)和相似計(jì)算的量都很大；
神經(jīng)網(wǎng)絡(luò)方法：有很多種形式，如多層感知、徑向基函數(shù)(RBF)等，可以顯式訓(xùn)練以區(qū)分說(shuō)話人和其背景說(shuō)話人，其訓(xùn)練量很大，且模型的可推廣性不好；
隱式馬爾可夫模型(HMM)方法：通常使用單狀態(tài)的HMM，或高斯混合模型(GMM)，是比較流行的方法，效果比較好；
VQ聚類方法(如LBG)：效果比較好，算法復(fù)雜度也不高，和HMM方法配合起來(lái)更可以收到更好的效果；
多項(xiàng)式分類器方法：有較高的精度，但模型存儲(chǔ)和計(jì)算量都比較大；

　　聲紋識(shí)別需要解決的關(guān)鍵問(wèn)題還有很多，諸如：短話音問(wèn)題，能否用很短的語(yǔ)音進(jìn)行模型訓(xùn)練，而且用很短的時(shí)間進(jìn)行識(shí)別，這主要是聲音不易獲取的應(yīng)用所需求的；聲音模仿(或放錄音)問(wèn)題，要有效地區(qū)分開(kāi)模仿聲音(錄音)和真正的聲音；多說(shuō)話人情況下目標(biāo)說(shuō)話人的有效檢出；消除或減弱聲音變化(不同語(yǔ)言、內(nèi)容、方式、身體狀況、時(shí)間、年齡等)帶來(lái)的影響；消除信道差異和背景噪音帶來(lái)的影響；……此時(shí)需要用到其他一些技術(shù)來(lái)輔助完成，如去噪、自適應(yīng)等技術(shù)。

　　對(duì)說(shuō)話人確認(rèn)，還面臨一個(gè)兩難選擇問(wèn)題。通常，表征說(shuō)話人確認(rèn)系統(tǒng)性能的兩個(gè)重要參數(shù)是錯(cuò)誤拒絕率和錯(cuò)誤接受率，前者是拒絕真正說(shuō)話人而造成的錯(cuò)誤，后者是接受集外說(shuō)話人而造成的錯(cuò)誤，二者與閾值的設(shè)定相關(guān)。在現(xiàn)有的技術(shù)水平下，兩者無(wú)法同時(shí)達(dá)到最小，需要調(diào)整閾值來(lái)滿足不同應(yīng)用的需求，比如在需要“易用性”的情況下，可以讓錯(cuò)誤拒絕率低一些，此時(shí)錯(cuò)誤接受率會(huì)增加，從而安全性降低；在對(duì)“安全性”要求高的情況下，可以讓錯(cuò)誤接受率低一些，此時(shí)錯(cuò)誤拒絕率會(huì)增加，從而易用性降低。前者可以概括為“寧錯(cuò)勿漏”，而后者可以“寧漏勿錯(cuò)”。我們把真正閾值的調(diào)整稱為“操作點(diǎn)”調(diào)整。好的系統(tǒng)應(yīng)該允許對(duì)操作點(diǎn)的自由調(diào)整。

CTI論壇報(bào)道

聲紋識(shí)別的原理及其應(yīng)用 2011-01-05

聲紋識(shí)別的分類 2011-01-05

聲紋識(shí)別的關(guān)鍵問(wèn)題 2011-01-05

Nuance：車載信息平臺(tái)邁入語(yǔ)音時(shí)代 2010-12-27

熱點(diǎn)專題: 語(yǔ)音合成TTS 語(yǔ)音識(shí)別ASR
相關(guān)頻道: 聲紋識(shí)別