首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識別(ASR)  語音識別產(chǎn)品

聲紋識別的模式識別方法

2011/01/05

對于模式識別,有以下幾大類方法

  1. 模板匹配方法:利用動態(tài)時(shí)間彎折(DTW)以對準(zhǔn)訓(xùn)練和測試特征序列,主要用于固定詞組的應(yīng)用(通常為文本相關(guān)任務(wù));
  2. 最近鄰方法:訓(xùn)練時(shí)保留所有特征矢量,識別時(shí)對每個(gè)矢量都找到訓(xùn)練矢量中最近的K個(gè),據(jù)此進(jìn)行識別,通常模型存儲和相似計(jì)算的量都很大;
  3. 神經(jīng)網(wǎng)絡(luò)方法:有很多種形式,如多層感知、徑向基函數(shù)(RBF)等,可以顯式訓(xùn)練以區(qū)分說話人和其背景說話人,其訓(xùn)練量很大,且模型的可推廣性不好;
  4. 隱式馬爾可夫模型(HMM)方法:通常使用單狀態(tài)的HMM,或高斯混合模型(GMM),是比較流行的方法,效果比較好;
  5. VQ聚類方法(如LBG):效果比較好,算法復(fù)雜度也不高,和HMM方法配合起來更可以收到更好的效果;
  6. 多項(xiàng)式分類器方法:有較高的精度,但模型存儲和計(jì)算量都比較大;

  聲紋識別需要解決的關(guān)鍵問題還有很多,諸如:短話音問題,能否用很短的語音進(jìn)行模型訓(xùn)練,而且用很短的時(shí)間進(jìn)行識別,這主要是聲音不易獲取的應(yīng)用所需求的;聲音模仿(或放錄音)問題,要有效地區(qū)分開模仿聲音(錄音)和真正的聲音;多說話人情況下目標(biāo)說話人的有效檢出;消除或減弱聲音變化(不同語言、內(nèi)容、方式、身體狀況、時(shí)間、年齡等)帶來的影響;消除信道差異和背景噪音帶來的影響;……此時(shí)需要用到其他一些技術(shù)來輔助完成,如去噪、自適應(yīng)等技術(shù)。

  對說話人確認(rèn),還面臨一個(gè)兩難選擇問題。通常,表征說話人確認(rèn)系統(tǒng)性能的兩個(gè)重要參數(shù)是錯(cuò)誤拒絕率和錯(cuò)誤接受率,前者是拒絕真正說話人而造成的錯(cuò)誤,后者是接受集外說話人而造成的錯(cuò)誤,二者與閾值的設(shè)定相關(guān)。在現(xiàn)有的技術(shù)水平下,兩者無法同時(shí)達(dá)到最小,需要調(diào)整閾值來滿足不同應(yīng)用的需求,比如在需要“易用性”的情況下,可以讓錯(cuò)誤拒絕率低一些,此時(shí)錯(cuò)誤接受率會增加,從而安全性降低;在對“安全性”要求高的情況下,可以讓錯(cuò)誤接受率低一些,此時(shí)錯(cuò)誤拒絕率會增加,從而易用性降低。前者可以概括為“寧錯(cuò)勿漏”,而后者可以“寧漏勿錯(cuò)”。我們把真正閾值的調(diào)整稱為“操作點(diǎn)”調(diào)整。好的系統(tǒng)應(yīng)該允許對操作點(diǎn)的自由調(diào)整。

CTI論壇報(bào)道



相關(guān)閱讀:
聲紋識別技術(shù):利用人體生物特征進(jìn)行身份認(rèn)證 2011-01-05
聲紋識別的原理及其應(yīng)用 2011-01-05
聲紋識別的分類 2011-01-05
聲紋識別的關(guān)鍵問題 2011-01-05
Nuance:車載信息平臺邁入語音時(shí)代 2010-12-27

熱點(diǎn)專題:  語音合成TTS 語音識別ASR  
相關(guān)頻道:  聲紋識別