草莓视频美女视频,小火星美女视频软件

首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識(shí)別(ASR)　　語音識(shí)別產(chǎn)品

聲紋識(shí)別的分類

2011/01/05

　　聲紋識(shí)別(Voiceprint Recognition, VPR)，也稱為說話人識(shí)別(Speaker Recognition)，有兩類，即說話人辨認(rèn)(Speaker Identification)和說話人確認(rèn)(Speaker Verification)。前者用以判斷某段語音是若干人中的哪一個(gè)所說的，是“多選一”問題；而后者用以確認(rèn)某段語音是否是指定的某個(gè)人所說的，是“一對(duì)一判別”問題。不同的任務(wù)和應(yīng)用會(huì)使用不同的聲紋識(shí)別技術(shù)，如縮小刑偵范圍時(shí)可能需要辨認(rèn)技術(shù)，而銀行交易時(shí)則需要確認(rèn)技術(shù)。不管是辨認(rèn)還是確認(rèn)，都需要先對(duì)說話人的聲紋進(jìn)行建模，這就是所謂的“訓(xùn)練”或“學(xué)習(xí)”過程。
聲紋識(shí)別

　　從另一方面，聲紋識(shí)別有文本相關(guān)的(Text-Dependent)和文本無關(guān)的(Text-Independent)兩種。與文本有關(guān)的聲紋識(shí)別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音，每個(gè)人的聲紋模型逐個(gè)被精確地建立，而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音，因此可以達(dá)到較好的識(shí)別效果，但系統(tǒng)需要用戶配合，如果用戶的發(fā)音與規(guī)定的內(nèi)容不符合，則無法正確識(shí)別該用戶。而與文本無關(guān)的識(shí)別系統(tǒng)則不規(guī)定說話人的發(fā)音內(nèi)容，模型建立相對(duì)困難，但用戶使用方便，可應(yīng)用范圍較寬。根據(jù)特定的任務(wù)和應(yīng)用，兩種是有不同的應(yīng)用范圍的。比如，在銀行交易時(shí)可以使用文本相關(guān)的聲紋識(shí)別，因?yàn)橛脩糇约哼M(jìn)行交易時(shí)是愿意配合的；而在刑偵或偵聽?wèi)?yīng)用中則無法使用文本相關(guān)的聲紋識(shí)別，因?yàn)槟銦o法要求犯罪嫌疑人或被偵聽的人配合。

　　在說話人辨認(rèn)方面，根據(jù)待識(shí)別的說話人是否在注冊(cè)的說話人集合內(nèi)，說話人辨認(rèn)可以分為開集(open-set)辨認(rèn)和閉集(close-set)辨認(rèn)。前者假定待識(shí)別說話人可以在集合外，而后者假定待識(shí)別說話人在集合內(nèi)。顯然，開集辨認(rèn)需要有一個(gè)對(duì)集外說話人的“拒識(shí)問題”，而且閉集辨認(rèn)的結(jié)果要好于開集辨認(rèn)結(jié)果。本質(zhì)上講，說話人確認(rèn)和開集說話人辨認(rèn)都需要用到拒識(shí)技術(shù)，為了達(dá)到很好的拒識(shí)效果，通常需要訓(xùn)練一個(gè)假冒者模型或背景模型，以便拒識(shí)時(shí)有可資比較的對(duì)象，閾值容易選定。而建立背景模型的好壞直接影響到拒識(shí)甚至聲紋識(shí)別的性能。一個(gè)好的背景模型，往往需要通過預(yù)先采集好的若干說話人的數(shù)據(jù)，通過某種算法去建立。

　　如果技術(shù)達(dá)到一定的水平，可以把文本相關(guān)識(shí)別并入文本無關(guān)識(shí)別，把閉集辨認(rèn)并入開集辨認(rèn)，從而提供更為方便的使用方法。比如北京得意音通技術(shù)有限公司的“得意”身份證就是文本無關(guān)的、開集方式的說話人辨認(rèn)和確認(rèn)，“得意”身份證SDK還提供建立背景模型的工具。

CTI論壇報(bào)道

聲紋識(shí)別的原理及其應(yīng)用 2011-01-05

Nuance：車載信息平臺(tái)邁入語音時(shí)代 2010-12-27

臺(tái)達(dá)語音：讓消費(fèi)者使用科技就像呼吸般簡(jiǎn)單自然 2010-12-27

什么是語音云？ 2010-11-26

熱點(diǎn)專題: 語音合成TTS 語音識(shí)別ASR
相關(guān)頻道: 聲紋識(shí)別