首頁>>廠商>>語音識別與合成>>得意音通

"得意"聲紋識別技術(shù)常見問題解答

2004/11/25

1.1 什么是VPR?
1.2 "得意聲紋識別"技術(shù)及軟件開發(fā)工具的介紹
1.2.1 "得意聲紋識別"技術(shù)的特點(diǎn)及優(yōu)勢
1.2.2 文本相關(guān)的聲紋確認(rèn)識別引擎的說明
1.2.3 文本無關(guān)的聲紋辨認(rèn)和聲紋確認(rèn)識別引擎的說明
1.3 VPR的應(yīng)用范圍舉例
1.4 得意VPR技術(shù)的使用方法
1.5 得意聲紋識別引擎支持的語音格式
1.6 編程者是否需要對語音進(jìn)行預(yù)處理?
1.7 什么是多機(jī)協(xié)調(diào)的工作方式?
1.8 什么是信道的通用背景模型?

1.1 什么是VPR?

  VPR是聲紋識別(Voiceprint Recognition)的縮寫,有時也稱為說話人識別(Speaker Recognition)。每個人的指紋都是唯一的,數(shù)百萬人之間才會發(fā)現(xiàn)有兩個人有相同的指紋;與此類似,聲紋也是人的個性特征,很難找到兩個聲紋完全一樣的人。聲紋識別,就是要根據(jù)人的發(fā)音特征,識別出某段語音是誰說的。

  從對用戶所說內(nèi)容的要求上來看,可以分為文本相關(guān)的(Text Dependent)和文本無關(guān)的(Text Independent),前者要求用戶在識別過程中說出和用來訓(xùn)練的語音相同內(nèi)容的一段話,后者則無此限制;從識別的目的來看,可分為聲紋辨認(rèn)(Voiceprint Identification)和聲紋確認(rèn)(Voiceprint Verification),前者要判斷出某段語音是若干人中的哪一個所說的;后者則確認(rèn)某段語音是否是指定的某個人所說的;在聲紋辨認(rèn)應(yīng)用中對集外說話人的處理方式上,又可分為閉集識別和開集識別,前者要求待識別語音一定是某個已知的說話人之一,而后者允許待識別語音可以是某個未知的說話人,因此識別系統(tǒng)具有一定的"拒識"的功能,顯然后者具有更廣的應(yīng)用范圍。

1.2 "得意聲紋識別"技術(shù)及軟件開發(fā)工具的介紹

1.2.1 "得意聲紋識別"技術(shù)的特點(diǎn)及優(yōu)勢
  得意公司的聲紋識別引擎包括聲紋辨認(rèn)和聲紋確認(rèn)版本,可以是文本無關(guān)的,也可以是文本相關(guān)的,而且均支持開集的識別方式。其中文本無關(guān)的版本同時具有文本和語言的無關(guān)性,對語音長度的要求也非常低,通常訓(xùn)練只需要幾十秒有效語音,而識別階段只需幾秒鐘的有效語音即可。有很高的識別精度,也可以靈活地調(diào)整操作點(diǎn)參數(shù)從而適應(yīng)于不同應(yīng)用的需求。

1.2.2 文本相關(guān)的聲紋確認(rèn)識別引擎的說明

  "得意文本相關(guān)的聲紋確認(rèn)"識別引擎及其API的最新版本為3.0。

  系統(tǒng)要求為:Intel PII 400 MHz以上配置的 PC或服務(wù)器;128 MB 或更多的內(nèi)存;微軟Windows 9X/ME/NT/2000/XP;微軟Visual C++ Version 6.0 或更高版本;蛘呤牵篈RM兼容的Pocket PC(WinCE 3.0或更高版本);Embedded Visual C++ v3.0或更高版本(適用于Pocket PC版的文本相關(guān)聲紋確認(rèn)識別引擎)。

  軟件開發(fā)包的內(nèi)容有:函數(shù)說明頭文件(*.h)、靜態(tài)鏈接庫(*.lib)、動態(tài)鏈接庫(*.dll)、初始模型文件、編程參考手冊(*.doc/*.PDF)、參考示例源程序等。

  文本相關(guān)的聲紋確認(rèn)識別API v3.0的特點(diǎn)有:工作在說話人(聲紋)文本相關(guān)的方式;對訓(xùn)練次數(shù)要求低,并可累積訓(xùn)練;對用戶無口音和語言的使用限制;運(yùn)行于開集方式(即具備拒識功能);可調(diào)整的拒識嚴(yán)格程度閾值;內(nèi)嵌對并發(fā)操作的控制,支持多線程調(diào)用;具有高效率與高準(zhǔn)確度下的可靠性與靈活性。

1.2.3 文本無關(guān)的聲紋辨認(rèn)和聲紋確認(rèn)識別引擎的說明
  "得意文本無關(guān)的聲紋辨認(rèn)"和"得意文本無關(guān)的聲紋確認(rèn)"識別引擎及其API的最新版本均為3.0。

  系統(tǒng)要求為:Intel PII 400 MHz以上配置的 PC或服務(wù)器;128 MB 或更多的內(nèi)存;微軟Windows 9X/ME/NT/2000/XP;微軟Visual C++ Version 6.0 或更高版本。

  軟件開發(fā)包的內(nèi)容有:函數(shù)說明頭文件(*.h)、靜態(tài)鏈接庫(*.lib)、動態(tài)鏈接庫(*.dll)、初始模型文件、編程參考手冊(*.doc/*.PDF)、參考示例源程序等。

  文本無關(guān)的聲紋辨認(rèn)和聲紋確認(rèn)識別API v3.0的特點(diǎn)有:同時支持話者身份識別與話者身份認(rèn)證;與文本(內(nèi)容)、語言無關(guān);運(yùn)行于開集方式(即具備拒識功能);可調(diào)整的聲紋識別閾值與自適應(yīng)適應(yīng)性功能;無監(jiān)督的開集拒識閾值估計;話者識別與認(rèn)證的增量方式識別;高效率與高準(zhǔn)確度下的可靠性與靈活性;基于客戶端/服務(wù)器的框架(多線程與多實(shí)例)。

1.3 VPR的應(yīng)用范圍舉例

  聲紋辨認(rèn):刑偵破案、罪犯跟蹤、國防監(jiān)聽、個性化應(yīng)用等等;聲紋確認(rèn):證券交易、銀行交易、公安取證、個人電腦聲控鎖、汽車聲控鎖、身份證、信用卡的認(rèn)證等。

1.4得意VPR技術(shù)的使用方法

  得意的聲紋辨認(rèn)和聲紋確認(rèn)技術(shù)均提供一組方便易用的編程接口(API)和運(yùn)行文件,可供應(yīng)用開發(fā)者直接編程調(diào)用。其中API部分采用標(biāo)準(zhǔn)的純C風(fēng)格,提供函數(shù)說明的頭文件,可供多種編程語言和環(huán)境調(diào)用,運(yùn)行文件包括動態(tài)鏈接庫和預(yù)先訓(xùn)練好的初始數(shù)據(jù)文件等。對具體應(yīng)用對應(yīng)的特殊信道,我們可以為其進(jìn)行特定的參數(shù)調(diào)整和信道初始模型的定制化工作。

1.5得意聲紋識別引擎支持的語音格式

  與ASR引擎相同,得意的各個聲紋識別引擎均支持PC聲卡信道和電話信道上采集的語音,它們的采樣率分別為16kHz和8kHz,其它采樣率的語音流需要先進(jìn)行轉(zhuǎn)換之后才能被使用,采樣點(diǎn)可以是8bit或16bit的PCM格式,也可以是用A率或μ率壓縮的。

  如果語音流是存儲在語音文件(例如*.wav)中的,那么應(yīng)用程序在調(diào)用識別引擎的API之前,需要先將文件中的語音流讀入內(nèi)存中,然后調(diào)用相應(yīng)的編程接口把語音數(shù)據(jù)送入識別引擎。

1.6 編程者是否需要對語音進(jìn)行預(yù)處理?

  在我們現(xiàn)有的聲紋識別接口中,已包含了對語音進(jìn)行預(yù)處理的功能。例如識別前,要求先將語音數(shù)據(jù)放入某個內(nèi)部數(shù)據(jù)結(jié)構(gòu)內(nèi),在這個過程中就自動完成了拋除靜音、噪音、提取語音特征等工作,并為后續(xù)的識別只保留真正"有效"的語音部分。當(dāng)然如果需要的話,系統(tǒng)開發(fā)者在這個過程之前再加上一些額外的預(yù)處理也是可以的,例如可對某些已知具有特殊分布規(guī)律的低信噪比語音進(jìn)行專門的去噪操作,以保證后續(xù)的建模和識別過程具有更好的綜合性能。

1.7 什么是多機(jī)協(xié)調(diào)的工作方式?

  在進(jìn)行聲紋辨認(rèn)時,由于進(jìn)行比對的時間與語音長度和聲紋數(shù)據(jù)庫的規(guī);旧鲜浅烧鹊模援(dāng)語音較長且聲紋數(shù)據(jù)庫巨大時,單一線程內(nèi)部的比對會變得非常耗時。此時可以采用多臺機(jī)器協(xié)調(diào)工作的方式。例如,采用五臺機(jī)器,由總控程序?qū)⒁粋待比對的語音數(shù)據(jù)流分發(fā)到各個機(jī)器上,每臺機(jī)器只負(fù)責(zé)比對數(shù)據(jù)庫中五分之一的聲紋模型;之后將各自檢出的候選提交給總控程序,進(jìn)行統(tǒng)一的排序和輸出,于是總體的識別時間就降為原來單機(jī)的五分之一。這就是多機(jī)協(xié)調(diào)工作的方式。

1.8 什么是信道的通用背景模型?

  在進(jìn)行文本無關(guān)的、開集的聲紋辨認(rèn)和確認(rèn)時,我們利用了一種由海量數(shù)據(jù)訓(xùn)練得到的"通用背景模型"來對各個聲紋模型的得分進(jìn)行歸一化和拒識;對不同的信道(例如PC聲卡、固定電話、GSM或CDMA的移動電話、錄音筆、磁帶、監(jiān)控設(shè)備、電視、無線電設(shè)備等,嚴(yán)格說來都分別屬于不同信道),不同信道的"背景模型"間的參數(shù)差異很大,這與識別器的性能是有一定的相關(guān)性的。目前我們的引擎中缺省僅內(nèi)嵌了一個背景模型。因此當(dāng)需要同時識別來自多個信道(例如手機(jī)、固話、錄音筆、磁帶等)的語音時,我們可訓(xùn)練出針對不同信道的背景模型,在識別時與這些語音對應(yīng)起來使用即可。當(dāng)然,現(xiàn)有的編程接口也可以根據(jù)用戶的具體情況為此進(jìn)行一些定制或調(diào)整。

得意音通公司供稿 CTI論壇編輯



相關(guān)鏈接:
得意珠三角綜合智能信息增值平臺項(xiàng)目中標(biāo) 2009-08-20
北京軟件產(chǎn)品質(zhì)量檢測檢驗(yàn)中心對《海量語音文件的目標(biāo)說話人篩選系統(tǒng)》進(jìn)行測試 2009-06-25
廣東政府和清華大學(xué)舉行了全面開展產(chǎn)學(xué)研合作協(xié)議簽約儀式 2009-06-25
得意中文整句輸入法V1.0開源for Windows Mobile5.0 2009-01-23
得意聲紋識別VPR4.0_b20080808新版本發(fā)布 2008-08-27

分類信息:     文摘   技術(shù)_語音識別_文摘