古装美女视频混剪,酒吧性感美女视频

"得意"聲紋識別技術(shù)常見問題解答

2004/11/25

1.1 什么是VPR？
1.2 "得意聲紋識別"技術(shù)及軟件開發(fā)工具的介紹
1.2.1 "得意聲紋識別"技術(shù)的特點(diǎn)及優(yōu)勢
1.2.2 文本相關(guān)的聲紋確認(rèn)識別引擎的說明
1.2.3 文本無關(guān)的聲紋辨認(rèn)和聲紋確認(rèn)識別引擎的說明
1.3 VPR的應(yīng)用范圍舉例
1.4 得意VPR技術(shù)的使用方法
1.5 得意聲紋識別引擎支持的語音格式
1.6 編程者是否需要對語音進(jìn)行預(yù)處理？
1.7 什么是多機(jī)協(xié)調(diào)的工作方式？
1.8 什么是信道的通用背景模型？

1.1 什么是VPR？

　　VPR是聲紋識別（Voiceprint Recognition）的縮寫，有時也稱為說話人識別（Speaker Recognition）。每個人的指紋都是唯一的，數(shù)百萬人之間才會發(fā)現(xiàn)有兩個人有相同的指紋；與此類似，聲紋也是人的個性特征，很難找到兩個聲紋完全一樣的人。聲紋識別，就是要根據(jù)人的發(fā)音特征，識別出某段語音是誰說的。

　　從對用戶所說內(nèi)容的要求上來看，可以分為文本相關(guān)的（Text Dependent）和文本無關(guān)的（Text Independent），前者要求用戶在識別過程中說出和用來訓(xùn)練的語音相同內(nèi)容的一段話，后者則無此限制；從識別的目的來看，可分為聲紋辨認(rèn)（Voiceprint Identification）和聲紋確認(rèn)（Voiceprint Verification），前者要判斷出某段語音是若干人中的哪一個所說的；后者則確認(rèn)某段語音是否是指定的某個人所說的；在聲紋辨認(rèn)應(yīng)用中對集外說話人的處理方式上，又可分為閉集識別和開集識別，前者要求待識別語音一定是某個已知的說話人之一，而后者允許待識別語音可以是某個未知的說話人，因此識別系統(tǒng)具有一定的"拒識"的功能，顯然后者具有更廣的應(yīng)用范圍。

1.2 "得意聲紋識別"技術(shù)及軟件開發(fā)工具的介紹

1.2.1 "得意聲紋識別"技術(shù)的特點(diǎn)及優(yōu)勢
　　得意公司的聲紋識別引擎包括聲紋辨認(rèn)和聲紋確認(rèn)版本，可以是文本無關(guān)的，也可以是文本相關(guān)的，而且均支持開集的識別方式。其中文本無關(guān)的版本同時具有文本和語言的無關(guān)性，對語音長度的要求也非常低，通常訓(xùn)練只需要幾十秒有效語音，而識別階段只需幾秒鐘的有效語音即可。有很高的識別精度，也可以靈活地調(diào)整操作點(diǎn)參數(shù)從而適應(yīng)于不同應(yīng)用的需求。

1.2.2 文本相關(guān)的聲紋確認(rèn)識別引擎的說明

　　"得意文本相關(guān)的聲紋確認(rèn)"識別引擎及其API的最新版本為3.0。

　　系統(tǒng)要求為：Intel PII 400 MHz以上配置的 PC或服務(wù)器；128 MB 或更多的內(nèi)存；微軟Windows 9X/ME/NT/2000/XP；微軟Visual C++ Version 6.0 或更高版本�；蛘呤牵篈RM兼容的Pocket PC（WinCE 3.0或更高版本）；Embedded Visual C++ v3.0或更高版本（適用于Pocket PC版的文本相關(guān)聲紋確認(rèn)識別引擎）。

　　軟件開發(fā)包的內(nèi)容有：函數(shù)說明頭文件（*.h）、靜態(tài)鏈接庫（*.lib）、動態(tài)鏈接庫（*.dll）、初始模型文件、編程參考手冊（*.doc/*.PDF）、參考示例源程序等。

　　文本相關(guān)的聲紋確認(rèn)識別API v3.0的特點(diǎn)有：工作在說話人（聲紋）文本相關(guān)的方式；對訓(xùn)練次數(shù)要求低，并可累積訓(xùn)練；對用戶無口音和語言的使用限制；運(yùn)行于開集方式（即具備拒識功能）；可調(diào)整的拒識嚴(yán)格程度閾值；內(nèi)嵌對并發(fā)操作的控制，支持多線程調(diào)用；具有高效率與高準(zhǔn)確度下的可靠性與靈活性。

1.2.3 文本無關(guān)的聲紋辨認(rèn)和聲紋確認(rèn)識別引擎的說明
　　"得意文本無關(guān)的聲紋辨認(rèn)"和"得意文本無關(guān)的聲紋確認(rèn)"識別引擎及其API的最新版本均為3.0。

　　系統(tǒng)要求為：Intel PII 400 MHz以上配置的 PC或服務(wù)器；128 MB 或更多的內(nèi)存；微軟Windows 9X/ME/NT/2000/XP；微軟Visual C++ Version 6.0 或更高版本。

　　軟件開發(fā)包的內(nèi)容有：函數(shù)說明頭文件（*.h）、靜態(tài)鏈接庫（*.lib）、動態(tài)鏈接庫（*.dll）、初始模型文件、編程參考手冊（*.doc/*.PDF）、參考示例源程序等。

　　文本無關(guān)的聲紋辨認(rèn)和聲紋確認(rèn)識別API v3.0的特點(diǎn)有：同時支持話者身份識別與話者身份認(rèn)證；與文本(內(nèi)容)、語言無關(guān)；運(yùn)行于開集方式(即具備拒識功能)；可調(diào)整的聲紋識別閾值與自適應(yīng)適應(yīng)性功能；無監(jiān)督的開集拒識閾值估計；話者識別與認(rèn)證的增量方式識別；高效率與高準(zhǔn)確度下的可靠性與靈活性；基于客戶端/服務(wù)器的框架（多線程與多實(shí)例）。

1.3 VPR的應(yīng)用范圍舉例

　　聲紋辨認(rèn)：刑偵破案、罪犯跟蹤、國防監(jiān)聽、個性化應(yīng)用等等；聲紋確認(rèn)：證券交易、銀行交易、公安取證、個人電腦聲控鎖、汽車聲控鎖、身份證、信用卡的認(rèn)證等。

1.4得意VPR技術(shù)的使用方法

　　得意的聲紋辨認(rèn)和聲紋確認(rèn)技術(shù)均提供一組方便易用的編程接口（API）和運(yùn)行文件，可供應(yīng)用開發(fā)者直接編程調(diào)用。其中API部分采用標(biāo)準(zhǔn)的純C風(fēng)格，提供函數(shù)說明的頭文件，可供多種編程語言和環(huán)境調(diào)用，運(yùn)行文件包括動態(tài)鏈接庫和預(yù)先訓(xùn)練好的初始數(shù)據(jù)文件等。對具體應(yīng)用對應(yīng)的特殊信道，我們可以為其進(jìn)行特定的參數(shù)調(diào)整和信道初始模型的定制化工作。

1.5得意聲紋識別引擎支持的語音格式

　　與ASR引擎相同，得意的各個聲紋識別引擎均支持PC聲卡信道和電話信道上采集的語音，它們的采樣率分別為16kHz和8kHz，其它采樣率的語音流需要先進(jìn)行轉(zhuǎn)換之后才能被使用，采樣點(diǎn)可以是8bit或16bit的PCM格式，也可以是用A率或μ率壓縮的。

　　如果語音流是存儲在語音文件（例如*.wav）中的，那么應(yīng)用程序在調(diào)用識別引擎的API之前，需要先將文件中的語音流讀入內(nèi)存中，然后調(diào)用相應(yīng)的編程接口把語音數(shù)據(jù)送入識別引擎。

1.6 編程者是否需要對語音進(jìn)行預(yù)處理？

　　在我們現(xiàn)有的聲紋識別接口中，已包含了對語音進(jìn)行預(yù)處理的功能。例如識別前，要求先將語音數(shù)據(jù)放入某個內(nèi)部數(shù)據(jù)結(jié)構(gòu)內(nèi)，在這個過程中就自動完成了拋除靜音、噪音、提取語音特征等工作，并為后續(xù)的識別只保留真正"有效"的語音部分。當(dāng)然如果需要的話，系統(tǒng)開發(fā)者在這個過程之前再加上一些額外的預(yù)處理也是可以的，例如可對某些已知具有特殊分布規(guī)律的低信噪比語音進(jìn)行專門的去噪操作，以保證后續(xù)的建模和識別過程具有更好的綜合性能。

1.7 什么是多機(jī)協(xié)調(diào)的工作方式？

　　在進(jìn)行聲紋辨認(rèn)時，由于進(jìn)行比對的時間與語音長度和聲紋數(shù)據(jù)庫的規(guī)�；旧鲜浅烧鹊模援�(dāng)語音較長且聲紋數(shù)據(jù)庫巨大時，單一線程內(nèi)部的比對會變得非常耗時。此時可以采用多臺機(jī)器協(xié)調(diào)工作的方式。例如，采用五臺機(jī)器，由總控程序?qū)⒁粋€待比對的語音數(shù)據(jù)流分發(fā)到各個機(jī)器上，每臺機(jī)器只負(fù)責(zé)比對數(shù)據(jù)庫中五分之一的聲紋模型；之后將各自檢出的候選提交給總控程序，進(jìn)行統(tǒng)一的排序和輸出，于是總體的識別時間就降為原來單機(jī)的五分之一。這就是多機(jī)協(xié)調(diào)工作的方式。

1.8 什么是信道的通用背景模型？

　　在進(jìn)行文本無關(guān)的、開集的聲紋辨認(rèn)和確認(rèn)時，我們利用了一種由海量數(shù)據(jù)訓(xùn)練得到的"通用背景模型"來對各個聲紋模型的得分進(jìn)行歸一化和拒識；對不同的信道（例如PC聲卡、固定電話、GSM或CDMA的移動電話、錄音筆、磁帶、監(jiān)控設(shè)備、電視、無線電設(shè)備等，嚴(yán)格說來都分別屬于不同信道），不同信道的"背景模型"間的參數(shù)差異很大，這與識別器的性能是有一定的相關(guān)性的。目前我們的引擎中缺省僅內(nèi)嵌了一個背景模型。因此當(dāng)需要同時識別來自多個信道（例如手機(jī)、固話、錄音筆、磁帶等）的語音時，我們可訓(xùn)練出針對不同信道的背景模型，在識別時與這些語音對應(yīng)起來使用即可。當(dāng)然，現(xiàn)有的編程接口也可以根據(jù)用戶的具體情況為此進(jìn)行一些定制或調(diào)整。

得意音通公司供稿 CTI論壇編輯

北京軟件產(chǎn)品質(zhì)量檢測檢驗(yàn)中心對《海量語音文件的目標(biāo)說話人篩選系統(tǒng)》進(jìn)行測試 2009-06-25

廣東政府和清華大學(xué)舉行了全面開展產(chǎn)學(xué)研合作協(xié)議簽約儀式 2009-06-25

得意中文整句輸入法V1.0開源for Windows Mobile5.0 2009-01-23

得意聲紋識別VPR4.0_b20080808新版本發(fā)布 2008-08-27

分類信息: 文摘技術(shù)_語音識別_文摘