首頁(yè)>>廠商>>語(yǔ)音識(shí)別與合成>>得意音通

聲紋識(shí)別與數(shù)據(jù)安全

鄭方 鄧永強(qiáng) 2003/04/17

  自1946年世界上第一臺(tái)馮-依曼計(jì)算機(jī)面世以來,在半個(gè)多世紀(jì)的時(shí)間里,計(jì)算機(jī)硬件按摩爾定律(芯片產(chǎn)業(yè)每18個(gè)月速度增長(zhǎng)1倍)迅猛發(fā)展;而微軟公司等軟件生產(chǎn)商所開發(fā)的高質(zhì)量軟件,相輔相成,給人類使用計(jì)算機(jī)帶來了很大的方便;這些都使人類的能力得到延伸。網(wǎng)絡(luò)技術(shù)的飛速發(fā)展又使得人類所生活的地球變成了一個(gè)“地球村”,人類的活動(dòng)空間變大了,在某種意義上講,人類的活動(dòng)和交流甚至可以跨越時(shí)間和空間的障礙。因此可以說,由于計(jì)算機(jī)及其技術(shù)的飛速發(fā)展而推動(dòng)的信息化進(jìn)程,極大地改變了人們的生活方式,并提高了人類的生活質(zhì)量。

  然而,在人們享受著信息化所帶來的好處的同時(shí),人們也面臨著“個(gè)人隱私有被信息化吞食的危險(xiǎn)”。

  美國(guó)計(jì)算機(jī)安全企業(yè)Cryptography Research公司近日指出,由于計(jì)算機(jī)性能18個(gè)月倍增這一所謂“摩爾定律”的作用,計(jì)算機(jī)系統(tǒng)越來越脆弱,安全專家稱,這就是摩爾定律的負(fù)面影響。

  Cryptography Research公司總裁、安全專家Paul Kocher說,在摩爾定律的作用下,計(jì)算機(jī)性能提高了,但是系統(tǒng)也日益復(fù)雜化,這就為非法入侵者增加了進(jìn)攻手段和機(jī)會(huì)。

  2002年11月29日《北京青年報(bào)》報(bào)道(http://finance.sina.com.cn)“京城第一稅案開審,三稅官玩忽職守?fù)p失2.8億”:由于當(dāng)事人經(jīng)常把進(jìn)入系統(tǒng)的專用IC卡隨意放在抽屜里、桌子上,導(dǎo)致罪犯趁機(jī)非法操作增值稅防偽稅控系統(tǒng)。

  2003年1月6日,《環(huán)球時(shí)報(bào)》報(bào)道:一伙竊賊躲過美國(guó)鳳凰城“三西健康保健公司”的保安系統(tǒng),進(jìn)入了這家公司的一座大樓,偷走了數(shù)臺(tái)筆記本電腦和臺(tái)式電腦的硬盤,以及一些文字資料,然后逃之夭夭,從而使50多萬份軍人醫(yī)療保健檔案被盜。日本政府從2002年8月開始建立的全國(guó)居民個(gè)人資料聯(lián)網(wǎng)系統(tǒng)(即我們所說的“電子身份證”),用以存儲(chǔ)日本1.26億國(guó)民的個(gè)人信息,包括姓名、住址、出生年月、性別和新的身份證號(hào)碼,而開始運(yùn)行僅5個(gè)月的電子身份證系統(tǒng)就連續(xù)發(fā)生了2次嚴(yán)重的資料泄密事件。

  這些事件的發(fā)生,促使人們考慮這樣一個(gè)問題,那就是:在信息化時(shí)代如何保護(hù)個(gè)人隱私。試想在把個(gè)人資料加以整合進(jìn)行集中管理,只用一張IC卡就能完成各種活動(dòng),從而可以極大地提高工作效率和生活質(zhì)量的同時(shí),如何才能防止系統(tǒng)被非法或非授權(quán)闖入?如何才能有效地防止被記錄下來的個(gè)人資料被竊?

一、用生物特征進(jìn)行身份認(rèn)證

  為了有效防止類似事件的發(fā)生,必須嚴(yán)格限制系統(tǒng)操作員,防止系統(tǒng)被非授權(quán)者非法闖入。而密碼或IC卡等具有先天性安全缺陷的身份認(rèn)證手段,必將被更為有效的方法所取代,那就是利用生物特征進(jìn)行身份認(rèn)證的技術(shù)。正如比爾·蓋茨所說:“以人類生物特征(指紋、語(yǔ)音、臉像等)進(jìn)行身份驗(yàn)證的生物識(shí)別技術(shù),在今后數(shù)年內(nèi)將成為IT產(chǎn)業(yè)最為重要的技術(shù)革命。”

  那么有那些生物特征可資使用呢?下面舉例說明。

  1.1面孔
  人的面容各異,世界上沒有長(zhǎng)得一模一樣的兩個(gè)人,即使是雙胞胎,用人類學(xué)方法測(cè)量也可發(fā)現(xiàn)差異。把人臉面部各個(gè)解剖部位間的點(diǎn)、線測(cè)繪出來,用紅外線對(duì)面部熱相進(jìn)行掃描,就可以進(jìn)行人臉識(shí)別。

  1.2指紋、手指和掌紋
  指紋(Finger prints)是人手指末端掌面皮膚乳突線隆起形成的花紋;而在人手掌上形成的這種花紋稱為掌紋(palm prints);另外在人的腳掌面上也有類似的花紋。

  指紋可分上百種圖形,每個(gè)指紋又由13種不同形狀的點(diǎn)、線等排列組合成近百個(gè)特征點(diǎn),加之各特征點(diǎn)、線間的位置、分布又不同,而使指紋的特異性、穩(wěn)定性、遺傳性"終生不變,萬人不同"。法國(guó)有人報(bào)告,指紋上的細(xì)節(jié)特征按數(shù)學(xué)方法可以歸納為4種,而每個(gè)指紋約有100個(gè)細(xì)節(jié),經(jīng)排列組合得出61位數(shù),假定一個(gè)世紀(jì)內(nèi)有50億人口,即有500億個(gè)指頭,經(jīng)推算發(fā)現(xiàn),人類要經(jīng)過50位數(shù)字的世紀(jì)才可能出現(xiàn)絕對(duì)重復(fù)的指紋,故實(shí)際上世人中不可能有兩個(gè)指紋完全相同的人,所以說,指紋是公認(rèn)的個(gè)人認(rèn)定絕對(duì)可靠的標(biāo)志,并已在法庭科學(xué)中得到很長(zhǎng)時(shí)間的應(yīng)用。我國(guó)古代一直以指紋畫押證明個(gè)人身份,并為世界各國(guó)推崇,可見指紋是舉世公認(rèn)而且是不可仿冒的個(gè)人標(biāo)記。

  另外,美國(guó)科學(xué)專家對(duì)4,000名飛行員的手指逐一測(cè)試,結(jié)果發(fā)現(xiàn)每個(gè)人的手指都不一樣長(zhǎng)。這一意外發(fā)現(xiàn)促成了一種用手指長(zhǎng)度辨別身份的機(jī)器的誕生。

  人手掌紋的形成及其特異性與指紋相同。手掌形根據(jù)人類學(xué)方法測(cè)量,可找出每個(gè)人之間的差異,但其準(zhǔn)確性遠(yuǎn)不如指紋。

  1.3虹膜
  人眼虹膜位于眼角膜之后,水晶體之前,其顏色因含色素的多少與分布不同而不同。透過角膜可見虹膜呈圓盤狀,中央有一小孔稱瞳孔,瞳孔依環(huán)境的明暗,可自動(dòng)縮小或擴(kuò)大。圓盤狀的虹膜以中央的瞳孔為中心,向周圍有輻射狀的紋理和小凹,猶如裙子折。瞳孔縮小時(shí)紋理變直;瞳孔擴(kuò)大時(shí)紋理呈波浪形,虹膜上的紋理、血管、斑點(diǎn)等細(xì)微特征人各不同。

  1.4視網(wǎng)膜
  瑞士科學(xué)家發(fā)現(xiàn)每個(gè)人的視網(wǎng)膜圖紋也都是不同的。人眼球視網(wǎng)膜的中央動(dòng)脈,在眼底至視神經(jīng)乳頭處分為上下兩支,然后在視網(wǎng)膜顳側(cè)上下及鼻側(cè)上下再分為4支小動(dòng)脈,各支小動(dòng)脈再逐級(jí)分的更細(xì)、更小,以至在視網(wǎng)膜上形成四通八達(dá)的毛細(xì)血管網(wǎng),此即臨床醫(yī)生觀察眼底診病的眼底血管圖。這些血管逐級(jí)分支以至成網(wǎng),正如參天大樹逐級(jí)分出樹杈形成許多樹葉,絕無完全相同的兩個(gè)眼底血管圖。如果某個(gè)體眼底血管有先天變異,或后天變異血管或眼底發(fā)生病變,則更增添了鑒別的特殊標(biāo)志。因此,在法庭科學(xué)上將眼底視網(wǎng)膜血管圖視為個(gè)人識(shí)別的優(yōu)選方法之一。

  1.5氣味
  每個(gè)人的身體散發(fā)出的氣味都是不同的。當(dāng)一個(gè)人在一個(gè)地點(diǎn)活動(dòng)時(shí),他散發(fā)出的氣味就會(huì)留在周圍的空間內(nèi),人離去后氣味不會(huì)馬上消失。將氣味收集起來,經(jīng)濃縮轉(zhuǎn)移到清潔無味的布上就稱為“味紋”,用電子鼻或警犬能準(zhǔn)確區(qū)分不同人的“味紋”。

  1.6 DNA
  DNA(脫氧核糖核酸)存在于一切有核的動(dòng)、植物中,生物的全部遺傳信息都貯存在DNA分子里。DNA結(jié)構(gòu)中的編碼區(qū),即遺傳基因或稱基因序列部分占DNA全長(zhǎng)的1/10~1/30,這部分就是遺傳密碼區(qū)。

  就人來講遺傳基因約有十萬個(gè),每個(gè)均由A、T、G、C四種核苷酸按次序排列在兩條互補(bǔ)的螺旋的DNA長(zhǎng)鏈上。核苷酸的總數(shù)達(dá)30億左右,如隨機(jī)查兩個(gè)人的DNA圖譜,其完全相同的概率僅為三千億分之一,這一概率遠(yuǎn)低于目前世界人口總數(shù)的倒數(shù),所以其認(rèn)定個(gè)人的價(jià)值可看作是100%。

  1.7血管紋路
  美國(guó)科達(dá)公司工程師喬·萊斯發(fā)現(xiàn),每個(gè)人手背上樹狀血管的脈絡(luò)紋路都是不同的,即使是孿生兄弟姐妹也不具備相同的血管紋路,因?yàn)檫@與后天影響有關(guān),其形成及意義與網(wǎng)膜血管相同,但遠(yuǎn)不如視網(wǎng)膜血管那么繁雜,而且透過皮膚可視的血管又有限。血管紋路識(shí)別儀主要由電腦和紅外攝像機(jī)組成。其錄入存儲(chǔ)與檢查的方法均較簡(jiǎn)便,只需把緊握拳的手放在攝像機(jī)下數(shù)秒鐘,經(jīng)計(jì)算機(jī)與存儲(chǔ)的圖像比較后即可認(rèn)定或否定的結(jié)論,這不失為更簡(jiǎn)便的一種。

  1.8聲紋
  所謂聲紋(Voiceprint),是用電聲學(xué)儀器顯示的攜帶言語(yǔ)信息的聲波頻譜。
  人類語(yǔ)言的產(chǎn)生是人體語(yǔ)言中樞與發(fā)音器官之間一個(gè)復(fù)雜的生理物理過程,人在講話時(shí)使用的發(fā)聲器官--舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個(gè)人的差異很大,所以任何兩個(gè)人的聲紋圖譜都有差異。每個(gè)人的語(yǔ)音聲學(xué)特征既有相對(duì)穩(wěn)定性,又有變異性,不是絕對(duì)的、一成不變的。這種變異可來自生理、病理、心理、模擬、偽裝,也與環(huán)境干擾有關(guān)。盡管如此,由于每個(gè)人的發(fā)音器官都不盡相同,因此在一般情況下,人們?nèi)阅軈^(qū)別不同的人的聲音或判斷是否是同一人的聲音。

  1.9其他生物特征
  人類還有其他可以進(jìn)行身份鑒別或確認(rèn)的生物特征,如指法、筆跡、簽名、步態(tài)、耳形等等。所有這些生物特征在進(jìn)行身份鑒別或確認(rèn)時(shí),其普遍性、唯一性、永久性、易獲取性、可區(qū)分性、防偽能力以及用戶接受程度等等,都不盡相同,因此,在不同場(chǎng)合、不同應(yīng)用環(huán)境下,應(yīng)選擇不同的特征。目前,在全球用生物特征進(jìn)行身份鑒別和確認(rèn)的應(yīng)用中,各種生物特征的使用比例分別為:手指34.7%,手31%,聲音15.8%,面孔7.1%,AFIS(自動(dòng)指紋辨認(rèn))4.4%,虹膜3.7%,簽名2.7%,視網(wǎng)膜0.6%,等等(1999年底數(shù)據(jù))。

二、聲紋識(shí)別及其應(yīng)用

  聲紋識(shí)別的應(yīng)用有一些缺點(diǎn),比如同一個(gè)人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響;比如不同的麥克風(fēng)和信道對(duì)識(shí)別性能有影響;比如環(huán)境噪音對(duì)識(shí)別有干擾;又比如混合說話人的情形下人的聲紋特征不易提。弧鹊。盡管如此,與其他生物特征相比,聲紋識(shí)別的應(yīng)用有一些特殊的優(yōu)勢(shì):(1)蘊(yùn)含聲紋特征的語(yǔ)音獲取方便、自然,聲紋提取可在不知不覺中完成,因此使用者的接受程度也高;(2)獲取語(yǔ)音的識(shí)別成本低廉,使用簡(jiǎn)單,一個(gè)麥克風(fēng)即可,在使用通訊設(shè)備時(shí)更無需額外的錄音設(shè)備;(3)適合遠(yuǎn)程身份確認(rèn),只需要一個(gè)麥克風(fēng)或電話、手機(jī)就可以通過網(wǎng)路(通訊網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò))實(shí)現(xiàn)遠(yuǎn)程登錄;(4)聲紋辨認(rèn)和確認(rèn)的算法復(fù)雜度低;(5)配合一些其他措施,如通過語(yǔ)音識(shí)別進(jìn)行內(nèi)容鑒別等,可以提高準(zhǔn)確率;……等等。這些優(yōu)勢(shì)使得聲紋識(shí)別的應(yīng)用越來越收到系統(tǒng)開發(fā)者和用戶親睞,聲紋識(shí)別的世界市場(chǎng)占有率15.8%,僅次于手指和手的生物特征識(shí)別,并有不斷上升的趨勢(shì)。

  2.1聲紋識(shí)別的分類
  聲紋識(shí)別(Voiceprint Recognition, VPR),也稱為說話人識(shí)別(Speaker Recognition),有兩類,即說話人辨認(rèn)(Speaker Identification)和說話人確認(rèn)(Speaker Verification)。前者用以判斷某段語(yǔ)音是若干人中的哪一個(gè)所說的,是“多選一”問題;而后者用以確認(rèn)某段語(yǔ)音是否是指定的某個(gè)人所說的,是“一對(duì)一判別”問題。不同的任務(wù)和應(yīng)用會(huì)使用不同的聲紋識(shí)別技術(shù),如縮小刑偵范圍時(shí)可能需要辨認(rèn)技術(shù),而銀行交易時(shí)則需要確認(rèn)技術(shù)。不管是辨認(rèn)還是確認(rèn),都需要先對(duì)說話人的聲紋進(jìn)行建模,這就是所謂的“訓(xùn)練”或“學(xué)習(xí)”過程。

  從另一方面,聲紋識(shí)別有文本相關(guān)的(Text-Dependent)和文本無關(guān)的(Text-Independent)兩種。與文本有關(guān)的聲紋識(shí)別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音,每個(gè)人的聲紋模型逐個(gè)被精確地建立,而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達(dá)到較好的識(shí)別效果,但系統(tǒng)需要用戶配合,如果用戶的發(fā)音與規(guī)定的內(nèi)容不符合,則無法正確識(shí)別該用戶。而與文本無關(guān)的識(shí)別系統(tǒng)則不規(guī)定說話人的發(fā)音內(nèi)容,模型建立相對(duì)困難,但用戶使用方便,可應(yīng)用范圍較寬。根據(jù)特定的任務(wù)和應(yīng)用,兩種是有不同的應(yīng)用范圍的。比如,在銀行交易時(shí)可以使用文本相關(guān)的聲紋識(shí)別,因?yàn)橛脩糇约哼M(jìn)行交易時(shí)是愿意配合的;而在刑偵或偵聽?wèi)?yīng)用中則無法使用文本相關(guān)的聲紋識(shí)別,因?yàn)槟銦o法要求犯罪嫌疑人或被偵聽的人配合。

  在說話人辨認(rèn)方面,根據(jù)待識(shí)別的說話人是否在注冊(cè)的說話人集合內(nèi),說話人辨認(rèn)可以分為開集(open-set)辨認(rèn)和閉集(close-set)辨認(rèn)。前者假定待識(shí)別說話人可以在集合外,而后者假定待識(shí)別說話人在集合內(nèi)。顯然,開集辨認(rèn)需要有一個(gè)對(duì)集外說話人的“拒識(shí)問題”,而且閉集辨認(rèn)的結(jié)果要好于開集辨認(rèn)結(jié)果。本質(zhì)上講,說話人確認(rèn)和開集說話人辨認(rèn)都需要用到拒識(shí)技術(shù),為了達(dá)到很好的拒識(shí)效果,通常需要訓(xùn)練一個(gè)假冒者模型或背景模型,以便拒識(shí)時(shí)有可資比較的對(duì)象,閾值容易選定。而建立背景模型的好壞直接影響到拒識(shí)甚至聲紋識(shí)別的性能。一個(gè)好的背景模型,往往需要通過預(yù)先采集好的若干說話人的數(shù)據(jù),通過某種算法去建立。

  如果技術(shù)達(dá)到一定的水平,可以把文本相關(guān)識(shí)別并入文本無關(guān)識(shí)別,把閉集辨認(rèn)并入開集辨認(rèn),從而提供更為方便的使用方法。比如北京得意音通技術(shù)有限公司的“得意”身份證就是文本無關(guān)的、開集方式的說話人辨認(rèn)和確認(rèn),“得意”身份證SDK還提供建立背景模型的工具。

  2.2聲紋識(shí)別的關(guān)鍵問題

  聲紋識(shí)別可以說有兩個(gè)關(guān)鍵問題,一是特征提取,二是模式匹配(模式識(shí)別)。

  特征提取的任務(wù)是提取并選擇對(duì)說話人的聲紋具有可分性強(qiáng)、穩(wěn)定性高等特性的聲學(xué)或語(yǔ)言特征。與語(yǔ)音識(shí)別不同,聲紋識(shí)別的特征必須是“個(gè)性化”特征,而說話人識(shí)別的特征對(duì)說話人來講必須是“共性特征”。雖然目前大部分聲紋識(shí)別系統(tǒng)用的都是聲學(xué)層面的特征,但是表征一個(gè)人特點(diǎn)的特征應(yīng)該是多層面的,包括:(1)與人類的發(fā)音機(jī)制的解剖學(xué)結(jié)構(gòu)有關(guān)的聲學(xué)特征(如頻譜、倒頻譜、共振峰、基音、反射系數(shù)等等)、鼻音、帶深呼吸音、沙啞音、笑聲等;(2)受社會(huì)經(jīng)濟(jì)狀況、受教育水平、出生地等影響的語(yǔ)義、修辭、發(fā)音、言語(yǔ)習(xí)慣等;(3)個(gè)人特點(diǎn)或受父母影響的韻律、節(jié)奏、速度、語(yǔ)調(diào)、音量等特征。從利用數(shù)學(xué)方法可以建模的角度出發(fā),聲紋自動(dòng)識(shí)別模型目前可以使用的特征包括:(1)聲學(xué)特征(倒頻譜);(2)詞法特征(說話人相關(guān)的詞n-gram,音素n-gram);(3)韻律特征(利用n-gram描述的基音和能量“姿勢(shì)”);(4)語(yǔ)種、方言和口音信息;(5)通道信息(使用何種通道);等等。

  根據(jù)不同的任務(wù)需求,聲紋識(shí)別還面臨一個(gè)特征選擇或特征選用的問題。例如,對(duì)“信道”信息,在刑偵應(yīng)用上,希望不用,也就是說希望弱化信道對(duì)說話人識(shí)別的影響,因?yàn)槲覀兿M还苷f話人用什么信道系統(tǒng)它都可以辨認(rèn)出來;而在銀行交易上,希望用信道信息,即希望信道對(duì)說話人識(shí)別有較大影響,從而可以剔除錄音、模仿等帶來的影響。

  總之,較好的特征,應(yīng)該能夠有效地區(qū)分不同的說話人,但又能在同一說話人語(yǔ)音發(fā)生變化時(shí)保持相對(duì)的穩(wěn)定;不易被他人模仿或能夠較好地解決被他人模仿問題;具有較好的抗噪性能;……。當(dāng)然,這些問題也可以通過模型方法去解決。

  對(duì)于模式識(shí)別,有以下幾大類方法:

  (1)模板匹配方法:利用動(dòng)態(tài)時(shí)間彎折(DTW)以對(duì)準(zhǔn)訓(xùn)練和測(cè)試特征序列,主要用于固定詞組的應(yīng)用(通常為文本相關(guān)任務(wù));
  (2)最近鄰方法:訓(xùn)練時(shí)保留所有特征矢量,識(shí)別時(shí)對(duì)每個(gè)矢量都找到訓(xùn)練矢量中最近的K個(gè),據(jù)此進(jìn)行識(shí)別,通常模型存儲(chǔ)和相似計(jì)算的量都很大;
  (3)神經(jīng)網(wǎng)絡(luò)方法:有很多種形式,如多層感知、徑向基函數(shù)(RBF)等,可以顯式訓(xùn)練以區(qū)分說話人和其背景說話人,其訓(xùn)練量很大,且模型的可推廣性不好;
  (4)隱式馬爾可夫模型(HMM)方法:通常使用單狀態(tài)的HMM,或高斯混合模型(GMM),是比較流行的方法,效果比較好;
  (5)VQ聚類方法(如LBG):效果比較好,算法復(fù)雜度也不高,和HMM方法配合起來更可以收到更好的效果;
  (6)多項(xiàng)式分類器方法:有較高的精度,但模型存儲(chǔ)和計(jì)算量都比較大;
  (7)……

  聲紋識(shí)別需要解決的關(guān)鍵問題還有很多,諸如:短話音問題,能否用很短的語(yǔ)音進(jìn)行模型訓(xùn)練,而且用很短的時(shí)間進(jìn)行識(shí)別,這主要是聲音不易獲取的應(yīng)用所需求的;聲音模仿(或放錄音)問題,要有效地區(qū)分開模仿聲音(錄音)和真正的聲音;多說話人情況下目標(biāo)說話人的有效檢出;消除或減弱聲音變化(不同語(yǔ)言、內(nèi)容、方式、身體狀況、時(shí)間、年齡等)帶來的影響;消除信道差異和背景噪音帶來的影響;……此時(shí)需要用到其他一些技術(shù)來輔助完成,如去噪、自適應(yīng)等技術(shù)。
  對(duì)說話人確認(rèn),還面臨一個(gè)兩難選擇問題。通常,表征說話人確認(rèn)系統(tǒng)性能的兩個(gè)重要參數(shù)是錯(cuò)誤拒絕率和錯(cuò)誤接受率,前者是拒絕真正說話人而造成的錯(cuò)誤,后者是接受集外說話人而造成的錯(cuò)誤,二者與閾值的設(shè)定相關(guān)。在現(xiàn)有的技術(shù)水平下,兩者無法同時(shí)達(dá)到最小,需要調(diào)整閾值來滿足不同應(yīng)用的需求,比如在需要“易用性”的情況下,可以讓錯(cuò)誤拒絕率低一些,此時(shí)錯(cuò)誤接受率會(huì)增加,從而安全性降低;在對(duì)“安全性”要求高的情況下,可以讓錯(cuò)誤接受率低一些,此時(shí)錯(cuò)誤拒絕率會(huì)增加,從而易用性降低。前者可以概括為“寧錯(cuò)勿漏”,而后者可以“寧漏勿錯(cuò)”。我們把真正閾值的調(diào)整稱為“操作點(diǎn)”調(diào)整。好的系統(tǒng)應(yīng)該允許對(duì)操作點(diǎn)的自由調(diào)整。

  2.3聲紋識(shí)別的應(yīng)用

  聲紋識(shí)別可以應(yīng)用的范圍很寬,可以說聲紋識(shí)別幾乎可以應(yīng)用到人們?nèi)粘I畹母鱾(gè)角落。比如下面舉幾個(gè)例子。

  (1)信息領(lǐng)域。比如在自動(dòng)總機(jī)系統(tǒng)中,把“得意”身份證之聲紋辨認(rèn)(www.d-ear.com/Technologies&Products/Products-d-Ear%20ID_ch.htm)和“得意”關(guān)鍵詞檢出器(http://www.d-ear.com/Technologies&Products/Products-d-Ear%20Word-Spotter_ch)結(jié)合起來,可以在姓名自動(dòng)撥號(hào)的同時(shí)向受話方提供主叫方的身份信息。前者用于身份認(rèn)證,后者用于內(nèi)容認(rèn)證。同樣,聲紋識(shí)別技術(shù)可以在呼叫中心(Call Center)應(yīng)用中為注冊(cè)的?蛻籼峁┯押玫膫(gè)性化服務(wù)。
  (2)銀行、證券。鑒于密碼的安全性不高,可以用聲紋識(shí)別技術(shù)對(duì)電話銀行、遠(yuǎn)程炒股等業(yè)務(wù)中的用戶身份進(jìn)行確認(rèn),為了提供安全性,還可以采取一些其他措施,如密碼和聲紋雙保險(xiǎn),如隨機(jī)提示文本用文本相關(guān)的聲紋識(shí)別技術(shù)進(jìn)行身份確認(rèn)(隨機(jī)提示文本保證無法用事先錄好的音去假冒),甚至可以把交易時(shí)的聲音錄下來以備查詢。
  (3)公安司法。對(duì)于各種電話勒索、綁架、電話人身攻擊等案件,聲紋辨認(rèn)技術(shù)可以在一段錄音中查找出嫌疑人或縮小偵察范圍;聲紋確認(rèn)技術(shù)還可以在法庭上提供身份確認(rèn)的旁證。
  (4)軍隊(duì)和國(guó)防。聲紋辨認(rèn)技術(shù)可以察覺電話交談過程中是否有關(guān)鍵說話人出現(xiàn),繼而對(duì)交談的內(nèi)容進(jìn)行跟蹤(戰(zhàn)場(chǎng)環(huán)境監(jiān)聽);在通過電話發(fā)出軍事指令時(shí),可以對(duì)發(fā)出命令的人的身份進(jìn)行確認(rèn)(敵我指戰(zhàn)員鑒別)。目前該技術(shù)在國(guó)外軍事方面已經(jīng)有所應(yīng)用,據(jù)報(bào)道,迫降在我國(guó)海南機(jī)場(chǎng)的美軍EP-3偵察機(jī)中就載有類似的聲紋識(shí)別偵聽模塊。
  (5)保安和證件防偽。如機(jī)密場(chǎng)所的門禁系統(tǒng)。又如聲紋識(shí)別確認(rèn)可用于信用卡、銀行自動(dòng)取款機(jī)、門、車的鑰匙卡、授權(quán)使用的電腦、聲紋鎖以及特殊通道口的身份卡,把聲紋存在卡上,在需要時(shí),持卡者只要將卡插入專用機(jī)的插口上,通過一個(gè)傳聲器讀出事先已儲(chǔ)存的暗碼,同時(shí)儀器接收持卡者發(fā)出的聲音,然后進(jìn)行分析比較,從而完成身份確認(rèn)。同樣可以把含有某人聲紋特征的芯片嵌入到證件之中,通過上面所述的過程完成證件防偽。
  (6)……等等。
  北京得意音通技術(shù)有限責(zé)任公司開發(fā)的“得意”身份證開發(fā)工具,可以很好應(yīng)用于上述領(lǐng)域中!暗靡狻鄙矸葑C有如下特點(diǎn):(1)文本和語(yǔ)言無關(guān)性。用戶訓(xùn)練系統(tǒng)和系統(tǒng)對(duì)用戶的聲音進(jìn)行鑒別和確認(rèn),可以是完全不同的文本,完全不同的語(yǔ)言。(2)對(duì)語(yǔ)音長(zhǎng)度沒有特殊要求。用戶訓(xùn)練系統(tǒng),讓其記住其聲紋,只需要幾秒種(如8秒)的聲音;而在識(shí)別時(shí),系統(tǒng)只要獲得被測(cè)試人幾秒(如4秒)的聲音,就可以進(jìn)行聲紋識(shí)別。在某些情況下,比如待識(shí)別人語(yǔ)音很難獲取時(shí),系統(tǒng)可以通過一秒一秒不斷累積的漸進(jìn)方式,來判斷說話人的身份。隨著被測(cè)試者說的話的累積長(zhǎng)度不斷增加,系統(tǒng)識(shí)別的準(zhǔn)確性越來越高。(3)很高的精度!暗靡狻鄙矸葑C技術(shù)的辨認(rèn)和確認(rèn)準(zhǔn)確度都很高,可以到達(dá)接近100%的準(zhǔn)確率。(4)模型小。存儲(chǔ)每個(gè)人聲紋的存儲(chǔ)<5KB。(5)操作點(diǎn)調(diào)整方便!暗靡狻鄙矸葑C技術(shù)允許開發(fā)者方便地調(diào)整操作點(diǎn)參數(shù)。

三、聲紋S鎖-數(shù)據(jù)安全的衛(wèi)士

  在本文開頭所談,國(guó)際互聯(lián)網(wǎng)和無線通信技術(shù)的普及和推廣,在給人們帶來極大方便的同時(shí),也給重要數(shù)據(jù)和個(gè)人隱私帶來被信息化吞食的危險(xiǎn)。那么是否有解決方案呢?答案是肯定的。
  比如,我們可以設(shè)計(jì)一種USB接口的聲紋S鎖。對(duì)于S鎖持有者計(jì)算機(jī)上重要數(shù)據(jù)的存取,必須以下兩個(gè)條件同時(shí)滿足:
  (1)持有S鎖并將其插入計(jì)算機(jī)的USB接口;
  (2)由S鎖合法用戶本人口述命令經(jīng)聲紋鑒證系統(tǒng)確認(rèn)與S鎖中鎖存的聲紋一致。

  北京得意音通公司在國(guó)際上率先推出的“聲紋S鎖”,利用對(duì)人類具有唯一性的聲紋這個(gè)主要的生物特征,把具有全部自主知識(shí)產(chǎn)權(quán)和國(guó)際領(lǐng)先的聲紋識(shí)別技術(shù)和數(shù)據(jù)安全技術(shù)緊密結(jié)合在一起,對(duì)個(gè)人電腦甚至服務(wù)器中的重要數(shù)據(jù)進(jìn)行雙重安全認(rèn)證,保證了數(shù)據(jù)的安全性,聲紋和鑰匙同時(shí)正確才可以存取數(shù)據(jù),即使硬盤丟失數(shù)據(jù)也不會(huì)失竊。還無需記憶密碼,因?yàn)槁暭y就是密碼,人在密碼在,免除記憶密碼的煩惱,也無需擔(dān)心被別人破解或者偷竊密碼。

  從此,人們就可以方便地應(yīng)用先進(jìn)的聲紋識(shí)別技術(shù),管理自己的電腦和電腦中的信息。你可以象阿里巴巴一樣對(duì)著電腦麥克風(fēng)口述你的命令,只需隨意講出幾句話,就電腦就乖乖地聽話,打開只屬于你自己的信息“保險(xiǎn)箱”,實(shí)現(xiàn)強(qiáng)有力的Windows安全登錄、身份認(rèn)證、文件加密存儲(chǔ)、訪問權(quán)限控制等功能,有效地保護(hù)保存在個(gè)人計(jì)算機(jī)上的個(gè)人隱私信息、重要業(yè)務(wù)數(shù)據(jù)和系統(tǒng)中的應(yīng)用軟件,使其不被偷看、竊取、泄露、篡改或破壞。更重要的是,由于聲紋的唯一性特征,“聲紋S鎖”只認(rèn)識(shí)你的聲音,只給你開門,別人企圖模仿你的聲音和口令、偷窺你的信息也是很難做到的。

  科技不僅在你身邊,還在你身上、嘴邊。科技的發(fā)展,有時(shí)候會(huì)帶來很多新的困擾,比如數(shù)據(jù)安全的問題。因此,科技應(yīng)該更人性化,為人們創(chuàng)造的輕松和愉快的數(shù)字化生活。聲紋識(shí)別技術(shù),就是輕松、愉快的數(shù)字化生活的阿里巴巴魔咒。

作者供稿 原文刊登于新浪科技《權(quán)威學(xué)術(shù)報(bào)告》專欄



相關(guān)鏈接:
得意珠三角綜合智能信息增值平臺(tái)項(xiàng)目中標(biāo) 2009-08-20
北京軟件產(chǎn)品質(zhì)量檢測(cè)檢驗(yàn)中心對(duì)《海量語(yǔ)音文件的目標(biāo)說話人篩選系統(tǒng)》進(jìn)行測(cè)試 2009-06-25
廣東政府和清華大學(xué)舉行了全面開展產(chǎn)學(xué)研合作協(xié)議簽約儀式 2009-06-25
得意中文整句輸入法V1.0開源for Windows Mobile5.0 2009-01-23
得意聲紋識(shí)別VPR4.0_b20080808新版本發(fā)布 2008-08-27

分類信息:     文摘   技術(shù)_語(yǔ)音識(shí)別_文摘