首頁>>廠商>>語音識別與合成>>天朗語音

天朗分布式語音識別系統(tǒng)產(chǎn)品白皮書

2003/09/27

一.前言

  語音識別是指從語音到文本的轉換,即讓計算機能夠把人發(fā)出的有意義的話音變成書面語言。通俗地說就是讓機器能夠聽懂人說的話。所謂聽懂,有兩層意思,一是指把用戶所說的話逐詞逐句轉換成文本;二是指正確理解語音中所包含的要求,而不要求所有詞都轉換正確。

  語音識別技術(ASR)是以語音為研究對象,涉及到生理學、心理學、語言學、計算機科學以及信號處理等諸多領域,甚至還涉及到人的體態(tài)語言(如人在說話時的表情、手勢等行為動作可幫助對方理解),目前常見的識別技術一般采用隱馬爾可夫模型HMM(Hidden Markov Model)來建模。它的基本原理是系統(tǒng)首先對大量的真實世界中的人的語音進行分析,并建立模型。在識別時,系統(tǒng)同樣先對輸入的語音進行分析,提取特征,然后通過一定的算法并使用已建立的模型,從而識別出用戶所說的話。

  隨著語音識別技術的逐漸成熟,語音識別技術開始得到廣泛的應用,涉及日常生活的各個方面如電信、金融、新聞、公共事業(yè)等各個行業(yè),通過采用語音識別技術,可以極大的簡化這些領域的業(yè)務流程以及操作;提高系統(tǒng)的應用效率。

二、語音識別的原理

2.1 語音識別的基本原理
  圖1給出了一個語音識別系統(tǒng)的原理圖。


  從圖1中看出,輸入的語音首先要通過端點檢測(也稱靜音檢測模塊),檢測得到輸入語音的有效語音數(shù)據(jù)部分(也就是去除了靜音數(shù)據(jù)、噪聲數(shù)據(jù)等);然后進入特征提取模塊,這里需要提取語音信號最本質(zhì)的信息,一般采用MFCC特征,它是采用復雜的數(shù)字信號處理技術來完成的;語音信號的特征信息被送入識別引擎,在聲學模型和語言模型的指導下進行識別,最終得到識別結果,這里常常需要采用非常復雜的搜索算法,簡單地說,它需要根據(jù)語言模型考慮各種詞的組合(句子)及其發(fā)生概率,對于每一種可能的句子,都給出一個得分,選擇得分最大者作為識別結果。但是由于可能的搜索空間非常大,所以需要利用剪枝技術,有效地去除大量冗余空間,加快搜索速度,滿足實際系統(tǒng)的要求。

2. 2 基于語法的識別引擎
  在語音識別中,語言模型是用來指導引擎進行語音識別的,它限定了一個識別引擎所能表達的語句類型。在我們常用的圖搜索引擎中,語言模型是通過語法來表示的,語法是由一系列表示某個領域的語言表達方式的規(guī)則組成的(語法的具體書寫規(guī)則見引擎使用說明書)。這些規(guī)則會被被轉換成詞圖的形式然后用來指導語音的識別。所謂的詞圖是指由詞作為節(jié)點的一個圖,從該圖的開始節(jié)點到末尾節(jié)點的任一條路徑都是一個有效合法的句子。圖2給出了一個簡單的詞圖。


  對于很多領域的語音識別來說,如自動總機、火車定票系統(tǒng)、股票查詢系統(tǒng)等,他們具有一個共同的特點:所用的句型典型,且句型數(shù)有限,可以用規(guī)則來描述。對于這樣的系統(tǒng),采用語法的方式來指導其語音識別,一方面可以得到很高的識別率,另一方面,又能達到較快的識別速度,滿足實際系統(tǒng)的需要。因此,基于語法方式的語音識別技術得到廣泛應用。本文中我們采用的核心識別引擎也是采用語法的方式。

三、天朗分布式語音識別系統(tǒng)簡介

  天朗分布式語音識別引擎是天朗公司針對電信級、大企業(yè)級應用特點開發(fā)出來的一個基于多機的分布式語音識別引擎,它通過局域網(wǎng)連接多個識別服務器,來同時完成大量的語音識別任務,極大的拓展了單機版語音識別引擎在識別任務上的限制,可以同時支持幾百到幾千個語音識別任務并發(fā)執(zhí)行,從而滿足電信級這樣的具有大識別任務量的應用。系統(tǒng)的主要功能有:

·支持非特定人、大詞匯量、連續(xù)語音識別,能夠達到高的識別準確率;
·支持多語種識別;
·能夠提供識別結果的置信度信息;
·多臺語音識別服務器并行工作,通過局域網(wǎng)連接和傳送數(shù)據(jù);
·有一個資源管理服務器(或多個,作備份),用來管理所有的服務器,并負責負載平衡;
·有一個License服務器,用來進行License管理;
·任何一個服務器可以動態(tài)地啟動和停止,而不影響系統(tǒng)的運行;
·系統(tǒng)可以同時啟動任意多個服務器(或線程數(shù)),但同時最多只能用License所規(guī)定的線數(shù);
·系統(tǒng)可以同時啟動任意多個服務器以做備份,防止因為某些服務器當機而對系統(tǒng)造成影響;
·對應用層的一致性,即對應用層開發(fā)來說,和開發(fā)單機版的程序一樣(或略有不同),用戶不需考慮后邊的識別引擎是單機和多機版。
·多平臺、多操作系統(tǒng)可混合組成系統(tǒng),如客戶端可能是Linux版,但服務端是Windows版;
四.天朗分布式語音識別系統(tǒng)架構原理和使用方法

4.1系統(tǒng)整體架構和模塊功能介紹
  下圖展示天朗分布式語音識別系統(tǒng)的架構:
  整個系統(tǒng)由識別服務器、資源管理器、語法服務器(可選)、License管理器、客戶端API以及連接這些服務器的局域網(wǎng)組成,除了語法服務器是可選之外,其他部分都是必須的,但是識別服務器、資源管理器已經(jīng)客戶端的個數(shù)是可變的,具體的多少和系統(tǒng)的大小和任務量有關。語法服務器在許多情況下可能是不需要的,因此,我們的系統(tǒng)把其設計成可選的,如果需要,其可以動態(tài)加入系統(tǒng)。

  為了方便客戶使用,我們提供了一套客戶端API給用戶,用戶在使用本系統(tǒng)時,可以在其應用程序中調(diào)用我們的API來調(diào)用我們的識別系統(tǒng)。


4.2 天朗分布式語音識別系統(tǒng)工作原理
  為了更好的應用天朗分布式語音識別系統(tǒng)來開發(fā)應用系統(tǒng),幫助開發(fā)人員理解天朗分布式語音識別系統(tǒng)的的工作原理,下面以一次語音識別的過程來解釋天朗分布式語音識別系統(tǒng)的工作原理。圖4給出了系統(tǒng)一次語音識別的工作原理。

  應用程序通過DSR的API函數(shù)來調(diào)用語音識別功能,一般來說過程如下:

  1、 當有電話到達時,應用程序負責接起電話,然后播放一個歡迎的提示音,提示用戶說出要做的動作(如查詢?nèi)嗣、股票信息等),并開始等待用戶說話;
  2、 應用程序啟動錄音程序開始錄音,同時應用程序會通過DSR API向天朗分布式語音識別系統(tǒng)(下稱"識別系統(tǒng)")請求一個識別資源(即一個識別會話session);
  3、 識別系統(tǒng)的資源管理器會根據(jù)系統(tǒng)的負載情況,分配一個最空閑的識別服務器的一個空閑會話給該次任務。
  4、 應用程序獲得該識別會話控制權后,根據(jù)目前系統(tǒng)的任務,通過API通知對應的識別引擎加載相應語法,語法的來源有三種,具體的請參看下面的說明。
  5、 應用程序開始通過API函數(shù)把錄取的語音發(fā)送給該會話,該會話會根據(jù)系統(tǒng)的模型和加載的語法,對送入的語音進行識別;
  6、 如果有識別結果,系統(tǒng)會通過回調(diào)函數(shù)來通知應用程序,應用程序這時可以通過DSR API來得到識別結果。
  7、 應用程序卸載加載的語法;
  8、 應用程序斷開該會話連接;
  9、 應用程序釋放會話。
  10、 這時應用程序應該根據(jù)識別結果做相應的動作,如繼續(xù)播放提示音,提示用戶繼續(xù)提供信息或做其他的動作。如goto 2。


4.3 識別結果
  語音識別完成后,天朗DSR識別引擎會通過回調(diào)函數(shù)通知應用程序有識別結果,應用程序可以通過API函數(shù)取得識別結果,并根據(jù)結果相應作出響應。天朗分布式識別引擎可以提供多個識別候選供用戶選擇。同時,系統(tǒng)還會給出每個候選句子的置信度,所有的識別候選按置信度由高到低排序。用戶可以設定引擎返回的結果最大數(shù)目,系統(tǒng)會返回用戶設定的候選的個數(shù)。

  需要注意的是:引擎返回的句子的個數(shù)可能沒有用戶設定的數(shù)目多,另外,設定較大數(shù)目的返回結果候選會影響系統(tǒng)的效率。

4.4引擎的三種調(diào)用方式
  對于基于對話方式的語音識別,應用程序對DSR的API函數(shù)調(diào)用的時間和方式不同會對整個系統(tǒng)的穩(wěn)定性和效率產(chǎn)生很大影響。


  下面以電信級應用來說明不同的調(diào)用方式的差別。

  一般來說,一個基于電話語音識別的對話系統(tǒng)(如圖5所示),一般由識別服務器、應用服務器、電話交換機、智能交換機設備、 IVR設備等設備組成,電話交換機與成千上萬個電話終端通過各種交換設備相連接,電信應用軟件在這些硬件的支持下提供各種服務,如:1860查詢服務等。此時,電信應用開通的線數(shù)視系統(tǒng)的業(yè)務需求而定,一般總是大大小于終端連接的總數(shù)。系統(tǒng)連接數(shù)與終端連接數(shù)常常是1:1000或者1:10000的級別。"一路對話"是指物理上的一條線路,對于上述的電信應用,電信開通的每一條線路都是一路對話。

  "一次對話"是指用戶的一次電話從打入到掛機之間一個交互服務過程稱。比如:用戶撥打1860進行話費查詢,在用戶撥通電話至用戶掛機這個過程中用戶和應用程序交互的整個過程稱作一次對話。

  "一路會話"這里是指語音識別中,一次識別從分配識別資源開始到釋放這個資源的整個過程。
對于語音識別的會話,可以對一路對話分配一個會話,也可以對一次對話分配,或者對一次對話的一句話識別進行分配,不同的分配方式會得到不同的效果。

  第一種:直接為每一路對話分配一個會話,用戶應用程序在程序一開始就為每一路對話建立到引擎的連接,然后,該路對話就會一直保持該會話,再也不釋放該會話,直到程序結束。這種方式編程簡單,但是,在系統(tǒng)的穩(wěn)定性和有效性方面都是最差的。因為每一路對話都一直使用,且一直獨占該會話,一旦該會話出現(xiàn)問題,則該路對話就永遠不能用了,除非重啟程序。另外,由于每路對話都獨占一個會話,因此即使該路對話沒有在使用引擎,其獨占的會話也不能被別的對話使用。降低了系統(tǒng)的效率。

  第二種:在一次對話開始時就建立到引擎的連接,然后該對話一直獨占該會話,直到該次對話結束。很顯然,這種方式和第一種方式比起來,在穩(wěn)定性和效率方面都有很大提高。主要是這種方式不再一直獨占一個會話,會話可以在多路對話之間共享,即使有一路會話出現(xiàn)問題,只會影響一次對話的一次工作,而不會影響本路對話以及其他路對話的以后的識別。

  盡管第二種已比較優(yōu)化,但它的一個缺點就是仍然會影響一次對話的進行。

  第三種:在每一次識別開始時建立連接,識別結束后立刻釋放(這種方式與第二種不同,是因為在一次對話過程中會存在多輪的識別過程)。這種方式的優(yōu)點除了第二種的優(yōu)點外,他還克服了它的缺點。因為,此時一個會話的失敗只會影響該路對話的一句的識別,通過編程我們可以在發(fā)現(xiàn)一個會話失敗后,再申請另一個會話,這時最多讓用戶重復一邊剛才的話外,對這次對話沒有影響。

  另外,采用三種的哪一種方式還和應用的不同有關,如果應用是類似于股票查詢這樣的系統(tǒng),每個識別服務器都完成相同的功能,這時采用第三種方式比較合適。而對于某些應用系統(tǒng)如需要動態(tài)改變語法的,則最好采用第一、二種方法。如果改變的語法只在一次對話中有效,可以采用第二種,如果改變的語法一直持續(xù)有效的話,第一種可能更適合。

4.5 語法
  語法是用來指導識別引擎進行語音識別的,它是由一系列語法規(guī)則組成的一個有限圖, 它用來限制系統(tǒng)可以識別的句型和詞匯,減少系統(tǒng)識別的語法空間,極大的減少系統(tǒng)的搜索時間,增加了系統(tǒng)的識別率。

  在天朗分布式識別系統(tǒng)中,語法的使用有兩種形式:

  1. 靜態(tài)語法,對于目前許多基于語音識別的應用系統(tǒng),大多數(shù)用到的語法都是固定的,在系統(tǒng)運行中,不需要對語法進行更改(如1860系統(tǒng),火車訂票系統(tǒng)等),對于這種應用,最方便的方法就是在系統(tǒng)啟動時就把用到的語法加載進系統(tǒng),用到時激活(enable)就行了。這樣可以節(jié)約大量的時間,提高系統(tǒng)的效率。為了方便用戶的使用,天朗分布式識別引擎提供了靜態(tài)語法功能,用戶只要通過對識別服務器的預加載語法進行配置,系統(tǒng)會在啟動時自動把這些語法加載到系統(tǒng)中供系統(tǒng)使用。在這種情況下,整個系統(tǒng)可以不需要語法服務器,從而節(jié)約投資成本。要注意的是,靜態(tài)語法必須是已編譯過的語法格式。

  2. 動態(tài)語法,所謂的動態(tài)語法是指在運行前并不知道需要加載那些語法,或者在運行時,需要對語法進行編譯或修改。動態(tài)語法常用在比較大型的復雜的系統(tǒng)中。對于動態(tài)語法,系統(tǒng)必須要有語法服務器來支持,動態(tài)語法可以是文本格式,也可以是編譯后的格式,系統(tǒng)會根據(jù)傳入的語法的格式自動進行選擇是否進行編譯。

  在天朗分布式識別引擎中,語法是通過一個key來唯一指定的,這個key由用戶自己指定,且必須保證不同的語法的key的唯一性。不同的語法采用相同的key可能會導致語法的相互覆蓋。

  系統(tǒng)可以同時支持靜態(tài)語法和動態(tài)語法。在加載一個語法時,系統(tǒng)首先會通知對應的識別服務器去加載一個指定的語法,如果該語法已加載,則僅返回語法的句柄以供以后調(diào)用;否則,系統(tǒng)從識別服務器所在的硬盤上加載所指定的語法。如果識別服務器上也不存在對應的語法,則先判斷系統(tǒng)中是否有語法服務器,如果系統(tǒng)中不存在語法服務器,返回加載失敗。否則,識別服務器會向語法服務器申請該語法。如果語法服務器上無該語法或其他原因無法得到該語法,返回加載失敗。否則,下載該語法服務器到本地。并加載。返回句柄。

  引擎在加載語法時,如果找不到指定的語法Key的語法,就會加載用戶指定的二進制語法文件,同時將指定的語法Key作為該語法的key。最后返回語法的handle。 要注意的是,語法加載是針對會話的。

4.6 系統(tǒng)的穩(wěn)健性和效率

  對于電信或大企業(yè)級別的的應用系統(tǒng)來說,穩(wěn)健性和效率是系統(tǒng)成功的關鍵。天朗分布式識別系統(tǒng)通過多種有效技術,來提高系統(tǒng)的效率和穩(wěn)健性。

  1. 系統(tǒng)通過設立資源管理器來統(tǒng)一管理整個系統(tǒng)的識別資源分配和回收,資源管理器通過一個高效的負載分析策略,根據(jù)系統(tǒng)的當前狀態(tài),分配負載最輕的識別服務器以提高整個系統(tǒng)的整體效率。

  2. 一般來說,一個系統(tǒng)只要一個資源管理器就可以穩(wěn)定工作,但是,采用多個資源管理器互相備份可以更有效的保證系統(tǒng)的穩(wěn)定性。天朗分布式識別系統(tǒng)可以同時支持多個資源管理器同時工作。和其他的類似系統(tǒng)不同的是,其他類似系統(tǒng)在工作時只有主資源管理器在工作,而備份資源管理器是不工作的。而天朗的分布式識別系統(tǒng)的每個資源管理器都負擔部分的資源分配工作,因此,可以充分利用系統(tǒng)的資源,提高系統(tǒng)的效率。另外,每個資源管理器又是互相備份的,當一個資源管理器出現(xiàn)問題,其他的資源管理器會自動的接過出現(xiàn)問題的服務器的工作,所以對于系統(tǒng)的穩(wěn)定性有了充分的保障。

  3. 對于識別服務器,和資源管理器一樣,備份的服務器并不是閑著不工作,它們和其他識別服務器一樣承擔識別任務,這樣可以有效的分配負載,提高系統(tǒng)的效率,同時減輕系統(tǒng)的投資。同樣的,識別服務器又是互相備份的,當一個識別服務器出現(xiàn)故障時,該服務器會自動的從系統(tǒng)中被剔除,其工作會由其他的識別服務器承擔。

  4. 服務器可以動態(tài)加入和退出,不論是資源管理器還是識別服務器,抑或是語法服務器,都可以動態(tài)的隨時加入整個系統(tǒng)中,也可以動態(tài)的從系統(tǒng)中退出,而對整個系統(tǒng)的穩(wěn)定運行不會產(chǎn)生影響。因此,用戶可以根據(jù)整個系統(tǒng)的運行情況,隨時加入新的服務器以應付增加的呼叫量,也可以在負載變輕的時候,隨時關閉某些服務器。同時,這種特性也保證某個服務器出現(xiàn)故障時不會影響系統(tǒng)的穩(wěn)定運行。

  5. 由于分布式語音識別系統(tǒng)是一套比較復雜的系統(tǒng),為了進一步保證系統(tǒng)的穩(wěn)定性,我們還開發(fā)了一套監(jiān)控程序來監(jiān)視系統(tǒng)各個服務器的運行,一旦某個服務器出現(xiàn)故障,監(jiān)控程序可以隨時重啟該服務器。這樣可以保證系統(tǒng)可靠運行。

五、天朗分布式語音識別引擎系統(tǒng)架構和識別技術的特點和優(yōu)勢

  天朗分布式語音識別引擎的分布式結構具有伸縮性強、成本效率高和配置靈活等特點,具有支持大話務量、實時性高的能力;其客戶/服務結構使語音識別應用程序強大,具有極其高效的容錯性和負載平衡能力,保證了應用程序的高效可靠運行。

5.1系統(tǒng)架構的功能特點:
·分布式結構 整個系統(tǒng)由多個識別服務器通過局域網(wǎng)組成,資源管理器在語音識別服務器間進行負載均衡,從而保證硬件的利用效率。對CPU運算強度需求很大的識別被放在單獨的識別服務器上來執(zhí)行,而不用占用應用程序的CPU資源。每個語音識別服務器可以支持多個客戶端,資源管理器可以將呼叫平均分布到多個語音識別服務器上執(zhí)行。這種結構優(yōu)化了內(nèi)存和CPU資源的使用,使得系統(tǒng)可以支持大話務量的實時性的語音識別任務,可以支持電信級、大企業(yè)級的應用需求。

·高密度接口 將對CPU運算需求密集的語音識別任務從客戶端轉移到識別服務器端,使得客戶端可以抽出處理能力來支持高密度的接口,從而提高應用程序系統(tǒng)的接入量。

·容錯和可靠性 整個識別引擎經(jīng)過精心的設計,具有很高的容錯和可靠性,使得各個服務器可以動態(tài)的加入和退出系統(tǒng),而對整個系統(tǒng)的運行沒有影響,因此,即使個別服務器失效,也不會使系統(tǒng)崩潰。當一個識別服務器失效時,資源管理器會自動停止向其發(fā)送請求,當服務器恢復時,又會自動開始向它發(fā)送請求。另外,系統(tǒng)允許配備備份服務器來保證系統(tǒng)的可靠運行,在平時,備份服務器和其他服務器一樣,一起工作,承擔相同的工作,當有服務器崩潰時,其他服務器會自動的承擔崩潰服務器的工作。不僅為系統(tǒng)的可靠運行提供保證,而且可以充分利用備份服務器的能力。

·自動監(jiān)控 系統(tǒng)為每個服務器都配備了一個自動監(jiān)控程序來監(jiān)控服務器的運行,如果監(jiān)控程序發(fā)現(xiàn)服務器崩潰后,系統(tǒng)會自動重啟服務器,并保存崩潰時的現(xiàn)場供以后分析。這不僅大大節(jié)約維護人員的時間和精力,而且自動監(jiān)控方式可以提供比人更快更準確的維護服務,保證系統(tǒng)的穩(wěn)定運行。
ü 維護方便 系統(tǒng)可以隨時關閉一個識別服務器進行維修,也可以隨時把維修好的服務器加入到系統(tǒng)中,而對整個系統(tǒng)的性能沒有影響。

·可伸縮性 隨著呼叫量的增加,系統(tǒng)可以隨時動態(tài)增加服務器,而無須停止任何運行著的應用程序或關閉IVR系統(tǒng),這對那些需要常年連續(xù)運行的系統(tǒng)特別有用。

5.2 系統(tǒng)架構的綜合優(yōu)勢:
  由于語音識別的特點以及應用的特殊性,其對識別引擎的實時性能和穩(wěn)健性要求相對較高,對于分布式識別引擎,還要求網(wǎng)絡傳輸要穩(wěn)定可靠,且數(shù)據(jù)傳輸時間在整個任務所耗費的時間中所占的比重要小,天朗分布式語音識別引擎經(jīng)過精心設計,優(yōu)化,具有實時、穩(wěn)定、靈活性高等的特點。

1. 實時性
  實時性是語音識別的一個重要特點,特別是在電信級的應用中,對于用戶說的話要實時識別處理,并能夠及時地給與回應,才能滿足用戶的需要。特別是對于分布式的語音識別引擎,由于數(shù)據(jù)要通過網(wǎng)絡傳送,從而必然導致實時性的下降。因此要求分布式的識別引擎必須認真考慮網(wǎng)絡傳輸?shù)膯栴},確保網(wǎng)絡傳輸過程所消耗的時間在整個識別任務中所占的比重非常小,才能保證整個系統(tǒng)的實時性的性能。天朗分布式語音識別引擎通過對識別算法和網(wǎng)絡通訊進行優(yōu)化,保證了系統(tǒng)的實時性。

2. 穩(wěn)定性
  穩(wěn)定性是語音識別在電信級中應用的另一個重要特征,一般要求系統(tǒng)能夠長期穩(wěn)定的運行,才能滿足這種長時間大負荷的任務的要求。由于分布式引擎運行在局域網(wǎng)上,因此,必須采取有效機制,確保整個系統(tǒng)的長期穩(wěn)定的運行。

  穩(wěn)定性的另一個方面反映在強健的容錯能力和快速的錯誤修復能力,容錯能力是指當一個識別服務器宕機后,不會導致整個系統(tǒng)的崩潰?焖俚男迯湍芰κ侵赶到y(tǒng)在一個識別服務器出問題后,可以很容易的通過重起服務器,或用一個新的識別服務器替代問題服務器,而不需要系統(tǒng)整個重起。

  天朗分布式語音識別引擎通過精心設計,使得整個引擎在穩(wěn)定性上取得重大突破,系統(tǒng)可以長時穩(wěn)定運行。另外,系統(tǒng)的優(yōu)異的架構設計使得系統(tǒng)中的任意一個服務器出現(xiàn)問題后,其任務會被其他同類服務器承擔,而不會對整個系統(tǒng)造成影響。另外,為了保證萬無一失,我們還開發(fā)了自動監(jiān)控程序來監(jiān)視各個服務器的運行,從而保證當服務器宕機后,能很快恢復,從而保證系統(tǒng)的穩(wěn)定運行。

3. 靈活性
  靈活性是擴大引擎的應用面和減少后期支持的一個重要特征,靈活性包括系統(tǒng)支持多種操作系統(tǒng)平臺的混合網(wǎng)絡,能夠支持單機運行到多服務器網(wǎng)絡的配置。這種靈活性可以逐步分階段來實現(xiàn)。天朗分布式語音識別引擎的經(jīng)過精心設計的架構使得這個引擎可以支持多種操作系統(tǒng)平臺的混合運行。

5.3識別引擎的技術特點:
·連續(xù)語音 在講話的時候不需要刻意地逐字講話,而是可以連續(xù)地說話。
·自然語言 用戶可以用自然的方式講話,而不是象錄音對比系統(tǒng)那樣必須按照錄音時的講話方式來講。
·與說話人無關 天朗分布式語音識別引擎在進行語音識別時,不受說話人的限制,所以說話人在使用前不需要進行語音訓練和適應準備。
·多語言 天朗分布式語音識別引擎支持多種語言的混合識別。
·準確率高 語音識別的準確性是考察一個識別引擎的一個重要參數(shù),天朗分布式語音識別引擎是在連續(xù)三次獲得863競賽第一名的清華大學電子工程系系語音識別實驗室研究的核心識別技術的基礎上開發(fā)的,具有國內(nèi)領先的識別準確率。
·多候選和置信度信息 能夠提供多個可能的識別結果,按照其置信度大小順序排列;
·支持動態(tài)語法 動態(tài)語法是指應用程序運行時,允許語法動態(tài)創(chuàng)建和修改。這在實際應用場合是非常有用的,如: 應用系統(tǒng)的語法在運行時不能徹底確定,或者在運行時需要動態(tài)修改。這能夠較大地提高系統(tǒng)的靈活性。
·對噪音和口音的適應能力強 天朗分布式語音識別引擎能夠適應較為惡劣的噪音環(huán)境,對于不同口音也有很強的適應能力。
·適應多種平臺 天朗分布式語音識別引擎是一種基于客戶服務結構的語音識別引擎,能夠適應多種工業(yè)化的系統(tǒng)平臺。
·靈活性和可擴展性 天朗分布式語音識別引擎提供標準C接口和多種靈活方便的使用方式,可以采取多種方式構建系統(tǒng),以及和現(xiàn)有系統(tǒng)整合。

六、天朗分布式語音識別系統(tǒng)運行環(huán)境
1. 硬件環(huán)境
  Intel 奔騰3或以上的PC、服務器(包括各種CPU類型的服務器)、工作站(包括各種CPU類型的工作站);內(nèi)存建議為256Mb以上DDR或RAMBUS內(nèi)存,40GB以上硬盤, 網(wǎng)絡采用100M帶寬以上局域網(wǎng),支持TCP/IP協(xié)議。
2. 軟件環(huán)境
  WINDOWS NT/2000/XP操作系統(tǒng)。

天朗語音公司供稿 CTI論壇編輯



相關鏈接:
天朗分布式語音識別系統(tǒng)在語音門戶中的使用 2003-10-13
天朗分布式語音識別系統(tǒng)改造傳統(tǒng)IVR 2003-10-10
鍵盤漸成擺設,未來手機一呼通 2003-09-22
天朗語音成功開發(fā)出分布式語音識別系統(tǒng) 2003-09-19
天朗"一呼通",提升智能化 2003-04-28

分類信息:     技術_語音識別_解決方案