CTI論壇(ctiforum.com) (編譯/老秦): “任何傻瓜都知道。重點是要了解。”- 艾爾伯特愛因斯坦
人工智能 (AI) 幫助實現(xiàn)聯(lián)絡(luò)中心未來的多種方式令人興奮。而且,由于 COVID-19 最初幾個月推動的數(shù)字化采用,如果這個未來現(xiàn)在還沒有發(fā)生,那么它指日可待。
但是,無論聯(lián)絡(luò)中心 AI (CCAI) 發(fā)展得多么迅速,重要的是要了解它仍然與一個容易被忽視的因素--轉(zhuǎn)錄準(zhǔn)確性--聯(lián)系在一起。而且,對于那些負(fù)責(zé)投資客戶服務(wù) AI 未來的人來說,了解原因至關(guān)重要。
為了理解我們所說的意思,機器需要知道我們正在說的是什么
與愛因斯坦的 POV 相反,機器理解語音的能力確實歸結(jié)為它們準(zhǔn)確知道所說內(nèi)容的能力;蛘撸唧w地說,自然語言理解 (NLU) 完全取決于給定 AI 轉(zhuǎn)錄構(gòu)成人類語音的不同音高、口音、噪音和方言的能力。
而且,要在現(xiàn)代化聯(lián)絡(luò)中心中有所作為,需要實時了解所說的內(nèi)容。
輸入轉(zhuǎn)錄引擎,傳統(tǒng)上,這些引擎有單獨的聲學(xué)、發(fā)音和語言模型,每個模型都是單獨訓(xùn)練的。讓這些模型協(xié)同工作需要大量的時間和精力。傳統(tǒng)的轉(zhuǎn)錄引擎難以調(diào)整并且提供相對較低的轉(zhuǎn)錄準(zhǔn)確度。然而,轉(zhuǎn)錄架構(gòu)在過去十年中發(fā)展迅速。
當(dāng)今一流的語音引擎使用統(tǒng)一和優(yōu)化音頻和語言建模的端到端 (E2E) 模型。以這種方式轉(zhuǎn)錄的文本現(xiàn)在通過多個 NLP 管道進行處理,同步工作以生成結(jié)構(gòu)化數(shù)據(jù)。然后,NLU 系統(tǒng)會解釋這些數(shù)據(jù),以更好地理解所講內(nèi)容的意圖、目標(biāo)和突出部分。
具有諷刺意味的是,這種現(xiàn)代架構(gòu)比它的前輩更簡單、更準(zhǔn)確。而且,也許最重要的是,E2E 轉(zhuǎn)錄引擎也更容易根據(jù)客戶特定的數(shù)據(jù)進行微調(diào)。特別是在聯(lián)絡(luò)中心內(nèi),這意味著他們的轉(zhuǎn)錄準(zhǔn)確性會隨著品牌和特定產(chǎn)品客戶交互的培訓(xùn)而迅速提高。 E2E 正迅速成為現(xiàn)代轉(zhuǎn)錄引擎的黃金標(biāo)準(zhǔn),也是我們在Cresta使用的方法。
但這讓我們回到了最初的觀點--像Cresta所使用的那樣出色的自然語言理解 (NLU) 僅與它所提供的結(jié)構(gòu)化數(shù)據(jù)一樣好,這與轉(zhuǎn)錄的質(zhì)量一樣好。
這意味著(反過來)實時指導(dǎo)幫助座席幫助客戶的能力與其轉(zhuǎn)錄引擎的準(zhǔn)確性有關(guān)。正如非常非愛因斯坦的諺語所說,“Garbage in, garbage out”。
測量轉(zhuǎn)錄準(zhǔn)確度的行業(yè)標(biāo)準(zhǔn)
好的,那么我們?nèi)绾味x"好的"轉(zhuǎn)錄準(zhǔn)確度是什么?這是一個簡單的問題,但回答起來有點復(fù)雜。
讓我們從單詞錯誤率 (WER) 開始,這是衡量語音到文本能力轉(zhuǎn)錄準(zhǔn)確性的行業(yè)標(biāo)準(zhǔn)。 WER 的計算方法是對一段轉(zhuǎn)錄文本中的替換、插入和刪除進行總計,然后將該數(shù)量除以實際說出的單詞數(shù)。而且,與大多數(shù)技術(shù)一樣,隨著提供語音到文本的平臺逐年改進,它們各自的 WER 下降。
例如,2018 年,領(lǐng)先的語音轉(zhuǎn)文本平臺之一的 WER 約為 30%。到 2020 年,他們的估計平均值下降到 27%。到 2021 年,也就是一年后,另一項估計將相同的 WER 定為 12%。因此,隨著轉(zhuǎn)錄引擎的改進,"良好的轉(zhuǎn)錄準(zhǔn)確性"的定義將保持不變。作為參考,今天的"現(xiàn)成"語音到文本產(chǎn)品(例如亞馬遜、谷歌、IBM Watson)的平均 WER 為 25%。
重要的是要注意,就像 NLU 的"Garbage in, garbage out",WER 測量在很大程度上受到訓(xùn)練數(shù)據(jù)質(zhì)量的影響。對于許多企業(yè)而言,針對特定業(yè)務(wù)術(shù)語的 WER 將比針對通用語言的 WER 重要得多。這就是為什么可調(diào)性如此重要的原因。
Cresta在現(xiàn)代轉(zhuǎn)錄引擎中尋找什么
綜上所述,有很多方法可以衡量現(xiàn)代轉(zhuǎn)錄引擎的質(zhì)量。因此,舉例來說,除了我們自己的工程師在Cresta的轉(zhuǎn)錄引擎方面優(yōu)先考慮的轉(zhuǎn)錄準(zhǔn)確性之外,還有以下三個主要標(biāo)準(zhǔn):
1. 可定制性
對于聯(lián)絡(luò)中心應(yīng)用程序,自定義和調(diào)整轉(zhuǎn)錄引擎的能力至關(guān)重要。每個企業(yè)都不同,快速調(diào)整轉(zhuǎn)錄模型以準(zhǔn)確檢測品牌特定語言對于有效的人工智能驅(qū)動功能是必須的。這樣做,可以顯著提高特定客戶的 WER。Cresta的專有轉(zhuǎn)錄方法使我們的團隊能夠為每個客戶快速創(chuàng)建自定義轉(zhuǎn)錄模型。
2. 實時
延遲對于實時聯(lián)絡(luò)中心應(yīng)用程序中使用的轉(zhuǎn)錄引擎至關(guān)重要。這是因為最初的(即非最終的)成績單首先浮出水面,然后隨著更多上下文的收集進行調(diào)整以變得更加準(zhǔn)確。某些音頻片段的最終結(jié)果可能比最初的猜測(100ms 到 500ms)需要更長的時間(500ms 到 2s 甚至更長)。延遲是Cresta實時架構(gòu)的核心,允許我們在對話展開時向座席和經(jīng)理呈現(xiàn)高度準(zhǔn)確的轉(zhuǎn)錄。
3. 可集成性
最后但并非最不重要的一點是可集成性。一流的轉(zhuǎn)錄引擎可以接收來自許多不同來源的音頻流,包括 SIPREC、Amazon Connect、直接來自座席桌面等。而且隨著音頻系統(tǒng)的不斷發(fā)展,特別是隨著向CCaaS和UCaaS的轉(zhuǎn)變,快速且簡單的集成至關(guān)重要。考慮到這一點,Cresta旨在快速集成到云和混合環(huán)境中,幫助我們兌現(xiàn)我們的承諾,即充當(dāng)客戶對話的真正智能層。
轉(zhuǎn)錄準(zhǔn)確性和聯(lián)絡(luò)中心 AI 的未來
那么轉(zhuǎn)錄引擎的未來會怎樣呢?在未來的某個時候,聯(lián)絡(luò)中心人工智能能否實現(xiàn)完美的轉(zhuǎn)錄準(zhǔn)確性?可能不是。由于語言本身在不斷地適應(yīng)和發(fā)展,即使是人工轉(zhuǎn)錄服務(wù)也無法保持 100% 的準(zhǔn)確率。
但 100% 的準(zhǔn)確率并不是重點。在Cresta,我們相信 AI 的真正力量在于使用它來協(xié)助勞動力,而不是追求自動化。這意味著提供有效的實時指導(dǎo)和生產(chǎn)力能力,幫助座席提供有影響力的客戶體驗。
聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
原文網(wǎng)址:https://cresta.com/blog/transcription-is-critical-to-contact-center-ai/