CTI論壇(ctiforum.com)9月5日消息(編譯/老秦): 隨著短短幾年的巨大技術(shù)進(jìn)步,關(guān)于人工智能是否可以感知的爭論已經(jīng)走出了科幻小說和好萊塢的圈子,進(jìn)入了世界各地大大小小的公司的董事會。商界領(lǐng)袖提出的真正問題是:人工智能情緒檢測是否準(zhǔn)備好迎接黃金時(shí)代?
毫無疑問,擁有可以識別人類情緒的人工智能可能對聯(lián)絡(luò)中心、營銷、銷售、招聘和許多其他業(yè)務(wù)功能有益,但我們真的希望機(jī)器解釋或取代人類互動嗎?我們相信他們能準(zhǔn)確地做到這一點(diǎn)嗎?
看起來是這樣。情緒檢測開始進(jìn)入各種業(yè)務(wù)流程,研究公司 MarketsandMarkets 預(yù)測全球情緒檢測和識別市場將從今年的 236 億美元增長到 2027 年的 433 億美元,復(fù)合年增長率為 12.9%。
MarketsandMarkets 的報(bào)告稱,這種預(yù)期的增長是由于對基于語音的情緒檢測系統(tǒng)分析情緒狀態(tài)和社交智能人工智能的需求不斷增長。這種需求的部分原因是對卓越運(yùn)營的需求增加。但也有許多因素阻礙了越來越多的采用。主要問題之一是對所涉及的術(shù)語和技術(shù)缺乏明確性。
術(shù)語"情緒檢測"和"情緒分析"經(jīng);Q使用,但也有區(qū)別。
據(jù)基于 AI 的語音識別和聯(lián)絡(luò)中心解決方案提供商 Deepgram 的專家稱,情緒分析通常是基于文本的學(xué)習(xí)分類任務(wù)。它可能對單個句子、段落或整個文檔進(jìn)行操作。 Deepgram 專家在最近的一篇博文中寫道,情緒分析有多種用途,包括分析客戶反饋、監(jiān)控社交媒體對話、跟蹤品牌聲譽(yù)、衡量公眾對某個主題或問題的看法以及評估客戶滿意度。
另一方面,情緒檢測,有時(shí)也稱為情緒識別,通常依賴于音頻,使用語調(diào)、音量和速度等因素來確定說話者所感受到的情緒,根據(jù) Deepgram 的說法,通常編碼為幾個類別之一,如快樂、悲傷、生氣等。
情緒檢測以簡單的分析技術(shù)無法提供的方式為客戶對公司的態(tài)度提供線索。
"情感是我們所有人的一部分,"CallMiner 的人工智能副總裁 Rick Britt 說。 "我們都會感到憤怒和沮喪,快樂和幸福。但我們也以不同的方式分享這些情緒。例如,有些人在生氣時(shí)會變得非常安靜和輕聲細(xì)語,而不是大聲而快速地說話。眾所周知,檢測和理解情緒很困難。"
Britt 補(bǔ)充說,了解客戶對話中的情緒,例如客戶是否對公司或產(chǎn)品感到沮喪或滿意,對于面向客戶的組織來說非常有用。 "雖然檢測情緒對機(jī)器來說很困難,就像對人類一樣,但深度學(xué)習(xí)的進(jìn)步正在幫助公司識別客戶在互動中表現(xiàn)出廣泛情緒的方式。"
Britt 說,另一個使問題復(fù)雜化的事實(shí)是,情緒對于他們所參與的個人和組織來說都是獨(dú)一無二的。每個人都有個人情感基線,可能是情境性的?蛻粼谂c收債員互動時(shí)表現(xiàn)出的情緒反應(yīng)與跟電子零售商互動時(shí)表現(xiàn)出的情緒反應(yīng)大不相同。
"當(dāng)組織能夠有效和準(zhǔn)確地理解情緒時(shí),他們可以更好地對客戶對話中發(fā)生的事情采取行動," Britt 說。 "這可以包括幫助聯(lián)絡(luò)中心或客戶服務(wù)座席更好地處理情感互動,例如當(dāng)他們可能與需要額外照顧和同情的弱勢客戶互動時(shí)。或者了解客戶在對話期間的情緒,以便他們可以查明如何將開始為消極而結(jié)束為積極的互動所采取的成功步驟。這些見解可以推動更好的座席入職和指導(dǎo)工作。"
這種能力對于聯(lián)絡(luò)中心很重要,因?yàn)楫?dāng)組織可以在對話中檢測到情緒時(shí),他們可以在問題成為真正問題之前發(fā)現(xiàn)問題,為座席提供更多數(shù)據(jù)驅(qū)動的績效反饋,從過去的交互中學(xué)習(xí)以改善未來的客戶結(jié)果等等,Britt 說。
"人類交流很復(fù)雜,包含語言和非語言元素,"Outreach 的高級應(yīng)用科學(xué)家 Kushal Lakhotia 補(bǔ)充道。 "情感是人類表達(dá)自我的重要非語言成分。它通過音頻和視覺提示來傳達(dá),例如語音和面部表情中的語調(diào)。情緒識別技術(shù)提取語音識別的互補(bǔ)信號,從而有助于充分了解一個人試圖交流的內(nèi)容。"
Lakhotia 表示,此類數(shù)據(jù)在對話智能應(yīng)用程序中特別有用,它可以總結(jié)對話的要點(diǎn),這些要點(diǎn)需要更深入地理解一個人所說的話之外的信息。
語言學(xué)是最好的情緒檢測器
然而,Verint 的語音和文本分析市場副總裁 D. Daniel Ziv 反駁說,即使 Verint 和其他公司提供的技術(shù)可以識別音量、提高說話速度以及類似的客戶滿意度或情緒指標(biāo),對公司和特定互動的不滿意,實(shí)際使用的詞語比其他指標(biāo)更能反映客戶的感受。
"并不是所有的臟話都有四個字母,有些詞自然而然地比其他詞帶有更多的情感,"Ziv 解釋說。 "我們可以統(tǒng)計(jì)識別哪些詞帶有更多的情感。因?yàn)槲覀儸F(xiàn)在的轉(zhuǎn)錄非常準(zhǔn)確,與使用音調(diào)、音高、速度和其他可以傳遞情感的東西相比,這往往會產(chǎn)生非常準(zhǔn)確的結(jié)果。"
Ziv 補(bǔ)充道:"如果我非常生氣,而且我沒有說過一個生氣的話,但 [滿意度評分] 僅基于語氣,那么很有可能是誤報(bào)。背景中可能有一個嬰兒在哭泣,我可能是從嘈雜的公共汽車或機(jī)場打來的。我們做了很多測試,發(fā)現(xiàn)使用基于語言的情感和一些基于聲學(xué)的證據(jù)更準(zhǔn)確。"
根據(jù) Ziv 的說法,串?dāng)_--當(dāng)客戶與座席交談時(shí),反之亦然--是真實(shí)情緒的另一個強(qiáng)有力的指標(biāo),談話中長時(shí)間的沉默或間隙也是如此。 "我們已經(jīng)測試了五種不同類型的算法,它們使用聲學(xué)分析進(jìn)行情緒檢測。純聲學(xué)是非常不準(zhǔn)確的。僅語言非常準(zhǔn)確,而且比以前更準(zhǔn)確,因?yàn)槲覀兊霓D(zhuǎn)錄現(xiàn)在更準(zhǔn)確,"他說。
Ziv 說,聯(lián)絡(luò)中心客戶越來越多地尋求情緒檢測分?jǐn)?shù),因?yàn)樗麄兿胍榫w分析并希望取代調(diào)查,以便他們可以自動覆蓋 100% 的交互,而不是只覆蓋包括已完成關(guān)注在內(nèi)的一小部分客戶交互情緒調(diào)查。
更好的情緒預(yù)測器
據(jù) Ziv 稱,情緒檢測功能在聯(lián)絡(luò)中心變得越來越流行,因?yàn)樗鼈儽葍敉扑]值更能真實(shí)地反映客戶情緒。他說,獲取 NPS 數(shù)據(jù)需要客戶付出努力,其中許多人只是不想被打擾。 "客戶厭倦了 [NPS 調(diào)查],因?yàn)樗麄兪艿搅宿Z炸。因此,響應(yīng)率有所下降。"
Ziv 補(bǔ)充說,即使客戶確實(shí)做出了回應(yīng),NPS 調(diào)查也沒有詳細(xì)說明客戶為什么會推薦或不會推薦一家公司。 "這沒什么幫助。它有助于識別趨勢,但并不能真正幫助解決問題。因此,轉(zhuǎn)變是使用我們從客戶那里獲得的實(shí)際信息。"
Ziv 進(jìn)一步解釋說,公司希望從通過語音和文本交互顯示的情緒以及圍繞這些交互的上下文中提取真實(shí)的客戶情緒。 "所以現(xiàn)在我們對推動情緒高漲和低迷的原因有了更豐富的了解。"
Lakhotia 表示,雖然過去幾年解決方案變得更加準(zhǔn)確,但這只是情緒檢測方面的最新進(jìn)展之一。
"口語情感識別是一個專注于副語言學(xué)的研究領(lǐng)域,與自動語音識別不同,它需要捕捉語音的韻律元素,"Lakhotia 解釋說。 "該領(lǐng)域的研究專注于設(shè)計(jì)特定的模型來捕捉可以被訓(xùn)練來檢測情緒的韻律。然而,隨著在語音中使用神經(jīng)網(wǎng)絡(luò)進(jìn)行自我監(jiān)督學(xué)習(xí)的發(fā)展,該領(lǐng)域已經(jīng)從專業(yè)模型轉(zhuǎn)向通用模型。"
Lakhotia 補(bǔ)充說,自我監(jiān)督學(xué)習(xí)可以使用大量未標(biāo)記的數(shù)據(jù)來訓(xùn)練可以從語音中提取信號的模型。這些模型通常經(jīng)過數(shù)千小時(shí)的語音訓(xùn)練,然后這些預(yù)訓(xùn)練模型可以適應(yīng)一系列口語任務(wù),而標(biāo)記的任務(wù)特定數(shù)據(jù)要少得多。
"一些流行的 SSL 模型在過去幾年中被廣泛用于多項(xiàng)口語任務(wù),包括 CPC、wav2vec 2.0 和 HuBERT,"Lakhotia 說。 "這反過來又導(dǎo)致了 SUPERB、HEAR 和 LeBenchmark 等標(biāo)準(zhǔn)化基準(zhǔn)的引入,這些基準(zhǔn)通過引入一種一致的方式來比較多個 SSL 模型對一系列任務(wù)(包括口語情感識別)進(jìn)行比較,從而幫助推動了該領(lǐng)域的發(fā)展。"
Lakhotia 表示,雖然口語情感識別是一個活躍的研究領(lǐng)域,但用于它的數(shù)據(jù)集是更廣泛的多模式數(shù)據(jù)集的子集,例如 IEMOCAP、CREMA-D 和 RAVDESS,其中包括聲音數(shù)據(jù)和面部表情。此類數(shù)據(jù)集的存在正在推動超越語音并結(jié)合視聽信號的多模態(tài)情感識別研究。
流失檢測
據(jù) Ziv 稱,一些公司,尤其是那些流失率高的公司,希望情緒檢測能夠?yàn)樽峁⿵?qiáng)大的實(shí)時(shí)指標(biāo),以表明特定客戶可能會流失,而不是僅僅對去競爭對手發(fā)表無意義的評論。
"在客戶流失方面,你必須考慮其他因素,"Ziv 說,并指出很多時(shí)候客戶對產(chǎn)品表現(xiàn)出的挫敗感可能與銷售該產(chǎn)品的公司無關(guān)。
在某些行業(yè),尤其是電信和保險(xiǎn)行業(yè),合同期結(jié)束時(shí)客戶流失率可能非常高。
"添加尋找有風(fēng)險(xiǎn)客戶的語音類別通常會顯著改善這些客戶流失模型,"Ziv 堅(jiān)持說。 "它的準(zhǔn)確程度因客戶而異。但我們已經(jīng)看到超過 90% 的準(zhǔn)確率,而且我們有時(shí)看到客戶流失率從 50% 提高到 70%,這很重要。"
Ziv 指出,雖然它可以作為流失率的一個很好的指標(biāo),但其他因素,例如其他供應(yīng)商的可用性,也會影響流失率。這在電視領(lǐng)域尤為常見,因?yàn)榇蠖鄶?shù)地方只有一個有線電視提供商。雖然也可能有衛(wèi)星互聯(lián)網(wǎng)提供商,但現(xiàn)實(shí)情況是,在這種情況下沮喪的客戶可能別無選擇。
在對計(jì)算機(jī)情感檢測猶豫不決的其他原因中,有些人認(rèn)為現(xiàn)有的一些情感檢測解決方案,特別是那些包括面部識別技術(shù)的解決方案,可能過于個人化。
DeepMedia.AI 的創(chuàng)始人兼首席執(zhí)行官 Rijul Gupta 表示,情感技術(shù)必須避免由于當(dāng)前許多機(jī)器學(xué)習(xí)系統(tǒng)的情感無知而導(dǎo)致的非人性化。 "目前在谷歌翻譯(技術(shù)正確但缺乏情感)、TikTok Voice(聽起來很機(jī)器人)的狀態(tài)下可以看到無靈魂的技術(shù)。這些系統(tǒng)中缺乏根深蒂固的情緒檢測不會產(chǎn)生消費(fèi)者的喜悅甚至接受。"
據(jù)報(bào)道,Zoom Video Communications 開始探索情緒檢測技術(shù),這引起了超過 28 個人權(quán)組織的憤怒。他們敦促 Zoom 停止其在情緒跟蹤系統(tǒng)上的工作,該系統(tǒng)旨在分析用戶的參與度和情緒。
許多行業(yè)專家預(yù)計(jì),隱私問題在未來幾年內(nèi)將十分突出。但與此同時(shí),對技術(shù)的需求將會增長,正如 MarketsandMarkets 預(yù)測所證明的那樣,技術(shù)本身將繼續(xù)發(fā)展。
"在過去幾年中,在構(gòu)建可以從視聽輸入中聯(lián)合提取信號的自我監(jiān)督模型方面取得了重大進(jìn)展,"Lakhotia 說。 "這使得能夠使用單個模型對語音和視覺輸入進(jìn)行建模。多模態(tài)建模的發(fā)展與用于進(jìn)行實(shí)驗(yàn)的高質(zhì)量視聽數(shù)據(jù)集的存在相結(jié)合,將推動該領(lǐng)域超越口語情感識別,并為情感識別建立新的最新成果。"
Ziv 說,公司將繼續(xù)使用情緒檢測來幫助推動他們的客戶心聲工作。 "我認(rèn)為我們會看到更多針對它采取行動的獨(dú)特案例,其背后的算法也會有所發(fā)展。"
然而,Ziv 說,除了算法或情緒評分之外,公司最重要的好處將是能夠使用分析實(shí)時(shí)采取行動,而不是等到交互發(fā)生之后。
聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
作者:Phillip Britt
原文網(wǎng)址:https://www.speechtechmag.com/Articles/Editorial/Features/Interest-Mounts-for-Emotion-Detection-153969.aspx