郑爽节目现场失控视频,美女性感跳舞的视频

　　市面上有很多面向銷售和客服人員的語音質(zhì)檢系統(tǒng)、文本質(zhì)檢系統(tǒng)，絕大部分產(chǎn)品實(shí)際使用的是基于“關(guān)鍵詞+正則表達(dá)式”的機(jī)器質(zhì)檢系統(tǒng)。

　　這種方法的主要優(yōu)點(diǎn)是部署和上手使用都比較快，主要缺點(diǎn)是存在非常嚴(yán)重的漏檢情況。就像一個漏孔很大的篩子一樣，難以滿足企業(yè)對質(zhì)檢的需求越來越精細(xì)、對質(zhì)檢效率要求越來越高的發(fā)展趨勢。

　　因此，在“關(guān)鍵詞+正則表達(dá)式”之外，我們開始越來越多地為客戶提供基于“語義點(diǎn)+機(jī)器學(xué)習(xí)”方案，并且在實(shí)際使用中為很多質(zhì)檢項帶來 2~10 倍的效果提升。也就是說，能夠多發(fā)現(xiàn) 2~10 倍的問題。對于企業(yè)而言，這就意味著他們可以更快、更全面地提升服務(wù)質(zhì)量或者實(shí)現(xiàn)合規(guī)升級。

　　下一代機(jī)器質(zhì)檢：從關(guān)鍵詞到語義點(diǎn)

　　語音和文本質(zhì)檢的主要任務(wù)是找出不合格、不合規(guī)的地方，即減分項，通常也被稱為“負(fù)向質(zhì)檢”(另有一種任務(wù)是找出做得好的地方，即加分項，通常也被稱為“正向質(zhì)檢”)。企業(yè)使用傳統(tǒng)基于“關(guān)鍵詞+正則表達(dá)式”的產(chǎn)品做質(zhì)檢，所遇到的最主要問題是“找不全”，通常會漏掉很多不合格、不合規(guī)之處，導(dǎo)致質(zhì)檢效率大打折扣。看一個實(shí)際對比的例子。某互聯(lián)網(wǎng)公司的基礎(chǔ)質(zhì)檢項“服務(wù)態(tài)度問題”，在我們的實(shí)際應(yīng)用中：使用傳統(tǒng)“關(guān)鍵詞”方案，一天的數(shù)據(jù)中能找出 13 條，100% 是正確的;使用新的“語義點(diǎn)”方案，能找出 134 條，其中 72% 是對的。所以從最終正確的條數(shù)來看，新的“語義點(diǎn)”方案多找出了 8 倍的問題。

　　再看一個實(shí)際的例子。“恐嚇威脅”是貸后資產(chǎn)管理領(lǐng)域的基礎(chǔ)質(zhì)檢項，即催收員不允許在電話里“恐嚇威脅”債務(wù)人。在我們的實(shí)際應(yīng)用中：使用傳統(tǒng)“關(guān)鍵詞”方案，四天的數(shù)據(jù)中能找出 316 條，其中 55% 是正確的;使用“語義點(diǎn)”方案，能找出 2203 條，其中 72% 是對的。從最終正確的條數(shù)來看，174條對比1596條，新的“語義點(diǎn)”方案能多找出 9 倍的風(fēng)險。

　　原因其實(shí)很簡單。如果使用基于“關(guān)鍵詞+正則表達(dá)式”的方案，方法是用關(guān)鍵詞的組合來涵蓋每個質(zhì)檢項的不同表達(dá)方式——但是你可以寫10個關(guān)鍵詞，100個關(guān)鍵詞，卻永遠(yuǎn)不可能窮盡，因為語言的表達(dá)方式是非常多樣的、千變?nèi)f化的，必須通過整個句子的上下文語義才能做出更準(zhǔn)確的判斷。

　　上下文語義質(zhì)檢的技術(shù)原理

　　語義點(diǎn)+機(jī)器學(xué)習(xí)的方案，目標(biāo)是訓(xùn)練一個機(jī)器學(xué)習(xí)算法模型，使之能夠判斷關(guān)鍵詞未覆蓋的句子是否命中了質(zhì)檢項。我們以另一個貸后資產(chǎn)管理領(lǐng)域常見的質(zhì)檢項“暴露客戶隱私”為例。從標(biāo)注到訓(xùn)練模型，再到最后上線使用，新的“語義點(diǎn)”方案大致可以分為三個步驟。第一步，使用我們的“標(biāo)注工廠”產(chǎn)品，通過人工的方式，將是“暴露客戶客戶”的句子標(biāo)記為“正例”，將不是“暴露客戶隱私”的句子標(biāo)記為反例。

　　第二步，將一定規(guī)模的經(jīng)過標(biāo)注的正例和反例都“喂”給訓(xùn)練器，讓訓(xùn)練器學(xué)習(xí)到一個算法模型，這個算法就能用來判斷新句子是不是涉嫌暴露客戶隱私。

　　第三步，在質(zhì)檢產(chǎn)品中，系統(tǒng)就可以標(biāo)記出所有命中“暴露客戶隱私”語義點(diǎn)質(zhì)檢項的句子，復(fù)檢員可以快速定位到該質(zhì)檢項所處的位置，迅速進(jìn)行核實(shí)。此外，復(fù)檢員每一次復(fù)檢的操作，都相當(dāng)于對算法模型進(jìn)行了一次反饋，會幫助算法模型變得更準(zhǔn)。

　　最終，我們發(fā)現(xiàn)通過“語義點(diǎn)”方案能比關(guān)鍵詞的方案多找出數(shù)倍的不合格、不合規(guī)之處，達(dá)到召回率(找的全)、準(zhǔn)確率(找的準(zhǔn))均在 80% 以上的效果。

　　上下文語義質(zhì)檢的底層邏輯從底層邏輯

　　上看，基于“關(guān)鍵詞”的方案是字符級別的，并不關(guān)心句子的語義，而基于“語義點(diǎn)”的方案是句子級別的，非常關(guān)心句子上下文的邏輯和語義。兩者并不在同一個維度。可以想見，未來關(guān)鍵詞方案越來越難當(dāng)大任，而語義點(diǎn)的方案會逐步成為主流。

　　不過，語義點(diǎn)方案也有一個顯著的缺點(diǎn)“部署成本高”。為了訓(xùn)練一個語義點(diǎn)的質(zhì)檢項，需要人工標(biāo)注大量句子，然后訓(xùn)練和調(diào)試算法模型。因此，大家并不會立即就把所有質(zhì)檢項切換到“語義點(diǎn)”方案，而是優(yōu)先把那些最常見的質(zhì)檢項切換到“語義點(diǎn)”方案。

　　總結(jié)循環(huán)智能在教育、金融、互聯(lián)網(wǎng)服務(wù)等不同行業(yè)數(shù)十家客戶的服務(wù)經(jīng)驗，我們發(fā)現(xiàn)質(zhì)檢項與違規(guī)數(shù)的關(guān)系也存在“二八法則”——20%的質(zhì)檢項貢獻(xiàn)了80%的違規(guī)數(shù)，所以將最常見質(zhì)檢項升級到“語義點(diǎn)”方案，即可為整個業(yè)務(wù)帶來顯著的效果提升。

　　同時，我們也應(yīng)該了解到，隨著自然語言處理領(lǐng)域新技術(shù)的突破，從字符級“關(guān)鍵詞”方案，向句子級“語義點(diǎn)”方案轉(zhuǎn)換的速度正在加快。過去兩年，自然語言處理領(lǐng)域迎來了繁榮時期。Google 發(fā)表于 2018 年的 BERT 模型，為行業(yè)帶來了全新的技術(shù)思路，具有里程碑意義。2019年6月，作為 BERT 模型的一種重要的改進(jìn)方案，XLNet 模型在 20 個標(biāo)準(zhǔn)任務(wù)集上超過 BERT，并且在 18 個標(biāo)準(zhǔn)任務(wù)集上取得 state of the art 成果，包括機(jī)器問答、自然語言推斷、情感分析和文檔排序等。

　　XLNet 模型由循環(huán)智能聯(lián)合創(chuàng)始人楊植麟博士(第一作者)，與谷歌大腦、卡內(nèi)基梅隆大學(xué)共同推出。該模型具備編碼超長序列的能力——簡單理解就是可以更好地理解長句子。2019年末，XLNet 被人工智能領(lǐng)域的頂級學(xué)術(shù)會議 NeurIPS 2019 接收為 Oral 報告論文(占比 0.5%)。同時，XLNet 也入選了權(quán)威的中國人工智能學(xué)會《2019人工智能發(fā)展報告》，被稱為 BERT 之后重要的進(jìn)展之一。

　　循環(huán)智能(Recurrent AI)正是基于原創(chuàng)的、世界前沿的 XLNet 模型，在智能質(zhì)檢產(chǎn)品中的加速向“語義點(diǎn)”方案轉(zhuǎn)換，取得遠(yuǎn)超傳統(tǒng)方案的效果。過去一年，我們的智能質(zhì)檢系統(tǒng)獲得多家金融、教育、互聯(lián)網(wǎng)服務(wù)領(lǐng)域贏得多家標(biāo)桿客戶的商業(yè)訂單，包括眾安保險、玖富、CBC、華道、你我貸、人人貸、新東方在線、獵聘等。> 下篇預(yù)告下一篇關(guān)于智能質(zhì)檢的文章，我們將向大家介紹，在不同的業(yè)務(wù)場景下，關(guān)鍵詞方案如何與語義點(diǎn)方案高效搭配使用，大幅提升質(zhì)檢效率。

【免責(zé)聲明】本文僅代表作者本人觀點(diǎn)，與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點(diǎn)判斷保持中立，不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考，并請自行承擔(dān)全部責(zé)任。

相關(guān)熱詞搜索：循環(huán)智能智能質(zhì)檢

上一篇:激動，邀請你來見證網(wǎng)絡(luò)能源成為明星！

相關(guān)閱讀：