中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

您當(dāng)前的位置是:  首頁(yè) > 資訊 > 文章精選 >
 首頁(yè) > 資訊 > 文章精選 >

為什么深度學(xué)習(xí)是語(yǔ)音識(shí)別的最佳方法

2022-02-11 09:12:24   作者:   來(lái)源:CTI論壇   評(píng)論:0  點(diǎn)擊:


  CTI論壇(ctiforum.com) (編譯/老秦):自動(dòng)語(yǔ)音識(shí)別并不新鮮。它起源于冷戰(zhàn)時(shí)期的狹隘軍事研究,隨后在Marvin Minsky等人的領(lǐng)導(dǎo)和 DARPA 資助的研究推動(dòng)下于1960 年代、70 年代和 80 年代獲得繼續(xù)發(fā)展。然而,直到 1990 年代,研究人員才看到真正的進(jìn)展,這要?dú)w功于華爾街日?qǐng)?bào)語(yǔ)音數(shù)據(jù)集等政府資助的項(xiàng)目。即便如此,這些大約 30 小時(shí)音頻的小型數(shù)據(jù)集在研究環(huán)境中也只能產(chǎn)生大約 30-50% 的準(zhǔn)確度。
  語(yǔ)音技術(shù)的持續(xù)發(fā)展帶來(lái)了我們今天都熟悉的各種改進(jìn)和消費(fèi)者用例--Alexa、Siri、告訴自動(dòng)銀行系統(tǒng)你需要一個(gè) PIN 等等。但如果你曾經(jīng)使用過(guò)任何在這些語(yǔ)音識(shí)別工具,您知道它們遠(yuǎn)非完美。
  這是因?yàn)樗麄円蕾囉谝环N老式的語(yǔ)音識(shí)別方式,這種方式可以追溯到 1960 年代的那些原始實(shí)驗(yàn)。在這篇博文中,我們將介紹進(jìn)行語(yǔ)音識(shí)別的老式方法--因?yàn)樗钱?dāng)今大多數(shù)公司仍在使用的方法--然后說(shuō)明為什么采用這種新方法,它依賴于端到端深度學(xué)習(xí)來(lái)處理語(yǔ)音,要優(yōu)越得多。
  傳統(tǒng)方法:聲學(xué)模型、發(fā)音模型和語(yǔ)言模型--天哪!
  口語(yǔ)中最小的聲音單位稱為音素。例如,"cat"有三個(gè)音素:一個(gè)初始的"k"音、一個(gè)像"apple"中的中間元音"a"和一個(gè)結(jié)尾的"t"音。
  在進(jìn)行 ASR 的傳統(tǒng)方法中,您首先要識(shí)別錄音中的音素,然后嘗試將音素塊組合成可能的單詞。接下來(lái),您尋找這些可能的單詞如何組合在一起以產(chǎn)生語(yǔ)法意義。最后,您將所有這些可能性分解為一個(gè)"成績(jī)單"。該系統(tǒng)的組件稱為聲學(xué)模型、發(fā)音模型和帶有波束搜索的語(yǔ)言模型。
  • 聲學(xué)模型采用音頻信號(hào)的表示形式(通常以波形或頻譜圖的形式)并嘗試在整個(gè)錄制過(guò)程中在 10-80 毫秒的時(shí)間框窗口內(nèi)猜測(cè)音素概率分布函數(shù)。本質(zhì)上,輸出是一個(gè)巨大的可能音素網(wǎng)格,作為時(shí)間的函數(shù),而不是簡(jiǎn)單的音素轉(zhuǎn)錄。
  • 然后,發(fā)音模型將音素格作為其輸入,并嘗試猜測(cè)時(shí)間窗口上的單詞概率分布函數(shù)。這一步的輸出是一個(gè)巨大的可能單詞的網(wǎng)格,作為時(shí)間的函數(shù)。
  • 然后將語(yǔ)言模型與束搜索結(jié)合使用。該模型將單詞 lattice 作為其輸入,并削減它認(rèn)為不太可能的所有可能性,直到它到達(dá)最終轉(zhuǎn)錄。此外,它使用束搜索:在每個(gè)時(shí)間步長(zhǎng),搜索都會(huì)丟棄低于其截止值(稱為束寬度)的所有可能性,再也不會(huì)被看到或想到。
  盡管這種構(gòu)建語(yǔ)音識(shí)別模型的舊方法對(duì)人類來(lái)說(shuō)是直觀的,并且在某種程度上受到語(yǔ)言學(xué)家對(duì)語(yǔ)言的看法的推動(dòng),但它對(duì)計(jì)算機(jī)來(lái)說(shuō)是非常有損的。在這個(gè)過(guò)程的每一步,您的模型都必須做出簡(jiǎn)化的假設(shè),以適應(yīng)內(nèi)存中的計(jì)算或在宇宙的生命周期內(nèi)完成--不是開(kāi)玩笑。如果模型考慮了所有可能性,那么模型返回結(jié)果的組合和排列太多了。
  這就是為什么,例如,語(yǔ)言模型部分通常是非常有限的三元語(yǔ)言模型。 trigram 中的 tri- 表示"三個(gè)",表示模型僅回顧兩個(gè)單詞以查看當(dāng)前單詞在上下文中是否有意義。那可能只有半個(gè)句子--或者更少!
  這些簡(jiǎn)化非常猖獗,并導(dǎo)致在流程的每個(gè)步驟中優(yōu)化子問(wèn)題的性能受限的流水線方法,而不是可以同時(shí)優(yōu)化整個(gè)問(wèn)題域的端到端方法。傳統(tǒng)方法產(chǎn)生了三個(gè)主要問(wèn)題。
  傳統(tǒng)方法的問(wèn)題
  傳統(tǒng)語(yǔ)音識(shí)別方法存在三大問(wèn)題:速度慢、不準(zhǔn)確、易碎。緩慢使其昂貴且耗時(shí)。不準(zhǔn)確性使傳統(tǒng)方法無(wú)效且使用起來(lái)令人沮喪,尤其是對(duì)于需要高度準(zhǔn)確性的企業(yè)和領(lǐng)域,例如健康和法律領(lǐng)域。脆弱性使工程師不敢更改任何代碼,因?yàn)閾?dān)心紙牌屋會(huì)倒塌。
  速度慢
  傳統(tǒng)方法很慢,因?yàn)樗鼈円蕾囉谖磧?yōu)化的啟發(fā)式方法,這些方法使計(jì)算和內(nèi)存資源效率低下。這些方法每個(gè) CPU 核心只能處理大約 0.5-2 個(gè)流。在提供結(jié)果時(shí),這可能會(huì)導(dǎo)致很長(zhǎng)的周轉(zhuǎn)時(shí)間--通常如此之長(zhǎng),以至于某些應(yīng)用程序,如實(shí)時(shí)聊天機(jī)器人,根本無(wú)法使用這些方法。
  不準(zhǔn)確
  傳統(tǒng)方法是不準(zhǔn)確的,因?yàn)槟P腿狈Ρ憩F(xiàn)力和容量。表現(xiàn)力是衡量系統(tǒng)在保持準(zhǔn)確性的同時(shí)可以建模的世界的復(fù)雜程度。容量是衡量模型可以保留多少知識(shí)的類似指標(biāo)。從這個(gè)意義上說(shuō),傳統(tǒng)系統(tǒng)是膚淺的。他們沒(méi)有希望將所有事情都做得非常好,因此他們要么覆蓋大部分領(lǐng)域而取得微薄的成功,要么覆蓋狹窄的領(lǐng)域并取得一些成功。
  不靈活
  傳統(tǒng)方法很脆弱,因?yàn)橄到y(tǒng)極其復(fù)雜且不靈活。一個(gè)由 20 名工程師組成的團(tuán)隊(duì)每年僅可以建立一個(gè)才剛剛開(kāi)始獲得足夠性能的系統(tǒng)。所以,他們只能依賴它,并希望最好。試圖修改系統(tǒng)只會(huì)以失敗告終,因?yàn)閱?wèn)題的表面區(qū)域已經(jīng)讓團(tuán)隊(duì)承受不了。這就是為什么傳統(tǒng)的語(yǔ)音識(shí)別提供商只提供一種模型(可能是兩個(gè)或三個(gè),但肯定不是成百上千)并且拒絕為他們的客戶定制。舊的九頭蛇方法成本太高(切掉一個(gè)問(wèn)題頭,三個(gè)重新長(zhǎng)出來(lái))。
  最好的方法:語(yǔ)音識(shí)別的端到端深度學(xué)習(xí)
  好消息是,如果您正在尋找語(yǔ)音識(shí)別解決方案,它不必是這樣的!盡管大多數(shù)供應(yīng)商仍在使用舊的做事方式,但還有一種快速、準(zhǔn)確和靈活的替代方案--端到端深度學(xué)習(xí) (E2EDL) 模型。
  快速
  端到端模型可以更好地優(yōu)化運(yùn)行時(shí)執(zhí)行。具體來(lái)說(shuō),深度學(xué)習(xí)使用與顯卡 (GPU) 上實(shí)現(xiàn)的相同的數(shù)學(xué)運(yùn)算集(張量數(shù)學(xué))。這意味著 E2EDL 模型是最快的可用實(shí)現(xiàn)。另一方面,傳統(tǒng)的語(yǔ)音堆棧由多個(gè)子問(wèn)題組成(用于優(yōu)化的表面積較小),無(wú)法使用加速計(jì)算資源(因此將它們強(qiáng)制到通用 CPU 上)。
  GPU 上的 E2EDL 實(shí)現(xiàn)了每個(gè) GPU 超過(guò) 300 個(gè)流,這意味著結(jié)果可以更快地返回給客戶,以至于他們經(jīng)常感到驚訝和高興。Deepgram的客戶經(jīng)常認(rèn)為他們一定做錯(cuò)了什么,但不是,就是這么快。
  準(zhǔn)確
  E2EDL 模型具有更大的容量并享有壓縮效率,允許網(wǎng)絡(luò)的所有部分作為一個(gè)有機(jī)體進(jìn)行內(nèi)聚學(xué)習(xí)。因此,這些模型可以同時(shí)優(yōu)化整個(gè)問(wèn)題空間--從輸入音頻特征一直到腳本制作。結(jié)果是一個(gè)專家模型可以實(shí)現(xiàn)更高的準(zhǔn)確性,并且在訓(xùn)練時(shí)繼續(xù)變得更好,而不會(huì)"達(dá)到頂峰"。
  靈活
  在Deepgram,我們的 E2EDL 方法使我們能夠以低成本達(dá)到前所未有的語(yǔ)音識(shí)別精度水平; E2EDL 的自動(dòng)轉(zhuǎn)錄系統(tǒng)顯著縮短了訓(xùn)練和部署新模型所需的時(shí)間。與舊的混合系統(tǒng)相比,E2EDL 模型還繼續(xù)通過(guò)對(duì)新數(shù)據(jù)的訓(xùn)練無(wú)限期地改進(jìn),后者在過(guò)去幾千小時(shí)的數(shù)據(jù)訓(xùn)練中看到收益遞減。這些收益遞減限制了混合系統(tǒng)的準(zhǔn)確性提高。 E2EDL 系統(tǒng)并非如此。
  用于語(yǔ)音識(shí)別的 E2EDL 方法的缺點(diǎn)是構(gòu)建托管在 GPU 上的真正數(shù)據(jù)驅(qū)動(dòng)的 E2EDL 系統(tǒng)的復(fù)雜性。但是,一旦系統(tǒng)建成,它就穩(wěn)定、高效、快速、準(zhǔn)確。然而,建造它是一項(xiàng)巨大的努力。想一想:建造火箭將衛(wèi)星送入軌道。這是一項(xiàng)高度復(fù)雜的工作,需要專業(yè)知識(shí)、聰明人、時(shí)間、機(jī)會(huì)成本和資本風(fēng)險(xiǎn)--但一旦系統(tǒng)得到完善,它就可以可靠地執(zhí)行非常有價(jià)值的工作。
  過(guò)去,像 Nuance、谷歌和亞馬遜這樣的公司沒(méi)有選擇采用 E2EDL 方法,因?yàn)樗麄冊(cè)陂_(kāi)始時(shí)沒(méi)有專業(yè)知識(shí),現(xiàn)在他們陷入了歷史的束縛--回溯也是昂貴的。
  結(jié)論
  如您所見(jiàn),E2EDL 是語(yǔ)音識(shí)別的最佳選擇,而舊的方法太脆弱并且沉沒(méi)成本太高而無(wú)法有效利用這些新資源。性能和靈活性的差異是驚人的。例如,Deepgram的技術(shù)可以在單個(gè) GPU 上同時(shí)支持 300 個(gè)音頻流,而老式解決方案提供的每個(gè) CPU 核心只有 1-2 個(gè)流。
  而且,由于Deepgram使用 E2EDL,因此可以輕松且廉價(jià)地修改或重新利用模型。新的分類器、新穎的架構(gòu)和額外的問(wèn)題域可以用最少的勞動(dòng)力引入,因?yàn)橄嗤挠?xùn)練和推理過(guò)程仍然適用。事實(shí)上,經(jīng)過(guò)訓(xùn)練的模型通?梢灾匦聭(yīng)用于新任務(wù)--一個(gè)稱為遷移學(xué)習(xí)的過(guò)程--允許全新的模型或分類器從以前的訓(xùn)練中受益,甚至可以跨越不同的問(wèn)題域!
  Deepgram可以利用其 E2EDL 模型在自定義模型、新架構(gòu)和高級(jí)分析之間進(jìn)行大規(guī)模擴(kuò)展。與傳統(tǒng)方法相比,傳統(tǒng)方法需要對(duì)多個(gè)不相關(guān)的組件進(jìn)行廣泛的、侵入性的檢修,從而導(dǎo)致工程師任務(wù)雪崩。與 10 名工程師和 1,600 個(gè)工作小時(shí)的重構(gòu)不同,Deepgram可以在短短 4 個(gè)工作小時(shí)內(nèi)完成與 1 名工程師相同的靈活性壯舉--這一切都?xì)w功于使用 E2EDL 解決方案。
  這可能足以說(shuō)明為什么 E2EDL 系統(tǒng)是語(yǔ)音識(shí)別的最佳選擇。如果您仍然不相信我,請(qǐng)獲取您的免費(fèi) API 并嘗試使用Deepgram。您將看到設(shè)置語(yǔ)音識(shí)別管道并為您的業(yè)務(wù)獲得有影響力的結(jié)果是多么快速和容易。
  聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
  作者:SAM ZEGAS
  原文網(wǎng)址:https://deepgram.com/blog/deep-learning-speech-recognition/
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專題

CTI論壇會(huì)員企業(yè)