中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

多語(yǔ)言語(yǔ)音合成和跨語(yǔ)言語(yǔ)音克隆

2019-07-17 09:49:15 作者：來(lái)源：語(yǔ)音雜談微信公眾號(hào) 評(píng)論：0 　點(diǎn)擊：

　　場(chǎng)景描述：語(yǔ)音合成解決的主要問(wèn)題就是如何將文字信息轉(zhuǎn)化為可聽(tīng)的聲音信息，涉及語(yǔ)言和語(yǔ)音兩部分。TTS技術(shù)（又稱文語(yǔ)轉(zhuǎn)換技術(shù)）隸屬于語(yǔ)音合成，它是將計(jì)算機(jī)自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月?tīng)得懂的、流利的漢語(yǔ)口語(yǔ)輸出的技術(shù)。

　　關(guān)鍵詞：多語(yǔ)言語(yǔ)音合成和跨語(yǔ)言語(yǔ)音克隆

　　我們知道目前端到端神經(jīng)TTS模型已經(jīng)可以實(shí)現(xiàn)對(duì)說(shuō)話者身份和未標(biāo)記的語(yǔ)音屬性(如韻律)的控制。當(dāng)使用language-dependent輸入表示或模型組件時(shí)，特別是當(dāng)每種語(yǔ)言的訓(xùn)練數(shù)據(jù)量不平衡時(shí)，擴(kuò)展這些模型以支持多種不相關(guān)的語(yǔ)言并非易事。例如，在漢語(yǔ)和英語(yǔ)等語(yǔ)言之間的文本表示沒(méi)有重疊。此外，收集雙語(yǔ)者的錄音也很昂貴。因此，最常見(jiàn)的情況是訓(xùn)練集中的每個(gè)說(shuō)話者只說(shuō)一種語(yǔ)言，所以說(shuō)話者的身份與語(yǔ)言是完全相關(guān)的。這使得在不同語(yǔ)言之間語(yǔ)音轉(zhuǎn)換變得困難。此外，對(duì)于外來(lái)詞或共享詞的語(yǔ)言，如西班牙語(yǔ)(ES)和英語(yǔ)(EN)中的專有名詞，同一文本的發(fā)音可能不同。當(dāng)經(jīng)過(guò)簡(jiǎn)單訓(xùn)練的模型有時(shí)為特定的說(shuō)話者生成重音時(shí)，這就更加難以捉摸。

　　針對(duì)以上問(wèn)題，最近學(xué)者們提出了一種基于Tacotron（中文語(yǔ)音合成）的多人多種語(yǔ)言文本到語(yǔ)音(TTS)的合成算法。

　　這種算法能夠在多種語(yǔ)言中生成高質(zhì)量的語(yǔ)音。此外，模型是能夠跨語(yǔ)言傳遞聲音。模型結(jié)構(gòu)采用基于注意力機(jī)制的序列到序列模型，根據(jù)輸入文本序列生成倒譜梅頻（log-mel，來(lái)自MFCC梅爾頻率倒譜系數(shù)）圖幀序列。

　　該模型是通過(guò)使用音位輸入表示來(lái)設(shè)計(jì)的，以激勵(lì)跨語(yǔ)言的模型容量共享。它還包含了一個(gè)對(duì)抗性的損失，以幫助理清它的說(shuō)話者表示。通過(guò)對(duì)每種語(yǔ)言的多名使用者進(jìn)行訓(xùn)練，加入自動(dòng)編碼輸入，并在訓(xùn)練期間來(lái)幫助穩(wěn)定注意力，從而進(jìn)一步擴(kuò)大了訓(xùn)練規(guī)模。

　　經(jīng)過(guò)計(jì)算，實(shí)現(xiàn)了語(yǔ)音克隆和重音控制效果的可視化。嵌入向量集群聚在一起(左下角和右下角)，這意味著當(dāng)說(shuō)話者的原始語(yǔ)言與嵌入的語(yǔ)言匹配時(shí)，無(wú)論文本語(yǔ)言是什么，都會(huì)有很高的相似性。然而，使用文本中的語(yǔ)言ID(正方形)，修改說(shuō)話者的口音使其能夠流利地說(shuō)話，與母語(yǔ)和口音(圓形)相比，會(huì)損害相似性。

　　該模型對(duì)三種語(yǔ)言的高質(zhì)量語(yǔ)音合成和語(yǔ)音訓(xùn)練的跨語(yǔ)言傳輸具有重要的應(yīng)用潛力。例如，不需要任何雙語(yǔ)或并行語(yǔ)言的訓(xùn)練，它就能夠使用英語(yǔ)使用者的聲音合成流利的西班牙語(yǔ)。此外，該模型在學(xué)習(xí)說(shuō)外語(yǔ)的同時(shí)還會(huì)適量調(diào)節(jié)口音，并對(duì)代碼切換有基本的支持。

　　在未來(lái)的工作中，學(xué)者們還將計(jì)劃研究擴(kuò)大利用大量低質(zhì)量培訓(xùn)數(shù)據(jù)的方法，并支持更多的使用者和語(yǔ)言。

　　論文鏈接：https://arxiv.org/pdf/1907.04448.pdf

【免責(zé)聲明】本文僅代表作者本人觀點(diǎn)，與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立，不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考，并請(qǐng)自行承擔(dān)全部責(zé)任。

相關(guān)熱詞搜索：語(yǔ)音合成語(yǔ)音克隆

上一篇:6個(gè)美國(guó)企業(yè)創(chuàng)建客戶體驗(yàn)的啟發(fā)

下一篇:最后一頁(yè)

相關(guān)閱讀：