關(guān)鍵詞:多語(yǔ)言語(yǔ)音合成和跨語(yǔ)言語(yǔ)音克隆
我們知道目前端到端神經(jīng)TTS模型已經(jīng)可以實(shí)現(xiàn)對(duì)說(shuō)話者身份和未標(biāo)記的語(yǔ)音屬性(如韻律)的控制。當(dāng)使用language-dependent輸入表示或模型組件時(shí),特別是當(dāng)每種語(yǔ)言的訓(xùn)練數(shù)據(jù)量不平衡時(shí),擴(kuò)展這些模型以支持多種不相關(guān)的語(yǔ)言并非易事。例如,在漢語(yǔ)和英語(yǔ)等語(yǔ)言之間的文本表示沒(méi)有重疊。此外,收集雙語(yǔ)者的錄音也很昂貴。因此,最常見(jiàn)的情況是訓(xùn)練集中的每個(gè)說(shuō)話者只說(shuō)一種語(yǔ)言,所以說(shuō)話者的身份與語(yǔ)言是完全相關(guān)的。這使得在不同語(yǔ)言之間語(yǔ)音轉(zhuǎn)換變得困難。此外,對(duì)于外來(lái)詞或共享詞的語(yǔ)言,如西班牙語(yǔ)(ES)和英語(yǔ)(EN)中的專有名詞,同一文本的發(fā)音可能不同。當(dāng)經(jīng)過(guò)簡(jiǎn)單訓(xùn)練的模型有時(shí)為特定的說(shuō)話者生成重音時(shí),這就更加難以捉摸。
針對(duì)以上問(wèn)題,最近學(xué)者們提出了一種基于Tacotron(中文語(yǔ)音合成)的多人多種語(yǔ)言文本到語(yǔ)音(TTS)的合成算法。
這種算法能夠在多種語(yǔ)言中生成高質(zhì)量的語(yǔ)音。此外,模型是能夠跨語(yǔ)言傳遞聲音。模型結(jié)構(gòu)采用基于注意力機(jī)制的序列到序列模型,根據(jù)輸入文本序列生成倒譜梅頻(log-mel,來(lái)自MFCC梅爾頻率倒譜系數(shù))圖幀序列。
該模型是通過(guò)使用音位輸入表示來(lái)設(shè)計(jì)的,以激勵(lì)跨語(yǔ)言的模型容量共享。它還包含了一個(gè)對(duì)抗性的損失,以幫助理清它的說(shuō)話者表示。通過(guò)對(duì)每種語(yǔ)言的多名使用者進(jìn)行訓(xùn)練,加入自動(dòng)編碼輸入,并在訓(xùn)練期間來(lái)幫助穩(wěn)定注意力,從而進(jìn)一步擴(kuò)大了訓(xùn)練規(guī)模。
經(jīng)過(guò)計(jì)算,實(shí)現(xiàn)了語(yǔ)音克隆和重音控制效果的可視化。嵌入向量集群聚在一起(左下角和右下角),這意味著當(dāng)說(shuō)話者的原始語(yǔ)言與嵌入的語(yǔ)言匹配時(shí),無(wú)論文本語(yǔ)言是什么,都會(huì)有很高的相似性。然而,使用文本中的語(yǔ)言ID(正方形),修改說(shuō)話者的口音使其能夠流利地說(shuō)話,與母語(yǔ)和口音(圓形)相比,會(huì)損害相似性。
該模型對(duì)三種語(yǔ)言的高質(zhì)量語(yǔ)音合成和語(yǔ)音訓(xùn)練的跨語(yǔ)言傳輸具有重要的應(yīng)用潛力。例如,不需要任何雙語(yǔ)或并行語(yǔ)言的訓(xùn)練,它就能夠使用英語(yǔ)使用者的聲音合成流利的西班牙語(yǔ)。此外,該模型在學(xué)習(xí)說(shuō)外語(yǔ)的同時(shí)還會(huì)適量調(diào)節(jié)口音,并對(duì)代碼切換有基本的支持。
在未來(lái)的工作中,學(xué)者們還將計(jì)劃研究擴(kuò)大利用大量低質(zhì)量培訓(xùn)數(shù)據(jù)的方法,并支持更多的使用者和語(yǔ)言。
論文鏈接:https://arxiv.org/pdf/1907.04448.pdf