Google表示,不少開(kāi)發(fā)者向他們反應(yīng),也想要將文字轉(zhuǎn)語(yǔ)音的功能,使用在自己的應(yīng)用上,因此他們把這項(xiàng)功能放到Google云端平臺(tái),推出云端文字轉(zhuǎn)語(yǔ)音服務(wù)。
開(kāi)發(fā)者現(xiàn)在可以將云端文字轉(zhuǎn)語(yǔ)音服務(wù)用在語(yǔ)音回應(yīng)系統(tǒng),像是呼叫中心(IVRs),也能在電視、汽車或是機(jī)器人等物聯(lián)網(wǎng)裝置,建置語(yǔ)音回應(yīng)功能,或是在以文字為主的媒體上,將文章與書(shū)轉(zhuǎn)成音訊。
Google云端文字轉(zhuǎn)語(yǔ)音使用了DeepMind所創(chuàng)建的聲音生成模型WaveNet,這個(gè)高傳真的人聲合成技術(shù),可以讓電腦合成的語(yǔ)音更自然。
WaveNet是2016年DeepMind發(fā)表的技術(shù),但是到了今日已有很大的進(jìn)步。以速度來(lái)說(shuō),WaveNet現(xiàn)在Google的云端TPU基礎(chǔ)設(shè)備上運(yùn)作,比起初代,產(chǎn)生原始波形的速度快了一千倍,而且產(chǎn)生1秒鐘的語(yǔ)音只需要50毫秒。
除了速度提高千倍,產(chǎn)生語(yǔ)音的擬真度也得到了長(zhǎng)足的提升,WaveNet能夠建立每秒24,000樣本的高傳真波形,且采樣分辨率從原本8位元提升到了16位元,因此所得到的人聲語(yǔ)音品質(zhì)更好更自然。
Google表示,比起市面上的電腦語(yǔ)音,人們對(duì)WaveNet所合成的語(yǔ)音有更高的接受度。而在語(yǔ)音測(cè)試中,WaveNet合成的新美國(guó)英語(yǔ)語(yǔ)音,平均得分4.1,比起標(biāo)準(zhǔn)聲音好20%,也與真實(shí)人類語(yǔ)音差距減少70%
云端文字轉(zhuǎn)語(yǔ)音功能現(xiàn)在支援32種聲音12種語(yǔ)言,開(kāi)發(fā)者可以客制化音調(diào)、語(yǔ)速以及音量增益,并且能轉(zhuǎn)存為MP3或是WAV等各式音訊格式。