您當(dāng)前的位置是:  首頁 > 新聞 > 國際 >
 首頁 > 新聞 > 國際 >

Google發(fā)表云端文字轉(zhuǎn)語音服務(wù) 可用于呼叫中心

2018-03-29 15:37:58   作者:   來源:iThome   評論:0  點擊:


  Google的文字轉(zhuǎn)語音(Text-To-Speech)功能原本使用在Google助理或是GoogleMap等服務(wù)上,現(xiàn)在Google推出云端文字轉(zhuǎn)語音服務(wù),開發(fā)者也可以在自己的應(yīng)用程序上添加語音功能了。另外,Google還表示,云端文字轉(zhuǎn)語音使用了高傳真人聲合成技術(shù)WaveNet,讓電腦發(fā)音更像真正的人聲。
  Google表示,不少開發(fā)者向他們反應(yīng),也想要將文字轉(zhuǎn)語音的功能,使用在自己的應(yīng)用上,因此他們把這項功能放到Google云端平臺,推出云端文字轉(zhuǎn)語音服務(wù)。
  開發(fā)者現(xiàn)在可以將云端文字轉(zhuǎn)語音服務(wù)用在語音回應(yīng)系統(tǒng),像是呼叫中心(IVRs),也能在電視、汽車或是機器人等物聯(lián)網(wǎng)裝置,建置語音回應(yīng)功能,或是在以文字為主的媒體上,將文章與書轉(zhuǎn)成音訊。
  Google云端文字轉(zhuǎn)語音使用了DeepMind所創(chuàng)建的聲音生成模型WaveNet,這個高傳真的人聲合成技術(shù),可以讓電腦合成的語音更自然。
  WaveNet是2016年DeepMind發(fā)表的技術(shù),但是到了今日已有很大的進步。以速度來說,WaveNet現(xiàn)在Google的云端TPU基礎(chǔ)設(shè)備上運作,比起初代,產(chǎn)生原始波形的速度快了一千倍,而且產(chǎn)生1秒鐘的語音只需要50毫秒。
  除了速度提高千倍,產(chǎn)生語音的擬真度也得到了長足的提升,WaveNet能夠建立每秒24,000樣本的高傳真波形,且采樣分辨率從原本8位元提升到了16位元,因此所得到的人聲語音品質(zhì)更好更自然。
  Google表示,比起市面上的電腦語音,人們對WaveNet所合成的語音有更高的接受度。而在語音測試中,WaveNet合成的新美國英語語音,平均得分4.1,比起標(biāo)準(zhǔn)聲音好20%,也與真實人類語音差距減少70%
  云端文字轉(zhuǎn)語音功能現(xiàn)在支援32種聲音12種語言,開發(fā)者可以客制化音調(diào)、語速以及音量增益,并且能轉(zhuǎn)存為MP3或是WAV等各式音訊格式。
【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

專題