您當(dāng)前的位置是:  首頁(yè) > 資訊 > 國(guó)內(nèi) >
 首頁(yè) > 資訊 > 國(guó)內(nèi) >

捷通華聲靈云語(yǔ)音合成技術(shù):讓人機(jī)交互更有“溫度”

2021-12-03 09:30:08   作者:   來(lái)源:CTI論壇   評(píng)論:0  點(diǎn)擊:


  語(yǔ)言的多模態(tài)應(yīng)用已成為人們生活中習(xí)以為常的現(xiàn)象,一句簡(jiǎn)單的語(yǔ)音控制、一次短暫的智能客服答疑……這些都是 AI 語(yǔ)音交互技術(shù)應(yīng)用為人們生活帶來(lái)的便利,與此同時(shí),其社會(huì)價(jià)值與意義也在被重新估判......
  有 “溫度”的聲音
  語(yǔ)音技術(shù)主要分為語(yǔ)音合成(Speech Synthesis, 或者 Text to Speech)、語(yǔ)音識(shí)別(Speech Recognition, 或者 Speech to Text)、自然語(yǔ)言處理。其中,語(yǔ)音合成技術(shù)發(fā)展最早,且應(yīng)用已較為普遍。
  “說(shuō)”是人機(jī)交互無(wú)法忽視的環(huán)節(jié),語(yǔ)音合成的重要性日益凸顯。
  語(yǔ)音合成技術(shù)旨在通過(guò)將文字轉(zhuǎn)化為語(yǔ)音,讓機(jī)器“開(kāi)口說(shuō)話”使得機(jī)器變得有“溫度”,實(shí)現(xiàn)趨于完美的人機(jī)交互。
  從早期的機(jī)械化語(yǔ)音合成開(kāi)始發(fā)展至今,語(yǔ)音合成的應(yīng)用場(chǎng)景經(jīng)歷了較大的轉(zhuǎn)變。過(guò)去語(yǔ)音合成應(yīng)用主要用于簡(jiǎn)單的文本播報(bào),場(chǎng)景相對(duì)單調(diào),現(xiàn)其應(yīng)用場(chǎng)景更復(fù)雜更多樣,智能助手、智能機(jī)器人、文字閱讀等諸多領(lǐng)域都能見(jiàn)到語(yǔ)音合成技術(shù)的身影。
  如在有聲閱讀方面,用戶需求越來(lái)越個(gè)性化;
  機(jī)場(chǎng)、車站廣播等服務(wù)業(yè),甜美溫柔的音質(zhì)可以拉進(jìn)與乘客間的距離,讓乘客在繁忙的旅途中感受到溫暖;
  人們?cè)诼?tīng)新聞時(shí),往往期望播音員具有一個(gè)渾厚、穩(wěn)重的聲音;
  服務(wù)業(yè)客服場(chǎng)景下,人們傾向于聲音更加熱情、親切。
  如何讓合成的聲音聽(tīng)起來(lái)自然并富有情感,是語(yǔ)音合成領(lǐng)域的一個(gè)主要發(fā)展方向。
  增強(qiáng)語(yǔ)音交互真實(shí)感
  傳統(tǒng)的語(yǔ)音合成技術(shù),選音拼接和參數(shù)合成兩條路線長(zhǎng)期并存。前者音頻、語(yǔ)速真實(shí),但合成效果不穩(wěn)定,甚至聽(tīng)不懂,而后者合成內(nèi)容效果基本穩(wěn)定,但音質(zhì)機(jī)感濃重,音色損失大,語(yǔ)速不流暢。
  為了提升合成語(yǔ)音自然度、流暢度,研究者們創(chuàng)立了全新的波形生成和序列到序列路線,直接以因果預(yù)測(cè)的思路逐個(gè)生成音頻樣點(diǎn),追求完全還原,填補(bǔ)了參數(shù)合成與波形拼接在音質(zhì)方面的鴻溝。同時(shí),傳統(tǒng)的參數(shù)合成需要另建一個(gè)專用的時(shí)長(zhǎng)模型來(lái)預(yù)測(cè)每字的長(zhǎng)度,存在嚴(yán)重的機(jī)器感。由于端到端路線的發(fā)展,Transformer架構(gòu)的Tacotron系統(tǒng)通過(guò)直接建立文本序列到音頻幀序列的映射模型,克服了一字一頓的頑疾。Tacotron-Wavenet填補(bǔ)了參數(shù)合成與拼接合成的鴻溝,加大了語(yǔ)音柔順度的提升,完勝傳統(tǒng)參數(shù)合成和各種拼接合成。
  捷通華聲所研發(fā)的靈云語(yǔ)音合成技術(shù)應(yīng)用最新的深度學(xué)習(xí)技術(shù),通過(guò)引用“全并行架構(gòu)聲學(xué)模型”將轉(zhuǎn)化速度、韻律預(yù)測(cè)效果以及聲學(xué)模型訓(xùn)練效果進(jìn)行提升,將合成語(yǔ)音的音質(zhì)與自然度提升到與人類接近的水平。
  目前,靈云語(yǔ)音合成技術(shù)支持中、英、日、韓、維、藏等多種語(yǔ)言,男聲、女聲、童聲、卡通聲等多種音色,具備熱情、甜美、嚴(yán)厲等多種風(fēng)格,為營(yíng)銷、導(dǎo)航、新聞、閱讀等領(lǐng)域提供服務(wù)支持。
  聲音定制,真正的“人情味兒”
  捷通華聲還可根據(jù)用戶需求,通過(guò)錄制和制作語(yǔ)音合成定制音庫(kù),在極短時(shí)間內(nèi)定制出各式各樣的高度仿真的人工智能聲音,效果自然且逼真。
  實(shí)際上,在AI行業(yè)或者用戶群體中,AI語(yǔ)音定制的能力始終被報(bào)以高度期待,利用AI模擬人聲,不僅可以注入記憶、陪伴等社會(huì)情感因素,還可借助用戶熟悉的聲音觸發(fā)更多的應(yīng)用想象。靈云語(yǔ)音技術(shù)可將制作一個(gè)高品質(zhì)聲音所需的訓(xùn)練時(shí)間極大降低,讓AI語(yǔ)音定制不再需耗費(fèi)過(guò)多時(shí)間和資源,以更平常方式“飛入尋常百姓家”。
  語(yǔ)音合成技術(shù)的快速發(fā)展,機(jī)器合成語(yǔ)音越發(fā)自然生動(dòng),富有情感表現(xiàn)力。捷通華聲作為深耕語(yǔ)音合成領(lǐng)域多年的企業(yè),在一次次升級(jí)和迭代中,滿足不同場(chǎng)景下越來(lái)越多的用戶需求,已廣泛服務(wù)于金融、電信、能源、交通、教育、司法、公安、醫(yī)療、互聯(lián)網(wǎng)等多個(gè)領(lǐng)域。
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專題

CTI論壇會(huì)員企業(yè)