您當(dāng)前的位置是:  首頁 > 資訊 > 國內(nèi) >
 首頁 > 資訊 > 國內(nèi) >

標(biāo)貝科技推出四川話語音合成服務(wù),全力助推方言定制解決方案

2021-06-03 10:24:17   作者:   來源:CTI論壇   評論:0  點(diǎn)擊:


“他是個落教的人,不彎酸。”
“我巴郎不得去上班”
“你啷個曉得噻”
 …………
  當(dāng)你朗讀上面的句子時,有沒有自帶音調(diào),并不自覺拉長了語感?這種頗具感染力且最能直觀表述情感的四川話,已然成為“流行”符號。無論是RAP歌曲,還是搞笑段子,四川話均可作為內(nèi)容創(chuàng)作元素,引來大批“粉絲”圍觀學(xué)習(xí)。
  而四川話普及和方言保護(hù)問題早在2013年就已是當(dāng)?shù)刂攸c(diǎn)研究項(xiàng)目。但如果你不是local,對四川話也沒有過多了解的話,還是很容易懷疑自己是不是聽了外語。
  為了延續(xù)四川話中巴蜀文化與情感傳承,讓更多的人能夠感受漢語西南官話文化的魅力,也為了更好地服務(wù)四川當(dāng)?shù)啬酥潦澜绺鞯氐乃拇ㄔ捪嚓P(guān)使用人群,6月3日,標(biāo)貝科技精心打造并推出四川話語音合成技術(shù)。
  01 四川話語音合成技術(shù)難點(diǎn)
  四川話語音合成技術(shù)在行業(yè)內(nèi)已經(jīng)較為普遍,標(biāo)貝科技選擇此時公開并發(fā)布,主要是對于其相關(guān)技術(shù)精進(jìn)度的升級與把控。在四川話語音合成方面,進(jìn)行了更多維度的技術(shù)開發(fā),較普通話語音合成來說,難度提升也比較大。
  首先,四川話相比普通話有聲韻母發(fā)音更加復(fù)雜,比如聲母無卷舌音zh、ch、sh、r不卷舌,增加了舌面鼻濁音n、舌根鼻濁音。這樣的發(fā)音方式,在一定程度上增加了語音數(shù)據(jù)標(biāo)注和技術(shù)開發(fā)重構(gòu)取舍的難度。
  其次,四川話聲調(diào)值無高升調(diào),各個地區(qū)調(diào)值的發(fā)音也不是很相同,在語音采集及標(biāo)注中,均增加了樣本數(shù)量,包括口語化的語料。同時在標(biāo)準(zhǔn)四川話選擇上,增加了技術(shù)開發(fā)的精確度及地道川語的韻律。
  再者,四川話在構(gòu)詞法方面,跟普通話對比,構(gòu)詞法上顯著的不同是名詞和動詞的重疊式,即名詞能夠重疊,動詞一般不能重疊。
  面對以上問題及四川話語音合成發(fā)展現(xiàn)狀,標(biāo)貝科技在融合更多采集樣本量及標(biāo)注精確度上,技術(shù)開發(fā)進(jìn)行一一突破,做出了更高質(zhì)量的四川話語音合成效果。
  02 標(biāo)貝科技四川話語音合成亮點(diǎn)
  在標(biāo)貝科技最終的四川話語音合成音頻中,其發(fā)音準(zhǔn)確、音調(diào)標(biāo)準(zhǔn),合成音色擬真人、無機(jī)械音,長句表述自然流暢、無卡頓,韻律停頓自然流暢。整體的技術(shù)都是基于標(biāo)貝升級版本TTS3.0的框架,輸出的音質(zhì)效果更清晰穩(wěn)定。
  四川話語音合成,其應(yīng)用場景也較為廣泛。包括:川語客服、語音播報、影視娛樂、硬件設(shè)備等。高標(biāo)準(zhǔn)的四川話語音,會為大家?guī)聿灰粯拥母惺堋?/div>
  正式上線四川話語音合成技術(shù)后,標(biāo)貝科技將在其官網(wǎng)、標(biāo)貝AI語音工坊小程序、標(biāo)貝開放平臺、標(biāo)貝悅讀等設(shè)置體驗(yàn)區(qū)和增加產(chǎn)品入口,歡迎川音應(yīng)用廠商、各企業(yè)及開發(fā)者體驗(yàn)下載。
  而在推出四川話語音合成后,標(biāo)貝科技聲音庫也新增“一員”,與粵語語音合成、臺灣話語音合成等形成方言版聲音定制庫,助力更多方言場景落地。
  03 標(biāo)貝科技個性化聲音定制解決方案
  除了普通話語音合成、方言語音合成技術(shù)及解決方案外,標(biāo)貝科技還有個性化聲音定制、聲音克。曇魪(fù)刻)等解決方案,滿足更多客戶聲音需求。
  聲音定制方面,標(biāo)貝科技會根據(jù)不同音色、不同發(fā)音的聲音,采集不同領(lǐng)域的特定語料,對語料進(jìn)行“設(shè)計(jì)”;之后,技術(shù)專家會對發(fā)音人的說話風(fēng)格、語調(diào)和停頓方式進(jìn)行指導(dǎo),完成聲音的“采集”;再對聲音的音字、韻律和音節(jié)音素進(jìn)行“標(biāo)注”;從文本、韻律層級預(yù)測、聲學(xué)參數(shù)和聲碼器方面進(jìn)行合成。
  聲音復(fù)刻「留聲機(jī)」技術(shù)解決方案,客戶只需錄制5分鐘,10句話語音內(nèi)容,當(dāng)在機(jī)器錄入任意文本后,就能播放出和用戶聲音幾乎完全一致的“人造聲”。目前在聲音相似度、自然度等指標(biāo)上均達(dá)到行業(yè)領(lǐng)先水平,MOS(語音質(zhì)量的重要指標(biāo))接近4分,且音色高保真,真實(shí)還原錄音人語氣、語調(diào)、情感,清晰自然。
  標(biāo)貝科技作為國內(nèi)領(lǐng)先的人工智能語音技術(shù)、產(chǎn)品和數(shù)據(jù)服務(wù)提供商,一直在AI語音交互技術(shù)及高精度數(shù)據(jù)采標(biāo)處理技術(shù)上進(jìn)行創(chuàng)新。截止目前,語音合成、聲音復(fù)刻等解決方案已經(jīng)幫助客戶實(shí)現(xiàn)多個場景落地。其包括:有聲閱讀、智能客服、智慧金融、AI教育、泛娛樂、自動駕駛等眾多領(lǐng)域。而此次推出的四川話語音合成技術(shù)服務(wù),也將助力更多開發(fā)者實(shí)現(xiàn)方言及個性化聲音解決方案的落地。
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點(diǎn)判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

專題

CTI論壇會員企業(yè)