您當(dāng)前的位置是:  首頁(yè) > 資訊 > 國(guó)內(nèi) >
 首頁(yè) > 資訊 > 國(guó)內(nèi) >

語(yǔ)音識(shí)別+歌聲合成,思必馳想讓普通人“讀詩(shī)成曲”

2019-04-11 10:31:38   作者:   來(lái)源:36kr   評(píng)論:0  點(diǎn)擊:



  在小年夜,中央電視臺(tái)《經(jīng)典詠流傳》第二季節(jié)目中出現(xiàn)了一款“讀詩(shī)成曲”的在線(xiàn)互動(dòng)小工具,用戶(hù)僅需要朗讀一段詩(shī)詞,就可以聽(tīng)到用自己聲音演唱的經(jīng)典詩(shī)詞唱段。那這是怎么實(shí)現(xiàn)的呢?
  原來(lái),“讀詩(shī)成曲”的背后是思必馳提供的個(gè)性化歌聲合成算法。歌聲合成技術(shù)是語(yǔ)音合成(TTS,即Text to Speech)的衍生品,其關(guān)鍵區(qū)別在于韻律預(yù)測(cè)模型不同。在普通TTS系統(tǒng)中,通常有個(gè)韻律模型來(lái)根據(jù)句子的內(nèi)容和語(yǔ)調(diào)環(huán)境預(yù)測(cè)每個(gè)音素(音節(jié))的時(shí)長(zhǎng)和音高曲線(xiàn)。在歌聲合成中,這個(gè)韻律模型則更換成由樂(lè)譜來(lái)預(yù)測(cè)每個(gè)音素(音節(jié))的時(shí)長(zhǎng)和音高的歌曲韻律模型。最終的生成過(guò)程仍然跟語(yǔ)音合成類(lèi)似,將韻律參數(shù)和頻譜參數(shù)結(jié)合,生成歌聲。
  在“讀詩(shī)成曲”中,韻律預(yù)測(cè)模型可以使得機(jī)器根據(jù)人說(shuō)話(huà)的語(yǔ)調(diào)合成歌曲,且根據(jù)唱段的韻律和節(jié)奏調(diào)整音調(diào),這又是如何實(shí)現(xiàn)的呢?思必馳北京研發(fā)院院長(zhǎng)兼副總裁初敏博士告訴36氪:韻律方面,思必馳在原有歌曲韻律模型的基礎(chǔ)上增加了個(gè)性化學(xué)習(xí)技術(shù),結(jié)合曲庫(kù)和名曲唱段的特征生成相應(yīng)的韻律曲線(xiàn),使歌曲韻律特征盡量接近名曲唱段的特點(diǎn);在語(yǔ)調(diào)方面,思必馳應(yīng)用了聲學(xué)模型的個(gè)性化學(xué)習(xí)技術(shù),使得生成的頻譜參數(shù)盡量接近用戶(hù)的聲音,通過(guò)將接近用戶(hù)的頻譜參數(shù)和接近名曲唱段的韻律參數(shù)結(jié)合,就能生成用戶(hù)“原聲”唱出的“經(jīng)典”曲調(diào)了。
  36氪注意到,這并非思必馳首次將個(gè)性化歌聲合成技術(shù)運(yùn)用于泛娛樂(lè)領(lǐng)域,此前在央視節(jié)目《機(jī)智過(guò)人》中,思必馳團(tuán)隊(duì)的“小馳”機(jī)器人就曾用撒貝寧的聲音演唱過(guò)《好久不見(jiàn)》。不同于以往,此次“讀詩(shī)成曲”則在曲目和參與度上更為開(kāi)放,支持任何用戶(hù)從既定曲庫(kù)中自選歌曲,曲庫(kù)主要來(lái)自節(jié)目第一季、第二季嘉賓的演唱曲目。
  近兩年,語(yǔ)音合成技術(shù)進(jìn)入商業(yè)落地加速期,除BAT大廠(chǎng)紛紛著眼外,此前36氪也曾報(bào)道過(guò)標(biāo)貝科技等創(chuàng)業(yè)公司。除了在泛娛樂(lè)領(lǐng)域布局,思必馳又會(huì)如何將語(yǔ)音合成技術(shù)商業(yè)落地呢?據(jù)初敏博士透露,思必馳更多會(huì)將語(yǔ)音合成技術(shù)與語(yǔ)音識(shí)別、口語(yǔ)理解等算法配套,為泛物聯(lián)網(wǎng)領(lǐng)域產(chǎn)品提供全鏈路對(duì)話(huà)交互方案。
  具體來(lái)說(shuō),思必馳當(dāng)前的業(yè)務(wù)圍繞四個(gè)AI進(jìn)行整體布局:AIOT、AI芯片、AIBOT、AI生態(tài)。AIOT業(yè)務(wù)在泛物聯(lián)網(wǎng)領(lǐng)域(包括智能車(chē)載、智能家居、智能玩具/機(jī)器人、智能手機(jī)等)提供軟件、軟硬一體化、Turnkey一站式等多樣化方案。在車(chē)聯(lián)網(wǎng)后裝、智能音箱、兒童平板/故事機(jī)、知識(shí)機(jī)器人等領(lǐng)域市場(chǎng)占有率均第一,在汽車(chē)前裝、電視/白電、智能客服等重點(diǎn)領(lǐng)域市場(chǎng)增速領(lǐng)先。未來(lái),思必馳將以“云+芯”戰(zhàn)略方向?yàn)橹,整合智能終端方案能力與全渠道智慧服務(wù)能力,形成AllInOne解決方案,進(jìn)入酒店、地產(chǎn)、物流、養(yǎng)老、醫(yī)療、教育、安全、社區(qū)等更多行業(yè)。
  據(jù)悉,在語(yǔ)音合成領(lǐng)域,目前思必馳已可以提供標(biāo)準(zhǔn)男女聲、童聲、名人合成音等,在最新推出的DUI平臺(tái)VoiceShop中,提供100+特色的高自然度合成音,并為不同廠(chǎng)商提供個(gè)性化定制服務(wù)打造voice-IP! ≡谛∧暌,中央電視臺(tái)《經(jīng)典詠流傳》第二季節(jié)目中出現(xiàn)了一款“讀詩(shī)成曲”的在線(xiàn)互動(dòng)小工具,用戶(hù)僅需要朗讀一段詩(shī)詞,就可以聽(tīng)到用自己聲音演唱的經(jīng)典詩(shī)詞唱段。那這是怎么實(shí)現(xiàn)的呢?
  原來(lái),“讀詩(shī)成曲”的背后是思必馳提供的個(gè)性化歌聲合成算法。歌聲合成技術(shù)是語(yǔ)音合成(TTS,即Text to Speech)的衍生品,其關(guān)鍵區(qū)別在于韻律預(yù)測(cè)模型不同。在普通TTS系統(tǒng)中,通常有個(gè)韻律模型來(lái)根據(jù)句子的內(nèi)容和語(yǔ)調(diào)環(huán)境預(yù)測(cè)每個(gè)音素(音節(jié))的時(shí)長(zhǎng)和音高曲線(xiàn)。在歌聲合成中,這個(gè)韻律模型則更換成由樂(lè)譜來(lái)預(yù)測(cè)每個(gè)音素(音節(jié))的時(shí)長(zhǎng)和音高的歌曲韻律模型。最終的生成過(guò)程仍然跟語(yǔ)音合成類(lèi)似,將韻律參數(shù)和頻譜參數(shù)結(jié)合,生成歌聲。
  在“讀詩(shī)成曲”中,韻律預(yù)測(cè)模型可以使得機(jī)器根據(jù)人說(shuō)話(huà)的語(yǔ)調(diào)合成歌曲,且根據(jù)唱段的韻律和節(jié)奏調(diào)整音調(diào),這又是如何實(shí)現(xiàn)的呢?思必馳北京研發(fā)院院長(zhǎng)兼副總裁初敏博士告訴36氪:韻律方面,思必馳在原有歌曲韻律模型的基礎(chǔ)上增加了個(gè)性化學(xué)習(xí)技術(shù),結(jié)合曲庫(kù)和名曲唱段的特征生成相應(yīng)的韻律曲線(xiàn),使歌曲韻律特征盡量接近名曲唱段的特點(diǎn);在語(yǔ)調(diào)方面,思必馳應(yīng)用了聲學(xué)模型的個(gè)性化學(xué)習(xí)技術(shù),使得生成的頻譜參數(shù)盡量接近用戶(hù)的聲音,通過(guò)將接近用戶(hù)的頻譜參數(shù)和接近名曲唱段的韻律參數(shù)結(jié)合,就能生成用戶(hù)“原聲”唱出的“經(jīng)典”曲調(diào)了。
  36氪注意到,這并非思必馳首次將個(gè)性化歌聲合成技術(shù)運(yùn)用于泛娛樂(lè)領(lǐng)域,此前在央視節(jié)目《機(jī)智過(guò)人》中,思必馳團(tuán)隊(duì)的“小馳”機(jī)器人就曾用撒貝寧的聲音演唱過(guò)《好久不見(jiàn)》。不同于以往,此次“讀詩(shī)成曲”則在曲目和參與度上更為開(kāi)放,支持任何用戶(hù)從既定曲庫(kù)中自選歌曲,曲庫(kù)主要來(lái)自節(jié)目第一季、第二季嘉賓的演唱曲目。
  近兩年,語(yǔ)音合成技術(shù)進(jìn)入商業(yè)落地加速期,除BAT大廠(chǎng)紛紛著眼外,此前36氪也曾報(bào)道過(guò)標(biāo)貝科技等創(chuàng)業(yè)公司。除了在泛娛樂(lè)領(lǐng)域布局,思必馳又會(huì)如何將語(yǔ)音合成技術(shù)商業(yè)落地呢?據(jù)初敏博士透露,思必馳更多會(huì)將語(yǔ)音合成技術(shù)與語(yǔ)音識(shí)別、口語(yǔ)理解等算法配套,為泛物聯(lián)網(wǎng)領(lǐng)域產(chǎn)品提供全鏈路對(duì)話(huà)交互方案。
  具體來(lái)說(shuō),思必馳當(dāng)前的業(yè)務(wù)圍繞四個(gè)AI進(jìn)行整體布局:AIOT、AI芯片、AIBOT、AI生態(tài)。AIOT業(yè)務(wù)在泛物聯(lián)網(wǎng)領(lǐng)域(包括智能車(chē)載、智能家居、智能玩具/機(jī)器人、智能手機(jī)等)提供軟件、軟硬一體化、Turnkey一站式等多樣化方案。在車(chē)聯(lián)網(wǎng)后裝、智能音箱、兒童平板/故事機(jī)、知識(shí)機(jī)器人等領(lǐng)域市場(chǎng)占有率均第一,在汽車(chē)前裝、電視/白電、智能客服等重點(diǎn)領(lǐng)域市場(chǎng)增速領(lǐng)先。未來(lái),思必馳將以“云+芯”戰(zhàn)略方向?yàn)橹,整合智能終端方案能力與全渠道智慧服務(wù)能力,形成AllInOne解決方案,進(jìn)入酒店、地產(chǎn)、物流、養(yǎng)老、醫(yī)療、教育、安全、社區(qū)等更多行業(yè)。
  據(jù)悉,在語(yǔ)音合成領(lǐng)域,目前思必馳已可以提供標(biāo)準(zhǔn)男女聲、童聲、名人合成音等,在最新推出的DUI平臺(tái)VoiceShop中,提供100+特色的高自然度合成音,并為不同廠(chǎng)商提供個(gè)性化定制服務(wù)打造voice-IP。
【免責(zé)聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀(guān)點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

評(píng)論排行

專(zhuān)題

CTI論壇會(huì)員企業(yè)