国产乱子伦精品免费无码专区,国产无码一区二区三区在线观看

老秦夜譯

　　CTI論壇(ctiforum.com) （編譯/老秦）：文本轉(zhuǎn)語(yǔ)音 (TTS) 是一個(gè)已有數(shù)十年歷史的領(lǐng)域，但采用通常僅限于少數(shù)幾個(gè)領(lǐng)域，因?yàn)楹铣烧Z(yǔ)音讓人感覺不自然和機(jī)器人化。但在過去的五年里，由于深度學(xué)習(xí)，合成聲音（又名神經(jīng) TTS）可以變得更加自然和悅耳。音調(diào)、節(jié)奏、發(fā)音、口音、情感和說(shuō)話風(fēng)格可以根據(jù)需要進(jìn)行調(diào)整。

　　Amazon、Google、IBM 和 Microsoft 等大型云供應(yīng)商提供的 APIs允許開發(fā)人員輕松地將語(yǔ)音功能添加到各種應(yīng)用程序中。除了大型供應(yīng)商之外，許多創(chuàng)新的初創(chuàng)公司和專家正在想象合成語(yǔ)音的新可能性。

　　這些不同的用例分為兩大類。

　　朗讀用例

　　公司可以為這些用例使用庫(kù)存語(yǔ)音或創(chuàng)建定制的合成語(yǔ)音（包括名人語(yǔ)音）。

　　·客戶服務(wù)。自動(dòng)語(yǔ)音應(yīng)答是最古老的用例之一，但對(duì)話路徑和響應(yīng)必須仔細(xì)預(yù)先錄制并完全編寫腳本。開放式對(duì)話是有限的，因?yàn)椴豢赡茴A(yù)先記錄每一個(gè)潛在的反應(yīng)�，F(xiàn)在，通過在有限的訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)（即預(yù)先錄制的音頻）上使用人工智能，可以創(chuàng)建合成語(yǔ)音并將其用于開放式對(duì)話應(yīng)用程序。

　　·新聞閱讀。許多出版物（例如，華盛頓郵報(bào)、BBC、華爾街日?qǐng)?bào)）都使用 TTS，因此讀者可以收聽文章。一些媒體網(wǎng)站提供"聽故事"作為付費(fèi)訂閱者的高級(jí)功能。

　　·電子郵件。將向您讀出電子郵件（例如，在 Microsoft Outlook 中）。例如，當(dāng)您開車時(shí)，這可以實(shí)現(xiàn)免提體驗(yàn)。

　　·輔助技術(shù)。語(yǔ)音銀行可以幫助患有運(yùn)動(dòng)神經(jīng)元疾病的人生成自己的合成語(yǔ)音，可用于輔助語(yǔ)音設(shè)備。一些應(yīng)用程序使有語(yǔ)言障礙的用戶能夠通過 TTS 接口設(shè)備說(shuō)話。為了幫助有視力挑戰(zhàn)的用戶，有一些應(yīng)用程序可以讀出處方標(biāo)簽、產(chǎn)品標(biāo)簽，還有一些應(yīng)用程序可以提供用戶周圍環(huán)境的提示和描述。

　　富媒體內(nèi)容用例

　　這組用例通常涉及音頻和視頻內(nèi)容。

　　·配音。視頻配音和畫外音并不新鮮，但 Netflix 等流媒體平臺(tái)的興起創(chuàng)造了全球觀眾和對(duì)將內(nèi)容配音成多種語(yǔ)言的新需求。通過混合使用語(yǔ)音識(shí)別、機(jī)器翻譯和合成聲音，可以將音頻配音為原始演員聲音中的不同語(yǔ)言。唇形同步曾經(jīng)是配音為不同語(yǔ)言的內(nèi)容的問題，但現(xiàn)在人工智能有助于創(chuàng)建與口語(yǔ)相匹配的合成唇形動(dòng)作。

　　·音頻編輯。這是一個(gè)創(chuàng)新用例，有助于減少音頻編輯的障礙。使用自動(dòng)生成的腳本或文本，您可以通過修改相應(yīng)的文本來(lái)刪除填充詞、添加新音頻或刪除片段。這有可能大大降低編輯成本和時(shí)間。

　　·在線和元宇宙安全。使用人工智能，聲音可以被轉(zhuǎn)換或改變，同時(shí)保留其情感和表現(xiàn)力。就像游戲玩家將視覺皮膚應(yīng)用于他們的化身一樣，可以應(yīng)用語(yǔ)音皮膚來(lái)保護(hù)隱私并減少游戲環(huán)境或基于音頻的社交媒體（例如 Twitter 空間或俱樂部會(huì)所）中的騷擾。

　　道德問題和風(fēng)險(xiǎn)

　　隨著合法用例的增加，濫用和欺詐的可能性也在增加。

　　用戶同意使用合成聲音。在一部關(guān)于已故名廚 Anthony Bourdain的紀(jì)錄片中，他的合成聲音被用來(lái)讓他"說(shuō)出"幾句他從未真正說(shuō)過的臺(tái)詞。這樣的例子提出了'同意'的問題，什么是允許的，什么是不允許的。

　　·深度偽造Deepfakes。不難想象，隨著合成音頻和視頻功能變得更好，我們將如何充斥著復(fù)雜的公眾人物（甚至是普通公民）的深度偽造。它可能是一個(gè)錯(cuò)誤信息的雷區(qū)，會(huì)對(duì)公眾信任和信息來(lái)源的可靠性產(chǎn)生影響。

　　·語(yǔ)音網(wǎng)絡(luò)釣魚和欺詐。《華爾街日?qǐng)?bào)》報(bào)道說(shuō)，一位 CEO 的聲音被利用進(jìn)行欺詐，以他的聲音給他的同事打電話，指示資金轉(zhuǎn)移，這是一種全新的網(wǎng)絡(luò)犯罪類別，由合成聲音和社會(huì)工程學(xué)結(jié)合而成。

　　公司需要善于負(fù)責(zé)任地使用合成語(yǔ)音用例來(lái)改善用戶體驗(yàn)，提供更好的客戶服務(wù)，并創(chuàng)造新的產(chǎn)品和服務(wù)。但他們還需要防范惡意行為者的對(duì)抗性攻擊。對(duì)于語(yǔ)音應(yīng)用來(lái)說(shuō)，這是一個(gè)勇敢的新世界。

　　KashyapKompella是全球人工智能行業(yè)分析公司 rpa2ai Research 的首席執(zhí)行官，也是《實(shí)用人工智能：企業(yè)手冊(cè)》的合著者。

　　聲明：版權(quán)所有非合作媒體謝絕轉(zhuǎn)載

　　作者：KashyapKompella

　　原文網(wǎng)址：https://www.speechtechmag.com/Articles/Columns/Interact/The-Rise-(and-Risks)-of-Speech-Synthesis-Applications-154268.aspx

專題

語(yǔ)音合成技術(shù)應(yīng)用的興起（和風(fēng)險(xiǎn)）

評(píng)論排行

推薦閱讀

專題

大家都在看

CTI論壇會(huì)員企業(yè)