語(yǔ)音識(shí)別已不是難事下一個(gè)挑戰(zhàn)是語(yǔ)音合成

2016-02-17 16:26:15 作者：朱旭冬來(lái)源：品玩網(wǎng) 評(píng)論：0 　點(diǎn)擊cti：

　　我相信大多數(shù)人對(duì)語(yǔ)音助手已經(jīng)不陌生了。很多人也已經(jīng)和 iOS 中的語(yǔ)音助手 Siri 進(jìn)行過(guò)對(duì)話，不論是逗它玩還是真的需要它的幫助。

　　對(duì) Siri 來(lái)說(shuō)，要聽(tīng)懂你說(shuō)的是什么并不難，但真的要和它進(jìn)行一場(chǎng)對(duì)話的話，你一定會(huì)感到怪怪的。拋開(kāi)它是否能正確的回答你的問(wèn)題不說(shuō)，它回復(fù)你的聲音就會(huì)讓你明顯感覺(jué)到自己并不是在和一個(gè)人聊天。

　　的確，在語(yǔ)音識(shí)別這件事上，國(guó)內(nèi)外頂尖的公司都已經(jīng)能做到95%左右的準(zhǔn)確識(shí)別率。但在語(yǔ)音生成上，幾乎沒(méi)有公司能讓機(jī)器人說(shuō)的話跟人說(shuō)出來(lái)的話一樣，即便是一些簡(jiǎn)單的詞組，你也一耳就能聽(tīng)出是機(jī)器合成的還是真人播報(bào)。

　　但隨著人們?cè)絹?lái)越多的使用語(yǔ)音交互，如何讓電腦的聲音聽(tīng)起來(lái)更具人性化，已經(jīng)成為了擺在很多軟件公司和程序員面前的大挑戰(zhàn)。

　　據(jù)《紐約時(shí)報(bào)》報(bào)道，IBM 曾在世紀(jì)之交花了18個(gè)月的時(shí)間讓機(jī)器人沃森(Watson)可以說(shuō)話，但盡管沃森已經(jīng)非常聰明，它說(shuō)話的本領(lǐng)仍然很差。因?yàn)槁?tīng)起來(lái)根本不像人聲。

Michael Picheny，IBM 實(shí)驗(yàn)室資深經(jīng)理。圖片來(lái)自《紐約時(shí)報(bào)》

　　現(xiàn)在電腦語(yǔ)音都是用機(jī)器合成的(除了部分天氣預(yù)報(bào)和導(dǎo)航提示是完全人工錄制)，合成最終語(yǔ)音的真人語(yǔ)音數(shù)據(jù)庫(kù)通常非常龐大，數(shù)據(jù)庫(kù)里有某個(gè)單詞的真人發(fā)音，以及這個(gè)單詞不同語(yǔ)調(diào)的發(fā)音，甚至這個(gè)單詞的部分發(fā)音。一位配音者通常需要花至少10個(gè)小時(shí)才能完成一個(gè)語(yǔ)音數(shù)據(jù)庫(kù)的錄入。

　　盡管語(yǔ)音數(shù)據(jù)庫(kù)已經(jīng)非常龐大，但是在合成語(yǔ)音的時(shí)候，仍然無(wú)法做到接近真人發(fā)聲。其中最大的難點(diǎn)是讓合成音帶有人類(lèi)的感情�？▋�(nèi)基梅隆大學(xué)語(yǔ)言技術(shù)研究院的計(jì)算機(jī)科學(xué)家 Alan Black 告訴《紐約時(shí)報(bào)》，他們并沒(méi)有辦法告訴語(yǔ)音合成器說(shuō)，這段話要帶有感情的去朗讀。

　　當(dāng)然，設(shè)計(jì)者也經(jīng)常強(qiáng)調(diào)他們并不希望用合成語(yǔ)音來(lái)騙人說(shuō)這是真人語(yǔ)音。但他們?nèi)匀幌Ｍ麢C(jī)器和人的語(yǔ)音交互能更加自然，更像人和人之間的交流。

　　事實(shí)上，如果機(jī)器發(fā)音和真人發(fā)音過(guò)于接近，會(huì)讓人感到很不舒服。日本機(jī)器人科學(xué)家森政弘曾在1970年發(fā)表了一篇題為《恐怖谷》的文章，核心就是說(shuō)，當(dāng)機(jī)器人和人的相似程度過(guò)于接近的時(shí)候，機(jī)器人身上的一點(diǎn)點(diǎn)小瑕疵，都會(huì)讓人感到不安。

　　根據(jù)森政弘的假設(shè)，隨著人類(lèi)物體的擬人程度增加，人類(lèi)對(duì)它的情感反應(yīng)呈現(xiàn)增-減-增的曲線�？植拦染褪请S著械器人到達(dá)“接近人類(lèi)”的相似度時(shí)，人類(lèi)好感度突然下降至反感的范圍。“活動(dòng)的類(lèi)人體”比“靜止的類(lèi)人體”變動(dòng)的幅度更大。圖片來(lái)自維基百科

　　根據(jù)森政弘的假設(shè)，隨著人類(lèi)物體的擬人程度增加，人類(lèi)對(duì)它的情感反應(yīng)呈現(xiàn)增-減-增的曲線。恐怖谷就是隨著械器人到達(dá)“接近人類(lèi)”的相似度時(shí)，人類(lèi)好感度突然下降至反感的范圍。“活動(dòng)的類(lèi)人體”比“靜止的類(lèi)人體”變動(dòng)的幅度更大。圖片來(lái)自維基百科

　　ToyTalk 是一家為兒童玩具制作人聲的公司，其 CEO Brian Langner 就表示，當(dāng)機(jī)器能做對(duì)一些事情的時(shí)候，人們會(huì)認(rèn)為它能做對(duì)任何事。所以在他的產(chǎn)品里，他會(huì)讓機(jī)器故意犯一點(diǎn)錯(cuò)。畢竟他做的是玩具，犯點(diǎn)錯(cuò)讓人們一笑也沒(méi)什么不好的。

　　現(xiàn)在的問(wèn)題是，經(jīng)過(guò)了那么多科學(xué)家的努力，在合成語(yǔ)音這件事上，我們還無(wú)需擔(dān)心“恐怖谷”的到來(lái)。

　　為了讓沃森能“好好說(shuō)話”，IBM 招募了25位配音演員，經(jīng)過(guò)大量的實(shí)驗(yàn)和調(diào)整，他們終于合成了一個(gè)聽(tīng)起來(lái)讓人感到比較舒服的聲音——雖然人們還是很明顯能聽(tīng)出這不是真人在說(shuō)話。

　　如果語(yǔ)音交互要有大發(fā)展的話，合成語(yǔ)音必須要讓人聽(tīng)起來(lái)更舒服。不然的話，這種交互只能說(shuō)是語(yǔ)音輸入，機(jī)器執(zhí)行，人類(lèi)和機(jī)器之間并沒(méi)有真正的交流。

復(fù)制網(wǎng)址收藏打印郵件微信新浪微博一鍵分享 QQ 更多

相關(guān)熱詞搜索：語(yǔ)音助手語(yǔ)音識(shí)別語(yǔ)音合成

上一篇:全球公共云市場(chǎng)規(guī)模今年將達(dá)2040億美元

下一篇:會(huì)暢通訊全球直播2016 中國(guó)“地球一小時(shí)”活動(dòng)

相關(guān)閱讀：

·普強(qiáng)信息攜“最懂你的”車(chē)載語(yǔ)音助手亮相2016 CES Asia2016-05-12 09:02:21
·普強(qiáng)車(chē)載語(yǔ)音助手-“因?yàn)橛行荆覀兏恪?/a>2016-04-29 09:09:19

·普強(qiáng)信息“車(chē)載語(yǔ)音助手”代表北京參加廣州留交會(huì)2015-12-28 09:07:46
·普強(qiáng)信息車(chē)載語(yǔ)音助手首次亮相四維圖新2015UG2015-11-17 14:17:25
·云知聲助YunOS3.0發(fā)布會(huì) 最懂你的語(yǔ)音助手來(lái)襲2014-10-23 08:35:28
·Dom：達(dá)美樂(lè)比薩虛擬語(yǔ)音訂餐助手2014-10-21 15:33:35
·春秋航空手機(jī)客戶(hù)端推出語(yǔ)音助手、旅行清單2014-08-22 09:42:18
·微軟WP8.1在華首更新并推語(yǔ)音助手“小娜”2014-07-30 16:31:07
·靈犀語(yǔ)音助手全球首推聲紋鎖屏2013-12-27 10:27:07
·科大訊飛攜手HTC 共推Hidi智能語(yǔ)音助手2013-05-29 16:13:23

評(píng)論排行

專(zhuān)題

G-Summit客戶(hù)體驗(yàn)大會(huì): 為了讓眾多客戶(hù)了解當(dāng)前客戶(hù)體驗(yàn)和服務(wù)的市場(chǎng)導(dǎo)向、技術(shù)...[詳細(xì)]

Fintech火了銀行客...: 互聯(lián)網(wǎng)對(duì)金融業(yè)的沖擊毋庸置疑， "狼來(lái)了 ...[詳細(xì)]

2016世界移動(dòng)大會(huì)...: 由GSMA主辦的2016世界移動(dòng)大會(huì)-上海，以“移我所想” ...[詳細(xì)]

免費(fèi)試用JABRA B...: 免費(fèi)試用音質(zhì)卓越且堅(jiān)固耐用的Jabra BIZ 系列專(zhuān)業(yè)耳麥[詳細(xì)]

點(diǎn)擊排行
周排行
月排行

語(yǔ)音識(shí)別已不是難事 下一個(gè)挑戰(zhàn)是語(yǔ)音合成

評(píng)論排行

推薦閱讀

專(zhuān)題

語(yǔ)音識(shí)別已不是難事下一個(gè)挑戰(zhàn)是語(yǔ)音合成