您當(dāng)前的位置是:  首頁(yè) > 新聞 > 國(guó)內(nèi) >
 首頁(yè) > 新聞 > 國(guó)內(nèi) >

語(yǔ)音技術(shù)的未來(lái)——對(duì)話(huà)交互?

2014-04-23 09:57:37   作者:   來(lái)源:AI剪刀手   評(píng)論:0  點(diǎn)擊:


  自蘋(píng)果iPhone 4S內(nèi)置語(yǔ)音助手Siri以來(lái),語(yǔ)音識(shí)別技術(shù)近年來(lái)經(jīng)歷了前所未有的繁榮。穿戴式設(shè)備、智能家居和車(chē)載設(shè)備的興起,更是將語(yǔ)音識(shí)別技推到應(yīng)用的臺(tái)前。語(yǔ)言的創(chuàng)造原本就是人類(lèi)歷史的一個(gè)拐點(diǎn),而當(dāng)將語(yǔ)言與科技結(jié)合時(shí),所謂的人機(jī)交互的革命史又翻開(kāi)了新篇章。

  《Her》的啟示:所謂的語(yǔ)音助手只是用來(lái)耳提面命的嗎?

  像在國(guó)內(nèi),目前除了手機(jī)內(nèi)自帶的語(yǔ)音助手,不少第三方語(yǔ)音助手應(yīng)用也如雨后春筍般涌現(xiàn),譬如訊飛語(yǔ)點(diǎn)、百度語(yǔ)音助手、搜狗語(yǔ)音助手、蟲(chóng)洞語(yǔ)音助手、智能360語(yǔ)音助手等。這項(xiàng)曾沉寂幾十年的雞肋技術(shù)之所以如今風(fēng)頭正旺,原因無(wú)非是搭上了移動(dòng)互聯(lián)網(wǎng)的順風(fēng)車(chē),從而滿(mǎn)足了語(yǔ)音技術(shù)普及更廣泛所需的兩件事情:更好、更方便的應(yīng)用和主要使用語(yǔ)音的生活場(chǎng)景。

  初次使用Siri或訊飛旗下的“靈犀語(yǔ)音助手”的用戶(hù)都會(huì)對(duì)這種新的人機(jī)交互方式感到很新奇,不僅可以通過(guò)語(yǔ)音搜索內(nèi)容、查詢(xún)信息,還可以聊天解悶、講故事、唱歌,真可謂是得力的小助手。

  正好,最近筆者重溫了一部講述人機(jī)交互的電影《Her》,這幾乎構(gòu)建了人機(jī)語(yǔ)音交互的一個(gè)非常理想化的境界。片中女主角Samantha(人工智能系統(tǒng))沒(méi)有身體,只能發(fā)出聲音。表面上看,這只是一個(gè)具有升級(jí)版的的語(yǔ)音助手。實(shí)際上,與目前的語(yǔ)音助手們相比,其又具備了以下幾個(gè)進(jìn)階點(diǎn):

  1、對(duì)話(huà)交互。雖然你可能反駁說(shuō),如今的語(yǔ)音助手也能進(jìn)行對(duì)話(huà),但只要一體驗(yàn)就會(huì)知道那只不過(guò)是“講話(huà)”而已,用戶(hù)一聽(tīng)就能感覺(jué)到機(jī)械感太強(qiáng)、體驗(yàn)太差。實(shí)際上,目前參與對(duì)話(huà)的人與機(jī)之間的地位懸殊太大,很多語(yǔ)音助手是作為人類(lèi)任務(wù)助手、被調(diào)戲助手的角色出現(xiàn)的。而對(duì)話(huà)的話(huà),則講究的是兩個(gè)主體之間關(guān)系的平等性。

  2、十分流暢的情感流露。倘若未來(lái)的人工智能真的以“與人類(lèi)無(wú)異”為目標(biāo),那么最應(yīng)該在乎的是它能否讀懂人類(lèi)的情感并給用戶(hù)人類(lèi)般的反饋。影片中,Samantha和男一號(hào)Theodor交談、戀愛(ài),最終她還憑借其飛快的進(jìn)化速度與數(shù)千個(gè)人進(jìn)行交談,同時(shí)與幾百人維持著浪漫的戀愛(ài)關(guān)系,將Theodore無(wú)情地拋在身后。機(jī)器的不斷進(jìn)化注入了Samantha超乎尋常的情感靈魂。

  而在現(xiàn)實(shí)生活中,機(jī)器的冷冰冰已司空見(jiàn)慣。人類(lèi)飽含感情、追求自我,每個(gè)人的獨(dú)特性構(gòu)成了他自己的整個(gè)世界;而機(jī)器的本質(zhì)則是通過(guò)無(wú)限復(fù)制、并行計(jì)算來(lái)追求效率最大化。這個(gè)不可調(diào)和的矛盾或許只能寄托未來(lái),未來(lái)出現(xiàn)像Samantha一樣的高級(jí)人工智能。

  無(wú)縫的語(yǔ)音交互境界有多難?

  從技術(shù)上講,要達(dá)到未來(lái)無(wú)縫的語(yǔ)音交互境界還相當(dāng)難:

  雖然近年來(lái)語(yǔ)音技術(shù)門(mén)檻逐漸降低,但不可否認(rèn)的是,語(yǔ)音技術(shù)在人機(jī)交互中的尷尬局面。比如語(yǔ)音識(shí)別的正確率,其在實(shí)際應(yīng)用中依然不夠“聽(tīng)話(huà)”。比如,人說(shuō)話(huà)時(shí)單個(gè)字母或詞、字的語(yǔ)音特性受上下文的影響,以致改變了重音、音調(diào)、音量和發(fā)音速度等;比如環(huán)境噪聲和干擾對(duì)語(yǔ)音識(shí)別有嚴(yán)重影響,致使識(shí)別率低。

  有業(yè)內(nèi)人士也對(duì)此坦承,語(yǔ)音識(shí)別的遺憾是再努力做也做不到百分之百。這無(wú)疑是整體語(yǔ)音技術(shù)應(yīng)用中的一個(gè)最大痛點(diǎn)。

  這里存在一對(duì)天然的矛盾:人的本性是傾向于用非精確的信息,因?yàn)槠鋫鬏斄扛,更方便。然而,機(jī)器卻需要用精確信息來(lái)處理才能讓識(shí)別和自然語(yǔ)言處理更準(zhǔn)確。所以說(shuō),一家相對(duì)專(zhuān)業(yè)公司的語(yǔ)音識(shí)別可以做到90%就已經(jīng)不錯(cuò)了。

  從目前人機(jī)交互的形態(tài)而言,顯然,用戶(hù)還是更偏向于直接能產(chǎn)生觸感的手動(dòng)式人機(jī)交互。蘋(píng)果近日在iOS7.1的升級(jí)當(dāng)中也對(duì)語(yǔ)音助手Siri作出的升級(jí)亦直接在觸控方面做出了調(diào)整,在Siri界面當(dāng)中,具體實(shí)現(xiàn)方式類(lèi)似于目前在微信當(dāng)中的語(yǔ)音交流,說(shuō)話(huà)前按住Home鍵不放,在說(shuō)話(huà)完畢后放下Home鍵即可手動(dòng)控制輸入識(shí)別。蘋(píng)果未單獨(dú)再對(duì)聲音方面做出調(diào)整,畢竟比起語(yǔ)音,手動(dòng)更具有實(shí)體存在感,而且目前在語(yǔ)音交互上不斷推進(jìn)會(huì)大幅增加用戶(hù)認(rèn)知負(fù)擔(dān)。

  未來(lái),要想達(dá)到無(wú)縫語(yǔ)音交互的技術(shù)奇點(diǎn),必須,不是更多地發(fā)展真正的人工智能,更多地模仿人類(lèi)的智能而非模仿人類(lèi)的行為或聲音;蛟S,將類(lèi)似一大堆的神經(jīng)元細(xì)胞注入機(jī)器是人工智能的爆發(fā)點(diǎn)。這不是天方夜譚,真的有人已經(jīng)在做這件事了。據(jù)悉,牛津大學(xué)人類(lèi)未來(lái)研究所近日發(fā)布了一份報(bào)告,便闡述了向機(jī)器上傳意識(shí)的技術(shù)要求。“唯有生物才具有意識(shí)”的觀念正將被擊得粉碎!

【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專(zhuān)題