首頁(yè) > 新聞 > 專(zhuān)家觀點(diǎn) >

對(duì)話科大訊飛馬漢君:AIUI將讓智能語(yǔ)音大爆發(fā)?

2016-07-06 13:52:09   作者:   來(lái)源:網(wǎng)易科技   評(píng)論:0  點(diǎn)擊:


  今年以來(lái),隨著人工智能和機(jī)器人技術(shù)的發(fā)展,智能語(yǔ)音行業(yè)迎來(lái)了一個(gè)爆發(fā)式的增長(zhǎng)。最明顯的趨勢(shì)就是,做語(yǔ)義分析的公司越來(lái)越多,而且行業(yè)越來(lái)越細(xì)分,其中兒童市場(chǎng)和車(chē)載市場(chǎng)的語(yǔ)音解決方案也隨之興起。作為國(guó)內(nèi)最大的智能語(yǔ)音廠商,科大訊飛發(fā)布了一整套的語(yǔ)音交互解決方案AIUI?拼笥嶏w將AIUI定義為物聯(lián)網(wǎng)時(shí)代的人機(jī)交互標(biāo)準(zhǔn),AIUI集成了科大訊飛在雙全工技術(shù)、麥克風(fēng)陣列技術(shù)、聲紋識(shí)別技術(shù)、方言識(shí)別、語(yǔ)義理解技術(shù)和內(nèi)容服務(wù)等技術(shù)和服務(wù)。該技術(shù)的核心是智能化的多輪對(duì)話管理和上下文理解。
  近日,科大訊飛語(yǔ)音云平臺(tái)的副總經(jīng)理馬漢君接受了網(wǎng)易科技的獨(dú)家專(zhuān)訪。作為AIUI的負(fù)責(zé)人,馬漢君闡述了對(duì)語(yǔ)音、語(yǔ)言、語(yǔ)義的技術(shù)解決方案有著深刻的理解,以及對(duì)國(guó)內(nèi)智能語(yǔ)音市場(chǎng)的變化和今年的趨勢(shì)的看法。
\
馬漢君在網(wǎng)易未來(lái)科技峰會(huì)上發(fā)言
  以下為采訪實(shí)錄(由網(wǎng)易科技整理):
  關(guān)于AIUI
  網(wǎng)易科技:科大訊飛的AIUI到底是一個(gè)什么樣的項(xiàng)目?怎樣去定位它?
  馬漢君:訊飛希望打造一套語(yǔ)音交互的標(biāo)準(zhǔn),在這套模式中,我們把科大訊飛的語(yǔ)音識(shí)別、對(duì)語(yǔ)音的思考理解貫穿起來(lái),AIUI就是一套軟硬一體的模塊方案。針對(duì)于聊天機(jī)器人,我們可以去做聊天機(jī)器人的場(chǎng)景定制,可以做一些智能家居的服務(wù)的定制。但是不管是怎樣的模式,這些交互的程序,我們會(huì)把它固定下來(lái)。這種固定的交互模式比如說(shuō),AIUI是隨時(shí)在錄音的,你可以隨時(shí)將它喚醒等等。當(dāng)然,有些特性會(huì)開(kāi)放,比如語(yǔ)音喚醒詞、視頻通話等等,方便用戶(hù)自己定制。
  不管是家庭的機(jī)器人,還是家庭智能設(shè)備,車(chē)載智能設(shè)備,AIUI能解決企業(yè)與客戶(hù)之間的交互問(wèn)題。AIUI不是一個(gè)系統(tǒng),而是一套交互的解決方案。
  網(wǎng)易科技:與DingDong平臺(tái)是什么關(guān)系?
  馬漢君:AIUI是一套語(yǔ)音集成的解決方案,DingDong平臺(tái)是從音樂(lè)本身的內(nèi)容來(lái)做運(yùn)營(yíng),從家居廠商的合作去拓展。前者是橫向的方案,后者是縱向的拓展平臺(tái)。
  網(wǎng)易科技:AIUI有沒(méi)有集成進(jìn)某些系統(tǒng),比如Android系統(tǒng)的計(jì)劃呢?
  馬漢君:AIUI肯定是要融入到目前的系統(tǒng)上面的,例如Android系統(tǒng)、Windows系統(tǒng)等等,成為系統(tǒng)本身的一部分。
  AIUI對(duì)于硬件的需求,首先是噪音環(huán)境的問(wèn)題,這一點(diǎn)上就需要硬件上必須有麥克風(fēng)陣列。系統(tǒng)方面,AIUI對(duì)運(yùn)算能力有一定需求,也就是對(duì)CPU和GPU有一定要求。具體的我們會(huì)給出一套方案來(lái),按照我們給出的參考來(lái)進(jìn)行硬件設(shè)計(jì),以便更好的進(jìn)行降噪拾音。目前看來(lái),AIUI只支持Android系統(tǒng)。就像游戲引擎對(duì)顯卡的邀請(qǐng),AIUI也會(huì)對(duì)硬件有一定要求。
  訊飛自己的產(chǎn)品會(huì)打造一些標(biāo)桿,比如訊飛與京東合作開(kāi)發(fā)的DingDong音箱,我們會(huì)把它做成家庭應(yīng)用場(chǎng)景中的標(biāo)桿。在車(chē)載交互上也會(huì)與合作伙伴共同開(kāi)發(fā)打造標(biāo)桿型的產(chǎn)品。在兒童機(jī)器人、家庭機(jī)器人等領(lǐng)域我們會(huì)挑選一個(gè)戰(zhàn)略合作伙伴。在教育領(lǐng)域我們要做全行業(yè)的教育解決方案。而在某些領(lǐng)域我們只作為一個(gè)技術(shù)方案提供方,我們會(huì)把我們的技術(shù)向合作方的合作領(lǐng)域提供。
  網(wǎng)易科技:訊飛會(huì)專(zhuān)注于某些領(lǐng)域?說(shuō)到與合作伙伴的合作,AIUI如何與他們合作改善交互體驗(yàn)?
  馬漢君:訊飛會(huì)在很多的服務(wù)領(lǐng)域去拓展,在不同的領(lǐng)域有不同的定位。在家庭領(lǐng)域,訊飛與京東合作打造了DingDong音箱,這是一個(gè)標(biāo)桿型的產(chǎn)品。在教育領(lǐng)域,訊飛會(huì)做深度的教育解決方案。在車(chē)載交互、機(jī)器人、其他智能硬件上面,訊飛提供底層的技術(shù),通過(guò)與合作廠商的合作深耕這一領(lǐng)域。我們是與行業(yè)廠商一起合作來(lái)構(gòu)建一個(gè)市場(chǎng)。
  網(wǎng)易科技:說(shuō)到合作,就會(huì)涉及數(shù)據(jù)的共享。那么訊飛是以一個(gè)什么樣的模式來(lái)共享這些數(shù)據(jù)呢?大數(shù)據(jù)時(shí)代,用戶(hù)都特別擔(dān)心數(shù)據(jù)隱私的問(wèn)題,在這方面如何去分配和協(xié)調(diào)?
  馬漢君:關(guān)于合作,訊飛會(huì)關(guān)注一些普適性的數(shù)據(jù)。舉個(gè)例子來(lái)說(shuō),比如音樂(lè)數(shù)據(jù),這個(gè)數(shù)據(jù)不管是在智能家居、機(jī)器人,還是手機(jī)APP上,都有它的價(jià)值。在類(lèi)似這些普適性的數(shù)據(jù)上,訊飛要做深做透。對(duì)于一些特定的行業(yè)才會(huì)使用的數(shù)據(jù),比如說(shuō)運(yùn)營(yíng)商,就需要運(yùn)營(yíng)商服務(wù)的業(yè)務(wù)留存數(shù)據(jù),這方面我們必須選擇與大的運(yùn)營(yíng)商進(jìn)行深度合作,運(yùn)營(yíng)商一定有一些深度的想法,這就需要雙方深度的合作。所以說(shuō),特定的行業(yè)更具特定行業(yè)的訴求來(lái)具體探討。
  對(duì)于用戶(hù)的數(shù)據(jù)來(lái)說(shuō),訊飛是與合作伙伴共享的。即使有一些用戶(hù)數(shù)據(jù)會(huì)留存在訊飛的平臺(tái)上,也不會(huì)提供給第三方,而是會(huì)與合作伙伴共同決定是否進(jìn)行深度開(kāi)發(fā)。在此前提下,訊飛對(duì)于用戶(hù)的數(shù)據(jù)只會(huì)用來(lái)做語(yǔ)音的優(yōu)化。比如說(shuō)訊飛與音樂(lè)平臺(tái)合作語(yǔ)音搜歌,那么用戶(hù)對(duì)于音樂(lè)的喜好這些數(shù)據(jù)要不要進(jìn)一步往電商去探索,需要兩方共同決定。
  關(guān)于智能語(yǔ)音行業(yè)
  網(wǎng)易科技:在語(yǔ)音識(shí)別上,訊飛是不是已經(jīng)足夠完善,還有沒(méi)有可以改進(jìn)的空間?
  馬漢君:從語(yǔ)音識(shí)別上看,在發(fā)音相對(duì)標(biāo)準(zhǔn)的情況下,識(shí)別的精準(zhǔn)度已經(jīng)很不錯(cuò)了。但是從實(shí)際交互的層面說(shuō),智能語(yǔ)音識(shí)別需要結(jié)合你的實(shí)際情況,甚至要結(jié)合上下文的語(yǔ)境,這個(gè)識(shí)別才能進(jìn)一步的去提升。所以語(yǔ)音識(shí)別與語(yǔ)義理解是分不開(kāi)的,還有與用戶(hù)個(gè)性化數(shù)據(jù)的結(jié)合等方面。
  網(wǎng)易科技:雖然訊飛已經(jīng)是國(guó)內(nèi)智能語(yǔ)音領(lǐng)域公認(rèn)的老大,但面對(duì)這么多興起的語(yǔ)義分析廠商,如何面對(duì)未來(lái)的行業(yè)競(jìng)爭(zhēng)?
  馬漢君:競(jìng)爭(zhēng)肯定是存在的。今年,做語(yǔ)音識(shí)別的公司沒(méi)有增加,但是做語(yǔ)義分析的公司增加了很多。這里有兩個(gè)原因,語(yǔ)音識(shí)別上還是涉及到一些深度領(lǐng)域的知識(shí),技術(shù)門(mén)檻比較高,需要技術(shù)沉淀。另外一個(gè)很重要的原因就是深度學(xué)習(xí)之后,將語(yǔ)義分析的門(mén)檻降低了很多,通過(guò)數(shù)據(jù)、模型、訓(xùn)練三個(gè)步驟,很快能得到一個(gè)不錯(cuò)的細(xì)分領(lǐng)域語(yǔ)義分析解決方案。但是語(yǔ)義這個(gè)東西往深做的時(shí)候,對(duì)你原有的技術(shù)沉淀積累要求很高,而且這個(gè)事情本來(lái)就是一個(gè)長(zhǎng)跑的競(jìng)爭(zhēng)。我們可以把語(yǔ)義分析這個(gè)事情形容是一個(gè)球隊(duì),當(dāng)門(mén)檻降低了以后,很多業(yè)余的比賽是看不出差異性的,只有到了高度協(xié)同和對(duì)抗的時(shí)候才會(huì)顯出更好的專(zhuān)業(yè)性。目前的很多語(yǔ)義公司,他們可能會(huì)專(zhuān)注某一個(gè)領(lǐng)域去做,但是真正到了成熟的時(shí)候,還是要依靠整體的專(zhuān)業(yè)性解決問(wèn)題。
  網(wǎng)易科技:那自然語(yǔ)言理解是不是從細(xì)分領(lǐng)域入手會(huì)更快的成熟?
  馬漢君:是的。所以訊飛和其他的NLP自然語(yǔ)言理解的公司并不是競(jìng)爭(zhēng)的關(guān)系。大家都會(huì)選一個(gè)具體的領(lǐng)域,在這個(gè)領(lǐng)域中看看誰(shuí)能最先做透。當(dāng)大家做的領(lǐng)域足夠多,這個(gè)領(lǐng)域才會(huì)慢慢起來(lái)。
  訊飛在切蛋糕的時(shí)候,還是聚焦在服務(wù)的需求上。我們可以把智能語(yǔ)音分為兩類(lèi),一類(lèi)是閑聊,另一類(lèi)是服務(wù)。服務(wù)的需求就是車(chē)載導(dǎo)航、打電話、聽(tīng)音樂(lè)、導(dǎo)購(gòu)咨詢(xún)、簡(jiǎn)單信息互動(dòng)。
  目前的語(yǔ)義理解,還是以單句的形式,但是語(yǔ)義理解有時(shí)候必須知道你的上下文信息。所以,這方面大家在用深度學(xué)習(xí)來(lái)做一些突破。所以我認(rèn)為,對(duì)于NLP來(lái)說(shuō),大家目前是剛剛找到突破口,還需要快速成長(zhǎng),預(yù)計(jì)在兩三年以后NLP這方面會(huì)有一個(gè)明顯的質(zhì)變。
  網(wǎng)易科技:您之前在網(wǎng)易未來(lái)科技峰會(huì)上說(shuō)“機(jī)器人這個(gè)領(lǐng)域目前是屬于前期擴(kuò)張、快速沉淀的模式”您能否詳細(xì)解釋下這種商業(yè)模式?未來(lái)機(jī)器人的發(fā)展方向是什么?
  馬漢君:做機(jī)器人這個(gè)方向是比較明確。舉個(gè)例子來(lái)說(shuō),大家目前不清楚自己是要做商用服務(wù)還是家庭服務(wù),這是兩個(gè)比較大的不同選擇。如果我面向的是兒童教育,但是在兒童教育領(lǐng)域,到底哪一個(gè)方向會(huì)產(chǎn)生比較清晰的路線,是兒童,還是情感,還是老年陪護(hù),這些有很多公司探索,但是我們并不明白到底哪一塊是最有前景的路。
  那就需要去做前期的擴(kuò)張,然后對(duì)用戶(hù)數(shù)據(jù)進(jìn)行快速沉淀分析,然后再?zèng)Q定朝哪個(gè)方向發(fā)展。在沉淀的過(guò)程中,訊飛對(duì)合作廠商來(lái)說(shuō)可能更多的是一種助力的角色。更多的是要機(jī)器人廠商去做,找到用戶(hù)的剛需等等。但是,在這個(gè)過(guò)程中,需要依賴(lài)交互的完善以及用戶(hù)需求的挖掘。
  關(guān)于語(yǔ)音在兒童市場(chǎng)、車(chē)載市場(chǎng)的應(yīng)用
  網(wǎng)易科技:對(duì)于目前討論比較熱的兒童市場(chǎng)、車(chē)載市場(chǎng),您怎么看?
  馬漢君:先看兒童市場(chǎng)。兒童市場(chǎng)上玩具的量是很大的,這其中包括可以語(yǔ)音講故事的玩具。所以說(shuō),今年兒童市場(chǎng)的趨勢(shì)可能是玩具更加高端化,產(chǎn)品上是玩具機(jī)器人這樣一個(gè)形態(tài),如果找到一個(gè)合理價(jià)格的結(jié)合點(diǎn),這個(gè)市場(chǎng)很快會(huì)出現(xiàn)爆發(fā)。所以說(shuō)兒童這個(gè)市場(chǎng)還是有很大的空間的,一個(gè)就是娛樂(lè)互動(dòng),一個(gè)是早期教育。從中國(guó)的家庭環(huán)境上來(lái)說(shuō),這個(gè)意愿或者是說(shuō)用戶(hù)需求還是蠻大的。但與此同時(shí),這里邊還有很多的問(wèn)題,一個(gè)就是內(nèi)容,你的機(jī)器人是否能形成體系化的內(nèi)容,是否能吸引兒童的興趣。另外一個(gè)方面在交互上,兒童的挑戰(zhàn)很大,因?yàn)閮和恼Z(yǔ)言表達(dá)不像成人那么清晰。這兩個(gè)方面需要進(jìn)一步的突破。
  在車(chē)載市場(chǎng),訊飛也比較重視。目前我們已經(jīng)把訊飛的方案繼承在合作伙伴奇瑞的車(chē)上,今年四月份已經(jīng)上市。其實(shí),在車(chē)載領(lǐng)域有一個(gè)很大的挑戰(zhàn),就是從語(yǔ)音廠商到車(chē)載系統(tǒng)廠商,再到汽車(chē)廠商,這個(gè)融合會(huì)很難。訊飛的解決方案是在語(yǔ)音解決方案的基礎(chǔ)上,提供車(chē)機(jī)、車(chē)載系統(tǒng)的一整套解決方案和汽車(chē)廠商合作,這樣我們能把鏈條收到最短。同時(shí),我們也可以按照車(chē)場(chǎng)的需求來(lái)調(diào)整這個(gè)方案。
  網(wǎng)易科技:那么訊飛在自動(dòng)駕駛上有沒(méi)有涉足呢?
  馬漢君:還沒(méi)有嘗試自動(dòng)駕駛,因?yàn)槟壳白詣?dòng)駕駛還處于一個(gè)概念性的階段。我們還是提供比較實(shí)用的交互解決方案,比如語(yǔ)音導(dǎo)航,通過(guò)全程語(yǔ)音來(lái)查詢(xún)目的地,可以保證駕駛安全。在此之外,我們會(huì)嘗試一些輔助駕駛的解決方案,而不是直接去研究自動(dòng)駕駛的語(yǔ)音解決方案。
  AIUI就是要樹(shù)立行業(yè)標(biāo)桿性的產(chǎn)品,一個(gè)是音樂(lè)方面做了DingDong音箱,在車(chē)載上也會(huì)與合作廠商共同打造標(biāo)桿,與其進(jìn)行深度合作。
  關(guān)于今年的行業(yè)趨勢(shì)
  網(wǎng)易科技:預(yù)測(cè)一下今年智能語(yǔ)音的發(fā)展?
  馬漢君:我認(rèn)為技術(shù)方面最大的發(fā)展就是突破了單點(diǎn)的能力,從聲學(xué)的遠(yuǎn)場(chǎng)識(shí)別,到語(yǔ)義分析和語(yǔ)義理解都有了很大的進(jìn)步。今年會(huì)呈現(xiàn)一種整體的交互方案。我們提出的問(wèn)題不會(huì)局限于某一個(gè)識(shí)別的問(wèn)題,我們會(huì)突出的解決交互的問(wèn)題。比如,“我想聽(tīng),劉德華的歌”,我在說(shuō)的時(shí)候中間有停頓,如果按照語(yǔ)音識(shí)別的結(jié)果,那可能識(shí)別成兩句話,一句是“我想聽(tīng)”,一句是“劉德華的歌”,但是要把語(yǔ)音識(shí)別和語(yǔ)義理解結(jié)合在一起的時(shí)候,這兩句話就是一個(gè)含義,而不應(yīng)該拆成兩句話來(lái)處理。如果再說(shuō)“我想聽(tīng)他最新的歌”,那么這個(gè)“他”如果能從上下文理解的話,也能識(shí)別出來(lái)。還有就是在復(fù)雜環(huán)境中,機(jī)器人應(yīng)該聽(tīng)哪些聲音,哪些聲音應(yīng)該處理?這些都屬于交互場(chǎng)景的問(wèn)題,這些需要用整體的方案去解決。這就是我認(rèn)為的今年技術(shù)上最大的發(fā)展。
  從行業(yè)上面來(lái)說(shuō),并不是大家想象的那么樂(lè)觀。今年確實(shí)因?yàn)檎Z(yǔ)義交互對(duì)整個(gè)行業(yè)有一個(gè)明顯的提升。所以會(huì)有更多的公司在語(yǔ)義上面去嘗試,是否能深度融合進(jìn)去。但是到底哪一個(gè)領(lǐng)域能夠開(kāi)花和落地?今年并不能完全展現(xiàn)出來(lái)。這個(gè)也需要一到兩年之后,才能看出用戶(hù)的趨勢(shì),那個(gè)時(shí)候才能進(jìn)入一個(gè)比較大的量產(chǎn)階段。
 
分享到: 收藏

專(zhuān)題