首頁 > 新聞 > 專家觀點 >

2016語音技術(shù)產(chǎn)業(yè)一覽之語音引擎

2016-05-31 10:53:09   作者:   來源:CTI論壇   評論:0  點擊:


  CTI論壇(ctiforum.com)(編譯/老秦): 去年,我們報告了語音作為一種消費現(xiàn)象終于做回了它自己。自從2011年大多數(shù)行業(yè)引入了蘋果的智能助手Siri以來,這個行業(yè)被一致認(rèn)為將出現(xiàn),分析人士認(rèn)為,衡量經(jīng)濟(jì)增長的指標(biāo)可能會發(fā)生變化。寄希望于明年引入語音引擎到移動設(shè)備上的重大影響,語音引擎的復(fù)合年增長率(CAGR)達(dá)到了22.07%。
\
  “只有少數(shù)公司收取許可費用,”Opus Research創(chuàng)始人兼首席分析師Dan Miller說。“這曾經(jīng)是IVR模式。只有少數(shù)公司仍然這樣做。相比之下,蘋果的語音識別通過出售更多的手機(jī)增加了收入。谷歌則通過非常準(zhǔn)確的語音識別應(yīng)用這樣一種方式增強(qiáng)了他們的廣告收入。”
  另一方面,全球行業(yè)分析師最近預(yù)測,面容和語音生物識別市場到2020年將達(dá)到47億美元,這是由于在國防、跨國銀行和醫(yī)療行業(yè)日益增長的需求而導(dǎo)致的。這些預(yù)測包括專注于語音技術(shù)多年的行業(yè)領(lǐng)導(dǎo)者,像Sensory公司和Nuance。
  隨著主要的消費品牌開始進(jìn)入市場,2016年的建議是,雖然語音識別技術(shù)的增長越來越強(qiáng)勁,但是這種增長獨立于其它的產(chǎn)品或服務(wù),這可能導(dǎo)致由于以前并沒有進(jìn)入這一市場的大公司的進(jìn)入而放緩,例如微軟、谷歌、和亞馬遜等。
  消費者語音
  “因為亞馬遜的Echo這款產(chǎn)品,讓我看到了這項技術(shù)在家庭環(huán)境中的滲透,”Conversational Technologies總裁黛博拉·達(dá)爾(Deborah Dahl)說,他指出語音在消費者層面是用戶接口界面(UI)的理想候選人:“語音設(shè)備正變得更聰明。”
  盡管亞馬遜拒絕透露Echo的具體銷售數(shù)字,而嵌入它的語音技術(shù)的無線揚(yáng)聲器是亞馬遜最暢銷的產(chǎn)品,在Black Friday上售價超過100美元。
  Echo揚(yáng)聲器議與亞馬遜專有的IVR助理Alexa一樣,它們允許客戶參與與亞馬遜相關(guān)的活動,范圍從可以在亞馬遜Prime上聽音樂到可以在客戶愿望列表中下單。此外,它可以控制各種設(shè)備,包括WeMo、飛利浦Hue、SmartThings、Insteon和Wink等,并提供開發(fā)人員可以使用的應(yīng)用程序編程接口(API)。
  Alexa可能是亞馬遜2013年收購Ivona技術(shù)后的產(chǎn)品,這種收購和實現(xiàn)模式恰恰反映了當(dāng)前語音市場的復(fù)雜性。
  達(dá)爾(Dahl)和米勒(Miller)都預(yù)測未來消費者語音市場發(fā)展的中心在解決互操作性的問題上。
  “看看那些針對物聯(lián)網(wǎng)而開發(fā)出來的產(chǎn)品是有趣的,”達(dá)爾(Dahl)說。“Echo正在被集成到設(shè)備上用于控制功能,我相信Jibo(由麻省理工學(xué)院私人機(jī)器人研究小組主任辛西婭。布雷西亞牽頭的采用眾籌方式的智能輔助機(jī)器人)也將是一樣。但是這些生態(tài)系統(tǒng)如何與另一個兼容?例如,蘋果公司有一個家庭環(huán)境的生態(tài)系統(tǒng)。消費者會得到嗎?他們將集成Echo嗎?”
  米勒(Miller)聲稱,由于專利封鎖將會有斷點。“一些將關(guān)閉,”他說。“蘋果是非常封閉的。但是你會看到共享。例如,Siri需要跟其他機(jī)器人交談以便預(yù)定晚餐,或?qū)ふ疑唐泛头⻊?wù)。這應(yīng)該是發(fā)展的方向。”
  語音API
  語音識別現(xiàn)在逐步與自然語言理解相輔相成,2016年這兩方面的發(fā)展將會遇到大數(shù)據(jù)問題。
  “語音識別的準(zhǔn)確率僅在過去的16個月開始比以往任何時候都要好,”米勒(Miller)說。
  “在硅谷巨頭們之間將會朝著共享努力的方向前進(jìn),”他繼續(xù)說道,并與達(dá)爾(Dahl)一起舉了Facebook對Wit。ai的收購的例子,Wit。ai是一款允許開發(fā)人員構(gòu)建語音接口的API。Facebook與VirtuOz相比一直保持著API的開放,VirtuOz是語音控制虛擬助理的先行者,由來自于Wit。ai的Alexandre Lebrun所創(chuàng)立,并于2013年賣給了Nuance。
  達(dá)爾(Dahl)還提到微軟LUIS(語言理解智能服務(wù)),IBM Watson認(rèn)知計算套件和Api。ai,作為軟件開發(fā)人員工具包,作為獨立程序員將語音識別技術(shù)添加到他們的應(yīng)用程序當(dāng)中。
  她指出,離線語音識別是一個新興領(lǐng)域。“在這個領(lǐng)域中Sensory是真正的領(lǐng)袖,”她說。“他們驅(qū)動市場進(jìn)入大詞匯應(yīng)用。”Sensory和較小的德國公司Linguwerk專注于低內(nèi)存和低能耗的準(zhǔn)確語音識別技術(shù)。
  智能化企業(yè)助理
  在語音消費者市場找到了自身發(fā)展道路的同時,企業(yè)情報系統(tǒng)繼續(xù)發(fā)展。在Gartner今年的研討會上分析師預(yù)測,到2018年,45%增長最快的企業(yè)將減少員工數(shù)量而用智能機(jī)器代替,致力于IVR和自言語言理解技術(shù)的開發(fā)人員為企業(yè)的這一想法鋪平了道路。
  米勒(Miller)稱,約有15%的企業(yè)情報系統(tǒng)2015年已經(jīng)在某種程度上實現(xiàn)了自動語音,2016年這一比例將持續(xù)增長。
  “你會看到像NextIT、Creative Virtual、[24]7和Intelliresponse這樣的供應(yīng)商,出售一些會話資源可以用來當(dāng)客戶或潛在客戶致電呼叫中心的時候回答問題,根據(jù)支持自動客戶助手做IVR曾經(jīng)做的事情,”他說,挑出行業(yè)的領(lǐng)導(dǎo)者Nuance作為領(lǐng)跑者。“Nuance使用NinaWeb和NinaMobile作為微分器。這兩款產(chǎn)品都是自然語言的,支持聊天,主要是語音應(yīng)用。”達(dá)爾(Dahl)表示同意,并認(rèn)為Openstream的EVA可以作為一個候選,在制訂他們的客戶交互策略時增加智能輔助功能。
  米勒(Miller)也提到了Interactions,一家CRM供應(yīng)商,它收購了AT&T Watson,包括全自動語音識別功能,TTS(語音合成)和語音生物識別引擎。
  其他的發(fā)展和預(yù)測
  像Echo和Siri之所以如此之快的變得如此之好的部分原因,是因為計算能力已經(jīng)開始使深度學(xué)習(xí)成為可能,“達(dá)爾(Dahl)說。”在過去的幾年中計算機(jī)科學(xué)家除了能夠在輸入和輸出之間分層之外,他們又重新回到了神經(jīng)網(wǎng)絡(luò)的理念上。這使訓(xùn)練系統(tǒng)變得簡單,而過去必須非常辛苦地合在一起。在語音情況下,人們不得不數(shù)字化訓(xùn)練數(shù)據(jù)的話語。“
  達(dá)爾(Dahl)還指出來自于W3C的狀態(tài)圖XML的出現(xiàn)。”應(yīng)用程序很好地基本上控制了對話。我希望一旦完成,它將能夠提高對話處理。“
  米勒(Miller)認(rèn)為語音生物識別技術(shù)應(yīng)用在專有身份驗證時變的更集成化了。”例如,在蘋果的iPhone 6S上,Siri的叫醒是個性化的。一旦我說“嘿,Siri”三次,我可以用這來叫醒,但我的妻子不能。這就是開始使用類似語音生物測定技術(shù),個性化應(yīng)用。將你的聲音用來驗證你的公民身份,附帶上你所有的權(quán)利和信用,這還有很長的路要走。一旦實現(xiàn),這將創(chuàng)造出一個非常肥沃的電子商務(wù)領(lǐng)域。“
   聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載

相關(guān)閱讀:

分享到: 收藏

專題