您當(dāng)前的位置是:  首頁(yè) > 資訊 > 文章精選 >
 首頁(yè) > 資訊 > 文章精選 >

語(yǔ)音引擎的現(xiàn)狀

2020-03-17 09:46:55   作者:   來(lái)源:CTI論壇   評(píng)論:0  點(diǎn)擊:


  CTI論壇(ctiforum.com)(編譯/老秦):在2019年,語(yǔ)音引擎變得更加復(fù)雜,現(xiàn)在能夠支持其他語(yǔ)言和方言,但也還有更多工作要做。這些解決方案,包括語(yǔ)音到文本,文本到語(yǔ)音,語(yǔ)音識(shí)別,語(yǔ)音命令和控制,語(yǔ)音搜索,轉(zhuǎn)錄,翻譯以及相關(guān)活動(dòng)的技術(shù),現(xiàn)在在識(shí)別單詞方面做得更好,但具有諷刺意味的是,這種能力并不是用戶最終想要的。相反,他們需要可以像人一樣對(duì)它們做出反應(yīng)的系統(tǒng)。但是,對(duì)于供應(yīng)商而言,實(shí)現(xiàn)該目標(biāo)仍然遙遙無(wú)期。
 
  年度回顧
  在2019年添加的新語(yǔ)言和方言中,亞馬遜的Alexa現(xiàn)在支持印地語(yǔ)語(yǔ)音交互。此外,該供應(yīng)商還增強(qiáng)了系統(tǒng)以了解當(dāng)?shù)亓餍姓Z(yǔ)言的變體,例如美國(guó)西班牙語(yǔ)和巴西葡萄牙語(yǔ),從而使更多的消費(fèi)者可以查看天氣,控制智能家居設(shè)備以及使用亞馬遜品牌的設(shè)備聽(tīng)音樂(lè)。Bose,LG電子和索尼等第三方訪問(wèn)Alexa語(yǔ)音服務(wù)應(yīng)用程序編程接口(API)來(lái)開(kāi)發(fā)Alexa Skills。
  LumenVox還擴(kuò)展了其系統(tǒng)的支持范圍,以支持本地方言,例如美國(guó),英國(guó)澳大利亞人,新西蘭英語(yǔ)和北美西班牙語(yǔ)。
  而且由于許多個(gè)人和家庭說(shuō)多種語(yǔ)言,因此Amazon Web Services進(jìn)一步引入了多語(yǔ)言模式,該模式允許Alexa在兩種語(yǔ)言之間切換。該系統(tǒng)通過(guò)識(shí)別用戶說(shuō)出的語(yǔ)音并以相同的語(yǔ)言進(jìn)行響應(yīng)來(lái)自動(dòng)進(jìn)行調(diào)整。此功能分為三對(duì)可用:美國(guó)的英語(yǔ)和西班牙語(yǔ),印度的印度英語(yǔ)和北印度語(yǔ)以及加拿大的英語(yǔ)和法語(yǔ)。
  LumenVox客戶服務(wù)副總裁Jeff Hopper表示,與此類(lèi)似,LumenVox還添加了一個(gè)新的轉(zhuǎn)錄引擎,專(zhuān)門(mén)針對(duì)無(wú)音頻格式。他解釋說(shuō):“它可以實(shí)時(shí)工作,因此[交互式語(yǔ)音響應(yīng)(IVR)]應(yīng)用程序不僅可以接收結(jié)構(gòu)化數(shù)據(jù)或自然語(yǔ)言輸入,還可以處理原始文本。”
  但是,對(duì)于整個(gè)語(yǔ)音行業(yè)來(lái)說(shuō),更有意義的是人工智能(AI)和深度神經(jīng)網(wǎng)絡(luò)正在開(kāi)展的工作。人工智能工作已迅速進(jìn)入主流語(yǔ)音技術(shù),允許更多自然語(yǔ)言,對(duì)話交互,并且隨著引擎處理越來(lái)越多的語(yǔ)音,機(jī)器學(xué)習(xí)使系統(tǒng)的準(zhǔn)確性和性能得以提高。
  今年,第四代深度神經(jīng)網(wǎng)絡(luò)(DNN)的出現(xiàn)也顯示了語(yǔ)音引擎的進(jìn)步。它們?cè)谳斎牒洼敵鲋g具有多層,因此可以使用線性或非線性關(guān)系得出結(jié)論。
  Nuance Communications是該領(lǐng)域的領(lǐng)導(dǎo)者,該公司在7月推出了Nuance Lightning Engine,這是一種DNN,結(jié)合了語(yǔ)音生物識(shí)別技術(shù)和自然語(yǔ)言理解,可以跨語(yǔ)音渠道提供個(gè)性化,人性化的體驗(yàn)。
  展望未來(lái)
  盡管語(yǔ)音引擎已在許多方面得到了改進(jìn),但基礎(chǔ)技術(shù)仍存在很多缺點(diǎn)。根據(jù)Booz,Allen&Hamilton的前專(zhuān)業(yè)人士StephenArnold的說(shuō)法,當(dāng)今的系統(tǒng)在識(shí)別單個(gè)單詞方面明顯要好得多,但需要的是能夠在上下文中理解單詞的解決方案。
  由于此限制,當(dāng)將語(yǔ)音系統(tǒng)部署為企業(yè)和消費(fèi)者使用時(shí),它們有時(shí)無(wú)法正常運(yùn)行。用戶專(zhuān)注于最終結(jié)果,例如從語(yǔ)音搜索中獲取結(jié)果,但是系統(tǒng)通常無(wú)法提供所需的理解水平。因此,根據(jù)普華永道最近的一項(xiàng)調(diào)查,有71%的美國(guó)人更愿意與人互動(dòng),而不是聊天機(jī)器人或其他自動(dòng)化過(guò)程。
  供應(yīng)商正在完善他們的系統(tǒng)以彌合這一差距。Google開(kāi)發(fā)了BERT(來(lái)自“變形金剛”的雙向編碼器表示),這是一種語(yǔ)音識(shí)別解決方案,旨在連接單詞和更好地理解句子上下文。例如,如果某人正在尋找有關(guān)在另一個(gè)國(guó)家旅行的信息,則BERT會(huì)認(rèn)識(shí)到“去(to)”一詞比“來(lái)自(from)”更重要。
  類(lèi)似地,Translate Your World一直在構(gòu)建語(yǔ)音解決方案,以識(shí)別對(duì)話中的語(yǔ)氣,并且供應(yīng)商發(fā)現(xiàn),各個(gè)人的語(yǔ)氣會(huì)因情況而異。“最終目標(biāo)是指導(dǎo)AI翻譯,以便它們?cè)趯?duì)話的背景下為與個(gè)人打交道提供正確的模式,”該公司總裁SueReager解釋說(shuō)。例如,“shingles”一詞通常是指房屋屋頂上的物品,但在醫(yī)療保健領(lǐng)域,它代表病毒感染。
  同樣,交流因群體而異。“我們發(fā)現(xiàn),消費(fèi)者通常不會(huì)像企業(yè)高管那樣講的很清楚。”Reager補(bǔ)充說(shuō):“消費(fèi)者的發(fā)音有時(shí)不清楚,他們通常不使用完整的句子。他們的思想缺乏組織,因此有時(shí)很難找到固定的模式。”
  培訓(xùn)語(yǔ)音引擎以識(shí)別和適當(dāng)?shù)貞?yīng)對(duì)此類(lèi)差異是她的公司以及其他多個(gè)行業(yè)細(xì)分領(lǐng)域?qū)⒃?020年解決的問(wèn)題。
  誰(shuí)來(lái)承擔(dān)當(dāng)前的語(yǔ)音挑戰(zhàn)一直在變化。“試圖翻譯語(yǔ)音變得越來(lái)越困難,而且非常昂貴,”Arnold堅(jiān)持認(rèn)為。“在過(guò)去的日子里,麻省理工學(xué)院機(jī)器學(xué)習(xí)實(shí)驗(yàn)室的一些人能夠建立一個(gè)商業(yè)系統(tǒng)。但是不做了。”
  如今,語(yǔ)音引擎的研究需要大量資金,高技能的數(shù)據(jù)科學(xué)家和龐大的數(shù)據(jù)中心,而這些數(shù)據(jù)中心將擁有巨大的計(jì)算處理能力。因此,谷歌,亞馬遜網(wǎng)絡(luò)服務(wù),微軟和IBM等國(guó)內(nèi)行業(yè)巨頭正在承擔(dān)許多工作。
  在國(guó)際上,中國(guó)公司,例如百度,也在挑戰(zhàn)這些問(wèn)題。根據(jù)Arnold的說(shuō)法,中國(guó)供應(yīng)商之所以處于有利地位,是因?yàn)樗鼈儾皇軅鹘y(tǒng)技術(shù)的束縛,可以采用新的方法來(lái)解決這些長(zhǎng)期存在的問(wèn)題。
  供應(yīng)商在擴(kuò)展其產(chǎn)品功能方面也取得了進(jìn)展,因此他們支持更多類(lèi)型的語(yǔ)音,但是仍需要努力以幫助該技術(shù)將單個(gè)單詞置于上下文中,以便系統(tǒng)可以適當(dāng)?shù)仨憫?yīng)。隨著市場(chǎng)的變化,開(kāi)發(fā)負(fù)擔(dān)急劇增加。展望未來(lái),似乎只有財(cái)大氣粗的行業(yè)巨頭才能擁有推動(dòng)語(yǔ)音解決方案前進(jìn)所需的資源,從而變得更加人性化。
  聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
  作者:Paul Korzeniowski
  原文網(wǎng)址:https://www.speechtechmag.com/Articles/Editorial/Features/The-State-of-Speech-Engines-139107.aspx
 
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專(zhuān)題

CTI論壇會(huì)員企業(yè)