您當(dāng)前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

2021年語音技術(shù)產(chǎn)業(yè)狀況——語音引擎的現(xiàn)狀

2021-02-24 09:50:03   作者:   來源:CTI論壇   評(píng)論:0  點(diǎn)擊:


  CTI論壇(ctiforum.com)(編譯/老秦):語音引擎在過去幾年中經(jīng)歷的轉(zhuǎn)變簡(jiǎn)直是驚人的,這在很大程度上歸功于人工智能等重要領(lǐng)域的進(jìn)步以及準(zhǔn)確性、性能和規(guī)模的提高。
 
  盡管全球新冠疫情給該行業(yè)帶來了重大挑戰(zhàn),但創(chuàng)新和進(jìn)步在2020年仍在繼續(xù),F(xiàn)在,語音引擎和驅(qū)動(dòng)它們的技術(shù)似乎準(zhǔn)備利用日益偏好和依賴語音而不斷發(fā)展的商業(yè)和消費(fèi)者環(huán)境。
  ETS的語音和自然語言處理副研究員AbhinavMisra說,自從深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)問世以來,語音識(shí)別引擎的性能有了顯著提高,更多的組織和消費(fèi)者從中受益。
  “隨著越來越多的人越來越多地使用語音助手,企業(yè)正在收集更多的數(shù)據(jù),為這些人工智能算法提供素材,并進(jìn)一步提高語音引擎的性能,”他說。
  Appen人工智能專家高級(jí)主管Judith Bishop對(duì)此表示同意。
  “自動(dòng)語音識(shí)別引擎已經(jīng)變得更加強(qiáng)大和通用。主要的引擎現(xiàn)在能夠識(shí)別更廣泛的不同年齡段的聲音,包括兒童的聲音,這與成人的聲音有很大的不同,”她說。
  Bishop補(bǔ)充說,COVID-19有助于推動(dòng)最近的創(chuàng)新。“這場(chǎng)大流行把重點(diǎn)放在噪音環(huán)境下的語音識(shí)別上,過去一年,處理背景噪音的噪音抑制算法成為一個(gè)重要的焦點(diǎn)。結(jié)果,語音不再需要被如此大聲和清晰地引導(dǎo)到近距離的設(shè)備上,并且語音現(xiàn)在可以被檢測(cè)和理解,即使在某些情況下,說話人正在間接地對(duì)設(shè)備尋址,例如在準(zhǔn)備飯的時(shí)候。這些進(jìn)步進(jìn)一步凸顯了語音引擎如何更接近人類交流的自然條件。”
  隨著亞馬遜(Amazon)、谷歌(Google)和IBM(IBM)等供應(yīng)商現(xiàn)在從云上提供語音服務(wù),語音引擎也從詞匯有限的固定語法模型發(fā)展到更靈活、更開放的系統(tǒng)。
  “如今的云語音服務(wù)比傳統(tǒng)的固定語法模式更實(shí)惠。在聯(lián)絡(luò)中心環(huán)境中,高級(jí)語音識(shí)別的采用也在穩(wěn)步增加;更多的客戶可以使用自然語言與虛擬聯(lián)絡(luò)中心座席交談,從而改善了體驗(yàn),”最近被Five9收購的InferenceSolutions公司產(chǎn)品副總裁Santosh Kulkarni說。
  Nuance Communications是這一領(lǐng)域的領(lǐng)導(dǎo)者之一,它可以證明進(jìn)步的步伐是如何加快的,尤其是在醫(yī)療領(lǐng)域。
  “深度學(xué)習(xí)技術(shù)迅速改變了計(jì)算機(jī)進(jìn)行語音識(shí)別的方式。”Nuance的首席研究科學(xué)家FelixWeninger說:“它使我們能夠?yàn)榉浅>哂刑魬?zhàn)性的應(yīng)用構(gòu)建語音識(shí)別器,例如轉(zhuǎn)錄醫(yī)生和患者之間的對(duì)話。”
  許多企業(yè)也在利用尖端的語音技術(shù)增強(qiáng)客戶對(duì)話的能力。
  “我們正在看到一種轉(zhuǎn)變,即從脆弱的、基于命令的交互式語音應(yīng)答系統(tǒng),轉(zhuǎn)向完全可以使用軟件處理多步驟客戶查詢的自然交互式虛擬座席。”Gridspace首席執(zhí)行官Evan Macmillan表示:“我們也看到了閉環(huán)語音系統(tǒng),它可以從過去的對(duì)話中學(xué)習(xí),讓座席們更有幫助,更有效率。這些語音系統(tǒng)處理的實(shí)時(shí)語音音頻量也在不斷增加,這使人們意識(shí)到有可能出現(xiàn)更為復(fù)雜的語音接口和傳輸模式。”
  年度回顧
  2020年,一些關(guān)鍵的發(fā)展對(duì)語音引擎和相關(guān)技術(shù)產(chǎn)生了影響。
  “在2020年,我們看到基于云的語音引擎解決方案越來越被接受。依賴于內(nèi)部部署模型的組織被迫重新考慮其方法和投資,”VerintSystems負(fù)責(zé)語音和文本分析的副總裁DanielZiv說。“利用云中的語音分析可以讓組織快速啟動(dòng)和運(yùn)行,同時(shí)提供一個(gè)彈性和安全的使用模型,同時(shí)提供一個(gè)有吸引力的訂閱財(cái)務(wù)模型。”
  在過去的一年里,為了響應(yīng)COVID-19和非接觸式服務(wù)的需求,語音引擎也得到了加速采用。
  “2020年帶來了一個(gè)新的緊迫性,以提高語音輔助快速服務(wù)餐廳駕車通過效率,”Bishop說。
  端到端語音識(shí)別引擎的出現(xiàn),得益于谷歌、Facebook、微軟和其他公司更積極的研究,也吸引了大量的注意力。
  Misra指出:“使用單一的深層神經(jīng)網(wǎng)絡(luò)將音頻信號(hào)直接轉(zhuǎn)換成字母非常誘人,因?yàn)樗嗽S多復(fù)雜性。”
  到2020年,更多的企業(yè)利用會(huì)話人工智能,推出了智能虛擬座席(IVA)。
  Kulkarni說:“如今,利用最新的無代碼IVA開發(fā)平臺(tái),公司可以在幾分鐘內(nèi)構(gòu)建出與消費(fèi)者智能揚(yáng)聲器相同的自然語言處理技術(shù)支持的IVA,并在幾天或幾周內(nèi)將其部署到客戶聯(lián)絡(luò)中心。”
  在過去的12個(gè)月中,由于冠狀病毒的影響,人工智能支持的語音助理和會(huì)話系統(tǒng)的革命呈指數(shù)級(jí)增長(zhǎng),品牌化的文本到語音變得更加流行。
  Read Speaker的首席技術(shù)官Niclas Bergstrom說:“為了幫助自己從競(jìng)爭(zhēng)中脫穎而出,各品牌也開始嘗試不同的文語轉(zhuǎn)換說話風(fēng)格,包括用情感化的聲音取代如今語音助理中常見的機(jī)器人聲音。”
  技術(shù)提供商改進(jìn)了他們的軟件開發(fā)工具包(SDKs)中代碼集成的易用性。例如,Amazon在其AlexaSDK中引入了雙語言模式和更多翻譯模式。
  人們對(duì)聲音克隆的興趣也在增加。Bergstrom解釋說:“語音克隆允許開發(fā)人員提取目標(biāo)語音的特定特征,例如音調(diào),并將其應(yīng)用于不同語音的波形。”
  展望未來
  對(duì)許多語音引擎專家來說,未來是光明的,盡管還有一些挑戰(zhàn)需要克服。
  “許多功能將被廣泛應(yīng)用,以幫助組織更好地支持'在家辦公'模式,同時(shí)繼續(xù)提供積極的客戶體驗(yàn)。”Ziv預(yù)測(cè):“這些功能包括利用語音分析見解優(yōu)化自助服務(wù)渠道的有效性,以較低的成本提供卓越的服務(wù)。”
  例如,分析可以幫助確定客戶打電話的原因以及持續(xù)改進(jìn)客戶參與的方法。Elektrobit的高級(jí)專家VolkerSpringer預(yù)計(jì),未來將有更好的對(duì)話背景跟蹤。
  “系統(tǒng)將更好地理解句子的語義,并更準(zhǔn)確地將其與用戶的環(huán)境相匹配,這將最大限度地減少聽者的疲勞。系統(tǒng)將允許更復(fù)雜的句子和意圖,”他說。
  Macmillan堅(jiān)持認(rèn)為,未來一年,會(huì)話座席將協(xié)助、增強(qiáng)和自動(dòng)化更多的語音交互。
  他說:“對(duì)于一些大型醫(yī)療保健和金融服務(wù)公司,我們可以很容易地將由會(huì)話語音技術(shù)處理的語音查詢比例從2%提升到50%。”
  Deepgram聯(lián)合創(chuàng)始人兼首席執(zhí)行官Scott Stephenson預(yù)計(jì),今年將有更多的資金用于為座席和客戶提供語音體驗(yàn)。
  Stephenson補(bǔ)充說:“與此同時(shí),軟件供應(yīng)商將積極資助與語音相關(guān)的產(chǎn)品開發(fā),以突破噪音,努力成為客戶體驗(yàn)技術(shù)領(lǐng)域的下一個(gè)大玩家。”
  Bergstrom認(rèn)為,能夠更好地衡量用戶所說的內(nèi)容和說話方式的Paralinguistic語音接口也將得到改進(jìn)。
  “這對(duì)于我們將在未來幾年開始看到的另一項(xiàng)創(chuàng)新非常重要,這項(xiàng)創(chuàng)新將更加注重情感文本到語音的轉(zhuǎn)換。”他說:“語音質(zhì)量已經(jīng)存在,但語音提供商需要優(yōu)先考慮情感語音服務(wù),這樣才能提供更好的客戶體驗(yàn)。”
  聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
  作者:Erik J.Martin
  原文網(wǎng)址:
  https://www.speechtechmag.com/Articles/ReadArticle.aspx?ArticleID=145090
 
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專題

CTI論壇會(huì)員企業(yè)