您當(dāng)前的位置是:  首頁(yè) > 資訊 > 文章精選 >
 首頁(yè) > 資訊 > 文章精選 >

2021年語(yǔ)音技術(shù)產(chǎn)業(yè)狀況——語(yǔ)音開(kāi)發(fā)平臺(tái)的現(xiàn)狀

2021-02-25 09:25:55   作者:   來(lái)源:CTI論壇   評(píng)論:0  點(diǎn)擊:


  CTI論壇(ctiforum.com)(編譯/老秦):語(yǔ)音應(yīng)用程序開(kāi)發(fā)市場(chǎng)主要由消費(fèi)產(chǎn)品驅(qū)動(dòng)。最近,對(duì)于公司來(lái)說(shuō),構(gòu)建自己的語(yǔ)音解決方案變得越來(lái)越容易,盡管這一領(lǐng)域并不像企業(yè)所希望的那樣完全明確。
 
  到目前為止,供應(yīng)商主要專(zhuān)注于創(chuàng)建消費(fèi)者語(yǔ)音應(yīng)用程序。“Alexa擁有超過(guò)10萬(wàn)種技能,但其中很少有用于嚴(yán)肅業(yè)務(wù)用例的,”會(huì)話(huà)技術(shù)負(fù)責(zé)人、萬(wàn)維網(wǎng)聯(lián)盟多模式交互工作組主席Deborah Dahl解釋道。“很多技能都是學(xué)生項(xiàng)目和各種類(lèi)型的實(shí)驗(yàn)。在構(gòu)建工業(yè)級(jí)應(yīng)用程序方面投入的精力還不夠多。”
  年度回顧
  事實(shí)上,亞馬遜、蘋(píng)果和谷歌等頂級(jí)供應(yīng)商通過(guò)創(chuàng)建消費(fèi)者解決方案來(lái)打造自己的業(yè)務(wù)。2020年,一個(gè)企業(yè)平臺(tái)出現(xiàn)了。通過(guò)Nuance Communications'Mix,公司現(xiàn)在可以構(gòu)建自己的企業(yè)智能助理。
  該解決方案包括許多組件,使組織能夠創(chuàng)建通過(guò)應(yīng)用程序編程接口(APIs)與企業(yè)軟件集成的語(yǔ)音應(yīng)用程序。通過(guò)Mix。nlu,一個(gè)自定義自然語(yǔ)言理解(NLU)系統(tǒng),公司編寫(xiě)從Mix項(xiàng)目?jī)x表板部署的語(yǔ)音模型。Mix的自動(dòng)語(yǔ)音識(shí)別(ASR)功能由Krypton提供支持,Krypton是一個(gè)用于轉(zhuǎn)錄音頻的實(shí)時(shí)語(yǔ)音到文本引擎。Krypton使用域語(yǔ)言模型和詞集來(lái)定制特定環(huán)境的識(shí)別。
  Dahl指出:“Nuance Mix與Alexa Skills Kit在功能上非常相似,它為希望構(gòu)建語(yǔ)音應(yīng)用程序的第三方提供了這些功能。”由于Nuance解決方案剛剛開(kāi)始發(fā)布,它在可用技能的數(shù)量和豐富性方面遠(yuǎn)遠(yuǎn)落后于更大、更成熟的消費(fèi)者平臺(tái)。
  大多數(shù)企業(yè)開(kāi)發(fā)人員都使用過(guò)傳統(tǒng)的文本應(yīng)用程序,需要熟悉語(yǔ)音APIs中提供的功能。Nuance似乎意識(shí)到了這種需要。Dahl說(shuō):“Nuance創(chuàng)造了非常精良和有用的培訓(xùn)材料。一個(gè)視頻引導(dǎo)新手完成開(kāi)發(fā)過(guò)程,最佳實(shí)踐和技巧提供了額外的指導(dǎo)。
  供應(yīng)商還繼續(xù)調(diào)整他們的語(yǔ)音引擎。例如,今年10月,Artificial Solutions更新了Teneo語(yǔ)言,該語(yǔ)言以Teneo NLU本體和語(yǔ)義網(wǎng)絡(luò)為特征,并將語(yǔ)言映射到聲音。
  Teneo現(xiàn)在也應(yīng)用句法條件,比如理解一個(gè)詞在句子中何時(shí)被用作名詞或動(dòng)詞。附加的會(huì)話(huà)模塊提供了預(yù)構(gòu)建的解決方案,具有用于常見(jiàn)對(duì)話(huà)的后端集成,例如實(shí)時(shí)聊天切換或預(yù)訂會(huì)議室。
  即使在用戶(hù)保持沉默的情況下,該產(chǎn)品仍能繼續(xù)進(jìn)行對(duì)話(huà);保持與公司品牌價(jià)值相一致的個(gè)性;即使在用戶(hù)偏離主題的情況下,該產(chǎn)品也能保持動(dòng)力。
  另一家開(kāi)發(fā)平臺(tái)提供商Voiceitt首先通過(guò)與具有非典型語(yǔ)音模式的人合作,建立了自己的語(yǔ)音識(shí)別算法和語(yǔ)音數(shù)據(jù)庫(kù)。去年12月,供應(yīng)商讓殘疾人可以使用Alexa。Voiceitt移動(dòng)應(yīng)用程序應(yīng)用機(jī)器學(xué)習(xí)和語(yǔ)音識(shí)別技術(shù),幫助因中風(fēng)、退行性疾病或發(fā)育障礙導(dǎo)致的語(yǔ)音障礙患者進(jìn)行交流。
  此前,Inglis House是一個(gè)長(zhǎng)期護(hù)理輪椅社區(qū),它的試點(diǎn)取得了成功。兩者開(kāi)發(fā)了一個(gè)應(yīng)用程序,幫助腦癱患者使用自己的聲音獨(dú)立完成常見(jiàn)任務(wù),比如控制電視頻道或播放音樂(lè)。
  不過(guò),總的來(lái)說(shuō),語(yǔ)音解決方案在很大程度上是自主發(fā)展的,盡管企業(yè)希望將它們相互連接起來(lái)。
  8月份,Genesys加強(qiáng)了Engage,它的云聯(lián)絡(luò)中心語(yǔ)音解決方案,因此它在多云部署中運(yùn)行。
  Engage的容器化體系結(jié)構(gòu)支持私有、公共或混合云部署。該產(chǎn)品與領(lǐng)先的基礎(chǔ)設(shè)施即服務(wù)提供商合作,如Amazon Web Services(AWS)、GoogleCloud和MicrosoftAzure。有了它,組織可以在不同的云之間移動(dòng)他們的軟件,或者使用多個(gè)提供者來(lái)滿(mǎn)足不同的系統(tǒng)需求、地理需求或數(shù)據(jù)主權(quán)法規(guī)。
  展望未來(lái)
  到目前為止,語(yǔ)音開(kāi)發(fā)平臺(tái)主要是由大型成功技術(shù)公司推出的專(zhuān)有解決方案。有很多產(chǎn)品可用,但它們有不同的目標(biāo)、設(shè)計(jì)基礎(chǔ)和接口,而且很少在緊密結(jié)合的生態(tài)系統(tǒng)之外工作。
  因此,企業(yè)無(wú)法輕松地將在其中一個(gè)平臺(tái)上完成的工作應(yīng)用到在另一個(gè)平臺(tái)上運(yùn)行的具有類(lèi)似需求的應(yīng)用程序。慢慢地,這個(gè)行業(yè)正以幾種不同的方式轉(zhuǎn)向標(biāo)準(zhǔn)的、開(kāi)放的系統(tǒng)。
  其中一個(gè)重點(diǎn)領(lǐng)域是開(kāi)源解決方案。Rasa是一家通過(guò)風(fēng)險(xiǎn)投資籌集了4000萬(wàn)美元的初創(chuàng)公司,它開(kāi)發(fā)了一個(gè)開(kāi)源的語(yǔ)音開(kāi)發(fā)平臺(tái)。供應(yīng)商提供程序員用來(lái)創(chuàng)建聊天機(jī)器人、語(yǔ)音應(yīng)用程序和會(huì)話(huà)服務(wù)的基礎(chǔ)設(shè)施和編程工具。
  Rasa在其會(huì)話(huà)AI套件中提供三種產(chǎn)品。Rasa Open Source于2019年發(fā)布,創(chuàng)建了語(yǔ)音AI軟件。RasaX是一個(gè)免費(fèi)的工具集,幫助開(kāi)發(fā)人員在Rasa開(kāi)源平臺(tái)上構(gòu)建智能語(yǔ)音助手。RasaEnterprise提供企業(yè)級(jí)IVA開(kāi)發(fā)平臺(tái)。
  Dahl認(rèn)為,開(kāi)源軟件有優(yōu)缺點(diǎn)。價(jià)格始終是部署的考慮因素,開(kāi)源解決方案幾乎總是免費(fèi)提供的。此外,這些產(chǎn)品是柔韌的,人們可以用任何他們想要的方式使用它們。他們反應(yīng)迅速。有了自己動(dòng)手的工具包,企業(yè)可以立即更改軟件,而不是等待供應(yīng)商添加所需的功能。
  但開(kāi)源解決方案也有其局限性。核心升級(jí)通常需要一段時(shí)間,因?yàn)樗鼈冃枰@得社區(qū)的同意,而社區(qū)對(duì)如何改進(jìn)功能可能有很大不同的看法。通常,這些系統(tǒng)很復(fù)雜,企業(yè)缺乏部署和維護(hù)它們所需的專(zhuān)業(yè)知識(shí)。如果出現(xiàn)問(wèn)題,用戶(hù)通常無(wú)法拿起電話(huà)并獲得技術(shù)支持。
  另一個(gè)新興趨勢(shì)是推動(dòng)行業(yè)標(biāo)準(zhǔn)的發(fā)展,這也使得組織構(gòu)建和連接語(yǔ)音軟件變得更加簡(jiǎn)單。開(kāi)放語(yǔ)音網(wǎng)絡(luò)(OVN)是由麻省理工學(xué)院(MIT)汽車(chē)識(shí)別實(shí)驗(yàn)室、凱捷咨詢(xún)公司和英特爾公司在2016年夏天進(jìn)行的研究開(kāi)發(fā)出來(lái)的。”我們認(rèn)識(shí)到語(yǔ)音用戶(hù)界面有可能改變?nèi)祟?lèi)與計(jì)算機(jī)系統(tǒng)的交互方式,“開(kāi)放語(yǔ)音網(wǎng)絡(luò)的執(zhí)行董事JonStine解釋說(shuō)。
  OVN是Linux基金會(huì)的一個(gè)定向基金,去年春天推出。目前,大約有十幾家企業(yè)和150多名設(shè)計(jì)師、開(kāi)發(fā)人員和戰(zhàn)略家正在研究創(chuàng)建通用語(yǔ)音軟件體系結(jié)構(gòu)的方法。它們有四個(gè)目標(biāo):安全;提供用戶(hù)、生態(tài)系統(tǒng)和體系結(jié)構(gòu)選擇;具有包容性和可訪問(wèn)性;支持開(kāi)放式軟件和硬件,但仍能實(shí)現(xiàn)商業(yè)差異化。
  該集團(tuán)計(jì)劃解決一個(gè)市場(chǎng)限制。”目前,企業(yè)沒(méi)有辦法注冊(cè)他們的語(yǔ)音產(chǎn)品。“Stine指出:“沒(méi)有用于語(yǔ)音的DNS[域名服務(wù)]。”
  OVN已經(jīng)開(kāi)始研究如何建立一個(gè)數(shù)據(jù)庫(kù)和流程,這樣公司就可以注冊(cè),比如他們的名字。有了它,例如,消費(fèi)者可以區(qū)分Delta Airlines和Delta Dental語(yǔ)音技能。
  到目前為止,消費(fèi)類(lèi)應(yīng)用已經(jīng)推動(dòng)了語(yǔ)音開(kāi)發(fā)市場(chǎng)。新的以企業(yè)為中心的平臺(tái)已經(jīng)開(kāi)始出現(xiàn),向開(kāi)源和基于標(biāo)準(zhǔn)的系統(tǒng)的轉(zhuǎn)移有可能使公司在2021年更容易創(chuàng)建更多業(yè)務(wù)質(zhì)量的語(yǔ)音應(yīng)用程序。
  聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
  作者:Paul Korzeniowski
  原文網(wǎng)址:
  https://www.speechtechmag.com/Articles/ReadArticle.aspx?ArticleID=145091
 
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

評(píng)論排行

專(zhuān)題

CTI論壇會(huì)員企業(yè)