日韩精品欧美激情国产一区,999免费观看四虎精品国产,无码中文字幕系列久久

老秦夜譯

　　CTI論壇(ctiforum.com)（編譯/老秦）:也許你一直在考慮在你的業(yè)務(wù)中使用智能虛擬助理（IVA）。您希望自動化客戶服務(wù)，幫助您的客戶在您的網(wǎng)站上找到他們想要的內(nèi)容，或者為您的員工提供工具。在任何一個搜索引擎上呆上幾分鐘，都會發(fā)現(xiàn)無數(shù)的供應(yīng)商說他們的產(chǎn)品是“智能的”、“自然的”或者“就像和人說話一樣”；其他人吹噓自己是“真正的會話”和“革命”，還有許多其他發(fā)光的描述。當(dāng)然，你想使用最好的技術(shù)，但你怎么知道哪一個是最好的，甚至哪一個替代品是好的，足以完成你心目中的工作？

　　顯然，簡單地看供應(yīng)商網(wǎng)站并不是最好的方法。每個供應(yīng)商都會聲稱他們的技術(shù)是最好的�？纯碮ouTube的演示和與銷售人員交談也不會有什么幫助。供應(yīng)商會有偏見，演示是基于非常仔細策劃的互動。隨便試用一個系統(tǒng)幾分鐘就會產(chǎn)生誤導(dǎo)性的結(jié)果。是否有一個可靠的，客觀的方法來衡量系統(tǒng)的準確性？

　　其他產(chǎn)品可以與標準度量進行比較。我們有每加侖汽車的英里數(shù)，電器的能源消耗量，顯示器的屏幕分辨率。不幸的是，我們還沒有針對智能虛擬助理的這些指標。即使我們把“最好的”縮小到“最準確的”，主觀性仍然有很大的空間。

　　為了可靠地比較系統(tǒng)，我們?nèi)绾螠y量智能虛擬助理的精確度？不幸的是，我們沒有任何官方標準，但這里有一些似乎很有希望的想法。

　　測量IVAs的方法

　　讓我們首先說，任何公平的比較都必須基于廣泛接受的衡量標準和程序。一個實際的評估也不能太貴或太費時，所以我們不需要完美，只是一個足夠好的比較。

　　首先，這里有一些有前途的策略。

　　1、系統(tǒng)可能以兩種不同的方式出錯，因此我們必須同時衡量這兩種方式。系統(tǒng)可能會給出錯誤的答案，但也可能無法給出它應(yīng)該知道的問題的答案。從技術(shù)上講，給出錯誤的答案是不準確的。沒有給出系統(tǒng)應(yīng)該知道的答案是調(diào)用失敗。在大量的測試問題中，我們可以得到整體關(guān)于調(diào)用失敗和精確性的分數(shù)，這將給我們系統(tǒng)的準確性一個分數(shù)。雖然調(diào)用失敗和精確性不是官方標準，但它們被研究人員廣泛接受。

　　2、一個較新的指標是敏感性和特異性平均值（SSA）。這是谷歌為其聊天機器人Meena開發(fā)的。測試人員查看成對的用戶查詢和系統(tǒng)響應(yīng)，并根據(jù)它們的敏感程度和具體程度對響應(yīng)進行評分。“敏感性”的含義是顯而易見的。特異性會懲罰像“那很好”這樣的一般性回答。像“那很好”這樣含糊不清的回答是數(shù)字助理試圖掩蓋其無知的信號。敏感性和特異性得分相結(jié)合，得到一個總的SSA得分。這一指標的一個吸引人的特點是，對回答打分的用戶不必知道正確的答案，他們只需能夠決定答案的“合理性”和“具體性”如何。

　　3、另一個值得一提的指標是亞馬遜AlexaPrize中使用的指標。它不能測量準確度；相反，它通過跟蹤用戶與應(yīng)用程序交互的時間來衡量應(yīng)用程序的吸引力。對于像老年伴侶這樣的應(yīng)用程序來說這可能是一個有用的指標，老年同伴的目標是讓用戶參與應(yīng)用程序，但精度不是一個主要要求。

　　評估IVA表現(xiàn)

　　不僅要使測量標準化，而且評價也要遵循一個標準過程：（1）有可重復(fù)的結(jié)果；(2）外部變量控制；以及（3）防止游戲結(jié)果。一個很好的例子是2015年著名的大眾汽車排放丑聞，當(dāng)時大眾汽車在測試過程中關(guān)閉了排放裝置，這樣他們就可以謊報更好的排放評級。他們被抓住了。結(jié)果對大眾汽車不利；其首席執(zhí)行官因此辭職。

　　評估過程的一些最佳做法包括：

　　1、對同一個應(yīng)用程序進行跨系統(tǒng)比較，這可以更通俗地稱為“比較蘋果”。比較執(zhí)行不同應(yīng)用程序的系統(tǒng)是不公平的，因為一個應(yīng)用程序可能比另一個更難。例如，一個應(yīng)用程序中可能有更多的意圖和實體，這將降低該系統(tǒng)的分數(shù)。用于開發(fā)應(yīng)用程序的數(shù)據(jù)可以是一個開放的公共數(shù)據(jù)集，就像Clinc開發(fā)的數(shù)據(jù)集一樣，也可以是特定垂直方向上應(yīng)用程序的內(nèi)部數(shù)據(jù)。對于沒有特定應(yīng)用程序（比如Alexa或Siri）的泛型助手，會有一些已發(fā)布的數(shù)據(jù)，比如我的應(yīng)用程序中使用的數(shù)據(jù)。

　　2、非重疊數(shù)據(jù)的培訓(xùn)和測試系統(tǒng)。如果一個系統(tǒng)是在以后測試的數(shù)據(jù)上訓(xùn)練的，那么當(dāng)各種新的、以前看不見的數(shù)據(jù)出現(xiàn)時，測試將不能代表實際的工作條件。這將是一個游戲系統(tǒng)的例子。

　　把它們放在一起

　　那么回到最初的問題，如何正確評估智能虛擬助理呢？--下面是我們的一般建議。首先，不要把評估建立在主觀測試的基礎(chǔ)上。一個評估，包括幾分鐘的試用演示可能會非常誤導(dǎo)。第二，使用常見的測量方法，比如調(diào)用、精確度和SSA。第三，遵循一個標準流程：使用相同的數(shù)據(jù)集進行所有比較，并將訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分開。

　　遵循這些準則將導(dǎo)致可靠和有意義的比較。將這些信息與其他的需求開發(fā)工具、運行時成本、易維護性結(jié)合起來，您就可以成功地部署智能虛擬助理了。

　　聲明:版權(quán)所有非合作媒體謝絕轉(zhuǎn)載

　　作者：Deborah Dahl

　　原文網(wǎng)址：

　　https://www.speechtechmag.com/Articles/Columns/Standards/Assessing-IVAs-How-Do-You-Determine-Which-One-Is-Right-for-You-147371.aspx

評估虛擬助理(IVA)：如何確定哪一個適合你？

評論排行

推薦閱讀

專題

大家都在看

CTI論壇會員企業(yè)