您當(dāng)前的位置是:  首頁 > 資訊 > 國內(nèi) >
 首頁 > 資訊 > 國內(nèi) >

智能質(zhì)檢新實踐:“雙!辟|(zhì)檢

2020-03-05 16:52:24   作者:   來源:CTI論壇   評論:0  點擊:


  上篇文章,我們介紹了新一代智能質(zhì)檢模式——基于深度學(xué)習(xí)技術(shù)的“非正則”質(zhì)檢落地應(yīng)用效果:在很多質(zhì)檢項上遠(yuǎn)超“關(guān)鍵詞+正則”的傳統(tǒng)模式,能多找出2~10倍數(shù)量的目標(biāo)通話,并且介紹了其工作原理與“關(guān)鍵詞+正則”的區(qū)別。
  隨著自然語言處理(NLP)領(lǐng)域技術(shù)的發(fā)展,以“非正則”質(zhì)檢模式為主、“關(guān)鍵詞+正則”模式為輔的方案已成為未來發(fā)展趨勢。兩種模式將長期共存,因為它們各有其更擅長做的事情、更適配的場景。
  “關(guān)鍵詞+正則”模式的2種適配場景
  在實際應(yīng)用中,“關(guān)鍵詞+正則”作為一種基礎(chǔ)質(zhì)檢模式,越來越難以滿足企業(yè)在質(zhì)檢效果和效率上的精細(xì)化需求。但是,這種模式也有它的優(yōu)勢:上手快。
  當(dāng)企業(yè)提出一個新的、此前從未用過的質(zhì)檢項時,質(zhì)檢項的標(biāo)準(zhǔn)尚未完全確定,因此可以用“關(guān)鍵詞+正則”模式先跑起來,快速進(jìn)行探索和迭代。其后根據(jù)初步探索和迭代的結(jié)果,再判斷是否可以升級到基于深度學(xué)習(xí)技術(shù)的“非正則”模式。這是適配“關(guān)鍵詞+正則”模式的第一種場景。
  第二種場景:當(dāng)一個質(zhì)檢項命中的目標(biāo)通話量比較少,只有幾百甚至幾十條,就無法產(chǎn)生足夠的“正例”給機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,只能繼續(xù)采用“關(guān)鍵詞+正則”模式。這是一種被動場景,也是比較常見的場景。
  還有一種場景比較特殊:有些質(zhì)檢項命中的目標(biāo)通話比較多,原則上可以用來訓(xùn)練機(jī)器學(xué)習(xí)模型,但是因為“關(guān)鍵詞+正則”已經(jīng)得出不錯的結(jié)果,既找得全(術(shù)語叫召回率高),又找得準(zhǔn)(術(shù)語叫準(zhǔn)確率高),兩個值都超過90%,那么暫時就不迫切需要升級到“非正則”質(zhì)檢模式了。比如很多企業(yè)需要的正向質(zhì)檢項——“禮貌問候”,因為可以窮舉出大部分“禮貌問候”的用詞,用“關(guān)鍵詞+正則”模式就能得到雙90%的結(jié)果。
  不過,這種場景非常少見。大部分情況下,“關(guān)鍵詞+正則”質(zhì)檢模式相比基于深度學(xué)習(xí)技術(shù)的“非正則”質(zhì)檢模式,在找全率和找準(zhǔn)率上有很大差距。
  “非正則”模式的2種適配場景
  在實際應(yīng)用中,基于深度學(xué)習(xí)技術(shù)的“非正則”質(zhì)檢模式(原理細(xì)節(jié)可參考上一篇文章),可以大幅提升質(zhì)檢效率,更好地解決企業(yè)質(zhì)檢任務(wù)的痛點:傳統(tǒng)“關(guān)鍵詞+正則”的模式,很難找得全和找得準(zhǔn)目標(biāo)通話,大大影響工作效率——如果找不全,就意味著會遺漏很多目標(biāo)通話;如果找不準(zhǔn),就意味著在人工復(fù)檢時會浪費大量人力。
  我們之前分享過實際對比的例子,貸后資產(chǎn)管理領(lǐng)域的基礎(chǔ)質(zhì)檢項“恐嚇威脅”,采用基于深度學(xué)習(xí)技術(shù)的“非正則”質(zhì)檢模式找出的違規(guī)通話量是“關(guān)鍵詞+正則”的9倍。
  考慮到在實際使用中,質(zhì)檢項與命中的目標(biāo)通話量之間的關(guān)系也存在“二八法則”——20%的質(zhì)檢項貢獻(xiàn)了80%的質(zhì)檢量,所以將質(zhì)檢量大的少數(shù)質(zhì)檢項升級到“非正則”模式,往往可以大幅提升整個質(zhì)檢任務(wù)的找全率和找準(zhǔn)率。這是“非正則”質(zhì)檢模式的第一種適配場景,也是主要的適配場景。
  第二種場景:某些質(zhì)檢項,雖然從某一家企業(yè)的角度看,所命中的目標(biāo)通話量不算大,但是這個質(zhì)檢項是整個行業(yè)中較為成熟的、通用的質(zhì)檢項,其他企業(yè)也都在用,那么就可以采用基于深度學(xué)習(xí)技術(shù)的“非正則”模式進(jìn)行模型訓(xùn)練。因為其他企業(yè)都可以比較快速的復(fù)用或者經(jīng)過簡單調(diào)整之后復(fù)用,所以“非正則”模式帶來的收益就更高。比如,消費金融領(lǐng)域的正向質(zhì)檢項“提示逾期天數(shù)”;客服領(lǐng)域的負(fù)向質(zhì)檢項“暴露客戶隱私”等都是各自領(lǐng)域或行業(yè)通用的。
  與“關(guān)鍵詞+正則”質(zhì)檢模式相比,基于深度學(xué)習(xí)技術(shù)的“非正則”模式,不再需要既懂業(yè)務(wù)又懂正則的稀缺人才編寫規(guī)則和迭代規(guī)則,只需要普通人快速進(jìn)行數(shù)據(jù)標(biāo)注即可訓(xùn)練算法模型,而且通常能得到更好的效果。唯一顯著的缺陷就是,如果沒有數(shù)千條數(shù)據(jù),很難訓(xùn)練出效果好的模型。
  “雙模”質(zhì)檢,各司其職
  當(dāng)前階段,質(zhì)檢項應(yīng)該采取哪種模式,主要取決于該質(zhì)檢項產(chǎn)生的目標(biāo)通話量大小——通常數(shù)量大,才能快速標(biāo)注數(shù)據(jù)、訓(xùn)練出更好的算法模型,采用“非正則”模式,否則仍需要繼續(xù)使用“關(guān)鍵詞+正則”模式。
  其次也要考慮到質(zhì)檢項的成熟度——太新的、標(biāo)準(zhǔn)尚不明確的質(zhì)檢項,適合先用“關(guān)鍵詞+正則”模式迭代起來,再決定何時升級到基于深度學(xué)習(xí)技術(shù)的“非正則”模式。
  綜合來看,在實踐中采用“雙模”方案,讓兩種模式各司其職,可以最大程度提升質(zhì)檢效率。
【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

專題

CTI論壇會員企業(yè)