您當(dāng)前的位置是:  首頁(yè) > 資訊 > 文章精選 >
 首頁(yè) > 資訊 > 文章精選 >

58同城智能語(yǔ)音質(zhì)檢系統(tǒng)架構(gòu)實(shí)踐

2020-03-04 10:33:23   作者:劉晟源、陳璐   來(lái)源:“58AILab”微信公眾號(hào)   評(píng)論:0  點(diǎn)擊:


  背景

  傳統(tǒng)語(yǔ)音質(zhì)檢通常是指質(zhì)檢員聽(tīng)取一定比例的電話錄音進(jìn)行人工質(zhì)檢,檢測(cè)坐席在通話過(guò)程中是否有違規(guī)或非標(biāo)準(zhǔn)話術(shù)行為,如罵人、嘲諷、推諉、過(guò)度承諾等,以規(guī)范坐席人員行為,進(jìn)而提升客戶服務(wù)質(zhì)量。純?nèi)斯ぢ?tīng)取錄音效率低,單人日均僅能聽(tīng)取約3小時(shí),在大規(guī)模呼叫中心中往往只能實(shí)現(xiàn)少量錄音的抽檢,覆蓋率低。隨著語(yǔ)音識(shí)別、自然語(yǔ)言理解技術(shù)的高速發(fā)展,近年來(lái)誕生了智能語(yǔ)音質(zhì)檢系統(tǒng),在語(yǔ)音質(zhì)檢上起到了越來(lái)越重要的作用。

  智能語(yǔ)音質(zhì)檢一般采用機(jī)器質(zhì)檢與人工復(fù)檢相結(jié)合的方式,會(huì)覆蓋客戶和坐席的每一句話,可以很好地輔助提升人工坐席的服務(wù)質(zhì)量,智能語(yǔ)音質(zhì)檢相比傳統(tǒng)語(yǔ)音質(zhì)檢具有以下優(yōu)勢(shì):

  目前58同城呼叫中心每年有上億通電話,為了能夠?qū)崿F(xiàn)海量電話錄音全量自動(dòng)化質(zhì)檢,TEG技術(shù)工程平臺(tái)群AI Lab自研了智能語(yǔ)音質(zhì)檢系統(tǒng),它是利用語(yǔ)音識(shí)別、自然語(yǔ)言處理、大數(shù)據(jù)技術(shù)構(gòu)建起來(lái)的質(zhì)檢管理系統(tǒng),集成了數(shù)據(jù)收集、存儲(chǔ)、質(zhì)檢、分析等功能。58智能語(yǔ)音質(zhì)檢系統(tǒng)的工作流程是:首先收集話務(wù)中心話務(wù)數(shù)據(jù),其次利用語(yǔ)音識(shí)別技術(shù)將錄音轉(zhuǎn)成文本,然后利用自然語(yǔ)言處理技術(shù)與深度學(xué)習(xí)技術(shù)對(duì)文本進(jìn)行分析處理,最終將質(zhì)檢的結(jié)果在Web管理平臺(tái)上展示,由質(zhì)檢人員進(jìn)行人工復(fù)檢。

  整體架構(gòu)

  語(yǔ)音質(zhì)檢架構(gòu)包括基礎(chǔ)能力層、數(shù)據(jù)層、邏輯層、編輯運(yùn)營(yíng)層和Web管理層,如下圖所示:

 

  基礎(chǔ)層為語(yǔ)音質(zhì)檢提供了基礎(chǔ)的語(yǔ)義分析能力,包括由NLP自然語(yǔ)言處理模塊和ASR語(yǔ)音識(shí)別模塊組成。NLP模塊主要功能包含分詞、文本聚類(lèi)、文本分類(lèi)、關(guān)鍵詞提取、實(shí)體提取等。ASR(語(yǔ)音識(shí)別)模塊集成封裝了第三方語(yǔ)音識(shí)別接口,用于語(yǔ)音轉(zhuǎn)文本、角色分離。

  數(shù)據(jù)層提供了數(shù)據(jù)接入能力,接入了Kafka、WMB(58自研消息總線)實(shí)時(shí)話務(wù)數(shù)據(jù),并提供了質(zhì)檢話務(wù)數(shù)據(jù)接口服務(wù),實(shí)現(xiàn)對(duì)實(shí)時(shí)錄音數(shù)據(jù)、離線語(yǔ)音數(shù)據(jù)的多種數(shù)據(jù)格式質(zhì)檢、存儲(chǔ)支持。

  邏輯層是語(yǔ)音質(zhì)檢的核心部分,實(shí)現(xiàn)了從音頻數(shù)據(jù)到坐席客戶對(duì)話文本、質(zhì)檢標(biāo)簽識(shí)別的全部流程,包括角色識(shí)別、語(yǔ)義標(biāo)簽、語(yǔ)音評(píng)分、質(zhì)檢結(jié)果通知等模塊。其中角色識(shí)別實(shí)現(xiàn)了兩個(gè)對(duì)話角色的識(shí)別: 誰(shuí)是坐席,誰(shuí)是客戶。語(yǔ)義標(biāo)簽?zāi)K使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),通過(guò)語(yǔ)義分析檢測(cè)出預(yù)定義質(zhì)檢標(biāo)簽如“客戶表示不需要”、“銷(xiāo)售辱罵客戶”等。

  編輯運(yùn)營(yíng)層是一套集數(shù)據(jù)標(biāo)注、效果評(píng)估、數(shù)據(jù)分析功能于一體的Web系統(tǒng)。編輯人員通過(guò)質(zhì)檢Web平臺(tái)完成質(zhì)檢標(biāo)簽、角色識(shí)別等的標(biāo)注工作,并定期進(jìn)行數(shù)據(jù)分析和效果評(píng)測(cè)。

  WEB管理層即提供了人工復(fù)檢功能的支持,包括機(jī)檢數(shù)據(jù)概覽、質(zhì)檢任務(wù)分配、人工復(fù)檢、統(tǒng)計(jì)等模塊。

  語(yǔ)音識(shí)別

  語(yǔ)音識(shí)別是一種將語(yǔ)音轉(zhuǎn)換成文本的技術(shù),對(duì)于雙聲道的錄音,客戶和坐席的聲音在不同的聲道,因此可以很容易地將通話雙方的說(shuō)話內(nèi)容分開(kāi)并轉(zhuǎn)寫(xiě)成文本,對(duì)于單聲道錄音(我們的質(zhì)檢錄音絕大多數(shù)都是單聲道),客戶和坐席的聲音混在一起,將說(shuō)話內(nèi)容轉(zhuǎn)寫(xiě)成文本之前,我們還需要進(jìn)行語(yǔ)音分離,將雙方的說(shuō)話內(nèi)容在語(yǔ)音粒度上分開(kāi)。語(yǔ)音分離的效果直接影響到后續(xù)的質(zhì)檢工作,假如誤把客戶的說(shuō)話內(nèi)容判別為坐席的說(shuō)話內(nèi)容,必然會(huì)降低質(zhì)檢的效果。衡量語(yǔ)音分離的通用指標(biāo)是分離錯(cuò)誤率(DiarizationError Rate)DER,它指的是語(yǔ)音總時(shí)長(zhǎng)中識(shí)別錯(cuò)誤的語(yǔ)音時(shí)長(zhǎng)所占的比重,DER越小說(shuō)明分離的效果越好。

  此外對(duì)于單聲道的語(yǔ)音,我們將分離后的語(yǔ)音識(shí)別成文本后,還需要進(jìn)行角色識(shí)別的工作,語(yǔ)音分離只是識(shí)別出哪些說(shuō)話內(nèi)容是A的,哪些是B的,還需要依靠角色識(shí)別來(lái)判斷A和B哪個(gè)是坐席,哪個(gè)是客戶。

 

  角色識(shí)別服務(wù)分兩步進(jìn)行,首先會(huì)根據(jù)音頻特征判斷說(shuō)話人雙方是否是異性,如果是異性,使用語(yǔ)音性別模型識(shí)別出每一句說(shuō)話內(nèi)容的性別,然后進(jìn)行角色的判定。如果無(wú)法確定認(rèn)為雙方為異性,則會(huì)進(jìn)行通用角色識(shí)別:獲得A和B的說(shuō)話內(nèi)容之后,第一步是整體判別A和B的角色,整體判別之后可能還會(huì)有部分語(yǔ)句的角色是錯(cuò)的(由于語(yǔ)音分離不完全準(zhǔn)確造成),比如“有什么還可以幫您的嗎?”明顯是坐席說(shuō)的話,但是卻被分到了客戶的角色上,因此第二步我們會(huì)做單句角色糾正。客戶和坐席的說(shuō)話內(nèi)容都有明顯的角色特征,在角色整體判別和單句角色糾正中,我們使用了深度學(xué)習(xí)模型Transformer和TextCNN并結(jié)合挖掘到的一些規(guī)則來(lái)進(jìn)行識(shí)別。

 語(yǔ)音轉(zhuǎn)文字

  質(zhì)檢標(biāo)簽識(shí)別

  銷(xiāo)售質(zhì)檢包括銷(xiāo)售違規(guī)質(zhì)檢和銷(xiāo)售常規(guī)質(zhì)檢。銷(xiāo)售違規(guī)質(zhì)檢是為了找出客戶有投訴傾向的錄音,為此我們定義了“客戶表示將去投訴”,“銷(xiāo)售辱罵客戶”,“客戶表示被騷擾”,“客戶表示打錯(cuò)了”等標(biāo)簽。語(yǔ)音質(zhì)檢系統(tǒng)可以檢測(cè)出包含這些標(biāo)簽的錄音,并將這些錄音反饋給銷(xiāo)售主管,銷(xiāo)售主管獲取這些錄音做進(jìn)一步的處理以避免客戶投訴的發(fā)生。

 

  銷(xiāo)售常規(guī)質(zhì)檢針對(duì)所有業(yè)務(wù)線的銷(xiāo)售錄音,包括“過(guò)度承諾”,“工作作假”,“銷(xiāo)售辱罵客戶”等標(biāo)簽,銷(xiāo)售常規(guī)質(zhì)檢對(duì)于監(jiān)督銷(xiāo)售工作、規(guī)范銷(xiāo)售行為起到了重要作用。

  客服質(zhì)檢針對(duì)的是客服錄音,目標(biāo)是檢測(cè)出通話中客服不文明或者不合規(guī)的行為,客服質(zhì)檢對(duì)于提升客服服務(wù)質(zhì)量有重要作用。比如招聘業(yè)務(wù)線新戶客服的工作是告知新會(huì)員需要注意的事項(xiàng),包括“安全提示”,“號(hào)碼保護(hù)”和“客戶熱線”等標(biāo)簽,語(yǔ)音質(zhì)檢系統(tǒng)會(huì)給出新戶首通客服錄音包含的所有標(biāo)簽,并對(duì)本次通話給出一個(gè)評(píng)分。

  質(zhì)檢標(biāo)簽識(shí)別是一個(gè)復(fù)雜同時(shí)又具有挑戰(zhàn)的問(wèn)題,需要考慮業(yè)務(wù),語(yǔ)氣和上下文等因素,同時(shí)還要避免語(yǔ)音識(shí)別錯(cuò)誤帶來(lái)的影響。在語(yǔ)義理解上,我們采用了TextCNN,Transformer和Bert等深度學(xué)習(xí)模型,同時(shí)基于對(duì)業(yè)務(wù)的理解使用了相應(yīng)的規(guī)則,在標(biāo)簽識(shí)別準(zhǔn)確率上,銷(xiāo)售質(zhì)檢準(zhǔn)確率為達(dá)到90%以上,客服質(zhì)檢準(zhǔn)確率達(dá)到87%。

  復(fù)檢系統(tǒng)

  復(fù)檢系統(tǒng)是Web管理平臺(tái)的一部分,我們會(huì)把質(zhì)檢結(jié)果展示在Web頁(yè)面上,質(zhì)檢員可以看到整體質(zhì)檢報(bào)表,也可以對(duì)單通語(yǔ)音進(jìn)行復(fù)檢,人工復(fù)檢的詳情頁(yè)面如下所示:

  

  質(zhì)檢員在標(biāo)簽欄可以看到質(zhì)檢系統(tǒng)給出的標(biāo)簽,點(diǎn)擊標(biāo)簽可以直接定位到標(biāo)簽的說(shuō)話內(nèi)容,點(diǎn)擊說(shuō)話內(nèi)容左側(cè)的播放按鈕可以聽(tīng)這句話的錄音,同時(shí)最下側(cè)的錄音進(jìn)度條也會(huì)移動(dòng)到相應(yīng)位置。質(zhì)檢員不僅可以很快地復(fù)檢標(biāo)簽內(nèi)容,也可以通過(guò)快速瀏覽文字檢查質(zhì)檢系統(tǒng)未覆蓋到的內(nèi)容并手動(dòng)添加標(biāo)簽,復(fù)檢結(jié)果會(huì)存入數(shù)據(jù)庫(kù)中供后續(xù)分析使用。傳統(tǒng)的人工質(zhì)檢,質(zhì)檢時(shí)邊聽(tīng)錄音邊做記錄,一通語(yǔ)音要反復(fù)聽(tīng)好幾遍才會(huì)有一個(gè)質(zhì)檢結(jié)果,效率非常低下。相比于傳統(tǒng)的人工質(zhì)檢方式,使用復(fù)檢系統(tǒng)的人效提高2至3倍。

  后端架構(gòu)設(shè)計(jì)

  語(yǔ)音質(zhì)檢后臺(tái)系統(tǒng)基于58同城自研RPC框架SCF實(shí)現(xiàn),使用WMonitor實(shí)現(xiàn)對(duì)各個(gè)服務(wù)的監(jiān)控,存儲(chǔ)依據(jù)不同數(shù)據(jù)的特性分別選用了WOS(58自研對(duì)象存儲(chǔ)服務(wù))、Redis、WTable(58自研KV存儲(chǔ)服務(wù))、WCS(58自研索引服務(wù))、MySQL等。整個(gè)后臺(tái)服務(wù)的設(shè)計(jì)如下圖所示:

 

  語(yǔ)音質(zhì)檢接入了呼叫中心的實(shí)時(shí)話務(wù)消息隊(duì)列,以實(shí)現(xiàn)對(duì)坐席電話的實(shí)時(shí)質(zhì)檢功能,此外還額外提供了話務(wù)數(shù)據(jù)接口服務(wù),實(shí)現(xiàn)對(duì)離線數(shù)據(jù)的提交質(zhì)檢。

  語(yǔ)音質(zhì)檢后臺(tái)系統(tǒng)由數(shù)據(jù)服務(wù)、主體服務(wù)、ASR服務(wù)、ASR回調(diào)服務(wù)、說(shuō)話人識(shí)別服務(wù)、質(zhì)檢標(biāo)簽服務(wù)等多個(gè)微服務(wù)組成。

  數(shù)據(jù)服務(wù)負(fù)責(zé)實(shí)現(xiàn)對(duì)多種數(shù)據(jù)源的接入,補(bǔ)全客戶以及坐席組織架構(gòu)信息,并實(shí)現(xiàn)對(duì)存于話務(wù)系統(tǒng)中原始錄音文件的WOS轉(zhuǎn)存功能。主體服務(wù)貫穿整個(gè)質(zhì)檢過(guò)程,負(fù)責(zé)控制整個(gè)數(shù)據(jù)流:調(diào)用日晷平臺(tái)獲取ABTest實(shí)驗(yàn)配置,向ASR服務(wù)發(fā)起轉(zhuǎn)寫(xiě)請(qǐng)求,調(diào)用說(shuō)話人識(shí)別服務(wù)、質(zhì)檢標(biāo)簽服務(wù)獲取角色識(shí)別結(jié)果以及質(zhì)檢標(biāo)簽,向質(zhì)檢員發(fā)送違規(guī)通知、向其他內(nèi)部系統(tǒng)同步質(zhì)檢結(jié)果等。

  語(yǔ)音轉(zhuǎn)寫(xiě)算法模型耗時(shí)較長(zhǎng),故對(duì)第三方服務(wù)的封裝采用異步調(diào)用的方式:由ASR服務(wù)負(fù)責(zé)對(duì)HTTP提交任務(wù)接口的封裝,對(duì)內(nèi)提供一個(gè)SCF接口;并設(shè)立回調(diào)HTTP服務(wù)接收ASR轉(zhuǎn)寫(xiě)結(jié)果轉(zhuǎn)存WTable,并使用WMB向主體服務(wù)發(fā)送質(zhì)檢回調(diào)請(qǐng)求。

  說(shuō)話人識(shí)別以及質(zhì)檢語(yǔ)音標(biāo)簽分析依賴(lài)的模型經(jīng)離線訓(xùn)練后部署在WPAI中,此外WPAI提供了算法模型在線預(yù)測(cè)服務(wù),供說(shuō)話人識(shí)別服務(wù)、質(zhì)檢語(yǔ)義標(biāo)簽服務(wù)在線調(diào)用,質(zhì)檢結(jié)果由主體服務(wù)統(tǒng)一存儲(chǔ)到MySQL中。

  在將錄音轉(zhuǎn)寫(xiě)成文本、給每通錄音打上質(zhì)檢標(biāo)簽后,為便于質(zhì)檢員實(shí)時(shí)復(fù)檢操作,我們構(gòu)建了智能質(zhì)檢Web平臺(tái),平臺(tái)提供機(jī)檢標(biāo)簽查詢、人工復(fù)檢、錄音文本查看、錄音調(diào)聽(tīng)、統(tǒng)計(jì)報(bào)表匯總等功能。Web系統(tǒng)涉及大量的標(biāo)簽查詢以及統(tǒng)計(jì)功能,單一的SQL查詢難以滿足性能指標(biāo),對(duì)此我們引入了58自研的58云搜(WCS)搜索私有云平臺(tái),將質(zhì)檢結(jié)果數(shù)據(jù)實(shí)時(shí)同步至WCS中,Web查詢由WCS統(tǒng)一承載,目前在千萬(wàn)級(jí)數(shù)據(jù)接口查詢速度約為20ms。

列表查詢

  總結(jié)

  本文主要介紹了智能語(yǔ)音質(zhì)檢系統(tǒng)的架構(gòu)設(shè)計(jì),包括整體架構(gòu)、角色識(shí)別、質(zhì)檢標(biāo)簽識(shí)別、系統(tǒng)的服務(wù)設(shè)計(jì)等。

  目前智能語(yǔ)音質(zhì)檢系統(tǒng)已穩(wěn)定接入58同城呼叫中心銷(xiāo)售、客服全量錄音,涉及13個(gè)業(yè)務(wù),日均質(zhì)檢電話錄音數(shù)十萬(wàn)通,其中客服錄音質(zhì)檢場(chǎng)景折合節(jié)省人力近千人,提高了呼叫中心人效和服務(wù)質(zhì)量。

  同時(shí)智能語(yǔ)音質(zhì)檢系統(tǒng)提供了通用的語(yǔ)音分析能力,除了目前應(yīng)用的語(yǔ)音質(zhì)檢場(chǎng)景外同樣的技術(shù)也可以用于C2B平臺(tái)語(yǔ)音分析場(chǎng)景,58同城作為平臺(tái)方為商家以及客戶搭建了方便快捷的溝通途徑,其中語(yǔ)音電話也是一大重要的溝通方式,對(duì)于C端客戶與B端商家的語(yǔ)音分析可提供如低質(zhì)通話過(guò)濾、客戶需求挖掘分析等多種業(yè)務(wù)能力。C2B的語(yǔ)音一般是雙聲道,不需要做語(yǔ)音分離和角色識(shí)別,可以很好地區(qū)分客戶和商家說(shuō)話內(nèi)容,因此具有更好的分析效果。

 

  此外語(yǔ)音質(zhì)檢后續(xù)將重點(diǎn)提高角色識(shí)別、標(biāo)簽識(shí)別準(zhǔn)確率,提供簡(jiǎn)單快捷的接入平臺(tái)的能力,進(jìn)一步挖掘語(yǔ)音數(shù)據(jù)中潛藏信息,服務(wù)業(yè)務(wù)方,提高語(yǔ)音質(zhì)檢、分析工作人效,為廣大用戶提供更好更優(yōu)質(zhì)的服務(wù)。

  作者簡(jiǎn)介

  劉晟源,58同城 AI Lab 后端資深開(kāi)發(fā)工程師,主要負(fù)責(zé)智能語(yǔ)音質(zhì)檢平臺(tái)開(kāi)發(fā)相關(guān)工作。

  陳璐,58同城 AI Lab 算法高級(jí)工程師,主要負(fù)責(zé)58智能質(zhì)檢的算法開(kāi)發(fā)工作。

  AI Lab簡(jiǎn)介

  58同城TEG技術(shù)工程平臺(tái)群AI Lab,旨在推動(dòng)AI技術(shù)在58生活服務(wù)行業(yè)的落地,打造AI中臺(tái)能力,以提高前臺(tái)業(yè)務(wù)的人效和用戶體驗(yàn)。AI Lab目前負(fù)責(zé)的產(chǎn)品包括:智能客服機(jī)器人、智能語(yǔ)音機(jī)器人、智能語(yǔ)音質(zhì)檢系統(tǒng)、智能寫(xiě)稿、AI算法平臺(tái)等,未來(lái)將持續(xù)加速創(chuàng)新,拓展AI應(yīng)用。

【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專(zhuān)題

CTI論壇會(huì)員企業(yè)