久久精品国产只有精品6AV,国产精品国产免费无码专区不卡

　　本文作者溫正棋為極限元智能科技CEO、中國科學(xué)院自動化研究所副研究員，畢業(yè)于中國科學(xué)院自動化研究所，先后在日本和歌山大學(xué)和美國佐治亞理工學(xué)院進(jìn)行交流學(xué)習(xí)，在國際會議和期刊上發(fā)表論文十余篇，獲得多項關(guān)于語音及音頻領(lǐng)域的專利。其「具有個性化自適應(yīng)能力的高性能語音處理技術(shù)及應(yīng)用」獲得北京科學(xué)技術(shù)獎。在語音的合成、識別、說話人識別等領(lǐng)域都有著多年深入研究經(jīng)驗，并結(jié)合深度學(xué)習(xí)技術(shù)開發(fā)了多款語音應(yīng)用產(chǎn)品。

　　為了提高客戶滿意度、完善客戶服務(wù)，同時對客服人員工作的考評，很多企業(yè)會對此采用質(zhì)檢的方式來保證其服務(wù)質(zhì)量。以服務(wù)行業(yè)為例，呼叫中心是一個促進(jìn)企業(yè)營銷、市場開拓并為客戶提供良好的交互服務(wù)系統(tǒng)，其位置相當(dāng)重要。傳統(tǒng)的質(zhì)檢方法需要質(zhì)檢人員通過人工測聽的方式進(jìn)行抽檢；人工抽檢方法工作量大且效率低，難以有效評價客服人員的服務(wù)質(zhì)量。

　　隨著人工智能技術(shù)的發(fā)展，語音和自然語音處理技術(shù)不斷取得突破，采用智能化的方法對電話語音中的內(nèi)容進(jìn)行深層次的分析，可以有效的節(jié)約人力成本并提高工作效率。語音質(zhì)檢方案主要涉及語音關(guān)鍵詞檢索、音頻對比、情感識別等核心技術(shù)。

　　一、語音關(guān)鍵詞檢索

　�。�1）語音識別聲學(xué)模型

　　隨著深度學(xué)習(xí)的興起，深層神經(jīng)網(wǎng)絡(luò)也應(yīng)用到了語音識別中的聲學(xué)建模，通過深層神經(jīng)網(wǎng)絡(luò)模型替換GMM-HMM模型里的GMM模型，HMM模型中的狀態(tài)轉(zhuǎn)移矩陣部分不變。DNN通過在輸入端進(jìn)行擴(kuò)幀，從而能夠利用上下文信息，同時這種模型具有較強(qiáng)的非線性建模能力，但DNN的擴(kuò)幀是有限的，所以它能夠利用的上下文信息是有限的。針對這一問題提出了基于RNN的聲學(xué)模型，RNN能夠更充分的利用歷史信息進(jìn)行聲學(xué)模型建模。但是在RNN訓(xùn)練過程中會存在梯度消失和梯度膨脹的問題，梯度膨脹可以在訓(xùn)練過程中加一些約束條件解決，當(dāng)梯度超過一定值以后設(shè)定一個固定值；針對梯度消失問題，比較有效的解決方法是將里面的RNN單元變成長短時記憶模型LSTM，這種模型的缺點(diǎn)是會增加計算復(fù)雜度，這也是在構(gòu)建聲學(xué)模型時需要考慮的問題。CNN是另一種比較主流的聲學(xué)模型，這種模型中包含的參數(shù)較少，谷歌、微軟、IBM等企業(yè)均嘗試使用非常深的CNN模型，其識別性能超過其它深層神經(jīng)網(wǎng)絡(luò)。

　　CTC是一個訓(xùn)練準(zhǔn)則，在傳統(tǒng)的基于深度學(xué)習(xí)的聲學(xué)模型輸出中，每個phone可能包含十幾楨甚至更多楨，因為它并不是一個尖峰，但是通過CTC訓(xùn)練會把它變成一個尖峰；CTC可以將每一幀變成一個blank幀或者對應(yīng)的建模單元（音素、音節(jié)等），而每個建模單元只需要對應(yīng)幾幀就可以了。在解碼的時候可以降低對black楨的搜索寬度，這樣可以顯著的增加解碼速度。減少解碼幀有兩種方法，一種是通過跳幀的方法，另一種在解碼過程中動態(tài)調(diào)整beam值，特別是遇到空白楨的時候把并beam值減少。

　�。�2）基于語音識別的關(guān)鍵詞檢索

　　基于語音識別的關(guān)鍵詞檢索是將語音識別的結(jié)果構(gòu)建成一個索引網(wǎng)絡(luò)，然后把關(guān)鍵詞從索引網(wǎng)絡(luò)中找出來。從圖1中可以看到，首先將語音數(shù)據(jù)進(jìn)行識別處理，從里面提取索引構(gòu)建索引網(wǎng)絡(luò)，進(jìn)行關(guān)鍵詞檢索的時候，我們會把關(guān)鍵詞表在網(wǎng)絡(luò)中進(jìn)行搜索，找到概率最高的，輸出其關(guān)鍵詞匹配結(jié)果。

圖1.基于語音識別的關(guān)鍵詞檢索

　　構(gòu)建檢索網(wǎng)絡(luò)是語音關(guān)鍵詞檢索的重要環(huán)節(jié)。如圖2所示，在第一個時間段內(nèi)（w1、w3、w6、w7），這句話被識別成了四個不同的詞，語音識別只能給出一條路徑，但在語音關(guān)鍵詞檢索網(wǎng)絡(luò)中可以從四個結(jié)果中進(jìn)行篩選。

圖2構(gòu)建檢索網(wǎng)絡(luò)示意圖

　　確定關(guān)鍵詞檢索網(wǎng)絡(luò)后，接下來進(jìn)行的是關(guān)鍵詞檢索。關(guān)鍵詞檢索可以基于音節(jié)信息，首先將用戶設(shè)定的關(guān)鍵詞文本解析成音節(jié)序列，再從檢索網(wǎng)絡(luò)中找出匹配結(jié)果，相比直接對文本結(jié)果進(jìn)行檢索，這種方法的容錯性更強(qiáng)，而且關(guān)鍵詞檢索中的聲學(xué)模型可以是基于CTC的模型，因此，計算量更小，執(zhí)行效率更高，更適用于語音質(zhì)檢這種海量數(shù)據(jù)檢索的應(yīng)用場景。

　　二、音頻對比

　　音頻比對是指從音頻信號提取特征，通過特征進(jìn)行比對的方法進(jìn)行有害信息檢索的方法。該方法的核心在于提取的特征值需要滿足一定的要求，比如抗噪性、轉(zhuǎn)換不變性、魯棒性、快速性等特點(diǎn)，主要是為了滿足同一音頻能夠在不同聲道下進(jìn)行準(zhǔn)確檢索。傳統(tǒng)的MFCC、FBANK等聲學(xué)特征已經(jīng)不能滿足音頻比對任務(wù)的需求。圖3是一個基于頻譜最大值來建模的音頻比對方法。在完成最大值點(diǎn)完成建模后，需要進(jìn)行特征的構(gòu)建。而特征構(gòu)建是通過最大值點(diǎn)之間的距離來建模，例如兩個最大值點(diǎn)的距離、位置信息作為一個固定的特征來完成音頻特征信息的構(gòu)建。有了上述音頻特征之后，就可以對兩個不同音頻進(jìn)行檢索，最大相似度的地方就是相似點(diǎn)，這種技術(shù)最適用于文本內(nèi)容無關(guān)的錄音片段的檢索。

圖3.基于頻譜最大值建模的音頻比對方法

　　三、情感識別

　　語音是人類交際的最重要的工具之一。人們在進(jìn)行自然口語對話時，不僅傳遞聲音，更重要的是傳遞說話人的情感狀態(tài)、態(tài)度、意圖等。一般的情感語音識別系統(tǒng)框圖如圖4所示。根據(jù)情感模型的不同，情感語音識別主要分為離散情感識別和連續(xù)情感語音識別。

圖4.語音情感識別典型系統(tǒng)框圖

　　離散情感識別是一個典型的模式分類問題，各種傳統(tǒng)的分類器均被廣泛應(yīng)用于語音情感識別系統(tǒng)。例如隱馬爾科夫模型、高斯混合模型、支持向量機(jī)，人工神經(jīng)網(wǎng)絡(luò)等。維度情感識別一般被建模為回歸預(yù)測問題。在機(jī)器學(xué)習(xí)算法層面，根據(jù)是否考慮序列上下文信息可將現(xiàn)有方法分為靜態(tài)機(jī)器學(xué)習(xí)算法和動態(tài)機(jī)器學(xué)習(xí)算法。在靜態(tài)機(jī)器學(xué)習(xí)算法中，AdaBoost、高斯混合模型、人工神經(jīng)網(wǎng)絡(luò)、支持向量回歸等廣泛應(yīng)用于維度情感識別中序列單元的回歸問題。鑒于維度情感的序列標(biāo)注情況，序列上下文信息有助于提高情感識別性能，因而更多的工作集中于動態(tài)機(jī)器學(xué)習(xí)算法。隨著深度學(xué)習(xí)技術(shù)的發(fā)展，基于LSTM-RNN的系統(tǒng)便被更加廣泛的應(yīng)用于維度情感識別領(lǐng)域。

　　情感識別解決方案通過分析不同情感狀態(tài)和語音聲學(xué)參數(shù)的關(guān)聯(lián)關(guān)系，抽取出魯棒聲學(xué)特征參數(shù)，綜合考慮不同人對同一段語音的情感感知結(jié)果，建立語音情感識別模型。為了提高語音情感識別的魯棒性，采用非線性建模方法建立情感語音分析模型，有效的解決了噪聲環(huán)境下情感語音分析問題。針對情感識別中的時序建模問題，采用一種基于特征層建模和決策層建模相結(jié)合的多尺度時序建模方法。在特征層實(shí)現(xiàn)短粒度的時序建模。在決策層實(shí)現(xiàn)更長粒度的時序建模，并與特征層的時序建模實(shí)現(xiàn)相互補(bǔ)充。通過上述改進(jìn)，有效的提高了語音情感識別的準(zhǔn)確率，可以對通話者的情感狀態(tài)進(jìn)行動態(tài)的捕獲和跟蹤。

　　極限元智能科技在智能語音、計算機(jī)視覺、自然語言處理、大數(shù)據(jù)分析等技術(shù)領(lǐng)域有多年技術(shù)積累，推出了一些系列云端和終端的跨平臺AI技術(shù)解決方案，產(chǎn)品和服務(wù)廣泛應(yīng)用在教育、安全、交通、泛娛樂等多個行業(yè)。其中，成熟的音頻檢測技術(shù)落地場景更是涉及到反電信詐騙、公安技偵、互聯(lián)網(wǎng)音視頻有害信息檢測、呼叫中心錄音質(zhì)檢等多個方面。

極限元CEO溫正棋：多通道融合的語音質(zhì)檢方案

評論排行

推薦閱讀

專題

大家都在看