您當(dāng)前的位置是:  首頁 > 新聞 > 國內(nèi) >
 首頁 > 新聞 > 國內(nèi) >

MRCP協(xié)議學(xué)習(xí)筆記-語音處理的基本原理

2018-05-02 09:17:14   作者:james.zhu    來源:Asterisk開源派   評(píng)論:0  點(diǎn)擊:


  在MRCP協(xié)議的處理流程中,聲音的處理包括了很多最基礎(chǔ)的語音聲學(xué)基本的原理。雖然我們不是聲學(xué)方面的專家,但是為了實(shí)現(xiàn)MRCP協(xié)議,我們還是需要一點(diǎn)基本的基礎(chǔ)知識(shí)。我們將從基本的人體聲音系統(tǒng)的產(chǎn)生和聲學(xué)工程學(xué)處理方式,語音語法,發(fā)音,語音識(shí)別前后端處理等方面做一個(gè)簡單介紹。
  1、首先,讓我們看看人體的聲音系統(tǒng)是如何進(jìn)行工作的。人體的空氣通過肺,然后通過導(dǎo)管傳遞到喉嚨。喉嚨本身是一個(gè)非常復(fù)雜的系統(tǒng),包括發(fā)音的主要核心部分-聲帶。人體嘴唇,鼻腔,咽喉等通過振蕩等處理流程共同控制了發(fā)音,頻率,男女發(fā)音等不同的語音參數(shù)。
  人的語言系統(tǒng)可以轉(zhuǎn)化成一個(gè)工程化的處理流程來模擬真正的人體發(fā)音。通過工程轉(zhuǎn)化以后的示例結(jié)果如下。因?yàn)樾詣e的不同,男性和女性的音高有所不同,女性的范圍大概在120-500Hz之間,男性則為50-250hz 之間。
  2、語音識(shí)別需要考慮很多的環(huán)境因素和人自己本身的因素。人們發(fā)音環(huán)境受很多因素的影響:
  • 每個(gè)人都發(fā)音都是獨(dú)特的,而且每個(gè)人都口音也不同。
  • 每個(gè)人都說話方式也完全不同,在有壓力的狀態(tài)下和無放松環(huán)境中,語音可能完全不同。
  • 講話環(huán)境不同可能導(dǎo)致不同的語音信號(hào),增加了語音識(shí)別的復(fù)雜程度。
  總體來說,語音識(shí)別的基本流程概括如下:
  • 根據(jù)以上圖例說明,基本的語音識(shí)別流程大概幾個(gè)主要的處理流程。首先原始的語音通過Feature Extraction 功能提取過程,此過程通過各種環(huán)境變量,把原始語音中有價(jià)值的語音數(shù)據(jù)提取出來,過濾掉一些不相關(guān)的數(shù)據(jù),形成一組緊湊,穩(wěn)定的,可識(shí)別的數(shù)據(jù),以方便通過數(shù)據(jù)模型來進(jìn)行處理。
  • 在模式識(shí)別中,此處理流程需要通過語法,語音模型和詞匯處理來對(duì)提取出來的語音進(jìn)行加工。在模式識(shí)別處理中,識(shí)別模型使用了Hidden Markov Models (HMM) 模型來進(jìn)行處理。HMM是一種數(shù)學(xué)結(jié)構(gòu)模型,它分為兩個(gè)部分。第一個(gè)部分是把語音按序轉(zhuǎn)化成一種有方向性的圖形。第二部分在給定的狀態(tài)下,把所需功能進(jìn)行模式化處理。如果大家需要了解更多具體的HMM細(xì)節(jié),請(qǐng)參考相關(guān)技術(shù)文檔。
  3、Endpoint detection(終端檢測(cè))是針對(duì)背景噪音進(jìn)行處理。它主要解決的問題是來自背景噪音的連續(xù)信號(hào)中部分獨(dú)立的語音進(jìn)行分析處理。比較早的語音識(shí)別技術(shù)只能識(shí)別各自獨(dú)立的,缺乏對(duì)終端檢測(cè)的準(zhǔn)確判斷。比較新的語音識(shí)別技術(shù)中可以對(duì)識(shí)別連續(xù)的語音。新語音識(shí)別技術(shù)可以通過訓(xùn)練樣本來進(jìn)行獲得準(zhǔn)確的結(jié)果。
  在話語識(shí)別中,兩個(gè)主要的任務(wù)就是speaker verification 和 speaker identification。其中speaker verification 主要的目的就是實(shí)現(xiàn)講話人的驗(yàn)證,講話人通過密碼輸入,其他相關(guān)編碼來識(shí)別器身份。講話者的驗(yàn)證最終輸出的結(jié)果是接受此驗(yàn)證或者拒絕此驗(yàn)證;
  而speaker identification 的主要作用是從講話人中間確定某一個(gè)的身份。最終的輸出結(jié)果是以模型為基礎(chǔ),從各種講話人中找到最相似的結(jié)果。
  Text-to-Speech(TTS)文本語音合成也是MRCP重要的一個(gè)技術(shù)概念。其主要目的是通過前后端引擎的處理,把自然文本語言轉(zhuǎn)化成語音流的過程。通過合成處理以后,其結(jié)果必須是正確的,智能的,當(dāng)然也要具有語言的自然性。語音IVR就是一個(gè)非常典型的例子。以下圖例是一個(gè)語音合成的實(shí)現(xiàn)流程圖:
  前端處理主要負(fù)責(zé)用戶輸入的文本文字經(jīng)過解析分析對(duì)比,然后形成語句單元,聲音音量等相關(guān)標(biāo)簽。后端處理則根據(jù)前端的輸出結(jié)果存儲(chǔ),重新排序,存儲(chǔ),和數(shù)據(jù)庫的語句查詢重新構(gòu)建語音流。后端處理中的Unit Selection是一個(gè)比較重要的技術(shù)話題,它涉及了數(shù)據(jù)庫存儲(chǔ)方面的問題和語義單元存儲(chǔ)方式的問題,包括存儲(chǔ)全句還是偏語或者其他的關(guān)鍵詞等。我們這里不再做過多討論。在未來的MRCP合成中會(huì)涉及。
  4、在本期的分享學(xué)習(xí)中,我們介紹了幾個(gè)基本的關(guān)于語音識(shí)別的概念和基本的處理流程。因?yàn)槠年P(guān)系和討論的側(cè)重點(diǎn)不同,這其中沒有涉及很多重要的概念,例如統(tǒng)計(jì)模型,語言模型,訓(xùn)練,Mel-cepstrum等話題。我們主要把未來需要的幾個(gè)重點(diǎn)概念和處理流程做了簡要介紹,結(jié)合了幾個(gè)拓?fù)鋱D來幫助大家進(jìn)一步了解語音識(shí)別的技術(shù)核心要素。當(dāng)然,這些內(nèi)容遠(yuǎn)遠(yuǎn)不能涵蓋語音識(shí)別的技術(shù)深度,并且難免存在很多問題,用戶需要自己通過語音識(shí)別的權(quán)威技術(shù)資料做進(jìn)一步的研究。


  關(guān)注微信公眾號(hào):asterisk-cn,獲得有價(jià)值的行業(yè)分享
  freepbx 技術(shù)論壇:www.ippbx.org.cn
  Asterisk, freepbx技術(shù)文檔: www.freepbx.org.cn
  歐米(Omni)智能客服解決方案
  融合通信商業(yè)解決方案,協(xié)同解決方案首選產(chǎn)品:www.hiastar.com
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專題