曰韩精品黄片,超清纯白嫩大学生无码网站

　　在MRCP協(xié)議的處理流程中，聲音的處理包括了很多最基礎(chǔ)的語音聲學(xué)基本的原理。雖然我們不是聲學(xué)方面的專家，但是為了實(shí)現(xiàn)MRCP協(xié)議，我們還是需要一點(diǎn)基本的基礎(chǔ)知識(shí)。我們將從基本的人體聲音系統(tǒng)的產(chǎn)生和聲學(xué)工程學(xué)處理方式，語音語法，發(fā)音，語音識(shí)別前后端處理等方面做一個(gè)簡單介紹。

　　1、首先，讓我們看看人體的聲音系統(tǒng)是如何進(jìn)行工作的。人體的空氣通過肺，然后通過導(dǎo)管傳遞到喉嚨。喉嚨本身是一個(gè)非常復(fù)雜的系統(tǒng)，包括發(fā)音的主要核心部分-聲帶。人體嘴唇，鼻腔，咽喉等通過振蕩等處理流程共同控制了發(fā)音，頻率，男女發(fā)音等不同的語音參數(shù)。

　　人的語言系統(tǒng)可以轉(zhuǎn)化成一個(gè)工程化的處理流程來模擬真正的人體發(fā)音。通過工程轉(zhuǎn)化以后的示例結(jié)果如下。因?yàn)樾詣e的不同，男性和女性的音高有所不同，女性的范圍大概在120-500Hz之間，男性則為50-250hz 之間。

　　2、語音識(shí)別需要考慮很多的環(huán)境因素和人自己本身的因素。人們發(fā)音環(huán)境受很多因素的影響：

每個(gè)人都發(fā)音都是獨(dú)特的，而且每個(gè)人都口音也不同。
每個(gè)人都說話方式也完全不同，在有壓力的狀態(tài)下和無放松環(huán)境中，語音可能完全不同。
講話環(huán)境不同可能導(dǎo)致不同的語音信號(hào)，增加了語音識(shí)別的復(fù)雜程度。

　　總體來說，語音識(shí)別的基本流程概括如下：

根據(jù)以上圖例說明，基本的語音識(shí)別流程大概幾個(gè)主要的處理流程。首先原始的語音通過Feature Extraction 功能提取過程，此過程通過各種環(huán)境變量，把原始語音中有價(jià)值的語音數(shù)據(jù)提取出來，過濾掉一些不相關(guān)的數(shù)據(jù)，形成一組緊湊，穩(wěn)定的，可識(shí)別的數(shù)據(jù)，以方便通過數(shù)據(jù)模型來進(jìn)行處理。
在模式識(shí)別中，此處理流程需要通過語法，語音模型和詞匯處理來對(duì)提取出來的語音進(jìn)行加工。在模式識(shí)別處理中，識(shí)別模型使用了Hidden Markov Models （HMM）模型來進(jìn)行處理。HMM是一種數(shù)學(xué)結(jié)構(gòu)模型，它分為兩個(gè)部分。第一個(gè)部分是把語音按序轉(zhuǎn)化成一種有方向性的圖形。第二部分在給定的狀態(tài)下，把所需功能進(jìn)行模式化處理。如果大家需要了解更多具體的HMM細(xì)節(jié)，請(qǐng)參考相關(guān)技術(shù)文檔。

　　3、Endpoint detection（終端檢測(cè)）是針對(duì)背景噪音進(jìn)行處理。它主要解決的問題是來自背景噪音的連續(xù)信號(hào)中部分獨(dú)立的語音進(jìn)行分析處理。比較早的語音識(shí)別技術(shù)只能識(shí)別各自獨(dú)立的，缺乏對(duì)終端檢測(cè)的準(zhǔn)確判斷。比較新的語音識(shí)別技術(shù)中可以對(duì)識(shí)別連續(xù)的語音。新語音識(shí)別技術(shù)可以通過訓(xùn)練樣本來進(jìn)行獲得準(zhǔn)確的結(jié)果。

　　在話語識(shí)別中，兩個(gè)主要的任務(wù)就是speaker verification 和 speaker identification。其中speaker verification 主要的目的就是實(shí)現(xiàn)講話人的驗(yàn)證，講話人通過密碼輸入，其他相關(guān)編碼來識(shí)別器身份。講話者的驗(yàn)證最終輸出的結(jié)果是接受此驗(yàn)證或者拒絕此驗(yàn)證；

　　而speaker identification 的主要作用是從講話人中間確定某一個(gè)的身份。最終的輸出結(jié)果是以模型為基礎(chǔ)，從各種講話人中找到最相似的結(jié)果。

　　Text-to-Speech（TTS）文本語音合成也是MRCP重要的一個(gè)技術(shù)概念。其主要目的是通過前后端引擎的處理，把自然文本語言轉(zhuǎn)化成語音流的過程。通過合成處理以后，其結(jié)果必須是正確的，智能的，當(dāng)然也要具有語言的自然性。語音IVR就是一個(gè)非常典型的例子。以下圖例是一個(gè)語音合成的實(shí)現(xiàn)流程圖：

　　前端處理主要負(fù)責(zé)用戶輸入的文本文字經(jīng)過解析分析對(duì)比，然后形成語句單元，聲音音量等相關(guān)標(biāo)簽。后端處理則根據(jù)前端的輸出結(jié)果存儲(chǔ)，重新排序，存儲(chǔ)，和數(shù)據(jù)庫的語句查詢重新構(gòu)建語音流。后端處理中的Unit Selection是一個(gè)比較重要的技術(shù)話題，它涉及了數(shù)據(jù)庫存儲(chǔ)方面的問題和語義單元存儲(chǔ)方式的問題，包括存儲(chǔ)全句還是偏語或者其他的關(guān)鍵詞等。我們這里不再做過多討論。在未來的MRCP合成中會(huì)涉及。

　　4、在本期的分享學(xué)習(xí)中，我們介紹了幾個(gè)基本的關(guān)于語音識(shí)別的概念和基本的處理流程。因?yàn)槠年P(guān)系和討論的側(cè)重點(diǎn)不同，這其中沒有涉及很多重要的概念，例如統(tǒng)計(jì)模型，語言模型，訓(xùn)練，Mel-cepstrum等話題。我們主要把未來需要的幾個(gè)重點(diǎn)概念和處理流程做了簡要介紹，結(jié)合了幾個(gè)拓?fù)鋱D來幫助大家進(jìn)一步了解語音識(shí)別的技術(shù)核心要素。當(dāng)然，這些內(nèi)容遠(yuǎn)遠(yuǎn)不能涵蓋語音識(shí)別的技術(shù)深度，并且難免存在很多問題，用戶需要自己通過語音識(shí)別的權(quán)威技術(shù)資料做進(jìn)一步的研究。