亚洲av无码乱码在线观看牲色,无码一级午夜福利免费区无码

首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識別(ASR)　　語音識別產(chǎn)品

語音識別:抗噪音能力有待加強(qiáng)

王向東欒煥博林守勛錢躍良 2006/08/11

　　語音識別已經(jīng)成為一個面向多種應(yīng)用、滿足多種需求的龐大體系，這種技術(shù)的廣泛應(yīng)用推動了語音識別評測的誕生，而評測反過來又推動了語音識別技術(shù)的進(jìn)步。

　　語音識別是指用計(jì)算機(jī)對人的語音信號進(jìn)行分析處理，從而得到其對應(yīng)文字的過程。其最終目的就是實(shí)現(xiàn)一種自然的人機(jī)交互方式，使機(jī)器能聽懂人的語言，辨明話音的內(nèi)容，將人的語音正確地轉(zhuǎn)化為對應(yīng)的文本，或者根據(jù)語義做出相應(yīng)的動作。常見的應(yīng)用系統(tǒng)有語音輸入系統(tǒng)、語音控制系統(tǒng)、智能對話查詢系統(tǒng)等。而語音識別評測是指針對語音識別的某項(xiàng)應(yīng)用，創(chuàng)建評測語料庫，提出評測指標(biāo)和對應(yīng)算法，用評測語料訓(xùn)練和測試各參評系統(tǒng)，并對其識別結(jié)果進(jìn)行比較和分析的過程。

　　實(shí)際上，從1987年起，美國國家標(biāo)準(zhǔn)技術(shù)局就開始組織對各大學(xué)和公司研發(fā)的語音識別系統(tǒng)進(jìn)行評測。十幾年間，根據(jù)技術(shù)的現(xiàn)狀，組織了多次不同任務(wù)的評測，促進(jìn)了領(lǐng)域內(nèi)的競爭和交流，對語音識別技術(shù)的進(jìn)步和發(fā)展起到了巨大的引領(lǐng)和推動作用。

　　當(dāng)前，國際上知名的語音識別評測主要有: 美國NIST（國家標(biāo)準(zhǔn)技術(shù)局）評測、歐洲TC-STAR評測和中國的863評測。美國NIST評測是開展歷史最久、項(xiàng)目設(shè)置最全也最負(fù)盛名的評測，近20年來，每年都針對語音識別方向的熱點(diǎn)技術(shù)組織國際性評測，涉及的語言有英語、漢語普通話和阿拉伯語，涉及的任務(wù)有孤立詞識別、關(guān)鍵詞識別和大詞匯量連續(xù)語音識別，涉及的語音包括了朗讀語音、自然語音、對話語音、廣播語音、會議語音等各種常見的語音類別。TC-STAR語音識別評測是歐盟TC-STAR項(xiàng)目的一部分。該項(xiàng)目主要針對語音到語音的機(jī)器自動翻譯。其語音識別評測任務(wù)為連續(xù)語音識別，針對英語、西班牙語和漢語普通話，處理的語音為會議發(fā)言（英語、西班牙語）或新聞廣播（漢語）。863語音識別評測是類似NIST評測的綜合性評測，語言以漢語為主，任務(wù)和通道多樣，根據(jù)語音識別技術(shù)的現(xiàn)狀和發(fā)展趨勢不斷調(diào)整。

　　語音識別的主要技術(shù)

　　近年來，由于大規(guī)模語料庫的支持，基于統(tǒng)計(jì)的語音識別方法逐漸發(fā)展成熟，取得了較好的識別結(jié)果，成為當(dāng)前語音識別技術(shù)的主流。基于隱馬爾可夫模型（HMM）的統(tǒng)計(jì)語音識別在各個通道，各種任務(wù)的語音識別中得到了廣泛應(yīng)用。

　　圖1所示為當(dāng)前大多數(shù)語音識別系統(tǒng)采用的框架和流程。原始語音經(jīng)前端處理后，從中提取出若干維的特征向量用于識別。識別時，聲學(xué)模型和語言模型共同作用，得到使某一概率最大的字串作為識別結(jié)果。

　　前端處理是指在特征提取之前，先對原始語音進(jìn)行處理，部分消除噪聲和不同說話人帶來的影響，使處理后的信號更能反映語音的本質(zhì)特征。最常用的前端處理有端點(diǎn)檢測和語音增強(qiáng)。端點(diǎn)檢測是指在語音信號中將語音和非語音信號時段區(qū)分開來，準(zhǔn)確地確定出語音信號的起始點(diǎn)。經(jīng)過端點(diǎn)檢測后，后續(xù)處理就可以只對語音信號進(jìn)行，這對提高模型的精確度和識別正確率有重要作用。語音增強(qiáng)的主要任務(wù)就是消除環(huán)境噪聲對語音的影響。目前通用的方法是采用維納濾波，該方法在噪聲較大的情況下效果好于其他濾波器。

　　在特征提取階段，一般是把語音信號切分成幾十毫秒的幀，對每一幀提取一個特征向量。但這樣會丟失幀與幀之間的聯(lián)接信息，無法反映幀之間的變化過程，因此，還應(yīng)該加上向量的一階差分和二階差分（相當(dāng)于連續(xù)函數(shù)中的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)）共同構(gòu)成特征。

　　如上文所述，目前主流的語音識別系統(tǒng)大多基于統(tǒng)計(jì)模式識別原理，其基礎(chǔ)是由聲學(xué)模型和語言模型共同構(gòu)成的統(tǒng)計(jì)模型。

　　聲學(xué)模型是識別系統(tǒng)的底層模型，其目標(biāo)是通過模型度量，尋找語音特征向量序列對應(yīng)的發(fā)音。當(dāng)前常用的聲學(xué)模型是隱馬爾可夫模型（HMM）。HMM模型可以看成一個雙重隨機(jī)過程，一個馬爾可夫鏈的各個狀態(tài)可以產(chǎn)生出各種輸出。這種機(jī)制較合理地模仿了人類語言活動的過程，對孤立詞和連續(xù)語音識別來說都是較理想的聲學(xué)模型。

　　語言模型的作用是通過提供字或詞之間的上下文信息和語義信息。對于大詞匯量連續(xù)語音識別，語言模型是必不可少的關(guān)鍵模塊之一。目前比較成熟的方法是統(tǒng)計(jì)語言模型，當(dāng)前的主流方法是N元文法（N-gram），其主要思想是根據(jù)已知前（N-1）個字或詞，預(yù)測第N個字或詞出現(xiàn)的概率。由于訓(xùn)練語料的限制，目前主要采用三元語法。

　　訓(xùn)練統(tǒng)計(jì)模型

　　對于統(tǒng)計(jì)模型，要想使得它能夠識別語音，必須對模型進(jìn)行訓(xùn)練。所謂訓(xùn)練，是指對大量的訓(xùn)練語料進(jìn)行統(tǒng)計(jì)和處理，計(jì)算和調(diào)整模型的參數(shù)，使模型對未訓(xùn)練過的數(shù)據(jù)也能達(dá)到理想的識別結(jié)果。語音識別系統(tǒng)的訓(xùn)練主要包括聲學(xué)模型的訓(xùn)練和語言模型的訓(xùn)練。對于廣泛采用的HMM聲學(xué)模型，其訓(xùn)練主要是獲取HMM中的狀態(tài)轉(zhuǎn)移概率、各狀態(tài)的輸出概率分布等參數(shù)。常用的方法是基于最大似然估計(jì)原理的迭代算法（如Baum-Welch算法）。對于基于三元文法的語言模型，其訓(xùn)練主要是從大量的文本中計(jì)算三元組的概率。

　　當(dāng)模型訓(xùn)練好以后，就可以進(jìn)行識別了。語音識別算法的主要思路是在侯選的詞串中搜索使聲學(xué)模型和語言模型的概率乘積最大的詞串。因此，識別過程也常稱作搜索（Search）或解碼（Decoding）。當(dāng)前常用的搜索算法是Viterbi算法，其本質(zhì)是一種動態(tài)規(guī)劃方法。

　　當(dāng)前的語音識別系統(tǒng)大都是說話人無關(guān)（Speaker Independent）系統(tǒng)，即事先并不知道要識別的語音的說話人特征。但是，對于某個說話人，如果能夠適當(dāng)學(xué)習(xí)他（她）的發(fā)音特點(diǎn)，調(diào)整模型參數(shù)，顯然會使得識別效果更好。這就是說話人自適應(yīng)的主要原理。所謂說話人自適應(yīng)，是指對大訓(xùn)練集上得到的模型參數(shù)進(jìn)行調(diào)整，使之對當(dāng)前說話人產(chǎn)生更好地識別效果。可以說，說話人自適應(yīng)實(shí)際上是希望通過少量數(shù)據(jù)的增強(qiáng)訓(xùn)練（即所謂的自適應(yīng)過程），使非特定人系統(tǒng)接近特定人系統(tǒng)的性能。常用的說話人自適應(yīng)方法主要有兩種: 最大后驗(yàn)概率（MAP）方法和最大似然線性回歸（MLLR）方法。MPA算法采用基于最大后驗(yàn)概率準(zhǔn)則，具有理論上的最優(yōu)性，因此在小詞表的語音識別任務(wù)中具有相當(dāng)好的性能。其缺點(diǎn)是對大詞匯量的任務(wù)自適應(yīng)速度緩慢，無法滿足應(yīng)用的要求。因此，當(dāng)前的大詞匯量連續(xù)語音識別系統(tǒng)大多采用MLLR方法，或?qū)AP與MLLR結(jié)合。從評測結(jié)果來看，如果有充分的時間調(diào)整說話人自適應(yīng)模型，連續(xù)語音識別中的字錯誤率可以下降1至4個百分點(diǎn)。

　　從幾年來各參評系統(tǒng)采用的主要技術(shù)來看，當(dāng)前語音識別系統(tǒng)中的技術(shù)嚴(yán)重趨同。幾乎所有的參評系統(tǒng)都采用上述框架和基本模塊，區(qū)別主要在于模塊內(nèi)部的細(xì)化程度，或者把某模塊中的幾種技術(shù)做些組合。例如，采用不同的前端處理方法，對男女聲和有無噪聲的語音分類處理，以及同時采用多種聲學(xué)特征和不同的搜索策略構(gòu)造多個識別子系統(tǒng)，最后對各子系統(tǒng)的識別結(jié)果做一種類似投票的表決（ROVER技術(shù)），得到最終識別結(jié)果。

　　由于863語音識別評測并不限制訓(xùn)練數(shù)據(jù)的使用，各單位可以使用自備的所有數(shù)據(jù)。因此，從評測結(jié)果及各單位的研討中可以看到，訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量對系統(tǒng)的性能有很大的影響。為了使評測更公平，2005年的評測中提供了一定量的統(tǒng)一訓(xùn)練集，但規(guī)模還較小。在以后的評測中，將考慮提供大量的訓(xùn)練集，希望能夠避免因訓(xùn)練數(shù)據(jù)不同而造成的性能差異。

　　863計(jì)劃中語音識別評測

　　從2003年起，中國科學(xué)院計(jì)算技術(shù)研究所連續(xù)三年承辦863計(jì)劃中文信息處理與智能人機(jī)接口技術(shù)評測，語音識別評測始終是其中的一個主要分項(xiàng)。三年間，863語音識別評測受到了國內(nèi)外語音識別研究者的關(guān)注，參加單位數(shù)逐年遞增，成為國內(nèi)語音識別領(lǐng)域最高級別的交流平臺，在國際上也具備了相當(dāng)?shù)挠绊懥Α?

　　2003年和2004年度語音識別評測采用現(xiàn)場評測方式，即各參評系統(tǒng)的運(yùn)行在評測現(xiàn)場同時進(jìn)行。這種組織形式比較嚴(yán)格，一旦參評系統(tǒng)運(yùn)行出現(xiàn)故障將無法繼續(xù)。而且，要求所有參評單位必須到場，其成本也較高。為了避免這些問題，2005年的863評測采用目前國際通用的網(wǎng)上評測的方法，即在網(wǎng)上發(fā)布數(shù)據(jù)，各參評單位在自己的運(yùn)行環(huán)境上運(yùn)行參評系統(tǒng)后將識別結(jié)果通過網(wǎng)絡(luò)提交給評測單位。

　　863語音識別評測最大的特色在于測試數(shù)據(jù)的選取。文本語料的選取采用從大規(guī)模原始語料庫中篩選的方法，充分考慮到了對各種韻律學(xué)特征（音節(jié)、二音子、三音子、音連關(guān)系等）、語法特征（句型和句法結(jié)構(gòu)等）和各種領(lǐng)域、各種文體（散文、小說、實(shí)事新聞等）的覆蓋。錄音時不是采用實(shí)驗(yàn)室加噪聲，而是在完全真實(shí)的場景中錄制數(shù)據(jù)，并且充分考慮到了說話人、信噪比等因素的覆蓋，在實(shí)驗(yàn)的基礎(chǔ)上提出了真實(shí)環(huán)境中信噪比的分布模型，并在此模型的指導(dǎo)下錄制數(shù)據(jù)。這種以實(shí)驗(yàn)和理論為依據(jù)、以算法為支撐，控制各種語音屬性，從而最大限度地?cái)M合真實(shí)應(yīng)用的數(shù)據(jù)采集方法，在國際上也是很有特色的。目前國際上的同類評測，錄音場景多為實(shí)驗(yàn)室，對各種影響因素一般只做寬泛的覆蓋，幾乎沒有按理論模型控制的方法。

　　863語音識別評測的另一個特點(diǎn)是對結(jié)果做了充分的統(tǒng)計(jì)分析。目前的國際評測一般除給出相應(yīng)的指標(biāo)外，還會做一些統(tǒng)計(jì)分析，而之前的國內(nèi)評測卻很少這么做。從2004年開始，863語音識別評測也開始對結(jié)果進(jìn)行統(tǒng)計(jì)分析，而在2005年的評測中，更是采用專業(yè)統(tǒng)計(jì)學(xué)方法，采用實(shí)驗(yàn)設(shè)計(jì)、假設(shè)檢驗(yàn)、回歸分析、方差分析、協(xié)方差分析等一系方法對結(jié)果及影響結(jié)果的因素進(jìn)行了深入分析，對各評測單位認(rèn)清自己系統(tǒng)的優(yōu)勢和缺點(diǎn)，進(jìn)一步改進(jìn)起到了很大作用。

　　另外，在電話連續(xù)語音關(guān)鍵詞識別評測中，在2004年嘗試了以語義槽為單位的基于語法關(guān)鍵詞識別任務(wù)和評測指標(biāo)，在2005年首次使用了兩個說話人一起錄制的自然對話語音，更加符合真實(shí)應(yīng)用的特點(diǎn)，這在國際同類評測中都是沒有的。

　　從評測結(jié)果看語音識別技術(shù)現(xiàn)狀

　　863語音識別評測，包括PC、電話、嵌入式設(shè)備三個語音通道，涉及聽寫機(jī)、對話查詢、命令詞識別等多種任務(wù)，基本上涵蓋了當(dāng)前語音識別的主要研究和應(yīng)用方向。而參評的又大都是國內(nèi)長期進(jìn)行該項(xiàng)研究、有較高水平的單位和系統(tǒng)，因此，無論是采用的方法還是識別的效果，本次評測都可以真實(shí)反映出國內(nèi)語音識別技術(shù)的現(xiàn)狀。這里結(jié)合2004年的評測，對評測結(jié)果進(jìn)行分析。之所以選擇2004年的評測結(jié)果，是因?yàn)樗脑u測分項(xiàng)最全，幾乎覆蓋了語音識別的各種應(yīng)用。

　　1. 識別結(jié)果的評價

　　評測的主要目標(biāo)就是通過對識別結(jié)果的評價、分析了解參評系統(tǒng)的性能的和語音技術(shù)的現(xiàn)狀。因此，制訂有效的、能夠真實(shí)反映出系統(tǒng)性能的評價指標(biāo)也是很重要的研究任務(wù)。

　　對于大詞匯量連續(xù)語音識別來說，國際上通用的指標(biāo)是文字錯誤率（對于英語，文字指單詞; 對于漢語，文字指字，下同）。其基本思想為采用動態(tài)規(guī)劃算法將標(biāo)準(zhǔn)答案與識別結(jié)果對齊，以得到“正確文字?jǐn)?shù)”、“替換文字?jǐn)?shù)”、“插入文字?jǐn)?shù)”、“刪除文字?jǐn)?shù)”四項(xiàng)參數(shù)，然后計(jì)算文字錯誤率。

　　錯誤文字?jǐn)?shù) ＝替換＋插入＋刪除文字?jǐn)?shù)

　　文字錯誤率＝錯誤文字?jǐn)?shù) / 原文答案文字?jǐn)?shù)

　　下面給出一個例子:

　　LAB: 新增四百萬千瓦時的強(qiáng) 大電流輸入云南的電網(wǎng)

　　REC: 新增四百花錢忙時的槍打電流于樹綠云南電網(wǎng)

　　C C C C N N N C C N N C C I N N C C D C C

　　其中，LAB是標(biāo)準(zhǔn)答案，REC是識別結(jié)果，上面的格式是根據(jù)編輯距離最小對齊的結(jié)果，第三行標(biāo)記了各類文字，C表示正確文字，N表示替換文字，I表示插入文字，D表示刪除文字。

　　2004年863語音識別評測中的電話連續(xù)語音識別評測分項(xiàng)采用的主要指標(biāo)是語義槽識別正確率，即用語料文本解析得到的標(biāo)準(zhǔn)答案和識別結(jié)果相比較，完全匹配的槽認(rèn)為是識別正確的，定義槽識別正確率為:

　　槽識別正確率＝正確識別的槽的個數(shù) / 標(biāo)準(zhǔn)答案中槽的總數(shù)

　　對于嵌入式設(shè)備命令詞識別，由于是孤立詞識別，因此采用命令詞識別正確率即可:

　　命令詞識別正確率＝正確識別的命令詞數(shù) / 命令詞總數(shù)

　　2. 識別系統(tǒng)性能

　　對各系統(tǒng)給出的識別結(jié)果計(jì)算上述指標(biāo)，得到對各系統(tǒng)識別性能的評價。表1給出了每個分項(xiàng)中識別效果最好的系統(tǒng)的指標(biāo)，以及前三名系統(tǒng)的平均指標(biāo)。為了統(tǒng)一，將電話連續(xù)語音識別中的槽識別正確率和嵌入式設(shè)備命令詞識別中的命令詞識別正確率統(tǒng)稱為正確率。對桌面（這里指PC，以下同）連續(xù)語音識別，采用文字正確率，定義為（目前研究者對文字正確率定義稍有不同，本文中一律以下面的定義為準(zhǔn)）:

　　文字正確率＝ 1 －文字錯誤率

　　表中的最高正確率基本可以代表該分項(xiàng)的最高水平，前三名的正確率均值可以一定程度上反映該分項(xiàng)的平均水平，而前三名正確率的方差可以反映該分項(xiàng)中各系統(tǒng)的性能差異程度。

　　從表中可以看到，桌面連續(xù)語音識別分項(xiàng)中，漢語的識別效果遠(yuǎn)遠(yuǎn)好于英語（文字正確率最多相差20個百分點(diǎn)）。其原因顯然在于國內(nèi)對漢語語音識別的研究比英語多而且深入。另外，英語訓(xùn)練語料的相對缺乏，也是一個重要原因。

　　在采用了語法限制的語義槽識別任務(wù)和槽識別正確率作為評測指標(biāo)后，電話連續(xù)語音的槽識別正確率較低。事實(shí)上，由于電話語音的錄制環(huán)境為辦公室環(huán)境，其噪音比桌面語音要小得多，所以正確率較低的原因主要在于對語法的處理和槽識別正確率較低。

　　嵌入式設(shè)備命令詞識別的正確率與桌面語音字正確率大致相當(dāng)。一方面，連續(xù)語音識別要比孤立詞識別困難，另一方面，嵌入式設(shè)備的語音通道和計(jì)算資源都比PC差得多，從結(jié)果可以看出，這兩方面的因素基本抵消。

　　從各分項(xiàng)前三名的正確率方差可以看出，漢語桌面連續(xù)語音識別和嵌入式設(shè)備命令詞分項(xiàng)中各系統(tǒng)的性能差異較小，而英語桌面連續(xù)語音識別，特別是一倍實(shí)時任務(wù)中各系統(tǒng)性能差異較大。這是因?yàn)楫?dāng)前語音識別的研究重點(diǎn)在于前者，研究者較多，研究也比較深入，而英語的識別相對來說研究者較少。

　　3. 影響系統(tǒng)識別性能的因素

　　從上面的識別結(jié)果評價可以看出，對真實(shí)噪音環(huán)境下錄制的語音數(shù)據(jù)，當(dāng)前的語音識別系統(tǒng)識別正確率偏低，還很難達(dá)到實(shí)用。

　　從語音識別產(chǎn)生以來，噪音一直是影響識別效果的主要因素。為了分析噪音對識別的影響，將評測數(shù)據(jù)按信噪比（SNR）分段，從參評系統(tǒng)選取三個，分別計(jì)算其在各段內(nèi)的識別正確率，可以看出，識別正確率基本上隨著SNR的增大而提高，SNR在20dB以上的數(shù)據(jù)正確率比SNR在5～10dB的數(shù)據(jù)高近30個百分點(diǎn)。對桌面連續(xù)語音識別的其他分項(xiàng)和嵌入式命令詞識別的結(jié)果分析也得到類似的結(jié)果。

　　對于電話連續(xù)語音識別來說，由于錄制環(huán)境是辦公室真實(shí)環(huán)境，因此噪音并不是影響性能的主要因素。電話連續(xù)語音識別分為5個子領(lǐng)域，每個子領(lǐng)域各有一套語法。評測句子由語法生成的有效成分在前后加上任意長的填充詞（filler）構(gòu)成，如語法生成的句子為“從天安門到中關(guān)村怎么坐公交車”，而實(shí)際錄制的句子是“你好，請問從天安門到中關(guān)村怎么坐公交車，可以查到嗎？”，其中的“你好，請問”和“可以查到嗎”就是filler。由分析可以發(fā)現(xiàn)，不同領(lǐng)域內(nèi)的槽識別正確率相差很大。這主要有兩個原因，一是不同領(lǐng)域的語法復(fù)雜度不同，二是不同領(lǐng)域內(nèi)有filler的句子所占比例不同。為了進(jìn)一步衡量filler對識別的影響，選取三個識別系統(tǒng)，將有filler的句子和沒有filler的句子分別計(jì)算識別率，統(tǒng)計(jì)結(jié)果如圖2所示。從圖中可以看出，filler對識別的影響是相當(dāng)大的，無filler的句子比有filler的句子識別正確率可以高幾十個百分點(diǎn)。

　　從上面的介紹可以看到，國內(nèi)語音識別研究發(fā)展迅速，識別性能日益提高，

　　但在對真實(shí)環(huán)境下錄制的數(shù)據(jù)，特別是信噪比較低的情況下，識別性能還無法達(dá)到實(shí)用要求。對于桌面連續(xù)語音和嵌入式設(shè)備上的孤立詞識別，對噪音的魯棒性不高是系統(tǒng)面臨的主要問題。對于電話查詢系統(tǒng)來說，對語義的解析和無關(guān)語句的處理還存在一定困難。另外，對非朗讀的自然語音，如對話、會議內(nèi)容的識別，對電視廣播節(jié)目內(nèi)容的識別或檢索近年來吸引了越來越多研究者的注意，國外的一些評測機(jī)構(gòu)也組織了這方面的評測，863語音識別評測也在考慮增加相應(yīng)的項(xiàng)目�？傊�，863語音識別評測將繼續(xù)針對這些任務(wù)，針對噪音、方言、自然語音等關(guān)鍵問題構(gòu)建評測語料庫，開展評測，提供結(jié)果分析，組織討論交流，以促進(jìn)語音識別技術(shù)的發(fā)展。

計(jì)算機(jī)世界網(wǎng)(www.ccw.com.cn)

識別語音的幾種依據(jù) 2006-07-31

語音識別技術(shù)突飛猛進(jìn) 終有一天超過人？ 2006-07-20

語音識別標(biāo)準(zhǔn)之痛 2006-06-19

你好！新語音識別時代 2006-06-01

相關(guān)頻道: 文摘技術(shù)_語音識別_文摘