国产日本欧美在线观看,榴莲视频色黄网站,2020av在线

微軟:語(yǔ)音識(shí)別技術(shù)突飛猛進(jìn)

Speech Recognition Leaps Forward 翻譯 2011/09/22

　　2011年國(guó)際語(yǔ)音通訊協(xié)會(huì)第12次年會(huì)（Interspeech 2011）于8月28日至31日在意大利佛羅倫薩舉行。來(lái)自微軟研究院的研究人員在會(huì)上發(fā)表了他們的研究成果，這些成果極大地提升了非特定人實(shí)時(shí)語(yǔ)音識(shí)別系統(tǒng)的潛力。

　　來(lái)自微軟雷德蒙研究院的研究員俞棟博士以及來(lái)自微軟亞洲研究院的高級(jí)研究員兼研究經(jīng)理Frank Seide是這項(xiàng)研究的帶頭人，兩支團(tuán)隊(duì)精誠(chéng)合作，在基于人工神經(jīng)網(wǎng)絡(luò)的大詞匯量語(yǔ)音識(shí)別研究中取得了重大突破。

微軟雷德蒙研究院的研究員俞棟博士

　　語(yǔ)音識(shí)別研究的終極目標(biāo)

　　語(yǔ)音-文本轉(zhuǎn)換（voice-to-text）軟件和自動(dòng)電話服務(wù)等應(yīng)用背后的關(guān)鍵技術(shù)是語(yǔ)音識(shí)別。在這些應(yīng)用中語(yǔ)音識(shí)別準(zhǔn)確率是至關(guān)重要的，而為了做到這一點(diǎn)，語(yǔ)音-文本轉(zhuǎn)換軟件通常要求用戶在安裝過(guò)程中對(duì)軟件進(jìn)行“訓(xùn)練”，軟件本身也要隨著時(shí)間的推移慢慢適應(yīng)用戶的語(yǔ)音模式。需要與多個(gè)說(shuō)話者互動(dòng)的自動(dòng)語(yǔ)音服務(wù)則不允許存在使用者對(duì)軟件進(jìn)行訓(xùn)練的環(huán)節(jié)，因?yàn)樗鼈儽仨毮軌蛟诘谝粫r(shí)間為任何用戶服務(wù)。為了解決識(shí)別準(zhǔn)確率較低的問(wèn)題，這些系統(tǒng)要么只能處理很小的詞匯量，要么嚴(yán)格限制用戶可以使用的字句或模式。

　　自動(dòng)語(yǔ)音識(shí)別的最終目標(biāo)是提供即買即用、可以自動(dòng)快速適應(yīng)任何說(shuō)話者的語(yǔ)音識(shí)別服務(wù)，這個(gè)系統(tǒng)不需要用戶訓(xùn)練就可以針對(duì)所有用戶和各種條件，良好地發(fā)揮功用。

　　“這個(gè)目標(biāo)在移動(dòng)互聯(lián)網(wǎng)時(shí)代顯得尤為重要，” 俞棟博士表示：“因?yàn)檎Z(yǔ)音是智能手機(jī)和其他移動(dòng)設(shè)備必不可缺的接口模式。雖然個(gè)人移動(dòng)設(shè)備是采集和學(xué)習(xí)用戶語(yǔ)音的理想設(shè)備，但用戶只有在初始體驗(yàn)，也就是在針對(duì)該用戶的模型建立之前的體驗(yàn)非常良好時(shí)，才會(huì)繼續(xù)使用語(yǔ)音功能�！�

　　非特定人語(yǔ)音識(shí)別技術(shù)對(duì)于沒(méi)有機(jī)會(huì)或辦法適應(yīng)用戶的語(yǔ)音識(shí)別系統(tǒng)也非常重要，例如在呼叫中心，來(lái)電者身份是未知的，而且通話時(shí)間只有幾秒鐘；又例如用戶可能會(huì)因?yàn)閾?dān)心隱私問(wèn)題而不愿意在提供“語(yǔ)音-語(yǔ)音（speech-to-speech）”翻譯的網(wǎng)絡(luò)服務(wù)中留存語(yǔ)音樣本。

　　重燃對(duì)神經(jīng)網(wǎng)絡(luò)的興趣

　　自20世紀(jì)50年代以來(lái)，人工神經(jīng)網(wǎng)絡(luò)（ANNs），也就是人類大腦低級(jí)回路的數(shù)學(xué)模型，就已經(jīng)為人們所熟知。利用人工神經(jīng)網(wǎng)絡(luò)改善語(yǔ)音識(shí)別性能的想法早在20世紀(jì)80年代就已出現(xiàn)，而且一項(xiàng)名為人工神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫混合模型（ANN - HMM）的技術(shù)顯示了其在大詞匯量語(yǔ)音識(shí)別中的潛力。那么，為什么商用語(yǔ)音識(shí)別系統(tǒng)反而不采納人工神經(jīng)網(wǎng)絡(luò)技術(shù)呢？

　　“這一切都?xì)w結(jié)于性能，” 俞棟博士解釋道：“在針對(duì)傳統(tǒng)的上下文相關(guān)的高斯混合模型-隱馬爾可夫模型（CD-GMM-HMMs）區(qū)分性訓(xùn)練算法發(fā)明后，高斯混合模型-隱馬爾可夫模型的精度得到了提升，并在大詞匯量語(yǔ)音識(shí)別方面的表現(xiàn)超過(guò)了人工神經(jīng)網(wǎng)絡(luò)模型。”

　　俞棟博士以及微軟雷德蒙研究院語(yǔ)音組的成員們對(duì)人工神經(jīng)網(wǎng)絡(luò)模型重新燃起興趣，是因?yàn)樽罱谟?xùn)練更加復(fù)雜的深層神經(jīng)網(wǎng)絡(luò)（DNNs）方面取得了新的進(jìn)展，這些進(jìn)展使得基于人工神經(jīng)網(wǎng)絡(luò)的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)具有超越現(xiàn)有技術(shù)水平的潛力。2010年6月，多倫多大學(xué)實(shí)習(xí)生George Dahl加入研究團(tuán)隊(duì)，研究人員開始探討如何利用深層神經(jīng)網(wǎng)絡(luò)改善大詞匯量語(yǔ)音識(shí)別。

　　“George帶來(lái)了對(duì)深層神經(jīng)網(wǎng)絡(luò)工作原理的深刻見解，” 俞棟博士說(shuō)：“而且他在深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練方面有著豐富的經(jīng)驗(yàn)，而深層神經(jīng)網(wǎng)絡(luò)正是我們所要?jiǎng)?chuàng)建系統(tǒng)的關(guān)鍵組成部分之一。”

　　語(yǔ)音識(shí)別系統(tǒng)在本質(zhì)上就是對(duì)語(yǔ)音組成單元進(jìn)行建模。英語(yǔ)中表達(dá)發(fā)音方式的大約30個(gè)音素就是這樣的組成單元。最先進(jìn)的語(yǔ)音識(shí)別系統(tǒng)使用更短的稱為senone的單元，總數(shù)達(dá)到幾千或上萬(wàn)個(gè)。

　　之前的基于深層神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)就是對(duì)音素進(jìn)行建模。俞棟博士的研究實(shí)現(xiàn)了一次飛躍，當(dāng)他與語(yǔ)音組首席研究員鄧力博士和首席研究員兼研究經(jīng)理Alex Acero博士討論之后，提出使用深層神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)以千計(jì)的senones（一種比音素小很多的建模單元）直接建模。由此產(chǎn)生的論文《基于預(yù)訓(xùn)練的上下文相關(guān)深層神經(jīng)網(wǎng)絡(luò)的大詞匯語(yǔ)音識(shí)別》（Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition）（由George Dahl、俞棟、鄧力和Alex Acero合著）描述了第一個(gè)成功應(yīng)用于大詞匯量語(yǔ)音識(shí)別系統(tǒng)的上下文相關(guān)的深層神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫混合模型（CD-DNN-HMM）。

　　“也有人嘗試過(guò)上下文相關(guān)的人工神經(jīng)網(wǎng)絡(luò)模型，” 俞棟博士指出：“但他們使用的架構(gòu)效果不佳。在我們發(fā)現(xiàn)所用的新方法使語(yǔ)音搜索的準(zhǔn)確率大大提高地那一刻，我們非常激動(dòng)。我們意識(shí)到，通過(guò)使用深層神經(jīng)網(wǎng)絡(luò)對(duì)senones直接建模，我們可以比最先進(jìn)的常規(guī)CD-GMM-HMM大詞匯量語(yǔ)音識(shí)別系統(tǒng)相對(duì)誤差率減少16％以上�？紤]到語(yǔ)音識(shí)別作為一個(gè)活躍的研究領(lǐng)域已經(jīng)存在了50多年，這樣的進(jìn)展確實(shí)具有非常重要的意義�！�

　　為了加速實(shí)驗(yàn)，研究小組還使用了通用圖形處理器來(lái)進(jìn)行語(yǔ)音模型訓(xùn)練和解碼。神經(jīng)網(wǎng)絡(luò)的計(jì)算在結(jié)構(gòu)上類似于電腦游戲中使用的3-D圖形，而現(xiàn)代的圖形卡可以同時(shí)處理近500個(gè)這樣的計(jì)算。在神經(jīng)網(wǎng)絡(luò)中運(yùn)用這種計(jì)算能力大大提升了建�？尚行�。

　　2010年10月，俞棟博士在微軟亞洲研究院的一次內(nèi)部研討中介紹了這篇論文，他提到在此基礎(chǔ)上開發(fā)性能更強(qiáng)的大詞匯量語(yǔ)音識(shí)別聲學(xué)模型面臨以下挑戰(zhàn)：實(shí)現(xiàn)并行訓(xùn)練和使訓(xùn)練擴(kuò)展到更大的訓(xùn)練集。Seide被這項(xiàng)研究深深觸動(dòng)，他隨即加入該項(xiàng)目，并為團(tuán)隊(duì)帶來(lái)了大詞匯量語(yǔ)音識(shí)別、系統(tǒng)開發(fā)和基準(zhǔn)測(cè)試等方面的經(jīng)驗(yàn)。

　　神經(jīng)網(wǎng)絡(luò)基準(zhǔn)測(cè)試

　　“我們通常認(rèn)為數(shù)百上千的senones數(shù)量太大而無(wú)法用神經(jīng)網(wǎng)絡(luò)準(zhǔn)確地建模和訓(xùn)練，”Seide說(shuō)：“然而，俞棟和他的同事們證明，這樣做不僅是可行的，而且還能顯著提高準(zhǔn)確率�，F(xiàn)在，我們要證明的是這套CD-DNN-HMM模型可以有效使用更多的訓(xùn)練數(shù)據(jù)。”

微軟亞洲研究院高級(jí)研究員 Frank Seide

　　在新項(xiàng)目中，CD-DNN-HMM模型被用于語(yǔ)音-文本轉(zhuǎn)換，并在研究界公認(rèn)的極具挑戰(zhàn)性的電話語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)集Switchboard上進(jìn)行評(píng)測(cè)。

　　首先，研究團(tuán)隊(duì)對(duì)深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練工具進(jìn)行了改寫，以支持更大的訓(xùn)練數(shù)據(jù)集。然后，在微軟亞洲研究院軟件開發(fā)工程師李剛的幫助下，他們將新的模型和工具在含有300小時(shí)語(yǔ)音訓(xùn)練數(shù)據(jù)的Switchboard標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行評(píng)測(cè)。為了支持如此大量的數(shù)據(jù)，研究人員建立了一些巨大的神經(jīng)網(wǎng)絡(luò)模型，其中一個(gè)包含了6,600多萬(wàn)神經(jīng)間連結(jié)，這是語(yǔ)音識(shí)別研究史上最大的同類模型。

　　隨后的基準(zhǔn)測(cè)試取得了令人驚訝的低字詞錯(cuò)誤率——18.5％，與最先進(jìn)的常規(guī)系統(tǒng)相比，相對(duì)錯(cuò)誤率減少了33％。

　　“我們開始運(yùn)行Switchboard基準(zhǔn)測(cè)試時(shí)，”回憶說(shuō)：“我們只期望實(shí)現(xiàn)類似語(yǔ)音搜索任務(wù)中所觀察到的結(jié)果，也就是16-20％的相對(duì)改善。整個(gè)訓(xùn)練過(guò)程大約花費(fèi)了20天的計(jì)算時(shí)間，而且每隔幾個(gè)小時(shí)就產(chǎn)生一個(gè)稍稍改良的新模型。每隔幾個(gè)小時(shí)，我都會(huì)迫不及待地測(cè)試最新模型。你無(wú)法想象，當(dāng)相對(duì)改善超出預(yù)期的20％時(shí)，我們有多興奮，而且模型仍在不斷改善，最后定格在30％以上。過(guò)去，只有極少數(shù)的單項(xiàng)技術(shù)能在語(yǔ)音識(shí)別方面實(shí)現(xiàn)如此幅度的改善�！�

　　由此產(chǎn)生的論文題為《使用上下文相關(guān)深層神經(jīng)網(wǎng)絡(luò)進(jìn)行交談?wù)Z音轉(zhuǎn)寫》（Conversational Speech Transcription Using Context-Dependent Deep Neural Networks）（由Frank Seide、李剛和俞棟合著），已經(jīng)于8月29日發(fā)表。這項(xiàng)工作已經(jīng)引起了科研界的高度重視，而研究團(tuán)隊(duì)希望通過(guò)在會(huì)議上發(fā)表這篇論文進(jìn)一步啟迪這條新的研究路徑，并最終將基于深層神經(jīng)網(wǎng)絡(luò)的大詞匯量語(yǔ)音識(shí)別推到一個(gè)新的高度。

　　離未來(lái)更近了一步

　　這種基于人工神經(jīng)網(wǎng)絡(luò)的非特定人語(yǔ)音識(shí)別新方法所實(shí)現(xiàn)的識(shí)別準(zhǔn)確率比常規(guī)系統(tǒng)高出了三分之一以上，俞棟、Seide和他們的團(tuán)隊(duì)向著流暢的“語(yǔ)音-語(yǔ)音交互”這一目標(biāo)又邁進(jìn)了一大步。這項(xiàng)創(chuàng)新簡(jiǎn)化了大詞匯量語(yǔ)音識(shí)別中的語(yǔ)音處理，能實(shí)時(shí)識(shí)別并取得較高的準(zhǔn)確率。

　　“這項(xiàng)工作仍處于研究階段，還會(huì)面臨很多挑戰(zhàn)，其中最嚴(yán)峻的挑戰(zhàn)在于擴(kuò)展到使用數(shù)萬(wàn)小時(shí)訓(xùn)練數(shù)據(jù)。我們的研究成果只是一個(gè)開始，這一領(lǐng)域?qū)?lái)還會(huì)有更多令人振奮的進(jìn)展。”Seide說(shuō)：“我們的目標(biāo)是實(shí)現(xiàn)以前沒(méi)法實(shí)現(xiàn)的新的基于語(yǔ)音的流暢服務(wù)。我們相信，這項(xiàng)研究最終將改變我們的工作和生活。想象一下吧：用語(yǔ)音-語(yǔ)音實(shí)時(shí)翻譯進(jìn)行自然流暢的交談，用語(yǔ)音進(jìn)行檢索，或者用交談式自然語(yǔ)言進(jìn)行人機(jī)互動(dòng)�！�

微軟亞洲研究院博客

Microsoft Dynamics CRM：零售銀行業(yè)務(wù)CRM方案價(jià)值 2011-09-19

零售銀行業(yè)務(wù)為什么選擇 Microsoft Dynamics CRM？ 2011-09-19

傳Windows Phone 8將深度整合語(yǔ)音文本轉(zhuǎn)換功能 2011-09-14

微軟Dynamics CRM促進(jìn)尼爾森更有效地跟蹤業(yè)務(wù) 2011-09-13

熱點(diǎn)專題: 語(yǔ)音合成TTS 語(yǔ)音識(shí)別ASR 移動(dòng)互聯(lián)網(wǎng)
分類信息: 移動(dòng)互聯(lián)網(wǎng)_與_移動(dòng)