您當前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

遠場語音識別,性能提升 30%,百度怎么做到的?

2019-12-10 10:52:35   作者:   來源:雷鋒網(wǎng)   評論:0  點擊:


  “今天我保守報一個30%以上的性能提升,很保守。未來這個技術會再次大幅刷新人們對遠場語音的認知。我自己的判斷是,三年以內(nèi)遠場語音技術的識別率將達到近場識別率,因為有了這個技術,遠場識別問題基本可以得到解決,這是一個很大的跨學科創(chuàng)新。”
  講起百度最近在語音技術上的一項技術突破,百度語音首席架構師賈磊變得激昂澎湃起來。
  遠場語音識別,性能提升30%,百度怎么做到的?
  對于賈磊,大家不會陌生,他是互聯(lián)網(wǎng)圈子里首位全國勞動模范(2015年),是一位“每天睜開眼睛就是工作,走路坐車都在思考”的人物。
  賈磊向記者詳細講述了他們在遠場語音交互中的一項新的突破:基于復數(shù)卷積神經(jīng)網(wǎng)絡的語音增強和聲學建模一體化端到端建模技術。(很長的一段話,關鍵詞:復數(shù)卷積、端到端、增強和建模一體化)
  據(jù)賈磊介紹,這項技術顛覆了傳統(tǒng)基于數(shù)字信號處理的麥克陣列算法,因為它直接拋棄了數(shù)字信號處理學科和語音識別學科的各種先驗假設,直接端到端進行一體化建模。相較于傳統(tǒng)基于數(shù)字信號處理的麥克陣列算法,錯誤率降低超過30%;而國際上采用類似思路方法的相對錯誤率降低約為16%。
  我們來看下,30%的錯誤率降低,百度是如何做到的。
  一、傳統(tǒng)方法
  先從傳統(tǒng)方法說起。
  目前,語音識別技術在高信噪比場景下表現(xiàn)良好,但在低信噪比場景下,往往表現(xiàn)不穩(wěn)定。遠場語音識別是一個典型的低信噪比場景。在遠場環(huán)境下,目標聲源距離拾音器較遠,就會使目標信號衰減嚴重,加之環(huán)境嘈雜,干擾信號眾多,最終導致信噪比較低,語音識別性能較差。用戶站在3米甚至5米遠處與智能音箱進行語音交互就是一個典型的遠場語音識別應用場景。
  傳統(tǒng)上,為了提升遠場語音識別的準確率,一般會使用麥克風陣列作為拾音器。利用多通道語音信號處理技術,增強目標信號,提升語音識別精度。
  目前,絕大多數(shù)在售的智能音箱產(chǎn)品系統(tǒng)所采用的多通道語音識別系統(tǒng),都是由一個前端增強模塊和一個后端語音識別聲學建模模塊串聯(lián)而成的:
  前端增強模塊通常包括到達方向估計(DOA)和波束生成(BF)。DOA技術主要用于估計目標聲源的方向,BF技術則利用目標聲源的方位信息,增強目標信號,抑制干擾信號。
  后端語音識別聲學建模模塊,會對這一路增強后的語音信號進行深度學習建模。這個建模過程完全類似于手機上的近場語音識別的建模過程,只不過輸入建模過程的信號不是手機麥克風采集的一路近場信號,而是用基于麥克陣列數(shù)字信號處理技術增強后的一路增強信號。
  近些年,前端語音增強技術也逐漸開始用深度學習來做到達方向估計(DOA)和波束生成(BF),不少論文中和產(chǎn)品中也都提到了用深度學習技術來替代麥克陣列系統(tǒng)中的傳統(tǒng)數(shù)字信號處理技術,也獲得了一些提升。
  但,
  1)波束區(qū)域拾音方法有局限性。上面這一類語音增強技術大都是采用基于MSE的優(yōu)化準則,從聽覺感知上使得波束內(nèi)語音更加清晰,波束外的背景噪音更小。但是聽覺感知和識別率并不完全一致。而且這種方法在噪音內(nèi)容也是語音內(nèi)容的時候(例如電視和人在同一個方向時),性能會急劇下降。
  2)增強和識別模塊優(yōu)化目標不一致。前端語音增強模塊的優(yōu)化過程獨立于后端識別模塊。該優(yōu)化目標與后端識別系統(tǒng)的最終目標不一致。目標的不統(tǒng)一很可能導致前端增強模塊的優(yōu)化結果在最終目標上并非最優(yōu)。
  3)真實產(chǎn)品環(huán)境復雜,傳統(tǒng)方法會影響使用體驗。由于真實產(chǎn)品場合,聲源環(huán)境復雜,因此大多數(shù)產(chǎn)品都是先由DOA確定出聲源方向后,再在該方向使用波束生成形成波束,對波束內(nèi)的信號的信噪比進行提升,同時抑制波束外的噪音的干擾。這樣的機制使得整個系統(tǒng)的工作效果都嚴重依賴于聲源定位的準確性。同時用戶第一次說喚醒詞或者是語音指令的時候,第一次的語音很難準確利用波束信息(智能音箱沒有眼睛,他不知道你在第一次喚醒時候,所在的方向是什么;蛘呤怯捎谥車h(huán)境嘈雜,喚醒之后人就變換了自己的位置,嘈雜的環(huán)境導致對人的位置變動的跟蹤失效),影響了首次喚醒率和首句識別率。
  二、一體化的端到端識別
  2017年谷歌團隊最早提出采用神經(jīng)網(wǎng)絡來解決前端語音增強和語音聲學建模的一體化建模問題。
  文章從信號處理的Filter-and-Sum方法出發(fā),首先推導出時域上的模型結構,然后進一步推導出頻域上的模型結構FCLP(Factored Complex Linear Projection),相比時域模型而言大幅降低了計算量。
  該結構先后通過空間濾波和頻域濾波,從多通道語音中抽取出多個方向的特征,然后將特征送給后端識別模型,最終實現(xiàn)網(wǎng)絡的聯(lián)合優(yōu)化。
  谷歌提出的FCLP結構仍然是以信號處理方法為出發(fā)點,起源于delayandsum濾波器,用一個深度學習網(wǎng)絡去模擬和逼近信號波束,因此也會受限于信號處理方法的一些先驗假設。
  比如FCLP的最低層沒有挖掘頻帶之間的相關性信息,存在多路麥克信息使用不充分的問題,影響了深度學習建模過程的模型精度。
  再比如,beam的方向(looking direction)數(shù)目被定義成10個以下,主要是對應于數(shù)字信號處理過程的波束空間劃分。這種一定要和數(shù)字信號處理過程看齊的深度學習模型結構設計,嚴重影響了深度學習技術在該方向上的發(fā)揮和延伸,限制了深度學習模型的模型結構的演變,制約了技術的創(chuàng)新和發(fā)展。
  最終谷歌學術報告,通過這種方法,相對于傳統(tǒng)基于數(shù)字信號處理的麥克陣列算法,得到了16%的相對錯誤率降低。
  三、百度的解決方案
  百度采用了類似的思想,即做“語音增強和語音聲學建模一體化”的端到端建模,不過他們所采用的是“基于復數(shù)的卷積神經(jīng)網(wǎng)絡”。
  相比于谷歌的方法,該方法徹底拋棄了數(shù)字信號處理學科的先驗知識,模型結構設計和數(shù)字信號處理學科完全脫鉤,充分發(fā)揮了CNN網(wǎng)絡的多層結構和多通道特征提提取的優(yōu)勢。
  具體來講,該模型底部以復數(shù)CNN為核心,利用復數(shù)CNN網(wǎng)絡挖掘生理信號本質(zhì)特征的特點。采用復數(shù)CNN,復數(shù)全連接層以及CNN等多層網(wǎng)絡,直接對原始的多通道語音信號進行多尺度多層次的信息抽取,期間充分挖掘頻帶之間的關聯(lián)耦合信息。
  在保留原始特征相位信息的前提下,這個模型同時實現(xiàn)了前端聲源定位、波束形成和增強特征提取。該模型底部CNN抽象出來的特征,直接送入端到端的流式多級的截斷注意力模型(SMLTA)中,從而實現(xiàn)了從原始多路麥克信號到識別目標文字的端到端一體化建模。
  整個網(wǎng)絡的優(yōu)化準則完全依賴于語音識別網(wǎng)絡的優(yōu)化準則來做,完全以識別率提升為目標來做模型參數(shù)調(diào)優(yōu)。
  賈磊介紹說:“我們的模型能提取生物的信號本質(zhì)特征,作為對比,Google的系統(tǒng)是假設兩路麥克信號對應頻帶之間的信息產(chǎn)生關系,這沒有挖掘頻帶之間的信息,這也是Google在識別率上偏低的原因。”
  如前面提到,相對于百度智能音箱線上產(chǎn)品所采用的基于傳統(tǒng)數(shù)字信號處理的前端增強模塊和一個后端語音識別聲學建模過程串聯(lián)的方法,這種基于復數(shù)卷積神經(jīng)網(wǎng)絡的語音增強和聲學建模一體化端到端建模技術,獲得了錯誤率超過30%以上的降低。
  除此之外,賈磊在演講中還列舉了這種端到端語音識別的5個特點:
  這里值得一提的是,目前百度的這種一體化建模方案已經(jīng)被集成到百度最新發(fā)布的鴻鵠芯片中,該網(wǎng)絡所占內(nèi)存不到200K。
  四、結尾
  30%的降低,這也是近期深度學習遠場識別技術中,最大幅度的產(chǎn)品性能提升。賈磊認為,這揭示了“端到端建模”將是遠場語音識別產(chǎn)業(yè)應用的重要發(fā)展方向。
  賈磊隨后補充說:
  “本質(zhì)上人類語音交互都是遠場。手機麥克風放在嘴邊的近場語音交互,只是人們最初在做語音識別時,由于無法解決遠場識別問題而做的一個限制。
  如果遠場語音技術在未來三年成熟以后,所有的語音都是遠場喚醒方式,喚醒之后隨意連續(xù)的輸入,任何一個家電設備或者汽車設備,都可以攜帶語音交互功能,進行本領域的查詢。所以這個技術成熟意味著遠場語音識別將走進千家萬戶,在所有我們看到的設備上,都會以遠場語音交互為主體,如果再配合芯片的發(fā)展,語音識別、語音合成,將一體化地來解決人類終端交互,我覺得是可以期待的。”
【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

相關熱詞搜索: 百度 語音識別

上一篇:ALE:CPaaS是魔術發(fā)生的地方

下一篇:最后一頁

專題

CTI論壇會員企業(yè)