您當前的位置是:  首頁 > 新聞 > 專家觀點 >
 首頁 > 新聞 > 專家觀點 >

“語音進化論”干貨分享:智能語音的前世今生

2016-10-10 16:14:50   作者:   來源:極客網(wǎng)   評論:0  點擊:


  9月28日,京東智能在北京京東JD+智能奶茶館舉辦“遇見未來-智能語音進化論”主題分享活動,旨在通過對智能語音技術、應用場景及未來趨勢的分析和討論助推行業(yè)發(fā)展。
  會上,靈隆科技首席科學家湯博士就智能語音技術的歷史及行業(yè)的發(fā)展進程進行了生動的解析,同時,科大訊飛云平臺事業(yè)部商務總監(jiān)湯熙、北京小魚兒科技合伙人兼銷售市場副總裁李傳剛、北京方正信息技術有限公司數(shù)碼外設事業(yè)部總經(jīng)理余斌、京東智能市場總監(jiān)李俊周等行業(yè)大咖也對智能語音的現(xiàn)狀及未來趨勢進行了圓桌分享。
\
靈隆科技首席科學家湯博士
  以下是靈隆科技首席科學家湯博士“智能語音的前世今生”演講實錄
  從一個參與者角度,對人工智能尤其是語音的發(fā)展過程還是比較清楚的,今天我就來跟大家分享一下,我的一些感悟。
  這個題目是《智能語音的前世今生》。我們都知道,語音交互是一個很自然的一種需求,人們以前從鍵盤輸入到鼠標,之后是語音,還有圖象。2000年左右,比爾蓋茨說語音交互會是下一代的主要交互手段,我個人覺得可能不是主要,而是主要之一,用戶對于語音自然交互的需求是確實存在的。
  大家都在講,到底什么是語音技術?其實語音技術包含了很多小門類,比如說最主要的是語音識別-ASR,第二個是語音合成-TTS,這是目前知道的最多的兩種語音技術。除此之外還有別的語音技術:語音轉換,聲紋識別,聽音識歌,語音標準化判斷等等。
  1、語音識別是什么
  我這次重點講的是語音識別和合成。首先講語音識別,最早的語音識別應該是50年代的貝爾實驗室Audry系統(tǒng),能識別十個英文數(shù)字,在科技史上大家都知道,有兩個著名的實驗室,一個是貝爾實驗室,一個是施樂公司的實驗室。貝爾的人當初就是覺得有趣就做了這個研究,但光是好玩、有趣還不能推動這個行業(yè)的發(fā)展,美國空軍在60年代初提出了需求,那個時候進入了噴氣式飛機的超音速時代,在飛行中會出現(xiàn)超過了7個G的過載,那個時候因為抗壓服的性能還不適很好,飛行員身體被壓著,無法對飛機進行有效操控,這個時候美國空軍就提出一個需求:能不能用語音來控制飛機?也正因為這個原因,從那個時候一直到現(xiàn)在,美國國防部的DARPA都一直在支持語音技術的研究,到現(xiàn)在應該是50多年了。
  所以從60年代開始大家開始做各種各樣的語音識別的研究,提出了各種各樣的方案,這時候做的比較成熟一點的是小詞匯表的孤立詞識別,支持一些命令詞的識別,這就是當時的水平。
  到了70、80年代就出現(xiàn)了很大的兩個進步,語音識別中有很多技術問題,其中的兩個主要問題是語音模型和語言模型的建立,在70年代有很大的突破,IBM,提出了用HMM來解決語音模型的問題,取得了很好的效果。而在80年代提N元統(tǒng)計模型也被提出,用來解決語言模型的問題,這兩個方法成為了此后30年語音識別技術的主流方法。
  在90年代初,卡耐基梅隆大學的李開復博士領頭開發(fā)了Sphinx系統(tǒng),這是一個歷史性的進步,這是HMM和N元模型結合在一起語音識別系統(tǒng),它是第一個非特定人大詞匯量的語音識別系統(tǒng)。
  這個系統(tǒng)是由大學開發(fā)出來的實驗性系統(tǒng),運行在服務器上,其實用價值有限。1997年IBM,推出了第一款商品化的語音識別系統(tǒng)ViaVoice,預裝在當時的主流PC機上,有十幾種語言的版本,那時候非常轟動,可以說90年代是語音識別技術發(fā)展的第一次高潮,有大量公司投入這個領域,如微軟、Nuance、Intel、Motorola、Nokia、Sun、Dragon。
  2、第一次高潮后的低谷:標志是大量公司紛紛退出這個領域
  接下來是高潮后的低潮。2002-2011年。當時遇到的主要問題是語音技術本身遇到瓶頸,對于以朗讀方式輸入正規(guī)文本的語音識別率相當高,但是對于日?谡Z化的輸入則識別率不高;另外當時對用戶體驗不夠重視,沒有從用戶的需求出發(fā)研發(fā)合適的產(chǎn)品。
  很多在當初投入語音研發(fā)的公司都退出了這個領域,比如說我們知道的摩托羅拉、英特爾、諾基亞,甚至開山鼻祖IBM,都紛紛退出這個行業(yè)的研究。
  這個行業(yè)也有堅守者,誰呢?微軟,還有一些后來新起的互聯(lián)網(wǎng)公司對這個領域很感興趣,開始投入谷歌、Siri、百度加入了這個領域,另外一些科技企業(yè)也投入這個領域的研究,如訊飛。
  但是在這個所謂的低潮期階段,研究人員也沒有閑著,做了一個非常重要的兩件事,一件是開源工具,比如劍橋大學開發(fā)的HTK,后來又有了Kaldi,Julius等工具,有了這些工具,讓語音技術能夠迅速的擴散。一個受過良好訓練的研究生,大概三個月的時間就可以掌握這套工具,并且可以使用它來建立比較簡單的系統(tǒng)。
  另一件重要的事情就是數(shù)據(jù)準備,語音技術的開發(fā)需要大量的訓練數(shù)據(jù)最開始的時候,都是個公司自己去收集,費時費力。后來成立了LC—STAR、TC-STAR等技術數(shù)據(jù)聯(lián)盟,通過這個聯(lián)盟,數(shù)據(jù)得到了分享,這也為技術的擴散打下了良好的基礎。
  另外,這個時期出現(xiàn)了一個影響深遠的發(fā)現(xiàn):深度神經(jīng)網(wǎng)絡(DNN)。2006年Hinton提出了深度神經(jīng)網(wǎng)絡的學習方法。它解決了多層神經(jīng)網(wǎng)絡的有效學習方法,而且學習算法的收斂性和層數(shù)無關。
  2011年微軟把它成功的進行了英文語音識別,2012年訊飛、百度先后把DNN用于中文語音識別,這就導致了今天第二次語音識別的高潮的來臨。
  我今天主要談語音識別技術,DNN帶動的人工智能領域的其它發(fā)展,那是另外的話題不在此展開。第二次高潮啟動后,大量公司加入了該領域進行研究和開發(fā)。比如Amazon,云知聲。
  3、語音合成是什么?
  我們再講語音合成。語音合成的三個標準,第一是可懂、第二是自然、第三是有情感,我們中文叫抑揚頓挫,是三個不同的層次。目前來說,可懂已經(jīng)不是問題了,目前的語音合成水平基本上做到自然這個層次,機械味不是那么濃,現(xiàn)在突破的主要方向是在情感方面進行進一步研究和探索。
  語音合成的領域,其實起步也比較早,有的人認為是200年前歐洲開發(fā)出用機械方式模擬人聲是最早的語音合成,但是如果從現(xiàn)代技術的角度來說,一般來說認為是從50年代開始,大家開始研究用計算機技術來做語音合成。
  最早的方法是采用參數(shù)合成的方法。大家知道人的發(fā)聲原理,為什么能發(fā)出聲音來?三個環(huán)節(jié),一個是振動源。第二是聲帶,第三是聲道,人們設想分別用不同的數(shù)學公式來模擬這三個環(huán)節(jié)。然后把這三個環(huán)節(jié)串接起來就能模擬人的發(fā)聲。根據(jù)這個原理,7、80年代人們發(fā)明了各種共振峰合成器,這個方法的優(yōu)勢是占用資源小,但缺點是可懂度低。
  到了90年代,波形拼接方法被提出。大家發(fā)現(xiàn),參數(shù)合成方法怎么改進都無法提高性能,大家就改用粗暴的方式,以中文為例,帶聲調的拼音音節(jié)有1400多個,每種都錄幾十個樣本,使用的時候就把最合適的樣本調出來并拼起來,形成語音,這種方式,很粗暴,但是有效。這里要提到科大訊飛,1999年科大訊飛成立,最開始就是使用波形拼接的方法。這種方式要提高性能,音庫越大越好,當時最大的可能要幾十個G,在當時一般計算機都達不到這個要求,只能在電信級別的服務器上運行。
  大家開始設想,把語音識別的使用的一些方法運用到合成中,人們把HMM模型引入,用來訓練語音庫,這樣大大減少了語音庫的大小,這樣就形成了可訓練的語音合成方法。目前這個方法是語音合成產(chǎn)品的主流方法,占用空間大概在幾十M,其性能不遜于波形拼接方法。
  從2014年開始,大家開始把深度神經(jīng)網(wǎng)絡也用在參數(shù)語音合成里,最新的報道DeepMind用深度神經(jīng)網(wǎng)絡,提出了語音合成質量的自然度,號稱是提高了50%。
  當然,和語音識別一樣,也開發(fā)了很多的開源工具,比如Festival,這也帶來了語音合成技術的快速擴散。
  4、智能語音是什么?
  前面講的是語音技術,現(xiàn)在大家說的更多的是智能語音。什么是智能語音?我個人理解,從兩個方向來理解,一個是說在語音技術當中加入了智能的因素,比如說前面提到的DNNN,所以說語音技術智能了。
  第二個是語音識別技術加上了自然語言理解,語音識別只是把語音變成了文字,要理解文字后面的意思是什么,就需要自然語言理解,所以說目前來說,如果要做語音產(chǎn)品,光有語音識別技術是不夠的,還需要自然語言理解,能理解你說的話,那才叫智能語音。
  自然語言處理是自然語言處理的一個分類。
  自然語言理解目前來說有三種方法,第一是基于規(guī)則,就是找很多的語言學家來歸納總結語言規(guī)則,所以在剛開始的時候,在國內(nèi)做自然語言理解的,不是中科院系統(tǒng)在做,而是社科院系統(tǒng)在做,他們有很多語言學家,他們總結了很多的語言規(guī)則出來。
  但近些年,隨著計算機的大幅發(fā)展,用統(tǒng)計方法來分析語言成為了主流,并產(chǎn)生了一門交叉學科,叫計算語言學。這樣,很多不具有專業(yè)的語言學知識的計算機研究人員,都可以從事語言理解的研究。
  還有一種方法,就是知識圖譜的方法,它把規(guī)則和統(tǒng)計方法綜合起來。

專題