成人无码AV一区二区,AV网站在线免费观看

　　9月28日，京東智能在北京京東JD+智能奶茶館舉辦“遇見未來-智能語音進化論”主題分享活動，旨在通過對智能語音技術、應用場景及未來趨勢的分析和討論助推行業(yè)發(fā)展。

　　會上，靈隆科技首席科學家湯博士就智能語音技術的歷史及行業(yè)的發(fā)展進程進行了生動的解析，同時，科大訊飛云平臺事業(yè)部商務總監(jiān)湯熙、北京小魚兒科技合伙人兼銷售市場副總裁李傳剛、北京方正信息技術有限公司數(shù)碼外設事業(yè)部總經(jīng)理余斌、京東智能市場總監(jiān)李俊周等行業(yè)大咖也對智能語音的現(xiàn)狀及未來趨勢進行了圓桌分享。

靈隆科技首席科學家湯博士

　　以下是靈隆科技首席科學家湯博士“智能語音的前世今生”演講實錄

　　從一個參與者角度，對人工智能尤其是語音的發(fā)展過程還是比較清楚的，今天我就來跟大家分享一下，我的一些感悟。

　　這個題目是《智能語音的前世今生》。我們都知道，語音交互是一個很自然的一種需求，人們以前從鍵盤輸入到鼠標，之后是語音，還有圖象。2000年左右，比爾蓋茨說語音交互會是下一代的主要交互手段，我個人覺得可能不是主要，而是主要之一，用戶對于語音自然交互的需求是確實存在的。

　　大家都在講，到底什么是語音技術？其實語音技術包含了很多小門類，比如說最主要的是語音識別-ASR，第二個是語音合成-TTS，這是目前知道的最多的兩種語音技術。除此之外還有別的語音技術:語音轉換，聲紋識別，聽音識歌，語音標準化判斷等等。

　　1、語音識別是什么

　　我這次重點講的是語音識別和合成。首先講語音識別，最早的語音識別應該是50年代的貝爾實驗室Audry系統(tǒng)，能識別十個英文數(shù)字，在科技史上大家都知道，有兩個著名的實驗室，一個是貝爾實驗室，一個是施樂公司的實驗室。貝爾的人當初就是覺得有趣就做了這個研究，但光是好玩、有趣還不能推動這個行業(yè)的發(fā)展，美國空軍在60年代初提出了需求，那個時候進入了噴氣式飛機的超音速時代，在飛行中會出現(xiàn)超過了7個G的過載，那個時候因為抗壓服的性能還不適很好，飛行員身體被壓著，無法對飛機進行有效操控，這個時候美國空軍就提出一個需求：能不能用語音來控制飛機？也正因為這個原因，從那個時候一直到現(xiàn)在，美國國防部的DARPA都一直在支持語音技術的研究，到現(xiàn)在應該是50多年了。

　　所以從60年代開始大家開始做各種各樣的語音識別的研究，提出了各種各樣的方案，這時候做的比較成熟一點的是小詞匯表的孤立詞識別，支持一些命令詞的識別，這就是當時的水平。

　　到了70、80年代就出現(xiàn)了很大的兩個進步，語音識別中有很多技術問題，其中的兩個主要問題是語音模型和語言模型的建立，在70年代有很大的突破，IBM，提出了用HMM來解決語音模型的問題，取得了很好的效果。而在80年代提N元統(tǒng)計模型也被提出，用來解決語言模型的問題，這兩個方法成為了此后30年語音識別技術的主流方法。

　　在90年代初，卡耐基梅隆大學的李開復博士領頭開發(fā)了Sphinx系統(tǒng)，這是一個歷史性的進步，這是HMM和N元模型結合在一起語音識別系統(tǒng)，它是第一個非特定人大詞匯量的語音識別系統(tǒng)。

　　這個系統(tǒng)是由大學開發(fā)出來的實驗性系統(tǒng)，運行在服務器上，其實用價值有限。1997年IBM，推出了第一款商品化的語音識別系統(tǒng)ViaVoice，預裝在當時的主流PC機上，有十幾種語言的版本，那時候非常轟動，可以說90年代是語音識別技術發(fā)展的第一次高潮，有大量公司投入這個領域，如微軟、Nuance、Intel、Motorola、Nokia、Sun、Dragon。

　　2、第一次高潮后的低谷：標志是大量公司紛紛退出這個領域

　　接下來是高潮后的低潮。2002-2011年。當時遇到的主要問題是語音技術本身遇到瓶頸，對于以朗讀方式輸入正規(guī)文本的語音識別率相當高，但是對于日�？谡Z化的輸入則識別率不高；另外當時對用戶體驗不夠重視，沒有從用戶的需求出發(fā)研發(fā)合適的產(chǎn)品。

　　很多在當初投入語音研發(fā)的公司都退出了這個領域，比如說我們知道的摩托羅拉、英特爾、諾基亞，甚至開山鼻祖IBM，都紛紛退出這個行業(yè)的研究。

　　這個行業(yè)也有堅守者，誰呢？微軟，還有一些后來新起的互聯(lián)網(wǎng)公司對這個領域很感興趣，開始投入谷歌、Siri、百度加入了這個領域，另外一些科技企業(yè)也投入這個領域的研究，如訊飛。

　　但是在這個所謂的低潮期階段，研究人員也沒有閑著，做了一個非常重要的兩件事，一件是開源工具，比如劍橋大學開發(fā)的HTK，后來又有了Kaldi，Julius等工具，有了這些工具，讓語音技術能夠迅速的擴散。一個受過良好訓練的研究生，大概三個月的時間就可以掌握這套工具，并且可以使用它來建立比較簡單的系統(tǒng)。

　　另一件重要的事情就是數(shù)據(jù)準備，語音技術的開發(fā)需要大量的訓練數(shù)據(jù)最開始的時候，都是個公司自己去收集，費時費力。后來成立了LC—STAR、TC-STAR等技術數(shù)據(jù)聯(lián)盟，通過這個聯(lián)盟，數(shù)據(jù)得到了分享，這也為技術的擴散打下了良好的基礎。

　　另外，這個時期出現(xiàn)了一個影響深遠的發(fā)現(xiàn)：深度神經(jīng)網(wǎng)絡（DNN）。2006年Hinton提出了深度神經(jīng)網(wǎng)絡的學習方法。它解決了多層神經(jīng)網(wǎng)絡的有效學習方法，而且學習算法的收斂性和層數(shù)無關。

　　2011年微軟把它成功的進行了英文語音識別，2012年訊飛、百度先后把DNN用于中文語音識別，這就導致了今天第二次語音識別的高潮的來臨。

　　我今天主要談語音識別技術，DNN帶動的人工智能領域的其它發(fā)展，那是另外的話題不在此展開。第二次高潮啟動后，大量公司加入了該領域進行研究和開發(fā)。比如Amazon，云知聲。

　　3、語音合成是什么？

　　我們再講語音合成。語音合成的三個標準，第一是可懂、第二是自然、第三是有情感，我們中文叫抑揚頓挫，是三個不同的層次。目前來說，可懂已經(jīng)不是問題了，目前的語音合成水平基本上做到自然這個層次，機械味不是那么濃，現(xiàn)在突破的主要方向是在情感方面進行進一步研究和探索。

　　語音合成的領域，其實起步也比較早，有的人認為是200年前歐洲開發(fā)出用機械方式模擬人聲是最早的語音合成，但是如果從現(xiàn)代技術的角度來說，一般來說認為是從50年代開始，大家開始研究用計算機技術來做語音合成。

　　最早的方法是采用參數(shù)合成的方法。大家知道人的發(fā)聲原理，為什么能發(fā)出聲音來？三個環(huán)節(jié)，一個是振動源。第二是聲帶，第三是聲道，人們設想分別用不同的數(shù)學公式來模擬這三個環(huán)節(jié)。然后把這三個環(huán)節(jié)串接起來就能模擬人的發(fā)聲。根據(jù)這個原理，7、80年代人們發(fā)明了各種共振峰合成器，這個方法的優(yōu)勢是占用資源小，但缺點是可懂度低。

　　到了90年代，波形拼接方法被提出。大家發(fā)現(xiàn)，參數(shù)合成方法怎么改進都無法提高性能，大家就改用粗暴的方式，以中文為例，帶聲調的拼音音節(jié)有1400多個，每種都錄幾十個樣本，使用的時候就把最合適的樣本調出來并拼起來，形成語音，這種方式，很粗暴，但是有效。這里要提到科大訊飛，1999年科大訊飛成立，最開始就是使用波形拼接的方法。這種方式要提高性能，音庫越大越好，當時最大的可能要幾十個G，在當時一般計算機都達不到這個要求，只能在電信級別的服務器上運行。

　　大家開始設想，把語音識別的使用的一些方法運用到合成中，人們把HMM模型引入，用來訓練語音庫，這樣大大減少了語音庫的大小，這樣就形成了可訓練的語音合成方法。目前這個方法是語音合成產(chǎn)品的主流方法，占用空間大概在幾十M，其性能不遜于波形拼接方法。

　　從2014年開始，大家開始把深度神經(jīng)網(wǎng)絡也用在參數(shù)語音合成里，最新的報道DeepMind用深度神經(jīng)網(wǎng)絡，提出了語音合成質量的自然度，號稱是提高了50%。

　　當然，和語音識別一樣，也開發(fā)了很多的開源工具，比如Festival，這也帶來了語音合成技術的快速擴散。

　　4、智能語音是什么？

　　前面講的是語音技術，現(xiàn)在大家說的更多的是智能語音。什么是智能語音？我個人理解，從兩個方向來理解，一個是說在語音技術當中加入了智能的因素，比如說前面提到的DNNN，所以說語音技術智能了。

　　第二個是語音識別技術加上了自然語言理解，語音識別只是把語音變成了文字，要理解文字后面的意思是什么，就需要自然語言理解，所以說目前來說，如果要做語音產(chǎn)品，光有語音識別技術是不夠的，還需要自然語言理解，能理解你說的話，那才叫智能語音。

　　自然語言處理是自然語言處理的一個分類。

　　自然語言理解目前來說有三種方法，第一是基于規(guī)則，就是找很多的語言學家來歸納總結語言規(guī)則，所以在剛開始的時候，在國內(nèi)做自然語言理解的，不是中科院系統(tǒng)在做，而是社科院系統(tǒng)在做，他們有很多語言學家，他們總結了很多的語言規(guī)則出來。

　　但近些年，隨著計算機的大幅發(fā)展，用統(tǒng)計方法來分析語言成為了主流，并產(chǎn)生了一門交叉學科，叫計算語言學。這樣，很多不具有專業(yè)的語言學知識的計算機研究人員，都可以從事語言理解的研究。

　　還有一種方法，就是知識圖譜的方法，它把規(guī)則和統(tǒng)計方法綜合起來。

“語音進化論”干貨分享：智能語音的前世今生

評論排行

推薦閱讀

專題

大家都在看