您當前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

標貝科技:功能性時代已過去,可選擇性才是語音合成未來

2019-09-19 09:33:11   作者:宋婉心   來源:搜狐科技《智研所》欄目   評論:0  點擊:


  AIoT正在成為科技公司們爭搶的下一座城池。
  2016年開始,智能手機行業(yè)紅利開始見頂,手機廠商可爭奪的存量市場不斷被壓縮,這時,硬件領(lǐng)域的新機會延伸到了智能音箱、智能家電,以及可穿戴設(shè)備。智能硬件也相應(yīng)地成為互聯(lián)網(wǎng)的新入口,國內(nèi)外多家巨頭已早早開始爭奪這部分還未被完全挖掘的用戶入口。
  其中,語音識別及語音交互毫無疑問是各智能硬件最重要的控制手段之一,同時也是人工智能技術(shù)到目前為止落地最快的應(yīng)用之一。
  以智能音箱為例,僅2018年四季度,全球智能音箱出貨量增長95%達到3850萬臺,超過2017全年總量。2018年出貨量更是達到8620萬臺,同比增長100%以上。Strategy Analytics預(yù)測,2019年全球智能音箱的出貨量將超過1.34億,到2024年將增加到2.8億。
  搜狐科技“智研所”沙龍第6期邀請到標貝科技CTO李秀林進行主題演講——《語音合成—引爆智能語音交互的導(dǎo)火索》
  以下是演講精編:
  李秀林:大家好,非常高興通過搜狐科技與大家溝通語音合成的一個主題,那么今天我與大家分享的題目是“語音合成引爆智能語音交互的導(dǎo)火索”。
(智研所現(xiàn)場)
  首先做一下自我介紹,我叫李秀林,中國科學院聲學所博士,標貝科技聯(lián)合創(chuàng)始人兼CTO,負責整體語音技術(shù)框架。之前十幾年我基本都是在語音行業(yè),之前在百度、滴滴都是主要從事語音相關(guān)的研究工作以及探索在出行互聯(lián)網(wǎng)行業(yè)不同的應(yīng)用。
  給大家介紹一下標貝科技,是一家專注于智能語音合成和數(shù)據(jù)服務(wù)的人工智能公司,這家公司依托自己自有的高質(zhì)量的數(shù)據(jù)來開發(fā)自有的高品質(zhì)的語音合成系統(tǒng)。我們可以提供多場景、多類別的高品質(zhì)語音合成解決方案,在我們的解決方案當中我們會結(jié)合用戶的需求和我們的技術(shù)去為用戶量身定制他所需要的聲音。
  我們先來看一下整個語音交互的市場,根據(jù)前瞻經(jīng)濟學人的數(shù)據(jù)表明,近些年語音行業(yè)的發(fā)展非常快速,在2019年中國智能語音市場規(guī)模將突破200億元,2023年預(yù)計將達到600多億元,這個市場發(fā)展是非常迅速的,這也可以從一個側(cè)面反映出語音行業(yè)的火爆程度。語音交互是由三個主要的環(huán)節(jié)組成的,一個是語音合成,一個是語音識別,那么連接起來的是語義理解。通過這三項技術(shù)就可以讓我們的硬件設(shè)備有會聽、會說、會思考,具備與人交互的能力,去滿足一些真實的場景,實現(xiàn)AI技術(shù)的真正落地。
  大家從樣音可以聽到,其實我們提供了不同的聲音,有不同的特點,可以為用戶去匹配不同的聲音,這也是我們這幾年所做的所思的所想的。
  再下面介紹一個案例,為央視財經(jīng)頻道所做的工作,我們提供了兩個聲音,其中一個在交易時間時段的“曉鯨”智能機器人,實際上從它的形象來看應(yīng)該是一個小孩的形象,可能比較活潑,我們結(jié)合這個產(chǎn)品的特點定制了一個小孩的聲音。此外,主持人的聲音或者是她的時間非常有限,我們專門為著名的主持人李雨霏打造了她自己的聲音,也是上線了對應(yīng)的產(chǎn)品。
(央視財經(jīng)-《交易時間》欄目節(jié)選)
  通過這些展示其實我們想陳述一個觀點,語音合成隨著技術(shù)的發(fā)展,它的合成效果越來越好,那么它在交互過程中的作用實際上是越來越重要的。所以我們說“無合成,不交互”,語音合成的語音是信息的載體,所有的機器反饋的信息都會通過語音的展示形式反饋給用戶。
  另外,我們可以提供多種多樣的展現(xiàn)形式,讓語音不再生硬,不再呆板,變得非常靈活,可以有多種多樣的展現(xiàn)形態(tài)。從效果來說,它更媲美真人,讓大家在一定程度上覺得是真假難辯的一個程度。所以說通過這種即時的響應(yīng),讓語音交互變得更加即時,體驗更加好一些。
  接下來簡單回顧一下語音合成的技術(shù)發(fā)展,在19世紀80年代,當時類似鋼琴一樣的設(shè)施,需要去彈奏才能合成出來某些特定的聲音。進入20世紀80年代之后,通過一些計算機技術(shù)可以對聲音進行編碼,通過共振峰合成的形式來合成出語音。90年代之后計算機技術(shù)發(fā)展越來越快,通過大量運算、大量的存儲可以讓語音合成的效果進一步提升,達到了一定程度上的商用可能。近期我們發(fā)現(xiàn)它已經(jīng)進入一個自學習階段,這個階段會讓語音合成的應(yīng)用更加廣泛,后面會展開解釋。
  先來看一下在運算階段,實際上整個網(wǎng)絡(luò)分成幾個模塊,從圖中可以看到,利用音庫我們需要提取文本信息、基頻譜等等特征去訓(xùn)練一個模型,在這個階段最主要的計算特點是基于統(tǒng)計特征的一些模型,包括音碼可復(fù)模型、高斯混合模型,那么有了這些模型的指導(dǎo),我們一個比較常見的商用系統(tǒng)就是拼接合成系統(tǒng)就把原始的錄音切成很小的片段,在合成階段把這些片段進行有效地拼接,它的一個好處是合成的語音比較接近真人的音色,但是缺點也顯而易見,因為音庫不可能非常大,音庫的制作周期長耗費大,所以拼接出來的語音特點往往是好的地方很好,有些地方不好的時候讓人感覺很不舒服,它的拼接并不流暢。
(標貝科技CTO李秀林現(xiàn)場PPT)
  從2016年開始,語音合成進入了一個非常特殊的時期,我們把它命名為自學習的階段。那么這個階段主要特點是利用神經(jīng)網(wǎng)絡(luò)的技術(shù),通過復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型去擬合聲音的生成過程。
  比如在2016年WaveNet提出,給我們提供了一個新的考慮語音合成的特點,之前的語音基本都是按幀或者按照音節(jié)或者音子合成的,在這個框架下實際是逐點預(yù)測,一個16k采樣率的語音,每秒的語音需要對應(yīng)16000次的復(fù)雜運算才能生成語音,但是它的音質(zhì)大大改善,遠遠超出之前的系統(tǒng)。
  接下來2017年有端到端的Tacotron的方法,直接文本輸出語音,在這種模式下又讓很多機器學習的研發(fā)人員加入到語音合成的領(lǐng)域,從而使得這個行業(yè)的發(fā)展更加快速。
  在2018年端到端的基礎(chǔ)上神經(jīng)網(wǎng)絡(luò)聲碼器大行其道,使得端到端加上神經(jīng)網(wǎng)絡(luò)聲碼器的方案受到廣泛采納。
  從上述這三個主要的模型來看,整個的合成效果都是得到了很大的提升,它也為我們開拓了一些新的應(yīng)用領(lǐng)域的可能。
  總結(jié)一下,就是傳統(tǒng)的語音合成方法,音庫制作、整個的系統(tǒng)制作流程都很復(fù)雜,成本比較高,周期比較長,而且還有一些聲音的不盡如人意的情況,但是神經(jīng)網(wǎng)絡(luò)的方法其實也不是盡善盡美,我們現(xiàn)在看到的是神經(jīng)網(wǎng)絡(luò)的方法需要大量的計算、大量的數(shù)據(jù),這些在滿足大量數(shù)據(jù)的情況下我們發(fā)現(xiàn)會有一些問題。
  因為我們現(xiàn)在語音合成的數(shù)據(jù)基本是單個人去采集聲音,但是單個人采集聲音的量往往不會太大,可能幾萬句話就是一個非常大的數(shù)據(jù)庫了。這種情況下我們發(fā)現(xiàn)它有些問題,所以我們提出一個解決的辦法,我們是在端到端的基礎(chǔ)上用它最核心的部分,也就是Attention的機制,整個系統(tǒng)我們不用端到端,希望文本的部分用文本的屬性,語音的部分用語音的屬性,這樣的話我們可以充分利用我們文本的數(shù)據(jù)積累去改善整個合成效果。
  同時,在真正落地的時候,GPU在生產(chǎn)環(huán)境下落地其實是有一定困難的,我們也做了針對性的優(yōu)化,讓它在CPU情況下能夠進行高效的合成。我們所做的具體的就是把輸入數(shù)據(jù)的緯度從數(shù)萬維降低到數(shù)十維,我們對文本之前積累的數(shù)據(jù)模型進行了非常好的整合與神經(jīng)網(wǎng)絡(luò)的后端進行了一個適配,達到了一個比較好的效果。
  接下來說一下產(chǎn)品技術(shù)體系,因為我們比較專注,做的主要是數(shù)據(jù)和語音合成,我們在技術(shù)層面把控好我們整個數(shù)據(jù)生產(chǎn)流程,從數(shù)據(jù)的設(shè)計、采集加工和質(zhì)檢,保證AI所需要的各項數(shù)據(jù)都是能夠高質(zhì)量對模型訓(xùn)練非常有價值,結(jié)合我們的算法、模型和架構(gòu)我們將這些數(shù)據(jù)轉(zhuǎn)換成可以直接落地的技術(shù)形態(tài)。
(標貝科技CTO李秀林現(xiàn)場PPT)
  根據(jù)上面的技術(shù)和產(chǎn)品,我們實際上構(gòu)造了三位一體的競爭優(yōu)勢,也就是依托我們的核心數(shù)據(jù)壁壘以及我們的聲音超市、明星語音IP庫等等。
  這就是我們聲音超市的一個界面,用戶可以從這里面直接體驗不同的聲音,去選擇自己所喜歡的音色。到目前為止,我們在合成方面已經(jīng)積累了超過三千小時的合成數(shù)據(jù)庫,合成數(shù)據(jù)庫的錄制加工其實是非常復(fù)雜,對發(fā)音人的音色、一致性、環(huán)境等等都會有非常高的要求,那么后期還需要有文本層面的聲音層面的各種處理環(huán)節(jié)。
(標貝科技CTO李秀林現(xiàn)場PPT)
  現(xiàn)在語音條目已經(jīng)超過了兩百萬條,定制庫已經(jīng)達到了兩百多個,包括中文、英文、韓文等不同的語言,每種語言又有不同的風格不同的年齡特點。整體來說,在合成數(shù)據(jù)方面準確率可以達到99.5%的標注水平,在識別方面我們的量更大一些,準確率也能達到99%。
  我們認為核心市場其實有五個,泛娛樂、智慧教育、智能客服、智能家居、有聲讀物,這五個方面目前我們也有諸多探索,也取得了一些比較好的成果。
  語音合成我認為或者說我們標貝科技覺得現(xiàn)在走入一個新的階段,在這個階段不是說功能性的,功能性的時代已經(jīng)過去了,語音合成功能并不稀奇,現(xiàn)在最主要的是說我們需要讓用戶有更多的可選擇性,需要滿足個性化的需求。
【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

相關(guān)閱讀:

專題

CTI論壇會員企業(yè)