首頁>>廠商>>語音識別與合成>>科大訊飛

語音合成技術及國內外發(fā)展現(xiàn)狀

王仁華 中國科學技術大學

一 語音合成技術簡介

-----語音識別和語音合成技術是實現(xiàn)人機語音通信,建立一個有聽和講能力的口語系統(tǒng)所必需的兩項關鍵技術。使電腦具有類似于人一樣的說話和聽懂人說話的能力,是90年代信息產業(yè)的重要競爭市場。和語言識別相比,語言合成的技術相對說來要成熟一些,是該領域中近期最有希望產生突破并形成產業(yè)化的一項技術。

-----語言合成或者讓計算機說話包含著二個方面的可能性:一是機器能再生一個預先存入的語音信號,就象普通的錄音機一樣,不同之處只是采用了數(shù)字存儲技術。簡單地將預先存入的單音或詞組拼接起來也能作到“機器開口”, 但是“一字一蹦”,機器味十足,人們很難接受。然而如果預先存入足夠的語音單元,在合成時采用恰當?shù)募夹g手段挑選出所需的語音單元拼接起來,也有可能生成高自然度的語句,這就是波形拼接的語音合成方法。為了節(jié)省存儲容量,在存入機器之前還可以對語音信號先進行數(shù)據壓縮。另一種可能是采用數(shù)字信號處理的方法,將人類發(fā)聲過程看作是一個模擬聲門狀態(tài)的源,去激勵一個表征聲道諧振特性的時變數(shù)字濾波器,這個源可能是周期脈沖序列,它代表濁音情況下的聲帶振動,或者是隨機噪聲序列,代表不出聲的清音. 調整濾波器的參數(shù)等效于改變口腔及聲道形狀,達到控制發(fā)不同音的目的,而調整激勵源脈沖序列的周期或強度,將改變合成語音的音調、重音等. 因此,只要正確控制激勵源和濾波器參數(shù)(一般每隔10~30ms送一組),這個模型就能靈活地合成出各種語句來,因此又稱作為參數(shù)合成的方法。根據時變?yōu)V波器的結構形式不同,又有LPC合成和共振峰合成器等之分。

-----按照人類言語功能的不同層次,語言合成也可分成三個層次,它們是:(1)從文字到語音的合成(Text-To-Speech);(2)從概念到語音的合成(Concept-To-Speech);(3)從意向到語音的合成(Intention-To-Speech)。這三個層次反映了人類大腦中形成說話內容的不同過程,涉及人類大腦的高級神經活動。不難想象,即使是按規(guī)則的文字到語音合成(文語合成)也已經是相當困難的任務。為了合成出高質量的語言,除了依賴于各種規(guī)則,包括語義學規(guī)則、詞匯規(guī)則、語音學規(guī)則外,還必須對文字的內容有很好的理解,這將涉及自然語言理解的問題。從這一點講,文語轉換系統(tǒng)實際上也可看作一個人工智能系統(tǒng)。圖1顯示了一個完整的文語轉換系統(tǒng)示意圖。文語轉換過程是先將文字序列轉換成音韻序列,再由語音合成器生成語音波形。其中第一步涉及語言學處理,例如分詞、字音轉換等,以及一整套有效的韻律控制規(guī)則;第二步需要先進的語音合成技術,能按要求實時合成出高質量的語音流。因此一般說來,文語合成系統(tǒng)都需要一套復雜的文字序列到音素序列的轉換程序,也就是說,文語轉換系統(tǒng)不僅要應用數(shù)字信號處理技術,而且必須有大量的語言學知識的支持。當然其中語音合成終究還是最基本的部分,它相當于“人工嘴巴”,任何語言合成系統(tǒng)包括文語轉換系統(tǒng),都離不開語音合成器。


圖 1 文語轉換系統(tǒng)示意圖

二 國內外語音合成技術發(fā)展現(xiàn)狀

-----綜觀語言合成技術的研究已有二百多年的歷史,但是真正有實用意義的近代語音合成技術是隨著計算機技術和數(shù)字信號處理技術的發(fā)展而發(fā)展起來的,主要是讓計算機能夠產生高清晰度、高自然度的連續(xù)語音。近幾十年來國際和國內的研究主要集中在按規(guī)則文語轉換,即將書面語言轉換成口頭語言。在語音合成技術的發(fā)展中,早期的研究主要是采用參數(shù)合成方法。值得提及的是Holmes的并聯(lián)共振峰合成器(1973)和Klatt的串/并聯(lián)共振峰合成器(1980),只要精心調整參數(shù),這兩個合成器都能合成出非常自然的語音。而最具代表性的文語轉換系統(tǒng)數(shù)美國DEC 公司的DECtalk(1987),該系統(tǒng)采用Klatt的串/并聯(lián)共振峰合成器,可以通過標準的接口和計算機連網或單獨接到電話網上提供各種語音信息服務,它的發(fā)音清晰,并可產生七種不同音色的聲音,供用戶選擇。但是經過多年的研究與實踐表明,由于準確提取共振峰參數(shù)比較困難,雖然利用共振峰合成器可以得到許多逼真的合成語音,但是整體合成語音的音質難以達到文語轉換系統(tǒng)的實用要求。自八十年代末期至今,語言合成技術又有了新的進展,特別是基音同步疊加(PSOLA)方法的提出(1990),使基于時域波形拼接方法合成的語音的音色和自然度大大提高。九十年代初,基于PSOLA技術的法語、德語、英語、日語等語種的文語轉換系統(tǒng)都已經研制成功。這些系統(tǒng)的自然度比以前基于LPC方法或共振峰合成器的文語合成系統(tǒng)的自然度要高,并且基于PSOLA方法的合成器結構簡單易于實時實現(xiàn),有很大的商用前景。最近幾年,一種新的基于數(shù)據庫的語音合成方法正引起人們的注意。在這個方法中,合成語句的語音單元是從一個預先錄下的龐大的語音數(shù)據庫中挑選出來的, 不難想象只要語音數(shù)據庫足夠大,包括了各種可能語境下的語音單元,理論上講有可能拼接出任何語句。由于合成的語音基元都是來自自然的原始發(fā)音,合成語句的清晰度和自然度都將會非常高。

-----國內的漢語語音合成研究起步較晚些,但從八十年代初就基本上與國際上研究同步發(fā)展。大致也經歷了共振峰合成、LPC合成至應用PSOLA技術的過程。在國家863計劃,國家自然科學基金委,國家攻關計劃,中國科學院有關項目等支持下,漢語文語轉換系統(tǒng)研究近年來取得了令人舉目的進展,其中不乏成功的例子:如中國科學院聲學所的KX-PSOLA(1993), 聯(lián)想佳音(1995);清華大學的TH_SPEECH(1993);中國科技大學的KDTALK(1995)等系統(tǒng)。這些系統(tǒng)基本上都是采用基于PSOLA方法的時域波形拼接技術,其合成漢語普通話的可懂度、清晰度達到了很高的水平。然而同國外其它語種的文語轉換系統(tǒng)一樣,這些系統(tǒng)合成的句子及篇章語音機器味較濃,其自然度還不能達到用戶可廣泛接受的程度,從而制約了這項技術的大規(guī)模進入市場。

-----1998年中國科技大學在國家863 計劃和國家自然科學基金委支持下,研制成功KD-863漢語文語轉換系統(tǒng)。和采用國內外流行的PSOLA技術的系統(tǒng)相比,在輸出語音的音質和自然度上有了突破性的提高。KD-863采用了一種全新的基于語音數(shù)據庫的語音合成方法, 該技術的基本思想是將實際語流中漢語音節(jié)千變萬化的音變進行聽感上的量化歸并,設計出多樣本的漢語語音基元庫,這個庫蘊涵了漢語韻律變化信息,合成時只要通過對基元庫樣本的選取便可實現(xiàn)韻律控制。同時語音基元庫中的樣本是直接從自然語音中截取,避免了采用信號處理技術獲取音變單元對音質的損害,因而合成語音具有接近自然語音的音質。KD-863文語轉換系統(tǒng)一經推出,就因其合成語音的高清晰度與高自然度引起了社會各方的重視。先后應用于為深圳華為技術公司設計的“114自動電話報號系統(tǒng)”,和為國家工商總局設計的“工商企業(yè)語音(傳真)查詢系統(tǒng)”。使得漢語語音合成技術走出實驗室,向市場應用邁出了重要的一步。KD-863系統(tǒng)參加了在1998年4月國家科委組織的全國漢語語音合成系統(tǒng)的性能評測,其輸出語音的自然度居同類系統(tǒng)之首,是唯一達到用戶可以接受程度的系統(tǒng)。KD-863還在日本,新加坡,香港的有關研究所和大學進行過演示,均得到了有關方面專家的認同。最近中國科技大學又推出了KD-2000漢語文語轉換系統(tǒng),不僅在語音合成技術方面有進一步的發(fā)展,特別是在文本預處理中圍繞層次化結構思想,運用大量的統(tǒng)計和規(guī)則的方法,較好地解決了三個大的處理環(huán)節(jié):特殊符號處理,分詞處理和拼接處理,使得漢語文語轉換系統(tǒng)的整體性能有很大提高。以KD-2000文語轉換為核心的“暢言2000”智能漢語平臺軟件已開始進入市場。

三 語音合成發(fā)展方向

1. 提高合成語音的自然度

-----提高合成語音的自然度仍然是高性能文語轉換的當務之急。就漢語語音合成來說,目前在單字和詞組一級上,合成語音的可懂度和自然度已基本解決,但是到句子乃至篇章一級時其自然度問題就比較大。

-----基于語音數(shù)據庫的語音合成方法有望進一步提高語音合成的自然度。 因為這是一種采用自然語音波形直接拼接的方法,進行拼接的語音單元是從一個預先錄下的自然語音數(shù)據庫中挑選出來的,因此有可能最大限度地保留語音的自然度。但由此產生了一系列新的需要研究的問題,包括:如何確定語音合成的基元,根據什么準則去挑選合適的基元;韻律參數(shù)定量化問題,對數(shù)據庫進行定標問題;以及如何將統(tǒng)計的方法和規(guī)則方法相結合使機器能自動發(fā)現(xiàn)和找出所需的語音單元,保證最高的合成語句自然度等等。

-----無論用哪種合成方法,韻律規(guī)則的總結,特別是連續(xù)語音的韻律規(guī)則總結,盡可能將定性的規(guī)則描述定量化,對自然度始終有最重要的影響。還有前端文本處理, 對合成語音的自然度也具有舉足輕重的影響, 完整全面的解決, 需要自然語言理解的突破。

2 豐富合成語音的表現(xiàn)力

-----目前國內外大多數(shù)語音合成研究是針對文語轉換系統(tǒng),且只能解決以某種朗讀風格將書面語言轉換成口語輸出,缺乏不同年齡、性別特征及語氣、語速的表現(xiàn),更不用說賦予個人的感情色彩。隨著信息社會的需求發(fā)展,對人機交互提出了更高的要求,人機口語對話系統(tǒng)的研究也提到了日程上。即語音合成研究已開始從文字到語音的轉換階段向概念到語音的轉換階段發(fā)展。這不僅對語音合成技術提出了更高的要求,而且涉及到計算機語言生成,涉及人類大腦的高級神經活動。但就語音合成來說,仍是一個要豐富合成語音的表現(xiàn)力問題。相對來說采用波形拼接方法來增強合成語音表現(xiàn)力比較困難,盡管也可以通過增加音庫容量和音庫個數(shù)來達到改變合成語音的特性,但畢竟它對韻律的控制能力非常有限。更為有效的辦法是采用參數(shù)合成法,分析參數(shù)特征,通過對相關參數(shù)的調整來實現(xiàn)對年齡、性別特征的改變,進一步實現(xiàn)語氣、語調的變化,由于這種改變是連續(xù)的,對象特征可以千千萬萬,顯得更有生命力。近年來提出的基于LMA(對數(shù)振幅近似)技術的語音合成器,Hybrid Harmonic/Stochastic 模型 , Sinusoidal 模型等已被證實是一些新穎的能合成出高質量語音的參數(shù)合成方法,為此應繼續(xù)深入這方面的研究,以期在參數(shù)合成技術上取得突破。

3 降低語音合成技術的復雜度

-----語音合成技術正在走向市場。為了適應社會的需求,擴大文語合成的應用場合,除了解決好上面兩個問題,提高合成語音的質量和增強語音合成的表現(xiàn)力以外,在其他實用化方面也有要加以改進的地方。就目前漢語文語轉換系統(tǒng)而言,減小音庫容量就是一個重要課題。目前高質量的漢語文語轉換系統(tǒng)一般需要幾兆字節(jié)到幾十兆,甚至幾百兆字節(jié)的存儲容量,這在以PC機或工作站為硬件平臺的應用中是沒有問題的,而對于象HPC, PDA及無線通信手機,商務通等資源有限的設備上就沒法承受。解決的方法可以是通過語音壓縮編碼的方法來壓縮音庫所需的容量,或者采用更小的合成基元,例如用聲母、韻母或雙音素、半音節(jié), 以及減少合成語音所需的音節(jié)基元數(shù)等等。然而又不能增加算法的復雜度,因為運算量及系統(tǒng)開銷同樣會直接影響漢語語音合成的應用。既要提高語音合成的質量,又要降低語音合成的復雜度,這始終是一個矛盾的兩個方面。

4 多語種文語合成

-----語言是人們交流的工具,不同民族有自己不同的語言,不同語言之間的交流在今天開放的信息社會和網絡時代顯得十分重要,多語種的文語合成有著獨特的應用價值。例如在自動電話翻譯,有聲的電子郵件等中都提出多語種的合成,即使是對漢語合成也有多方言文語轉換的需求。理想的多語種合成系統(tǒng)最好是各種語言共用一種合成算法或語音合成器,但是現(xiàn)有的語音合成系統(tǒng)大多是針對某一種語言或若干種語言開發(fā)出來的,所采用的算法及規(guī)則都是和某種語言密切相關的,因此很難推廣到其他的語種。例如漢語就和西方語言有很大的差異,國內的系統(tǒng)都是做漢語文語轉換,它的一套韻律控制規(guī)則完全不適合于英語,而且主要是合成漢語普通話,即使推廣到廣東話和上海話都有相當?shù)碾y度?梢娨嬲鉀Q多語種的文語合成,從文本處理到語音合成都必須有新的思路。美國貝爾實驗室在多語種文語轉換方面作了大量的工作,其中包括漢語普通話合成,值得注意。

四 結語

-----計算機要真正能夠象人一樣的說話,和人類自由地進行交談,這仍然是需假以時日,還有大量的研究工作要去做;今天的文語轉換系統(tǒng)只能機械地朗讀文章,與生動活潑、感情豐富多彩的人類語言相比差距是如此之大;但是毋庸置疑,語音合成技術確實已經可以走出實驗室了,其潛在的巨大市場已露出曙光。

王仁華,男。現(xiàn)為中國科技大學、電子工程與信息科學系教授、博士生導師;中國科技大學、國家智能計算機研究開發(fā)中心、人機語言通信研究評測室主任;中國通信學會會士、理事;安徽省通信學會副理事長;中國電子學會、中國儀器儀表學會、信號處理學會委員會委員;國家自然科學基金會自動化學科評審組成員;全國信標委非鍵盤輸入分委員會委員;國際漢語口語處理委員會常任委員。自1999年起任國家863智能計算機成果轉換基地中央研究院院長,中科大訊飛信息科技股份有限公司董事長。

 



相關鏈接:
訊飛暢言語音教具系統(tǒng)榮獲“創(chuàng)新軟件產品” 2009-09-08
科大訊飛嵌入式語音新產品發(fā)布會在深圳舉行 2009-09-07
“會說話”的顯示屏提升居民小區(qū)信息服務水平 2009-09-07
訊飛語音助力太平人壽客服中心 2009-08-28
訊飛語音助力CDMA手機競爭終端市場 2009-08-14

分類信息:  語音合成TTS_與_語音識別ASR     技術_語音合成_新聞   技術_語音識別_新聞   技術_語音合成_文摘