首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識別(ASR)  語音識別產(chǎn)品

語音識別標(biāo)準(zhǔn)之痛

章森 王偉 華紹和 2006/06/19

  語音技術(shù)涉及到語音編碼、語音合成、語音識別、語音技術(shù)應(yīng)用等多個技術(shù)領(lǐng)域。本文討論的不是語音編碼的標(biāo)準(zhǔn)問題,而是對語音合成與識別領(lǐng)域的技術(shù)標(biāo)準(zhǔn)做一個研究與探討。

  語音技術(shù)涉及到語音編碼、語音合成、語音識別、語音技術(shù)應(yīng)用等多個技術(shù)領(lǐng)域。目前,關(guān)于語音編碼,國際標(biāo)準(zhǔn)化組織ISO和國際電信聯(lián)盟ITU上已經(jīng)制訂了一系列的技術(shù)標(biāo)準(zhǔn),分別應(yīng)用在有線通信、移動通信、數(shù)字音響等領(lǐng)域。但是,關(guān)于語音合成與識別技術(shù)的標(biāo)準(zhǔn)還沒有一個統(tǒng)一的規(guī)范,ISO和ITU在這些領(lǐng)域也沒有頒布技術(shù)標(biāo)準(zhǔn)和規(guī)范。雖然有些標(biāo)準(zhǔn)化組織、研究機構(gòu)和大公司提出了各自的技術(shù)規(guī)范草案,但是沒有得到廣泛的承認(rèn)和支持。國際上,許多跨國公司,如IBM、Microsoft、AT&T、Naunce、Sun System等對語音技術(shù)的研究已經(jīng)持續(xù)了多年,對制定語音技術(shù)領(lǐng)域的標(biāo)準(zhǔn)非常關(guān)心并積極參與,希望能把各自公司的研究成果納入到技術(shù)規(guī)范和標(biāo)準(zhǔn)中去,以期在激烈的競爭中處于技術(shù)的制高點,F(xiàn)在,與互聯(lián)網(wǎng)有關(guān)的語音技術(shù)應(yīng)用領(lǐng)域,相關(guān)的國際語音標(biāo)準(zhǔn)發(fā)展迅速,形成了VoiceXML和SALT兩大語音標(biāo)準(zhǔn)陣營,并各自都獲得了廣泛的支持。但是,對語音合成與識別的核心技術(shù),如系統(tǒng)框架、接口規(guī)范等還沒有統(tǒng)一的標(biāo)準(zhǔn)。本文不討論語音編碼的標(biāo)準(zhǔn)問題,而是對語音合成與識別領(lǐng)域的技術(shù)標(biāo)準(zhǔn)做一個初步的探討。

  語音技術(shù)標(biāo)準(zhǔn)的三個層面

  雖然目前國際上還沒有統(tǒng)一的、得到廣泛承認(rèn)和支持的語音合成與識別領(lǐng)域的技術(shù)標(biāo)準(zhǔn),但是,這方面的研究工作發(fā)展迅速,近幾年推出了許多研究成果,特別是W3C組織積極推動并發(fā)布了多個語音技術(shù)應(yīng)用方面的規(guī)范或標(biāo)準(zhǔn)。例如, W3C發(fā)布了Voice Browser(語音瀏覽器)標(biāo)準(zhǔn)的草案。在這個標(biāo)準(zhǔn)中,Voice Browser標(biāo)準(zhǔn)(草案)定義了幾種支持語音輸入和輸出的鏈接語言。這些鏈接語言使語音設(shè)備可以跨越各種硬件和軟件平臺,特別是設(shè)計了關(guān)于對話、語音識別語法、語音合成、自然語言語義和搜集可重復(fù)使用的對話組件的鏈接語言。這些鏈接語言和組件就構(gòu)成了未來語音界面框架,F(xiàn)在,這個標(biāo)準(zhǔn)組中的參加成員有AT&T、Cisco、Hitachi、HP、IBM、Intel、 Lucent、Microsoft、Motorola、Nokia、Nortel、Sun和Unisys等公司。由于語音識別與合成技術(shù)還處在迅速發(fā)展階段,制訂出一套合適的技術(shù)標(biāo)準(zhǔn)很不容易。關(guān)于語音技術(shù)(除了語音編碼)有關(guān)標(biāo)準(zhǔn)的制定工作主要集中在三個層面。

  語音技術(shù)應(yīng)用: 在這個層面上,主要規(guī)定在應(yīng)用開發(fā)中如何使用語音合成與識別技術(shù),即應(yīng)用程序與語音合成/識別引擎之間的通信協(xié)議/語言,許多跨國公司積極參加了這個層面的規(guī)范與標(biāo)準(zhǔn)的起草、制訂工作,例如,如IBM、AT&T、Naunce、Microsoft、Sun System等,推動并且形成了VoiceXML和SALT兩大語音標(biāo)準(zhǔn)陣營。從開發(fā)者的角度看,這些標(biāo)準(zhǔn)都是面向應(yīng)用系統(tǒng)開發(fā)用的。萬維網(wǎng)聯(lián)盟W3C主持了VoiceXML的起草和制定工作,并從2000年開始陸續(xù)發(fā)布了VoiceXML的多個版本,其中包括了語音識別語法規(guī)范和語音合成標(biāo)記語言等。這些標(biāo)準(zhǔn)不僅使應(yīng)用程序可以移植,而且還能夠使語法相關(guān)聯(lián)。VoiceXML 2.0是一種標(biāo)記語言,用于建立話音界面,相當(dāng)于帶語音功能的HTML。現(xiàn)在已經(jīng)有數(shù)百個大的廠商開發(fā)了基于VoiceXML的應(yīng)用程序。SALT表示語音應(yīng)用標(biāo)記語言,它是在現(xiàn)有的標(biāo)記語言,如在HTML、XHTML的基礎(chǔ)上,增加了對語音和多媒體功能的支持而形成的。對語音應(yīng)用,它主要關(guān)注的是如何通過電話得到語音服務(wù)。2002年,SALT聯(lián)盟論壇發(fā)布了SALT技術(shù)規(guī)范的草案,并且把它提交給了W3C,希望能成為技術(shù)標(biāo)準(zhǔn)。參加和支持SALT技術(shù)規(guī)范的大公司包括: Cisco Systems Inc., Comverse Inc., Intel Corp., Microsoft Corp., Philips Speech Processing 以及 SpeechWorks International Inc.等。

  語音識別/合成系統(tǒng)性能評測標(biāo)準(zhǔn): 美國國家技術(shù)與標(biāo)準(zhǔn)研究所(NIST)主持了這個方面的工作。從20世紀(jì)90年代中期開始,NIST就開始組織語音識別/合成系統(tǒng)的性能評測工作。由于語音識別/合成系統(tǒng)的實現(xiàn)技術(shù)各種各樣,對它們的評測實際上是相當(dāng)困難的。20世紀(jì)90年代初期的時候,語音識別/合成系統(tǒng)大量推出,但往往出現(xiàn)下面的情況: 某個系統(tǒng)在推出時,聲稱該系統(tǒng)有很高的性能,但實際應(yīng)用的時候其性能與宣傳的差別很大。因此,NIST認(rèn)為應(yīng)制定出一套評價語音識別/合成系統(tǒng)的技術(shù)標(biāo)準(zhǔn),讓所有的語音識別/合成系統(tǒng)在這套評測標(biāo)準(zhǔn)下進(jìn)行評估,以得到客觀的性能評價指標(biāo)。在該領(lǐng)域,NIST陸續(xù)制定了評價語音識別/合成系統(tǒng)的詞錯誤率WER的計算規(guī)范,語言模型的復(fù)雜度的計算規(guī)范,訓(xùn)練和測試語料的選取,系統(tǒng)響應(yīng)時間標(biāo)準(zhǔn),合成語音自然度的評價規(guī)范,測試程序的規(guī)范等。近年來,NIST又制定了針對其它語種(如,漢語,日語等)的評價標(biāo)準(zhǔn)。NIST的評價標(biāo)準(zhǔn)迅速得到了語音識別/合成領(lǐng)域開發(fā)者的支持,越來越多的大公司積極參加NIST組織的評測活動,同時也推動了語音識別/合成技術(shù)的發(fā)展。國內(nèi)的“863”智能人機接口專家組也開展了類似的工作,陸續(xù)制定了針對漢語語音識別與合成系統(tǒng)性能的評價規(guī)范。

  語音識別/合成引擎及其開發(fā)接口: 在這個層面上還沒有一個技術(shù)標(biāo)準(zhǔn)或規(guī)范被廣泛承認(rèn)和采納。ISO、ITU、NIST、W3C等標(biāo)準(zhǔn)化組織都沒有在該方面推出技術(shù)標(biāo)準(zhǔn)或規(guī)范。實際上,這方面的工作涉及到許多語音識別/合成系統(tǒng)的具體實現(xiàn)問題,而系統(tǒng)的實現(xiàn)方法千變?nèi)f化,難以用一個統(tǒng)一的規(guī)范和標(biāo)準(zhǔn)來規(guī)范。雖然沒有語音識別/合成引擎及其開發(fā)接口的統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,但一些開發(fā)廠商和研究機構(gòu)還是制定了各自的規(guī)范,在各自的語音系統(tǒng)中得到了實現(xiàn),并隨著語音識別/合成系統(tǒng)的推出而發(fā)布。

  IBM在其推出的語音識別與合成引擎ViaVoice中規(guī)定了開發(fā)接口,提供了幾百個開發(fā)接口函數(shù)。Microsoft推出了基于它的語音識別與合成引擎開發(fā)語音應(yīng)用的接口Speech SDK, 在其中也提供了類似的開發(fā)接口函數(shù)。但是,IBM和Microsoft的語音識別與合成引擎的實現(xiàn)細(xì)節(jié)沒有公開,也沒有提供這方面的技術(shù)規(guī)范。另外,美國的CMU大學(xué)、英國劍橋大學(xué)電子工程系的HTK開發(fā)組都發(fā)布了開放式的語音識別與合成引擎的源碼以及相應(yīng)的開發(fā)工具,它們的語音識別與合成引擎的實現(xiàn)方法紛紛被眾多的開發(fā)者所借鑒,從而形成了業(yè)界很有影響的開發(fā)規(guī)范,但是,這些規(guī)范也不是標(biāo)準(zhǔn)。目前,有許多語音識別與合成引擎,但是沒有提供實現(xiàn)的技術(shù)規(guī)范,因此,這些系統(tǒng)的實現(xiàn)和提供的接口只是遵守各自特殊的規(guī)定,沒有規(guī)范化并得到廣泛的應(yīng)用。

  中文語音技術(shù)標(biāo)準(zhǔn)現(xiàn)狀

  制訂中文語音技術(shù)的有關(guān)標(biāo)準(zhǔn),對促進(jìn)中文語音技術(shù)應(yīng)用、推動中文語音產(chǎn)業(yè)發(fā)展、增強民族軟件核心競爭力均具有非常重要的意義。國家信息產(chǎn)業(yè)部、“863”專家組、國家技術(shù)監(jiān)督局和國家信息標(biāo)準(zhǔn)化委員會分別于2001年、2002年、2003年召開了三屆語音標(biāo)準(zhǔn)研討會,并于2003年11月由信息產(chǎn)業(yè)部科技司正式下文成立了“中文語音交互技術(shù)標(biāo)準(zhǔn)工作組”。

  “中文語音交互技術(shù)標(biāo)準(zhǔn)工作組”是由國內(nèi)產(chǎn)、學(xué)、研、用等企事業(yè)單位以及大專院校等自愿聯(lián)合組織、經(jīng)信息產(chǎn)業(yè)部科技司批準(zhǔn)成立的、組織開展中文語音交互領(lǐng)域技術(shù)標(biāo)準(zhǔn)制定和研究活動的非營利性技術(shù)工作組織。該工作組的主要工作任務(wù)是研究并制定與中文語音交互技術(shù)有關(guān)的數(shù)據(jù)交換格式、系統(tǒng)架構(gòu)與接口、系統(tǒng)分類與評測及數(shù)據(jù)庫格式與標(biāo)注等方面的標(biāo)準(zhǔn)。目前,語音合成和語音識別通用標(biāo)準(zhǔn)已正式立項為國家標(biāo)準(zhǔn),報批稿已經(jīng)完成,多個產(chǎn)業(yè)相關(guān)的應(yīng)用技術(shù)標(biāo)準(zhǔn)也正在制定之中。

  國家“863”智能人機接口專家組在20世紀(jì)90年代中后期邀請國內(nèi)的一些研究機構(gòu)和大學(xué)制訂了針對漢語語音識別與合成系統(tǒng)的評價規(guī)范,該評價規(guī)范應(yīng)用到了歷屆對“863”支持的漢語語音識別與合成系統(tǒng)的評價過程中。如果從語音識別與合成技術(shù)標(biāo)準(zhǔn)的三個層面考察,國內(nèi)在該領(lǐng)域的研究工作主要集中在系統(tǒng)性能的評價規(guī)范的制訂上,至今還沒有正式實施的國家標(biāo)準(zhǔn)。但是,隨著國內(nèi)的語音應(yīng)用開發(fā)地迅速發(fā)展,沒有一個統(tǒng)一的技術(shù)規(guī)范或標(biāo)準(zhǔn)會造成許多開發(fā)重復(fù),資源浪費。

  例如,如果語音識別與合成引擎支持媒體資源控制協(xié)議(MRCP), 語音應(yīng)用開發(fā)者采用MRCP,IVR和語音識別與合成引擎開發(fā)廠商之間的專有用的連接器就不需要了。再如,隨著語音技術(shù)和應(yīng)用市場需求增大的同時,面臨著復(fù)雜系統(tǒng)互聯(lián)的問題。在系統(tǒng)的互聯(lián)接口、內(nèi)容交換數(shù)據(jù)格式等方面沒有一個大家共同遵循的標(biāo)準(zhǔn),其開發(fā)難度、維護(hù)難度和運營難度是非常巨大的; 沒有一個大家共同遵循的標(biāo)準(zhǔn),語音合成/識別引擎與電話設(shè)備、后臺數(shù)據(jù)庫、地理信息、無線定位等其他組成部分完成通信也是非常困難的,這些都成了阻礙語音應(yīng)用大規(guī)模發(fā)展的絆腳石。因此,制訂和研究漢語語音技術(shù)領(lǐng)域的標(biāo)準(zhǔn)已迫在眉睫。

  技術(shù)標(biāo)準(zhǔn)的主要內(nèi)容

  為了適應(yīng)網(wǎng)上語音瀏覽、語音信息檢索、交互式語音應(yīng)用的發(fā)展需求,語音識別與合成技術(shù)的標(biāo)準(zhǔn)制訂工作的重點目前應(yīng)該集中語音技術(shù)應(yīng)用層面和語音識別/合成引擎及其開發(fā)接口上。這樣的一個標(biāo)準(zhǔn)或規(guī)范必須是有代表性的,通用的,被廣泛接受和采用的; 顯然,制定一個這樣的標(biāo)準(zhǔn)不能閉門造車,要有標(biāo)準(zhǔn)的使用機構(gòu)或潛在的使用機構(gòu)參與,還必須與國際上已有的類似的標(biāo)準(zhǔn)接軌,與國際上的標(biāo)準(zhǔn)化機構(gòu),如ISO、W3C、ITU等密切合作。值得注意的是,語音識別/合成的實現(xiàn)算法千差萬別,該領(lǐng)域的標(biāo)準(zhǔn)或規(guī)范只能提供一個實現(xiàn)框架,沒有必要對具體的實現(xiàn)算法和技術(shù)細(xì)節(jié)進(jìn)行約束。另外,語音技術(shù)標(biāo)準(zhǔn)還應(yīng)該與具體應(yīng)用無關(guān),與語音識別/合成引擎無關(guān)等。

  如上所述,語音技術(shù)標(biāo)準(zhǔn)(除了語音編碼)的制訂工作主要集中在三個不同的層面上。這三個層面標(biāo)準(zhǔn)的內(nèi)容分別是:

  語音技術(shù)應(yīng)用: 一般基于語音的應(yīng)用都有如下圖所示的架構(gòu)(已簡化)。

  在這個層面上,語音技術(shù)標(biāo)準(zhǔn)的主要內(nèi)容是: 規(guī)定語音輸入、語音輸出、識別結(jié)果、返回結(jié)果的格式和屬性。語音輸入和語音輸出屬于用戶與語音信號處理引擎之間的交互過程,所以,這部分也包括語音用戶界面的內(nèi)容; 識別結(jié)果是語音信號處理引擎輸出的結(jié)果,也是識別結(jié)果執(zhí)行引擎的輸入,識別的結(jié)果一般是文本或命令,如何將識別結(jié)果格式化是該層面的主要任務(wù); 返回結(jié)果是識別結(jié)果執(zhí)行引擎的輸出,也是語音信號處理引擎的輸入,經(jīng)語音信號處理引擎處理后,以語音的方式返回給用戶。為此,需要規(guī)定語音輸出的參數(shù)格式,如韻律特征、重音特征和停頓等。制訂這方面的標(biāo)準(zhǔn)內(nèi)容還應(yīng)該考慮漢語語言和語音結(jié)構(gòu)的特殊性。現(xiàn)在已經(jīng)發(fā)布的技術(shù)標(biāo)準(zhǔn)或規(guī)范主要是VoiceXML和SALT,它們都屬于描述和規(guī)定語音技術(shù)應(yīng)用的層面,都是基于標(biāo)記語言的格式。

  語音識別/合成系統(tǒng)性能評測標(biāo)準(zhǔn): 在這個層面上,語音技術(shù)標(biāo)準(zhǔn)的主要內(nèi)容是: 評價語音識別引擎的性能指標(biāo),主要包括: 詞匯量大小、識別方式、詞錯誤率WER、語言模型復(fù)雜度、響應(yīng)時間、訓(xùn)練和測試語料等; 評價語音合成引擎的性能指標(biāo),主要包括: 詞匯量、自然度、清晰度、測試語料等。雖然我們可以借鑒NIST在這方面的經(jīng)驗和標(biāo)準(zhǔn),但是針對漢語語音識別/合成系統(tǒng)性能評測標(biāo)準(zhǔn),我們不能照搬,必須考慮漢語的特點。

  語音識別/合成引擎及其開發(fā)接口: 在這個層面上,語音技術(shù)標(biāo)準(zhǔn)的主要內(nèi)容是: 規(guī)定語音識別引擎的輸入/輸出的格式,如輸入語音的方式(已有的語音數(shù)據(jù)的輸入/Mic語音輸入)、語音數(shù)據(jù)的格式、語音特征向量的格式、控制參數(shù)的語義格式、輸出是文本串的格式、拼音串的格式、音素串的格式等,提供給用戶開發(fā)接口的函數(shù)名、入口/出口參數(shù)、功能描述等; 但是,語音識別引擎的實現(xiàn)細(xì)節(jié)不應(yīng)該包含在此部分的標(biāo)準(zhǔn)內(nèi),如引擎應(yīng)該包含哪些模塊,使用什么樣的語音特征向量,如何計算語音特征向量,如何建立模板,如何匹配計算等,都不應(yīng)該加以約束,而允許開發(fā)者采用適當(dāng)?shù)乃惴▽崿F(xiàn)。關(guān)于規(guī)定語音合成引擎,需要規(guī)定的是: 輸入的格式,如純文本/拼音、帶有控制串的文本/拼音、控制串的語義格式描述、輸出的格式、提供給用戶開發(fā)接口的函數(shù)名、入口/出口參數(shù)、功能描述等; 但是,語音合成引擎的實現(xiàn)細(xì)節(jié)不應(yīng)該包含在此部分的標(biāo)準(zhǔn)內(nèi),如引擎應(yīng)該包含哪些模塊,如何進(jìn)行輸入文本的分析,如何分詞,采用什么樣的合成基元和算法等,都不應(yīng)該加以約束。關(guān)于這部分標(biāo)準(zhǔn)的內(nèi)容,IBM和Microsoft語音識別/合成引擎開發(fā)文檔提供了詳細(xì)的開發(fā)接口函數(shù)的信息,而且功能基本相同,可以為制訂語音識別/合成引擎開發(fā)接口提供參考。語音識別引擎開發(fā)工具包HTK詳細(xì)描述了如何開發(fā)一個新的語音識別引擎,對制訂該部分標(biāo)準(zhǔn)的內(nèi)容也具有參考意義。

  鏈接:推動技術(shù)標(biāo)準(zhǔn)制訂

  語音技術(shù)在網(wǎng)絡(luò)瀏覽器和其他領(lǐng)域的的需求越來越迫切,制訂語音技術(shù)標(biāo)準(zhǔn)或規(guī)范的條件工作已經(jīng)基本就緒,但針對各個具體語種的工作還很多。萬維網(wǎng)聯(lián)盟W3C在制定語音技術(shù)標(biāo)準(zhǔn)或規(guī)范方面做了大量工作,從2000年開始,先后發(fā)布了一系列用于語音識別、語音合成的標(biāo)記語言規(guī)范; 為了制訂一種通用標(biāo)準(zhǔn),并被廣泛采用,W3C邀請了國際上的大公司,如Sun、 IBM、Intel、微軟等參加工作組。除了語音識別/合成標(biāo)記語言,工作組還在開發(fā)語義翻譯和呼叫控制擴展標(biāo)記語言兩種語音標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)都是W3C語音接口框架的重要部分,目的是為網(wǎng)絡(luò)建立語音應(yīng)用軟件。

  據(jù)報道,W3C計劃提出針對普通話的語音技術(shù)標(biāo)準(zhǔn),并計劃加入日語、韓語等亞洲語種。到目前為止,W3C推出的語音技術(shù)標(biāo)準(zhǔn)中最成功的是VoiceXML 2.0,支持VoiceXML 2.0的Web瀏覽器可以解釋VoiceXML 2.0腳本并向用戶呈現(xiàn)語音信息,同時還能接受用戶的語音請求,其功能相當(dāng)于語音瀏覽器,大大促進(jìn)了語音技術(shù)在網(wǎng)絡(luò)中的應(yīng)用。

計算機世界網(wǎng)(www.ccw.com.cn)



相關(guān)鏈接:
你好!新語音識別時代 2006-06-01
藏在舌尖上的“身份證”:走向民品市場的聲音識別技術(shù) 2006-05-30
語音識別前端系統(tǒng)提高配送中心員工選貨的正確性 2006-03-14
語音技術(shù)“入侵”電話服務(wù) 顛覆傳統(tǒng)通信 2006-03-10
Aculab的Prosody語音卡支持teliSpeech語音識別技術(shù) 2006-03-06

相關(guān)頻道:           文摘   技術(shù)_語音識別_文摘