首頁>>>技術>>>語音應用>>>語音合成(TTS)  語音合成產(chǎn)品

 

基于VoiceXML 的應用系統(tǒng)規(guī)范提綱
(征求意見稿)

中國移動互聯(lián)應用協(xié)議特別組---中文&漢語專家組 2001年7月

一 互聯(lián)網(wǎng)絡與語音應用技術

以互聯(lián)網(wǎng)為代表的信息產(chǎn)業(yè)為中國帶來了巨大的機會和挑戰(zhàn),中國社會開始進入一個以信息為核心的時代。如何快速準確地獲取所關心的信息,對人們的日常工作和生活已經(jīng)具有越來越重要的影響。

至今為止,Internet 的訪問模式逐漸從單一的PC/HTML訪問方式向多種用戶終端發(fā)展 ,如:移動電話、PDA、機頂盒等。而我們知道,人類習慣于輕松簡單的說話,以語音的方式,通過友好的、人性的交互直接獲取信息和服務,而并不愿依靠鍵盤和鼠標。近年來語音技術的飛速發(fā)展和不斷成熟,以及中文語音應用技術的突破,為信息網(wǎng)絡帶來了一種極具誘惑的信息終端-----電話。

語音,是人類最為熟悉的交流方式。人有70%的信息獲取是通過聽,而90%的信息表達是通過說。語音是人們詢問問題,交換觀念、分享經(jīng)驗和建立關系的最主要方式,人類通過語音傳達著大量的信息。

語音應用技術(Voice Application Technology ),是指人們可以使用有線電話或移動電話,以及PC、PDA和其它智能設備通過語音識別、語音合成的交互技術,語音瀏覽、智能信息處理等技術實現(xiàn)人們訪問互聯(lián)網(wǎng)絡,以及實現(xiàn)個人服務和商業(yè)服務的應用技術。

語音應用技術,是語音技術(ASR和TTS )、語音瀏覽技術、智能文字信息處理技術等技術的集合,其形成一個完整的技術應用規(guī)范體系,建立于已有的相關技術協(xié)議標準上,著重于應用開發(fā)。

語音應用技術是跨接在以語音為核心的電話網(wǎng)絡和以數(shù)據(jù)為核心的互聯(lián)網(wǎng)絡兩者之間的一座橋梁,有線電話和移動電話成為了互聯(lián)網(wǎng)絡的信息終端,為人們以自然語言交互的方式來遨游信息世界打開了一扇自由的大門。語音應用技術覆蓋語音識別、語音合成、語音瀏覽、語音集成、語音交互、Web服務等技術領域,可以輕松介入現(xiàn)有的網(wǎng)絡信息系統(tǒng),集成現(xiàn)有的各類信息處理技術,如Web 、WAP、GPRS等等。

語音應用技術,使人們可以自由的以對話(Dialog)的方式與機器和遠端語音服務器交談,以語音(Speech)的方式命令機器為自己服務。這是人類長久以來的夢想,而這個夢想正是通過語音瀏覽技術而得以實現(xiàn)。

語音瀏覽技術,類似于Web瀏覽技術,它以一種XML標記語言為數(shù)據(jù)載體,通過各種網(wǎng)絡數(shù)據(jù)傳輸協(xié)議,而以Client/Server 的方式為語音瀏覽器所解析,通過語音的方式呈現(xiàn)給用戶。這類似于Web 與 IE瀏覽器的概念,只不過IE 以圖象的方式在顯示器上將信息呈現(xiàn)出來,而語音瀏覽器以語音的方式在電話、手機或其它語音通道中呈現(xiàn)。IE 接受用戶的鼠標和鍵盤指令,而語音瀏覽器接受用戶的說話為指令。

二 VoiceXML

VoiceXML ,是由 IBM 、Lucent、Motorola 、AT&T 四家國際巨型公司于2000年提出的一種應用于語音瀏覽的標記語言,它建立于XML 標記語言規(guī)范的基礎之上,是語音瀏覽技術的核心,其與數(shù)據(jù)庫、HTML、WML以及其它文檔處理和發(fā)布系統(tǒng)的資料交換幾乎沒有障礙。

通過VoiceXML ,可以很容易的建立新的語音應用,如語音門戶、語音Call Center ,語音信息服務、語音電子商務等等應用。而這些應用可以很容易的和原有的數(shù)據(jù)系統(tǒng)結合起來,甚至可以輕易的從原有的各類應用中發(fā)展出來。而VoiceXML 的語音應用,可以以XML的數(shù)據(jù)表達形式,與其它的應用系統(tǒng)、數(shù)據(jù)系統(tǒng)輕易的交互。

通過VoiceXML 建立的語音應用系統(tǒng),可以為基于VoiceXML 的語音瀏覽器所廣泛支持。語音瀏覽器通過解析VoiceXML ,與語音識別和語音合成等方式進行人機交互,從而實現(xiàn)說話就可以上網(wǎng)的夢想。而語音瀏覽器不僅僅可以建立于電話服務器端,其同樣可以建立于PC 平臺、電視、PDA 等等其他終端上。

正是VoiceXML 將語音交互引入了數(shù)據(jù)瀏覽的世界,使電話等以語音為主要形式的設備成為新型的網(wǎng)絡終端,并以自然、對話、簡單的特點,使之具備了更為廣泛的普及性和友好性。這種瀏覽機制為語音應用領域展現(xiàn)了一個廣闊的未來。

Voicexml是基于XML(eXtensible Markup Language)標準的,其思想采用了現(xiàn)在流行的HTML的模式,Vxml解釋器的設計原理也采用了Html瀏覽器的設計思路,而且在現(xiàn)在階段,Vxml的服務器實際上就是一個WWW服務器。
自動電話業(yè)務是現(xiàn)在電話業(yè)務中的增長迅速的領域,由于Internet的出現(xiàn),使得用戶有了新的獲取信息的手段,但是由于電話的易用性,和長期的客戶群使得訪問自動業(yè)務的更多的是電話用戶,應用提供者會發(fā)現(xiàn),利用現(xiàn)在Web中的技術來生成業(yè)務,將是一種高效、快捷的方式。Vxml做到了將Web和電話的結合,而且使得內容提供商的開發(fā)工作得到有效的保護,它可以應用于不同的系統(tǒng),不會因為系統(tǒng)的擴容和系統(tǒng)切換導致業(yè)務的描述失效,真正做到了業(yè)務與平臺無關。

VoiceXML系統(tǒng)結構如下圖所示:

其工作過程如下:

1.由解析器等待電話用戶的接入,如果有電話連接到Vxml文檔服務中,電話平臺將通知解析器,并將相關信息通知解析器;

2.解析器啟動解析器核心,解吸器核心向文檔服務器獲取Vxml文檔;

3.解析器核心解析文檔語義,根據(jù)語義和用戶發(fā)生交互,其中包括通過平臺向用戶播放語音文件或者播放文本合成語音,獲得用戶的按鍵輸入或者語音輸入;

4.文檔結束,解析器核心結束工作。

三 應用體系結構

基于VoiceXML的語音瀏覽技術,應用語音應用技術,我們可以建立豐富的語音應用。諸如語音門戶、語音聲訊查詢、電話交易、V-commerce以及統(tǒng)一消息平臺(UMS) 應用等等。

一個基于VoiceXML語音瀏覽技術的語音應用的體系結構如下圖所示:

在這樣的體系結構中,各種終端通過PSTN網(wǎng)絡聯(lián)接到語音網(wǎng)關,而通過語音網(wǎng)關來訪問后臺的數(shù)據(jù)服務、應用服務,或者通過互聯(lián)網(wǎng)絡訪問各個語音ICP。

從邏輯層次上,一個完整的語音應用體系包括以下幾個層次:

其邏輯層次結構中包括以下組成部分:

根據(jù)該體系,建設語音應用系統(tǒng)需要實現(xiàn)三個部分:

1.語音網(wǎng)關
2.語音ICP
3.終端設備

四 VoiceXML 語音網(wǎng)關規(guī)范

語音網(wǎng)關是整個體系結構中的核心部分,其跨接在PSTN網(wǎng)絡和互聯(lián)網(wǎng)絡之間,使電話用戶可以通過之訪問建立于互聯(lián)網(wǎng)絡或其他數(shù)據(jù)網(wǎng)絡之上的各種語音應用和服務。

通過分析國際上各種語音網(wǎng)關系統(tǒng)極其技術規(guī)范,特別是參照 W3C組織的"Voice Browser" Activity的框架,我們認為作為一個比較完整的語音網(wǎng)關標準體系,應該包含以下具體標準規(guī)范的制定,通常稱之為標準需求。下圖顯示所需的規(guī)范類型及其相互關聯(lián)。

以下是關于各個規(guī)范的簡介:

1.網(wǎng)關架構規(guī)范

該規(guī)范定義建立一個總體架構的參照模型,使之能滿足基于VoiceXML瀏覽機制的語音平臺的需要。該規(guī)范具體規(guī)定:

1)定義一個描述系統(tǒng)結構的框架;
2)定義一個描述系統(tǒng)結構、功能與應用的詞匯表和符號集;
3)定義一個在系統(tǒng)構件之間進行信息交換的格式、協(xié)議和方法;
4)為系統(tǒng)構件定義必需的和可選的外界硬件接口和軟件程序接口;
5)為系統(tǒng)構件的行為定義規(guī)則、規(guī)范與約定;
6)指出系統(tǒng)構件應該使用的外部服務和設備以建立和支持信息交換。

總之,本規(guī)范將為系統(tǒng)構建提供文件和配置指南。

2.術語詞匯規(guī)范

本規(guī)范將定義所有的在本標準體系中其他規(guī)范中需使用的術語和詞匯。

3.信路與路由相關規(guī)范

該規(guī)范定義在語音網(wǎng)關系統(tǒng)中,所支持的信路標準,以及各種信路之間的路由控制、各種信路的接口和信令轉換規(guī)范。

4.用戶管理與計費規(guī)范

本規(guī)范定義在語音網(wǎng)關系統(tǒng)中,對用戶的管理機制和針對不同用戶需求和其自定義的相關信息的管理機制。其中還包括按時計費或按項目計費的規(guī)范。

5.語音瀏覽器相關規(guī)范

該規(guī)范中定義語音網(wǎng)關所使用的語音瀏覽器的具體規(guī)范,其中包括瀏覽器中的解析器規(guī)范、識別引擎、合成引擎、語音通道等以及各模塊之間的溝通和互動機制。

6.Media與控制規(guī)范

該規(guī)范定義在語音網(wǎng)關中,所支持的Media 格式、編碼和各media 文件的存儲、組織和管理規(guī)范,以及Media 的控制機制。

7.本地化標準

該規(guī)范定義在語音網(wǎng)關中,對本地化文字、語言的支持和實現(xiàn)規(guī)范,包括多語種支持和未來可能實現(xiàn)的語種轉換。

8.數(shù)據(jù)與元數(shù)據(jù)規(guī)范

在語音網(wǎng)關中,我們將對各類數(shù)據(jù)對象的描述信息稱為元數(shù)據(jù),而本規(guī)范應當定義對這些數(shù)據(jù)對象的查找、管理和使用。通過定義一個統(tǒng)一的結構,對數(shù)據(jù)對象進行描述,從而增強各數(shù)據(jù)對象的互操作性。

五 語音ICP建設規(guī)范

本規(guī)范為語音應用體系的服務方提供通用的HTTP綁定內容,這樣開發(fā)者在服務器端和客戶端(主要是服務器端)進行系統(tǒng)開發(fā)時能夠遵循一致的內容傳送和查詢的要求。

在這些規(guī)范中,我們將定義:

1.語音應用描述規(guī)范

該規(guī)范定義如何描述一個語音應用,主要是針對voiceXML規(guī)范的理解和支持規(guī)范,以及基于VoiceXML描述的語音應用的體系規(guī)范和數(shù)據(jù)定義。

2.語音應用語法描述規(guī)范

該規(guī)范主要描述在對語音網(wǎng)關的支持中,如何根據(jù)語音網(wǎng)關的識別引擎和合成引擎的特性,描述和定義識別語法和合成語法,并制定和管理可重用的語法模塊。以及一些通用性的語法模塊的規(guī)范定義和接口定義。

3.數(shù)據(jù)應用開發(fā)規(guī)范

該規(guī)范將定義在語音應用中,針對不同的數(shù)據(jù)內容,應該建立相應的開發(fā)規(guī)范,使之符合語音應用服務的特征和語音網(wǎng)關的需求,為用戶提供優(yōu)質的良好交互性的服務。在數(shù)據(jù)應用開發(fā)規(guī)范中,定義對不同數(shù)據(jù)服務系統(tǒng)和開發(fā)語音的支持(如對各種Web Application Server 的支持以及對java Bean 和Java Script 等語言和對象描述的支持)。以及各種數(shù)據(jù)應用中的交互接口規(guī)范。

4.發(fā)布和管理規(guī)范

在該規(guī)范中,定義語音應用在語音網(wǎng)關上的發(fā)布和鏈接規(guī)范,并定義對已發(fā)布或測試狀態(tài)中的語音應用的管理規(guī)范。使語音網(wǎng)關能夠清晰的實現(xiàn)對各個語音ICP發(fā)布的語音服務應用的執(zhí)行和管理,建立在線動態(tài)內容更新機制以及針對服務項目性的計費管理、日志管理或遠程維護、控制。

五 終端產(chǎn)品規(guī)范

針對語音應用體系,在用戶端的終端產(chǎn)品可以大有所為。而終端產(chǎn)品規(guī)范則定義在終端產(chǎn)品中語音應用服務所帶來的技術改變和實現(xiàn)規(guī)范。

該規(guī)范包括:

1.語音信號處理規(guī)范

該規(guī)范定義在各種終端設備中,針對語音應用服務系統(tǒng)的特性需求,需要對語音信號進行的編碼處理、抗噪處理和噪聲過濾等技術規(guī)范。

2.熱鍵定義規(guī)范

該規(guī)范試圖建立一種將電話按鍵與特色語音應用項目之間的對應規(guī)范,定義諸如 1 鍵 對于語音郵件 ,* 鍵對應幫助、#鍵對應按鍵輸入結束等等的熱鍵定義規(guī)范,建立用戶對語音應用系統(tǒng)和服務項目的使用習慣。

3.內嵌式數(shù)據(jù)服務規(guī)范

該規(guī)范定義在語音應用體系中,可以針對語音應用的特色而在終端設備中可以嵌入的一些數(shù)據(jù)服務的具體技術規(guī)范,如基于智能卡的身份認證、數(shù)據(jù)銀行、電子卡貨幣等,以及未來可能實現(xiàn)的內嵌語音識別或合成引擎、數(shù)據(jù)交換規(guī)范等等。

我們可以預見,在不久的將來電話作為信息訪問的終端將遠遠超過電腦的數(shù)量。語音應用技術將成為統(tǒng)一信息、統(tǒng)一網(wǎng)絡的移動互聯(lián)中的重要技術成分。作為高科技的網(wǎng)絡信息對廣大的中國百姓將不在神秘,中國百姓將隨時隨地在對電話機或手機說話,享受語音應用技術為他們帶來的美好服務。



相關鏈接:
關于制定中國移動互聯(lián)網(wǎng)語音應用協(xié)議標準的建議 2001-11-12
語音互聯(lián)再造Internet 2001-10-22
語音系統(tǒng)開發(fā)的新平臺:VoiceXML瀏覽器 2001-10-19
TTS與語音識別軟件 2001-09-21
Office XP中文語音功能的開發(fā) 2001-09-13