首頁(yè)>>廠商>>語(yǔ)音識(shí)別與合成>> 北京無(wú)限商機(jī)

中文VoiceXML語(yǔ)音瀏覽器白皮書

2001/11/12

一 前言

以互聯(lián)網(wǎng)為代表的信息產(chǎn)業(yè)為中國(guó)帶來(lái)了巨大的機(jī)會(huì)和挑戰(zhàn),中國(guó)已開始進(jìn)入一個(gè)以信息為核心的時(shí)代。如何快速準(zhǔn)確地獲取所關(guān)心的信息,對(duì)人們的日常工作和生活已起到越來(lái)越重要的影響。

計(jì)算機(jī)作為互聯(lián)網(wǎng)絡(luò)的一種重要的信息終端,是目前人們從互聯(lián)網(wǎng)上獲取信息的主要工具。然而,由于傳統(tǒng)的上網(wǎng)方式限制了互聯(lián)網(wǎng)的上網(wǎng)人數(shù),互聯(lián)網(wǎng)的訪問(wèn)模式逐漸從單一的訪問(wèn)方式向多種用戶終端發(fā)展 ,如:電話、移動(dòng)電話、PDA等。在當(dāng)今科技飛速發(fā)展的地區(qū),語(yǔ)音上網(wǎng)成為繼無(wú)線WAP上網(wǎng)之后的又一個(gè)發(fā)展熱點(diǎn)。人們喜歡用人類自然的語(yǔ)音,通過(guò)友好的語(yǔ)音交互方式直接來(lái)獲取信息和服務(wù)。1999年 ,Evans Group Research對(duì)250個(gè)使用不同語(yǔ)音系統(tǒng)的用戶進(jìn)行調(diào)查,調(diào)查的結(jié)果反饋和分析表明:對(duì)語(yǔ)音系統(tǒng)和按鍵式系統(tǒng)的使用受歡迎程度,83%的用戶更喜歡使用語(yǔ)音系統(tǒng)而不是使用按鍵式系統(tǒng);而對(duì)于使用語(yǔ)音驅(qū)動(dòng)系統(tǒng)和與坐席進(jìn)行通話,74%的用戶更傾向于前者。近年來(lái)語(yǔ)音技術(shù)的快速發(fā)展和不斷成熟,以及中文語(yǔ)音應(yīng)用技術(shù)的突破,為信息網(wǎng)絡(luò)帶來(lái)了一種極具誘惑的信息終端----電話。

電話在中國(guó)是最為普及的通信工具,相對(duì)現(xiàn)今不到2000 萬(wàn)的互聯(lián)網(wǎng)電腦終端用戶來(lái)說(shuō),高達(dá)2 億的電話用戶具有更為重要的意義。據(jù)預(yù)測(cè)到2001 年,全球?qū)⒂?0 億多部電話投入使用,而移動(dòng)電話用戶將達(dá)到5 億人。在中國(guó),移動(dòng)電話和固定電話的用戶將達(dá)到分別為6500萬(wàn)和1.4億。而語(yǔ)音應(yīng)用技術(shù),為中國(guó)百姓建立了一條輕松通達(dá)信息時(shí)代的高速公路,將信息科技以最為親切的方式帶到了人們身邊。

語(yǔ)音,作為人類最原始、最自然、最人性化,也是最有效的交流方式,正以其不可阻擋的強(qiáng)勁勢(shì)頭融入到互聯(lián)網(wǎng)中。在國(guó)外市場(chǎng),以Tellme.com和Nuance 、SpeechWorks為代表的企業(yè)異軍突起 ,倡導(dǎo)人性化的語(yǔ)音上網(wǎng)服務(wù)。隨后Yahoo、Lycos等著名互聯(lián)網(wǎng)公司紛紛進(jìn)入相應(yīng)的服務(wù)領(lǐng)域,建立大規(guī)模的語(yǔ)音門戶網(wǎng)站,而AOL則提供所謂AOL-By-Phone服務(wù)。

從技術(shù)角度看,語(yǔ)音識(shí)別(ASR)技術(shù)、文語(yǔ)轉(zhuǎn)換(TTS)技術(shù)已經(jīng)從實(shí)驗(yàn)室逐步走向成熟,其算法的復(fù)雜性也逐年下降,從而使這些技術(shù)逐步在市場(chǎng)中得以應(yīng)用;另一方面,計(jì)算機(jī)的運(yùn)算能力每?jī)赡昃头环,也為這些技術(shù)的商業(yè)應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ);再加上移動(dòng)用戶終端的種類與功能也在以前所未有的速度增長(zhǎng);所有這些技術(shù)的發(fā)展都為基于語(yǔ)音的互聯(lián)網(wǎng)門戶的發(fā)展提供的可靠的保證。

而這一切實(shí)現(xiàn)的關(guān)鍵是成熟的語(yǔ)音技術(shù)、龐大的互聯(lián)網(wǎng)絡(luò)、交互的通訊網(wǎng)絡(luò)、以及把它們結(jié)合在一起的關(guān)鍵技術(shù):語(yǔ)音瀏覽技術(shù)。

二 語(yǔ)音技術(shù)

語(yǔ)音,是人們最為熟悉也最為簡(jiǎn)單的一種交流方式。語(yǔ)音是人們?cè)儐?wèn)問(wèn)題、交換觀念、分享經(jīng)驗(yàn)、建立關(guān)系的最主要方式,人類通過(guò)語(yǔ)言來(lái)傳達(dá)著大量的信息。

1、語(yǔ)音識(shí)別與語(yǔ)音合成

語(yǔ)音技術(shù)在計(jì)算機(jī)領(lǐng)域中的關(guān)鍵技術(shù):語(yǔ)音識(shí)別技術(shù)(ASR :Automatic Speech Recognition )和語(yǔ)音合成技術(shù)(TTS :Text to Speech )。語(yǔ)音識(shí)別技術(shù),是指將人說(shuō)話的語(yǔ)音信號(hào)轉(zhuǎn)換為可被計(jì)算機(jī)程序所識(shí)別的文字信息,從而識(shí)別說(shuō)話人的語(yǔ)音指令以及文字內(nèi)容的技術(shù)。而語(yǔ)音合成技術(shù),是指將文字信息轉(zhuǎn)變?yōu)檎Z(yǔ)音數(shù)據(jù),以語(yǔ)音的方式播放出來(lái)的技術(shù)。

電話的出現(xiàn)已經(jīng)有120多年的歷史,而使用在商業(yè)應(yīng)用上相關(guān)的語(yǔ)音識(shí)別和語(yǔ)音合成最近幾十年才開始進(jìn)行研究。事實(shí)上,一直到90年代中期基于電話并且提供大量的詞匯、使用者不需要經(jīng)過(guò)任何的培訓(xùn)的語(yǔ)音識(shí)別軟件才出現(xiàn)。目前語(yǔ)音識(shí)別和語(yǔ)音合成技術(shù)目前已成為一項(xiàng)實(shí)用性的技術(shù)。語(yǔ)音識(shí)別系統(tǒng)能支持自然的習(xí)慣用語(yǔ),例如“I wanna buy 33 shares of 3com at the market"。另外優(yōu)秀的語(yǔ)音識(shí)別技術(shù),在無(wú)須訓(xùn)練的情況下,能夠以高達(dá)95%的識(shí)別率識(shí)別人的語(yǔ)音命令,并實(shí)現(xiàn)了多種語(yǔ)言、多種口音與說(shuō)話人無(wú)關(guān)的連續(xù)語(yǔ)音識(shí)別。而語(yǔ)音聽(tīng)寫也已成為一種新的文字輸入技術(shù)被人們使用。在語(yǔ)音合成技術(shù)上,已經(jīng)能夠?qū)崿F(xiàn)自然、流暢、智能型的文字合成。

2、語(yǔ)音應(yīng)用技術(shù)的核心:語(yǔ)音瀏覽技術(shù)

語(yǔ)音應(yīng)用技術(shù)(Voice Application Technology ),是指人們可以使用電話或移動(dòng)電話,以及PC 、PDA 和其它智能設(shè)備通過(guò)語(yǔ)音識(shí)別、語(yǔ)音合成的交互技術(shù),以及語(yǔ)音瀏覽、智能信息處理技術(shù)等實(shí)現(xiàn)人們?cè)L問(wèn)互聯(lián)網(wǎng)絡(luò)、實(shí)現(xiàn)個(gè)人服務(wù)和商業(yè)服務(wù)的應(yīng)用技術(shù)。

語(yǔ)音應(yīng)用技術(shù),是語(yǔ)音技術(shù)(ASR 和TTS )、語(yǔ)音瀏覽技術(shù)、智能文字信息處理技術(shù)等技術(shù)的集合,其形成一個(gè)完整的技術(shù)應(yīng)用規(guī)范體系,建立于已有的相關(guān)技術(shù)協(xié)議標(biāo)準(zhǔn)上,著重于應(yīng)用開發(fā)。

語(yǔ)音應(yīng)用技術(shù)是跨接在以語(yǔ)音為核心的電話網(wǎng)絡(luò)和以數(shù)據(jù)為核心的互聯(lián)網(wǎng)絡(luò)兩者之間的一座橋梁,電話和移動(dòng)電話成為了互聯(lián)網(wǎng)絡(luò)的信息終端,為人們以自然語(yǔ)言交互的方式來(lái)遨游信息世界打開了一扇自由的大門。

語(yǔ)音應(yīng)用技術(shù),使人們可以自由的以對(duì)話(Dialog)方式與機(jī)器和遠(yuǎn)端語(yǔ)音服務(wù)器交談,以語(yǔ)音的方式命令機(jī)器為自己服務(wù)。這是人類長(zhǎng)久以來(lái)的夢(mèng)想,而這個(gè)夢(mèng)想正是通過(guò)語(yǔ)音瀏覽技術(shù)而得以實(shí)現(xiàn)。

語(yǔ)音瀏覽技術(shù),類似于互聯(lián)網(wǎng)上的Web 瀏覽技術(shù),它以一種XML 標(biāo)記語(yǔ)言為數(shù)據(jù)載體,通過(guò)各種網(wǎng)絡(luò)數(shù)據(jù)傳輸協(xié)議,而以Client/Server 的方式為語(yǔ)音瀏覽器所解析,通過(guò)語(yǔ)音的方式呈現(xiàn)給用戶。這類似于Web 與 IE 瀏覽器的概念,只不過(guò)IE 以圖象的方式在顯示器上將信息呈現(xiàn)出來(lái),而語(yǔ)音瀏覽器以語(yǔ)音的方式在電話、手機(jī)或其它語(yǔ)音手持設(shè)備的通道中呈現(xiàn)。IE 接受用戶的鼠標(biāo)和鍵盤指令,而語(yǔ)音瀏覽器接受用戶的說(shuō)話為指令。

3、語(yǔ)音應(yīng)用技術(shù)的優(yōu)勢(shì)

為何語(yǔ)音應(yīng)用技術(shù)對(duì)于互聯(lián)網(wǎng)絡(luò),對(duì)于信息技術(shù)如此重要?首先,人類的自然語(yǔ)音通過(guò)電話能夠被識(shí)別和理解,那么電話將無(wú)疑是最適合的一種工具用來(lái)提供大多數(shù)用戶在互聯(lián)網(wǎng)上所需求的信息和服務(wù)。尤其是在中國(guó),電話相對(duì)計(jì)算機(jī)而言電話更是人們?nèi)粘I钪凶钇占暗脑O(shè)備。

在最近5年以來(lái),互聯(lián)網(wǎng)作為信息傳輸?shù)囊环N新興的媒體而使整個(gè)世界發(fā)生了根本性的改變,現(xiàn)在全球大約有2億個(gè)用戶使用互聯(lián)網(wǎng)作為他們?cè)谌粘I钪斜夭豢缮俚囊徊糠,用戶通過(guò)互聯(lián)網(wǎng)能得到他們所想要的便利、娛樂(lè)以及提高他們的工作效率。

互聯(lián)網(wǎng)無(wú)疑又是誘人的。因?yàn)榛ヂ?lián)網(wǎng)提供了大量的各種各樣的實(shí)用信息,但是要獲得這些信息并不是隨處可得,用戶必須在家里或辦公室通過(guò)電腦聯(lián)網(wǎng)來(lái)獲得這些信息。這對(duì)于在一個(gè)信息快速更新的社會(huì)并不是一件令人高興的事情。所以消費(fèi)者對(duì)于互聯(lián)網(wǎng)內(nèi)容和信息的大量需求促使各種生產(chǎn)廠商設(shè)計(jì)出各種各樣的產(chǎn)品,如PDA、手機(jī)等這些可隨身攜帶又能直接與網(wǎng)絡(luò)互聯(lián)的產(chǎn)品。PALM的手持設(shè)備和WAP蜂窩電話等目前是最流行也是最符合要求的典型例子。

這些設(shè)備的快速發(fā)展促使通過(guò)手持設(shè)備和手機(jī)來(lái)訪問(wèn)互聯(lián)網(wǎng)的內(nèi)容是可實(shí)現(xiàn)的。另外,隨著移動(dòng)電話越來(lái)越小,越來(lái)越輕,越來(lái)越便宜,以及移動(dòng)電話電池使用時(shí)間越來(lái)越長(zhǎng),其所具備的便攜性遠(yuǎn)勝于電腦。而伴隨移動(dòng)通信技術(shù)的飛速發(fā)展,他們更具備了電腦不具備的優(yōu)勢(shì),比如全球定位。你甚至可以在開車時(shí)方便的使用移動(dòng)電話,甚至在不久的將來(lái)使用車載電話,通過(guò)車載電話來(lái)尋找相關(guān)的信息。

電信的增值服務(wù)改變了用戶無(wú)論在何地、何時(shí)都能直接訪問(wèn)互聯(lián)網(wǎng)的內(nèi)容是激動(dòng)人心的。但個(gè)性化的服務(wù)可使個(gè)人和商務(wù)快速獲得和容易訪問(wèn)他們所關(guān)心的內(nèi)容和信息。因而語(yǔ)音技術(shù)的出現(xiàn)改變了電話的應(yīng)用范圍,從而使電話成為從網(wǎng)絡(luò)媒體上得到語(yǔ)音和數(shù)據(jù)信息的一種最便利的設(shè)備之一。

雖然曾經(jīng)在移動(dòng)電話中出現(xiàn)了WAP 這樣有用的技術(shù),使移動(dòng)電話可以作為網(wǎng)絡(luò)終端,而基于文本的互聯(lián)網(wǎng)的內(nèi)容也是非常有用的,但緩慢的傳輸速度和與互聯(lián)網(wǎng)連接的困難以及這些設(shè)備的小屏幕都限制了這些設(shè)備的使用價(jià)值。

語(yǔ)音具有其無(wú)以倫比的獨(dú)特的優(yōu)勢(shì),而且語(yǔ)音比鍵盤和閱讀更具有親切感。當(dāng)然,圖象和文字依然很重要,我們相信,我們不久就可以見(jiàn)到“多模式”的設(shè)備,可以以圖象和文字的方式進(jìn)行,或以語(yǔ)音的方式進(jìn)行,甚至可以混合語(yǔ)音和圖象信息。而這正是語(yǔ)音應(yīng)用技術(shù)帶來(lái)的美好前景。

同樣,語(yǔ)音對(duì)于Internet 也一樣重要。首先,基于語(yǔ)音瀏覽技術(shù)的語(yǔ)音應(yīng)用系統(tǒng)的開發(fā)很容易,應(yīng)用語(yǔ)音應(yīng)用技術(shù)可以輕松建立豐富的、廉價(jià)的和高效的Web 應(yīng)用,以及其開發(fā)工具。其次,語(yǔ)音應(yīng)用系統(tǒng)很容易發(fā)布,不再需要建立一個(gè)指定的專用的語(yǔ)音服務(wù)器,基于語(yǔ)音瀏覽機(jī)制的語(yǔ)音應(yīng)用可以放在Internet 上的任意一個(gè)地方,而用戶通過(guò)電話,可以象使用IE 這樣的瀏覽器一樣進(jìn)行查詢、書簽以及鏈接等其他Web 的瀏覽方式。

語(yǔ)音自然交互更具有其它信息終端不具備的優(yōu)勢(shì),利用自然語(yǔ)音交互技術(shù),用戶不再需要一項(xiàng)一項(xiàng)的填寫Web 的Form 表單,不再需要痛苦的在小小的手機(jī)鍵盤上換著數(shù)字輸入名字和E-mail 地址;陉P(guān)鍵字捕捉和自然語(yǔ)言處理技術(shù),用戶進(jìn)入個(gè)人界面后可以輕松的說(shuō)一句:“股票信息, 深發(fā)展 ”,相應(yīng)地計(jì)算機(jī)回應(yīng)“深發(fā)展”當(dāng)前的有關(guān)信息,一切輕松自然而又隨意。

三 網(wǎng)絡(luò)與數(shù)據(jù)

1、語(yǔ)音瀏覽:建立于網(wǎng)絡(luò)與語(yǔ)音通訊之間的橋梁

Internet 的飛速發(fā)展和廣泛應(yīng)用,很大程度上是建立于 WEB 瀏覽機(jī)制的成功之上。正是因?yàn)?Client/Server 的結(jié)構(gòu)和HTML 腳本標(biāo)記語(yǔ)言和http 等有效傳輸協(xié)議的結(jié)合,使Internet 具有了最為強(qiáng)大的分布/集中訪問(wèn)結(jié)構(gòu),以及簡(jiǎn)單的應(yīng)用開發(fā)機(jī)制?梢哉f(shuō),瀏覽是網(wǎng)絡(luò)的核心。

對(duì)于語(yǔ)音應(yīng)用來(lái)說(shuō),以往的語(yǔ)音應(yīng)用建立于簡(jiǎn)單的、封閉的交互機(jī)制上。其數(shù)據(jù)來(lái)源基本上完全依靠事先的預(yù)制錄音,操作流程為簡(jiǎn)單的菜單式按鍵選擇。

隨著語(yǔ)音識(shí)別、語(yǔ)音合成等新的人機(jī)交互方式的成熟應(yīng)用,傳統(tǒng)的 CTI系統(tǒng)具備了新的交互能力。而語(yǔ)音瀏覽正是為適應(yīng)這種新的交互方式和Internet 應(yīng)用的結(jié)合而誕生的。語(yǔ)音瀏覽使傳統(tǒng)的簡(jiǎn)單的電話機(jī)成為了一種功能強(qiáng)大且操作簡(jiǎn)單的數(shù)據(jù)訪問(wèn)終端,將數(shù)據(jù)和交互建立于Internet 瀏覽結(jié)構(gòu)之上,從而使電話機(jī)這樣簡(jiǎn)單的設(shè)備可以比其它網(wǎng)絡(luò)終端更為容易和方便的暢游Internet 。

語(yǔ)音瀏覽,其類同于我們所熟悉的Internet 與客戶端計(jì)算機(jī)之間的瀏覽機(jī)制。從而將龐大的最為普及的語(yǔ)音通訊網(wǎng)絡(luò)有機(jī)的融入了豐富的Internet 中,使建立于數(shù)據(jù)網(wǎng)絡(luò)之上的廣大應(yīng)用得到了最廣泛的延伸。

2、基于XML 的數(shù)據(jù)瀏覽技術(shù)

Internet 的核心是瀏覽,基于HTML腳本描述語(yǔ)言的Web 的瀏覽機(jī)制的應(yīng)用是Internet 廣泛普及的基礎(chǔ)。

而一種新的腳本描述語(yǔ)言:XML 的出現(xiàn),為數(shù)據(jù)瀏覽技術(shù)帶來(lái)了一種全新的概念。XML 標(biāo)記語(yǔ)言,將以往的HTML 之類的標(biāo)記語(yǔ)言所關(guān)注于數(shù)據(jù)表達(dá)形式的概念轉(zhuǎn)移到對(duì)數(shù)據(jù)含義和內(nèi)容的關(guān)注上來(lái)。HTML 標(biāo)記語(yǔ)言中,計(jì)算機(jī)程序可以知道這些數(shù)據(jù)應(yīng)該以什么樣的方式在屏幕上表現(xiàn)出來(lái),但我們卻很難讓計(jì)算機(jī)程序知道,這些數(shù)據(jù)是什么含義。而在XML 中,其標(biāo)記的是數(shù)據(jù)的含義和內(nèi)容,我們可以輕松的讓程序來(lái)識(shí)別和處理這些數(shù)據(jù),并以各種各樣適當(dāng)?shù)男问奖憩F(xiàn)出來(lái)。

基于XML 的數(shù)據(jù)瀏覽技術(shù)可以說(shuō)是網(wǎng)絡(luò)時(shí)代的又一次數(shù)據(jù)革命,正如美國(guó)微軟公司首席執(zhí)行官史蒂夫.鮑爾默所說(shuō):“XML語(yǔ)言將革新人機(jī)界面”。

鮑爾默稱,XML語(yǔ)言是一種"更坦白的網(wǎng)絡(luò)語(yǔ)言",它使得數(shù)據(jù)在網(wǎng)絡(luò)上的獲取和交流更加靈活便利,并可以通過(guò)包括電腦、電視和移動(dòng)電話等更多的終端設(shè)備得到反映。鮑爾默說(shuō),"5年內(nèi)我希望能像和秘書講話一樣地和電腦交流。"

3、VoiceXML :為語(yǔ)音應(yīng)用開創(chuàng)新的未來(lái)

VoiceXML ,是由 IBM 、Lucent、Motorola 、AT&T 四家國(guó)際巨型公司于2000年提出的一種應(yīng)用于語(yǔ)音瀏覽的標(biāo)記語(yǔ)言,它建立于XML 標(biāo)記語(yǔ)言規(guī)范的基礎(chǔ)之上,是語(yǔ)音瀏覽技術(shù)的核心。而因?yàn)槠渫瑯邮且环NXML描述語(yǔ)言,其與數(shù)據(jù)庫(kù)、HTML、WML以及其它文檔處理和發(fā)布系統(tǒng)的資料交換幾乎沒(méi)有障礙。

通過(guò)VoiceXML ,可以像建立HTML 的Web 應(yīng)用一樣輕松的建立語(yǔ)音應(yīng)用系統(tǒng),而這樣的語(yǔ)音應(yīng)用系統(tǒng)可以為基于VoiceXML 的語(yǔ)音瀏覽器所廣泛支持。語(yǔ)音瀏覽器通過(guò)解析VoiceXML ,與語(yǔ)音識(shí)別和語(yǔ)音合成等方式進(jìn)行人機(jī)交互,從而實(shí)現(xiàn)說(shuō)話就可以上網(wǎng)的夢(mèng)想。而語(yǔ)音瀏覽器不僅僅可以建立于電話服務(wù)器端,其同樣可以建立于PC 平臺(tái)、電視、PDA 等等其他終端上。

通過(guò)VoiceXML ,可以很容易地建立新的語(yǔ)音應(yīng)用和服務(wù),如語(yǔ)音門戶、語(yǔ)音Call Center ,語(yǔ)音信息服務(wù)、語(yǔ)音電子商務(wù)等等。而這些應(yīng)用或服務(wù)可以很容易地和原有的數(shù)據(jù)系統(tǒng)結(jié)合起來(lái),甚至可以輕易地從原有的各類應(yīng)用中延展出來(lái)。而VoiceXML 的語(yǔ)音應(yīng)用,可以以XML的數(shù)據(jù)表達(dá)形式,與其它的應(yīng)用系統(tǒng)、數(shù)據(jù)系統(tǒng)輕易交流。

正是VoiceXML 將語(yǔ)音交互引入了數(shù)據(jù)瀏覽的世界,使電話等以語(yǔ)音為主要形式的設(shè)備成為新型的網(wǎng)絡(luò)終端,并以自然、對(duì)話、簡(jiǎn)單的特點(diǎn),使之具備了更為廣泛的普及性和友好性。這種瀏覽機(jī)制為語(yǔ)音應(yīng)用領(lǐng)域展現(xiàn)了一個(gè)更為廣闊的未來(lái)。

四 無(wú)限商機(jī)公司 VoiceXML的瀏覽器

無(wú)限商機(jī)公司 VoiceXML 瀏覽器

無(wú)限商機(jī)公司 VoiceXML語(yǔ)音瀏覽器,為解決眾多需求而設(shè)計(jì)。其設(shè)計(jì)層次如下:

在我們的實(shí)現(xiàn)中,我們分別設(shè)計(jì)了控制層、安全層、事務(wù)層、會(huì)話層、和應(yīng)用層。并開放了除控制層之外的所有層的開放接口。

1、VoiceXML 語(yǔ)音瀏覽器的組成部分

一個(gè)完整的VoiceXML 語(yǔ)音瀏覽器,由以下幾個(gè)部分組成:

(1)。VoiceXML 解析器

VoiceXML 解析器是整個(gè)語(yǔ)音瀏覽器的核心部分。其在語(yǔ)音瀏覽器中擔(dān)負(fù)控制中心的角色。VoiceXML 解析器通過(guò)網(wǎng)絡(luò)協(xié)議,如Http 等協(xié)議,獲取VoiceXML 腳本語(yǔ)言所描述的應(yīng)用文檔(document),解析該應(yīng)用文檔,解釋其中各個(gè)標(biāo)志(Tag ),產(chǎn)生相應(yīng)的控制命令,控制其它部件進(jìn)行相應(yīng)的動(dòng)作,并獲取結(jié)果,根據(jù)結(jié)果決定應(yīng)用的執(zhí)行方向和順序流。

(2)。語(yǔ)音識(shí)別引擎

語(yǔ)音識(shí)別引擎是VoiceXML語(yǔ)音瀏覽器的生命力所在,語(yǔ)音識(shí)別使計(jì)算機(jī)能理解用戶的語(yǔ)音命令,產(chǎn)生相應(yīng)的文字結(jié)果,送回VoiceXML解析器作處理。

在VoiceXML 語(yǔ)音瀏覽器中,語(yǔ)音識(shí)別引擎為命令式的識(shí)別引擎,其根據(jù)有限的語(yǔ)法(grammar)來(lái)識(shí)別用戶的語(yǔ)音信號(hào),產(chǎn)生對(duì)應(yīng)語(yǔ)法定義的識(shí)別結(jié)果。所以,語(yǔ)法便成為了VoiceXML語(yǔ)音瀏覽器中的重要概念。在VoiceXML語(yǔ)音瀏覽器中,語(yǔ)法決定了用戶能說(shuō)什么,如何說(shuō),好的語(yǔ)法能帶給用戶良好的交互感覺(jué),也能從邏輯上提高語(yǔ)音識(shí)別引擎的識(shí)別率,使整個(gè)語(yǔ)音應(yīng)用的瀏覽流暢而輕松。

VoiceXML 語(yǔ)音瀏覽器中,語(yǔ)音識(shí)別引擎不僅需要處理對(duì)用戶語(yǔ)音信號(hào)的識(shí)別,同時(shí)也需要處理對(duì)用戶按鍵的識(shí)別,按鍵和語(yǔ)音以同樣的機(jī)制被處理和傳遞。

(3)。語(yǔ)音合成引擎

語(yǔ)音合成引擎,其處理VoiceXML 解析器將文字轉(zhuǎn)換為語(yǔ)音信號(hào),并通過(guò)語(yǔ)音通道播放給用戶的命令。VoiceXML 語(yǔ)音合成引擎可以將文字轉(zhuǎn)換成語(yǔ)音文件,也可以轉(zhuǎn)換成語(yǔ)音數(shù)據(jù)流,或者直接將已事先錄制好的語(yǔ)音文件直接播放或以流的方式播放給語(yǔ)音通道。

語(yǔ)音合成引擎的文字轉(zhuǎn)化為聲音的品質(zhì),決定了用戶對(duì)系統(tǒng)的直接感覺(jué),流暢自然的合成聲音,將使用戶感覺(jué)良好。如何提高語(yǔ)音合成引擎的合成品質(zhì),已成為影響語(yǔ)音應(yīng)用效果的重要因素。

(4)。語(yǔ)音通道

語(yǔ)音通道是在VoiceXML語(yǔ)音瀏覽器中傳輸用戶的語(yǔ)音數(shù)據(jù)信號(hào)和合成引擎所產(chǎn)生的聲音數(shù)據(jù)信號(hào)的傳遞通道,其連接物理上的語(yǔ)音采集和播放設(shè)備,語(yǔ)音識(shí)別引擎的語(yǔ)音輸入端、語(yǔ)音合成引擎的語(yǔ)音輸出端。

在基于電信平臺(tái)的語(yǔ)音應(yīng)用系統(tǒng)中,語(yǔ)音通道的物理設(shè)備主要是語(yǔ)音卡、語(yǔ)音信道或者是以數(shù)字編碼形式所存在的虛擬通道,如IP 的語(yǔ)音編碼數(shù)據(jù)包等。而在PC 平臺(tái)上,聲卡則成為主要的語(yǔ)音通道。

對(duì)不同的平臺(tái)的語(yǔ)音通道物理設(shè)備的支持,決定了VoiceXML語(yǔ)音瀏覽器可實(shí)際應(yīng)用的平臺(tái)。

2、VoiceXML語(yǔ)音瀏覽器各部分的協(xié)作

VoiceXML語(yǔ)音瀏覽器的協(xié)作核心是VoiceXML解析器,其通過(guò)建立應(yīng)用(Application)和會(huì)話(Session),獲取包含控制命令的文檔(Document),根據(jù)文檔中的標(biāo)志(Tag)建立對(duì)話(Dialog),從而解釋各個(gè)對(duì)話,控制語(yǔ)音識(shí)別、語(yǔ)音合成引擎以及語(yǔ)音通道的觸發(fā)、開啟和關(guān)閉、掛起等,實(shí)現(xiàn)與用戶的會(huì)話式的交互,并根據(jù)對(duì)用戶反應(yīng)的識(shí)別結(jié)果進(jìn)行導(dǎo)向判斷,進(jìn)行文檔之間的轉(zhuǎn)移和應(yīng)用之間的轉(zhuǎn)移。

3、無(wú)限商機(jī)公司的VoiceXML 語(yǔ)音瀏覽器的開放機(jī)制

在無(wú)限商機(jī)公司 VoiceXML語(yǔ)音瀏覽器中,我們對(duì)識(shí)別引擎和合成引擎進(jìn)行了開放性的接口設(shè)計(jì),實(shí)現(xiàn)了與引擎無(wú)關(guān)的設(shè)計(jì)。根據(jù)我們的接口,其它開發(fā)商可以開發(fā)為其它識(shí)別或合成引擎的封裝模塊,從而在我們的VoiceXML語(yǔ)音瀏覽器中使用其它的識(shí)別或合成引擎。其可建立于電話服務(wù)器、PC 、嵌入式設(shè)備中,支持國(guó)內(nèi)外語(yǔ)音卡,支持IP 等語(yǔ)音信道。JAVA 版本實(shí)現(xiàn)了100%的跨平臺(tái)。

無(wú)限商機(jī)公司 VoiceXML語(yǔ)音瀏覽器中,所有開發(fā)接口以CORBA 規(guī)范設(shè)計(jì),其它開發(fā)商可以用各種編程語(yǔ)言如C、C++、Java 等在不同的平臺(tái)和操作系統(tǒng)上實(shí)現(xiàn),從而實(shí)現(xiàn)了對(duì)各種操作系統(tǒng)平臺(tái)的支持。并且,利用CORBA 的強(qiáng)大的分布式機(jī)制,整個(gè)VoiceXML語(yǔ)音瀏覽器可以建立于跨越各種物理平臺(tái)、操作系統(tǒng)之上的分布式網(wǎng)絡(luò)中。

4、如何在VoiceXML 語(yǔ)音瀏覽器上開發(fā)語(yǔ)音應(yīng)用?

在voiceXML 語(yǔ)音瀏覽器上開發(fā)語(yǔ)音應(yīng)用,如同開發(fā)Web應(yīng)用一樣輕松簡(jiǎn)單。只需要有對(duì)XML的知識(shí),就可以開發(fā)VoiceXML 應(yīng)用;赩oiceXML 的語(yǔ)音應(yīng)用系統(tǒng)可以很好的和其它已有的Web 應(yīng)用系統(tǒng)或數(shù)據(jù)應(yīng)用系統(tǒng)良好的結(jié)合。

開發(fā)VoiceXML 語(yǔ)音應(yīng)用:

在VoiceXML語(yǔ)音瀏覽器基礎(chǔ)的應(yīng)用開發(fā),改變了傳統(tǒng)的CTI系統(tǒng)的開發(fā)概念,在這里,開發(fā)人員無(wú)須關(guān)心復(fù)雜的流程和模塊,無(wú)須為數(shù)據(jù)接口編寫程序模塊,無(wú)須重新建立已有系統(tǒng)的邏輯實(shí)現(xiàn),也無(wú)須一次次重復(fù)某個(gè)模塊的開發(fā)。建立VoiceXML語(yǔ)音應(yīng)用系統(tǒng),就和建立Web 應(yīng)用一樣簡(jiǎn)單。

五 基于VoiceXML 機(jī)制的語(yǔ)音應(yīng)用

1、基于VoiceXML 機(jī)制的語(yǔ)音應(yīng)用的特點(diǎn)

基于voiceXML機(jī)制的語(yǔ)音應(yīng)用有以下幾個(gè)特點(diǎn):

2、自由自在的流程

VoiceXML語(yǔ)音應(yīng)用系統(tǒng)中強(qiáng)調(diào)對(duì)話和導(dǎo)向,而不再有固定的流程結(jié)構(gòu)限制。如同用IE 瀏覽網(wǎng)頁(yè)一樣,我們無(wú)法定義清晰的用戶可能點(diǎn)擊和瀏覽的順序,而是以網(wǎng)頁(yè)為單位,以鏈接為導(dǎo)向。VoiceXML 亦是以同樣的機(jī)制來(lái)完成整個(gè)應(yīng)用的瀏覽。

在VoiceXML 語(yǔ)音應(yīng)用中,用戶可以選擇所有激活的鏈接處,象瀏覽Web 網(wǎng)頁(yè)一樣任意跳轉(zhuǎn)到其它頁(yè)中。根據(jù)用戶的語(yǔ)音命令和對(duì)事件的捕獲,可以跳轉(zhuǎn)到其他應(yīng)用、其它文檔甚至其它對(duì)話中去。

而利用Java Script 、ASP、Perl等描述語(yǔ)言,VoiceXML應(yīng)用可以動(dòng)態(tài)的根據(jù)用戶的選擇、預(yù)制模板和其它數(shù)據(jù)環(huán)境動(dòng)態(tài)地產(chǎn)生新的應(yīng)用或文檔以及語(yǔ)法定義,實(shí)現(xiàn)流程的動(dòng)態(tài)生成,使VoiceXML 語(yǔ)音應(yīng)用不再受預(yù)先制定好的流程規(guī)范的限制。

3、無(wú)所限制的內(nèi)容

XML 的機(jī)制決定了VoiceXML 腳本語(yǔ)言不僅可以描述數(shù)據(jù)的式樣,其同樣描述數(shù)據(jù)的內(nèi)容和含義。而只要有共同規(guī)范的DTD 定義,VoiceXML 腳本可以輕松的與其它XML腳本交換數(shù)據(jù),理解其它XML腳本應(yīng)用中的數(shù)據(jù)含義。這就是說(shuō),其它的基于XML腳本的Web 應(yīng)用、數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)文檔都可以輕松的和VoiceXML腳本結(jié)合起來(lái)。VoiceXML 應(yīng)用可以輕松的解釋它們的數(shù)據(jù)內(nèi)容,并通過(guò)適當(dāng)?shù)谋憩F(xiàn)式樣體現(xiàn)出來(lái)。

利用Java Script 、ASP 、Perl 等描述語(yǔ)言所建立的程序,可以訪問(wèn)其它各種各樣的數(shù)據(jù)來(lái)源,不僅可以產(chǎn)生動(dòng)態(tài)的瀏覽流程,同樣可以產(chǎn)生動(dòng)態(tài)的內(nèi)容。正如在Web 應(yīng)用中ASP 所產(chǎn)生的動(dòng)態(tài)網(wǎng)頁(yè)一樣,我們產(chǎn)生的動(dòng)態(tài)VoiceXML語(yǔ)音網(wǎng)頁(yè)具有同樣的瀏覽自由度和內(nèi)容自由度。

正如基于VoiceXML 的語(yǔ)音郵件應(yīng)用所表現(xiàn)的那樣,通過(guò)主頁(yè)的導(dǎo)向,根據(jù)不同用戶的用戶ID ,利用Java Script 或ASP等進(jìn)行對(duì)郵件服務(wù)器的訪問(wèn),根據(jù)郵件數(shù)據(jù)、郵件格式和郵件內(nèi)容會(huì)產(chǎn)生不同的VoiceXML 郵件網(wǎng)頁(yè)。不同的用戶所訪問(wèn)到的郵件網(wǎng)頁(yè)的結(jié)構(gòu)和內(nèi)容都是不同的。

4、個(gè)性定制的體現(xiàn)

不同于傳統(tǒng)CTI系統(tǒng)對(duì)每個(gè)用戶的服務(wù)都一模一樣的方式,VoiceXML應(yīng)用可以根據(jù)用戶自己的喜好定制自己需要的內(nèi)容。根據(jù)已有用戶的信息數(shù)據(jù),如用戶的特征,用戶選擇的項(xiàng)目等,利用模板機(jī)制,可以生成完全個(gè)性化的應(yīng)用流程和內(nèi)容。

在VoiceXML 語(yǔ)音應(yīng)用系統(tǒng)中,用戶不僅可以定制他們各自喜好的服務(wù)項(xiàng)目,甚至可以定制他們期望的內(nèi)容、格式和風(fēng)格,完全體現(xiàn)自己的個(gè)性化。

在基于VoiceXML 的語(yǔ)音門戶應(yīng)用中,用戶也可以自己開發(fā)編寫自己的語(yǔ)音網(wǎng)頁(yè),自由體現(xiàn)自我,建立自己的個(gè)人語(yǔ)音網(wǎng)站,展示自我個(gè)性。

六 無(wú)限商機(jī)公司的解決方案

無(wú)限商機(jī)公司 提供了適用于各種不同應(yīng)用、不同場(chǎng)合、不同行業(yè)的解決方案。

其包括:

1.班次/票務(wù)解決方案

可廣泛應(yīng)用于民航、列車、客運(yùn)、娛樂(lè)等行業(yè)。使電話查詢、訂購(gòu)機(jī)票、車票等將大大減少人工投入,變得自然流暢而快捷,與后臺(tái)數(shù)據(jù)應(yīng)用的結(jié)合將輕而易舉。

2.銀行/金融解決方案

電話銀行將富有新的特征,無(wú)限商機(jī)公司 VoiceXML 語(yǔ)音應(yīng)用解決方案為金融企業(yè)降低費(fèi)用和成本,并以優(yōu)勢(shì)的競(jìng)爭(zhēng)力吸引用戶。通過(guò)語(yǔ)音解決方案,用戶在任何時(shí)候、任何地方都可以自由的通過(guò)電話進(jìn)行他們的自助服務(wù)。無(wú)限商機(jī)公司 VoiceXML 基于網(wǎng)絡(luò)的解決方案可以降低昂貴的CallCenter 設(shè)備和人工成本,并與其它的在線服務(wù)系統(tǒng)協(xié)調(diào)工作,平衡負(fù)載,以更少的人工坐席就可以完成更好的服務(wù)。

3.語(yǔ)音交易/零售解決方案

無(wú)限商機(jī)公司 VoiceXML 語(yǔ)音應(yīng)用通過(guò)提供帳戶管理和用戶自助的方式,可以增強(qiáng)用戶的安全感和降低交易成本。用戶可以用他們的說(shuō)話聲通過(guò)電話來(lái)訪問(wèn)他們的帳戶,回憶他們?cè)?jīng)感興趣的信息,搜索商品信息和價(jià)格,進(jìn)行快捷的交易。而語(yǔ)音的解決方案能夠與已經(jīng)存在的網(wǎng)上訂購(gòu)、交易系統(tǒng)無(wú)縫結(jié)合,大大擴(kuò)展了原有系統(tǒng)的潛在的用戶群。使用戶可以在任何時(shí)候、任何地方訪問(wèn)他們的帳戶并進(jìn)行交易。

4.證券解決方案

無(wú)限商機(jī)公司 VoiceXML 語(yǔ)音應(yīng)用將大大改善原有的電話股票查詢系統(tǒng)。在VoiceXML 語(yǔ)音應(yīng)用中,用戶可以自由定制他們所關(guān)心的信息,而濾過(guò)那些無(wú)關(guān)的信息,而且可以以最為自由的方式進(jìn)行查詢和下單。其下單的處理情況也將通過(guò)多種信息反饋的方式及時(shí)的通知客戶,使客戶可以及時(shí)處理。

5.語(yǔ)音郵件解決方案

收發(fā)郵件不僅可以用電腦、WAP 手機(jī),用電話也一樣可以輕松完整,而且更快更方便更準(zhǔn)確。無(wú)論在車上、在外地、在野營(yíng),用戶都可以通過(guò)撥個(gè)電話來(lái)及時(shí)地處理郵件信息,為什么還需要一個(gè)笨重的電腦?用聲音作為郵件信息,不比文字更親切,更富含義?

6.保險(xiǎn)、信用、費(fèi)用查詢/繳費(fèi)、語(yǔ)音撥號(hào)等等解決方案

無(wú)限商機(jī)公司 的語(yǔ)音解決方案有著廣泛的應(yīng)用和市場(chǎng),人類通過(guò)聲音進(jìn)行的信息交流無(wú)所不在,同樣,跨越通訊網(wǎng)絡(luò)和數(shù)據(jù)網(wǎng)絡(luò),語(yǔ)音的應(yīng)用亦無(wú)所不在。語(yǔ)音應(yīng)用系統(tǒng)可以廣泛的應(yīng)用于保險(xiǎn)、信用查詢、費(fèi)用查詢/繳費(fèi)等等應(yīng)用中去,使用戶可以實(shí)現(xiàn)真正的足不出戶而決天下事的輕松生活。

七 無(wú)限商機(jī)公司的系列產(chǎn)品

1、無(wú)限商機(jī)公司 電信級(jí)VoiceXML 語(yǔ)音瀏覽器

無(wú)限商機(jī)公司 電信級(jí)VoiceXML 語(yǔ)音瀏覽器是建立于電信平臺(tái)之上的語(yǔ)音應(yīng)用系統(tǒng)的開放式核心。其作為無(wú)限商機(jī)公司 的一樣產(chǎn)品,提供了最為開放的接口和最為廣泛的支持。其開放了對(duì)語(yǔ)音識(shí)別引擎、語(yǔ)音合成引擎、語(yǔ)音卡、信道管理等等接口,提供了C/C++、JAVA 以及COM+組件、EJBean 組件、CORBA 等各類接口方式。

利用無(wú)限商機(jī)公司 電信級(jí)VoiceXML 語(yǔ)音瀏覽器,電信系統(tǒng)的開發(fā)商和集成商可以自由選擇所中意的各種引擎和平臺(tái),建立他們自己的VoiceXML 語(yǔ)音應(yīng)用平臺(tái),提供各類電信服務(wù)和應(yīng)用系統(tǒng),開拓新的電信增值業(yè)務(wù)項(xiàng)目。

2、無(wú)限商機(jī)公司 基于語(yǔ)音瀏覽的商務(wù)系統(tǒng)

無(wú)限商機(jī)公司 基于語(yǔ)音瀏覽的商務(wù)系統(tǒng),建構(gòu)于無(wú)限商機(jī)公司 VoiceXML Server 基礎(chǔ)上,與傳統(tǒng)的電子商務(wù)有機(jī)結(jié)合,可以輕易的結(jié)合原有的電子商務(wù)系統(tǒng),也可以在強(qiáng)大的中間件平臺(tái)基礎(chǔ)上建構(gòu)新的語(yǔ)音電子商務(wù)系統(tǒng)。

無(wú)限商機(jī)公司 基于語(yǔ)音瀏覽的商務(wù)系統(tǒng),不僅僅是一個(gè)語(yǔ)音應(yīng)用系統(tǒng),而且還包括了完整的電子商務(wù)解決方案。其完備的數(shù)據(jù)處理功能和系統(tǒng)結(jié)構(gòu)專門針對(duì)語(yǔ)音應(yīng)用的特點(diǎn)做出了優(yōu)化設(shè)計(jì)和實(shí)現(xiàn),使商家對(duì)整個(gè)系統(tǒng)的管理、交易的進(jìn)行控制和服務(wù)更為輕松,靈活和高效。

3、無(wú)限商機(jī)公司 語(yǔ)音門戶

電話也可以在Internet 上沖浪,門戶網(wǎng)站可以選擇無(wú)限商機(jī)公司 語(yǔ)音門戶網(wǎng)關(guān)將他們的用戶延伸到龐大的電話用戶群中。無(wú)限商機(jī)公司 語(yǔ)音門戶網(wǎng)關(guān)包括了無(wú)限商機(jī)公司 VoiceXML Server 、語(yǔ)音應(yīng)用站點(diǎn)建設(shè)管理工具、發(fā)布系統(tǒng)等等。在無(wú)限商機(jī)公司 語(yǔ)音門戶網(wǎng)關(guān)上建構(gòu)語(yǔ)音門戶,和建立WEB 站點(diǎn)一樣簡(jiǎn)單,甚至可以強(qiáng)有力的支持原有的WEB 站點(diǎn),以更豐富的形式表現(xiàn)給用戶。

4、無(wú)限商機(jī)公司 UMS 平臺(tái)

作為個(gè)人通信服務(wù),UMS (統(tǒng)一信息系統(tǒng))的表現(xiàn)越來(lái)越活躍。用戶可以通過(guò)各種各樣的工具來(lái)查詢、獲取信息和得到反饋。E-Mail 、電話、傳真、短消息與BP 等等的通信形式,在無(wú)限商機(jī)公司 UMS 平臺(tái)中都得到了充分的體現(xiàn)和發(fā)揮,而用VoiceXML 標(biāo)記語(yǔ)言不僅僅可以描述對(duì)電話信息方式的處理,而且可以描述其與其它信息方式的溝通和交互,使整個(gè)UMS 平臺(tái)成為有機(jī)的一個(gè)整體。

5、無(wú)限商機(jī)公司 跨越互聯(lián)網(wǎng)和數(shù)據(jù)網(wǎng)的呼叫中心

呼叫中心將不僅僅為電話用戶提供服務(wù),基于WEB 的呼叫中心越來(lái)越受到商家的關(guān)注。兩個(gè)網(wǎng)絡(luò)之間的交互通過(guò)XML 數(shù)據(jù)標(biāo)記技術(shù)而變得輕松簡(jiǎn)單。而無(wú)限商機(jī)公司 VoiceXML Server 使大部分的對(duì)話都可以由計(jì)算機(jī)自己完成,大大降低坐席人員的要求和負(fù)擔(dān),而使用戶的使用更為簡(jiǎn)單和自然。

八 應(yīng)用示例

1、VoiceXML 語(yǔ)音郵件

VoiceXML 語(yǔ)音郵件應(yīng)用,使用戶可以通過(guò)電話等聲音設(shè)備收發(fā)電子郵件。在基于VoiceXML的語(yǔ)音郵件應(yīng)用中,用戶可以自由的選擇性收聽(tīng)郵件、只聽(tīng)標(biāo)題或內(nèi)容、順序?yàn)g覽、隨時(shí)刪除。利用通訊本功能,用戶通過(guò)說(shuō)出姓名即可發(fā)送語(yǔ)音形式的郵件,讓對(duì)方聽(tīng)到自己的聲音信息。

2、VoiceXML股票查詢

基于VoiceXML 的股票查詢應(yīng)用系統(tǒng),用戶無(wú)須記住股票代碼,只需說(shuō)出股票名稱即可。用戶可以選擇性定制自己所關(guān)心的幾支股票,只查詢這幾支股票的信息。通過(guò)更為復(fù)雜的模板定制,用戶還可以定制他們關(guān)心的股票價(jià)格、成交量等細(xì)節(jié)內(nèi)容,以喜好的風(fēng)格來(lái)聽(tīng)取,用戶也可以定制提醒、報(bào)警等功能,及時(shí)處理。

3、VoiceXML 天氣查詢

基于VoiceXML 的天氣查詢系統(tǒng),選擇用戶所關(guān)心的幾個(gè)城市,隨時(shí)查詢天氣情況,以便安排出行、旅游。

4、VoiceXML 語(yǔ)音游戲

試試和電腦玩玩猜拳游戲吧,聽(tīng)聽(tīng)電腦贏時(shí)的得意和輸時(shí)的抱怨,看看你能不能幾句話說(shuō)得電腦低頭服輸?

北京無(wú)限商機(jī)供稿 CTI論壇編輯



相關(guān)鏈接:
融合通訊還有多遠(yuǎn)? 2003-04-15
我國(guó)語(yǔ)音互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展和統(tǒng)一標(biāo)準(zhǔn)規(guī)范VAP探討 2002-03-04
北京無(wú)限商機(jī) 2002-03-04
北郵UBO共建實(shí)驗(yàn)室致力語(yǔ)音數(shù)據(jù)兩網(wǎng)融合 2002-01-23
企業(yè)服務(wù)新形象——UBO Tel-win智能總機(jī) 2001-12-20