首頁>>>技術(shù)>>>cti平臺


用CTI實現(xiàn)與Web交談

世界上現(xiàn)在有十億的電話終端,另外,有超過2億的移動電話已經(jīng)銷售到世界上。而就人的自身習慣來看,通過言談的交流,利用聽和說是人們更愿意接受的交流和獲取信息的方式。

移動通信技術(shù)與數(shù)據(jù)通信的結(jié)合,提供給人們隨處接入網(wǎng)絡(luò)的可能,但是只有WAP才是我們構(gòu)建移動商務(wù)的唯一平臺嗎?CTI技術(shù)的發(fā)展給我們提供了一條新的途徑。

CTI技術(shù)的進步

經(jīng)過努力文本語音轉(zhuǎn)換器(TTS,Text to Speech)已經(jīng)取得了很大的進步,實現(xiàn)了自動的語言分析理解,并允許TTS的使用者增加更多的韻律、音調(diào)在講話中,使TTS系統(tǒng)的發(fā)聲更接近人聲。

在自動語音識別系統(tǒng)(ASR)領(lǐng)域里,自動語音識別系統(tǒng)在從整個詞的模仿匹配,向音素層次的識別系統(tǒng)方向發(fā)展。整個詞的模仿匹配系統(tǒng),或多或少要依賴講話者,而且只有很少的詞匯量。現(xiàn)在的做法是,自動語音識別系統(tǒng)的詞匯表,由一個基于聲音片斷的字母表構(gòu)成。要指出的是,這種詞匯表是受不同語言限制的;谶@種方式,在一個寬廣的聲音行列里,講話能被識別系統(tǒng)發(fā)現(xiàn)和挑揀出來,并加以識別。在識別一個詞的時候,每一個音素將從系統(tǒng)的輸入中挑揀出來,拼接組合后與已經(jīng)有的音素和詞語模板進行比較。而這樣的模板能夠非常快的被TTS產(chǎn)生出來,也就是說通過文字的輸入,來產(chǎn)生需要的模板,并且非常經(jīng)濟的被存儲起來。現(xiàn)在許多系統(tǒng)甚至能夠支持識別模板的“熱插拔",比如說將一個雇員的名字加入雇員識別系統(tǒng)的數(shù)據(jù)庫,不用將整個系統(tǒng)停下來。

通過這些努力,音素的識別大大的減輕了ASR對講話者的依賴性,并且使得它非常容易去建立大型的和容易修改的語音識別字典,從而滿足不同應(yīng)用市場的需求。在這一方面取得成功以后,今天的開發(fā)者正在加入更多的精密復(fù)雜的、智能的、高水平的語言學方面的處理到ASR系統(tǒng)中,同時在ASR中增加了對語言上下文環(huán)境的考慮。而通過鑒別輸入的文法結(jié)構(gòu)和前后關(guān)系,以及確定某些詞(詞窗)出現(xiàn)在談話中特定位置的概率并制定相應(yīng)的適用規(guī)則,將更加加強系統(tǒng)的精確性。

VoiceXML所取得的成就

5月23日,萬維網(wǎng)協(xié)會(World Wide Web Consortium,W3C)接受了語音可擴展標記語言(Voice Extensible Markup Language)規(guī)范1.0版(VoiceXML 1.0)作為實例。

VoiceXML源自于AT&T、IBM、Lucent和Motorola多年的研究和開發(fā)。自從3月份VoiceXML 1.0 的發(fā)布,論壇成員已經(jīng)擴展到150多家公司。

VoiceXML 1.0規(guī)范基于W3C的工業(yè)標準XML,為語音和電話應(yīng)用的開發(fā)者、服務(wù)提供商和設(shè)備制造商提供了一個智能化的API。VoiceXML的標準化將簡化Web上具有語音響應(yīng)服務(wù)的個性化界面的創(chuàng)建,使人們能夠通過語音和電話訪問網(wǎng)站上的信息和服務(wù),像今天通過CGI腳本一樣檢索中心數(shù)據(jù)庫,訪問企業(yè)內(nèi)部網(wǎng),制造新的語音訪問設(shè)備。

最終將語音瀏覽器與微型瀏覽器融合在一起,可以實現(xiàn)多種形式的交互性。比如一個旅行的應(yīng)用,使用者講出他的起始點和終點及其首選的航班時間,這些對于PDA來說是非常不容易輸入的。融合的微型瀏覽器對輸入做出反應(yīng),給他一個航班選擇的菜單。他選擇預(yù)約的航班只需說“第三個”……實現(xiàn)語音輸入,圖形界面輸出。

什么是VoiceXML

首先我們來看一看VoiceXML的模型。(見圖1)

一個文件服務(wù)器比如說一個Web服務(wù)器,處理一個來自終端應(yīng)用的請求,這一請求經(jīng)過了VoiceXML解釋程序和VoiceXML解釋程序語境處理。作為響應(yīng),服務(wù)器產(chǎn)生出VoiceXML文件,在回復(fù)當中,要經(jīng)過VoiceXML解釋程序的處理。

執(zhí)行平臺是被VoiceXML解釋程序語境和VoiceXML解釋程序控制的。例如,在一個交互式語音應(yīng)答應(yīng)用中,VoiceXML解釋程序語境能可靠的監(jiān)測到呼叫,獲得初始的VoiceXML文件,并且回答這一呼叫,在回答之后VoiceXML解釋程序引導(dǎo)這一對話。執(zhí)行平臺產(chǎn)生事件響應(yīng)用戶的動作(說話或者字符輸入)和系統(tǒng)事件(例如計時器溢出)。這些事件中的一部分依照相應(yīng)的VoiceXML文件按照VoiceXML解釋程序的解釋加以執(zhí)行,其他的被VoiceXML解釋程序語境控制。

VoiceXML解釋程序是一個計算機程序,它解釋一個VoiceXML文件,引導(dǎo)和控制用戶與執(zhí)行平臺之間的交互作用。VoiceXML解釋程序語境也是一個計算機程序,用一個VoiceXML解釋程序解釋一個VoiceXML文件,并且可以與執(zhí)行平臺相互作用而與VoiceXML解釋程序無關(guān)。

執(zhí)行平臺,是指一個能支持VoiceXML定義的交互作用的計算機,它上面要加載相應(yīng)的軟件和硬件,比如,ASR、TTS。

VoiceXML的主要目標是要將Web上已經(jīng)有的大量應(yīng)用、豐富的內(nèi)容,讓交互式語音界面也能夠全部享受。而在這一過程中,VoiceXML希望能夠?qū)?yīng)用開發(fā)人員們從最低級的編程和資源處理工作中解放出來。VoiceXML能夠利用人們已經(jīng)非常熟悉的客戶機/服務(wù)器方式,將語音服務(wù)和數(shù)據(jù)服務(wù)融合起來。

在這里一個語音服務(wù)被看作是用戶和執(zhí)行平臺之間所進行的一系列交互式語音對話。對話由一個文件服務(wù)器來提供,文件服務(wù)器可能會是執(zhí)行平臺之外的一個設(shè)備。文件服務(wù)器提供了全部的服務(wù)邏輯、數(shù)據(jù)庫的訪問、系統(tǒng)的運行并且產(chǎn)生對話。在VoiceXML中,對話指的是一次交互式的作用,而用戶的操作已經(jīng)在VoiceXML文件中指定了。

一個VoiceXML文件指定每一個交互式的對話要被VoiceXML解釋程序所引導(dǎo)。用戶的輸入將影響對話的解釋,而用戶的輸入同時將被收集成為請求,提交給文件服務(wù)器。文件服務(wù)器可能通過回答另一個VoiceXML文件讓用戶通過其他的對話繼續(xù)其會議。這里,會議指的是用戶和執(zhí)行平臺之間的聯(lián)系,像一個用戶和語音應(yīng)答系統(tǒng)的電話通信,一個會議會關(guān)聯(lián)到不下一個的VoiceXML文件。

作為一種標記語言,VoiceXML要能夠做到:

1.通過每一文件里指定的多重的交互作用,最小化客戶機/服務(wù)器之間的交互工作。

2.實現(xiàn)應(yīng)用開發(fā)者與低層的軟件和系統(tǒng)平臺上的軟、硬件細節(jié)無關(guān)。

3.將用戶交互作用的代碼(在VoiceXML中)從服務(wù)邏輯(CGI 腳本)中分離出來。

4.要使提供的服務(wù)能隨處可得,要求這些服務(wù)能夠跨越不同的執(zhí)行平臺。對于內(nèi)容服務(wù)商、工具提供商和平臺提供商來說,VoiceXML是一個公共語言。

5.使簡單的交互作用非常易于使用,要求所提供的語音界面能支持復(fù)雜的對話。

雖然VoiceXML在努力的適應(yīng)多數(shù)的語音應(yīng)答服務(wù)的需求,但是作為那些要求非常嚴格的服務(wù),可能最好還是通過專門的應(yīng)用軟件來實現(xiàn),從而達到一個出色的控制水平。

VoiceXML語言描述的通過語音應(yīng)答系統(tǒng)實現(xiàn)人機交互通信,其范圍包括:合成語音的輸出(TTS)、音頻文件的輸出、話音輸入的識別、DTMF輸入的識別、語音輸入的錄音、電話功能像呼叫轉(zhuǎn)移等。

VoiceXML提供字符和語音輸入收集,將輸入分配給文件定義的請求變量,并且在用戶回答后做出決定的方法。VoiceXML確定文件可能被連接到其他的文件通過通用資源標示符(URI)。

VoiceXML的語言使系統(tǒng)不必擔心有非常嚴重的計算、數(shù)據(jù)庫運行壓力。這些被設(shè)定在文件解釋程序外執(zhí)行,比如專門的文件服務(wù)器。常規(guī)的服務(wù)邏輯、管理形態(tài)、會話產(chǎn)生和會話序列被設(shè)定在文件解釋程序之外。VoiceXML提供URI完成文件之間的連接,并且也用URI提交數(shù)據(jù)給服務(wù)器腳本。VoiceXML不需要文件作者明確分配和解除分配會話資源或者并行處理的情況。資源的分配和解除重新分配,以及并發(fā)線路處理的控制,由執(zhí)行平臺來完成。

執(zhí)行平臺應(yīng)該達到什么樣的要求才能支持VoiceXML解釋程序。

文件獲得:解釋程序語境被期待得到文件使VoiceXML解釋程序工作。在一些案例中,文件請求是產(chǎn)生自對VoiceXML文件的解釋的,其他請求是產(chǎn)生于VoiceXML范圍外的事件,比如說一個打入的電話。

音頻的輸出:執(zhí)行平臺能用音頻文件或者TTS的方式提供音頻輸出。當支持兩種方式時,平臺必須能夠自由的編排TTS和音頻輸出。音頻文件是通過URI被調(diào)動的,語言并沒有詳細的指定音頻文件的固定格式。

音頻的輸入:執(zhí)行平臺需要能同時發(fā)現(xiàn)并報告字符和會話的輸入,并且依靠一個計時器去控制輸入探測的間隔時間,這一定時器的長度由VoiceXML文件所定義。音頻輸入必須能報告用戶通過字符(例如DTMF)的輸入情況。它必須能夠動態(tài)接受語音識別語法的數(shù)據(jù)。一些是VoiceXML所必須包含的語法數(shù)據(jù);另一些涉及的講話語法數(shù)據(jù)通過一個URI獲得。講話的識別必須能夠達到根據(jù)語音輸入實現(xiàn)動態(tài)的升級。語音輸入必須能夠從用戶那里錄下用戶講話的音頻信號。執(zhí)行平臺必須能夠使錄音成為一個系統(tǒng)的需求變量。

產(chǎn)品篇

以下介紹幾個國外廠商的產(chǎn)品,但現(xiàn)在的ASR和TTS系統(tǒng)大多還不能支持中文。

IBM

IBM和Nokia公司建立聯(lián)盟的關(guān)系,共同研發(fā)以追趕移動Internet所帶來的新需求。首先是,Nokia公司采用IBM的ViaVoice語音撥號簿。IBM分銷Nokia的WAP網(wǎng)關(guān),并且將它融入其普遍計算中間件中。

VoiceTIMES(Voice Technology Initiative for Mobile Enterprise Solutions)詳細定義了掌上數(shù)字錄音和語音識別應(yīng)用。這一想法是提升語音作為移動設(shè)備的通用界面,無論是從數(shù)字錄音設(shè)備到移動電話和PDA。IBM正在開發(fā)VoiceXML的Web瀏覽器,提供一個語音的入口,用戶能夠接入一個Websphere Web應(yīng)用服務(wù)器,實現(xiàn)瀏覽一個書店,尋找書籍,獲得價格,瀏覽銀行,查詢銀行的帳務(wù),買書等應(yīng)用。

朗訊

朗訊的解決方案包括自己的ASR、TTS引擎和自己的板卡引擎。

Lucent LTTS 3.0可以根據(jù)輸入的文字,轉(zhuǎn)換成英語、法語等多種語言,尚不支持中文?梢越滔到y(tǒng)講一些非常難的詞。LASR 3.0用做語音輸入和識別。LTTS 3.0是朗訊自己的無線數(shù)據(jù)服務(wù)器的一部分,基于此,移動通信運營商可以提供統(tǒng)一消息、新聞、天氣預(yù)報的服務(wù)?梢允惯@些信息在HTTP、傳真、語音、電子郵件之間轉(zhuǎn)換,用傳真打印出圖形,用語音來讀出文件內(nèi)容。

朗訊的語音處理卡,可支持ISA/EISA、PCI和Compact PCI。其中支持ISA/EISA的語音處理卡,48M內(nèi)存,有T1接口,可升級支持5個T1,支持ASR、TTS。

朗訊最新發(fā)布的Lucent Speech Server已經(jīng)可以支持VoiceXML的應(yīng)用。該服務(wù)器使用朗訊公司自己的Compact PCI語音卡,可支持最多192個信道的語音識別,支持TTS等應(yīng)用,為運營商和OEM廠商服務(wù)。該服務(wù)器的首項應(yīng)用將用來運行VoiceXML解釋程序。另外包括自動服務(wù)員,呼叫屏幕服務(wù)(錄下來話者姓名,并播放給被叫用戶,詢問是否接通,形成一個數(shù)據(jù)庫,確定用戶希望接聽的電話),個人智能助理服務(wù)等等。

摩托羅拉

作為最早支持VoiceXML的廠商之一,摩托羅拉最終希望的是通過三種途徑來訪問Web:一種是通過普通PC機上的瀏覽器,第二種是通過手持設(shè)備(手機)上的微型瀏覽器通過WAP來訪問,第三種是利用語音。

摩托羅拉的硬件設(shè)備是Vox網(wǎng)關(guān),既是一個ASR、TTS并且也是一個電話界面用來呈現(xiàn)VoxML(摩托羅拉的VoiceXML版本)。它充當了電話和Internet文字之間進行語音指令與服務(wù)翻譯的中介。語音網(wǎng)關(guān)服務(wù)器中內(nèi)置了語音瀏覽器,網(wǎng)關(guān)使用標準的Internet協(xié)議訪問Internet。

同時摩托羅拉還提供一種移動應(yīng)用開發(fā)工具MADK。該工具使移動應(yīng)用開發(fā)能夠在單一開發(fā)環(huán)境下創(chuàng)建多個終端用戶界面,VoxML的語音界面,WML的數(shù)據(jù)界面。在VoxML方面,包含有HTTP鏈接,便于仿真網(wǎng)絡(luò)接入VoxML的應(yīng)用;應(yīng)用仿真器負責管理基于代理的自動語音識別ASR及TTS的合成引擎。通過MADK開發(fā)出的應(yīng)用將運行在摩托羅拉公司新的移動互聯(lián)網(wǎng)交換平臺上(MIX,Mobile Internet Exchange)。

Nuance

Nuance有自己的一套語音識別系統(tǒng),包括語音識別引擎和開發(fā)工具,可以幫助第三方開發(fā)者開發(fā)應(yīng)用。

Nuance瀏覽器和可語音激活的服務(wù)器,叫做Voyager,F(xiàn)在,它比較類似一個個人信息助手,用戶可以在一個電話中從一個站點瀏覽到另一個站點,查時間表、預(yù)約晚飯餐桌、閱讀地圖接受駕駛向?qū)Х⻊?wù)。雖然其功能并不比一般的個人信息助手強很多,但是用戶對系統(tǒng)的輸入是通過ASR,系統(tǒng)的輸出是通過TTS,而一切都在VoiceXML的控制下。Voyager的ASR/TTS服務(wù)器將被銷往ISP和運營商。

V-Builder,是Nuance開發(fā)的一種工具,用來將HTML開發(fā)者轉(zhuǎn)變成為VoiceXML。V-Builder將作為語法轉(zhuǎn)換和提示紀錄的工具出現(xiàn)。

摘自《網(wǎng)絡(luò)世界》2000年6月5日

 


相關(guān)鏈接:
Computer Telephony Integration 2002-01-30
CTI技術(shù)在臺灣的發(fā)展 2002-01-30
軟交換、業(yè)務(wù)分析合力驅(qū)動CTI'2001加速 2002-01-16
軟交換CTI發(fā)展的新方向 2001-11-13
CTI:展現(xiàn)融合的未來 2001-10-22

分類信息:     技術(shù)_CTI平臺_文摘