野花中文网,蜜桃AV抽搐高潮一区二区

用CTI實現(xiàn)與Web交談

世界上現(xiàn)在有十億的電話終端，另外，有超過2億的移動電話已經(jīng)銷售到世界上。而就人的自身習慣來看，通過言談的交流，利用聽和說是人們更愿意接受的交流和獲取信息的方式。

移動通信技術(shù)與數(shù)據(jù)通信的結(jié)合，提供給人們隨處接入網(wǎng)絡(luò)的可能，但是只有WAP才是我們構(gòu)建移動商務(wù)的唯一平臺嗎？CTI技術(shù)的發(fā)展給我們提供了一條新的途徑。

CTI技術(shù)的進步

經(jīng)過努力文本語音轉(zhuǎn)換器(TTS，Text to Speech)已經(jīng)取得了很大的進步，實現(xiàn)了自動的語言分析理解，并允許TTS的使用者增加更多的韻律、音調(diào)在講話中，使TTS系統(tǒng)的發(fā)聲更接近人聲。

在自動語音識別系統(tǒng)（ASR）領(lǐng)域里，自動語音識別系統(tǒng)在從整個詞的模仿匹配，向音素層次的識別系統(tǒng)方向發(fā)展。整個詞的模仿匹配系統(tǒng)，或多或少要依賴講話者，而且只有很少的詞匯量。現(xiàn)在的做法是，自動語音識別系統(tǒng)的詞匯表，由一個基于聲音片斷的字母表構(gòu)成。要指出的是，這種詞匯表是受不同語言限制的�；谶@種方式，在一個寬廣的聲音行列里，講話能被識別系統(tǒng)發(fā)現(xiàn)和挑揀出來，并加以識別。在識別一個詞的時候，每一個音素將從系統(tǒng)的輸入中挑揀出來，拼接組合后與已經(jīng)有的音素和詞語模板進行比較。而這樣的模板能夠非常快的被TTS產(chǎn)生出來，也就是說通過文字的輸入，來產(chǎn)生需要的模板，并且非常經(jīng)濟的被存儲起來。現(xiàn)在許多系統(tǒng)甚至能夠支持識別模板的“熱插拔"，比如說將一個雇員的名字加入雇員識別系統(tǒng)的數(shù)據(jù)庫，不用將整個系統(tǒng)停下來。

通過這些努力，音素的識別大大的減輕了ASR對講話者的依賴性，并且使得它非常容易去建立大型的和容易修改的語音識別字典，從而滿足不同應(yīng)用市場的需求。在這一方面取得成功以后，今天的開發(fā)者正在加入更多的精密復(fù)雜的、智能的、高水平的語言學方面的處理到ASR系統(tǒng)中，同時在ASR中增加了對語言上下文環(huán)境的考慮。而通過鑒別輸入的文法結(jié)構(gòu)和前后關(guān)系，以及確定某些詞（詞窗）出現(xiàn)在談話中特定位置的概率并制定相應(yīng)的適用規(guī)則，將更加加強系統(tǒng)的精確性。

VoiceXML所取得的成就

5月23日，萬維網(wǎng)協(xié)會（World Wide Web Consortium，W3C）接受了語音可擴展標記語言（Voice Extensible Markup Language）規(guī)范1.0版（VoiceXML 1.0）作為實例。

VoiceXML源自于AT＆T、IBM、Lucent和Motorola多年的研究和開發(fā)。自從3月份VoiceXML 1.0 的發(fā)布，論壇成員已經(jīng)擴展到150多家公司。

VoiceXML 1.0規(guī)范基于W3C的工業(yè)標準XML，為語音和電話應(yīng)用的開發(fā)者、服務(wù)提供商和設(shè)備制造商提供了一個智能化的API。VoiceXML的標準化將簡化Web上具有語音響應(yīng)服務(wù)的個性化界面的創(chuàng)建，使人們能夠通過語音和電話訪問網(wǎng)站上的信息和服務(wù)，像今天通過CGI腳本一樣檢索中心數(shù)據(jù)庫，訪問企業(yè)內(nèi)部網(wǎng)，制造新的語音訪問設(shè)備。

最終將語音瀏覽器與微型瀏覽器融合在一起，可以實現(xiàn)多種形式的交互性。比如一個旅行的應(yīng)用，使用者講出他的起始點和終點及其首選的航班時間，這些對于PDA來說是非常不容易輸入的。融合的微型瀏覽器對輸入做出反應(yīng)，給他一個航班選擇的菜單。他選擇預(yù)約的航班只需說“第三個”……實現(xiàn)語音輸入，圖形界面輸出。

什么是VoiceXML

首先我們來看一看VoiceXML的模型。(見圖1)

一個文件服務(wù)器比如說一個Web服務(wù)器，處理一個來自終端應(yīng)用的請求，這一請求經(jīng)過了VoiceXML解釋程序和VoiceXML解釋程序語境處理。作為響應(yīng)，服務(wù)器產(chǎn)生出VoiceXML文件，在回復(fù)當中，要經(jīng)過VoiceXML解釋程序的處理。

執(zhí)行平臺是被VoiceXML解釋程序語境和VoiceXML解釋程序控制的。例如，在一個交互式語音應(yīng)答應(yīng)用中，VoiceXML解釋程序語境能可靠的監(jiān)測到呼叫，獲得初始的VoiceXML文件，并且回答這一呼叫，在回答之后VoiceXML解釋程序引導(dǎo)這一對話。執(zhí)行平臺產(chǎn)生事件響應(yīng)用戶的動作（說話或者字符輸入）和系統(tǒng)事件（例如計時器溢出）。這些事件中的一部分依照相應(yīng)的VoiceXML文件按照VoiceXML解釋程序的解釋加以執(zhí)行，其他的被VoiceXML解釋程序語境控制。

VoiceXML解釋程序是一個計算機程序，它解釋一個VoiceXML文件，引導(dǎo)和控制用戶與執(zhí)行平臺之間的交互作用。VoiceXML解釋程序語境也是一個計算機程序，用一個VoiceXML解釋程序解釋一個VoiceXML文件，并且可以與執(zhí)行平臺相互作用而與VoiceXML解釋程序無關(guān)。

執(zhí)行平臺，是指一個能支持VoiceXML定義的交互作用的計算機，它上面要加載相應(yīng)的軟件和硬件，比如，ASR、TTS。

VoiceXML的主要目標是要將Web上已經(jīng)有的大量應(yīng)用、豐富的內(nèi)容，讓交互式語音界面也能夠全部享受。而在這一過程中，VoiceXML希望能夠?qū)?yīng)用開發(fā)人員們從最低級的編程和資源處理工作中解放出來。VoiceXML能夠利用人們已經(jīng)非常熟悉的客戶機/服務(wù)器方式，將語音服務(wù)和數(shù)據(jù)服務(wù)融合起來。

在這里一個語音服務(wù)被看作是用戶和執(zhí)行平臺之間所進行的一系列交互式語音對話。對話由一個文件服務(wù)器來提供，文件服務(wù)器可能會是執(zhí)行平臺之外的一個設(shè)備。文件服務(wù)器提供了全部的服務(wù)邏輯、數(shù)據(jù)庫的訪問、系統(tǒng)的運行并且產(chǎn)生對話。在VoiceXML中，對話指的是一次交互式的作用，而用戶的操作已經(jīng)在VoiceXML文件中指定了。

一個VoiceXML文件指定每一個交互式的對話要被VoiceXML解釋程序所引導(dǎo)。用戶的輸入將影響對話的解釋，而用戶的輸入同時將被收集成為請求，提交給文件服務(wù)器。文件服務(wù)器可能通過回答另一個VoiceXML文件讓用戶通過其他的對話繼續(xù)其會議。這里，會議指的是用戶和執(zhí)行平臺之間的聯(lián)系，像一個用戶和語音應(yīng)答系統(tǒng)的電話通信，一個會議會關(guān)聯(lián)到不下一個的VoiceXML文件。

作為一種標記語言，VoiceXML要能夠做到：

1．通過每一文件里指定的多重的交互作用，最小化客戶機/服務(wù)器之間的交互工作。

2．實現(xiàn)應(yīng)用開發(fā)者與低層的軟件和系統(tǒng)平臺上的軟、硬件細節(jié)無關(guān)。

3．將用戶交互作用的代碼（在VoiceXML中）從服務(wù)邏輯（CGI 腳本)中分離出來。

4．要使提供的服務(wù)能隨處可得，要求這些服務(wù)能夠跨越不同的執(zhí)行平臺。對于內(nèi)容服務(wù)商、工具提供商和平臺提供商來說，VoiceXML是一個公共語言。

5．使簡單的交互作用非常易于使用，要求所提供的語音界面能支持復(fù)雜的對話。

雖然VoiceXML在努力的適應(yīng)多數(shù)的語音應(yīng)答服務(wù)的需求，但是作為那些要求非常嚴格的服務(wù)，可能最好還是通過專門的應(yīng)用軟件來實現(xiàn)，從而達到一個出色的控制水平。

VoiceXML語言描述的通過語音應(yīng)答系統(tǒng)實現(xiàn)人機交互通信，其范圍包括：合成語音的輸出（TTS）、音頻文件的輸出、話音輸入的識別、DTMF輸入的識別、語音輸入的錄音、電話功能像呼叫轉(zhuǎn)移等。

VoiceXML提供字符和語音輸入收集，將輸入分配給文件定義的請求變量，并且在用戶回答后做出決定的方法。VoiceXML確定文件可能被連接到其他的文件通過通用資源標示符（URI）。

VoiceXML的語言使系統(tǒng)不必擔心有非常嚴重的計算、數(shù)據(jù)庫運行壓力。這些被設(shè)定在文件解釋程序外執(zhí)行，比如專門的文件服務(wù)器。常規(guī)的服務(wù)邏輯、管理形態(tài)、會話產(chǎn)生和會話序列被設(shè)定在文件解釋程序之外。VoiceXML提供URI完成文件之間的連接，并且也用URI提交數(shù)據(jù)給服務(wù)器腳本。VoiceXML不需要文件作者明確分配和解除分配會話資源或者并行處理的情況。資源的分配和解除重新分配，以及并發(fā)線路處理的控制，由執(zhí)行平臺來完成。

執(zhí)行平臺應(yīng)該達到什么樣的要求才能支持VoiceXML解釋程序。

文件獲得：解釋程序語境被期待得到文件使VoiceXML解釋程序工作。在一些案例中，文件請求是產(chǎn)生自對VoiceXML文件的解釋的，其他請求是產(chǎn)生于VoiceXML范圍外的事件，比如說一個打入的電話。

音頻的輸出：執(zhí)行平臺能用音頻文件或者TTS的方式提供音頻輸出。當支持兩種方式時，平臺必須能夠自由的編排TTS和音頻輸出。音頻文件是通過URI被調(diào)動的，語言并沒有詳細的指定音頻文件的固定格式。

音頻的輸入：執(zhí)行平臺需要能同時發(fā)現(xiàn)并報告字符和會話的輸入，并且依靠一個計時器去控制輸入探測的間隔時間，這一定時器的長度由VoiceXML文件所定義。音頻輸入必須能報告用戶通過字符（例如DTMF）的輸入情況。它必須能夠動態(tài)接受語音識別語法的數(shù)據(jù)。一些是VoiceXML所必須包含的語法數(shù)據(jù)；另一些涉及的講話語法數(shù)據(jù)通過一個URI獲得。講話的識別必須能夠達到根據(jù)語音輸入實現(xiàn)動態(tài)的升級。語音輸入必須能夠從用戶那里錄下用戶講話的音頻信號。執(zhí)行平臺必須能夠使錄音成為一個系統(tǒng)的需求變量。

產(chǎn)品篇

以下介紹幾個國外廠商的產(chǎn)品，但現(xiàn)在的ASR和TTS系統(tǒng)大多還不能支持中文。

IBM

IBM和Nokia公司建立聯(lián)盟的關(guān)系，共同研發(fā)以追趕移動Internet所帶來的新需求。首先是，Nokia公司采用IBM的ViaVoice語音撥號簿。IBM分銷Nokia的WAP網(wǎng)關(guān)，并且將它融入其普遍計算中間件中。

VoiceTIMES(Voice Technology Initiative for Mobile Enterprise Solutions)詳細定義了掌上數(shù)字錄音和語音識別應(yīng)用。這一想法是提升語音作為移動設(shè)備的通用界面，無論是從數(shù)字錄音設(shè)備到移動電話和PDA。IBM正在開發(fā)VoiceXML的Web瀏覽器，提供一個語音的入口，用戶能夠接入一個Websphere Web應(yīng)用服務(wù)器，實現(xiàn)瀏覽一個書店，尋找書籍，獲得價格，瀏覽銀行，查詢銀行的帳務(wù)，買書等應(yīng)用。

朗訊

朗訊的解決方案包括自己的ASR、TTS引擎和自己的板卡引擎。

Lucent LTTS 3.0可以根據(jù)輸入的文字，轉(zhuǎn)換成英語、法語等多種語言，尚不支持中文�？梢越滔到y(tǒng)講一些非常難的詞。LASR 3.0用做語音輸入和識別。LTTS 3.0是朗訊自己的無線數(shù)據(jù)服務(wù)器的一部分，基于此，移動通信運營商可以提供統(tǒng)一消息、新聞、天氣預(yù)報的服務(wù)�？梢允惯@些信息在HTTP、傳真、語音、電子郵件之間轉(zhuǎn)換，用傳真打印出圖形，用語音來讀出文件內(nèi)容。

朗訊的語音處理卡，可支持ISA/EISA、PCI和Compact PCI。其中支持ISA/EISA的語音處理卡，48M內(nèi)存，有T1接口，可升級支持5個T1，支持ASR、TTS。

朗訊最新發(fā)布的Lucent Speech Server已經(jīng)可以支持VoiceXML的應(yīng)用。該服務(wù)器使用朗訊公司自己的Compact PCI語音卡，可支持最多192個信道的語音識別，支持TTS等應(yīng)用，為運營商和OEM廠商服務(wù)。該服務(wù)器的首項應(yīng)用將用來運行VoiceXML解釋程序。另外包括自動服務(wù)員，呼叫屏幕服務(wù)（錄下來話者姓名，并播放給被叫用戶，詢問是否接通，形成一個數(shù)據(jù)庫，確定用戶希望接聽的電話），個人智能助理服務(wù)等等。

摩托羅拉

作為最早支持VoiceXML的廠商之一，摩托羅拉最終希望的是通過三種途徑來訪問Web：一種是通過普通PC機上的瀏覽器，第二種是通過手持設(shè)備（手機）上的微型瀏覽器通過WAP來訪問，第三種是利用語音。

摩托羅拉的硬件設(shè)備是Vox網(wǎng)關(guān)，既是一個ASR、TTS并且也是一個電話界面用來呈現(xiàn)VoxML（摩托羅拉的VoiceXML版本）。它充當了電話和Internet文字之間進行語音指令與服務(wù)翻譯的中介。語音網(wǎng)關(guān)服務(wù)器中內(nèi)置了語音瀏覽器，網(wǎng)關(guān)使用標準的Internet協(xié)議訪問Internet。

同時摩托羅拉還提供一種移動應(yīng)用開發(fā)工具MADK。該工具使移動應(yīng)用開發(fā)能夠在單一開發(fā)環(huán)境下創(chuàng)建多個終端用戶界面，VoxML的語音界面，WML的數(shù)據(jù)界面。在VoxML方面，包含有HTTP鏈接，便于仿真網(wǎng)絡(luò)接入VoxML的應(yīng)用；應(yīng)用仿真器負責管理基于代理的自動語音識別ASR及TTS的合成引擎。通過MADK開發(fā)出的應(yīng)用將運行在摩托羅拉公司新的移動互聯(lián)網(wǎng)交換平臺上（MIX，Mobile Internet Exchange）。

Nuance

Nuance有自己的一套語音識別系統(tǒng)，包括語音識別引擎和開發(fā)工具，可以幫助第三方開發(fā)者開發(fā)應(yīng)用。

Nuance瀏覽器和可語音激活的服務(wù)器，叫做Voyager�，F(xiàn)在，它比較類似一個個人信息助手，用戶可以在一個電話中從一個站點瀏覽到另一個站點，查時間表、預(yù)約晚飯餐桌、閱讀地圖接受駕駛向?qū)Х⻊?wù)。雖然其功能并不比一般的個人信息助手強很多，但是用戶對系統(tǒng)的輸入是通過ASR，系統(tǒng)的輸出是通過TTS，而一切都在VoiceXML的控制下。Voyager的ASR/TTS服務(wù)器將被銷往ISP和運營商。

V－Builder，是Nuance開發(fā)的一種工具，用來將HTML開發(fā)者轉(zhuǎn)變成為VoiceXML。V－Builder將作為語法轉(zhuǎn)換和提示紀錄的工具出現(xiàn)。

摘自《網(wǎng)絡(luò)世界》2000年6月5日

CTI技術(shù)在臺灣的發(fā)展 2002-01-30

軟交換、業(yè)務(wù)分析合力驅(qū)動CTI'2001加速 2002-01-16

軟交換CTI發(fā)展的新方向 2001-11-13

CTI：展現(xiàn)融合的未來 2001-10-22

分類信息: 技術(shù)_CTI平臺_文摘