首頁>>>技術(shù)>>>語音應(yīng)用>>>語音合成(TTS)  語音合成產(chǎn)品

 

解決語音門戶

2002/06/17

。。語音合成技術(shù)在網(wǎng)站語音門戶中的應(yīng)用可以提供諸如有聲電子郵件、語音聊天室、電話購物等服務(wù)。在不遠(yuǎn)的將來,語音門戶系統(tǒng)必將成為一個(gè)全能的“翻譯器”,將無窮的互聯(lián)網(wǎng)資源通過電話提供給用戶,為用戶提供全天候、全方位的服務(wù)。

語音門戶的核心技術(shù)

。。語音門戶要求系統(tǒng)可以進(jìn)行動(dòng)態(tài)、海量信息的數(shù)據(jù)查詢以及互聯(lián)網(wǎng)絡(luò)上信息的訪問,需使用的核心技術(shù)有:

。。語音合成技術(shù)(TTS):用以將文本信息轉(zhuǎn)換為語音信息提供給用戶

。。語音識(shí)別技術(shù)(ASR):用以取代繁瑣的按鍵輸入,使輸入更為便捷和人性化。

。。VXML技術(shù):用以IVR平臺(tái)與互聯(lián)網(wǎng)絡(luò)交互信息。(IVR:Interactive Voice Response,交互式語音應(yīng)答系統(tǒng)。)

。。對(duì)于信息服務(wù)來說,TTS和ASR的融合意味著兩重含義。其一,由于聲音更加接近人類的語言,改進(jìn)后的TTS增強(qiáng)了用戶對(duì)該技術(shù)的認(rèn)可程度;其二,更加自然的TTS和高質(zhì)量的語音識(shí)別器能讓計(jì)算機(jī)和人們進(jìn)行真正意義上的對(duì)話,這樣,計(jì)算機(jī)就能理解對(duì)方(人)說的是什么,并且在自己模糊不清的時(shí)候,向?qū)Ψ剑ㄈ耍┰儐,在交流中明晰客戶的需求?

核心技術(shù)描述

。。語音合成技術(shù)的本質(zhì)是將文本信息轉(zhuǎn)化為語音信息,是實(shí)現(xiàn)人機(jī)語音通信,建立一個(gè)有聽和講能力的口語系統(tǒng)所必需的關(guān)鍵技術(shù)之一。

。。語音門戶系統(tǒng)是以先進(jìn)的CTI技術(shù)以及開放的Voice XML工業(yè)標(biāo)準(zhǔn)為基礎(chǔ),架構(gòu)在ChinaNet網(wǎng)上的ICP;通過電話暢游互聯(lián)網(wǎng),輕松“聽”網(wǎng)上的信息,“說”E-mail,“點(diǎn)擊”網(wǎng)上的鏈接。這是對(duì)傳統(tǒng)電話信息服務(wù)的一個(gè)重大改革;因?yàn)榻尤敕⻊?wù)和內(nèi)容服務(wù)的分離,電話信息服務(wù)行業(yè)變成了一個(gè)開放式的行業(yè),所有傳統(tǒng)的ICP都可以按照Voice XML的標(biāo)準(zhǔn)提供內(nèi)容服務(wù),而豐富多樣的內(nèi)容又必然會(huì)刺激用戶的增加以及服務(wù)需求的增長(zhǎng)。由于引入了VXML相關(guān)技術(shù),可將平臺(tái)的復(fù)雜內(nèi)容屏蔽,無須熟悉底層平臺(tái)即可進(jìn)行高層應(yīng)用開發(fā);大大地減輕了開發(fā)的難度,縮短開發(fā)周期,降低人力成本。

語音門戶的建設(shè)

。。在不影響電信運(yùn)營商現(xiàn)有平臺(tái)的結(jié)構(gòu)和業(yè)務(wù)功能的前提下,主要需完成三個(gè)功能模塊的系統(tǒng)建設(shè)。在動(dòng)態(tài)信息和海量信息的查詢業(yè)務(wù)上,首先必須完成的是對(duì)原有的數(shù)字錄音回放方式向TTS平臺(tái)的升級(jí);進(jìn)而在進(jìn)行了TTS改造的平臺(tái)上構(gòu)建互聯(lián)網(wǎng)上的公共信息查詢服務(wù)和個(gè)性化信息查詢服務(wù);考慮到實(shí)際運(yùn)用情況,在具體業(yè)務(wù)方面建設(shè)UMS系統(tǒng),可以基于此業(yè)務(wù)提供個(gè)人定制信息的服務(wù),滿足人們對(duì)于及時(shí)性、個(gè)性化越來越高的要求。

。。TTS系統(tǒng)、VXML系統(tǒng)、UMS系統(tǒng)與已有IVR(電話語音自動(dòng)應(yīng)答系統(tǒng))平臺(tái)、Internet、PSTN結(jié)合如圖所示。

TTS系統(tǒng)的建設(shè)

。。傳統(tǒng)的數(shù)字錄音回放方式需要人工進(jìn)行錄音,新興的計(jì)算機(jī)技術(shù)“語音合成”,可以運(yùn)用有限的系統(tǒng)資源將無限的文本信息合成為可聽的語音信息,從而可以改進(jìn)傳統(tǒng)的錄音回放方式。在不改變現(xiàn)有平臺(tái)的基礎(chǔ)上建立的TTS系統(tǒng)可以在信息服務(wù)的信息源提供上帶來如下改進(jìn):

。。就工作量而言,錄音需要大量的人力,在信息量以級(jí)數(shù)增長(zhǎng)的今天,錄音往往無法滿足信息的供給,而語音合成將絕大多數(shù)工作由機(jī)器代替,人們只需提供現(xiàn)成的文本信息即可輸出聲音信息。

。。對(duì)于動(dòng)態(tài)的信息,尤其是對(duì)實(shí)時(shí)性要求很高的信息如:股票行情等,如果讓錄音員錄音則至少在半小時(shí)后才能對(duì)外提供,而語音合成可以實(shí)現(xiàn)實(shí)時(shí)的轉(zhuǎn)換,每分鐘可刷新一次。

。。由于信息的高速增長(zhǎng),錄音數(shù)據(jù)存放和查詢也存在問題。將信息以文本形式存儲(chǔ)在計(jì)算機(jī)中可節(jié)約大量系統(tǒng)資源再結(jié)合計(jì)算機(jī)技術(shù)對(duì)數(shù)據(jù)庫中的信息進(jìn)行搜索和整理將輸出的結(jié)果用語音合成轉(zhuǎn)換成聲音,這樣就可以解決信息服務(wù)中海量信息的存儲(chǔ)和查詢的問題。

。。錄音的信息維護(hù)、修改的工作量比較大。而文本信息的維護(hù)和修改相對(duì)要容易得多,通過語音合成技術(shù)只需對(duì)文本信息進(jìn)行修改就可以完成信息內(nèi)容的更改和維護(hù)工作。

VXML系統(tǒng)的建設(shè)

。。VXML系統(tǒng)的目的就是為了使電話和語音可以應(yīng)用在互聯(lián)網(wǎng)絡(luò)之上,除為消費(fèi)者服務(wù)外,VXML還支持一些商務(wù)應(yīng)用,如話務(wù)中心、銀行交易和電子商務(wù)。通過VXML技術(shù)可以使語音門戶系統(tǒng)訪問到Internet Web上的各種信息,并實(shí)現(xiàn)信息的交互。再結(jié)合語音合成技術(shù),將文本信息合成為語音信號(hào),用戶就可以通過IVR平臺(tái)來訪問Web頁面上的信息了。

。。結(jié)合VXML技術(shù),語音系統(tǒng)可以提供更多的個(gè)人信息服務(wù):商品交易、金融交易、求職招聘等。相對(duì)傳統(tǒng)的同類服務(wù),此類服務(wù)與Internet信息共享,更為貼近用戶和可以面對(duì)更廣泛的人群。

UMS系統(tǒng)建設(shè)

。。統(tǒng)一消息系統(tǒng)(UMS)是一個(gè)將各種傳播手段整合的系統(tǒng),結(jié)合了各種網(wǎng)絡(luò),用戶可以使用電話、手機(jī)、傳真、呼機(jī)、數(shù)字移動(dòng)設(shè)備和個(gè)人電腦等途徑與系統(tǒng)交互信息。在語音門戶平臺(tái)中加入U(xiǎn)MS系統(tǒng),將有助于平臺(tái)提供更多樣化的服務(wù),與用戶結(jié)合更為緊密。

。。UMS 是語音與數(shù)據(jù)融合的產(chǎn)物,一系列的服務(wù)提供商可以通過提供UMS服務(wù)來擴(kuò)展自己的業(yè)務(wù)范圍。UMS服務(wù)可以通過統(tǒng)一平臺(tái)來提供給用戶, 也可以由服務(wù)提供商將各種信息儲(chǔ)存設(shè)備集成起來,通過不同途徑提供給用戶。

。。有聲電子郵件(Voice-Mail)系統(tǒng)就是UMS系統(tǒng)的一個(gè)具體應(yīng)用,它通過電話、手機(jī)等通信工具可以向用戶提供Internet上的E-mail服務(wù)。因而人們可以不受設(shè)備的限制,隨時(shí)隨地的收發(fā)電子郵件,即使身處異地,仍然不會(huì)錯(cuò)過E-mail中攜帶的重要商機(jī)。

網(wǎng)絡(luò)世界


相關(guān)鏈接:
比爾-蓋茨能講中文? 微軟語音技術(shù)大"探秘" 2002-05-09
語音合成技術(shù): 啟動(dòng)“第三種引擎” 2002-04-02
構(gòu)建更加人性化的交談式語音應(yīng)用 2002-03-11
回歸到“通天塔”之前 2002-03-11
語音合成——燦爛的前景 巨大的商機(jī) 2002-01-30

分類信息:  語音合成TTS_與_語音識(shí)別ASR  語音合成TTS_與_voicexml  語音識(shí)別ASR_與_voicexml