首頁>>廠商>>語音識別與合成>>科大訊飛

科大訊飛語音門戶系統(tǒng)解決方案

2002/04/01

一、語音門戶系統(tǒng)概述

  互聯(lián)網(wǎng)是包羅萬象的,這不僅僅是表現(xiàn)在內(nèi)容上,也應(yīng)該表現(xiàn)在其形式多樣、語種繁多。語音合成技術(shù)在網(wǎng)站語音門戶中的應(yīng)用可以提供諸如有聲電子郵件、、語音聊天室、電話購物等服務(wù)。在不遠的將來,語音門戶系統(tǒng)必將成為一個全能的“翻譯器”,將無窮的互聯(lián)網(wǎng)資源通過電話提供給用戶,為用戶提供全天候、全方位的服務(wù)。如果說因特網(wǎng)的確充滿了無數(shù)商機的話,那么,語音接入服務(wù)的前景聽起來的確令人垂涎,因為對于任何用戶來講,撥個電話僅是舉手之勞的事。

  中國第一代語音門戶--TOM公司的TOM Voice即是一個概念性的樣例,它結(jié)合了語音識別和語音合成,用戶只需要撥打熱線電話,就會得到股票、航班、酒店、天氣等信息,還可以通過電話訂餐和叫出租車等等。而注冊用戶則可以根據(jù)預(yù)先設(shè)定的條件通過電話收聽電子郵件、搜索聯(lián)系人、確定日程安排等等。

  如果語音門戶能夠很快的成熟應(yīng)用起來,必然會在很大程度上給人們的工作生活帶來便利,同時也會對眾多的ISP、ICP帶來新的發(fā)展和機遇。

1、市場機遇分析

1.1 互聯(lián)網(wǎng)信息的爆炸性增長

  近年來,全球范圍內(nèi)Internet出現(xiàn)了爆炸性的增長,它越來越強的滲透到人類傳統(tǒng)生產(chǎn)生活的各個方面,在極大的提高全社會的運作效率的同時,自身也在使用成本、可用性、易操作性等方面不斷進步。據(jù)中國互聯(lián)網(wǎng)中心年初的調(diào)查報告,目前有約2000萬人使用互聯(lián)網(wǎng),而其中80%以上的用戶使用互聯(lián)網(wǎng)主要的目的就是獲取信息。隨著互聯(lián)網(wǎng)信息的爆炸性增長人們對于信息的需求也有了越來越高的要求:

  在信息的獲取手段上,電話、傳真、計算機、PDA等各種多媒體信息終端競相發(fā)揮著自己的優(yōu)勢,但同時人們更希望能夠不受任何時間、空間以及設(shè)備的限制更自由的獲取信息;隨著工作與生活節(jié)奏的加快,使信息的時效性尤為凸顯,股市行情、價格動態(tài)、促銷信息等等動態(tài)信息為信息供求雙方帶來巨大的經(jīng)濟效益,而來自于計算機網(wǎng)絡(luò)和數(shù)據(jù)庫中的信息,利用先進的計算機技術(shù)進行搜索和整理之后為人們提供的信息在市場全球化趨勢下顯得更為重要;互聯(lián)網(wǎng)為用戶提供了豐富多彩的個性化服務(wù)、交互式服務(wù),電子商務(wù)的發(fā)展使企業(yè)與企業(yè)之間、企業(yè)與用戶之間的溝通更為密切、更為深入,越來越多的人需要定制服務(wù)的類型和內(nèi)容,來滿足不同人的要求。

1.2 互聯(lián)網(wǎng)應(yīng)用的發(fā)展趨勢

  正像上面所描述的,在當(dāng)今飛速發(fā)展的信息社會,“移動”與“互聯(lián)”已經(jīng)成為不可阻擋的潮流,越來越多的人們要通過網(wǎng)絡(luò)來優(yōu)化自己的生活,隨時隨地獲取信息并進行基于電子商務(wù)平臺的交易。Internet的蓬勃發(fā)展和迅速普及已逐漸使很多人把從網(wǎng)上獲取信息和通過網(wǎng)絡(luò)實現(xiàn)電子商務(wù),視作日常生活中的一部分。

  然而,人們通過計算機上網(wǎng)的同時,也越來感到這種方式受到時間、地點等諸多因素限制,很難做到信息的及時獲取,人們希望通過隨處可見的電話得到自己所需要的信息。如果采用雇傭話務(wù)員提供信息服務(wù)的方式,不僅成本昂貴,而且由于工作繁重容易導(dǎo)致接聽人員服務(wù)水平下降。而通過傳統(tǒng)的自動聲訊服務(wù)方式,雖然也可以獲取一些信息,但是由于電話機按鍵的限制,許多具體的應(yīng)用不是難以實現(xiàn)。

  由于以上原因,人們越來越希望可以通過電話設(shè)備實現(xiàn)快速便捷的交流,即通過電話接入網(wǎng)絡(luò)并操縱遠程的信息源,以得到信息或進行電子化交易。交談式語言是人類最自然的交流方式,通過語音瀏覽和接入互聯(lián)網(wǎng),也一直是人類的追求目標(biāo)。采用語音接入不僅方便快捷,而且,這種語音技術(shù)將令使用者無論在何時、身處何地,都可以利用手中的電話裝置,就能輕松接入網(wǎng)絡(luò),得到所需信息或購買商品及服務(wù)。

  另外不容忽視的一點是中國的互聯(lián)網(wǎng)發(fā)展現(xiàn)狀,由于地區(qū)的差異和經(jīng)濟水平的限制,我國上網(wǎng)的企業(yè)和個人半數(shù)以上分布于沿海發(fā)達城市,對于大多數(shù)普通百姓而言,計算機應(yīng)用水平仍然很低,而主動使用計算機上網(wǎng)獲取信息的意識更有待加強。因此讓互聯(lián)網(wǎng)絡(luò)帶來的便利服務(wù)于尋常百姓家就存在著各種各樣的障礙。而公用電話網(wǎng)(PSTN)經(jīng)過這些年的發(fā)展,電話終端的普及率已經(jīng)達到了相當(dāng)?shù)乃,目前我國的電話網(wǎng)絡(luò)用戶超過二億以上。相比之下使用電話獲取信息更符合我國目前的信息發(fā)展現(xiàn)狀。

  語音門戶(Voice Portal)的出現(xiàn),正滿足了人們這些需要,為互聯(lián)網(wǎng)詮釋出全新的涵義。

1.3 發(fā)展趨勢與現(xiàn)存矛盾創(chuàng)造的市場機遇

  信息的爆炸性增長、互聯(lián)網(wǎng)服務(wù)的不斷提升所帶來的強調(diào)“快速”、“移動”、“互聯(lián)”的發(fā)展趨勢,以及計算機網(wǎng)絡(luò)設(shè)施和應(yīng)用水平的限制所造成的應(yīng)用矛盾。語音門戶運用電話服務(wù)方式所具有的廣泛的普及性和使用的方便性等特點,為我國的信息服務(wù)業(yè)的發(fā)展提供了一個難得的市場機遇。

  因而語音門戶工程已經(jīng)被國內(nèi)的電信運營商列入增值服務(wù)的計劃之中,如移動的夢網(wǎng)工程。AT&T Wireless公司也在日前宣布,提供語音門戶站點,讓客戶利用語音命令沖浪無線Web,提供這類服務(wù)的運營商正日益增多。

2、方案中的核心技術(shù)

  語音門戶要求系統(tǒng)可以進行動態(tài)、海量信息的數(shù)據(jù)查詢以及互聯(lián)網(wǎng)絡(luò)上信息的訪問,需使用的核心技術(shù)有:

  1)語音合成技術(shù)(TTS):用以將文本信息轉(zhuǎn)換為語音信息提供給用戶

  2)語音識別技術(shù)(ASR):用以取代繁瑣的按鍵輸入,使輸入更為便捷和人性化。

  3)VXML技術(shù):用以IVR平臺與互聯(lián)網(wǎng)絡(luò)交互信息。(IVR:Interactive Voice Response,交互式語音應(yīng)答系統(tǒng)。)

  對于信息服務(wù)來說,TTS和ASR的融合意味著兩重含義。其一,由于聲音更加接近人類的語言,改進后的TTS增強了用戶對該技術(shù)的認可程度;其二,更加自然的TTS和高質(zhì)量的語音識別器能讓計算機和人們進行真正意義上的對話,這樣,計算機就能理解對方(人)說的什么,并且在自己模糊不清的時候,向?qū)Ψ剑ㄈ耍┰儐,在交流中明晰客戶的需求?/p>

2.1 核心技術(shù)描述

  2.1.1語音合成技術(shù)

  語音合成技術(shù)的本質(zhì)是將文本信息轉(zhuǎn)化為語音信息,是實現(xiàn)人機語音通信,建立一個有聽和講能力的口語系統(tǒng)所必需的關(guān)鍵技術(shù)之一。

  在信息爆炸式增長的現(xiàn)代社會,信息有兩個很顯著的特征:信息量大、信息變化快。但是對于電話信息服務(wù)系統(tǒng)來說,它與客戶之間的“界面” 主要是語音,如何用語音來傳遞這些海量和動態(tài)的信息,這就是必須用到語音合成技術(shù)。

  傳統(tǒng)的預(yù)錄音方式,需要人工將這些信息以錄音的方式預(yù)先存放好,其漫長的制作周期和繁重的工作量,顯然已經(jīng)越來越顯得力不從心。而語音合成技術(shù)(TEXT TO SPEECH),能夠?qū)⒏鞣N文字信息轉(zhuǎn)化成連續(xù)的語音,是電話信息服務(wù)系統(tǒng)成為提供高質(zhì)量、智能化的語音服務(wù)的關(guān)鍵技術(shù),可以預(yù)見,語音合成技術(shù)在電話信息服務(wù)行業(yè)中將會有非常廣闊的應(yīng)用前景。

  2.1.2語音識別技術(shù)

  語言是人類進行信息交流的最主要、最常用、最直接的方式。語音識別技術(shù)是實現(xiàn)人-機對話的一項重大突破,在國外近年來發(fā)展十分迅速,其應(yīng)用也逐步得到推廣。

  傳統(tǒng)電話服務(wù)從事服務(wù)性行業(yè)的公司通過大量客戶服務(wù)員為客戶翻查和處理所需資料,答復(fù)客戶所需的資訊,但是長期聘用和培訓(xùn)大量這些客戶服務(wù)員,成本大幅上升,并且容易造成人為的失誤,嚴重地影響到企業(yè)的服務(wù)質(zhì)量和形象。近幾年逐漸普及的電話自動應(yīng)答(IVR)處理了不少簡單而又重復(fù)的咨詢工作,節(jié)省生了不少人力,但這種按鍵式的語音自動應(yīng)答系統(tǒng)卻讓客戶花費很多時間選擇按所需目錄指引來完成的簡單查詢,令用戶倍感煩惱!罢Z音識別”無疑可解決該方面的問題。

  語音識別系統(tǒng)的開發(fā)成功,充分發(fā)揮計算機技術(shù)和網(wǎng)絡(luò)技術(shù)的優(yōu)勢,采用先進的人-機語言對話方式,擺脫電話按鍵的束縛,人們只要像平常一樣對著電話簡單地說出所需服務(wù)項目即可輕松獲取自動系統(tǒng)提供的所需信息。

  2.1.3VXML技術(shù)

  AT&T,朗訊,摩托羅拉與其他17家公司于1999年聯(lián)合推出語音擴展語言論壇(VXML),用以擬定一項標(biāo)準,此標(biāo)準能夠?qū)⒄Z音、電話用于因特網(wǎng)。除為消費者服務(wù)外,VXML還支持一些商務(wù)應(yīng)用,如話務(wù)中心、銀行交易和電子商務(wù)。

  其他方面的應(yīng)用包括:因特網(wǎng)用戶核對電子郵件,獲得天氣預(yù)報、股市行情和其他來自電話線的在線數(shù)據(jù)。用戶也可編寫自己的VXML應(yīng)用。AT&T,朗訊,摩托羅拉一直都在致力于VXML的不同版本,但基本途徑相同。最終目標(biāo)是產(chǎn)生統(tǒng)一的標(biāo)準。

  語音門戶系統(tǒng)是以先進的CTI技術(shù)以及開放的Voice XML工業(yè)標(biāo)準為基礎(chǔ),架構(gòu)在CHINANET網(wǎng)上的ICP;通過電話暢游互聯(lián)網(wǎng),輕松“聽”網(wǎng)上的信息,“說”E-mail,“點擊”網(wǎng)上的鏈接。這是對傳統(tǒng)電話信息服務(wù)的一個重大改革;因為接入服務(wù)和內(nèi)容服務(wù)的分離,電話信息服務(wù)行業(yè)變成了一個開放式的行業(yè),所有傳統(tǒng)的ICP都可以按照Voice XML的標(biāo)準為提供內(nèi)容服務(wù),而豐富多樣的內(nèi)容又必然會刺激用戶的增加以及服務(wù)需求的增長。由于引入了VXML相關(guān)技術(shù),可將平臺的復(fù)雜內(nèi)容屏蔽,無須熟悉底層平臺即可進行高層應(yīng)用開發(fā);大大的減輕的開發(fā)的難度,縮短開發(fā)周期,降低人力成本。

2.2 訊飛在核心技術(shù)上的優(yōu)勢

  訊飛公司是國內(nèi)唯一以語音為產(chǎn)業(yè)化方向的863成果產(chǎn)業(yè)化基地。訊飛漢語語音合成技術(shù),是在國家863項目、九五攻關(guān)項目、國家自然科學(xué)基金項目、以及中國科學(xué)院八五重大項目的支持下,歷經(jīng)十余年拼搏成為國內(nèi)外同類技術(shù)中脫穎而出的"領(lǐng)頭羊"。

  訊飛InterPhonic C&E Rev 1.0語音平臺是訊飛公司基于多語種合成技術(shù)推出的智能化合成系統(tǒng),能夠解決在中文和英文混合出現(xiàn)在文本中的情況。通過這個系統(tǒng),不論在合成信息中是包含中文、英文或者是中英文混讀的情況,都能保證合成語音連續(xù)、可懂、自然,相當(dāng)于普通人說話標(biāo)準。而且針對大吞吐量的、高性能的、穩(wěn)定的高端應(yīng)用而開發(fā),提供基于TCP/IP網(wǎng)絡(luò)的集群式語音合成服務(wù),語音合成服務(wù)采用動態(tài)負載均衡機制對任務(wù)進行動態(tài)調(diào)度,很好地解決了現(xiàn)代信息社會海量數(shù)據(jù)和動態(tài)查詢的需求,滿足電信及大型企業(yè)級的CTI應(yīng)用的要求。

  隨著訊飛公司的成長,訊飛已經(jīng)在CTI平臺領(lǐng)域、呼叫中心領(lǐng)域、系統(tǒng)集成行業(yè)、語音板卡領(lǐng)域擁有眾多的開發(fā)伙伴。

  在語音識別方面,訊飛是中文語音識別標(biāo)準化工作組成員單位,歷屆863語音識別唯一指定評測單位以及國家863語音識別數(shù)據(jù)庫提供單位。而在業(yè)界語音技術(shù)規(guī)范制定過程中,訊飛作為唯一的企業(yè)代表,與科技部、技術(shù)監(jiān)督局、信標(biāo)委共同制定中國中文語音技術(shù)標(biāo)準接口。同時訊飛也是國家S863項目中文信息發(fā)展規(guī)劃的起草單位和國內(nèi)權(quán)威的語音標(biāo)準制定組織中國中文語音創(chuàng)業(yè)聯(lián)盟的發(fā)起者與組織者。

  目前訊飛還是美國Nuance(基于電話信道的語音識別產(chǎn)品銷售額、市場占有率均為全球第一)公司語音識別產(chǎn)品在中國的獨家代理。

  在VXML方面,訊飛成功的開發(fā)出Voice VXML Server,可在P III 500上同時支持120并發(fā)訪問。另一方面,訊飛也是VXML的權(quán)威組織“VXML論壇”的成員之一。

3、語音門戶系統(tǒng)的建設(shè)

  考慮到在實際應(yīng)用中,由ISP、ICP或者電信運營商獨力建設(shè)語音門戶系統(tǒng)不能充分利用現(xiàn)有資源、發(fā)揮各自的優(yōu)勢,所以建議語音門戶系統(tǒng)的建設(shè)構(gòu)架于電信運營商現(xiàn)有的電話接入平臺之上,而服務(wù)內(nèi)容則尋求與主要ISP、ICP進行合作提供。

  在不影響電信運營商現(xiàn)有平臺的結(jié)構(gòu)和業(yè)務(wù)功能的前提下,主要需完成三個功能模塊的系統(tǒng)建設(shè)。在動態(tài)信息和海量信息的查詢業(yè)務(wù)上,首先必須完成的是對原有的數(shù)字錄音回放方式向TTS平臺的升級;進而在進行了TTS改造的平臺上構(gòu)建互聯(lián)網(wǎng)上的公共信息查詢服務(wù)和個性化信息查詢服務(wù);考慮到實際運用情況,在具體業(yè)務(wù)方面建設(shè)UMS系統(tǒng),可以基于此業(yè)務(wù)提供個人定制信息的服務(wù),滿足人們對于及時性、個性化越來越高的要求。

3.1 TTS系統(tǒng)的建設(shè)

  傳統(tǒng)的數(shù)字錄音回放方式需要人工進行錄音,新興的計算機技術(shù)“語音合成”,可以運用有限的系統(tǒng)資源將無限的文本信息合成為可聽的語音信息,從而可以改進傳統(tǒng)的錄音回放方式。在不改變現(xiàn)有平臺的基礎(chǔ)上建立的TTS系統(tǒng)可以在信息服務(wù)的信息源提供上帶來如下改進:

  1.就工作量而言,錄音需要大量的人力,在信息量以級數(shù)增長的今天,錄音往往無法滿足信息的供給,而語音合成將絕大多數(shù)工作由機器代替,人們只需提供現(xiàn)成的文本信息即可輸出聲音信息。

  2.對于動態(tài)的信息,尤其是對實時性要求很高的信息如:股票行情等,如果讓錄音員錄音則至少在半小時后才能對外提供,而語音合成可以實現(xiàn)實時的轉(zhuǎn)換,每分鐘可刷新一次。

  3.由于信息的高速增長,錄音數(shù)據(jù)存放和查詢也存在問題。將信息以文本形式存儲在計算機中可節(jié)約大量系統(tǒng)資源再結(jié)合計算機技術(shù)對數(shù)據(jù)庫中的信息進行搜索和整理將輸出的結(jié)果用語音合成轉(zhuǎn)換成聲音,這樣就可以解決信息服務(wù)中海量信息的存儲和查詢的問題。

  4.錄音的信息維護、修改的工作量比較大。而文本信息的維護和修改相對要容易的多,通過語音合成技術(shù)只需對文本信息進行修改就可以完成信息內(nèi)容的更改和維護工作。

3.2 VXML系統(tǒng)的建設(shè)

  互聯(lián)網(wǎng)絡(luò)是目前信息的一個最重要的載體,在互聯(lián)網(wǎng)迅速普及并不斷發(fā)展的今天,大量的公共信息可以在網(wǎng)絡(luò)上查詢得到。越來越多的信息服務(wù)商和個人在網(wǎng)絡(luò)上提供信息,同時越來越多的人群正在享受網(wǎng)絡(luò)所帶來的便利。

  電信運營商自身擁有強大的信息制作能力,但充分利用好互聯(lián)網(wǎng)絡(luò)豐富的資源,以適應(yīng)信息時代用戶的需求,這就需要整合多方的資源,是一項重要的工作。

  VXML系統(tǒng)的目的就是為了使電話和語音可以應(yīng)用在互聯(lián)網(wǎng)絡(luò)之上,除為消費者服務(wù)外,VXML還支持一些商務(wù)應(yīng)用,如話務(wù)中心、銀行交易和電子商務(wù)。通過VXML技術(shù)可以使語音門戶系統(tǒng)訪問到Internet Web上的各種信息,并實現(xiàn)信息的交互。再結(jié)合語音合成技術(shù),將文本信息合成為語音信號,用戶就可以通過IVR平臺來訪問Web頁面上的信息了。

  結(jié)合VXML技術(shù),語音么努系統(tǒng)可以提供更多的個人信息服務(wù):包括商品交易、金融交易、求職招聘等。相對傳統(tǒng)的同類服務(wù),此類服務(wù)與Internet信息共享,更為貼近用戶和可以面對更廣泛的人群。

3.3 UMS系統(tǒng)建設(shè)

  統(tǒng)一消息系統(tǒng)(UMS)是一個將各種傳播手段整合的系統(tǒng),結(jié)合了各種網(wǎng)絡(luò),用戶可以使用電話、手機、傳真、呼機、數(shù)字移動設(shè)備和個人電腦等途徑與系統(tǒng)交互信息。在語音門戶平臺中加入UMS系統(tǒng),將有助于平臺提供更多樣化的服務(wù),與用戶結(jié)合更為緊密。

  UMS 是語音與數(shù)據(jù)融合的產(chǎn)物,一系列的服務(wù)提供商可以通過提供UMS服務(wù)來擴展自己的業(yè)務(wù)范圍。UMS服務(wù)可以通過統(tǒng)一平臺來提供給用戶, 也可以由服務(wù)提供商將各種信息儲存設(shè)備集成起來,通過不同途徑提供給用戶。

  有聲電子郵件(Voice-Mail)系統(tǒng)就是UMS系統(tǒng)的一個具體應(yīng)用,它通過電話、手機等通信工具可以向用戶提供Internet上的E-mail服務(wù)。因而人們可以不受設(shè)備的限制,隨時隨地的收發(fā)電子郵件,即使身處異地,仍然不會錯過E-mail中攜帶動重要商機。

4、語音門戶系統(tǒng)業(yè)務(wù)介紹

  通過以上三個系統(tǒng)的建設(shè),電信運營商與ISP、ICP將可以將各自有優(yōu)勢的資源整合起來,為廣大用戶提供更多更好的服務(wù)。使用戶可以了解到網(wǎng)上的各種信息,如金融股票信息、體育快訊、天氣預(yù)報、交通情況查詢、防偽查詢、新聞點播、有聲郵件等等。整個系統(tǒng)更易于開展新種類的業(yè)務(wù),更易于維護,資源占用更少。

  從業(yè)務(wù)開發(fā)模式劃分可以將其分成兩個類別,海量動態(tài)信息查詢和互聯(lián)網(wǎng)信息查詢。海量動態(tài)信息查詢業(yè)務(wù)主要是針對互聯(lián)網(wǎng)上信息量大、更新快的特點,語音門戶系統(tǒng)將從互聯(lián)網(wǎng)上查詢到的信息源傳送至TTS系統(tǒng),然后通過TTS Server提供的TTS服務(wù)返回語音數(shù)據(jù)文件播放給用戶;互聯(lián)網(wǎng)信息查詢業(yè)務(wù)將互聯(lián)網(wǎng)絡(luò)與電話公眾網(wǎng)結(jié)合,從而使用戶可以通過普及便利的電話、手機、傳真等方式獲取互聯(lián)網(wǎng)上豐富的信息。

4.1 海量動態(tài)信息查詢

  海量動態(tài)信息的查詢主要有:證券金融信息、法律法規(guī)、政府公告、交通、運輸、路況信息、旅游信息、考試信息等的查詢。這類信息的特點有兩個:

  訊飛與一些地市160/168聲訊臺合作推出的為個人和機構(gòu)投資者提供有關(guān)金融信息聲訊服務(wù)的系統(tǒng)就是一個典型的應(yīng)用。這項業(yè)務(wù)包括具有鮮明特色的預(yù)警系統(tǒng)、實時投資分析、實時股票行情、財經(jīng)新聞、技術(shù)分析報告和市場評論等。投資者簡單方便地通過電話(固定電話或移動電話)、傳呼、短消息系統(tǒng)、電子郵件、傳真和電腦來接收這些重要信息。系統(tǒng)也可隨時跟蹤他的投資組合為其提供個性化的信息服務(wù)。這些高度個性化的信息服務(wù)將即時通知用戶其投資證券價格的變化、重要新聞和其它相關(guān)信息,提高用戶的投資回報率。

4.2 個性化信息服務(wù)

  個性化信息服務(wù)即指為個人提供的滿足其具體需求的信息服務(wù),有兩個方面的要求:一是信息的及時性;二是獲得信息手段的便利性。

  具體業(yè)務(wù)包括:統(tǒng)一消息服務(wù)、個性化新聞/信息、個人信息助理、統(tǒng)一通信服務(wù)等。

  用戶只需通過電話就可以享受到互聯(lián)網(wǎng)上提供的各種個性化的信息服務(wù),可以定制網(wǎng)上新聞、設(shè)置個人行程安排。而由于系統(tǒng)中包含UMS系統(tǒng),用戶在獲取信息時可以采取電話、E-mail、傳真等各種手段。

  訊飛與上海知名的ISP聯(lián)合推出的Voice-Mail系統(tǒng),就是基于電話、手機、傳真等通信工具,結(jié)合互聯(lián)網(wǎng)絡(luò)的電子郵件,為用戶收發(fā)電子郵件提供形式多樣的便利手段。

4.3 電話語音廣告

  電話語音廣告具體有提示音廣告、等待時間廣告、背景音樂廣告等等。電話語音廣告與傳統(tǒng)廣告相比具有很大優(yōu)勢:即時查詢、內(nèi)容豐富、特號專用、即時播報、廣告費低、撥打者免費收聽等。該類廣告業(yè)務(wù)開通后,將受到企事業(yè)單位的普遍歡迎,也會為電信運營商、ISP、ICP帶來直接的經(jīng)濟效益。

二、語音門戶系統(tǒng)建設(shè)方案

1、建設(shè)方案總體描述

  TTS系統(tǒng)、VXML系統(tǒng)、UMS系統(tǒng)與已有IVR(電話語音自動應(yīng)答系統(tǒng))平臺、Internet、PSTN結(jié)合的示示意圖如下:

1.1 TTS系統(tǒng)與現(xiàn)有IVR平臺的接入

  IVR是指自動語音應(yīng)答節(jié)點,TTS Server是科大訊飛開發(fā)的語音合成服務(wù)器,為了充分利用資源,可以在系統(tǒng)內(nèi)建設(shè)本地數(shù)據(jù)庫,存放一定量的信息。

圖:IVR/TTS基本調(diào)用流程示意圖

  如圖所示,一個包含TTS服務(wù)的電話訪問流程大致可分為七步:

  1.用戶電話撥入,系統(tǒng)IVR響應(yīng),獲得用戶按鍵等信息。

  2.IVR根據(jù)用戶輸入,向VXML系統(tǒng)(或本地數(shù)據(jù)庫)申請數(shù)據(jù)。

  3.信息源返回文本數(shù)據(jù)給IVR。

  4.IVR通過其TCP通訊接口將需要合成的文本信息發(fā)送給TTS Server。

  5.TTS Server將用戶文本合成為語音文件放置在一個共享目錄中。

  6.TTS Server通過其TCP通訊接口通知IVR合成完畢,并返回文件名。

  7.IVR播放相應(yīng)的語音文件給電話用戶。

1.2 VXML系統(tǒng)與現(xiàn)有IVR平臺的接入

  在這里VXML是指Voice XML的服務(wù)器,它負責(zé)接收IVR轉(zhuǎn)發(fā)過來的用戶按鍵請求,并返回信息數(shù)據(jù)和操作指令。

圖:IVR/Voice XML基本交互流程示意圖

  設(shè)計思路

  1.增加VoiceXML服務(wù)。

  2.在不改變原有平臺的情況下,能夠利用平臺的標(biāo)準通信接口調(diào)用VoiceXML服務(wù)。

  3.接口應(yīng)盡量簡便,方便調(diào)用。

  4.接口應(yīng)能提交用戶按鍵數(shù)據(jù)和其他信息等。

  5.接口應(yīng)能返回相應(yīng)的互聯(lián)網(wǎng)信息和操作指令等。

1.3 UMS系統(tǒng)與現(xiàn)有IVR平臺的接入

  下圖為UMS系統(tǒng)的示意圖。其中IVR平臺與UMS 系統(tǒng)相連接。而UMS系統(tǒng)通過相應(yīng)的服務(wù)模塊與不同的網(wǎng)絡(luò)進行信息共享,同時也可以和外部的Web Server進行信息交互。

  UMS系統(tǒng)通過一個唯一的信箱綜合管理用戶所有訊息,方便存檔和整理,用戶也無需去記住眾多的帳號、密碼。而通過傳真、短信息、尋呼、語音等資源的整合,用戶可以很方便的通過電腦、電話來收取自己的郵件、信息、語音留言以及傳真等,不需要下載任何軟件,也不需要購買傳真機和留言電話。

  用戶可以通過IVR系統(tǒng)與UMS系統(tǒng)進行交互,查詢是否有最新的定制信息、郵件等到達,同時也通過平臺來回復(fù)郵件、設(shè)定一些簡單參數(shù)。通過用戶在系統(tǒng)的設(shè)置,在用戶有新郵件或是定制的重要信息到達的時候,系統(tǒng)可以按照用戶設(shè)置,主動撥打用戶電話、手機進行通知。

1.4 信息服務(wù)流程

  互聯(lián)網(wǎng)信息服務(wù)

  互聯(lián)網(wǎng)信息訪問需要通過VXML系統(tǒng)來實現(xiàn)。當(dāng)語音門戶平臺通過ASR系統(tǒng)接收到用戶訪問互聯(lián)網(wǎng)絡(luò)信息源的要求時,平臺向VXML系統(tǒng)提交訪問請求,VXML系統(tǒng)使用VXML規(guī)范訪問Internet上的信息源從而獲得需要的信息;VXML系統(tǒng)再根據(jù)IVR平臺的請求返回結(jié)果;IVR平臺獲得文本后再通過TTS系統(tǒng)合成為語音,播放給用戶。

  UMS服務(wù)

  結(jié)合UMS系統(tǒng),語音門戶平臺可以提供給用戶可定制的個性化信息服務(wù)。

  當(dāng)用戶主動訪問UMS系統(tǒng)時,只需要輸入唯一的身份標(biāo)識號碼,UMS系統(tǒng)將會到本地數(shù)據(jù)庫中根據(jù)用戶信息取得用戶詳細信息和用戶接收的信息內(nèi)容,再將這部分信息返回平臺,用戶可以通過ASR模塊來查詢需要信息,信息內(nèi)容將會通過TTS模塊合成給用戶。UMS系統(tǒng)可以更進一步的根據(jù)用戶的需要,主動向用戶提供重要信息服務(wù),按照用戶的設(shè)置將重要信息以最快最直接的方式發(fā)送給用戶。

  用戶也可以利用電話對郵件、留言、傳真等接收內(nèi)容直接進行回復(fù)、轉(zhuǎn)發(fā)、刪除等操作,還可以通過語音對用戶參數(shù)進行設(shè)定等操作,這些操作信息通過UMS系統(tǒng)進行執(zhí)行,返回相應(yīng)的操作成功信息,通過TTS模塊給用戶反饋。

2、TTS系統(tǒng)結(jié)構(gòu)

2.1 總體架構(gòu)

  語音門戶系統(tǒng)的TTS平臺建設(shè)基于現(xiàn)有的軟、硬件,主要增加TTS語音合成服務(wù)器。語音合成服務(wù)器支持30路的實時語音合成,根據(jù)系統(tǒng)業(yè)務(wù)量可以通過增加語音合成服務(wù)器的方式進行擴容。合成代理服務(wù)器可以運行在TTS語音合成服務(wù)器上。

圖:增加TTS Server后的交換平臺

2.2 訊飛語音服務(wù)器技術(shù)特點

  2.2.1通訊機制

  語音合成的服務(wù)器和客戶端通過面向連接的TCP/IP協(xié)議來相互通訊,支持跨平臺訪問的特性。服務(wù)器運行在Windows NT 4.0操作系統(tǒng)上,能支持30個并發(fā)的客戶端的實時性語音合成請求。客戶端可以是Windows 9x/NT,Linux,Unix等支持TCP/IP進行網(wǎng)絡(luò)通訊的操作系統(tǒng)?蛻舳撕头⻊(wù)器通過自定義的網(wǎng)絡(luò)通訊規(guī)范進行交互,客戶端可以控制服務(wù)器得多項合成特性,可以取得服務(wù)器運行狀態(tài)的信息。

  2.2.2資源管理機制

  在大容量,高性能的應(yīng)用場合,為了充分利用有限的語音合成資源,多臺客戶端可以通過動態(tài)負載均衡(Load Balance)機制共享語音合成服務(wù)器?蛻舳说慕M件LB AGENT(Load Balance Agent)能根據(jù)多臺服務(wù)器發(fā)送的當(dāng)前負載信息,智能的選擇負載最輕的服務(wù)器發(fā)送連接請求。

  2.2.3狀態(tài)監(jiān)視和報警機制

  通過客戶端運行的代理程序,語音合成客戶端能取得多個服務(wù)器的當(dāng)前狀態(tài)信息。當(dāng)服務(wù)器發(fā)生錯誤,不能繼續(xù)服務(wù)時,語音應(yīng)用服務(wù)平臺還提供了的客戶端報警機制。

3、VXML系統(tǒng)結(jié)構(gòu)

3.1 總體架構(gòu)

  在數(shù)據(jù)中心設(shè)置VXML服務(wù)器,提供訪問互聯(lián)網(wǎng)絡(luò)的接口,地市臺與中心服務(wù)器使用標(biāo)準的基于應(yīng)用層的協(xié)議通訊。地市臺與數(shù)據(jù)中心交換網(wǎng)頁和其他數(shù)據(jù),這種交換是實時的。各地市的電話用戶就能利用運營商提供本地電話號碼訪問互聯(lián)網(wǎng)上的信息。

  數(shù)據(jù)中心是Voice XML服務(wù)的發(fā)布者,各地IVR平臺為是Voice XML的瀏覽器,整個語音門戶系統(tǒng)可以描述為一個服務(wù)中心、多個資源瀏覽節(jié)點。

  建成后的數(shù)據(jù)中心具有以下特點:

  1.運行可靠平穩(wěn)。

  2.可平滑擴容。

  3.便捷的系統(tǒng)管理。

  4.易用的開發(fā)平臺。

  5.可為多種平臺提供服務(wù)。

3.2 平臺的負載平衡機制

  VXML 解釋服務(wù)器的負載自適應(yīng)功能

  單個VXML解釋服務(wù)器中內(nèi)建先進的負載自適應(yīng)功能。所謂負載自適應(yīng)功能就是:VXML解釋服務(wù)可以根據(jù)負載的歷史紀錄計算出下一個時段可能被分配的負載數(shù)或者是計算出下一個周期的負責(zé)分布情況,通過這些預(yù)估數(shù)據(jù)以最優(yōu)化的性能提供服務(wù)。

  VXML 解釋服務(wù)器的LoadBalance服務(wù)器

  對于一個網(wǎng)段中的VXML解釋服務(wù)器來說,將有一個或者多個LoadBalance服務(wù)器做動態(tài)的負載平衡,每臺VXML解釋服務(wù)器來說有一個NM Agent(NetWork Management Agent)負責(zé)與Load Balance Server通訊。

網(wǎng)絡(luò)結(jié)構(gòu)簡圖如下:

  Web/VXML互訪網(wǎng)關(guān)的負載平衡

  由于VXML 解釋服務(wù)器的負載壓力很大,因此首先應(yīng)該將Web/VXML安裝在與VXML解釋服務(wù)器不同的網(wǎng)段中。由于Web/VXML互訪網(wǎng)關(guān)是基于Web Server的因此,也必須作相應(yīng)的負載平衡工作。

  該負載平衡方案可以采用DNS的負載均衡或者是反向代理負載均衡,具體采用要視服務(wù)規(guī)模而定,如果是大規(guī)模的服務(wù)推薦采用后者。

3.3 平臺擴容設(shè)計

  當(dāng)中心數(shù)據(jù)訪問量達到一定程度時,需要進行系統(tǒng)的擴容。擴容工作包括兩個方面。一個是拓寬網(wǎng)絡(luò)帶寬,一個是提高VXML服務(wù)規(guī)模。

  這里所指網(wǎng)絡(luò)帶寬包括中心的Internet出口、地市臺訪問中心出口。數(shù)據(jù)中心訪問的總體規(guī)模加大時,要求中心具有相應(yīng)的訪問Internet的能力。大的地市臺業(yè)務(wù)增加很快時同樣要求其訪問中心能力的增強。

  制約中心VXML處理速度主要瓶頸在對VXML的解釋上。擴容時需要增加解釋器服務(wù)器。動態(tài)負載平衡服務(wù)器根據(jù)會話管理器的會話請求,找到負載最輕的解釋器服務(wù)器,分配解釋任務(wù)。

  隨著語音門戶系統(tǒng)業(yè)務(wù)的發(fā)展,數(shù)據(jù)中心管理運行的VXML應(yīng)用增加,這時VXML發(fā)布服務(wù)器的響應(yīng)速度可能也會受影響,需要根據(jù)中心數(shù)據(jù)訪問量和應(yīng)用規(guī)模增加VXML發(fā)布服務(wù)器。

4、UMS系統(tǒng)結(jié)構(gòu)

4.1 總體架構(gòu)

  該系統(tǒng)將電話網(wǎng)和Internet網(wǎng)結(jié)合在一起,極大地擴大了兩大網(wǎng)絡(luò)各自的用戶群,電話用戶可以用電話或者傳真獲取Internet上的信息,電子郵件服務(wù)也可以不局限于Internet,而能對廣大的電話用戶開放。統(tǒng)一消息平臺為用戶帶來的是信息的方便、及時,使人們在任何時間、任何地點都能夠獲取需要的信息。 統(tǒng)一消息服務(wù)系統(tǒng)解決了各種不同的消息表現(xiàn)格式間的兼容問題,從而將語音、傳真、電子郵件、語音信箱/語音郵件等不同信息格式的業(yè)務(wù)有機地集成于一體。

4.2 業(yè)務(wù)功能描述

  UMS系統(tǒng)將電話網(wǎng)、尋呼網(wǎng)、移動網(wǎng)、互聯(lián)網(wǎng)相互融合,在各個不同網(wǎng)絡(luò)間提供通信和信息交換,向最終用戶提供在任何時間、任何地點,以任何方式(如人工電話、自動語音、自動傳真、尋呼、手機短訊、手機上網(wǎng)、電子郵件、WWW瀏覽等)的個人通信服務(wù)、個人化信息內(nèi)容服務(wù)和個人化電子商務(wù)服務(wù)。

  UMS系統(tǒng)具有個性化網(wǎng)絡(luò)信息商務(wù)服務(wù)、個人通信服務(wù)、個性化信息服務(wù)、個人化電子商務(wù)服務(wù)等幾項功能,具體包括:

  1)個性化網(wǎng)絡(luò)信息商務(wù)服務(wù)。

  UMS系統(tǒng)是一套具有標(biāo)準化和開放性的綜合信息增值服務(wù)平臺,系統(tǒng)運營商根據(jù)此系統(tǒng)提供的E-Mail轉(zhuǎn)電話(手機、傳真、尋呼)、電話(手機、傳真、尋呼)轉(zhuǎn)Mail、電話(手機、傳真、尋呼、Mail)留言、個人定制信息到達通知……等功能最終實現(xiàn)為用戶提供全面的個性化信息網(wǎng)絡(luò)商務(wù)服務(wù)。

  2)個人通信服務(wù)。

  個人通信服務(wù)的主要目的是借助個人現(xiàn)有的通訊設(shè)備如:尋呼機、手機、固定電話等,在維持現(xiàn)有設(shè)備功能的基礎(chǔ)上,增加新的服務(wù)功能,實現(xiàn)與Internet的結(jié)合,本系統(tǒng)為每個客戶建立一個獨立的、可以接受文本、傳真、語音、圖象等多種形式的郵件信箱,客戶可以以任意的方式來獲取其中的內(nèi)容,同時當(dāng)有郵件到達后,系統(tǒng)可以采用該用戶自己設(shè)定的方式進行通知,使得本系統(tǒng)能夠成為一個體貼入微的事務(wù)助理。

  3)個性化信息服務(wù)。

  信息的價值在于用戶對它的使用,在于使用過程中能為用戶帶來更大的價值;個性化信息服務(wù)專注的核心問題就是幫助用戶充分有效地利用各種個性化信息內(nèi)容,徹底提高各種商務(wù)活動的運作效率和獲取更大的商業(yè)價值。用戶可以通過自動語音服務(wù)、WWW頁面、WAP頁面以及人工服務(wù)等方式從本系統(tǒng)提供的信息服務(wù)中,選取符合自己要求的信息類別,如:某個類別的股票信息、某個類別的新聞信息、某個類別的求購信息、某個類別的出售信息等,并設(shè)置信息通知的形式如:呼機、中文短信、電子郵件等,也可以設(shè)置信息發(fā)送的時間以及間隔如:每一個小時發(fā)送一次、有新的內(nèi)容時發(fā)送等;系統(tǒng)將根據(jù)個人的設(shè)置需要,按照約定的時間自動將客戶關(guān)心的信息類別,按照客戶約定的方式發(fā)布到客戶約定的接收設(shè)備上。

  同時系統(tǒng)建設(shè)了智能化的個人行為模型分析功能,用戶的個性化要求必須從了解用戶入手。用戶的性別、年齡、身份、職業(yè)、收入、喜好等個人資料是判斷用戶個性化要求的基礎(chǔ),而用戶對信息的使用、對服務(wù)的申請以及所有的消費行為更是構(gòu)成其個性化要求的重要依據(jù)。個人行為模型分析即是利用系統(tǒng)記錄的用戶個人資料及行為記錄信息,對用戶進行研究和分析,為每個用戶建立行為模型并在不斷的應(yīng)用中加以修正。系統(tǒng)提供個性化服務(wù),即是根據(jù)這些模型,為用戶提供更加具有主動性和針對性的各種服務(wù)。并通過了解用戶對服務(wù)的認識和使用程度,以發(fā)展重點服務(wù)和發(fā)掘潛在服務(wù)。

  4)個人設(shè)置。

  通過電話設(shè)置各種參數(shù),包括修改帳號密碼、設(shè)定通知時間、設(shè)定通知方式、設(shè)定通訊號碼等等。

附錄:

  術(shù)語簡介

  1.TTS:Text To Speech,語音合成,是將文字轉(zhuǎn)成語音的一種技術(shù)。

  2.ASR: Automatic Speech Recognize,語音識別。

  3.IVR:Interactive Voice Response,交互式語音應(yīng)答系統(tǒng)。

  4.PSTN:Public Switched Telephone Network,公眾電話網(wǎng)。

  5.CTI:Computer Telephony Integration,計算機電信集成,將電話網(wǎng)和計算機網(wǎng)結(jié)合在一起的技術(shù)。

  6.VXML: Voice Extensible Markup Language,語音擴展標(biāo)記語言,可以實現(xiàn)語音訪問互聯(lián)網(wǎng)絡(luò)。

中科大訊飛信息科技有限公司供稿 CTI論壇編輯


相關(guān)鏈接:
訊飛暢言語音教具系統(tǒng)榮獲“創(chuàng)新軟件產(chǎn)品” 2009-09-08
科大訊飛嵌入式語音新產(chǎn)品發(fā)布會在深圳舉行 2009-09-07
“會說話”的顯示屏提升居民小區(qū)信息服務(wù)水平 2009-09-07
訊飛語音助力太平人壽客服中心 2009-08-28
訊飛語音助力CDMA手機競爭終端市場 2009-08-14

分類信息:  語音合成TTS_與_語音識別ASR  語音合成TTS_與_voicexml  語音合成TTS_與_voicexml  語音識別ASR_與_voicexml
           語音識別ASR_與_voicexml