首頁>>>技術(shù)>>>語音應(yīng)用>>>語音合成(TTS)  語音合成產(chǎn)品
 

語音技術(shù)成為主流技術(shù)

 


  隨著激動人心的新應(yīng)用例如語音門戶(voice portal)和網(wǎng)上消息(web messaging)以及改進的算法使語音技術(shù)逐漸成為一項被大眾接受和使用的技術(shù)。語音門戶提供使用自然語言命令訪問Internet信息的方式, 網(wǎng)上消息是新的一種統(tǒng)一消息應(yīng)用, 它把網(wǎng)站訪問和傳統(tǒng)語音信箱,電子郵件和傳真等技術(shù)集成在一起。總之, 語音技術(shù)很有潛力成為下一個個人電腦,電話和其它電子設(shè)備的下一個關(guān)鍵的訪問接口。

機會在哪里?

  語音門戶應(yīng)用給具有語音技術(shù)的開發(fā)商提供了很大的機會。根據(jù)Frost & Sullivan*公司預(yù)測, 未來六年這一市場段會有54%的增長**。公用網(wǎng)絡(luò)提供商, 本地交換提供商(LEC)和Internet服務(wù)提供商(ISP)等都在尋找提供不同于別人的服務(wù), 他們都很有可能進入這一領(lǐng)域來提供利潤豐厚的增值服務(wù)。

  同一消息應(yīng)用應(yīng)運而生是由于企業(yè)認識到跨平臺消息系統(tǒng)(語音,電子郵件和傳真)應(yīng)用的優(yōu)點。網(wǎng)上消息則代表了一個很自然的功能上上的增強。Dot-com公司利用語音技術(shù)提供了訪問他們網(wǎng)站服務(wù)器和分布式數(shù)據(jù)庫的另外一種方法。 這一演變將語音技術(shù)帶入到公眾中去, 這方面的需求也在不斷的增長。 移動電話的用戶一定很歡迎使用自然語音識別輸入而不是按鍵的輸入。 尤其是當(dāng)現(xiàn)在移動電話尺寸越來越小,語音輸入的優(yōu)勢也更加明顯。

連續(xù)語音處理技術(shù)

  創(chuàng)建增強的語音技術(shù)的平臺的技術(shù)稱作連續(xù)語音處理, 簡稱CSP(Continuous Speech Processing ). 利用CSP和Dialogic? Dialogic?板卡結(jié)合在一起的新技術(shù),可以開發(fā)出提供最高準(zhǔn)確度和最好性能語音識別電話應(yīng)用。

  利用CSP開發(fā)有以下5個主要的優(yōu)點:

  • 節(jié)省開支 - 整個系統(tǒng)是低成本的平臺
  • 性能 - 減少系統(tǒng)延遲時間,改進反應(yīng)速度
  • 準(zhǔn)確度 - 更高的識別準(zhǔn)確度
  • 可擴展性 - 系統(tǒng)可由小到大擴展
  • 密度 - 每個板卡經(jīng)濟的端口密度

  在后面我們會繼續(xù)討論CSP技術(shù)的優(yōu)點。首先讓我們來看一下是CSP是利用哪些技術(shù)來實現(xiàn)的。

底層技術(shù)實現(xiàn)

  CSP是在現(xiàn)有語音技術(shù)上增加了新的算法來實現(xiàn)的。一個主要的功能模塊就是語音打斷(barge-in),它使一個用戶可以通過說話來打斷語音提示。 一個語音識別引擎可以識別出用戶打斷所說的話是什么。許多電話環(huán)境里,進入系統(tǒng)的信號是多個信號的混合包括用戶的說話,語音提示的回聲和線路的噪音。考慮到這么多種變數(shù),例如電話線的類型和質(zhì)量還有說話人的的不同語言,開發(fā)語音打斷功能面對非常大的技術(shù)挑戰(zhàn)。首先,系統(tǒng)根據(jù)電話環(huán)境建立回聲特性的模型,然后把對向外播放語音提示的回聲進入信號中的消除掉。使用CSP,過去需要大量CPU處理資源的工作就大大減輕而把這部分工作被放在板卡上一個DSP來進行處理,這樣可以高效的管理語音檢測。CSP被設(shè)計用來優(yōu)化基于主機的(host-based)語音識別資源例如運行在主機上擁有很大詞匯庫的語音識別引擎(ASR)。 CSP使從語音板卡(analog, T-1/E-1,etc.)到主機處理器傳送)經(jīng)過預(yù)處理的語音數(shù)據(jù)流成為可能。

  CSP功能里面有幾個關(guān)鍵的功能,它們對我們討論過的應(yīng)用和市場段里起到關(guān)鍵的作用:

  • 回聲消除(Echo Cancellation,簡稱EC) - 用于語音識別,IP電話,DTMF和音頻檢測技術(shù)。主要用來把外發(fā)的信號的回聲從進入信號里面清除。
  • 全雙工操作 - 應(yīng)用程序可以在同一個通道上同時接受和發(fā)送語音數(shù)據(jù)。
  • 語音活動檢測(Voice Activity Detector,簡稱VAD) -檢測線路上是否有語音能量
  • 語音打斷(Barge-In) - 當(dāng)在某一個通道上檢測到語音能量,CSP可以被設(shè)置為自動停止在那個通道上播放的提升語音。 這可以很快的中止提示音,接收用戶的輸入,從而提高識別的準(zhǔn)確度。 如果不很快地中止提示語音,用戶很可能口吃或者說話不清晰,那也會影響識別的性能。
  • 語音事件通知 - 當(dāng)檢測到線路上語音能量,CSP可以在不停止當(dāng)前語音提示播放的時候給主機的處理器發(fā)出一個消息,語音識別的引擎可以做進一步判斷以后停止提示音的播放。
  • 預(yù)緩沖(Pre-Speech Buffer) - 進入的語音數(shù)據(jù)被存在一個250毫秒的緩沖區(qū)里。 當(dāng)檢測到語音能量,這一部分儲存在緩沖區(qū)里的語音就會被轉(zhuǎn)發(fā)到語音識別資源來被處理。這種預(yù)緩沖的里包含的關(guān)鍵信息在高識別準(zhǔn)確率要求的時候是十分關(guān)鍵的。
  • 統(tǒng)一的編程接口 (API) - 為了保證系統(tǒng)的可擴展性,不同密度的底層硬件之上,應(yīng)用程序的編程接口必須要一樣。

CSP優(yōu)點

  如果我們在有CSP和沒有的兩種情況下對呼叫流程進行一下比較,可以看到CSP的優(yōu)勢是很明顯的。在沒有CSP的系統(tǒng)里,主機不斷的針對所有激活狀態(tài)的通道,從DSP取數(shù)據(jù)。 這就消耗主機CPU很多資源,進而影響系統(tǒng)性能。當(dāng)DSP不斷把語音包送到CPU,這種工作很可能占據(jù)90%到100%的CPU處理能力。而且,DSP還沒有辦法過濾掉無用的數(shù)據(jù)(例如沒有說話的時間),這進一步使系統(tǒng)性能下降。因此必須要安裝高性能處理平臺來彌補CPU的工作量。

  當(dāng)一個主叫方和一個有CSP的語音平臺進行交互時,整個過程中都是在播放提示語音。主叫方可以在提示音播放過程中任何時刻說話,插入語音命令。這加快了語音菜單導(dǎo)航。后臺處理系統(tǒng)同樣高效。系統(tǒng)平臺只需要在有語音輸入的時候才交給主機進行語音處理,這通常只占應(yīng)用程序10%到15%的處理時間。CSP利用DSP的VAD功能只把有語音的部分數(shù)據(jù)交給主機來處理,節(jié)省了主機處理的資源。上面功能是利用板卡上DSP的檢測模塊來完成的。

  預(yù)處理緩沖區(qū)的說明

  語音打斷功能是由板卡上的預(yù)處理緩沖區(qū)和語音能量檢測兩個模塊來實現(xiàn)的,把主機的CPU從連續(xù)數(shù)據(jù)處理的負擔(dān)中解脫出來。主機只有當(dāng)板卡產(chǎn)生一個事件例如檢測到語音以后才需要開始工作。還有其它的好處。使主機CPU不再處理無用的數(shù)據(jù)可以減少系統(tǒng)負荷,這也是系統(tǒng)可以擴大到幾百個端口。 還有,預(yù)處理緩沖區(qū)為應(yīng)用程序開發(fā)者提供了更高的可靠性和準(zhǔn)確度。

  擁有語音打斷的語音系統(tǒng)會把去除回聲后的數(shù)據(jù)打成很小的包(小于100毫秒)從語音板卡發(fā)到主機上的語音識別引擎。這樣做可以使主叫方語音的檢測和確認花更少的時間,達到更高識別的準(zhǔn)確度?蛻粢矔杏X系統(tǒng)很友好,因為他們一說話系統(tǒng)就停止播放提示語音了。

  選擇很明確:在板卡上做預(yù)處理緩沖區(qū)而不是把所有語音檢測都放到主機上,在今天要求可擴展性和高密度的系統(tǒng)中是必需的。

Recognizing the Benefits

  Internet的成功和電子商務(wù)的增長為語音技術(shù)創(chuàng)建了新的機會,也提出了新的需求,這些新的需求只能用類似CSP這樣的語音處理結(jié)構(gòu)來實現(xiàn)。除了結(jié)構(gòu),CSP也提供了關(guān)鍵的優(yōu)點,應(yīng)用程序開發(fā)商可以開發(fā)新的功能投入市場。

  準(zhǔn)確度

  CSP提供很多功能類似語音打斷,預(yù)處理緩沖區(qū),回聲消除增加了客戶的滿意度,他們不會有過去的體驗過的關(guān)于語音技術(shù)的不好的感受。背景音,靜電和不好的線路質(zhì)量利用環(huán)境噪音閥值被減輕或者消除了。這究使這個平臺可以被應(yīng)用到任何電話環(huán)境,給開發(fā)者提供進入不同市場的堅實的基礎(chǔ)。

  密度/可擴展性

  CSP提供4到120路不同的密度。因為很多語音識別需要的關(guān)鍵模塊在板上被支持了,減少主機CPU處理連續(xù)語音數(shù)據(jù)的負荷。當(dāng)在一臺機箱里面插多塊高密度板卡,這個系統(tǒng)可以輕松擴展到幾百線。

  節(jié) 約

  CSP節(jié)省了實施費用和運營費用。因為語音門戶和網(wǎng)上消息應(yīng)用都是在共享的主機上,空間的考慮是很重要的。高密度的系統(tǒng)可以運行在一臺機箱里就可以減少系統(tǒng)所需的空間。

  而且,板卡級模塊使昂貴的主機平臺不是必須。使用比較便宜的處理器就可以達到可接受的性能。從運營費用來考慮,使用了類似語音打斷,回聲消除和預(yù)處理緩沖區(qū),減少了呼叫的時間,單位時間內(nèi)能接入的電話就增加了。

  應(yīng)用提供商也需要考慮到節(jié)約。訪問帶有語音功能的應(yīng)用大多是免費電話。如果每個呼叫的時間可以縮短,電話費也會相應(yīng)減少。

  最重要的優(yōu)點就是改進了客戶的服務(wù)。獲得新客戶是昂貴的。利用CSP提供能輕松導(dǎo)航和高準(zhǔn)確度,你可以更好的留住你現(xiàn)有的客戶,同時把你的時間和精力放在尋找新的有利潤的服務(wù)上來吸引新的客戶。

  性能提高

  CSP提供了別的電話平臺沒有的高性能。語音打斷是任何一個語音導(dǎo)航系統(tǒng)中的關(guān)鍵成分。讓用戶可以有一個與計算機的對話是用戶有更舒適的體驗。如果沒有語音打斷,用戶會覺得他們被系統(tǒng)所控制而感覺不舒服。 語音打斷的準(zhǔn)確度也是很關(guān)鍵的。一些系統(tǒng)會被背景噪音或者其它非語音時間所打斷。 使用者就會繼續(xù)等待系統(tǒng)的提示選項盡管這時候系統(tǒng)已經(jīng)被不真實的語音所打斷。高級的系統(tǒng)都會使用負載的語音檢測模塊避免不小心的輸入打斷語音提示。如果這種高級的系統(tǒng)沒有硬件的幫忙,大量的主機處理能力都這些前端處理所耗費了,最終將影響到系統(tǒng)的密度和性能。

  CSP使使用者感覺更好。板卡上的語音檢測模塊和預(yù)處理緩沖區(qū)使板卡級的模塊可以過濾提交給主機CPU的數(shù)據(jù)流。只有語音說話被檢測和獲得。因此,CPU的負荷很小,語音事件更加準(zhǔn)確發(fā)給識別軟件。 最終的結(jié)果就是更高的識別率和滿意的客戶。

Will Your Voice Be Heard?

  如果你希望提供先進的語音處理應(yīng)用,你應(yīng)該使用連續(xù)語音處理平臺。CSP提供業(yè)界對下一代語音應(yīng)用如語音門戶和網(wǎng)上消息提供了最好的支持。

**Frost and Sullivan, "Speech Recognition," April, 2000, p. 31.
00-6556-002
02-23-01



融合通信專欄>>技術(shù)開發(fā)>>

 
 


相關(guān)鏈接:
科大訊飛構(gòu)筑語音技術(shù)領(lǐng)域的核心競爭優(yōu)勢 2003-09-19
捷通華聲“颶風(fēng)行動”降低語音應(yīng)用門檻 2003-08-04
基于MSTTS的網(wǎng)絡(luò)通信應(yīng)用開發(fā) 2003-08-04
語音應(yīng)用客戶滿意度調(diào)研 2003-07-29
Nuance Voice Platform - NVP 2.0語音平臺 2003-07-22

分類信息:  語音合成TTS_與_語音識別ASR     文摘   技術(shù)_語音合成_文摘   技術(shù)_語音識別_文摘