基于Web的語音平臺
——下一代語音平臺Speech Server 2004

陳銳 2004/08/27

  在過去很長一段時間內(nèi),語音應(yīng)用在很大程度上都只是實驗室中純技術(shù)性的東西。而現(xiàn)在語音技術(shù)正逐漸成為企業(yè)應(yīng)用中的重要一環(huán),在銀行、證券、教學、電信增值應(yīng)用、企業(yè)客戶服務(wù)、企業(yè)內(nèi)部應(yīng)用等領(lǐng)域都擁有廣泛的應(yīng)用前景。在當今的語音應(yīng)用技術(shù)中,基于Web的語音應(yīng)用是一個新的發(fā)展前端。IBM、微軟等公司都提供了自己的基于Web的語音平臺。那么什么是基于Web的語音平臺?它的核心技術(shù)是什么?應(yīng)用前景如何?本文作者將結(jié)合微軟Speech Server 2004為大家做簡要剖析。

什么是基于Web的語音平臺?

  簡而言之,它就是互聯(lián)網(wǎng)絡(luò)的一個語音接口。用戶可以通過固定電話或者移動電話通過語音交互的方式訪問互聯(lián)網(wǎng)。我們可以通過下面的圖來看看Web語音平臺的位置:


  上圖中的Speech Server就是微軟的Web語音平臺,可以看到它連接起了電話網(wǎng)絡(luò)(PSTN)以及Web Server。

為什么要使用基于Web的語音平臺


  滿足客戶端復(fù)雜性的要求 現(xiàn)在的互聯(lián)網(wǎng)絡(luò)接入設(shè)備不再像5、6年以前只有PC,智能手機、Pocket PC、Tablet PC以及其他各種智能終端都是訪問互聯(lián)網(wǎng)的客戶端,而這些設(shè)備受使用場所、自身尺寸等方面的限制,不可能像PC那樣使用傳統(tǒng)的鼠標、鍵盤和相對較大的顯示界面進行交互。在這個時候,語音交互就可以大顯身手了。

  整合的要求 很多企業(yè)都有自己的語音平臺和Web平臺。在很多企業(yè)中,它們是獨立的系統(tǒng)。通過基于Web的語音平臺,可以將兩者有機地結(jié)合在一起。例如微軟的Speech Server 2004就支持與Intel 以及 Intervoice語音平臺的集成。

Speech Server 2004:語音先行者

  在語音應(yīng)用方面微軟是一個先行者,在語音應(yīng)用還沒有被人們所認識的時候微軟已經(jīng)推出了自己的桌面語音產(chǎn)品(大家應(yīng)該都知道金山詞霸中的單詞發(fā)音,它使用的就是微軟TTS引擎)。而Speech Server 2004是微軟今年新推出的基于Web的語音服務(wù)器端產(chǎn)品,它主要分為兩個部分:SES(Speech Engine Services)和TAS(Telephony Application Services)。其中SES是語音引擎服務(wù),包括SAPI、語音輸入以及語音識別,支持話音、PPC以及桌面語音;TAS是電話應(yīng)用服務(wù),集成了SALT以及媒體與語音管理,是第三方話音界面與Speech Server的接口。

  Speech Server 2004相比其他的語音系統(tǒng)有以下的主要特點:

  • 降低了開發(fā)成本


  •   開發(fā)語音應(yīng)用曾經(jīng)是一個開銷很大的工程,它需要對電話語音底層有深入的了解。而Speech Server是建立在 .NET平臺基礎(chǔ)之上,提供了基于.NET的SDK,通過Speech Server SDK中集成的眾多組件以及輔助工具,開發(fā)人員可以像開發(fā)普通ASP.NET Application一樣來開發(fā)、測試、部署語音應(yīng)用程序。

  • 集成了更多協(xié)議


  •   它支持通過PBX進入的語音以及從ACD/CTI進入的數(shù)據(jù)。

  • 提供更多分析工具/組件


  •   微軟在Speech Server中集成了數(shù)據(jù)分析工具,Call Viewer以及Speech Application Reports。Call Viewer可以讓開發(fā)人員和系統(tǒng)管理人員直觀地查看電話撥入情況,而Speech Application Reports是一個基于Microsoft Reporting Services的報表工具?梢酝ㄟ^這個工具生成詳細的報表。

    應(yīng)用前景

      想象一下,當你開車進入一個陌生的城市尋找餐廳時,只要對著車載話筒說出你想要吃的口味,你的車載導(dǎo)航系統(tǒng)中就會自動列出符合你口味的餐廳并顯示出路線圖。你可以選擇餐廳、收聽餐廳介紹、查看餐廳用餐情況并可直接與餐廳員工通話訂座位。再想象一下如果你需要在明天下午3點組織一個重要會議,只需在企業(yè)內(nèi)部網(wǎng)中登記會議以及參與會議的公司人員,那么在開會之前,所有的參會人員都能夠接到通知開會的電話。

      由于語音技術(shù)的改進(包括發(fā)音引擎、語音識別),語音應(yīng)用開發(fā)標準的制定,相關(guān)市場的成熟,加上用戶對通過智能設(shè)備訪問互聯(lián)網(wǎng)/內(nèi)部網(wǎng)的需求越來越多,基于Web的語音平臺必定有廣闊的發(fā)展空間。

    計算機世界網(wǎng)(www.ccw.com.cn)


    相關(guān)鏈接:
    Dynamics的“靈活”戰(zhàn)略 2009-09-28
    微軟國內(nèi)首推Push mail 酷派3G產(chǎn)品率先支持 2009-09-28
    鮑爾默:我們搞砸了Windows Mobile 7 2009-09-25
    微軟全球基礎(chǔ)服務(wù)部門副總裁離職加盟思科 2009-09-24
    微軟推最新手機操作系統(tǒng)WindowsMobile6.5 2009-09-04

    分類信息:     文摘   技術(shù)_語音識別_文摘