首頁(yè)>>廠商>>語(yǔ)音識(shí)別與合成>> 北京無(wú)限商機(jī)

語(yǔ)音互聯(lián)再造Internet

2001/10/22


  VoiceXML引爆語(yǔ)音互聯(lián)


  VoiceXML(語(yǔ)音可擴(kuò)展標(biāo)記語(yǔ)言)是由IBM、Lucent、Motorola、AT&T四家國(guó)際巨型公司于2000年提出的一種應(yīng)用于語(yǔ)音瀏覽的標(biāo)記語(yǔ)言,它建立于XML標(biāo)記語(yǔ)言規(guī)范的基礎(chǔ)之上,是下一代互聯(lián)網(wǎng)(Internet2)交互語(yǔ)音應(yīng)用的核心。它可以與數(shù)據(jù)庫(kù)、HTML、WML以及其它文檔處理和發(fā)布系統(tǒng)進(jìn)行無(wú)縫資料交換,突破性地實(shí)現(xiàn)互聯(lián)網(wǎng)與電話網(wǎng)的融合,為語(yǔ)音應(yīng)用領(lǐng)域展現(xiàn)出一個(gè)更為廣闊的未來(lái)。目前VoiceXML已被W3C組織接受為國(guó)際工業(yè)標(biāo)準(zhǔn)。

  VoiceXML的主要特點(diǎn)是通過(guò)語(yǔ)音輸入和音頻輸出支持人機(jī)對(duì)話。基于VoiceXML的語(yǔ)音瀏覽機(jī)制與語(yǔ)音識(shí)別、語(yǔ)音合成技術(shù)、智能文字信息處理技術(shù)相結(jié)合,人們就可以通過(guò)電話或移動(dòng)電話以自然友好的語(yǔ)音形式訪問(wèn)互聯(lián)網(wǎng),實(shí)現(xiàn)個(gè)人和商業(yè)服務(wù)的語(yǔ)音應(yīng)用。

  1999年,AT&T、IBM、Lucent和Motorola等公司組成了VoiceXML論壇(www.voicexml.org),討論所涉及的主要內(nèi)容,包括將VoiceXML確定為通過(guò)話音和電話利用Internet內(nèi)容的標(biāo)準(zhǔn)、用VoiceXML解釋程序取代HTML解釋程序,以及用人的語(yǔ)音取代鼠標(biāo)和鍵盤(pán)等。由于VoiceXML技術(shù)和語(yǔ)音技術(shù)的快速發(fā)展,已經(jīng)有150多家公司和組織加入了VoiceXML論壇,其中包括一些非常有名的通信公司,積極支持和推動(dòng)基于VoiceXML的應(yīng)用。

  在標(biāo)準(zhǔn)的統(tǒng)一與開(kāi)放方面,中文VoiceXML已與國(guó)際標(biāo)準(zhǔn)完全接軌。由21家通信行業(yè)領(lǐng)頭單位共同倡導(dǎo)成立的“中國(guó)互聯(lián)網(wǎng)移動(dòng)應(yīng)用協(xié)議特別組”(CMIS)中文&漢語(yǔ)專家組,已提出了基于VoiceXML的應(yīng)用系統(tǒng)規(guī)范提綱,標(biāo)志著中文VoiceXML語(yǔ)音技術(shù)應(yīng)用標(biāo)準(zhǔn)正在逐步醞釀和推進(jìn)。北京無(wú)限商機(jī)通信技術(shù)有限公司和中國(guó)網(wǎng)通是移動(dòng)互聯(lián)網(wǎng)交互式語(yǔ)音應(yīng)用技術(shù)標(biāo)準(zhǔn)及產(chǎn)品規(guī)范課題的主承擔(dān)單位,承擔(dān)單位同時(shí)包括中國(guó)電信、中國(guó)移動(dòng)、Intel、Nokia、Motorola、中電東方通信、億陽(yáng)信通、北京郵電大學(xué)等。


  超凡誘惑:會(huì)說(shuō)話就能上網(wǎng)


  電話是最為普及的通信工具。世界上現(xiàn)在有10億電話終端,另外,有超過(guò)2億的移動(dòng)電話用戶。從絕對(duì)數(shù)量上看,個(gè)人計(jì)算機(jī)的數(shù)量遠(yuǎn)遠(yuǎn)低于電話終端的數(shù)量。目前,我國(guó)的PC上網(wǎng)用戶不過(guò)2000多萬(wàn),而固定電話和移動(dòng)電話用戶是PC用戶的10多倍,且增長(zhǎng)勢(shì)頭迅猛。而且,在眾多國(guó)內(nèi)固定電話和移動(dòng)電話用戶中,不懂或不熟悉鍵盤(pán)操作的用戶占4/5。移動(dòng)通信終端的小鍵盤(pán)、小屏幕更是移動(dòng)互聯(lián)網(wǎng)發(fā)展的最大障礙。

  另一方面,語(yǔ)音是人類(lèi)最原始最有效的交流方式。人有70%的信息是通過(guò)聽(tīng)來(lái)獲取的,而90%的信息是通過(guò)說(shuō)來(lái)表達(dá)的。語(yǔ)音是人們?cè)儐?wèn)問(wèn)題、交換觀念、分享經(jīng)驗(yàn)和建立關(guān)系的最主要的方式。

  通過(guò)電話來(lái)上網(wǎng),以“說(shuō)話”來(lái)代替鍵盤(pán)輸入,只要撥一個(gè)電話,就可以上網(wǎng)查股票、“聽(tīng)”新聞、收郵件、叫出租車(chē),對(duì)于許多不懂電腦或由于各種原因無(wú)法使用電腦上網(wǎng)的人來(lái)說(shuō),這無(wú)疑是一個(gè)夢(mèng)想。而現(xiàn)在,這個(gè)夢(mèng)想可以通過(guò)語(yǔ)音瀏覽技術(shù)得以實(shí)現(xiàn)。

  在國(guó)外,以Tellme.com和Nuance 、SpeechWorks為代表的企業(yè)異軍突起,倡導(dǎo)人性化的語(yǔ)音上網(wǎng)服務(wù),隨后TellmeNetworks、Yahoo!、Lycos和AOL等公司都相繼推出了語(yǔ)音門(mén)戶網(wǎng)站。國(guó)內(nèi)的TOM.COM也于去年11月底推出了“TOM及時(shí)語(yǔ)”語(yǔ)音門(mén)戶網(wǎng)站。繼PC、WAP手機(jī)上網(wǎng)之后,語(yǔ)音上網(wǎng)將掀起第三次上網(wǎng)浪潮。


  語(yǔ)音瀏覽:語(yǔ)音互聯(lián)的核心


  通過(guò)電話來(lái)“聽(tīng)”網(wǎng)上的信息的前提是需要一個(gè)公共語(yǔ)言。建立于XML標(biāo)記語(yǔ)言規(guī)范基礎(chǔ)之上的VoiceXML(語(yǔ)音可擴(kuò)展標(biāo)記語(yǔ)言),可以與數(shù)據(jù)庫(kù)、HTML、WML以及其它文檔處理和發(fā)布系統(tǒng)進(jìn)行無(wú)縫資料交換,突破性地實(shí)現(xiàn)互聯(lián)網(wǎng)與電話網(wǎng)的融合。通過(guò)VoiceXML,可以像建立HTML的Web 應(yīng)用一樣輕松地建立語(yǔ)音應(yīng)用系統(tǒng)。

  用戶想知道某公司的當(dāng)前股價(jià),就打電話到提供該服務(wù)的公司。電話網(wǎng)上傳來(lái)的聲音信息通過(guò)DN URL的映射,到達(dá)了該網(wǎng)站的VoiceXML服務(wù)器。聲音信息要與互聯(lián)網(wǎng)上的文本信息很好地結(jié)合起來(lái),實(shí)現(xiàn)快速自動(dòng)交換,這就需要一個(gè)解析器,把文本、語(yǔ)音、圖像的數(shù)據(jù)以一個(gè)統(tǒng)一格式快速交換。在此基礎(chǔ)上,需要通過(guò)瀏覽器來(lái)接受用戶的請(qǐng)求,找出用戶所需要的內(nèi)容,然后再把內(nèi)容呈現(xiàn)給用戶,如圖1所示。

  Internet的核心是瀏覽。語(yǔ)音瀏覽技術(shù),類(lèi)似于互聯(lián)網(wǎng)上的Web瀏覽技術(shù),它以一種XML標(biāo)記語(yǔ)言為數(shù)據(jù)載體,通過(guò)各種網(wǎng)絡(luò)數(shù)據(jù)傳輸協(xié)議,而以Client/Server的方式為語(yǔ)音瀏覽器所解析,通過(guò)語(yǔ)音的方式呈現(xiàn)給用戶。這類(lèi)似于Web與IE瀏覽器的概念,只不過(guò)IE以圖像的方式在顯示器上將信息呈現(xiàn)出來(lái),而語(yǔ)音瀏覽器以語(yǔ)音的方式在電話、手機(jī)或其它語(yǔ)音手持設(shè)備的通道中呈現(xiàn)。IE接受用戶的鼠標(biāo)和鍵盤(pán)指令,而語(yǔ)音瀏覽器接受用戶的說(shuō)話為指令。語(yǔ)音瀏覽器通過(guò)解析VoiceXML,與語(yǔ)音識(shí)別和語(yǔ)音合成等方式進(jìn)行人機(jī)交互,從而實(shí)現(xiàn)說(shuō)話就可以上網(wǎng)的夢(mèng)想。

  2001年6月,由北京無(wú)限商機(jī)通信技術(shù)有限公司與北京郵電大學(xué)CTI中心聯(lián)合研制的VoiceXML中文語(yǔ)音瀏覽器通過(guò)了中國(guó)電信、中國(guó)移動(dòng)、中國(guó)聯(lián)通、中國(guó)網(wǎng)通、信息產(chǎn)業(yè)部郵電科技委、北京郵電大學(xué)、IBM公司專家的聯(lián)合權(quán)威技術(shù)鑒定。這是國(guó)內(nèi)首家研制成功的VoiceXML中文語(yǔ)音瀏覽器,它由VoiceXML解析器、語(yǔ)音識(shí)別引擎、語(yǔ)音合成引擎和語(yǔ)音通道等部分組成。

  VoiceXML解析器 VoiceXML解析器在語(yǔ)音瀏覽器中擔(dān)負(fù)控制中心的角色。VoiceXML解析器通過(guò)網(wǎng)絡(luò)協(xié)議,獲取VoiceXML腳本語(yǔ)言所描述的應(yīng)用文檔,解析該應(yīng)用文檔和其中各個(gè)標(biāo)志(Tag ),產(chǎn)生相應(yīng)的控制命令。

  語(yǔ)音識(shí)別引擎 語(yǔ)音識(shí)別引擎是VoiceXML語(yǔ)音瀏覽器的生命力所在。語(yǔ)音識(shí)別使計(jì)算機(jī)能理解用戶的語(yǔ)音命令,產(chǎn)生相應(yīng)的文字結(jié)果,送回VoiceXML解析器作處理。在VoiceXML語(yǔ)音瀏覽器中,語(yǔ)音識(shí)別引擎為命令式的識(shí)別引擎,它根據(jù)有限的語(yǔ)法(Grammar)來(lái)識(shí)別用戶的語(yǔ)音信號(hào),產(chǎn)生對(duì)應(yīng)語(yǔ)法定義的識(shí)別結(jié)果。在VoiceXML語(yǔ)音瀏覽器中,語(yǔ)法決定了用戶能說(shuō)什么、如何說(shuō)。好的語(yǔ)法能帶給用戶良好的交互感覺(jué),也能從邏輯上提高語(yǔ)音識(shí)別引擎的識(shí)別率,使整個(gè)語(yǔ)音應(yīng)用的瀏覽流暢而輕松。

  圖1 語(yǔ)音互聯(lián)拓?fù)浣Y(jié)構(gòu)圖

  語(yǔ)音合成引擎 語(yǔ)音合成引擎將文字轉(zhuǎn)換為語(yǔ)音信號(hào),并通過(guò)語(yǔ)音通道播放給用戶。VoiceXML 語(yǔ)音合成引擎可以將文字轉(zhuǎn)換成語(yǔ)音文件,也可以轉(zhuǎn)換成語(yǔ)音數(shù)據(jù)流,或者將已事先錄制好的語(yǔ)音文件直接播放或者以流的方式播放給語(yǔ)音通道。語(yǔ)音合成引擎把文字轉(zhuǎn)化為聲音的品質(zhì),決定了用戶對(duì)系統(tǒng)的直接感覺(jué)。

  語(yǔ)音通道 語(yǔ)音通道是傳輸用戶的語(yǔ)音數(shù)據(jù)信號(hào)和合成引擎所產(chǎn)生的聲音數(shù)據(jù)信號(hào)的傳遞通道,它連接語(yǔ)音采集和播放設(shè)備、語(yǔ)音識(shí)別引擎的語(yǔ)音輸入端、語(yǔ)音合成引擎的語(yǔ)音輸出端。


  語(yǔ)音互聯(lián):驅(qū)動(dòng)產(chǎn)業(yè)價(jià)值鏈


  到2001年,全球?qū)⒂?0億多部電話投入使用,任何企業(yè)都不應(yīng)該置身于這些用戶視線之外。語(yǔ)言互聯(lián)將從根本上改變企業(yè)與用戶“溝通”的方式,以及用戶與企業(yè)互動(dòng)的方式。

  語(yǔ)音互聯(lián)網(wǎng)將最終形成由語(yǔ)音技術(shù)開(kāi)發(fā)商-應(yīng)用/內(nèi)容提供商-語(yǔ)音服務(wù)提供商-電信運(yùn)營(yíng)商-終端廠商組成的產(chǎn)業(yè)價(jià)值鏈(見(jiàn)圖2)。

  北京無(wú)限商機(jī)通信技術(shù)有限公司總裁廖杰遠(yuǎn)先生認(rèn)為,形成一個(gè)良性的產(chǎn)業(yè)鏈的前提,就是必須有一個(gè)非常清晰的盈利模式。語(yǔ)音互聯(lián)一開(kāi)始就明確定位為電信的增值業(yè)務(wù)。而一項(xiàng)新的增值業(yè)務(wù)能否取得成功,取決于是否有一個(gè)開(kāi)放靈活的運(yùn)行平臺(tái),是否有滿足用戶需要的豐富實(shí)用的內(nèi)容,是否有性能出色的終端產(chǎn)品,是否有清晰的商業(yè)模式。所有這些因素加起來(lái),才有可能保證新業(yè)務(wù)的成功。這顯然不是一兩家公司可以做到的。

  在語(yǔ)音識(shí)別技術(shù)領(lǐng)域,IBM ViaVoice一直保持著絕對(duì)的領(lǐng)先地位。中國(guó)科技大學(xué)訊飛公司推出了KD-2000漢語(yǔ)文語(yǔ)轉(zhuǎn)換系統(tǒng),將語(yǔ)音合成技術(shù)推進(jìn)到應(yīng)用水平。北京無(wú)限商機(jī)通信技術(shù)有限公司作為語(yǔ)音技術(shù)開(kāi)發(fā)商,已在語(yǔ)音瀏覽這一核心技術(shù)領(lǐng)域取得突破。

  由于語(yǔ)音應(yīng)用還處于初級(jí)階段,目前語(yǔ)音互聯(lián)網(wǎng)面臨的最大的問(wèn)題是服務(wù)和應(yīng)用內(nèi)容本身。不管是國(guó)外還是國(guó)內(nèi),語(yǔ)音門(mén)戶的數(shù)量還相當(dāng)少,提供的服務(wù)大多比較單調(diào),僅限于郵件、新聞、股票信息、天氣等一些本地化和個(gè)人化非常強(qiáng)的信息,而且,受閱讀速度和電話資費(fèi)等方面因素的影響,目前這些信息都經(jīng)過(guò)高度的“精簡(jiǎn)”。與傳統(tǒng)互聯(lián)網(wǎng)的海量信息相比,語(yǔ)音網(wǎng)站只能提供高度個(gè)性化和本地化的服務(wù)。因此,如果不完善服務(wù),形成規(guī)模,語(yǔ)音網(wǎng)站要想真正贏得用戶的青睞還比較困難。

 圖2 語(yǔ)音互聯(lián)產(chǎn)業(yè)鏈

  但我們同時(shí)也應(yīng)該看到,無(wú)論國(guó)外還是國(guó)內(nèi),已經(jīng)有越來(lái)越多的廠商支持和開(kāi)發(fā)基于VoiceXML在電子商務(wù)、通信、呼叫中心服務(wù)、個(gè)人信息服務(wù)、娛樂(lè)、辦公等方面的語(yǔ)音應(yīng)用。在基于VoiceXML 的語(yǔ)音門(mén)戶應(yīng)用中,用戶還可以自己開(kāi)發(fā)編寫(xiě)自己的語(yǔ)音網(wǎng)頁(yè),自由體現(xiàn)自我,建立眾多的個(gè)人語(yǔ)音網(wǎng)站。另外,對(duì)傳統(tǒng)Internet的改造或移植是語(yǔ)音互聯(lián)網(wǎng)的一個(gè)趨勢(shì),這樣就可以大量利用傳統(tǒng)Internet網(wǎng)絡(luò)資源為網(wǎng)絡(luò)用戶提供語(yǔ)音服務(wù)。

  移動(dòng)夢(mèng)網(wǎng)計(jì)劃的出臺(tái)使運(yùn)營(yíng)商能夠與ICP合作分成,提供全新的應(yīng)用服務(wù)。這無(wú)疑也將有力推動(dòng)基于VoiceXML的語(yǔ)音應(yīng)用以及語(yǔ)音互聯(lián)網(wǎng)的發(fā)展。

  對(duì)電信運(yùn)營(yíng)商而言,語(yǔ)音互聯(lián)網(wǎng)意味著話費(fèi)收入的增加,競(jìng)爭(zhēng)力的加強(qiáng)。目前在美國(guó),申請(qǐng)語(yǔ)音服務(wù)的用戶平均話費(fèi)增長(zhǎng)為12.8%。對(duì)服務(wù)提供商來(lái)說(shuō),語(yǔ)音門(mén)戶提供了較為清晰的盈利模式,是進(jìn)入開(kāi)放電信行業(yè)的良好途徑;對(duì)內(nèi)容提供商,語(yǔ)音應(yīng)用帶來(lái)新的贏利增長(zhǎng)點(diǎn),并獲得用戶的倍速擴(kuò)展;對(duì)電話終端廠商,語(yǔ)音上網(wǎng)無(wú)疑是新的產(chǎn)品賣(mài)點(diǎn)和增值點(diǎn)。

  語(yǔ)音門(mén)戶方興未艾


  語(yǔ)音門(mén)戶網(wǎng)站一般都采用了語(yǔ)音識(shí)別及合成技術(shù),相對(duì)于傳統(tǒng)的互聯(lián)網(wǎng)服務(wù)來(lái)說(shuō),它所提供的服務(wù)都是以語(yǔ)音的形式提交的,用戶只要撥打服務(wù)商的電話號(hào)碼,通過(guò)簡(jiǎn)單的語(yǔ)音口令,就可以獲得所需的網(wǎng)絡(luò)服務(wù),從而將互聯(lián)網(wǎng)的門(mén)檻降低到“零”。

  據(jù)Kelsey咨詢公司估計(jì),到2005年,在北美會(huì)有4500萬(wàn)無(wú)線電話用戶經(jīng)常使用語(yǔ)音門(mén)戶。

  事實(shí)上,語(yǔ)音門(mén)戶在國(guó)外的發(fā)展相對(duì)于國(guó)內(nèi)較早。在Yahoo!宣布與Net2Phone聯(lián)手向Yahoo!郵件用戶提供基于電話的Internet內(nèi)容服務(wù)、語(yǔ)音郵件及免費(fèi)長(zhǎng)話服務(wù)之后,其競(jìng)爭(zhēng)對(duì)手Lycos也推出了新的語(yǔ)音門(mén)戶。Oracle移動(dòng)電話分公司OracleMobile.com也在其無(wú)線網(wǎng)絡(luò)入口站點(diǎn)上添加了語(yǔ)音。此外,還有美國(guó)在線、InternetSpeech.com、Quack.com和TelSurf等公司也提供語(yǔ)音門(mén)戶網(wǎng)站。

  2000年11月24日,TOM.COM在國(guó)內(nèi)開(kāi)通了語(yǔ)音門(mén)戶“TOM及時(shí)語(yǔ)”,用戶通過(guò)撥打熱線電話,通過(guò)與系統(tǒng)的語(yǔ)音交互,就可獲得個(gè)人理財(cái)、語(yǔ)音郵件、航班查詢、北京地區(qū)酒店預(yù)定、定餐及叫車(chē)、全球新聞、天氣預(yù)報(bào)等方面的服務(wù)。北京無(wú)限商機(jī)網(wǎng)絡(luò)技術(shù)有限公司也推出了“電話家園”服務(wù),針對(duì)電話用戶提供電話郵件、股票、游戲、航班、個(gè)人主頁(yè)、購(gòu)票等語(yǔ)音應(yīng)用服務(wù)。

中國(guó)計(jì)算機(jī)報(bào) 2001/10/22



相關(guān)鏈接:
融合通訊還有多遠(yuǎn)? 2003-04-15
我國(guó)語(yǔ)音互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展和統(tǒng)一標(biāo)準(zhǔn)規(guī)范VAP探討 2002-03-04
北京無(wú)限商機(jī) 2002-03-04
北郵UBO共建實(shí)驗(yàn)室致力語(yǔ)音數(shù)據(jù)兩網(wǎng)融合 2002-01-23
企業(yè)服務(wù)新形象——UBO Tel-win智能總機(jī) 2001-12-20