首頁(yè)>>廠商>>語(yǔ)音識(shí)別與合成>>天朗語(yǔ)音

天朗分布式語(yǔ)音識(shí)別系統(tǒng)在語(yǔ)音門(mén)戶中的使用

2003/10/13

1.語(yǔ)音門(mén)戶發(fā)展的背景

  語(yǔ)音門(mén)戶是指基于互聯(lián)網(wǎng)平臺(tái),應(yīng)用語(yǔ)音識(shí)別、語(yǔ)音合成和其他技術(shù),為固定電話、移動(dòng)電話以及使用手持設(shè)備(如:PDA)的用戶提供語(yǔ)音訪問(wèn)互聯(lián)網(wǎng)并獲取網(wǎng)上資訊的門(mén)戶,這是全球互聯(lián)網(wǎng)發(fā)展的最新動(dòng)態(tài)。

  由于傳統(tǒng)的上網(wǎng)方式限制了互聯(lián)網(wǎng)的上網(wǎng)人數(shù),互聯(lián)網(wǎng)的訪問(wèn)模式逐漸從單一的訪問(wèn)方式向多種用戶終端發(fā)展 ,如:電話、移動(dòng)電話、PDA、機(jī)頂盒等。在當(dāng)今科技飛速發(fā)展的地區(qū),語(yǔ)音上網(wǎng)成為繼無(wú)線WAP上網(wǎng)之后的又一個(gè)發(fā)展熱點(diǎn)。人們喜歡用人類自然的語(yǔ)音,通過(guò)友好的語(yǔ)音交互方式直接來(lái)獲取信息和服務(wù)。1999年 ,Evans Group Research分析了對(duì)250個(gè)使用不同語(yǔ)音系統(tǒng)的用戶進(jìn)行調(diào)查,調(diào)查的結(jié)果反饋和定量分析表明:對(duì)語(yǔ)音系統(tǒng)和按鍵式系統(tǒng)的使用受歡迎程度,83%的用戶更喜歡使用語(yǔ)音系統(tǒng)而不是使用按鍵式系統(tǒng);而對(duì)于語(yǔ)音驅(qū)動(dòng)系統(tǒng)和與坐席進(jìn)行通話,74%的用戶更傾向于前者。

  語(yǔ)音訪問(wèn),作為人類最原始、最自然、最人性化,也是最有效的交流方式,正以其不可阻擋的強(qiáng)勁勢(shì)頭融入到互聯(lián)網(wǎng)中。在美國(guó)市場(chǎng),以Tellme.com和Nuance 、SpeechWorks為代表的企業(yè)異軍突起 ,倡導(dǎo)人性化的語(yǔ)音上網(wǎng)服務(wù)。隨后Yahoo、Lycos等著名互聯(lián)網(wǎng)公司紛紛進(jìn)入相應(yīng)的服務(wù)領(lǐng)域,建立大規(guī)模的語(yǔ)音門(mén)戶網(wǎng)站,而AOL則提供所謂AOL-By-Phone服務(wù)。

  從技術(shù)角度看,過(guò)去數(shù)十年來(lái),語(yǔ)音識(shí)別(ASR)技術(shù)、文語(yǔ)轉(zhuǎn)換(TTS)技術(shù)已經(jīng)從實(shí)驗(yàn)室中逐步走向成熟,其算法的復(fù)雜性也逐年下降,從而使這些技術(shù)逐步在市場(chǎng)中得以應(yīng)用;另一方面,計(jì)算機(jī)的運(yùn)算能力每?jī)赡昃头环矠檫@些技術(shù)的商業(yè)應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ);再加上移動(dòng)用戶終端的種類與功能也在以前所未有的速度增長(zhǎng);所有這些技術(shù)的發(fā)展都為基于語(yǔ)音的互聯(lián)網(wǎng)門(mén)戶的發(fā)展提供的可靠的保證。

2.語(yǔ)音門(mén)戶

  豐富的網(wǎng)絡(luò)內(nèi)容,電話的普及。所謂的語(yǔ)音門(mén)戶是集合了所有那些已經(jīng)成熟的網(wǎng)絡(luò)資源的一種新型網(wǎng)站。那么語(yǔ)音門(mén)戶到底是什么呢?語(yǔ)音門(mén)戶就是通過(guò)任何一部電話使用人類自然的語(yǔ)音來(lái)訪問(wèn)互聯(lián)網(wǎng)上的一些基本信息、電子商務(wù)以及個(gè)人通訊服務(wù)。語(yǔ)音門(mén)戶闡明的是使用電話來(lái)訪問(wèn)互聯(lián)網(wǎng)上的相關(guān)內(nèi)容和信息。

  對(duì)于用戶而言,通過(guò)使用電話的會(huì)話方式來(lái)瀏覽信息和管理事務(wù)仍然是目前最自然和最有效的方法之一。隨著計(jì)算機(jī)運(yùn)算能力的提高和識(shí)別技術(shù)算法的快速發(fā)展,促使基于各種平臺(tái)的語(yǔ)音識(shí)別系統(tǒng)能識(shí)別人類的自然會(huì)話。在20世紀(jì)90年代中期以來(lái),許多主要的有自己獨(dú)特技術(shù)的公司開(kāi)始運(yùn)轉(zhuǎn)語(yǔ)音商務(wù)(基于語(yǔ)音的電子商務(wù))系統(tǒng)。他們這樣做的目的是為了給那些希望通過(guò)使用語(yǔ)音技術(shù)無(wú)論在何時(shí)、何地都能獲得大量的信息和查詢一些實(shí)時(shí)股票交易信息的人提供服務(wù)。正如個(gè)人通過(guò)使用計(jì)算機(jī)來(lái)解決訪問(wèn)因特網(wǎng)的方法一樣,這些圍繞著基于語(yǔ)音技術(shù)應(yīng)用來(lái)展開(kāi)的一種新型的網(wǎng)絡(luò)叫做語(yǔ)音門(mén)戶。

  語(yǔ)音門(mén)戶發(fā)展到現(xiàn)在,越來(lái)越多的公司正迅速朝著包含有各種服務(wù)(如:統(tǒng)一消息、網(wǎng)上購(gòu)物)和基于互連網(wǎng)的各種內(nèi)容(如:電影,黃頁(yè))的網(wǎng)站發(fā)展,從而讓用戶只要通過(guò)任何一部電話就能使所有的這些都成為有用信息。企業(yè)和電子商務(wù)公司也明白通過(guò)語(yǔ)音技術(shù)和全球所擁有的電話用戶人群來(lái)發(fā)展他們的用戶是一個(gè)非常好的機(jī)會(huì);谛袠I(yè)技術(shù)標(biāo)準(zhǔn)的出現(xiàn)和產(chǎn)品實(shí)用性的加強(qiáng)將加快語(yǔ)音門(mén)戶的發(fā)展,同樣對(duì)于語(yǔ)音行業(yè)標(biāo)準(zhǔn)的產(chǎn)生也將有助于互聯(lián)網(wǎng)的快速成長(zhǎng)。

3.市場(chǎng)的影響產(chǎn)生對(duì)語(yǔ)音門(mén)戶的需求

  市場(chǎng)的多方面影響以及結(jié)合一些實(shí)際的需求即某一用戶無(wú)論在何時(shí),何地都能直接通過(guò)語(yǔ)音來(lái)提供給個(gè)人在某方面的內(nèi)容以及服務(wù)。

3.1隨著個(gè)人電話的普及,尤其是手機(jī)的普及。
  隨著手機(jī)服務(wù)商的快速增加,手機(jī)的用戶數(shù)也將隨之增加。預(yù)計(jì)到2003年全球?qū)?huì)有十億個(gè)手機(jī)用戶。這些數(shù)字表明未來(lái)通過(guò)電話來(lái)訪問(wèn)互聯(lián)網(wǎng)無(wú)疑是最普遍的一種工具,既然人類的自然語(yǔ)音通過(guò)電話能夠被識(shí)別何理解的話,那么電話將無(wú)疑是最適合的一種工具用來(lái)提供關(guān)于大多數(shù)用戶所需求的市場(chǎng)和服務(wù)。

3.2互聯(lián)網(wǎng)的快速發(fā)展
  在最近5年以來(lái),互聯(lián)網(wǎng)作為信息傳輸?shù)囊环N新興的媒體而使整個(gè)世界發(fā)生了根本性的改變,現(xiàn)在全球大約有2億個(gè)用戶使用互聯(lián)網(wǎng)作為他們?cè)谌粘I钪斜夭豢缮俚囊徊糠,用戶通過(guò)互聯(lián)網(wǎng)能得到他們所想要的便利、娛樂(lè)以及提高他們的工作效率。

  互聯(lián)網(wǎng)提供了大量的各種各樣的實(shí)用信息,但是要獲得這些信息并不是隨處可得,用戶必須在家里或辦公室通過(guò)電腦聯(lián)網(wǎng)來(lái)獲得這些信息。這對(duì)于在一個(gè)信息快速更新的社會(huì)并不是一件令人愉快的事情。所以消費(fèi)者對(duì)于互聯(lián)網(wǎng)內(nèi)容和信息的大量需求促使各種生產(chǎn)廠商設(shè)計(jì)出各種各樣的產(chǎn)品,如PDA、手機(jī)等這些可隨身攜帶又能直接與網(wǎng)絡(luò)互聯(lián)的產(chǎn)品。

  這些設(shè)備的快速發(fā)展促使通過(guò)手持設(shè)備和手機(jī)來(lái)訪問(wèn)互聯(lián)網(wǎng)的內(nèi)容是可實(shí)現(xiàn)的,而基于文本的互聯(lián)網(wǎng)的內(nèi)容也是非常有用的,但緩慢的傳輸速度與互聯(lián)網(wǎng)連接的困難以及這些設(shè)備的小屏幕都限制了這些設(shè)備的使用價(jià)值。

  電信的增值服務(wù)改變用戶無(wú)論在何地、何時(shí)的要求都能直接訪問(wèn)互聯(lián)網(wǎng)的內(nèi)容是激動(dòng)人心的。但個(gè)性化的服務(wù)可使個(gè)人和商務(wù)快速獲得和容易訪問(wèn)他們所關(guān)心的內(nèi)容和信息。因而語(yǔ)音門(mén)戶的出現(xiàn)及時(shí)改變了電話的應(yīng)用范圍,從而使電話成為從網(wǎng)絡(luò)媒體上得到語(yǔ)音和數(shù)據(jù)信息的一種最便利的設(shè)備。

4.語(yǔ)音門(mén)戶的優(yōu)勢(shì)

  語(yǔ)音門(mén)戶簡(jiǎn)單易用,讓用戶可隨時(shí)隨地輕松獲取各種信息--無(wú)論是通過(guò)PC、手機(jī)或者固定電話,也無(wú)論是在辦公室、家中還是在路上、車上,"瀏覽"網(wǎng)絡(luò)的過(guò)程變得輕松無(wú)比!

  根據(jù)語(yǔ)音門(mén)戶平臺(tái)面向的對(duì)象來(lái)說(shuō),我們可以從個(gè)人,也就是最終消費(fèi)用戶,以及企業(yè),也就是服務(wù)提供方,兩個(gè)角度來(lái)考察語(yǔ)音門(mén)戶平臺(tái)的優(yōu)勢(shì)。首先,對(duì)廣大最終用戶來(lái)講,語(yǔ)音門(mén)戶平臺(tái)方便、快捷、自然,而且不需要額外成本來(lái)添加設(shè)備。用戶只要對(duì)著普通電話說(shuō)話就行了,不再受制于按鍵音頻,不再受制于電腦和一大堆連線,也不再受制于網(wǎng)絡(luò)專業(yè)知識(shí)的貧乏。同時(shí),用戶還可以根據(jù)自己的喜好定制個(gè)性化服務(wù),集中關(guān)注個(gè)人業(yè)務(wù);并且可以從各種各樣的信息源、信息終端中解放出來(lái),獲得統(tǒng)一消息服務(wù)帶來(lái)的自由和方便。

  其次,企業(yè)本身也必然會(huì)得益于語(yǔ)音門(mén)戶平臺(tái)。企業(yè)利用語(yǔ)音門(mén)戶,不僅可以通過(guò)節(jié)省人工坐席成本來(lái)低成本地發(fā)布信息,提供客戶服務(wù),而且可以實(shí)現(xiàn)其他一些有價(jià)值的業(yè)務(wù),開(kāi)創(chuàng)新的市場(chǎng)空間和利潤(rùn)。

  總之,語(yǔ)音門(mén)戶將電話交互過(guò)程從以廠商為中心轉(zhuǎn)向以用戶為中心。這一轉(zhuǎn)變?cè)跒橛脩籼岣咝屎徒档蜆I(yè)務(wù)成本的同時(shí),還將提高用戶的滿意度。未來(lái)數(shù)年,語(yǔ)音門(mén)戶將大大改變?nèi)藗兪褂秒娫挼姆绞揭约皬S商與主叫用戶溝通的方式。在當(dāng)今以廠商為中心的模式中,主叫用戶只能以掛斷電話的方式來(lái)"擺脫"某一企業(yè)的按鍵式交互語(yǔ)音應(yīng)答(IVR)系統(tǒng) 。而在未來(lái)以用戶為中心的模式中 ,主叫用戶可與語(yǔ)音門(mén)戶展開(kāi)交互式對(duì)話,可以象"網(wǎng)上沖浪"般快捷、方便地從一家企業(yè)自由地 "跳" 到另外一家企業(yè)。

5.語(yǔ)音識(shí)別技術(shù)

  電話的出現(xiàn)已經(jīng)有120多年的歷史,而使用在商業(yè)應(yīng)用上相關(guān)的語(yǔ)音識(shí)別最近幾十年才開(kāi)始進(jìn)行研究。事實(shí)上,一直到90年代中期基于電話并且提供大量的詞匯、使用者不需要經(jīng)過(guò)任何的培訓(xùn)并且支持各種類型電話的語(yǔ)音識(shí)別軟件才出現(xiàn),目前語(yǔ)音識(shí)別系統(tǒng)能支持自然的習(xí)慣用語(yǔ),例如"我想查詢四川長(zhǎng)虹的最新價(jià)格"。

  語(yǔ)音識(shí)別的處理是在網(wǎng)絡(luò)服務(wù)器中進(jìn)行處理而不是在電話中進(jìn)行處理,可升級(jí)的系統(tǒng)配置可支持幾百萬(wàn)訪問(wèn)者同時(shí)也支持通過(guò)不同的線路來(lái)發(fā)出相同的信息請(qǐng)求來(lái)進(jìn)行識(shí)別,訪問(wèn)者也可以在他們得到他們想要的信息后自動(dòng)返回。

  對(duì)于目前所采用的任何一種新建的主流服務(wù)它們必須要有一定靈活性和易使用性。使用基于語(yǔ)音服務(wù)來(lái)構(gòu)建的所有商業(yè)信息是因?yàn)檎Z(yǔ)音識(shí)別提供了對(duì)不同年齡和不同生活方式的用戶可以通過(guò)他們手中的任何一部電話來(lái)得到他們所需要的信息。

6.語(yǔ)音門(mén)戶的核心技術(shù)
  語(yǔ)音門(mén)戶的核心技術(shù)是Voice-XML(簡(jiǎn)稱為V-XML)。
  V-XML是W3C組織制定的主要用于電話語(yǔ)音識(shí)別的一個(gè)腳本描述語(yǔ)言,它和現(xiàn)在的IVR系統(tǒng)常用的腳本的功能和目的類似,但是不同的是,V-XML是一個(gè)標(biāo)準(zhǔn),它是在眾多IVR應(yīng)用的經(jīng)驗(yàn)基礎(chǔ)上加以規(guī)整、合并而制定出來(lái)的,繼承了眾家之長(zhǎng)。目前,有許多廠商都采用該描述語(yǔ)言作為他們建立IVR系統(tǒng)的描述語(yǔ)言。

  V-XML本身就定義了語(yǔ)音識(shí)別有關(guān)的tag,因此,集成天朗分布式語(yǔ)音識(shí)別系統(tǒng)到VXML引擎中變得更加簡(jiǎn)單。只要參照VXML本身的定義來(lái)做就行。另外,VXML腳本也不過(guò)是一種IVR常用的腳本語(yǔ)言,因此,集成工作和IVR系統(tǒng)集成天朗分布式語(yǔ)音識(shí)別系統(tǒng)基本類似。

天朗語(yǔ)音公司供稿 CTI論壇編輯



相關(guān)鏈接:
天朗分布式語(yǔ)音識(shí)別系統(tǒng)改造傳統(tǒng)IVR 2003-10-10
天朗分布式語(yǔ)音識(shí)別系統(tǒng)產(chǎn)品白皮書(shū) 2003-09-27
鍵盤(pán)漸成擺設(shè),未來(lái)手機(jī)一呼通 2003-09-22
天朗語(yǔ)音成功開(kāi)發(fā)出分布式語(yǔ)音識(shí)別系統(tǒng) 2003-09-19
天朗"一呼通",提升智能化 2003-04-28

分類信息:  語(yǔ)音識(shí)別ASR_與_voicexml  語(yǔ)音識(shí)別ASR_與_voicexml     技術(shù)_語(yǔ)音識(shí)別_解決方案   技術(shù)_voicexml_解決方案   技術(shù)_voicexml_文摘