首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識(shí)別(ASR)  語音識(shí)別產(chǎn)品


語音識(shí)別新天地

雅文

  語音識(shí)別技術(shù)一直是計(jì)算機(jī)領(lǐng)域研究的重點(diǎn)。IBM ViaVoice Telephony技術(shù)是IBM公司的中文ViaVoice語音識(shí)別技術(shù)在電話通信領(lǐng)域中的延伸和發(fā)展,它提供了一個(gè)開放式的語音識(shí)別引擎和一系列應(yīng)用工具,使得語音識(shí)別功能可以被方便快速地集成到電話系統(tǒng)中。

  具體說來,普通話ViaVoice Telephony技術(shù)的特點(diǎn)包括:1、與說話人無關(guān),任何人都可以使用;2、高識(shí)別率,內(nèi)部的語音識(shí)別引擎是使用真實(shí)的電話信道語音數(shù)據(jù)訓(xùn)練得到的,在正常的電話信道(包括普通電話和手機(jī))的噪音下具有很高的識(shí)別率;3、無限詞匯量,由于語音識(shí)別內(nèi)核是比音節(jié)還要小的單元,所以對(duì)于開發(fā)人員定義的任何詞表,它都可以很好地辨識(shí);4、連續(xù)發(fā)音,使用者不需要在詞匯間有任何停頓,可以同系統(tǒng)連續(xù)交談;5、多語種支持,除了支持中文普通話和粵語之外,系統(tǒng)同時(shí)支持美國英語、英國英語、法語和德語;6、多候選集的輸出,可以輸出不同候選結(jié)果的相似度得分;7、支持聲學(xué)加詞,說話人只需輸入語音信號(hào)即可完成加詞;8、支持動(dòng)態(tài)加詞,系統(tǒng)在運(yùn)行狀態(tài)下也可以動(dòng)態(tài)地?cái)U(kuò)大可識(shí)別的詞匯集;9、支持語音合成,高自然度、高清晰度、高可懂度的文語轉(zhuǎn)換系統(tǒng)是普通話ViaVoice Telephony技術(shù)的重要構(gòu)件;10、信道自適應(yīng),系統(tǒng)可以自動(dòng)適應(yīng)不同信噪比的電話信道;11、與硬件無關(guān)的標(biāo)準(zhǔn)C/C++接口,可讓系統(tǒng)方便地掛接語音識(shí)別和語音合成引擎;12、自然語言理解模塊,提供更加人性化的人機(jī)對(duì)話接口;13、出色的可伸縮性,提供從小型辦公室到企業(yè)級(jí)電話語音系統(tǒng)解決方案,并提供全自動(dòng)的動(dòng)態(tài)負(fù)載平衡。此外,IBM中國研究中心在IBM美國Watson研究中心的支持下,已經(jīng)在語音識(shí)別的電話應(yīng)用領(lǐng)域積累了多年的經(jīng)驗(yàn)和技術(shù)。該項(xiàng)技術(shù)提供的語音識(shí)別引擎和語音合成引擎可以客戶機(jī)/服務(wù)器的方式同IVR(Interactive Voice Responding)系統(tǒng)對(duì)話,共同組成一個(gè)先進(jìn)的和智能化的分布式電話語音系統(tǒng),支持單機(jī)和多機(jī)模式。

  同時(shí),IBM ViaVoice電話語音內(nèi)核和工具庫還為開發(fā)人員提供了開發(fā)電話語音識(shí)別應(yīng)用程序的工具。其中,前者為應(yīng)用程序提供了運(yùn)行平臺(tái);后者則為開發(fā)和測試應(yīng)用程序提供了一套實(shí)用程序。該工具庫對(duì)Tcl/Tk腳本語言進(jìn)行了擴(kuò)展,簡化了應(yīng)用程序的開發(fā)和定制過程,并提供了與硬件無關(guān)的語音識(shí)別和語音合成引擎的C/C++接口,使得開發(fā)人員可以開發(fā)面向?qū)ο蟮慕鉀Q方案。工具庫中還包括了兩個(gè)示例程序,可以幫助用戶理解如何將語音識(shí)別集成到電話語音應(yīng)用程序中。另外,軟件中還附帶了幾個(gè)實(shí)用程序,來協(xié)助開發(fā)人員開發(fā)、測試和管理電話語音識(shí)別應(yīng)用程序。

  普通話ViaVoice Telephony技術(shù)具有廣泛的應(yīng)用前景,任何VRU(Voice Responding Unit)應(yīng)用都可以同語音識(shí)別功能相結(jié)合,提供人性化的交互界面。不久前,我們杭州三匯數(shù)字信息技術(shù)有限公司和IBM公司就關(guān)于ViaVoice Telephony的應(yīng)用簽訂了合作協(xié)議,從而使得我公司成為率先應(yīng)用這一新技術(shù)的國內(nèi)語音卡生產(chǎn)商及ISV。在與ViaVoice Telephony技術(shù)結(jié)合之后,我公司開發(fā)生產(chǎn)的語音卡可以徹底解決以前按鍵無法解決的地名、人名、股票名稱等漢字詞語輸入問題,且具備高識(shí)別率、無限詞匯量、連續(xù)發(fā)音、與說話人無關(guān)等特點(diǎn)。目前,我公司已成功地完成了股票語音查詢系統(tǒng)、機(jī)器人接線員、鐵路自動(dòng)票務(wù)中心、民航語音呼叫中心、郵政184自動(dòng)查詢系統(tǒng)等項(xiàng)目。其中,江蘇省諫壁電廠經(jīng)過嚴(yán)格測試,已決定使用機(jī)器人總機(jī)接線員,任何人都可以通過有線或無線電話用自然語言直接叫機(jī)器人接線員接通某人的手機(jī)、辦公室或家庭電話。

  相信,隨著ViaVoice Telephony技術(shù)在通信、金融、旅游以及醫(yī)療等領(lǐng)域的進(jìn)一步推廣和應(yīng)用,人們的生活必將更加多姿多彩。

摘自《中國計(jì)算機(jī)用戶》2000年1月31日

 



相關(guān)鏈接:
IBM推出Linux版本的ViaVoice 2002-01-30
Intel推出語音軟件項(xiàng)目 2002-01-30
國內(nèi)電腦語音識(shí)別技術(shù)屢獲突破 2002-01-30
IBM公司舉行ViaVoice電話語音識(shí)別新技術(shù)發(fā)布會(huì) 2002-01-30
語音識(shí)別用于國內(nèi)呼叫中心 2002-01-30

分類信息:  語音合成TTS_與_語音識(shí)別ASR     技術(shù)_語音合成_新聞   技術(shù)_語音識(shí)別_新聞