Nuance 7.0技術(shù)白皮書

2001/12/29

Nuance簡介

  Nuance 公司是為電信、企業(yè)和基于互聯(lián)網(wǎng)的系統(tǒng)提供自然語音接口軟件的企業(yè),處于全球領(lǐng)先地位。成功的應(yīng)用例子包括:United Parcel Service (UPS)公司的包裹跟蹤系統(tǒng)、美國航空公司的航班信息系統(tǒng)、Charles Schwab公司提供股票投資和報(bào)價(jià)語音查詢的 VoiceBroker系統(tǒng)。

  Nuance系統(tǒng)的獨(dú)特性和成功要?dú)w功于多個(gè)因素。其中,軟件的結(jié)構(gòu)、技術(shù)和實(shí)施方法對(duì)開發(fā)商有特別意義。

系統(tǒng)結(jié)構(gòu)概述

  系統(tǒng)結(jié)構(gòu)準(zhǔn)確度高、伸縮空間大、質(zhì)量穩(wěn)定可靠,是創(chuàng)建高質(zhì)量的語音識(shí)別系統(tǒng)的理想之選

結(jié)構(gòu)

  Nuance是采用基于分布式的結(jié)構(gòu),因此系統(tǒng)靈活、可靠,成本效率高。

先進(jìn)的核心功能

  本系統(tǒng)具有內(nèi)容豐富的功能集,其中有些功能是Nuance獨(dú)有的,可完成復(fù)雜的語音應(yīng)用程序,能隨時(shí)隨地向呼叫者提供高質(zhì)量的服務(wù)。

配置選擇

  Nuance擁有眾多的合作伙伴,且涉及面廣,能提供可與Nuance系統(tǒng)集成的平臺(tái)和開發(fā)工具,因而顧客有廣闊的開發(fā)空間和配置選擇余地。

  本白皮書將幫助語音識(shí)別應(yīng)用程序開發(fā)商、集成商和技術(shù)決策者對(duì)Nuance結(jié)構(gòu)獲得全面的理解。如要對(duì)Nuance產(chǎn)品、服務(wù)、工具、配置選擇有更多、更系統(tǒng)的了解,請(qǐng)參考《Nuance系統(tǒng)指南》介紹部分。

Nuance 系統(tǒng)結(jié)構(gòu)概述

  Nuance系統(tǒng)的客戶/服務(wù)機(jī)的結(jié)構(gòu)可在Windows NT 及很多UNIX系統(tǒng)上運(yùn)行。它可靈活伸縮,支持很小到很大的應(yīng)用程序。利用這個(gè)結(jié)構(gòu),Nuance系統(tǒng)可在高效而節(jié)約成本地利用計(jì)算資源的同時(shí),支持特殊的交互式語音要求。下圖展示了Nuance系統(tǒng)的主要組件,隨后是每個(gè)部分的說明。

Figure圖 1:Nuance的分布式結(jié)構(gòu)

  Nuance API:Nuance系統(tǒng)提供了一系列應(yīng)用編程接口(API)。開發(fā)者可利用這些API創(chuàng)建語音應(yīng)用程序或與第三方平臺(tái)集成。這些語音應(yīng)用程序和Nuance系統(tǒng)的組件可以進(jìn)行交互,例如通過其中的一個(gè)API和識(shí)別客戶端(RecClient) 進(jìn)行交互。Nuance系統(tǒng)提供的API包括SpeechObjects、RCEngine、VRecServer C++ API、RCAPI和Dialog Builder(對(duì)話框構(gòu)造器)等。

  Java SpeechChannel和SpeechObjects:SpeechObjects屬于Java類,它封裝了對(duì)話框單元,利用SpeechChannel這個(gè)Java對(duì)象進(jìn)行識(shí)別并提供音頻功能。這一Nuance 應(yīng)用編程接口(API)讓您將應(yīng)用程序的開發(fā)集中在對(duì)話框?qū)哟,而不是客戶端的識(shí)別層次。

  識(shí)別客戶端:RecClient是處理應(yīng)用程序和Nuance系統(tǒng)間交互的過程,它處理音頻輸入和輸出,并支持有限的電話控制。音頻輸入可選擇取消回音然后作斷句。音頻輸出支持預(yù)錄音提示回放,為第三方的文本到語音轉(zhuǎn)換(TTS)系統(tǒng)提供了一個(gè)框架。

  在特定配置下,呼叫控制和提示回放由Nuance系統(tǒng)外的組件控制,RecClient也可用于偷聽模式。最后,RecClient將音頻傳給識(shí)別服務(wù)器(RecServer),并將事件和結(jié)果回傳給應(yīng)用程序。

  識(shí)別服務(wù)器:RecServer對(duì)從RecClient接收來的終端音頻進(jìn)行語音識(shí)別和自然語言理解。如果安裝了Verifier, 在需要校驗(yàn)時(shí),RecServer同時(shí)對(duì)音頻執(zhí)行聲紋鑒別。

  為識(shí)別語音并為表達(dá)內(nèi)容返回自然語言的解釋,RecServer需要一系列的聲學(xué)模型和語法。聲學(xué)模型和語法幫助服務(wù)器確定說話內(nèi)容。語法也用于解釋口頭詞匯的意思。應(yīng)用程序?qū)ecServer加載包中的聲學(xué)模型和語法進(jìn)行指定。語法也可在運(yùn)行時(shí)動(dòng)態(tài)地加載到RecServer上。

  資源管理器:Nuance資源管理器執(zhí)行實(shí)時(shí)載入平衡功能,以保證識(shí)別任務(wù)平均分配到可用的識(shí)別服務(wù)器,從而降低硬件需求,改善服務(wù)質(zhì)量。

  數(shù)據(jù)庫:Nuance系統(tǒng)的應(yīng)用程序使用數(shù)據(jù)庫來保存動(dòng)態(tài)語法和用戶資料。對(duì)于Nuance Verifier應(yīng)用程序,數(shù)據(jù)庫還保存鑒別音紋。對(duì)于某些Nuance功能,視其應(yīng)用程序情況,可能不需要數(shù)據(jù)庫。Nuance支持Oracle及符合ODBC(開放數(shù)據(jù)接口)標(biāo)準(zhǔn)的數(shù)據(jù)庫。另外,通過定做的數(shù)據(jù)庫提供軟件,任何關(guān)系型數(shù)據(jù)庫均可集成到Nuance應(yīng)用程序中。

  編譯服務(wù)器:編譯服務(wù)器用于運(yùn)行時(shí)動(dòng)態(tài)地編譯語法。編譯服務(wù)器只有在應(yīng)用程序中使用了動(dòng)態(tài)語法功能或SpeechObjects對(duì)象才需要。為了避免最終用戶等待,動(dòng)態(tài)語法通常在改變時(shí)重新編譯,而不是在使用時(shí)編譯。動(dòng)態(tài)語法可在RecClient控制下重新編譯。另外,管理程序中獨(dú)立的編譯服務(wù)器API也支持動(dòng)態(tài)語法的編譯。

  許可管理器:Nuance系統(tǒng)許要在多個(gè)機(jī)器上浮動(dòng),必須有許可管理器。運(yùn)行許可管理器過程的機(jī)器充當(dāng)許可服務(wù)器,負(fù)責(zé)向分布在網(wǎng)絡(luò)上的Nuance過程發(fā)放許可。

  文本到語音轉(zhuǎn)換(TTS)服務(wù)器(可選):文本到語音轉(zhuǎn)換(TTS)服務(wù)器為RecClient提供了播放來自第三方TTS產(chǎn)品音頻的框架,它在RecClient和第三方TTS軟件間充當(dāng)橋梁作用。在使用TTS服務(wù)器時(shí),應(yīng)用程序可播放基于文本的動(dòng)態(tài)合成的音頻輸出,代替或者配合預(yù)錄音提示。Nuance APIs

語音識(shí)別過程

  為了理解Nuance的結(jié)構(gòu),最重要的是大致了解識(shí)別過程,重點(diǎn)在客戶端、服務(wù)器和應(yīng)用程序。請(qǐng)注意,本篇試圖展現(xiàn)的是一個(gè)典型的簡單過程,和實(shí)際過程可能有出入,實(shí)際情況則視集成伙伴實(shí)施的電話功能而定。下圖為過程的步驟,隨后是每個(gè)步驟的說明。

圖2:語音識(shí)別過程Figure 2

  在進(jìn)行語音識(shí)別之前,每個(gè)應(yīng)用實(shí)例必須建立一個(gè)從應(yīng)用程序到客戶端的音頻輸入輸出的連接。

  注:每條電話線必須總有一個(gè)應(yīng)用實(shí)例和一個(gè)音頻連接。

  當(dāng)應(yīng)用實(shí)例和語音通道就緒后,系統(tǒng)經(jīng)過下列步驟(如上圖所示):

  1.RecClient端有電話到達(dá),RecClient通知應(yīng)用程序,系統(tǒng)接電話。

  2.系統(tǒng)要求RecClient播放第一個(gè)提示,呼叫者作出反應(yīng)。對(duì)文本到語音轉(zhuǎn)換提示,RecClient將要合成文本通過一個(gè)套接字發(fā)送到TTS服務(wù)器,并接收回傳的樣本。

  3.為識(shí)別呼叫方的反應(yīng),RecClient向資源管理器發(fā)送服務(wù)器請(qǐng)求(同時(shí)緩存音頻數(shù)據(jù)),資源管理器將RecClient指向最合適的RecServer。

  4.RecClient向RecServer發(fā)送一條識(shí)別請(qǐng)求。每個(gè)請(qǐng)求由音頻流和在應(yīng)用中的語法條目組成。

  該語法條目暗含了聲學(xué)模型,因?yàn)閮烧弑粌?nèi)置于RecServer加載的識(shí)別包里。

  1.RecServer接收到請(qǐng)求后,執(zhí)行識(shí)別任務(wù),然后將識(shí)別結(jié)果返回給RecClient。

  2.在此期間,資源管理器對(duì)RecServer的當(dāng)前載入的內(nèi)容進(jìn)行監(jiān)視。

  3.RecClient將識(shí)別結(jié)果發(fā)送給應(yīng)用程序。

  4.應(yīng)用程序作出相應(yīng)的響應(yīng),例如,進(jìn)行數(shù)據(jù)庫查詢或請(qǐng)求RecClient播放另一個(gè)提示,作為對(duì)用戶的響應(yīng)。

  5.呼叫者作出反應(yīng);RecClient發(fā)送下一個(gè)識(shí)別請(qǐng)求(見步驟4)。

識(shí)別結(jié)果

  每個(gè)識(shí)別完成后,Nuance系統(tǒng)將識(shí)別結(jié)果傳給應(yīng)用程序,應(yīng)用程序根據(jù)結(jié)果相應(yīng)做出響應(yīng)。識(shí)別結(jié)果包含豐富的信息供應(yīng)用程序使用,包括:

  下圖是識(shí)別結(jié)果的示意圖,包括被識(shí)別的文本、置信級(jí)別及自然語言解釋。

圖3:識(shí)別結(jié)果Figure 3

  可以要求識(shí)別引擎產(chǎn)生一個(gè)可能的結(jié)果集,來代替單獨(dú)的最佳結(jié)果。辦法是使用Nuance系統(tǒng)的N-best識(shí)別處理方法,它提供可能性由高到低排列的可能識(shí)別結(jié)果列表。要求識(shí)別器返回的結(jié)果最大數(shù)目可以自己設(shè)定。運(yùn)行時(shí),應(yīng)用程序會(huì)對(duì)每個(gè)結(jié)果相應(yīng)決定接受、拒絕、或者要求確認(rèn)。

  也可使用外部的應(yīng)用知識(shí)內(nèi)容來確定多結(jié)果中的哪一個(gè)是有效的。例如,經(jīng)紀(jì)業(yè)務(wù)應(yīng)用程序,它的用戶投資隨時(shí)間變化而變化。系統(tǒng)可使用簡單的語法來識(shí)別股票證券的名稱。識(shí)別時(shí),系統(tǒng)產(chǎn)生一個(gè)最佳前N個(gè)股票名稱的清單,標(biāo)明假設(shè)的股票證券名稱。應(yīng)用程序然后將每個(gè)清單項(xiàng)目(由最佳到最差)和現(xiàn)有股票證券名稱進(jìn)行比較,從而為該用戶找到可能性最大的一個(gè)。下圖展示的是這些多結(jié)果情況,每個(gè)結(jié)果都可能有它自身的已被識(shí)別的文本、NL解釋和置信度分值。在這一例中,請(qǐng)求了五個(gè)識(shí)別結(jié)果。

圖4:多識(shí)別結(jié)果Figure 4

識(shí)別客戶端

  現(xiàn)在我們仔細(xì)地看看系統(tǒng)結(jié)構(gòu)中的各個(gè)組件。本部分由語音獲取過程的概述開始,然后對(duì)識(shí)別客戶端主要功能進(jìn)行深入探討。

獲取語音

  RecClient是處理應(yīng)用程序和Nuance系統(tǒng)之間的交互的過程。RecClient管理音頻輸入輸出(一般是通過電話線)。RecClient支持有限的呼叫控制功能,為呼叫者提供激活Nuance識(shí)別服務(wù)的接口。語音應(yīng)用程序開發(fā)商通過API使用RecClient。重要的是,Nuance系統(tǒng)允許啟動(dòng)和運(yùn)行多通道、多線程的RecClient。

  下圖顯示了RecClient的主要特點(diǎn)。

圖5:識(shí)別客戶端Figure 5

  在語音獲取過程中,識(shí)別客戶端主要負(fù)責(zé)下列的任務(wù):

  也可選擇讓 RecClient執(zhí)行諸如應(yīng)答、轉(zhuǎn)接、掛機(jī)等電話控制。這些功能也可有IVR(交互語音響應(yīng))平臺(tái)來完成。

音頻提供器

  音頻提供器是RecClient的一個(gè)主要組件,用于連接Nuance系統(tǒng)和音頻輸入輸出設(shè)備;陔娫挼囊纛l提供器,同時(shí)也負(fù)責(zé)呼叫控制功能。Nuance支持各種不同的音頻提供器,包括:

  對(duì)于Nuance的集成伙伴,您選擇的接口決定了所需的音頻提供器。如果要使用RCEngine接口,處理音頻輸入輸出由Nuance系統(tǒng)處理。在這種情況下:

電話功能

  電話功能由Nuance系統(tǒng)或集成的IVR(交互式語音響應(yīng))平臺(tái)完成,視選擇哪一種配置方法而定。如果選擇和Nuance的IVR伙伴合作,電話由IVR平臺(tái)處理。如果選擇Dialogic、NMS、或 Aculab板卡,需使用Nuance接口來激活板上的電話功能。Nuance的電話功能包括:

  1.打電話

  2.回電話

  3.檢測掛機(jī)

  4.檢測 DTMF 撥號(hào)音

  5.呼叫轉(zhuǎn)移

  6.長線連接(有限電話會(huì)議)

識(shí)別服務(wù)器

  RecServer是根據(jù)來自RecClient的應(yīng)用程序的請(qǐng)求,進(jìn)行語音識(shí)別和自然語言解釋的處理模塊。語音應(yīng)用程序開發(fā)商不能直接操縱RecServer,而是向它請(qǐng)求服務(wù)。開發(fā)商也可使用IVR接口與Nuance系統(tǒng)聯(lián)絡(luò)。多數(shù)情況下,集成開發(fā)商使用一種RecClient接口直接與RecServer聯(lián)系。如果集成應(yīng)用程序必須直接操縱服務(wù)器,比如在使用舊式電話環(huán)境的情況下,則可使用VRSAPI將音頻直接傳給RecServer。

RecServer的任務(wù)

  和RecClient一樣,RecServer的運(yùn)作過程是在后臺(tái)完成運(yùn)行的。RecServer是共享資源,由資源管理器進(jìn)行管理,主要執(zhí)行三個(gè)任務(wù):語音識(shí)別、自然語言理解和聲紋鑒別。

  RecServer響應(yīng)來自RecClient的應(yīng)用程序請(qǐng)求,執(zhí)行語音識(shí)別功能。每個(gè)RecServer根據(jù)啟動(dòng)時(shí)加載的識(shí)別包中的一個(gè)或多個(gè)語法進(jìn)行識(shí)別。當(dāng)應(yīng)用程序請(qǐng)求識(shí)別時(shí),指定使用的識(shí)別語法。資源管理器跟蹤每個(gè)RecServer支持的語法并將識(shí)別請(qǐng)求轉(zhuǎn)向相應(yīng)的服務(wù)器。

  Nuance系統(tǒng)的最重要的功能之一是RecServer的自然語言理解能力。在應(yīng)用程序開發(fā)過程中,開發(fā)商指定多個(gè)檔位和一個(gè)特定語法。運(yùn)行時(shí),RecServer不僅識(shí)別講話的內(nèi)容(抄本), 而且通過在各個(gè)檔位中填入給定值來識(shí)別講話的意思(意義提。_@種任務(wù)的分配簡化了開發(fā)過程,因?yàn)閼?yīng)用程序不負(fù)責(zé)解釋識(shí)別結(jié)果。

  如果應(yīng)用程序中使用了Nuance Verifier,RecServer在識(shí)別處理的同時(shí)執(zhí)行聲紋鑒別。

RecServer和其它系統(tǒng)組件

  下圖說明RecServer和其它Nuance系統(tǒng)組件之間的交互情況。在每個(gè)交互過程中,由資源管理器建立連接,但RecServer和其它組件間的交互是直接進(jìn)行的。

圖6:識(shí)別服務(wù)器Figure 6

  在啟動(dòng)時(shí),RecServer和資源管理器建立連接,并不斷地接受RecClient連接。當(dāng)RecClient向資源管理器請(qǐng)求RecServer時(shí),資源管理器根據(jù)當(dāng)前的負(fù)載、可用的識(shí)別包及其它因素選擇最合適的RecServer。

  RecClient在通話時(shí)間內(nèi)必須一直連接著電話線路,因?yàn)镽ecClient必須獲取并處理完整的講話內(nèi)容,并在整個(gè)通話中不斷適應(yīng)講話者。相反,RecServer只在識(shí)別處理時(shí)才被使用。因此,RecServer是共享的資源,他們可以有效地利用CPU和系統(tǒng)的內(nèi)存資源。

資源管理器

  資源管理器執(zhí)行實(shí)時(shí)載入平衡,保證識(shí)別和校驗(yàn)任務(wù)平均分布到可用的RecServer上,從而降低硬件要求,提高服務(wù)質(zhì)量。資源管理器也是容錯(cuò)的關(guān)鍵組件。當(dāng)一個(gè)RecServer失效時(shí),資源管理器停止向其發(fā)送請(qǐng)求。

圖7:資源管理器Figure 7

  所有的RecClient和RecServer均與資源管理器連接。資源管理器跟蹤每個(gè)服務(wù)器支持的識(shí)別包,監(jiān)視服務(wù)器負(fù)載,對(duì)各個(gè)識(shí)別請(qǐng)求分配合適的服務(wù)器。

  注:多數(shù)應(yīng)用程序使用一個(gè)主資源管理器和一個(gè)輔資源管理器,以避免在某一點(diǎn)上的失效引起整個(gè)系統(tǒng)的關(guān)閉。一個(gè)資源管理器作為主要管理器,另一個(gè)作為后備,監(jiān)視所有的RecServer并對(duì)所有請(qǐng)求作出響應(yīng)。如果主資源管理器失效,另一個(gè)立即接管,不會(huì)降低系統(tǒng)的性能。

  資源管理器還管理多個(gè)編譯服務(wù)器、TTS服務(wù)器和其它系統(tǒng)組件。

資源管理器和其它系統(tǒng)組件

  資源管理器和其它系統(tǒng)組件的交互情形如下:

  1.RecClient請(qǐng)求使用某個(gè)語法進(jìn)行識(shí)別

  2.資源管理器找到具有該語法的最空閑的RecServer并通知RecClient。

  3.RecClient動(dòng)態(tài)地連接該服務(wù)器并傳入斷句后的講話。

  4.RecServer執(zhí)行識(shí)別并將結(jié)果發(fā)送給RecClient。

  RecClient和資源管理器間的磋商只需要很短時(shí)間,對(duì)應(yīng)用程序是透明的。在此期間,RecClient將語音緩存,所以音頻不會(huì)丟失。資源管理器連接是動(dòng)態(tài)的,所以當(dāng)RecClient和RecServer處理啟動(dòng)時(shí),他們各自和資源管理器連接,結(jié)果,每個(gè)RecClient和RecServer立即就緒,可以發(fā)出或者處理識(shí)別請(qǐng)求。這種設(shè)置允許在資源管理器連續(xù)運(yùn)行的情況下,按需要增加或減少客戶或服務(wù)機(jī)。

動(dòng)態(tài)語法

  是Nuance結(jié)構(gòu)的一個(gè)重要部分,它能被運(yùn)行應(yīng)用程序動(dòng)態(tài)創(chuàng)建和修改。動(dòng)態(tài)語法使系統(tǒng)能識(shí)別其它的類型��因?yàn)橛行┫到y(tǒng)中要識(shí)別的項(xiàng)目必須等到運(yùn)行時(shí)才能確定,這些例子有:

  1.在某些應(yīng)用程序中,要根據(jù)數(shù)據(jù)庫中可變化的項(xiàng)目或者其它只有運(yùn)行時(shí)才能知道的動(dòng)態(tài)數(shù)據(jù)來創(chuàng)建、更新語法。

  2.為個(gè)別用戶定做的應(yīng)用程序,比如帶有每個(gè)人的私人地址表的撥號(hào)系統(tǒng),或帶有可定做收款人清單的帳單結(jié)算系統(tǒng)。

  可以通過程序或者利用語音和基于文本的接口由用戶輸入,將新的短語加到動(dòng)態(tài)語法中。通過語音接口,即念出短語來增加短語的過程,叫登記。通過這種機(jī)制創(chuàng)建的語法對(duì)講話者有依賴性,因?yàn)榘l(fā)音是依據(jù)用戶的口頭輸入產(chǎn)生的,只能用于對(duì)該講話者的識(shí)別。由GSL或基于文本接口創(chuàng)建的動(dòng)態(tài)語法不依賴于講話者:發(fā)音通過詞典和自動(dòng)發(fā)音生成器生成,適用于任何講話者。

動(dòng)態(tài)語法的工作方式

  本部分詳述動(dòng)態(tài)語法和其它Nuance系統(tǒng)組件之間的交互。下圖說明處理的各個(gè)步驟,隨后是每個(gè)步驟的說明。

圖8:動(dòng)態(tài)語法Figure 9

  1.語音應(yīng)用程序通過RecClient將識(shí)別請(qǐng)求發(fā)送給RecServer。

  2.RecServer從數(shù)據(jù)庫中讀取適當(dāng)?shù)膭?dòng)態(tài)語法,和時(shí)間戳一起存入緩沖區(qū)。

  3.如果用戶輸入要求增加語法,例如,用戶在個(gè)人撥號(hào)器中加了人名,RecClient將該信息發(fā)送到編譯服務(wù)器。

  4.編譯服務(wù)器進(jìn)行必要的語法更新。

  5.當(dāng)RecServer接收到另外的請(qǐng)求時(shí),使用動(dòng)態(tài)語法時(shí)間戳檢查數(shù)據(jù)庫中的語法是否已經(jīng)更新。如果該語法已經(jīng)改變,則RecServer更新其本地副本。否則,它利用緩存的副本處理識(shí)別請(qǐng)求。

  除了由語音應(yīng)用程序進(jìn)行動(dòng)態(tài)更新外,有的系統(tǒng)通過其它方式接收輸入,例如,交互性的互聯(lián)網(wǎng)址。在這種情況下,單獨(dú)運(yùn)行一個(gè)管理過程,當(dāng)輸入引起變化時(shí)更新語法。和前面一樣,RecServer將緩存語法的時(shí)間戳和數(shù)據(jù)中的當(dāng)前語法進(jìn)行比較,并作必要的信息更新。

動(dòng)態(tài)語法存儲(chǔ)

  每個(gè)動(dòng)態(tài)語法均作為一條記錄存放,在修改時(shí)增量編譯。這種存儲(chǔ)機(jī)制使應(yīng)用程序可以快速地加載動(dòng)態(tài)語法,同時(shí)提供了更新語法內(nèi)容和保存修改的方便接口。例如,在個(gè)人快速撥號(hào)應(yīng)用程序中,可為每個(gè)呼入的用戶,加載經(jīng)常通話的個(gè)性化名單;用戶可以修改該名單,變動(dòng)存入數(shù)據(jù)庫,以供下次用戶呼叫時(shí)使用。

  Nuance產(chǎn)品完全兼容Oracle 和 ODBC(開放數(shù)據(jù)接口) (Microsoft Windows NT版)。Nuance系統(tǒng)也包括API,用于創(chuàng)建定做的數(shù)據(jù)接口,以存取未直接支持的其它類型的關(guān)系型數(shù)據(jù)庫。為了方便使用,Nuance系統(tǒng)也附帶了一個(gè)文件系統(tǒng)型數(shù)據(jù)庫,供開發(fā)、原型化和演示用。文件型數(shù)據(jù)庫不支持分發(fā)。

系統(tǒng)結(jié)構(gòu)的優(yōu)點(diǎn)

  Nuance 7.0的分布式結(jié)構(gòu)具有伸縮性強(qiáng)、成本效率高和配置靈活等優(yōu)點(diǎn),具有支持?jǐn)?shù)百萬呼叫的能力;Nuance健壯的客戶/服務(wù)機(jī)結(jié)構(gòu)使語音識(shí)別應(yīng)用程序威力強(qiáng)大,具有極其高效的容錯(cuò)性和載入平衡能力,保證了應(yīng)用程序的可靠性。Nuance結(jié)構(gòu)具有如下結(jié)構(gòu)上的優(yōu)點(diǎn):

  1.分布式結(jié)構(gòu)。資源管理器在RecServer間進(jìn)行載入均衡,從而保證硬件的利用效率。對(duì)CPU強(qiáng)度大的識(shí)別可以由非運(yùn)行應(yīng)用程序和音頻接口的遠(yuǎn)程機(jī)器來執(zhí)行。這種結(jié)構(gòu)優(yōu)化了內(nèi)存和CPU資源的使用,因?yàn)槊總(gè)RecServer可以支持多個(gè)客戶端,資源管理器可以將呼叫平均分布到幾個(gè)RecServer上。另外,對(duì)于小型系統(tǒng)或者原型,可在同一臺(tái)機(jī)上運(yùn)行RecClient和RecServer。

  2.高密度接口。將客戶端的少量處理從CPU密集型的服務(wù)器處理隔離,允許客戶端端有高密度的接口又能提高服務(wù)器端CPU的使用效率。

  3.容錯(cuò)和可靠性。即使個(gè)別服務(wù)器失效,也不會(huì)使系統(tǒng)崩潰,甚至不會(huì)錯(cuò)過一個(gè)電話。當(dāng)一個(gè)RecServer失效時(shí),資源管理器自動(dòng)停止向其發(fā)送請(qǐng)求,當(dāng)服務(wù)器恢復(fù)時(shí),自動(dòng)開始向它發(fā)送請(qǐng)求。呼叫者不會(huì)被斷線,最多是系統(tǒng)要求其重復(fù)最后一句話,并轉(zhuǎn)向另外一個(gè)可用的服務(wù)器。

  4.維護(hù)方便?梢躁P(guān)閉一個(gè)RecServer進(jìn)行維修,而對(duì)整個(gè)系統(tǒng)的性能沒有影響,或者影響很小。一些類型的維護(hù)甚至可以不關(guān)閉RecServer進(jìn)行。

  5.無縫的鑒別功能。Nuance系統(tǒng)將識(shí)別過程和鑒別處理集成在一起。所以資源管理器不僅對(duì)所有RecServer的識(shí)別負(fù)載,同時(shí)還有鑒別負(fù)載,進(jìn)行均衡。這個(gè)方案比分開進(jìn)行校驗(yàn)和識(shí)別處理的方案具有更高的效率、需要更少的硬件。

  6.可伸縮性。隨著呼叫量的增加,可增加RecServer、RecClient和應(yīng)用的實(shí)例,無須停止任何運(yùn)行著的應(yīng)用程序或關(guān)閉IVR系統(tǒng)。

Nuance公司簡介

  Nuance公司是自然語音接口軟件的佼佼者。使用自然語音接口軟件,人們可以通過電話方便安全地獲取信息、服務(wù)并進(jìn)行交易。每天,千千萬萬的人通過撥打運(yùn)行Nuance公司語音識(shí)別、語言理解和聲紋鑒別軟件的電話,進(jìn)行出游預(yù)訂、股票交易、與其它通訊媒體、企業(yè)和互聯(lián)網(wǎng)系統(tǒng)進(jìn)行交往等活動(dòng)。美國航空、Bell Atlantic、Charles Schwab、家庭購物網(wǎng)絡(luò)、Lloyds TSB、Sears、UPS等大公司使用Nuance的軟件來為客戶提供更好的服務(wù),同時(shí)也大幅度降低了成本。Nuance公司是語音商務(wù)聯(lián)盟的發(fā)起成員,并領(lǐng)導(dǎo)創(chuàng)建了語音應(yīng)用程序開發(fā)的開放標(biāo)準(zhǔn)。Nuance公司的總部設(shè)在加州硅谷的Menlo Park,世界各地均有分部和合作伙伴,提供多語種支持的解決方案。來體驗(yàn)Nuance公司最新的技術(shù)吧,請(qǐng)打電話1-888-NUANCE-8或?yàn)g覽公司的網(wǎng)址www.nuance.com。

NDN - Nuance開發(fā)商網(wǎng)絡(luò)

  Nuance Developer Network (NDN - Nuance開發(fā)商網(wǎng)絡(luò)) 是語音識(shí)別行業(yè)第一個(gè)開發(fā)商網(wǎng)絡(luò),它向成員提供最新的產(chǎn)品發(fā)布信息、培訓(xùn)、在線技術(shù)論壇,以及和其它開發(fā)商進(jìn)行想法和方案共享的機(jī)會(huì)。通過www.nuance.com or extranet.nuance.com 網(wǎng)址,可以下載最新的Nuance產(chǎn)品和工具。

附錄A:部分功能一覽

海量詞匯、獨(dú)立于講話者的健壯識(shí)別功能

  Nuance系統(tǒng)能可靠地對(duì)多種語言進(jìn)行大詞匯量的識(shí)別,并可提供識(shí)別結(jié)果的置信度。該系統(tǒng)對(duì)商業(yè)上使用的大量詞匯提供最準(zhǔn)確的語音識(shí)別技術(shù)。利用Nuance系統(tǒng)開發(fā)的應(yīng)用程序,在市場上具有最高的準(zhǔn)確率。生產(chǎn)中的應(yīng)用程序經(jīng)測試,準(zhǔn)確性超過96%。

內(nèi)建的自然語言理解

  通過Nuance系統(tǒng)可以開發(fā)自然語言理解系統(tǒng),它以句子為輸入,返回句子意義的解釋性表達(dá)。應(yīng)用程序可以根據(jù)用戶的請(qǐng)求采取相應(yīng)的動(dòng)作。Nuance系統(tǒng)也提供基于檔次的置信評(píng)分,它能更加接近地判別可能準(zhǔn)確(或不準(zhǔn)確)識(shí)別的短語各部分。然后可更加自然和有效地修改應(yīng)用程序,處理錯(cuò)誤檢查或重新提示。

基于主機(jī)的客戶/服務(wù)機(jī)結(jié)構(gòu)

  Nuance系統(tǒng)基于開放式客戶/服務(wù)機(jī)結(jié)構(gòu),特別為大型應(yīng)用程序所需的健壯性和可伸縮性而設(shè)計(jì)。呼叫者的講話由客戶端收集,而識(shí)別和鑒別處理的負(fù)載被平均分配到網(wǎng)絡(luò)上的多個(gè)分開的服務(wù)器上。

集成的講話人校驗(yàn)

  聲紋鑒別使用戶可通過其聲音的生物學(xué)統(tǒng)計(jì)特征進(jìn)行校驗(yàn)。Nuance的Verifier允許同時(shí)進(jìn)行講話識(shí)別和用戶甄別。Nuance系統(tǒng)可對(duì)多種講話進(jìn)行校驗(yàn),包括自定義口令、數(shù)字和應(yīng)用程序命令。系統(tǒng)檢查要求的話是否已講,同時(shí)根據(jù)以前保存的音紋對(duì)用戶進(jìn)行辨別。

動(dòng)態(tài)語法

  動(dòng)態(tài)語法是由運(yùn)行的應(yīng)用程序創(chuàng)建和修改的語法。這在應(yīng)用程序詞匯必須在運(yùn)行時(shí)才能完全確定的情況下是必不可少的。

無線和免提準(zhǔn)確性

  Nuance 7.0提供強(qiáng)壯的無線和免提電話處理功能,在噪雜環(huán)境下有特別高的準(zhǔn)確率,語音識(shí)別高質(zhì)可靠。

單個(gè)詞匯校正

  也叫按檔置信評(píng)分,如果一個(gè)長句中的一個(gè)詞語未被識(shí)別,應(yīng)用程序可提示用戶重復(fù)該片段,而不是整個(gè)句子。

熱詞識(shí)別

  熱詞識(shí)別使系統(tǒng)能對(duì)講話者進(jìn)行偷聽,等待特定的詞匯或短語,將控制交還該應(yīng)用程序?稍趹(yīng)用程序使用該功能,使識(shí)別器能夠靜靜傾聽,直到用戶說出特定的短語進(jìn)行請(qǐng)求時(shí)才與用戶交互。

智能斷句

  斷句是對(duì)進(jìn)來的樣本流確定語句的起始和終止的處理過程。當(dāng)找到語句的起始和終止點(diǎn)后,語句區(qū)向前后分別延伸預(yù)先確定的長度。一旦檢測到語句的起始點(diǎn),樣本開始流向RecServer,直到發(fā)現(xiàn)語句的終止點(diǎn)。通過這種方式,RecServer在用戶仍在講話的同時(shí),實(shí)際上已經(jīng)開始處理講話的內(nèi)容,而又不處理講話的起止處多余的空白,從而節(jié)約CPU時(shí)間和網(wǎng)絡(luò)帶寬。

打斷功能

  打斷功能使用戶可以打斷提示、作出響應(yīng),無需等到提示結(jié)束播放。打斷功能使用戶和系統(tǒng)間的交流更加快捷、自然,特別是系統(tǒng)的經(jīng)常用戶。

N-Best處理

  對(duì)于有些應(yīng)用程序,可能需要識(shí)別引擎產(chǎn)生可能的識(shí)別結(jié)果集,而不是一個(gè)最好的結(jié)果。Nuance系統(tǒng)的N-best識(shí)別處理方法便有這個(gè)功能,它提供了可能的識(shí)別結(jié)果列表,并按可能性從高到低排列。

語法概率

  Nuance系統(tǒng)允許對(duì)呼叫者所講的特定詞語或短語的在語法中的概率進(jìn)行指定。當(dāng)被講的詞語或短語的概率可根據(jù)實(shí)際使用進(jìn)行估計(jì)時(shí),非常有用。對(duì)語法增加概率可提高識(shí)別的準(zhǔn)確率和速度。

降低噪音

  當(dāng)進(jìn)來的呼叫包含穩(wěn)定的背景噪音時(shí),Nuance系統(tǒng)通過一種機(jī)制,使識(shí)別服務(wù)器更準(zhǔn)確地進(jìn)行識(shí)別。識(shí)別服務(wù)器將進(jìn)來的話語進(jìn)行增強(qiáng),以有效地將語氣、嗡嗡聲、哼叫聲、噓噓聲等噪聲過濾。如果相當(dāng)數(shù)量的電話均含有穩(wěn)定的背景噪聲,比如在汽車上免提打電話時(shí),這個(gè)機(jī)制效果較理想。

提示回放

  Nuance系統(tǒng)允許播放預(yù)先錄好的提示和由文本到語音轉(zhuǎn)換系統(tǒng)產(chǎn)生的提示。如果應(yīng)用程序使用多個(gè)文本到語音轉(zhuǎn)換服務(wù)器,資源管理器將對(duì)這些服務(wù)器的轉(zhuǎn)換負(fù)載進(jìn)行平衡,以提高硬件效率。

SNMP支持

  系統(tǒng)為遠(yuǎn)程監(jiān)控提供了簡單網(wǎng)絡(luò)管理協(xié)議(SNMP)支持,獨(dú)具可視化工具,便于進(jìn)行配置、管理和操作。

用戶資料

  用戶資料將特定呼叫者的所有有關(guān)信息結(jié)合在一條數(shù)據(jù)庫記錄里,從而提供了一個(gè)方便的機(jī)制?纱鎯(chǔ)的信息包括聲紋鑒別的聲紋或您想增加的任何特定應(yīng)用的數(shù)據(jù)。

Nuance公司供稿 CTI論壇編輯



相關(guān)鏈接:
Nuance發(fā)布Vocalizer 5.0文本語音轉(zhuǎn)換方案 2009-09-04
化繁為簡,讓手機(jī)“一切行動(dòng)聽指揮” 2009-08-13
Nuance語音識(shí)別技術(shù)助力醫(yī)學(xué)中心節(jié)省開支 2009-08-12
Nuance攜手IBM提供先進(jìn)的語音識(shí)別解決方案 2009-08-05
Nuance語音識(shí)別技術(shù)將進(jìn)軍中國 2009-06-17