首頁>>廠商>>語音識別與合成>>科大訊飛

科大訊飛吳曉如:語音技術(shù)助力更智能更安全的新一代呼叫中心

2009/04/15

  CTI論壇(ctiforum)04月15日消息: 2009年4月14日至15日,CTI論壇主辦2009中國呼叫中心及企業(yè)通信大會在北京國際會議中心隆重召開,會議展開三十多場精彩紛呈的演講,邀請了一批業(yè)界知名專家在會上發(fā)表演說,以下是主題演講現(xiàn)場圖文報道:

  主持人:下面,有請安徽科大訊飛信息科技股份有限公司吳曉如先生,吳先生給大家演講的題目是《語音技術(shù)助力更智能、更安全的新一代呼叫中心》,有請吳先生進(jìn)行精彩的演講!

  吳曉如:各位嘉賓下午好!

  實際上在上午各個主題演講中,大家可以發(fā)現(xiàn),我們最近的通信技術(shù)、IT技術(shù)的發(fā)展,使我們呼叫中心的功能更加強(qiáng)大。下面我演講的主題是通過智能語音技術(shù),如何使我們的呼叫中心更加智能、更加安全。

  實際上我也像揚州的領(lǐng)導(dǎo)一樣,我提出兩個問題。第一個問題是怎么讓我們新一代的呼叫中心更加聰明,第二個問題是如何讓我們的新一代的呼叫中心在與用戶交互的過程中更加安全。

  我們科大訊飛是以語音交互技術(shù)為切入點的廠商,語音技術(shù)使信息時代的各種信息通過機(jī)器和人進(jìn)行交互。語音合成相當(dāng)于給機(jī)器裝上了人工嘴巴,語音識別是使機(jī)器能夠聽懂人聽話,聲紋識別是可以辨別說話人的身份。

  語音產(chǎn)業(yè)伴隨著社會信息化、網(wǎng)絡(luò)化、智能化的發(fā)展趨勢,語音技術(shù)的應(yīng)用已經(jīng)進(jìn)入到社會各行業(yè),且不斷深化。語音技術(shù)的不斷進(jìn)步及當(dāng)前產(chǎn)業(yè)特點,以及我們經(jīng)濟(jì)的特點,下一步的呼叫中心的服務(wù)將助力我們的呼叫中心建設(shè)。

  目前語音合成技術(shù)在我們呼叫中心中得到了廣泛的應(yīng)用,大幅提升了呼叫中心動態(tài)、海量信息的發(fā)布。

  大家可以看到,雖然聽到了只是一句簡單的提示音,但是這個提示音背后所蘊含的各個行業(yè)大量的動態(tài)海量的信息,可以通過我們的語音合成播報給用戶。

  這幾年的語音識別已經(jīng)在我們的電信運營過程中得到了大規(guī)模的應(yīng)用,這在提升我們的服務(wù)水平上,起到了什么樣的支持呢?首先,我們對于呼叫中心目前面臨的一些挑戰(zhàn),我們在這里提出,第一個是呼叫中心的規(guī)模不斷地擴(kuò)張,呼叫中心的人均成本也是不斷地提升。

  剛才我們前面一些演講人說過,呼叫中心不但規(guī)模大,而且成本也很大,人員流動管理困難。

  第二個挑戰(zhàn)是呼叫中心提供給用戶的信息越來越多,隨著3G我們的統(tǒng)一通信,實際上我們的通信技術(shù)、IT技術(shù)越發(fā)達(dá),呼叫中心推送給用戶的信息越多。推送這么多的信息,如何使我們能夠更好地設(shè)計人和呼叫中心之間交互的界面呢?

  這個地方是一個簡單的菜單,比如說一個用戶需要查詢卡里面的余額,他需要首先按鍵1得到個人的業(yè)務(wù),按鍵3得到基金、期貨等等的業(yè)務(wù),再按鍵3得到期貨和銀證的業(yè)務(wù)才可以查詢卡里面的余額。

  目前的IVR用戶只能通過9個鍵,才可以告訴IVR他有什么樣的需求。隨著我們的服務(wù)越來越多,設(shè)計菜單的合理結(jié)構(gòu)越來越困難。即使是我們精心設(shè)計的菜單,這種多級式的按鍵菜單也經(jīng)常使用戶不知所措。同時,也是對我們用戶耐心極大地考驗。為什么很多的用戶一進(jìn)呼叫中心就直接按0進(jìn)入人工服務(wù)呢?就是他不能忍受當(dāng)前的IVR。

  我們提出一個問題,如果用戶對于IVR服務(wù)不滿意的話,我們需要所有不滿意的用戶都轉(zhuǎn)向人工服務(wù)嗎?那么我們企業(yè)這么大規(guī)模的座席資源,是不是要消耗在一些很普通的查詢業(yè)務(wù)上呢?

  回到上層的菜單,我們首先通過語音識別,用戶直接可以查詢卡內(nèi)的余額,即使是這種語音識別,也可以讓我們原來的多層次的按鍵式的菜單,變成扁平式的菜單,可以讓用戶迅速地通過扁平式的服務(wù)得到最后的結(jié)果。

  那么提出了這個問題,我們?nèi)绾蝸砀倪M(jìn)呢?通過我們大量堆積我們的座席數(shù)量就需要提升我們的成本,那么通過增加座席質(zhì)量和提升用戶體驗,是不是魚和熊掌不可兼得呢?實際上我們認(rèn)為,對于人和語音技術(shù)在呼叫中心的交互方面,對于IVR來說有一個語音交互系統(tǒng),通過開放式的語音識別+語義解析+高品質(zhì)的語音合成,就可以得到高品質(zhì)的語音服務(wù)。

  在這種服務(wù)當(dāng)中,用戶的電話接入之后,我們的語音導(dǎo)航可以把用戶帶來一般類查詢的業(yè)務(wù)上。這種服務(wù)并不是說我們不需要人工的,讓我們的人工資源可以滿足一些VIP,或者是一些專家型的更重要的業(yè)務(wù)上。使我們的專家座席具有更高的效率和更高的用戶投入產(chǎn)出比。

  前一段時間我使用過語音識別,但是不方便,我的菜單用戶怎么記得?用戶必須準(zhǔn)確說出這個菜單的名稱,這種情況下,用戶必須準(zhǔn)確記住菜單的名稱,或者是要求用戶必須按我們規(guī)定的方式說,對于用戶來說是很痛苦事情。那么,有沒有更好的解決方案呢?能不能用戶跟IVR采用語音交互的過程更加愉快呢?這個時候,我們也想請我們各位參會的嘉賓先看一個演示。

(演講人演示,說:"我家的煤氣費沒錢了,我想交一點煤氣費", 菜單自動跳轉(zhuǎn)到:煤氣交費)



  這個是我們叫做呼叫導(dǎo)航的系統(tǒng),大家可以看到這個下拉菜單是用戶希望得到的服務(wù),但是我們這個服務(wù)列得不是很全。如果我們希望得到一項服務(wù),我家的煤氣費沒錢了,我想交一點煤氣費。大家可以看到,我可以以比較自由的方式,告訴IVR一件什么事情呢?就是我家的媒體費沒錢了,我要交煤氣費。在以前傳統(tǒng)的IVR的按鍵上,你可能需要按3、4次,但是現(xiàn)在用戶只需要說他的需求。

  我們再來看一個。

(演講人演示,說:"我想把定期的儲蓄轉(zhuǎn)成活期的", 菜單自動跳轉(zhuǎn)到:定期轉(zhuǎn)活期)

  我想把定期的儲蓄轉(zhuǎn)成活期的。這個演示實際上是給大家介紹一個什么叫做呼叫導(dǎo)航,與之前的基于命令的識別有什么差別。它可以給我們的呼叫中心起到一個什么幫助。

  在這種基于自由說話的呼叫導(dǎo)航中,我們的用戶不用這么痛苦,必須記住我們的菜單名稱。我們在設(shè)計我們的菜單的時候,我們整個呼叫中心的管理者,也不需要設(shè)計一個非常復(fù)雜的菜單。實際說準(zhǔn)確的呼叫導(dǎo)航是怎么做到的呢?叫做特定語音的語音識別,如果要語音識別,對于識別每一個字是很困難的,但是對于我們銀行的語音菜單是很簡單的。即使1、2個字發(fā)生的困難,對于我們最后的解析也可以讓它理解我們最后用戶的需求是什么。所以,語音導(dǎo)航用戶只需要做什么事情呢?只需要說說你的需求。

  我們說的呼叫中心,剛才說怎么讓我們的呼叫中心變得更加聰明。第二個問題是呼叫中心還面臨一個挑戰(zhàn),當(dāng)前的呼叫中心轉(zhuǎn)成成本中心,在一些用戶轉(zhuǎn)向呼叫中心做一些實際業(yè)務(wù)的時候,如何讓我們的呼叫中心變得更加安全。以我們銀行的呼叫中心,電話銀行是大家非常信任的業(yè)務(wù)的手段,但是有很多安全須知,千萬不要泄露你的帳號、密碼,如果你泄露了你可能會很痛苦,你的財產(chǎn)會受到損失。對于這方面,我們的語音技術(shù)能不能做一些工作,使我們的呼叫中心變得更加安全呢?目前的語音識別可以使我們的呼叫中心在風(fēng)險控制方面得到很大的幫助。

  如果我們的座席人員了解他家里面每一個家人的聲音那么熟悉去了解用戶的聲音,對于座席人員有點難,幾乎不可能完成。但是語音識別可以做到,實際上我們對于我們的用戶和座席,在說話的過程當(dāng)中我們可以實時監(jiān)控。如果發(fā)現(xiàn)當(dāng)前的通話是一個可疑的對話,可以告知座席,座席可以采取銀行要求他采取的步驟,這樣可以加強(qiáng)我們的風(fēng)險控制。

  對于有一些用戶,我們實際上在他做這個業(yè)務(wù)的過程中,我們可以采用一些,吸入說聲紋系統(tǒng),對于他的聲紋進(jìn)行實時的監(jiān)控,如果沒有聲紋識別,我們可以提醒這個用戶提高安全級別。

  聲紋識別是辨別說話人身份的一項技術(shù),通話人說的可以是特定的內(nèi)容,也可以說一些任意無關(guān)的內(nèi)容。

  其中兩個最關(guān)鍵的技術(shù),一個是聲紋確認(rèn),比如說這個用戶是某某帳號的聲紋,他說話的時候可以跟語音庫里的聲音進(jìn)行對照。開始我不知道你這個用戶是誰,你進(jìn)來之后我看你是不是屬于特殊的群體,比如說是我們銀行需要關(guān)注的黑名單。這樣的話,這個人在通話的過程中,我們可以和目標(biāo)聲紋庫里的聲紋模板進(jìn)行匹配。如果是可疑分子,我們要通知銀行注意這個業(yè)務(wù)當(dāng)中有風(fēng)險。

  實際上大家對于語音識別前期也在關(guān)注,但是我們覺得一個成功的語音識別有很多的核心技術(shù)。我們不但針對命令詞,而且對于連續(xù)的語音也可以識別,而且我們語音識別可以有很好的排除干擾的能力。同時,我們的語音識別應(yīng)該有語義解析,正確理解一個人說話的目的。

  語音識別在實際的應(yīng)用中,它會面臨不同的口音、不同的應(yīng)用環(huán)境,需要我們對使用中大規(guī)模的語音數(shù)據(jù)通過語音模型進(jìn)行訓(xùn)練,使我們可以排除不同的噪音。

  實際上,所有的語音識別的技術(shù)都是基于統(tǒng)計的。如果我們了解過不同的口音、不同的信道地之后就可以很好地處理這些不同的數(shù)據(jù),一些不同口音的影響。

  科大訊飛我們在全國建了4個聯(lián)合實驗室,在中國科技大學(xué)、清華大學(xué)、社科院語言所、國家普通話測試站中心,最后會整合成我們最后的語音合成、語音識別、聲紋識別等等。

  另外,對于我們相關(guān)很重要的處理語音識別所需要的口音、信道,目前我們在全國省級電信運營商部署的音樂搜索等大規(guī)模語音識別業(yè)務(wù)已超過50個,覆蓋不同地域等,使我們的語音識別可以應(yīng)用于不同的環(huán)境。

  自助式的語音服務(wù)之前一直是按鍵加錄音,TTS技術(shù)的出現(xiàn),使我們的語音呼叫是按鍵+TTS。我們語音導(dǎo)航可以進(jìn)入ASR&TTS,用戶的需求不但可以通過3鍵和9鍵。

  我們科大訊飛是語音技術(shù)領(lǐng)域唯一的國家863計劃產(chǎn)業(yè)化基地、國家規(guī)劃布局內(nèi)重點軟件企業(yè)、國家級企業(yè)技術(shù)中心。中國語音市場占有率最高達(dá)到了70%,同時我們代表工信部制定語音技術(shù)的國家標(biāo)準(zhǔn),目前我們有700人左右,設(shè)有博士后的工作站在全國有4個聯(lián)合實驗室,公司是在去年的5月份在深交所正式發(fā)行上市。

  科大訊飛的中文語音合成技術(shù),在理歷屆的國內(nèi)、國際的評測中都名列第一。2006年和2008年我們參加了全球英文語音技術(shù)合成大賽,我們也連續(xù)三年蟬聯(lián)了第一名。在這里,我簡單地把我們的語音合成技術(shù),簡單地做一個演示。

  同時,我們的語音合成可以提供不同的音樂和語種。目前,我們的音樂合成技術(shù)首先整合了我們06到08年三年比賽的成果,同時我們的產(chǎn)品可以支持各種主流的語種,同時可以支持不同的方言音色,合成系統(tǒng)可以有男女老少各種因素供我們用戶選擇。

  為了使我們相關(guān)的產(chǎn)品可以在主流行業(yè)有更好的效果,我們針對像電信、金融等一些主流的行業(yè)進(jìn)行專門的優(yōu)化,可以提供專業(yè)的優(yōu)化版本。同時,我們的系統(tǒng)還提供了多種實用的特性,它不僅僅是是文本轉(zhuǎn)語音,還可以進(jìn)行音頻的管理,可以進(jìn)行日志的管理和動態(tài)的重啟。

  比如說你分散式部署IVR的系統(tǒng),你可以把所有的提示音通過我們TTS的音頻管理進(jìn)行統(tǒng)一的安排,這樣各地的IVR的服務(wù)器,可以通過FTP、HTTP的格式進(jìn)行轉(zhuǎn)換。

  聲紋識別目前在國際上最有名的技術(shù)評測是美國的國家標(biāo)準(zhǔn)技術(shù)研究院,每年會舉行一次大規(guī)模的聲紋識別大賽?七_(dá)訊飛在2008年我們參加了這次評測,這次評測包含了國際上像MIT和斯坦福參加的比賽,我們?nèi)〉昧说谝幻。這有一個識別錯誤里,如果有100個人想冒充別人,我發(fā)生錯誤的是3個,我可以抓住97個。這次比賽也表明了我們科大訊飛在識別方向上我們是國際領(lǐng)先。

  目前,我們的語音識別除了目前已經(jīng)在各地電信廣泛音樂搜索中所使用的命令識別,你一說一個歌曲的名稱我就可以幫你下載下來,我們目前有成熟的呼叫導(dǎo)航,可以進(jìn)行語義的解析,同時我們可以提供相關(guān)的語音搜索和檢索。以后有大量的音視頻的呼叫,怎么管理,我們可以制定一些語音的標(biāo)簽,使我們搜索的時候更加方便。

  實際上我們說了很多不同的語音服務(wù)的模塊,聽上去很多,但是應(yīng)用起來非常方便。

  我們有多種的語音合成,多種的語音識別,我們的聲紋識別引擎等等。所有這些我們都可以通過統(tǒng)一的網(wǎng)絡(luò)平臺技術(shù)封裝。這種封裝既可以通過之前各個廠商非常熟悉的接口形式進(jìn)行封裝,也可以通過最新的基于SIP的、MRCP的服務(wù)進(jìn)行統(tǒng)一的管理。用戶無論使用什么引擎都可以得到我們的語音管理的服務(wù)。

  目前我們這種平臺已經(jīng)可以支持華為、Avaya、思科等眾多的平臺,可以支持眾多主流的操作系統(tǒng)。我們科大訊飛有著非常完備的研發(fā)和質(zhì)量體系,早在2006年的12月份我們就通過了CMMI L4評估認(rèn)證,目前我們也是首個國家的標(biāo)準(zhǔn)試點基地。

  目前,我們在全國24個主要的城市設(shè)有子公司和辦事處,可以為我們所有的合作伙伴和用戶提供非常完備的技術(shù)支持和服務(wù)。

  科大訊飛在去年5月份上市以后,也是成立了我國第一家以語音技術(shù)為主要產(chǎn)業(yè)化方向的上市公司。在當(dāng)前比較惡劣的經(jīng)濟(jì)環(huán)境下,科大訊飛受到了股市和分析師非常好的評價,去年11月份開始我們中小版上升了60%,我們大概上升了140%。我們現(xiàn)在的股價大概維持在30多元。其中股價只是很表面的表現(xiàn),最主要的原因是各個行業(yè)的分析師,對于語音技術(shù)的水平,以及語音技術(shù)各個行業(yè)的廣泛應(yīng)用,表示高度的認(rèn)可。我們也希望我們不斷提供最優(yōu)的語音技術(shù),我們期待和我們的產(chǎn)業(yè)、呼叫中心相關(guān)的產(chǎn)業(yè)能夠合作共贏、共同發(fā)展。我的介紹就到這里,謝謝大家!

  本文根據(jù)CTI論壇主辦的2009中國呼叫中心及企業(yè)通信大會會議記錄整理,轉(zhuǎn)載請注明出處!

CTI論壇報道



相關(guān)閱讀:
科大訊飛連續(xù)三年獲中國IP通信大獎 2010-10-14
訊飛助寧夏大學(xué)建成普通話模擬測試與學(xué)習(xí)平臺 2010-10-08
科大訊飛助力重慶時報 詮釋現(xiàn)代呼叫中心理念 2010-09-30
引領(lǐng)語音合成芯片發(fā)展 科大訊飛推出XFS4243CE 2010-09-26
訊飛語音服務(wù)城市公共自行車管理系統(tǒng) 2010-09-21

熱點專題:  呼叫中心  語音合成TTS 語音識別ASR