專訪科大訊飛吳曉如:語音與移動互聯(lián)網(wǎng)共舞

2010-10-29 08:39:00   作者:   來源:CTI論壇   評論:0  點擊:


  10月28號的北京,秋日的陽光分外燦爛,將西山的輪廓勾勒得格外清晰。位于西三環(huán)邊的香格里拉飯店,人聲鼎沸,科大訊飛“語音云”發(fā)布會選擇這里舉行。

  此次發(fā)布會與高速發(fā)展的移動互聯(lián)網(wǎng)背景密不可分,移動互聯(lián)網(wǎng)產(chǎn)業(yè)規(guī)模達到桌面互聯(lián)網(wǎng)十倍以上速度遞增。而在互聯(lián)網(wǎng)時代,社會變得越來越小,語音技術(shù)使開車走路等移動狀況下使用互聯(lián)網(wǎng)成為可能。數(shù)據(jù)表明,目前中國的8億手機用戶中,已經(jīng)有將近2億的移動互聯(lián)網(wǎng)用戶,到2012年,中國3G用戶也將超過2億以上,如此巨大規(guī)模的用戶群,為中國移動互聯(lián)網(wǎng)的發(fā)展提供了源源不斷的動力和持續(xù)成長的舞臺。

  在這個大的發(fā)展趨勢中,對語音技術(shù)的投入力度和市場關(guān)注度前所未有,如IBM,微軟、蘋果以及Google都有對語音的規(guī)劃,IBM提出要把他的語音技術(shù)推向市場,微軟在多種場合下提出來,他未來看好的三大產(chǎn)業(yè)第一就是語音技術(shù),并且微軟即將推出來的Window7,也已經(jīng)把語音作為非常重要的一部分,而蘋果也正在研發(fā)語音識別技術(shù)等等。應(yīng)該說國際IT巨頭在中文語音領(lǐng)域,在全球范圍內(nèi)對語音產(chǎn)業(yè)的高度關(guān)注,既促進了這個產(chǎn)業(yè)快速的發(fā)展,也為我們中國語音企業(yè)提出了更大的挑戰(zhàn)。

  同時,“云計算”一出世,就引起了行業(yè)人士的關(guān)注,而語音技術(shù)與呼叫中心的結(jié)合運用,更是大家期待的。科大訊飛此次推出“語音云”,是概念的重新整合還是標志著一項新技術(shù)的誕生?如果是一項新的技術(shù),除了呼叫中心的應(yīng)用之外,是否還能在別的領(lǐng)域帶給大家驚喜?這個新領(lǐng)域應(yīng)用是否已有一些成果?

  為此,利用“語音云”發(fā)布會正式開始前的間隙,CTI論壇記者專訪了科大訊飛高級副總裁吳曉如博士。

\

上圖為:科大訊飛高級副總裁吳曉如博士

  1、CTI論壇記者:請您談?wù)効拼笥嶏w此次推出的“語音云”是一個新概念還是一項新技術(shù)?

  吳曉如:“訊飛語音云”,實際上是基于云計算技術(shù)作為基礎(chǔ),將業(yè)界領(lǐng)先的智能語音技術(shù)向廣大移動互聯(lián)網(wǎng)開發(fā)者開放,為各類合作伙伴提供低門檻的語音合成、語音識別以及語音聽寫等智能語音交互式服務(wù)。

  而合作伙伴方面,可以像使用水、電那樣“即開即有、按需取用”,非常方便。以前的合作開發(fā),可能需要半年甚至幾年的時間,才能開發(fā)一個應(yīng)用,而現(xiàn)在,可以做到一、兩個月,甚至幾天就可以開發(fā)一個新應(yīng)用。也就是方便了合作伙伴,能在極短的時間內(nèi)構(gòu)建一個支持自然語音交互功能的特色移動互聯(lián)網(wǎng)應(yīng)用。

  另外,“訊飛語音云”的推出,還有一個重要的突破,就是將打破相關(guān)語音服務(wù)在本地調(diào)用時,受本地資源條件限制,可實現(xiàn)的應(yīng)用少、應(yīng)用效果不盡人意的瓶頸,從而能有效培育和進一步催生用戶需求,形成應(yīng)用、市場、用戶各方面的良性互動與促進作用,推動語音市場的發(fā)展。

  2、CTI論壇記者: 面向呼叫中心的中文語音合成技術(shù)近年來的發(fā)展水平?

  吳曉如:應(yīng)該說這十年的語音技術(shù)發(fā)展是相當快的,如果將中國一個最出色播音員的普通話作為滿分5分的話,在2000年以前,我們還達不到3分, 2005年前后,我們能達到3.8分,而現(xiàn)在,我可以自豪地說,我們能達到4.5分了。4.5分是個什么概念,打個比方,比如咱倆的普通話標準可能只能達到4分左右。而我們的語音已經(jīng)能達到4.5分,比咱倆水平高。

  3、CTI論壇記者:如您上面所說,科大訊飛的語音合成技術(shù)早已公認為處于業(yè)界領(lǐng)先水平,但在語音識別方面有哪些競爭優(yōu)勢呢?

  吳曉如:科大訊飛有三個方面的優(yōu)勢,可以說是全世界都比不了的。

  第一個優(yōu)勢是我們有龐大的語音庫,這個語音庫的容量已經(jīng)達到百萬級?拼笥嶏w與國家教育部合作,是全國普通話測試協(xié)助商,大家都知道:全國每年都會有國家公務(wù)員、教師等職位必須進行普通話考試,考試的所有語音數(shù)據(jù)我們都會存貯,可以說,我們有全中國每個省、每個市、甚至每個縣、每個鎮(zhèn)的基礎(chǔ)語音數(shù)據(jù)庫。

  第二個優(yōu)勢是科大訊飛的技術(shù)是產(chǎn)學(xué)研一體化的,我們與清華大學(xué)、中國科技大學(xué)、新疆大學(xué)等語音研究室進行合作,可以說語音研發(fā)的先進技術(shù)能夠很好的得到應(yīng)用體現(xiàn)。

  第三,我們采用了云計算平臺,上面說的百萬數(shù)據(jù)如何為我所用?我們對數(shù)據(jù)反復(fù)進行研究,建立復(fù)雜的數(shù)學(xué)模型,這些都要求工程運算能力極強。

  4、CTI論壇記者: 語音識別在呼叫中心的應(yīng)用價值體現(xiàn)?而目前在國內(nèi)還未大規(guī)模應(yīng)用,主要是什么原因?

  吳曉如:我覺得語音識別在呼叫中心的應(yīng)用價值體現(xiàn)是顯而易見的,但最大體現(xiàn)在以下兩點:
一是我們可以進行自助語音服務(wù),這部分的服務(wù)現(xiàn)在已經(jīng)在銀行、保險及運營商的客戶服務(wù)中心得到了良好的體驗;

  二是語音是一種非結(jié)構(gòu)化的信息源,現(xiàn)在對語音的檢索還沒有用起來,大段大段的語音,其實有很多是很有價值的資源,因為不象文字那么容易檢索,因而這部分的資源都沒有得到合理的應(yīng)用。挖出有價值的語音信息,這是語音的另一個應(yīng)用價值體現(xiàn)。

  但目前在國內(nèi),語音技術(shù)還沒有大規(guī)模應(yīng)用起來,主要原因是客戶的需求不是太迫切,另外,呼叫中心一般是成本中心,而且,呼叫中心對技術(shù)的成熟度要求很高,客戶可以用不是太方便的,但一定要用不能出問題的。前幾年的語音技術(shù)還達到這個標準,F(xiàn)在的技術(shù)已經(jīng)能解決這個問題。

  5、CTI論壇記者:訊飛語音識別的核心技術(shù)是什么?

  吳曉如:訊飛語音識別的核心主要有三大技術(shù):

  一是區(qū)分性訓(xùn)練技術(shù):上面提到過,我們有上百萬的基礎(chǔ)語音數(shù)據(jù)庫,這么龐大的語音數(shù)據(jù)需要進行區(qū)分;

  二是超大規(guī)模的解碼技術(shù):經(jīng)過對聲音區(qū)分性訓(xùn)練后,建立復(fù)雜的數(shù)據(jù)模型,需要有超大規(guī)模的解碼技術(shù);

  三是有語音自適應(yīng)技術(shù):當某些語音識別不了,進行多次重復(fù)識別,識別率會更高。

  6、CTI論壇記者:科大訊飛未來的戰(zhàn)略的是什么?

  吳曉如:語音技術(shù)和產(chǎn)業(yè)一直是世界各國競相競爭的熱點和焦點,而科大訊飛作為一家民族語音企業(yè),我們具有非常好的機遇及發(fā)展壯大中國語音產(chǎn)業(yè)的責(zé)任。

  “語音是文化的基礎(chǔ),民族的象征”,智能語音技術(shù)不僅擁有廣闊的應(yīng)用空間,還在國防軍事、漢語國際推廣、教育等國家重大戰(zhàn)略需求領(lǐng)域有著重大應(yīng)用價值。而移動互聯(lián)網(wǎng)邁入語音時代、云計算時代,我們將語音與移動互聯(lián)網(wǎng)結(jié)合,相信會對我國移動互聯(lián)網(wǎng)語音應(yīng)用及信息安全產(chǎn)生推動作用。

  另外,科大訊飛不僅局限于中文領(lǐng)域,而且在英文技術(shù)領(lǐng)域方面也予以開拓。

  CTI論壇記者:預(yù)祝此次科大訊飛“語音云”發(fā)布會圓滿成功!

  吳曉如博士簡介:安徽科大訊飛信息科技股份有限公司高級副總裁,負責(zé)訊飛語音技術(shù)在電話和網(wǎng)絡(luò)上的業(yè)務(wù)。研究興趣為語音合成和語音識別等智能語音技術(shù)。曾參加了多個國家重點科研項目。2003、2004年度主持開發(fā)了代表當年中文語音最高水平的中文語音合成系統(tǒng),2006年主持開發(fā)的英文語音合成系統(tǒng)獲得國際英文語音合成大賽第一名。此外,吳曉如長期致力于推動語音技術(shù)的應(yīng)用深化,目前語音應(yīng)用已覆蓋了電信、金融、電力等社會信息服務(wù)的各領(lǐng)域,鑒于在智能語音技術(shù)及其成果應(yīng)用推廣方面所作的工作,吳曉如于2002年度獲國家科技進步獎,2006年獲得信息產(chǎn)業(yè)重大技術(shù)發(fā)明獎,2007年獲信息產(chǎn)業(yè)部先進個人;

  聲明:CTI論壇(CTiforum)版權(quán)作品,未經(jīng)CTiforum書面授權(quán),嚴禁轉(zhuǎn)載,違者將被追究法律責(zé)任。

 

分享到: 收藏

專題