你好!新語(yǔ)音識(shí)別時(shí)代

唐瀟霖 2006/06/01

  語(yǔ)音識(shí)別技術(shù)真有那么“風(fēng)花雪月”嗎?也許過(guò)不了多久,面貌煥然一新、同時(shí)蘊(yùn)藏巨大商機(jī)的語(yǔ)音識(shí)別應(yīng)用熱潮,將會(huì)徹底改變?nèi)藗兊乃季S定勢(shì)

  微波爐或者電視機(jī)能聽懂你的話嗎?“加熱3分鐘”、“換到2頻道”等等簡(jiǎn)單的指令,對(duì)于加載了嵌入式語(yǔ)音控制芯片的智能家電而言并不算難事,目前的語(yǔ)音識(shí)別技術(shù)已經(jīng)完全可以勝任。如中國(guó)科學(xué)院聲學(xué)研究所語(yǔ)音實(shí)驗(yàn)室這樣的科研機(jī)構(gòu),甚至已經(jīng)在跟家電廠商洽談合作的可能。問(wèn)題的關(guān)鍵在于,誰(shuí)會(huì)為得到一臺(tái)能聽懂幾個(gè)簡(jiǎn)單指令的微波爐而多付出幾倍的價(jià)錢呢?

  一直以來(lái),語(yǔ)音控制模塊的成本因素似乎都是阻礙語(yǔ)音識(shí)別技術(shù)接近普通消費(fèi)者的“攔路虎”。也正因?yàn)槿绱,像微軟那座著名的“未?lái)之家”一樣,能通過(guò)自己的聲音來(lái)控制家中的燈光、電視、冰箱、等各種電器,絕非語(yǔ)音識(shí)別技術(shù)最被看好、最值得期待的應(yīng)用前景。即使是中科院自動(dòng)化所以31萬(wàn)元的價(jià)格,為四川科技館定做的那位能根據(jù)人類語(yǔ)音命令來(lái)完成畫像的特種機(jī)器人“貝奇”,或許其更多的用處也只是被拿來(lái)展示和娛樂(lè)觀眾。  

  走出實(shí)驗(yàn)室

  語(yǔ)音識(shí)別技術(shù)真有那么“風(fēng)花雪月”嗎?實(shí)際上,這項(xiàng)技術(shù)一直都是計(jì)算機(jī)研究領(lǐng)域內(nèi)的一個(gè)熱門課題,也一向倍受IBM、微軟等等IT巨頭器重,相關(guān)研究成果層出不窮。隨著語(yǔ)音識(shí)別技術(shù)在最近幾年逐漸向移動(dòng)通訊、互聯(lián)網(wǎng)等領(lǐng)域,以及各種不方便通過(guò)手寫輸入與機(jī)器進(jìn)行“交流”的手持設(shè)備,如車載GPS定位系統(tǒng)、娛樂(lè)系統(tǒng)等硬件領(lǐng)域滲透,供其施展的舞臺(tái)日益寬廣起來(lái)。也許過(guò)不了多久,面貌煥然一新、同時(shí)蘊(yùn)藏巨大商機(jī)的語(yǔ)音識(shí)別應(yīng)用熱潮,將會(huì)徹底改變?nèi)藗兊乃季S定勢(shì)。

  只需撥打一個(gè)號(hào)碼,就可以搞定問(wèn)路、訂票、美食推薦、家政服務(wù)、娛樂(lè)休閑、火車時(shí)刻等等信息?對(duì),這是中國(guó)電信最近推出的一項(xiàng)名為“號(hào)碼百事通”的新業(yè)務(wù),也是一款在挖掘和整合用戶號(hào)碼信息的基礎(chǔ)上,針對(duì)用戶的模糊查詢等信息服務(wù)需求提供的新產(chǎn)品。因?yàn)槭悄:樵,所以現(xiàn)行的“號(hào)碼百事通”業(yè)務(wù)還需要靠人工坐席來(lái)實(shí)現(xiàn),這必然需要投入大量資金來(lái)建設(shè)和不斷完善呼叫中心。為解決這一問(wèn)題,中國(guó)電信找到了中科院聲學(xué)所。利用聲學(xué)所的技術(shù),中國(guó)電信不久后將在“號(hào)碼百事通”系統(tǒng)中引入語(yǔ)音搜索引擎,可以根據(jù)人們打入電話的聲音來(lái)識(shí)別、搜索出客戶需要查詢的信息并自動(dòng)提供。

  同樣是電信增值業(yè)務(wù),目前江蘇移動(dòng)、山東移動(dòng)等電信運(yùn)營(yíng)商,已經(jīng)實(shí)現(xiàn)了用戶通過(guò)“哼”一段旋律,就能查找到自己聽過(guò)卻不知道名稱的歌曲或彩鈴,并且進(jìn)行點(diǎn)播和下載的新業(yè)務(wù)。這種大規(guī)模的商業(yè)應(yīng)用,已經(jīng)進(jìn)入了成熟階段。中科院聲學(xué)所語(yǔ)音實(shí)驗(yàn)室的潘接林副主任對(duì)《互聯(lián)網(wǎng)周刊》表示,在商業(yè)應(yīng)用上,這套系統(tǒng)最關(guān)鍵的部分是解決了計(jì)費(fèi)環(huán)節(jié)的問(wèn)題,電信運(yùn)營(yíng)商和聲學(xué)所,由此可以按照每條查詢的下載量來(lái)進(jìn)行按比例分賬。目前,聲學(xué)所正在與互聯(lián)網(wǎng)上的幾大音樂(lè)內(nèi)容提供商合作,不久后將可以實(shí)現(xiàn)在互聯(lián)網(wǎng)上,通過(guò)唱出一段旋律的方式來(lái)進(jìn)行音樂(lè)搜索。  

  抓住語(yǔ)音搜索的商機(jī)

  今年4月11日,Google向美國(guó)專利署遞交了一份語(yǔ)音技術(shù)專利申請(qǐng),其中涵蓋了Google在語(yǔ)音識(shí)別方面的大量技術(shù)發(fā)明。許多經(jīng)濟(jì)觀察家們認(rèn)為,Google有可能憑借此項(xiàng)專利,又一次牢牢控制住搜索引擎技術(shù)發(fā)展的前沿陣地。

  而一直視Google為最大潛在競(jìng)爭(zhēng)對(duì)手的微軟,從來(lái)都對(duì)語(yǔ)音識(shí)別技術(shù)格外重視。微軟CEO鮑爾默在5月22日訪華期間對(duì)記者說(shuō),在微軟的技術(shù)創(chuàng)新方向上,有四個(gè)重要的落點(diǎn),除了網(wǎng)絡(luò)服務(wù)、安全和新設(shè)備等領(lǐng)域之外,還包括了自然語(yǔ)言理解!罢Z(yǔ)音識(shí)別技術(shù)在今后幾年內(nèi)會(huì)變得越來(lái)越重要!滨U爾默解釋說(shuō)。

  其實(shí),也正因?yàn)槲④泴?duì)該領(lǐng)域重兵布防,所以在去年發(fā)生了“李開復(fù)事件”之后,鮑爾默才會(huì)顯得分外惱怒。跳槽到Google的微軟原全球副總裁李開復(fù)在美國(guó)卡耐基梅隆大學(xué)讀書的時(shí)候,就選擇了語(yǔ)音識(shí)別技術(shù)作為研究方向,后來(lái)順理成章的成為國(guó)際知名的語(yǔ)音識(shí)別技術(shù)專家,進(jìn)入微軟后一直主導(dǎo)著微軟交互式語(yǔ)言及人機(jī)界面的研發(fā)工作。如此重要和關(guān)鍵的人物跑去了競(jìng)爭(zhēng)對(duì)手那里,也難怪微軟要為此訴諸法庭。

  在文字搜索已經(jīng)發(fā)展到幾乎沒(méi)有上升空間的時(shí)候,這些技術(shù)巨頭顯然已經(jīng)瞄準(zhǔn)了未來(lái)的語(yǔ)音、視頻搜索市場(chǎng)。微軟曾把語(yǔ)音識(shí)別的未來(lái)應(yīng)用重心放在計(jì)算機(jī)的聽寫機(jī)上,即類似于IBM ViaVoice的研究方向,希望把人的語(yǔ)音直接轉(zhuǎn)換成文字。微軟曾在其Word軟件中嵌入了這種功能,但并未實(shí)現(xiàn)商業(yè)化。而在2006年的“微軟亞洲研究院創(chuàng)新日”上,微軟一口氣介紹了11項(xiàng)與搜索相關(guān)的技術(shù),其中“點(diǎn)播視/音頻搜索”更是讓人眼前一亮?梢韵胍,在爭(zhēng)奪未來(lái)語(yǔ)音識(shí)別搜索技術(shù)話語(yǔ)權(quán)的問(wèn)題上,微軟決不會(huì)坐視Google去申請(qǐng)專利而無(wú)動(dòng)于衷! 

  下一座技術(shù)堡壘

  對(duì)于微軟的語(yǔ)音識(shí)別技術(shù),中科院聲學(xué)所下屬的中科信利技術(shù)有限公司高級(jí)副總裁劉建認(rèn)為,目前微軟的語(yǔ)音識(shí)別技術(shù)還處于技術(shù)跟蹤階段,而在商用化的道路上,中科院的技術(shù)目前在國(guó)際上已經(jīng)走在了前列。目前世界上只有少數(shù)幾家公司能夠形成核心技術(shù),而中科院聲學(xué)所是國(guó)內(nèi)唯一完全擁有核心自主技術(shù)的單位,目前其最大的競(jìng)爭(zhēng)對(duì)手主要是美國(guó)的Nuance公司。

  Nuance由原來(lái)國(guó)際上的四大語(yǔ)音公司以及其它幾家在語(yǔ)音技術(shù)方面有特點(diǎn)的語(yǔ)音公司整合而成。自合并以來(lái),Nuance已發(fā)展成為全球首屈一指的語(yǔ)音解決方案供應(yīng)商,它能夠提供從網(wǎng)絡(luò)到IVR(Interactive Voice Response,互動(dòng)式語(yǔ)音應(yīng)答)的應(yīng)用方案。早在1996年9月,嘉信理財(cái)(Charles Schwab)公司所開通的首個(gè)大規(guī)模商用的語(yǔ)音識(shí)別應(yīng)用系統(tǒng):股票報(bào)價(jià)系統(tǒng),其背后的技術(shù)就是由Nuance提供的。

  據(jù)劉建介紹,語(yǔ)音識(shí)別技術(shù)大致可以分為兩個(gè)發(fā)展方向:一是大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng),主要應(yīng)用于計(jì)算機(jī)的聽寫機(jī),以及與電話網(wǎng)或者互聯(lián)網(wǎng)相結(jié)合的語(yǔ)音信息查詢服務(wù)系統(tǒng),這些系統(tǒng)都是在計(jì)算機(jī)平臺(tái)上實(shí)現(xiàn)的;另外一個(gè)重要的方向是小型化、便攜式語(yǔ)音產(chǎn)品的應(yīng)用,如手機(jī)撥號(hào)、汽車設(shè)備的語(yǔ)音控制、智能玩具、家電遙控等方面的應(yīng)用,這些應(yīng)用系統(tǒng)大都使用專門的硬件系統(tǒng)實(shí)現(xiàn),特別是近幾年來(lái)迅速發(fā)展的語(yǔ)音信號(hào)處理專用芯片和語(yǔ)音識(shí)別片上系統(tǒng)的出現(xiàn),都為語(yǔ)音識(shí)別的廣泛應(yīng)用創(chuàng)造了有利的條件。

  現(xiàn)在,機(jī)器識(shí)別人的單詞式的命令和指令,已經(jīng)不再困難,并且已經(jīng)開始了商用,例如中科信利幾個(gè)月后將推出的具有語(yǔ)音識(shí)別功能的芯片,就可以應(yīng)用在家電遙控、手機(jī)、汽車GPS、智能玩具等各種小型設(shè)備中。中信科利稱,其2006年的預(yù)期收入將達(dá)到1000萬(wàn)元,較上年度有100%的增長(zhǎng)。而另一種則是連續(xù)語(yǔ)音識(shí)別系統(tǒng),比如說(shuō)如果兩個(gè)人在聊天,那么這些連貫的句子,將很難被機(jī)器識(shí)別,這也是語(yǔ)音識(shí)別技術(shù)領(lǐng)域內(nèi)未來(lái)的研究重點(diǎn)。

互聯(lián)網(wǎng)周刊



相關(guān)鏈接:
北京中科信利語(yǔ)音識(shí)別技術(shù)成功應(yīng)用到中移動(dòng)彩鈴項(xiàng)目 2007-08-02
中科院研發(fā)語(yǔ)音識(shí)別搜索新技術(shù) 2006-10-31
富迪、中科共開音頻應(yīng)用 2006-05-16
音樂(lè)快搜:中科信利識(shí)別引擎賦予彩鈴平臺(tái)全新應(yīng)用模式 2005-09-13
清唱點(diǎn)歌:中科信利識(shí)別引擎賦予彩鈴平臺(tái)全新應(yīng)用模式 2005-07-26

相關(guān)頻道:           文摘   技術(shù)_語(yǔ)音識(shí)別_文摘