首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識別(ASR)  語音識別產(chǎn)品

語音識別 理想與現(xiàn)實(shí)的距離

2007/01/19

  讓機(jī)器能夠聽懂人類的語言,一直以來都是人類夢寐以求的愿望。在今天,語音識別到底離我們有多遠(yuǎn)?

  很小的時(shí)候愛看科幻小說,在那樣的小說中,曾經(jīng)看到過科幻小說家預(yù)言未來的人會長成什么樣子。按照達(dá)爾文的進(jìn)化理論,未來的人腦袋將會變得極其之大,而四肢則漸漸退化。因?yàn)槿祟愅ㄟ^聰明的大腦,逐步讓四肢從繁瑣的工作中解放出來,最終就會變成腦袋龐大而四肢退化的模樣。而語音識別(Speech Recognition)就是在這種科幻進(jìn)程中解放我們雙手的一項(xiàng)重要技術(shù)。

  讓機(jī)器直接能夠聽懂人類的語言,一直以來都是人類夢寐以求的愿望?墒钦Z音識別技術(shù)雖行之有年, 但進(jìn)展卻似乎緩慢。當(dāng)記者走進(jìn)中科院聲學(xué)所的中科信利語音實(shí)驗(yàn)室,才切身體會到,其實(shí)語音識別離我們并不遙遠(yuǎn)。

哼唱識別系統(tǒng)

  不久前,中科院聲學(xué)所的中科信利語音實(shí)驗(yàn)室開發(fā)出了一種“哼唱檢索系統(tǒng)”,無需鼠標(biāo)鍵盤,對著話筒哼唱出歌曲的旋律就可以檢索到哼唱歌曲的曲名。當(dāng)記者在中科信利語音實(shí)驗(yàn)室的會議室,面對屏幕,拿著話筒哼起一段鄧麗君的《甜蜜蜜》的旋律時(shí),大概只用了6~10秒,檢索系統(tǒng)就自動(dòng)檢索出來了所哼唱旋律的歌名,并附上了完整的歌詞。

  “哼唱檢索系統(tǒng)是通過旋律匹配進(jìn)行檢索的。”博士畢業(yè)論文專門研究哼唱檢索系統(tǒng)的語音助理研究員李明介紹說。哼唱檢索系統(tǒng)根據(jù)歌曲旋律的走勢來匹配檢索,而不是通過音調(diào)。因?yàn)橐粽{(diào)的基準(zhǔn)會有所不同,這就大大降低了檢索識別的適用性。所以,對于哼唱檢索系統(tǒng)的使用者而言,哼唱節(jié)奏的快慢,以及記得歌詞與否,都對檢索識別沒有影響。正是因?yàn)榇,這套系統(tǒng)在由美國伊利諾斯大學(xué)負(fù)責(zé)主辦的國際音樂信息檢索評測比賽(MIREX)中,以92%的準(zhǔn)確度獲得了第一名的好成績。

  任何系統(tǒng)都不能只存在于實(shí)驗(yàn)室中,哼唱檢索系統(tǒng)業(yè)理所當(dāng)然要走出實(shí)驗(yàn)室!拔覀兊暮叱獧z索系統(tǒng)已經(jīng)在河北等地的移動(dòng)彩鈴業(yè)務(wù)中應(yīng)用了!敝锌菩爬Z音實(shí)驗(yàn)室研究室主任顏永紅說。“用戶通過哼唱一段旋律,就能查找到自己聽過卻不知道名稱的歌曲或彩鈴,然后進(jìn)行點(diǎn)播和下載。這種大規(guī)模的商業(yè)應(yīng)用,已經(jīng)進(jìn)入了成熟階段。”顏永紅還表示,實(shí)驗(yàn)室正在著手和互聯(lián)網(wǎng)幾大音樂內(nèi)容提供商合作,相信在不久的將來,就可以實(shí)現(xiàn)在互聯(lián)網(wǎng)上哼唱一段旋律來檢索歌曲名稱。

提高識別率

  對于中科信利語音實(shí)驗(yàn)室研究出來的這套哼唱識別系統(tǒng),還有一個(gè)更好的應(yīng)用前景就是在KTV等場所的歌曲檢索。對于愛好唱歌的人而言,一定都有過這樣的經(jīng)歷: 往往熟悉一首歌曲的旋律,卻記不住歌曲的名稱。特別是在KTV點(diǎn)唱時(shí),K友常常會遇到這樣的問題,想唱卻又找不到歌名。哼唱檢索系統(tǒng)正好解決了這樣的問題。試想,當(dāng)有一天,我們在KTV中點(diǎn)歌時(shí),不必再通過繁瑣的手動(dòng)操作界面,而只需要通過口頭來完成,那種感覺又豈是方便兩個(gè)字能簡單概括的。而這種搜索模式的實(shí)現(xiàn),其實(shí)只要在KTV的點(diǎn)歌系統(tǒng)中嵌入哼唱檢索系統(tǒng)的技術(shù)就可以了。

  但是,中科信利語音實(shí)驗(yàn)室開發(fā)出來的哼唱檢索系統(tǒng)對哼唱的環(huán)境是有所要求的!拔覀兊臋z索環(huán)境要求是要相對安靜的!崩蠲鬟@樣介紹說。那么,對于KTV中過于嘈雜的語音環(huán)境,哼唱檢索系統(tǒng),如何發(fā)揮他的威力呢?

  “目前語音識別技術(shù)需要解決的問題,一個(gè)是對噪音環(huán)境的處理,一個(gè)是對不同口音的識別,再一個(gè)就是要不斷提出好的算法。”顏永紅這樣對記者說到。語音識別技術(shù)的基本原理就是對輸入的語音信號進(jìn)行分析,抽取語音特征參數(shù)與存儲器中的語音模板的參數(shù)進(jìn)行匹配識別。因此,語音識別技術(shù)不僅對識別的背景、噪聲干擾有要求,同時(shí),對說話者的清晰程度、連貫程度,以及是否口語化是否帶口音,也都有要求。這些正是導(dǎo)致語音識別技術(shù)識別率不高的主要原因,也是導(dǎo)致語音識別技術(shù)一直沒有能夠大規(guī)模展開應(yīng)用的瓶頸。

  如何提高識別率一直都是語音識別技術(shù)不斷挑戰(zhàn)的問題;谀壳暗恼Z音識別技術(shù),語音識別的應(yīng)用,應(yīng)該是相對小眾的,而且面對特殊人群的。例如,某一領(lǐng)域,相對安靜背景的語音識別的應(yīng)用,又或,就目前而言,語音識別技術(shù)對于盲人群體的作用與幫助要大大高于一般的正常人。

語音識別搜索

  語音識別技術(shù)一個(gè)很有效的應(yīng)用,就是語音識別搜索。“語音識別搜索主要有三種方式: 原聲搜索、旋律匹配搜索和語音搜索!敝锌菩爬Z音實(shí)驗(yàn)室副研究員趙慶衛(wèi)博士告訴記者。原聲搜索是針對原始聲音進(jìn)行完整匹配的搜索。除人聲外,其他周遭的一切聲音都可以針對原聲搜索出其位置。而哼唱檢索系統(tǒng)就是典型的旋律匹配搜索。至于語音搜索,是指針對某一特定人員的語音進(jìn)行篩選搜索的方式。

  在信息瘋狂膨脹的時(shí)代,對于浩瀚信息中的有效資源搜索毫無疑問是相當(dāng)重要的。而且,信息已經(jīng)不單純是以往的純文本,而是逐步發(fā)展到了音頻、視頻領(lǐng)域。以往單純通過音頻、視頻文件的文本標(biāo)簽來搜索音、視頻文件已經(jīng)不足以滿足用戶的需求。通過語音識別對音、視頻內(nèi)容的搜索已經(jīng)開始廣泛應(yīng)用。

  美國的Blinkx就是最先開始應(yīng)用語音識別進(jìn)行內(nèi)容搜索的網(wǎng)站之一。而在國內(nèi),openv.tv也露出了做專業(yè)的電視及視頻搜索引擎的意圖。當(dāng)文字搜索已經(jīng)發(fā)展到幾乎沒有上升空間的時(shí)候,微軟、Google這些技術(shù)巨頭也開始瞄準(zhǔn)未來的語音、視頻搜索市場。

未來無限大

  語音識別芯片的應(yīng)用范圍其實(shí)十分廣闊: 電話通信中的語音撥號、汽車的語音控制、工業(yè)控制及醫(yī)療領(lǐng)域的人機(jī)語音交互界面、個(gè)人數(shù)字助理(Personal Digital Assistant,PDA)的語音交互界面、語音智能玩具、家電的語音遙控等。解放雙手,豐富溝通,是在這些領(lǐng)域應(yīng)用的共性。

  除此之外,語音識別還可以給我們帶來更多的便利!罢Z音識別的關(guān)鍵一個(gè)是發(fā)音評估,一個(gè)是內(nèi)容識別。”趙慶衛(wèi)說。除了哼唱檢索系統(tǒng)以外,中科信利語音實(shí)驗(yàn)室在音頻水印、發(fā)音糾正、語種識別等方面都有成果。音頻水印是以編碼方式嵌入音、視頻文件,主要應(yīng)用于音、視頻文件的版權(quán)保護(hù)、保密通信以及廣播監(jiān)聽。發(fā)音糾正軟件可以對說話人的發(fā)音進(jìn)行評估和分析,特別有助與用戶的語言學(xué)習(xí)。據(jù)趙慶衛(wèi)介紹,這種發(fā)音糾正已經(jīng)用于國內(nèi)部分地區(qū)推廣普通話的進(jìn)程中了。

  “市場每年;都在變大。”談及語音識別市場的未來時(shí),顏永紅如是說。根據(jù)半導(dǎo)體行業(yè)的摩爾定律,硬件成本過高是導(dǎo)致語音識別技術(shù)無法在家電等領(lǐng)域應(yīng)用的主要原因!霸缭2002年,技術(shù)上就已經(jīng)實(shí)現(xiàn)在電話上應(yīng)用語音識別技術(shù)了,但是卻只能用在部分高端手機(jī)上!鳖佊兰t說。

  中科信利語音實(shí)驗(yàn)室目前一直在和致力于芯片技術(shù)的廠商合作,從而有效地解決了語音處理過程中遇到的噪聲等問題,提高了聲學(xué)語音傳達(dá)的準(zhǔn)確性,與語音識別軟件技術(shù)形成優(yōu)勢互補(bǔ)。

  “希望10年到20年的時(shí)間內(nèi),語音識別技術(shù)會有長足的發(fā)展。”顏永紅充滿期盼地說道。也許過不了多久,面貌煥然一新、同時(shí)蘊(yùn)藏巨大商機(jī)的語音識別應(yīng)用熱潮,將會徹底改變?nèi)藗兊乃季S定勢,其實(shí)理想和現(xiàn)實(shí)的距離并不如我們想象的那么遙遠(yuǎn)。

計(jì)算機(jī)世界網(wǎng)



相關(guān)鏈接:
語音識別技術(shù)前景廣闊 2007-01-16
電話銀行系統(tǒng)可識別用戶語音 2006-11-03
語音自助服務(wù)并不僅僅是技術(shù) 2006-11-02
評論:語音識別適合網(wǎng)絡(luò)應(yīng)用 2006-10-24
CRM語音業(yè)務(wù)需求呈現(xiàn)快速增長 2006-08-21

分類信息: