首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識別(ASR)  語音識別產(chǎn)品

語音識別技術(shù)前景廣闊

2007/01/16

  微軟公司(Microsoft)和福特汽車公司(Ford)希望人們能向汽車發(fā)出口頭指令,雖然短時間內(nèi)實現(xiàn)這點的可能性不大。但實際上,人們早已和芯片進行口頭交流了,只是大家并沒有意識到而已。不僅如此,今后人們和芯片的交流還會越來越多。

  自電腦問世以來,科學(xué)家們就一直致力于讓電腦能理解人們的講話。幾年前,除了實驗室內(nèi)的演示之外,這方面還沒什么進展。不過現(xiàn)在,電腦的語音識別功能已經(jīng)相當先進,并被廣泛運用到各個領(lǐng)域,如汽車上。

  不久前,在拉斯維加斯(Las Vegas)舉行的國際電子消費品展覽會上,比爾•蓋茨(Bill Gates)和福特汽車公司的高管們展示了微軟公司的Sync軟件是如何讓駕車者們通過口頭指令在車內(nèi)播放音樂和撥打電話的。但是,通過口頭指令駕駛汽車還難以被廣泛運用,至少目前還不行。

  新版的Windows操作系統(tǒng)Vista具有相當先進的內(nèi)置語音識別軟件,但微軟公司在推銷Vista的時候并沒有大肆宣揚這一點。那些希望了解該軟件功能的用戶也許要在難以得到微軟大力幫助的情況下進行了。

  目前,世面上最先進的電腦語音識別軟件是Naturally Speaking。該產(chǎn)品的來歷有點復(fù)雜:它出自于Nuance Communications,該公司的前身是ScanSoft。ScanSoft通過一系列的收購,如收購Dictaphone等,試圖將公司打造為全美最主要的語音識別技術(shù)供應(yīng)商。

  Naturally Speaking的大多數(shù)用戶認為該軟件運行效果不錯,盡管你的發(fā)音要比平時說話更清楚。用戶對著麥克風(fēng)說話,屏幕上就顯示出說話的內(nèi)容,很容易糾正識別錯誤。這樣一來,該軟件就會逐步適應(yīng)用戶的說話風(fēng)格,當然用戶也相應(yīng)地調(diào)整了自己的說話風(fēng)格,因此語音識別的正確率就會提高。

  雖然通過口頭指令來控制電腦在科幻小說里屢見不鮮,但事實上大多數(shù)人覺得通過鍵盤和鼠標來控制電腦也很方便。比爾•邁森(Bill Meisel)對語音識別軟件市場很有研究,他指出,目前該軟件主要用于法律和醫(yī)學(xué)等特定領(lǐng)域。例如,放射線學(xué)者們越來越多地通過語音識別軟件口授診斷報告和結(jié)果,而不再由錄音機錄下口頭報告,再加以轉(zhuǎn)錄。

  語音識別軟件是利用非常復(fù)雜的統(tǒng)計方法來把人們的講話與單詞相對應(yīng)起來的。電腦功能的日益強大意味著這類電腦軟件如今能在交貨前被“訓(xùn)練”數(shù)千個小時,而十年前只能“訓(xùn)練”幾十個小時。

  語音識別技術(shù)的主要應(yīng)用領(lǐng)域之一就是呼叫中心。許多電腦查詢服務(wù)采用了這項技術(shù),通常是Nuance公司的技術(shù),來處理客戶的需求,而無需人工服務(wù)了。此外,較為復(fù)雜的銷售及支持工作也日益自動化了。如今,人們可以通過向航空公司的電腦發(fā)出口頭指令來購買或查詢機票。(雖然我對語音識別技術(shù)很感興趣,我個人還是喜歡與人交流。如果這些工作今后都由電腦取代,那真是太令人遺憾了。)

  邁森還預(yù)計說,接下來,語音識別技術(shù)將被用于網(wǎng)絡(luò)搜索。預(yù)計在不久的將來,谷歌(Google)和雅虎(Yahoo)將推出面向手機用戶的語音搜索服務(wù),用戶只要說出自己想找什么,就可以聽到電腦的自動答復(fù)。這兩家公司都已聘請了語音識別技術(shù)專家。Nuance還在與雅虎對簿公堂,因為雅虎挖走了Nuance的13名工程師。

  在語音識別技術(shù)研究方面一直頗為領(lǐng)先的國際商業(yè)機器公司(IBM)也有宏偉計劃,例如研制一種軟件能監(jiān)聽四到五個人參加的小型會議,然后提供準確的書面記錄。由于大多數(shù)此類軟件目前只能識別單個說話者,IBM的計劃顯然有點超前。

  不過,負責IBM的語音識別技術(shù)開發(fā)的戴維•那哈莫(David Nahamoo)表示,該公司已經(jīng)開發(fā)出了其他一些應(yīng)用軟件。其中一項是能自動翻譯外語廣播,如阿拉伯語廣播。該軟件首先通過語音識別技術(shù)記錄下說話者所說的話,然后通過翻譯軟件把外語翻譯成英語。

  這個軟件目前還非常不成熟,但也足以翻譯出說話者的要點。對于缺乏阿拉伯語人才、但又想深入掌握阿拉伯世界動態(tài)的美國政府而言,該軟件不失為一個很好的選擇。

  除了情報服務(wù)領(lǐng)域之外,該軟件的應(yīng)用領(lǐng)域還不少呢。例如,各電視臺目前承受很大壓力,公眾要求它們?yōu)槁犛X有障礙的觀眾提供字幕服務(wù),但電視臺沒有人手。隨著時間的推移,采用軟件進行自動處理也許是個好方法。當然,這對于大學(xué)教授的講座也同樣適用:設(shè)想一下學(xué)生們可以在課堂上打瞌睡,同時又不會漏掉老師講的每個詞。

http://www.chinese.wsj.com



相關(guān)鏈接:
電話銀行系統(tǒng)可識別用戶語音 2006-11-03
語音自助服務(wù)并不僅僅是技術(shù) 2006-11-02
評論:語音識別適合網(wǎng)絡(luò)應(yīng)用 2006-10-24
CRM語音業(yè)務(wù)需求呈現(xiàn)快速增長 2006-08-21
語音識別:抗噪音能力有待加強 2006-08-11

分類信息: