首頁 > 新聞 > 專家觀點 >

“你好,巴別魚”讓機器讀懂你的聲音

2014-04-02 10:39:33   作者:   來源:上海證券報   評論:0  點擊:


  上世紀(jì)九十年代,羅杰·凱在一家名為ILA的小型計算機語言學(xué)公司工作。那時候,美國麻省理工學(xué)院語言學(xué)教授諾姆·喬姆斯基的“普遍語法”理論吸引了一批追隨者,他試圖將所有人類語言借用同一個模型進行演繹。一開始,羅杰和他的同事也試著如此去設(shè)計語言模型,但他們很快發(fā)現(xiàn),真實的語言常常違背這個模型,有太多反例讓這一理論顯得充滿任意性。

  一種語言障礙亟須彌合的想法隨即映射進他們腦中,這同樣是許多科技業(yè)巨頭想要打開的一扇大門。谷歌從2009年開始就一直在采錄語音信箱的信息;微軟則將類似技術(shù)置入Windows Vista操作系統(tǒng);蘋果的智能語音控制程序Siri則讓這種技術(shù)更趨商業(yè)。

  附近有什么好吃的?我應(yīng)該在哪搭乘公共交通?今晚的電影是幾點的?語音助手幫忙實現(xiàn)日程管理及查詢,并回答常識問題,令人著迷。而消費電子產(chǎn)品、汽車甚至自動呼叫中心“傾聽”使用者的指令,已經(jīng)有數(shù)年時間。

  一種能夠翻譯各種語言的“巴別魚”技術(shù)可能在不久的將來成為現(xiàn)實,廣闊的產(chǎn)業(yè)應(yīng)用空間漸漸打開。

  《圣經(jīng)》里有一個著名的故事:人類想上天堂,造巴別塔。上帝為阻止人類登天,迫使人類說不同的語言。由于溝通不暢,巴別塔最終半途而廢。

  有趣的是,英國作家道格拉斯·亞當(dāng)斯在其廣為流傳的科幻小說《銀河系漫游指南》中,提及一種能聽懂外星人語言的小魚,名字就叫“巴別魚”(Babelfish)。

\

  今天,智能語音技術(shù)的發(fā)展令“巴別魚”的出現(xiàn)變得不再科幻。

  “由于大量可供實時語音翻譯信息資源的存在,"巴別魚"系統(tǒng)正在走進現(xiàn)實。”人工智能專家、南安普頓大學(xué)教授奈杰爾·沙德博爾特稱,未來市場出現(xiàn)類似藍牙耳機的實時翻譯工具,是“非常自然的事情”。

  遠不止于人與人之間,人類和汽車、電視或者廚房電器“說話”,也可能變得毫無障礙。智能語音技術(shù)正在改變我們發(fā)現(xiàn)信息的方法,相反的,它們也找到了進入其他終端的途徑。

  難怪英國媒體最近認定:科技業(yè)下一件大事,就是智能語音翻譯。

  ⊙記者 王宙潔 ○編輯 龔維松

  語音識別日趨精準(zhǔn)

  現(xiàn)在,羅杰·凱已經(jīng)創(chuàng)辦了行業(yè)研究機構(gòu)——Endpoint技術(shù)協(xié)會,但他仍然記得最初那段對機器語言的探索時光。

  在近日的一篇專欄文章中,羅杰·凱回憶道:“喬姆斯基教授的理論依舊是我們中很多人的指路明燈。我們試著去實現(xiàn)語言模型,但僅僅發(fā)現(xiàn)這只是一個工具而已,諸多反例讓我們明白,要做的可不僅僅是模型。”

  羅杰在ILA工作時的好友戴夫·巴戈特認為,更高級的語言特征無法在模型里被描述,“音系學(xué)很容易理解,詞法學(xué)沒那么容易,句法就更難一點,要理解語意,這幾乎沒成功過。”

  事實上,對于語言識別的探索很早便已經(jīng)開始。上世紀(jì)五十年代,貝爾實驗室組裝了一套原始系統(tǒng),可以識別電話里報出的數(shù)字。盡管此后進展算不上太快,但隨著計算技術(shù)的不斷強化,如今的系統(tǒng)已經(jīng)可以處理各種口音、方言和怪異的聲調(diào)。

  最近幾年,這種探索在科技業(yè)熱度高升。蘋果推出的語音助手Siri讓iPhone 4S風(fēng)靡的同時,也使得聲音識別技術(shù)為更多普通人所認知并關(guān)注。

  近日,蘋果公司又宣布推出車載iOS系統(tǒng)CarPlay,通過汽車與智能手機連接,再配合方向盤上的Siri按鈕,可實現(xiàn)電話、地圖、音樂或查看信息等功能。

  而首批搭載CarPlay系統(tǒng)的汽車,包括法拉利、奔馳和沃爾沃等汽車業(yè)巨頭。

  外媒近日報道稱,微軟正著力發(fā)展所謂自然交互科技,語音識別就是其中重要一環(huán)。

  英特爾在今年1月份舉行的美國消費電子展上就曾宣布,將在今年推出的超薄筆記本電腦Ultrabook上采用一種新的語音控制技術(shù)。

  在這些科技業(yè)大佬的背后,有一個名字不得不提:Nuance。

  不僅僅是蘋果和三星旗下的熱門智能手機產(chǎn)品,航空公司甚至是頂級銀行的自動呼叫中心也有著它的身影。Nuance是一家語音識別技術(shù)公司。

  研究機構(gòu)Research and Markets近期發(fā)布報告稱,語音識別市場的主流趨勢之一,是“聲音密碼”越來越廣泛地被使用。

  “一般的密碼很容易被記住,但同時也容易被破解,這帶來了安全方面的威脅。”該報告說,因此各大組織開始越來越頻繁地使用生物密碼——往常的符號被人們的聲音所代替,聲音變成密碼并作為身份認證的依據(jù)。

  更重要的是,聲音還擁有一個顯著優(yōu)點——無法被復(fù)制。

  根據(jù)該公司的研究,這一市場的主要驅(qū)動因素之一,是對基于語音的生物識別或身份鑒定技術(shù)的需求。但目前主要的挑戰(zhàn)就是缺乏系統(tǒng)準(zhǔn)確性。語音識別設(shè)備對嘈雜的環(huán)境極為敏感,這降低了準(zhǔn)確率。

  不過,愛爾蘭聯(lián)合銀行從2008年開始就嘗試通過聲音來鑒定員工的身份。VoiceVault生物測定系統(tǒng)能夠捕捉“語音痕跡”,該系統(tǒng)能識別打電話者的聲音,而后,還可以幫助用戶進行重置密碼等工作。

  用途可不局限于幫助員工修改密碼,在此之后,越來越多的金融服務(wù)公司也開始使用這種系統(tǒng)打擊欺詐行為。

  語音也可以“計算”

  自然輸入方法從一開始便是個人電腦行業(yè)的一大圣杯。在創(chuàng)建公司不久后,微軟CEO比爾·蓋茨便開始尋找除了鍵盤和鼠標(biāo)之外的,可以將數(shù)據(jù)輸入電腦的方法。

  蓋茨認為,一定有某些本質(zhì)上是“奇怪的”輸入設(shè)備,最終會被人們接受。

  2010年,微軟Kinect來了,手勢輸入從此風(fēng)靡。

  但是聲音難以捉摸。聲音同時可被用于控制或翻譯,不過人們對語音轉(zhuǎn)為文字的精確度要求極高。海外媒體稱,按照目前的技術(shù)水平,一頁有300個英文單詞的文件中,平均每頁有3個錯誤,盡管正確率超過90%,但剩下的那小部分仍需長途跋涉。

  不過,在羅杰·凱看來,計算能力已經(jīng)變得更強大,語言數(shù)據(jù)庫也變得更加龐大。

  依靠這些工具,類似Nuance這樣的公司已經(jīng)幾乎轉(zhuǎn)向統(tǒng)計學(xué)方法。與其依靠語言模型這樣的老方法,商業(yè)性語音公司已經(jīng)開始在他們的產(chǎn)品中采用關(guān)鍵字檢測以及基于規(guī)則的技術(shù)。

  換句話說,基于資料庫和快速計算能力,它能夠確定一個單詞后面跟著某個特定單詞的幾率,而不在意語法聯(lián)系。

  “你不必在意喬姆斯基教授語言和意思的結(jié)構(gòu)性,你可以用數(shù)學(xué)的方法來實現(xiàn)它。”羅杰·凱說。

  語音識別是第一步,之后,分析則是一項難度更大的工程。

  盡管基于人工智能和語音識別的語音個人助手并不鮮見,安卓平臺便同樣有類似的程序如Voice Actions,但Siri的風(fēng)靡證明只是語音識別技術(shù)是不夠的,它還是一種人工智能形式,如今的系統(tǒng)還需要更強大的自學(xué)能力。

  去年末,投資銀行Piper Jaffray的分析師設(shè)計了800道語音問答題,考察蘋果Siri和谷歌Google Now的水平,結(jié)果后者獲得了進步最快獎。

  不過,Siri也取得了一定的進步。就在一年前,Siri還有27%的答案來自谷歌搜索,如今這個數(shù)字已經(jīng)大幅下降到4%。

  英國媒體近日發(fā)表文章指出,語音翻譯將成為科技業(yè)下一件大事。《圣經(jīng)》有一個著名的故事:人類想上天堂,造巴別塔。上帝為阻止人類登天,所以迫使人類說不同的語言。由于溝通不暢,巴別塔最終半途而廢。但英國作家道格拉斯·亞當(dāng)斯曾在其小說《銀河系漫游指南》中提及一種能夠聽懂外星人語言的小魚“巴別魚”(Babelfish)。

  如今,這種“小魚”科技的出現(xiàn)似乎變得有可能。人工智能專家、南安普頓大學(xué)教授奈杰爾·沙德博爾特稱,由于大量可供實時語音翻譯信息資源的存在,“巴別魚”系統(tǒng)正在走進現(xiàn)實,未來市場出現(xiàn)類似藍牙耳機的實時翻譯工具是非常自然的事情。

  在四、五年前,谷歌便開始研發(fā)語音翻譯軟件,時任機器翻譯總裁的弗朗茲·歐克認為,實現(xiàn)語音翻譯是有可能的。他們在向著讓這種服務(wù)運行流暢的方向努力,并且還需要結(jié)合高精度的機器翻譯和高精度的語音識別。

  Google Now就是語音識別加人工智能技術(shù)最好的例證——它幫助用戶通過語音識別技術(shù)進行網(wǎng)絡(luò)搜索。

  谷歌搜索工程部副總裁斯科特·霍夫曼說,搜索領(lǐng)域目前正努力實現(xiàn)的是,根據(jù)用戶的聲音準(zhǔn)確理解“用戶想要什么”,并給出符合需求的答案。

  據(jù)海外媒體報道,谷歌已經(jīng)構(gòu)筑了與人、地區(qū)、事件相關(guān)的數(shù)據(jù)庫“知識圖譜”等,因此語音搜索方式的實現(xiàn)指日可待。

  而依靠一種名為語音輸入應(yīng)用程序接口工具,谷歌旗下的瀏覽器Chrome 11 Beta版已經(jīng)可以理解用戶所說的話。

  下一步:搶奪更多入口

  語音識別技術(shù)市場正在走向競爭激烈的十字路口。

  海外媒體預(yù)計,隨著語音識別將取代輸入、鍵盤、寫字和觸摸,成為人機互動最主要的界面,語音技術(shù)將遍布世界各個角落。

  研究機構(gòu)BCC曾發(fā)布報告預(yù)測,全球語音識別市場的規(guī)模到2017年會達到1130億美元,五年復(fù)合年增長率高達16.2%。

  該機構(gòu)認為,語音識別市場將分化為三大終端市場:企業(yè)、消費者以及健康保健。

  在這其中,企業(yè)終端的市場規(guī)模將在2017年達到422億美元,復(fù)合年增長率為15.9%;消費者終端則將以17.2%的五年復(fù)合年增長率,在2017年達到651億美元的規(guī)模;健康保健終端在2017年的規(guī)模則將達到59億美元,復(fù)合年增長率為9.4%。

  語音識別系統(tǒng)Nuance公司是語音識別軟件Dragon的開發(fā)者,這款軟件在醫(yī)療保健行業(yè)的應(yīng)用已經(jīng)長達十年之久。

  當(dāng)病人前去看病時,內(nèi)科醫(yī)生的桌面上運行Nuance的軟件,它便可以利用一個夾式微型話筒來錄音。隨著問診的推進,這款軟件會及時更新病人的電子健康記錄。

  未來的語音識別功能也可以幫音樂愛好者大忙:用戶可以通過口述歌曲或歌手的名字進行點播,并且它會記住用戶的喜好。

  臉譜網(wǎng)曾收購一家語音識別和語言翻譯應(yīng)用程序制造商Mobile科技公司。該公司旗下?lián)碛兄苿討?yīng)用程序Jibbigo Translator,這款應(yīng)用可以自動翻譯超過20種語言。

  有分析稱,MT的技術(shù)確實能夠幫助臉譜網(wǎng)做許多事情,包括在未來實現(xiàn)跨語言聊天、旅行者語音翻譯和信息流即時翻譯等。此外,還有可能幫助臉譜網(wǎng)實現(xiàn)語音圖譜搜索。

  汽車領(lǐng)域同樣是語音識別技術(shù)的重要陣地。

  寶馬汽車已經(jīng)開始提供語音識別服務(wù),通過數(shù)據(jù)中心進行實時處理,轉(zhuǎn)換為文本并通過郵件發(fā)送,司機不需要動手便可以完成這一系列動作。

  有報道稱,蘋果正致力于允許第三方服務(wù)與Siri進行整合,以便使其智能手機上的數(shù)字助手能執(zhí)行除本公司外的各項服務(wù),例如預(yù)訂航班和酒店,餐廳訂座,或在其他短信應(yīng)用中發(fā)送文本等。

  面對來自Google Now和微軟愈發(fā)激烈的競爭,蘋果被認為必須要升級Siri的功能。甚至有曝料稱,連語音識別公司Nuance也在提升其自己的數(shù)字助理Wintermute搜索各種第三方應(yīng)用程序的能力。

  不難想象,不久的將來,可穿戴腕表、頭戴式終端、汽車、電視機甚至是襪子或是襯衫,所有物體都有望作為網(wǎng)絡(luò)終端使用,而通過語音提取所需信息的搜索和助手功能,將使這些終端更緊密地聯(lián)系并讀懂人類的需求。

  數(shù)說科技

  投資銀行Piper Jaffray的分析師設(shè)計了800道語音問答題,考察蘋果Siri和谷歌Google Now的水平,結(jié)果后者獲得了進步最快獎。不過,蘋果語音智能助手Siri也取得了一定的進步。在此一年前,Siri還有27%的答案來自谷歌搜索,如今這個數(shù)字已經(jīng)大幅下降到4%

  聲音可被用于控制或是翻譯,但是人們對語音轉(zhuǎn)為文字的精確度要求極高。按照目前的技術(shù)水平,一頁有300個英文單詞的文件中,平均每頁有三個錯誤,盡管正確率超過90%,但剩下的那小部分仍需長途跋涉

  投資銀行Piper Jaffray的分析師設(shè)計了800道語音問答題,考察蘋果Siri和谷歌Google Now的水平,結(jié)果后者獲得了進步最快獎。不過,蘋果語音智能助手Siri也取得了一定的進步。在此一年前,Siri還有27%的答案來自谷歌搜索,如今這個數(shù)字已經(jīng)大幅下降到4%

  研究機構(gòu)BCC發(fā)布報告預(yù)測,全球語音識別市場的規(guī)模到2017年會達到1130億美元,五年復(fù)合年增長率高達16.2%。該機構(gòu)認為,語音識別市場將分化為三大終端市場:企業(yè)、消費者以及健康保健

  其中,企業(yè)終端的市場規(guī)模將在2017年達到422億美元,復(fù)合年增長率為15.9%;消費者終端則將以17.2%的五年復(fù)合年增長率,在2017年達到651億美元的規(guī)模;健康保健終端在2017年的規(guī)模則將達到59億美元,復(fù)合年增長率為9.4%

  臉譜網(wǎng)曾收購一家語音識別和語言翻譯應(yīng)用程序制造商 Mobile Technologies,該公司旗下?lián)碛兄囊苿討?yīng)用程序Jibbigo Translator,這款應(yīng)用可以自動翻譯超過20種語言。有分析稱,MT的技術(shù)確實能夠幫助臉譜網(wǎng)做許多事情,包括在未來實現(xiàn)跨語言聊天、旅行者語音翻譯和信息流即時翻譯等

分享到: 收藏

專題