精品厕所偷拍各类美女TP嘘嘘,欧美大胆丰满熟妇XXBB,一区二区三区免费高清视频

首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識別(ASR)　　語音識別產(chǎn)品

聲音的力量：對話谷歌語音技術(shù)負(fù)責(zé)人

2011/02/17

　　北京時間2月16日消息，據(jù)國外媒體報道，知名科技博客TechCrunch作者賈森·金凱德（Jason Kincaid）發(fā)表文章，講述了他與谷歌語音技術(shù)負(fù)責(zé)人邁克·科恩（Mike Cohen）最近進(jìn)行的一次談話，內(nèi)容涉及谷歌大力投入語音技術(shù)的原因及發(fā)展前景。

谷歌語音技術(shù)負(fù)責(zé)人邁克·科恩（Mike Cohen）
　　以下為全文摘要：

　　盡管智能手機(jī)應(yīng)用程序花樣翻新，層出不窮，但是如果你拿出手機(jī)，說一聲“尋找到科技館的道路”，谷歌就會立即照做的話，你仍然會感到這個情景有點不太尋常。語音技術(shù)通過iPhone應(yīng)用程序，以及與Android的深度整合，正在變得日益普遍，而這實際上僅僅是一個開始。

　　回顧過去

　　在討論現(xiàn)在的狀況之前，我們先來回顧一下科恩過去的經(jīng)歷，也可以說這是在回顧語音技術(shù)的歷史，因為雖然科恩從2004年開始一直在谷歌工作，但他自80年代初在斯坦福研究院做研究時起，就站在語音和技術(shù)的交匯之處，至今已經(jīng)幾十年了。

　　科恩說，在20世紀(jì)70年代語音工作有兩大陣營：語言學(xué)家和工程師。語言學(xué)家強(qiáng)調(diào)規(guī)則——他們會找出語法和發(fā)音上的各種趨勢，以及每一個音素如何與其他音素互動。工程師們則采用了不同的方法：他們的目標(biāo)不是試圖以人工方式精心確定每個規(guī)則，而是構(gòu)建復(fù)雜的統(tǒng)計模型，當(dāng)有更多的語音數(shù)據(jù)輸入到這些模型中時，它們就會得以改進(jìn)。

　　到了70年代末和80年代初，當(dāng)科恩開始在斯坦福研究院做研究時，工程師們正處于領(lǐng)先位置，但是存在著這樣一個問題：統(tǒng)計模型的改進(jìn)已經(jīng)開始形成漸近線�？贫鹘忉屨f，因為這些模型總是相同的，向它們輸入更多的數(shù)據(jù)終究會出現(xiàn)報酬遞減（例如他們的模型不善于識別發(fā)音在多大程度上取決于哪些詞被說出，又在多大程度上取決于上下文是什么）。工程師們需要找到一種方式來建立更好的模型，所以他們終于開始與語言學(xué)家們合作，造就了另一波研究熱潮。

　　到90年代初，語音技術(shù)已經(jīng)獲得了長足的發(fā)展，研究人員創(chuàng)建了航空旅游信息系統(tǒng)（ATIS，Air Travel Information System，用戶可以走到一個終端，說“告訴我從波士頓出發(fā)的航班”，計算機(jī)就會顯示相關(guān)數(shù)據(jù)。該系統(tǒng)可以識別這些命令無數(shù)種的變化，因此你不必記住某些關(guān)鍵字）。在Windows 95面市時就有了ATIS這樣的系統(tǒng)，這讓人覺得有些不可思議。

　　在ATIS獲得成功的基礎(chǔ)上，科恩認(rèn)為這項技術(shù)已經(jīng)做好了商業(yè)應(yīng)用的準(zhǔn)備，所以他和三個聯(lián)合創(chuàng)始人創(chuàng)辦了Nuance公司，為需要處理大量呼入電話的大公司建立自動電話系統(tǒng)（電話公司的客戶服務(wù)系統(tǒng)就是一個例子）。

　　科恩繼續(xù)尋找改善Nuance語音識別軟件的方法（鑒于他曾是一位研究者，這也就不足為奇了）。而且事實證明，海量的呼入錄音比他在斯坦福研究院做研究時獲得的數(shù)據(jù)更加有用，因為有些東西無法在實驗室環(huán)境中重現(xiàn)，比如背景中的狗叫聲，孩子的哭聲等等，而這些聲音會出現(xiàn)在呼入的電話中，所以Nuance面臨著語音分析的重大新挑戰(zhàn)。

　　但這里有一個很大的問題：盡管Nuance的技術(shù)正在處理大量數(shù)據(jù)，Nuance公司還是必須向它的每個企業(yè)客戶提出請求，以便獲得這些數(shù)據(jù)用于研究目的。這樣做對企業(yè)有好處，因為它們能從技術(shù)改進(jìn)中獲益，但一些企業(yè)仍然對此持謹(jǐn)慎態(tài)度。這最終導(dǎo)致科恩進(jìn)入了谷歌。

　　GOOG-411項目

　　在2004年前，谷歌基本上沒有語音技術(shù)，但是科恩看到了機(jī)會。即使在那個時候，手機(jī)將對未來技術(shù)產(chǎn)生巨大影響的跡象就很明顯。而且，由于谷歌直接面對最終用戶，它收到的任何語音數(shù)據(jù)都可以方便地用于研究目的。于是科恩進(jìn)入谷歌，著手開展GOOG-411項目，后來它成為谷歌的免費411語音服務(wù)。

　　這項服務(wù)在2007年推出，它提供了一個簡單方便的功能集：你給它打電話詢問一些基本信息，比如一個企業(yè)的電話號碼，它就會馬上為你提供相關(guān)信息，而且是免費的�？贫髡f，推出GOOG-411的主要原因就是“它有用”，但它還有一個重要的副作用：谷歌從此開始建立一個龐大的語音數(shù)據(jù)庫。還記得前面討論過的數(shù)據(jù)模型嗎？谷歌語音系統(tǒng)在概念上與之類似，但是規(guī)模大得多。

　　GOOG-411項目在十月份取消了，但這時谷歌已經(jīng)有了更多的語音數(shù)據(jù)輸入方式，包括在Android上到處可見的麥克風(fēng)按鈕，以及Google Mobile的iPhone應(yīng)用程序。而且谷歌可以查看基于文本的搜索查詢詞條，確定一個詞后面出現(xiàn)得最頻繁的是哪個詞。這一切都意味著谷歌可以相對較快地改進(jìn)其語言模型。

　　科恩說，如今谷歌使用2300億個搜索查詢詞條來“培訓(xùn)”其語音識別功能所使用的語言模型。為了形象地說明數(shù)據(jù)量有多大，科恩說，如果只用一個CPU，這個“培訓(xùn)”需要70年時間才能完成。

　　這項技術(shù)現(xiàn)在已經(jīng)用在谷歌的多種產(chǎn)品中。YouTube自動為數(shù)百萬視頻添加了字幕。谷歌語音服務(wù)嘗試將呼入的語音郵件轉(zhuǎn)錄成文字（產(chǎn)生了一些非�；慕Y(jié)果）。語音搜索將在移動設(shè)備上發(fā)揮更大的作用，所以，如果在不太遙遠(yuǎn)的將來，你看到配有媒體中心的車輛在運行Android，請不要感到驚訝，它們肯定帶有語音功能。

　　科恩很高興地談起谷歌在聲音技術(shù)上做出的努力，但他沒有透露統(tǒng)計數(shù)據(jù)，即將發(fā)布的功能，也沒有做出預(yù)測。科恩承認(rèn)，谷歌語音搜索的量波動很大，取決于是否有新的帶有語音功能的服務(wù)推出，以及是否報刊最近進(jìn)行了報道。

　　當(dāng)我問他，多久之后語音搜索將變得非常準(zhǔn)確，以至于我們可以將它視為理所當(dāng)然（指不需要再檢查文字的拼寫錯誤），雖然他說了類似于“五年”這樣話（對于研究工作而言，這相當(dāng)于是說“我不知道”），但他不愿意談及具體計劃。

　　我也問過他，對蘋果在語音技術(shù)方面采取的行動有什么想法（蘋果去年收購了以語音搜索技術(shù)為主的公司Siri，很明顯蘋果想把將語音技術(shù)納入到iOS中），科恩同樣也沒有這個問題上說多少（雖然這并不令人感到驚訝）。他只是說，谷歌已經(jīng)推出了一個產(chǎn)品，因此擁有數(shù)據(jù)量大的天然優(yōu)勢，但這個問題的答案最終將歸結(jié)于蘋果開發(fā)了什么產(chǎn)品以及它與誰合作。

　　不過，雖然科恩沒有談及具體細(xì)節(jié)，他卻講到了谷歌語音技術(shù)的長遠(yuǎn)目標(biāo)：讓語音輸入變得無處不在。 “就像你可以在很多地方用鍵盤輸入文本，你也應(yīng)該可以在很多地方使用語音輸入。”而準(zhǔn)確性是其中的一個要點 “它需要極為‘接近完美’，人們選擇使用語音輸入不在于它的表現(xiàn)，而在于最終用戶的喜好�！�

騰訊科技

相關(guān)閱讀:

捷通華聲開啟語音手寫識別智能云服務(wù) 2011-02-16

三大電信運營商爭做語音微博名人帶動引關(guān)注 2011-02-16

DCI體系助運營商建立有效“防火墻” 2011-02-15

各大移動公司相繼推WAC應(yīng)用程序試圖搶占制高點 2011-02-15

移動互聯(lián)網(wǎng)市場井噴超越互聯(lián)網(wǎng)指日可待 2011-02-15

熱點專題: 語音合成TTS 語音識別ASR 移動互聯(lián)網(wǎng)
分類信息: 移動互聯(lián)網(wǎng)_與_語音應(yīng)用移動互聯(lián)網(wǎng)_與_移動移動互聯(lián)網(wǎng)_與_移動