發(fā)表評論分享按鈕

Siri背后的技術(shù)

2011/10/25

  今年10月,Apple發(fā)布了iphone 4S with IOS 5,其中最大的亮點就是一個語音搜索軟件-Siri。一時間,各種geek,偽geek,碼農(nóng),非碼農(nóng)都流行起調(diào)戲siri,各種調(diào)戲視頻,音頻大量出現(xiàn)。不過,常言道“外行看熱鬧,內(nèi)行看門道”,作為一個“偽內(nèi)行”,或者“欲做內(nèi)行而不得”的人,根據(jù)自己的知識,以及一些搜索工具,嘗試了解了一下Siri的“門道”,在這里做個總結(jié),列出siri所可能用到的技術(shù)。

  Siri是IOS上的個人助理應(yīng)用:此軟件使用到自然語言處理技術(shù),使用者可以使用自然的對話與手機(jī)進(jìn)行互動,完成搜尋資料、查詢天氣、設(shè)定手機(jī)日歷、設(shè)定鬧鈴等服務(wù)。

  Siri所用到的技術(shù),很多人會回答,人工智能以及云計算,的確,總體來說,是這兩樣技術(shù),不過,這種概述感覺幾乎沒有任何意義,和不直接說“計算技術(shù)”(注意,不是計算機(jī)技術(shù))呢。因此,在本文,我將介紹下我了解Siri可能采用的技術(shù)。

  首先,在前端方面,即面向用戶,和用戶交互(User Interface,UI)的技術(shù),主要是語音識別以及語音合成技術(shù)。語音識別技術(shù)是把用戶的口語轉(zhuǎn)化成文字,其中需要強(qiáng)大的語音知識庫,因此需要用到所謂的“云計算”技術(shù)。而語音合成則是把返回的文字結(jié)果轉(zhuǎn)化成語音輸出,這個技術(shù)理論上本地就能完成(以前用過科大訊飛的在windows mobile上的本地語音閱讀軟件,軟件很小,但能讀的很好,還支持方言),但不知道Siri是否如此,當(dāng)然,在云端完成也并無不可,在當(dāng)前無線帶寬下,那點語音流量根本不算什么。

  其次,后臺技術(shù),這些其實才是真正的大角色(當(dāng)然,普通用戶是不會在意的,他們只會覺得前端很炫,哎,這就是做后端的悲哀,小小感嘆一下)。這些技術(shù)的目的就是處理用戶的請求,并返回最匹配的結(jié)果,這些請求類型很多,千奇百怪,要處理好并不簡單;镜慕Y(jié)構(gòu)猜測可能是分析用戶的輸入(已經(jīng)通過語音轉(zhuǎn)化),根據(jù)輸入類型,分別采用合適的技術(shù)(合適的技術(shù)后面)進(jìn)行處理。這些合適的后臺技術(shù)包括,①以Google為代表的網(wǎng)頁搜索技術(shù);②以Wolfram Alpha為代表的知識搜索技術(shù)(或者知識計算技術(shù));③以Wikipedia為代表的知識庫(和Wolfram Alpha不同的是,這些知識來自人類的手工編輯)技術(shù)(包括其他百科,如電影百科等);④以Yelp為代表的問答以及推薦技術(shù)。

  下面,對上面提到的各種技術(shù)進(jìn)行簡要介紹(如有空,后面的博文可能會對某些技術(shù)詳細(xì)的介紹,大家耳熟能詳?shù)木兔饬耍,?qiáng)調(diào)下,介紹的有些參考來源是維基百科相關(guān)詞條,下面不一一列出:

  語音識別以及語音合成技術(shù)語音識別技術(shù),也被稱為自動語音識別(英語:Automatic Speech Recognition, ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識別及說話人確認(rèn)不同,后者嘗試識別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。語音識別技術(shù)所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。

  語音合成是將人類語音用人工的方式所產(chǎn)生。若是將電腦系統(tǒng)用在語音合成上,則稱為語音合成器,而語音合成器可以用軟/硬件所實現(xiàn)。文字轉(zhuǎn)語音(text-to-speech, TTS)系統(tǒng)則是將一般語言的文字轉(zhuǎn)換為語音,其他的系統(tǒng)可以描繪語言符號的表示方式,就像音標(biāo)轉(zhuǎn)換至語音一樣。

  相比于語音識別,語音合成感覺難度要低,并且基本能夠在本地完成(很多OS都有內(nèi)置的語音合成引擎)。而語音識別,由于涉及到語義理解,難度大大加大,需要大量的知識庫,一般需要在云端完成。

  另外,在國內(nèi),這方面做的很好的公司也有,比如鄙人本科所在學(xué)校的科大訊飛,就是中文語音合成以及識別的領(lǐng)軍企業(yè),在英文語音合成領(lǐng)域其實也很牛,拿過很多獎。國外的話,比較早的應(yīng)該是IBM ViaVoice。

  網(wǎng)頁搜索技術(shù)這個我想沒必要介紹,大家天天用的Google就是這個技術(shù)的代表。而國內(nèi)的話,則以百度為代表。

  知識計算(搜索)技術(shù)(Computational Knowledge)這個技術(shù)的代表是Wolfram|Alpha。

  不同于搜索互聯(lián)網(wǎng)信息,Wolfram|Alpha將從公眾的(包括公開的網(wǎng)頁等)和獲得授權(quán)的資源中,發(fā)掘、建立起一個異常龐大的經(jīng)過組織的數(shù)據(jù)庫,再利用高級的自然語言算法進(jìn)行處理,最終構(gòu)造出一個類似于谷歌搜索的工具。

  和網(wǎng)頁搜索技術(shù)不同的是,在這個系統(tǒng)中,得到的答案結(jié)構(gòu)化程度很高,比如搜索China,能得到和中國相關(guān)的各種參數(shù)以及資料,并以接近表格的方式呈現(xiàn)。Wolfram|Alpha也能理解部分自然語言,比如輸出How old are you,其會回答Wolfram|Alpha的年齡。想測試這項技術(shù)的請移步Wolfram|Alpha。

  這個技術(shù)國內(nèi)做的應(yīng)該有,但還沒有產(chǎn)品,也許百度的框計算算是半個。所以機(jī)會大大的有。

  知識庫技術(shù)這名字是我自己起的,不知道有沒有貽笑大方。。。這個技術(shù)的代表是維基百科,以及各種專門的百科網(wǎng)站。相比于網(wǎng)頁搜索技術(shù),基本以一個詞條或者主題為單位,因此得到的數(shù)據(jù)價值高,知識量大,并且結(jié)構(gòu)化程度好。相比于知識計算技術(shù),這些技術(shù)需要人的參與,這有利也有弊,利就是,畢竟暫時人比機(jī)器聰明,編輯出來的知識更豐富,準(zhǔn)確;弊就是,人力有限,即使像維基那樣,發(fā)動社區(qū)的力量,也不能產(chǎn)生足夠的知識,而知識計算,理論上,只需要算法夠牛叉,是可以產(chǎn)生“無限”的知識的。

  另外,寫到這里,我想起Yahoo和Google的故事,當(dāng)年,Yahoo是搜索老大,就像現(xiàn)在的Wekipedia在知識搜索領(lǐng)域一樣,而Google是小弟,就像Wolfram|Alpha在知識搜索領(lǐng)域一樣。但后來,卻反過來了,Googe成了網(wǎng)頁搜索老大,Yahoo成了小弟,原因就是Google相信算法的結(jié)果,把所有事都交給算法做,而Yahoo,很多索引都是人工編輯的。我想,也許有一天,Wekipedia和Wolfram|Alpha也會出現(xiàn)這樣的情況。

  問答推薦技術(shù)其實這不能稱為一個技術(shù),應(yīng)該屬于知識庫的技術(shù)。不同的是,這個技術(shù)針對的是一些生活信息,這些信息的地域化程度很高,典型代表為Yelp。由于這東西比較簡單,就不仔細(xì)介紹了。

  其實在國內(nèi),這方面的網(wǎng)站也有,那就是大眾點評網(wǎng)這些。

  讀完此文,你也許會發(fā)現(xiàn),其實Siri并沒有什么革命性的技術(shù),其本質(zhì)是將各種已經(jīng)比較成熟的技術(shù)融合成一個產(chǎn)品,最終呈現(xiàn)給用戶,因此,完全沒必要對Siri神圣化。

  另外,Siri其實是蘋果買來的,在蘋果買來之前,Siri本來是會推出Android版本的,可是,被蘋果購買后,Android版本的Siri遙遙無期了(不過,這為廣大的Android開發(fā)者以及公司提供了機(jī)會)。而Siri之前默默無聞,但是一從蘋果推出,卻聲名鵲起,不得不佩服Apple以及Jobs的眼光以及執(zhí)行力。

Sigma



相關(guān)閱讀:
Siri10種“非娛樂”的“正經(jīng)”用法 2011-10-24
蘋果iPhone 4S銷量達(dá)到創(chuàng)紀(jì)錄 2011-10-18
Siri語音助手大受歡迎 蘋果服務(wù)器不堪重負(fù) 2011-10-18
蘋果:Siri語音識別明年將支持5國語言 2011-10-17
回憶喬布斯:不為外界所知的“WiFi教父” 2011-10-17

熱點專題:  語音合成TTS 語音識別ASR    移動增值   移動互聯(lián)網(wǎng)
分類信息:  移動增值_與_移動互聯(lián)網(wǎng)  移動增值_與_CTI文摘  移動互聯(lián)網(wǎng)_與_移動  CTI文摘_與_移動
相關(guān)頻道:  增值電信文摘