發(fā)表評論分享按鈕

蘋果Siri善解人意 語音應(yīng)用引爆在即

2011/11/23

  多年來,語音識別技術(shù)始終磕磕巴巴、欲語還休,F(xiàn)在,Siri橫空出世,將這項(xiàng)技術(shù)推向了主流,同時(shí)還帶來了非常廣泛的應(yīng)用前景。

  語音識別并不是什么新鮮事物。多年來,消費(fèi)電子產(chǎn)品、汽車和自動(dòng)呼叫中心一直就在“傾聽”使用者的指令。從2009年開始,谷歌公司(Google)就一直在采錄語音信箱的信息。而在此之前三年,微軟公司(Microsoft)也將類似的技術(shù)置入了Windows Vista。那么,蘋果這個(gè)名為Siri的全新虛擬個(gè)人助理到底有什么神奇之處呢?


  它能讀懂你的心。

  換句話說,Siri不僅僅是語音識別技術(shù),它還能理解語言——正是這一點(diǎn)開始改變用戶與手機(jī)的互動(dòng)方式,F(xiàn)在,很多人預(yù)測,Siri將對這項(xiàng)長期以來呼之欲出的技術(shù)起到重大推動(dòng)作用,正如蘋果iPhone的觸控系統(tǒng)讓觸控技術(shù)躋身主流一樣。這項(xiàng)技術(shù)將掃清眾多創(chuàng)新應(yīng)用發(fā)展道路上的障礙。市場調(diào)研公司Opus Research稱,今年語音識別行業(yè)的產(chǎn)值將達(dá)到約27億美元。該公司還預(yù)計(jì),2012年,市場將掀起后Siri語音應(yīng)用熱潮。

  是什么讓Siri如此與眾不同呢?戰(zhàn)略咨詢公司Creative Strategies總裁提姆•巴佳瑞稱,答案在于精確性。他說:“Siri推出的是真正的新一代人機(jī)界面,它對語音理解及精確把握語音的市場產(chǎn)生了重大影響!

  Siri當(dāng)然談不上完美無缺。這項(xiàng)技術(shù)在理解某些口音上還頗為困難,不過蘋果已經(jīng)在努力解決這些小問題了。但對一款軟件來說,Siri的表現(xiàn)可圈可點(diǎn)。Siri的始創(chuàng)者是位于加州的門羅帕克市的研究實(shí)驗(yàn)室SRI International,據(jù)它稱,Siri的關(guān)鍵在于自然語言處理技術(shù)。Siri的工作原理是:捕捉語音信號,直接將其轉(zhuǎn)換為文本,它們與用戶在手機(jī)屏幕上看到的文本并無二致。Siri然后將這些語句與某些預(yù)先編制好的指令配比,比如“撥打電話”,或“編輯短信”。

  這一技術(shù)潛力巨大,絕不是只適用于平板電腦和智能手機(jī)。語音識別系統(tǒng)Nuance公司是語音識別軟件Dragon的開發(fā)者,這款軟件在醫(yī)療保健行業(yè)的應(yīng)用已經(jīng)長達(dá)十年之久。內(nèi)科醫(yī)生的桌面上正運(yùn)行著Nuance的最新軟件,它利用一個(gè)夾式微型話筒來錄音。隨著問診的推進(jìn),這款軟件會及時(shí)更新病人的電子健康記錄。Nuance公司醫(yī)療保健部門的資深研發(fā)副總裁喬•佩特羅稱:“病人可能在這一秒說的是母親的病史,下一秒又提起父親的病歷。而這些情況這款軟件都能理解。”

  它是如何做到的呢?它的工作原理和Siri非常相似:通過從它所識別的語匯中獲取意義,然后參照一個(gè)醫(yī)療信息數(shù)據(jù)庫,將其與病人的病史做比對。隨后,它會運(yùn)用統(tǒng)計(jì)推斷的方法,在其所發(fā)現(xiàn)的信息片段之間建立聯(lián)系,甚至為對癥治療給出建議。全美大約有45萬名內(nèi)科醫(yī)生正在使用Nuance公司的軟件。佩特羅稱,這一技術(shù)的準(zhǔn)確率超過90%,而且還會隨著時(shí)間推移而不斷提高。顯然,這款軟件盈利前景良好,因此Nuance公司決定,將其第四財(cái)季的收入預(yù)期調(diào)高約1,000萬美元。

  然而,研究人員對這一技術(shù)的未來抱有更大的希望。思凱普•里佐是南加州大學(xué)創(chuàng)新技術(shù)學(xué)院(the University of Southern California's Institute for Creative Technologies)的助理總監(jiān)。他正在開發(fā)一種互動(dòng)仿真技術(shù),用以幫助退伍軍人針對創(chuàng)傷后緊張癥(post-traumatic stress disorder)尋求醫(yī)療咨詢服務(wù)。這款軟件名為SimCoach,它的最終目的是要設(shè)法理解人們口語背后的情緒狀態(tài)。里佐稱:“這是個(gè)十分巨大的挑戰(zhàn)。因?yàn)楸仨毑杉Z音模式,然后得像人類的大腦那樣對它們進(jìn)行分析!崩镒舴Q,人類或許能察覺自己的好友或家人情緒異常,因?yàn)檫@時(shí)人們的語速往往會變慢,重音也更少,但電腦要捕捉這些信號可就相當(dāng)困難了。

  不過這個(gè)領(lǐng)域的有些研究卻能更快獲得成果,而不用再苦苦等待。去年春天,里佐的研究伙伴——麻省理工學(xué)院(MIT)教授阿歷克斯•彭特蘭在美國銀行(Bank of America)的呼叫中心開展了一項(xiàng)類似的語音推斷技術(shù)試驗(yàn),旨在分析員工的溝通對業(yè)務(wù)成功的影響。彭特蘭讓員工連續(xù)六周在脖子上戴著小型電子設(shè)備,它們能記錄員工的實(shí)際位置以及身體語言和聲音。所記錄的數(shù)據(jù)能顯示這些員工是在和誰溝通,他們站著時(shí)與溝通對象距離有多遠(yuǎn),談話的語調(diào)如何。彭特蘭稱:“我們發(fā)現(xiàn),效率最高的員工不光與大量對象交談,他們還與同樣表現(xiàn)出這種特點(diǎn)的同事交談!苯Y(jié)果,他說,只需要調(diào)整一下員工的茶歇時(shí)間,使這類員工之間的步調(diào)更為同步,這個(gè)呼叫中心每年就能節(jié)省1,500萬美元。

  用戶現(xiàn)在對Siri的廣泛關(guān)注很可能將大大促進(jìn)這類研究,并進(jìn)一步推進(jìn)其應(yīng)用。里佐說:“語音識別技術(shù)確實(shí)是技術(shù)領(lǐng)域至高無上的圣杯(holy grail)。我們已經(jīng)掌握了這項(xiàng)技術(shù)的90%,但剩下的10%要求攻克更多難關(guān)。一旦到了引爆點(diǎn),我們將迎來一片十分廣闊的市場。”看起來,這個(gè)引爆點(diǎn)很可能非Siri莫屬。

財(cái)富中文網(wǎng)



相關(guān)閱讀:
美國ITC:蘋果沒有侵犯宏達(dá)電任何一項(xiàng)專利 2011-11-22
摩托羅拉為蘋果鋪路:喬布斯iPhone橫空出世 2011-11-21
人人都愛上Siri 智能機(jī)器人大行其道 2011-11-21
開發(fā)商破解Siri工作原理 實(shí)現(xiàn)在其他設(shè)備使用 2011-11-15
John Briggs:Siri 背后的聲音 2011-11-14

熱點(diǎn)專題:  語音合成TTS 語音識別ASR