智能語音登陸戰(zhàn):如何真正成為移動互聯(lián)網(wǎng)入口?

2013-08-12 16:35:29   作者:   來源:21世紀網(wǎng)   評論:0  點擊:


  “今天最后一班從北京開往上海的高鐵什么時候發(fā)車?”再次遭遇航班取消的A先生,萬般無奈之下掏出手機,對著朋友推薦的一款名叫“出門問問”的微信公眾賬號發(fā)出了以上求助指令,僅僅數(shù)秒鐘,“出門問問”給予了備選答案。

  這只是移動互聯(lián)掀開的語言浪潮里瑣碎的日常情景之一。

  每天,數(shù)以億計的語音信息,通過語音識別技術(shù)被機器轉(zhuǎn)化為文字;它們中的一部分,又以機器學習的方式,被解析出具體的意義,在人機交互中,為用戶的語音搜索提供答案。

  據(jù)統(tǒng)計,Google25%的移動搜索結(jié)果來自語音,這一比例在百度亦突破10%;在Siri前后涌現(xiàn)的一批第三方語音助手,正在迅速占領(lǐng)國內(nèi)智能終端,為用戶提供各式信息查詢服務(wù)和類Siri的簡單娛樂功能;而在智能電視、導(dǎo)航、語言學習等領(lǐng)域,遠離大眾視線的語音公司正在提供最基礎(chǔ)的技術(shù)支持。

  然而,在長達半個世紀關(guān)于人工智能的構(gòu)想中,智能語音的到來卻著實顯得有些姍姍來遲。

  最關(guān)鍵的助推力來自云的成型。“過去,龐大的計算量構(gòu)成了識別準確率提高的門檻,也限制了識別的應(yīng)用場景(往往只能是專用領(lǐng)域),而現(xiàn)在的云端計算、移動互聯(lián)網(wǎng)等終端的便捷接入,使語音識別越來越成為一種普遍服務(wù)能力”,關(guān)注人臉識別、語音分析等人工智能技術(shù)的聯(lián)想之星執(zhí)行董事劉維向記者表示。

  在中國工業(yè)和信息化部披露的未來三到五年規(guī)劃中,智能語音技術(shù)和產(chǎn)業(yè)推進作為工作重點,“智能語音真正成為移動互聯(lián)網(wǎng)入口”被官方正式提出。

  不過,對于行業(yè)內(nèi)的創(chuàng)業(yè)者們而言,如何將創(chuàng)新技術(shù)帶向市場,則是一場曠日持久的戰(zhàn)役。從最早登上資本市場的科大訊飛,到后起的分布于語音識別和語義分析環(huán)節(jié)上的大小公司,難免在2B和2C的商業(yè)模式之間抉擇掙扎。是做橫向的技術(shù)服務(wù)商,還是做縱深的產(chǎn)品提供者?入口當前,語音鏈條上的各家企業(yè)該如何破解產(chǎn)業(yè)化難題?

  識別之困

  走在北京海淀某高校的校園里,你可能會被人冷不丁地叫住,邀請你用自己的鄉(xiāng)音,照著本子,對著他手里的移動設(shè)備,念一段日常生活的對白。

  同樣的一幕,換不同的文本,重復(fù)成百上千次。這看似“笨重”的工作,卻是智能語音流水線的開端。

  在語音技術(shù)公司云知聲正式成立前半年,在招兵買馬的同時,基礎(chǔ)語音數(shù)據(jù)的積累已經(jīng)借由外包公司悄然開展。而這些線下采集的珍貴的海量數(shù)據(jù),能夠為機器提供更多模擬學習的樣本。

  云知聲聯(lián)合創(chuàng)始人、CEO梁家恩將語音識別的過程描述為:“通過麥克風捕捉用戶發(fā)出的聲音,將聲波信號轉(zhuǎn)換成機器可以處理的‘發(fā)音特征’,再結(jié)合發(fā)音詞典和匯集各類詞匯排列組合的語言模型,比對搜索出最接近聲音波形的句子”。簡要地說,機器不必理解句子的意思,就能將語音自動轉(zhuǎn)化為準確的文字。

  這是語音技術(shù)需要攻破的第一關(guān)隘。在國內(nèi),從事語音識別技術(shù)的創(chuàng)業(yè)者大致分為兩個“門派”,一派來自清華,另一派來自中科院。梁家恩所在的中科院自動化所從上世紀80年代起致力于語音領(lǐng)域的研究,與清華幾乎同時起步。而據(jù)一位業(yè)內(nèi)人士撰文估計,全國從事語音技術(shù)的專業(yè)人才不超過一百人。

  梁家恩在大學階段即見證了“同門”科大訊飛的崛起。而在移動互聯(lián)網(wǎng)爆發(fā)之前,科大訊飛和捷通華聲聚焦于語音合成領(lǐng)域,這項在二戰(zhàn)后廣為使用的技術(shù),讓機器可以念出文本,但隨后,科大訊飛又聚焦于語音識別。

  不懼科大訊飛和其他眾多語音搜索類勁敵,云知聲憑借一套被稱作深度神經(jīng)網(wǎng)絡(luò)的核心技術(shù),迅速站穩(wěn)腳跟。這項技術(shù)增強了在口音和噪音環(huán)境下的識別效果,可以單獨將識別錯誤率下降30%以上。而思必馳也使用深度神經(jīng)網(wǎng)絡(luò)技術(shù)實現(xiàn)了語音識別性能的提升,百度亦在今年年初專門成立了深度神經(jīng)學院對此進行研發(fā)。

  在梁家恩看來,語音識別的好處在于統(tǒng)計框架的完整性,“算法和框架在學術(shù)界都是公開的,并沒有太大差異”,但在這個情況下,要進一步做好只能憑硬功夫,“一樣的系統(tǒng)架構(gòu),實驗室環(huán)境下朗讀做到90%識別率容易,但在海量用戶和實用環(huán)境下做到90%的難度還是相當?shù)母?rdquo;,梁家恩告訴記者。

  理解之惑

  “如果只有語音識別,我們最多實現(xiàn)了聊天,”梁家恩說,“加上語義理解才能跟真正的業(yè)務(wù)掛鉤。”

  在語音產(chǎn)業(yè)的下游,語義分析可以所是語音識別的接力。簡要地說,語義分析是對輸入的句子進行分析,理解句子的邏輯關(guān)系,并根據(jù)邏輯關(guān)系構(gòu)造用戶需要的反饋結(jié)果。語義分析應(yīng)用的經(jīng)典形式是問答或?qū)υ捫枰壤斫庥脩舻妮斎,然后生成答案,或者生成需要用戶補充的問題。

  “旅游垂直搜索去哪兒是由用戶填表格,自然語義分析是替用戶直接把表格填了”,出門問問創(chuàng)始人李志飛打了個比方。語義分析將文字轉(zhuǎn)化成標準化的表格,利用開放API的數(shù)據(jù)支持,對接垂直的搜索。

  李志飛畢業(yè)于約翰霍普金斯大學語言語音處理實驗室(CLSP),在獲得紅杉資本和真格基金投資、確定回國創(chuàng)業(yè)之前,他在谷歌研究院開發(fā)谷歌翻譯產(chǎn)品,其博士研究方向正是人工智能分支之一的機器翻譯領(lǐng)域。

  李志飛指出,聲音的被理解和被識別所面臨的技術(shù)問題是迥然相異的。對語音識別來說,最大的問題是噪音,不同場景中的環(huán)繞聲和不同人群使用的方言,聲音信號千變?nèi)f化。而語義分析的難點在于,同樣意思的句子,有著各種不同的用詞和語序,“比如南方航空公司和南航,上海和魔都”。

  師從國內(nèi)語義分析專家、北京交通大學賀仲雄先生的蟲洞CEO俞志晨告訴記者,語義分析的技術(shù)路線分為兩種:一是靠規(guī)則庫做匹配,把語言規(guī)則化以后進行配對;另一種是依靠機器學習的方式,通過智能網(wǎng)絡(luò),訓練算法。“而一個成熟的語音產(chǎn)品一定會使用后者”,他表示,不過,在早期階段往往采用兩者結(jié)合的方式。

  但同處語義分析環(huán)節(jié),兩位創(chuàng)業(yè)者卻選擇以不同的方式抵達用戶。

  早期定位于實用性功能搜索查詢的蟲洞,在Siri出現(xiàn)后受到啟發(fā),以對話的交互方式串聯(lián)了原有的一系列功能。俞志晨認為,查詢信息是一場連貫的過程,需要不斷反饋和交互,才能得到準確的信息,而用戶也希望在說完后得到有人情味的回答。

  而李志飛讓出門問問回避了Siri式的對話“調(diào)戲”場景,用戶一次語音換一個答案。他的理由是,人們在對話中會反問很多問題,甚至把機器當作自然人與之聊天。“對話管理是下一階段。現(xiàn)在先弄清楚一句話本身是什么意思這是基本功”,李志飛說。

  劉維表示,從技術(shù)上講,為了讓機器理解人的語言,確實需要從語音到文本、文本到理解兩個部分,但如果這兩個環(huán)節(jié)割裂開來處理,很難真的理解自然語言。

  對風險投資者來說,語音市場的爆發(fā)有賴于兩個環(huán)節(jié)基本技術(shù)的共同成熟。劉維認為,只有這樣,才能從更高的層面,也就是人機對話系統(tǒng)的層面,整合兩個技術(shù)、更加人工智能的去通過多輪次對話,反復(fù)和用戶交流,真正去理解用戶的自然語言,而不是簡單的“語音聽寫”和“文本搜索”。

  模式之爭

  對于一個技術(shù)密集的語音行業(yè)來說,需要攻克的不只是技術(shù)難題,而更具挑戰(zhàn)性的當屬市場的開拓。

  在Siri讓更廣闊的人群了解語音的面容之前,一些先行者已經(jīng)開始從行業(yè)應(yīng)用率先尋找語音市場的“登陸點”。

  教育領(lǐng)域或許是第一個兵家必爭之地。

  在自動化所的五年時間里,從事語音識別核心技術(shù)研發(fā)的梁家恩,就和同事們共同開發(fā)了一套英語口語評估系統(tǒng)。

  而在歐亞大陸的另一端,高始興和幾位劍橋大學的師生聯(lián)合創(chuàng)辦的思必馳公司,也將海外漢語口語教育作為首塊戰(zhàn)場。整套語音識別、合成和評測技術(shù),配上高漲的語言學習熱情和時興的資質(zhì)考試,聽上去頗有默契、順理成章的商業(yè)模式。

  但思必馳的實踐并不順利,高始興發(fā)現(xiàn),在一個初生的市場,關(guān)鍵并不在于“技術(shù)有多好”,“實際上,用戶對技術(shù)的理解還隔著好幾層”。

  2008年,分散而捉摸不定的漢語口語市場讓思必馳折戟回國,重新選擇以英語口語評測為切口,開始二次創(chuàng)業(yè),以第二代智能語音分析和人機對話技術(shù)為基礎(chǔ),思必馳在國內(nèi)首次實現(xiàn)了針對對話交流能力的評測,并成為國際上第一個為英語考試口試提供完整機器評測的語音公司。

  當思必馳為新東方等英語教育公司開發(fā)出人機對話的口語學習系統(tǒng)時,梁家恩的評估系統(tǒng)卻賣給了語音行業(yè)的龍頭企業(yè)科大訊飛。而在今年6月25日,科大訊飛以自有資金4.8億元收購廣東啟明科技,收購溢價達580%,后者又是一家口語考試測試系統(tǒng)提供商。

  顯然,競爭日趨激烈的教育行業(yè)已無法承擔全部的登陸重任。思必馳正悄然將基于深度神經(jīng)網(wǎng)絡(luò)的語音識別和語音合成等技術(shù)應(yīng)用在車載系統(tǒng)等智能設(shè)備領(lǐng)域。“車載天然以語音交互為主”,俞志晨亦預(yù)測,車載導(dǎo)航和穿戴式設(shè)備將是語音行業(yè)中早期的市場爆發(fā)點,蟲洞選擇與深圳樂投等相關(guān)公司合作開發(fā)語音。

  而上述一切儲備,似乎都為語音在移動互聯(lián)端的登陸做出預(yù)演。人們可以數(shù)出應(yīng)用市場、瀏覽器、APP和手機桌面四個已經(jīng)成型的移動互聯(lián)入口,語音則是呼聲日漸高漲的入口候選者。

  對于完全誕生在移動互聯(lián)時代的出門問問而言,先行者們的路徑,顯然并不用過多參考。從今年4月起,為微信用戶提供生活服務(wù)查詢的出門問問公眾號,以每月數(shù)倍的增長,迅速累計起超過10萬的用戶,成為微信官方推薦的十大應(yīng)用之一,遠超其早一月上線的Android移動端。

 

分享到: 收藏

專題