首頁 > 新聞 > 專家觀點 >

智能語音技術成為移動互聯(lián)網的重要“入口”

2014-05-14 10:06:46   作者:   來源:科技日報   評論:0  點擊:


  “早上7點15的時候叫醒我”;如果你還想再睡會,就說“40分鐘后叫醒我”。只要你準確的回答時間,iPhone的Siri就會非常準時的叫醒你。

  隨著siri被引入iPhone 4S中,智能語音技術已經成為移動互聯(lián)網界最關注的焦點之一。“這種智能語音技術區(qū)別于傳統(tǒng)的人機對話,新型人機對話技術就是讓機器從”能聽會說“變成”會聽能做“,即聽得懂說的,懂得聽什么,聽不清楚了能問,最后能完成用戶的任務。”上海交大計算機科學與工程系研究員俞凱介紹說。

  俞凱博士擁有劍橋大學語音識別專業(yè)的學術背景,也是國內學術界“青年千人計劃”里唯一一位來自語音技術行業(yè)領域的語音專家,他曾經多次獲得美國國家標準局和美國國防部語音識別評測冠軍。在劍橋大學期間,他成為研究組歷史上與三位語音教授都合作過的第一人,其中最知名的研究合作者便是國際語音界的權威人物史蒂夫·楊;貒,他在上海交通大學組建智能語音實驗室。

  語音識別達不到百分之百的準確,在有不確定性的情況下,機器仍可與人進行對話;谶@個研究思路,俞凱正式開啟了新的智能語音技術研究之路。從開始做語音合成和對話管理,到開發(fā)整個對話系統(tǒng)的架構,他成為了國內智能語音技術領域研究覆蓋面較廣的學者。

  在劍橋大學期間,俞凱參與研發(fā)了“認知型的對話系統(tǒng)”,作為這個系統(tǒng)直接的設計和實現(xiàn)的負責人,他說,這個對話系統(tǒng)就是基于不確定性存在的情況下進一步理解,它和正常的對話系統(tǒng)沒什么區(qū)別,就像人和人聊天一樣,但是它能更好的和人聊天。這也是全球首個能夠在真實世界的任務中運行的對話系統(tǒng)。

  “理論要和工程結合,工程要和產業(yè)結合。我不認為自己是個科學家,更多的算個喜歡鉆研理論的工程師吧”。俞凱說。

  他強調智能語音技術研究對工程性和實踐性要求高。語音研究和其他研究有一個最大的不同—工程和理論結合特別緊密。這是因為系統(tǒng)的搭建需要幾千甚至上萬個小時的語料,系統(tǒng)的運行也需要讓數百萬,數千萬人檢驗能否可行。這也是工程為什么需要融入產業(yè)。

  “我的愿望是所做的技術能夠被千千萬萬的人實際使用。”他介紹,目前在國內語音合成和識別產業(yè)化的著名企業(yè)是科大訊飛,人機對話的探索則以蘇州思必馳為先。思必馳發(fā)布了國內第一個對話平臺—對話工場。

  加載了“對話工場”技術的智能設備相當于裝上一個“人腦”,集“聽”“說”“理解”“對話”“感官”的5組對話能力。開發(fā)者可以免費借助對話工場實現(xiàn)語音識別、語音合成、語義理解、智能對話,聲紋識別等諸多功能,可以應用于電子商務,手機游戲,生活信息服務,車載導航,智能助手等移動生活的方方面面。像聯(lián)想、蘇州電信、同程網、土曼智能手表、幻騰智能燈、智能家居Broadlink、驢媽媽等都采用了思必馳的語音技術解決方案。

  在移動互聯(lián)網的使用上,把識別、語義理解和人機對話連在一起,幫助用戶完成任務?赡茉谖磥砟軌蚴且粋新的、劃時代性的變革。他說,假設移動互聯(lián)設備沒有屏幕,通過交互式的語音對話,系統(tǒng)仍能完成任務。對話式的交互可能是未來在移動互聯(lián)網時代人機交互的一種常規(guī)的形式。“我希望通過語音讓這個常規(guī)的形式有理論依據,能做到國內最好,甚至全世界最好,這算是一個不大不小的夢想吧。”

分享到: 收藏

專題