您當前的位置是:  首頁 > 新聞 > 國內(nèi) >
 首頁 > 新聞 > 國內(nèi) >

得意音通:“聽聲辨人”的踐行者

2016-04-27 16:22:04   作者:衛(wèi)思諭    來源:經(jīng)濟觀察報   評論:0  點擊cti:


  導語:聲音識別技術的發(fā)展已經(jīng)日趨成熟,并且延展出了多個使用場景。特別是伴隨當下移動互聯(lián)網(wǎng)和智能手機的普及,它已經(jīng)來到我們的日常生活中了。
   科技是推動人類前行、社會進步的重要力量。實驗室里不分晝夜的反復試驗,成就了人類更便捷、更美好的生活。這個欄目的開設,旨在發(fā)現(xiàn)中國科技最前沿的力量,展現(xiàn)這些靜耐科研寂寞的團隊以及他們正在做的事情,為這個時代的科研足跡留下真實的印記。
  電影《2012》中有一個片段,一群人無論怎么弄都啟動不了一輛汽車,而當車的主人說了一句“引擎,啟動”之后,這輛車就發(fā)動起來了。這就是神奇的語音和聲紋識別技術,也就是說,機器可以辨別主人的聲音命令和的身份。除了主人外,任何人說這句話都無法打開系統(tǒng)。
  看上去還很科幻對嗎,可眼下,這個情景已經(jīng)真實的出現(xiàn)在我們的生活中了。雖然暫時還未大量地普及在汽車上,但這種聲音識別技術的發(fā)展已經(jīng)日趨成熟,并且延展出了多個使用場景。特別是伴隨當下移動互聯(lián)網(wǎng)和智能手機的普及,它已經(jīng)來到我們的日常生活中了。
  比如,當我們拿起手機要進入銀行APP,不用密碼、無需指紋,只需自己讀一串數(shù)字,系統(tǒng)就可以通過聲音自動辨認你的身份,成功進入,而除你之外的任何人念相同的數(shù)字,都不能進入你的銀行系統(tǒng)。它的原理,實際上就是根據(jù)我們每個人聲音的獨特性來鑒定說話人的身份。可以說,世界上每一個人的聲音特征都是不同的,母子、父子、雙胞胎的聲音可能會很相像,但在計算機看來他們卻是完全不同的。
  現(xiàn)在,中國建設銀行已經(jīng)開始采用這種技術,而它的供應方,就是一家叫做“得意音通”的科技公司。
  把一件事做到極致
  “我們是一家專門研究聲紋識別技術的公司。我們研發(fā)的技術只用來做一件事,就是對人的身份進行認證”,得意音通的創(chuàng)始人兼董事長鄭方向記者介紹,“因為專注于做這一件事,所以我們就要把它做到極致,包括性能、功能和穩(wěn)定性”。作為清華大學教授和博士生導師,鄭方有著科學家一貫精益求精的態(tài)度。
  由于本科、碩士、博士都在清華求學,鄭方笑稱自己是“三清團”,而在清華畢業(yè)留校任教之后,他陸續(xù)擔任清華語音實驗室、語音技術中心、語音和語言技術中心主任等,跟聲音技術研究打了近三十年的交道。
  2002年,得意音通在北京中關村國際孵化園成立。專業(yè)從事聲紋識別、語音識別與語言理解技術的研發(fā)和商業(yè)化應用,尤其在聲紋識別領域,其集技術研發(fā)、產(chǎn)品開發(fā)和服務提供于一身,擁有完全的自主知識產(chǎn)權。“與指紋識別一樣,聲紋識別也是生物特征識別技術的一種,但在遠程身份認證中它比指紋更保險,因為指紋可以用指模來造假,但聲紋特征的特殊性,使聲紋造假完全沒有了可能”,鄭方介紹,“因為聲紋是行為特征,我們一方面提取聲道的特征,世界上每個人的聲道特征都是不一樣的,另一方面我們還驗證說話的內(nèi)容,每次驗證說話的內(nèi)容都不同,錄音造假無效。”比如在生活中,我們可以模仿別人說話,模仿別人的語調(diào)和音色,從人耳的聽覺上幾乎可以以假亂真,但這只是表象上的相同,本質(zhì)上騙不了計算機的識別系統(tǒng)。
  得意音通研發(fā)的聲紋識別技術,就是基于每個人聲道的長、短、粗、細,以及每個人說話的節(jié)奏、口音、發(fā)音,還有聲音所對應的喉管、聲道、鼻腔的形狀與尺寸等特征進行本質(zhì)識別,因此就算一個人模仿他人再相像,出現(xiàn)在計算機上的聲紋圖譜也是千差萬別的。
  當然,人的聲音也并不是沒有變化的,比如因為感冒發(fā)燒引起的鼻塞、嗓子變啞,以及隨著年齡的增長聲音的成人化和自然老化等現(xiàn)象,都會引起人聲音的改變,但據(jù)鄭方介紹,人本身的聲道構(gòu)成、口音、節(jié)奏、發(fā)音還有很多身體特征都是不會改變的,因此這些表象的改變并不會影響計算機的識別。
  不過,有一種情況卻可能對聲紋識別構(gòu)成威脅,那就是在你說話的時候別人錄下你的聲音,然后用錄音去登錄你的銀行賬戶,“所以為了防止這種情況,我們發(fā)明了一個叫做聲密保的產(chǎn)品,這是我們公司獨有的專利產(chǎn)品”,鄭方邊介紹邊掏出手機向記者具體展示。“聲密保”就是基于動態(tài)密碼語音的身份確認系統(tǒng)及方法,其利用動態(tài)密碼,結(jié)合語音識別和聲紋識別技術,來實現(xiàn)用戶身份的雙重驗證。簡單來說,就是需要念出的數(shù)字每次都會改變,即使是用戶自己,也要把動態(tài)碼念對才可以通過身份認證。
  在鄭方的手機上,記者看到他第一次登錄手機銀行時,系統(tǒng)需要他念8個數(shù)字,而當他退出重新登陸時,系統(tǒng)給出的8個數(shù)字已經(jīng)跟第一次的全然不同,這樣就使錄音失去了作用。另外錄音在播放時,它的聲音頻譜已經(jīng)被破壞,與直接說的聲音已經(jīng)不同,完全可以被系統(tǒng)檢測出來,從而進一步阻止他人用錄音拼接的方式進入自己的銀行系統(tǒng)。
  無限想象的“應用場景”
  除了銀行、金融系統(tǒng)的身份認證外,聲紋識別技術還有許多其他的應用場景,比如對居民社保身份的確認。根據(jù)人社部的數(shù)據(jù),2013年有3.5萬人冒領社保1.27億元,其中在很多人已經(jīng)去世的情況下,其家屬還照樣領取社保。“這就是由于沒有監(jiān)控,無法進行身份認證所帶來的問題。而解決這個問題的辦法,其實也是最能集中體現(xiàn)我們技術價值的地方,就是遠程認證”,鄭方解釋道,“遠程就是在異地,見不到面,憑相貌或者指紋認證都行不通的時候,聲音認證就是最好的方式了,只要事先用系統(tǒng)記錄下對方的聲音,然后在領取社保前讓對方念一串動態(tài)密碼,就能判別是不是被社保的本人在領取資金,從而解決冒領的問題”。
  同時,聲紋識別還可以用于考勤,“當然這個認證可能對員工來說都不會喜歡”,鄭方笑著說,“但它對公司、單位來講,是一個比指紋和打卡都方便、高效和防代考勤的系統(tǒng)”。
  現(xiàn)在公司考勤中,比較常用的兩種方式就是指紋和打卡,但這兩種方式都可以作假和讓別人代替,而且一個公司通常就幾個指紋機和打卡機,人多的單位在上下班高峰的時候容易擁堵和排隊,而用聲紋技術打卡,就無須排隊。據(jù)他介紹,員工在自己的手機上就可以點擊進入考勤系統(tǒng)進行聲紋認證,而員工身處的位置則是有限制的,利用手機的定位功能,只有在公司的區(qū)域內(nèi)才可以登錄這個考勤系統(tǒng),這樣每個人在自己的手機上就可以完成考勤,既避免了排隊,提高了打考勤的效率,又防止了作假。
  除此之外,在電子身份證、車聯(lián)網(wǎng)的安全、智能手機的隱私保護、智能客服等方面,聲紋認證也都有著巨大的市場空間,“而這幾點還只是目前能想到的,未來隨著移動互聯(lián)網(wǎng)技術和應用的不斷發(fā)展,聲紋認證可以應用的范圍和場景會越來越廣泛,所以我們在今年3月份推出了一個‘聲密保云平臺’。這個云平臺主要針對B端企業(yè)客戶,他們既可以享受平臺的存儲和認證服務,又可以根據(jù)我們免費提供的開發(fā)工具進行任何場景應用的二次開發(fā)。我們不收取一分費用,全部免費。因為現(xiàn)在很多人還不了解聲紋識別到底是什么,所以我們現(xiàn)在推廣這個平臺,就是讓更多的企業(yè)了解到這個技術”,鄭方表示。
  在以技術為核心的創(chuàng)新型公司,強大的研發(fā)團隊是必不可少的。由于鄭方在清華任教,得意音通先天就占據(jù)了背靠清華的獨特優(yōu)勢,其研發(fā)部門現(xiàn)有員工近40人,主要負責聲紋識別、語音識別、智能客服等技術相關產(chǎn)品的研發(fā)與改進,團隊中本科以上學歷的工程師占89%以上,其中還有幾位博士是鄭方在清華的學生。2015年7月,在國內(nèi)高校產(chǎn)學研一體化大力推廣的背景下,清華大學以知識產(chǎn)權入股正式成為了得意音通的股東。同年10月,公司還與清華大學信息技術研究院語音和語言技術中心聯(lián)合建立了“清華-得意音通聲紋處理聯(lián)合實驗室(JLVPP)。
  而除了“聲密保”外,得意音通共有15項發(fā)明專利技術,在聲紋識別方面,包括:聲紋辨認快速算法方面的專利,主要適用于國防、公安、司法等根據(jù)語音從大規(guī)模聲紋庫中檢索嫌疑人的應用;聲紋識別的訓練和識別方面的基礎算法專利;基于聲紋識別、人臉識別以及同步活體檢測的身份認證方法,這也是聲密保的加強版,該專利結(jié)合聲紋識別和人臉識別技術,利用語音和唇語同步檢測來確認用戶真實發(fā)音,從而提高遠程身份認證的可靠性,防止假冒;聲密保與指紋相結(jié)合的專利,這也是聲密保的加強版;防錄音攻擊的聲紋識別專利,可以有效防止錄音及錄音拼接攻擊;以及聲紋自學習的國際專利,可以應對聲紋隨著年齡發(fā)生緩慢變化的情形等等。
  按鄭方的話說,“在推出產(chǎn)品前,我們前期做的準備工作就是構(gòu)筑了一道厚厚的‘專利墻’”。
  用科學的思維做商業(yè)
  可見,無論是在民用的商業(yè)市場還是在政府單位的公務市場,聲紋識別都有著相當大的用武之地。那么,該如何打入這些市場呢。技術出身的鄭方?jīng)]有上過一天的商學院,但他凡事愛琢磨的性格還是讓他由學者、科研人員的身份向商人的身份做了成功的轉(zhuǎn)型。
  “許多知識理論其實都是相通的,研究技術如此,研究商業(yè)也是如此,所以我就想能不能把研究技術時對問題進行分析、拆解、推導等思路和方法論也用在商業(yè)推廣上,這樣我就知道每一步該做什么了”,鄭方說。
  事實證明,這種方法不但走得通,而且還讓他找到了許多問題的關鍵點,比如一開始他就貼近了市場需求,并且根據(jù)實際情況不斷的改進提升產(chǎn)品。“事實上,科研成果轉(zhuǎn)化成商業(yè)產(chǎn)品最難的地方也就在這里,因而許多實驗室里的研究成果不能有效地轉(zhuǎn)化成量產(chǎn)的產(chǎn)品。往往科研成果是科研成果,商品還是那些商品,從實驗室向市場化邁進的過程中出現(xiàn)了斷裂,所以那時候我就跟我的團隊說,我們從一開始就要立足于市場,要以解決實際需求的初衷來研發(fā)產(chǎn)品,而不能一味的沉浸在科研本身上”。
  本著這樣的思路,鄭方找到了他在金融領域的第一個大客戶,中國建設銀行。2009年,得意音通的聲紋識別技術安裝到了建行的95533聲紋身份認證系統(tǒng)上,在一段時間的試運營和測試后,成功的實現(xiàn)了客戶的零投訴率,這也讓鄭方信心倍增,決定要把服務銀行系統(tǒng)作為他市場化推廣的第一步,集中火力把產(chǎn)品進行更廣泛的應用。
  在建行95533聲紋識別服務的運營期間,公司的“聲密保”技術還沒有被發(fā)明出來,當時系統(tǒng)抓取的只是客戶的聲紋,而并不關注客戶所講的內(nèi)容,而且需要抓取時間較長,所以那時在建行辦理業(yè)務的客戶往往需要講至少十秒鐘的話,而且講話的內(nèi)容全需要自己想,這就在產(chǎn)品的體驗上產(chǎn)生了瑕疵,也不能有效防止錄音闖入。
  “所以建行當時就給我們提意見,十秒鐘時間太長、很多客戶都不知道說點什么好,能不能縮短抓取時間、提高產(chǎn)品的性能。這樣,我們就持續(xù)改進,直到研發(fā)出了聲密保,建行就滿意了”,鄭方回憶說。
  眼下,讓鄭方高興的好消息是:今年5月,建行將在普通客戶中全面地開始應用聲紋識別服務;而現(xiàn)階段,他的團隊也正在與中國銀聯(lián)洽談合作打造一個開放平臺,屆時所有的銀行系統(tǒng)都可以在這個平臺上使用這個技術,那也就意味著公司在銀行、金融系統(tǒng)的推廣取得了巨大進展。
  可以說,經(jīng)過了七年的努力和改進之后,市場告訴作為商人的鄭方,第一步路走對了。
  希望公司做有意義的事
  而接下來的第二步,就是如何構(gòu)筑強有力的商業(yè)模式。
  通過與建行的合作,得意音通進入民用市場已經(jīng)有了良好的基礎,接下來,鄭方的思路是,繼續(xù)深耕民用市場,為進入政府公務市場做準備,“我們的政府客戶涉及國防、公安、司法等機構(gòu),市場空間非常廣闊,但公務市場這塊的進入會比較慢,因為它要受到很多法律規(guī)則的限制,所以眼下我們在民用市場這塊集中發(fā)力,為將來切入公務市場做技術儲備”。
  而“聲密保云平臺”,就是他實現(xiàn)核心目標的重要步驟。
  “我們的云平臺現(xiàn)在都是免費面向客戶的,以促使更多的客戶了解、熟悉和掌握聲紋認證系統(tǒng)的使用。這樣做的好處是:一方面可以幫助我們擴大宣傳;另一方面,我們將來可以和這些客戶談合作,實現(xiàn)多種形式的雙贏的盈利方式”。
  談到這,鄭方信心滿滿,而他自信的源泉,則來自于得意音通在行業(yè)內(nèi)拿的多個第一。2013年,在由工信部主辦的“中國語音產(chǎn)業(yè)年會”上,其“聲密保”語音支付產(chǎn)品榮獲了“2013年中國語音創(chuàng)新產(chǎn)品獎”;2014年,再次憑借“聲密保”榮獲了CTI論壇頒發(fā)的“2014年度編輯推薦獎”。
  而鄭方本人,則是CCC(國際中文語言資源聯(lián)盟)理事長、中國中文信息學會語音信息專業(yè)委員會主任委員,NCMMSC(全國人機語音通訊學術會議)常設機構(gòu)委員會主席等,并先后參與負責起草了工信部的《自動聲紋識別(說話人識別)技術規(guī)范》、公安部的《安防生物特征識別應用術語》和《安防聲紋確認應用算法技術要求和測試方法》等行業(yè)標準,可以說,是一個絕對的業(yè)內(nèi)大咖。
  在去年8月北京汽車集團產(chǎn)業(yè)投資有限公司完成對得意音通的A+輪融資后,鄭方眼下并不急于吸納新的融資,他的目標,是先把產(chǎn)品做精、把服務和推廣做好,爭取在今年內(nèi)與更多的金融機構(gòu)和社保單位等領域達成合作,完成他在民用市場的初步布局。
  最后,當記者問他對未來公司發(fā)展的構(gòu)想時,他笑言自己還沒有想那么長遠,只是盡力把當下該做的事情做好,如果有愿望,就是希望公司的產(chǎn)品是對社會是有用、有價值的,“做公司不只是為了賺錢,我們一路走下來,艱難的事情也很多,最終堅持到了現(xiàn)在,就是希望我們的產(chǎn)品能夠為大眾提供安全、方便、可靠的身份認證服務,未來公司董事長是不是我都不重要,但我們尋找的,一定是跟我們志同道合、有社會責任感的合作伙伴,不然我肯定不能把公司交出去撒手不管。”
  說到這,褪去商人的身份,鄭方大學教授、科學家的性格基因又跳脫出來了……

專題