首頁 > 新聞 > 人物 >

通信展訪談嘉賓:科大訊飛副總裁 江濤

2012-09-24 10:35:21   作者:   來源:手機中國   評論:0  點擊:


  主持人:手機中國的各位網(wǎng)友大家好,您看到的是2012年中國國際信息通信展覽會手機中國通信展報道。今天我們有幸邀請到了科大訊飛副總裁江濤江總來做我們的訪談嘉賓。

  江濤:大家好,我是江濤。


  主持人:我們的專訪從現(xiàn)在開始了。江總,我最早知道科大訊飛可能是從咱們的訊飛語音輸入法,后來又擴展到訊飛語點,到最后我才聽說咱們科大訊飛擁有很雄厚的語音技術(shù)基礎(chǔ),您能不能對咱們科大訊飛整個產(chǎn)品線作一下簡單介紹。


  江濤:OK,訊飛輸入法和訊飛語點是面向大眾的,大家可以網(wǎng)上下載感受一下產(chǎn)品。其實訊飛做語音很多年,我們是99年在原來國家科大的863項目的基礎(chǔ)上,然后在科大云通訊實驗室的基礎(chǔ)上成立的。我們的導師王龍華八幾年開始做語音,九幾年我們開始創(chuàng)業(yè)。當時做的第一個項目就是PC上的我們叫做統(tǒng)一輸入法,就是在PC上實現(xiàn),我們當時配了一個寫字板,手寫板,把手寫的隨意性,語音輸入的快速性和鍵盤輸入的準確新,實現(xiàn)了無混融合,當時在業(yè)界內(nèi)是第一個產(chǎn)品,只不過當時PC上做實驗我們沒經(jīng)驗。但是這個想法我們一直存在,要把語音收入的快速性、手寫輸入的隨意性和鍵盤輸入三者融合在一起,到08年慢慢起來了,科大訊飛準確地面向我們移動互聯(lián)網(wǎng)戰(zhàn)略,在09年開始緊鑼密鼓開發(fā)訊飛的語音,基于云計算的體系架構(gòu)向移動互聯(lián)網(wǎng)中斷提供會說的交互能力平臺,2010年10月份正式發(fā)布了這樣一個平臺,同時發(fā)布了訊飛的輸入法。所以它并不是一個簡單的產(chǎn)品,它后臺確實有著很長時間的積累,包括長時間的平臺準備和技術(shù)的儲備,2010年底正式發(fā)布了訊飛語音輸入法這個產(chǎn)品,它是業(yè)界第一個把手寫、鍵盤和語音無混融合,沒有狀態(tài)切換的,這是我們很多用戶最滿意的一點,因為確實中文字,有的字手寫快,筆劃簡單的,這時候要用拼音就得用很多次,比如中字,畫幾下就寫出來了。但是有些字拼音很簡單,手寫筆劃很多。好多用戶最煩的是之間的切換。我們還可以做到手寫方面,由于訊飛把語音相關(guān)上下文的理解這個技術(shù)用在里面,所以可以實現(xiàn)手機上的聯(lián)寫,不停地往下寫。


  主持人:這是最近說的云輸入,是嗎?


  江濤:不是,就是整屏手機,在2010年底就實現(xiàn)了,業(yè)界第一個實現(xiàn)這個技術(shù)的。我可以在很小的手機屏幕上,可以不停地往下寫,另外在平板電腦上,或者說把手機橫過來以后,可以橫屏寫,不用停頓,這都是業(yè)界相對來說在技術(shù)上處于領(lǐng)先的位置。當然最大的亮點還是基于我們語音云的比較準確的語音輸入,畢竟大家都能感受到,語音是我們獲取信息或者說信息交互最自然辯解的一種手段,其實基于高準確度的語音收入,從根子上是有需求的,但是現(xiàn)實上過去一直有很大的難度。隨著訊飛語音輸入法在各方面逐步地成熟,現(xiàn)在用戶已經(jīng)慢慢地接受了這種輸入法。訊飛在沒有什么互聯(lián)網(wǎng)基礎(chǔ)的情況下我們從去年年初開始推云輸入法,用戶一點點增加,現(xiàn)在已經(jīng)過了兩千多萬,應該說是業(yè)界排名靠前的。純粹是靠用戶的口碑口口相傳的。畢竟我們不能像百度這樣、搜狗一樣,原來有很多的互聯(lián)網(wǎng)用戶基礎(chǔ),直接推過去。這個完全是靠產(chǎn)品說話。這個應該說是我們很自豪的一個產(chǎn)品。真正把我們十多年前的想法逐步實現(xiàn)了。


  另外,訊飛語點是我們今年3月份發(fā)布的新一代語音,就是具備,除了能聽會說的能力以外,還有自然,我們把它叫做語點,對它寄托了這樣的希望,就是它將來讓廣大的用戶,用語音來單體傳統(tǒng)的觸摸屏的點擊,比如說你發(fā)一個短信,發(fā)十幾個字的短信,你得至少在屏幕上點幾十次才能把手機發(fā)出去,我們的訊飛語點,說一下,一句話就生成了,應該說是給大家?guī)砗芏喾奖恪0ɑヂ?lián)網(wǎng)的信息,我今天去國展怎么走,就可以標識出來。用語音代替?zhèn)鹘y(tǒng)的點擊方式。希望它未來的語音能融入每個人生活的方方面面。


  主持人:看來不僅僅是語音識別的功能,有一個后臺的服務。


  江濤:首先是語音識別,有個自然理解的過程,你不需要學習,你可以用自己比較容易接受的方式來提需求,來表達你的想法。系統(tǒng)理解以后,去找到對應后臺的服務,把相關(guān)的結(jié)果展示給你,再用最好的語音合成給你播放出來,這是一個過程,它的最終定位就是讓手機像一個能聽會說的助理伴隨在你身邊,你有什么需求就可以告訴他。這是我們的終極目標,現(xiàn)在距離這個目標還有很多路要走。


  主持人:剛才江總介紹了訊飛語音輸入法和訊飛語點兩款產(chǎn)品。下面我們先聊一聊訊飛語音輸入法,從江總的介紹中我們已經(jīng)能夠得到一個信息,這款輸入法其實更貼近人的一種自然的輸入習慣,比如說手寫、語音,這種方式可能不需要我要去會懂拼音,就能夠進行輸入,更貼近自然人的自然輸入方法,F(xiàn)在其實在移動平臺上,手機輸入法其實還挺豐富的。而且競爭相當激烈,在同類的產(chǎn)品當中,訊飛語音輸入法有哪些優(yōu)勢?


  江濤:首先從大的面來說,人類使用信息機器的一個過程,就是人變得越來越懶的過程。早期60年代的電腦,沒有幾年的訓練,根本沒法用。后來有DOS操作系統(tǒng),學幾個月就可以用,還有Windows,學幾天就可以用。再往下走,喬布斯的ipad小孩都可以用,就是要把它做到不用學習的狀態(tài)。其實人類的溝通是最自然本原的一個狀態(tài),所以人和機器交互的設備,隨著技術(shù)的不斷成熟,這種交互界面一定會成為主流界面之一,它取決于技術(shù)和語音是否成熟。就拿我們剛才的問題,我們的語音有什么樣的優(yōu)勢,訊飛的語音云,今年6月份的時候,你看我們語音云是2010年底發(fā)布的,頭100萬用戶用了整整6個月,因為訊飛剛發(fā)布的時候,大家也不太關(guān)注,我們畢竟不是一個互聯(lián)網(wǎng)企業(yè),也沒有很多的用戶基礎(chǔ),完全是靠一點點的口碑相傳,頭一百萬用戶用了6個月,從2011年初到2010年6月底攢了100萬用戶。很快我們就發(fā)現(xiàn)下半年,第二個6個月就從一百萬到一千萬。我們在去年年底籌辦今年3月份的發(fā)布會的時候,當時我們想要搞一個尋找第2000萬用戶的活動,結(jié)果到3月份已經(jīng)不搞了,為什么呢?那時候已經(jīng)過了三千萬用戶了。到今年6月底已經(jīng)到了6千多萬的用戶,加速增長,現(xiàn)在還在快速增長。整個訊飛大幾千萬的用戶,每天在使用訊飛語音云,為后臺系統(tǒng)的持續(xù)訓練打工了大量寶貴的數(shù)據(jù),使我們能在算法上面,在個性化的優(yōu)化方面,相對于同行、競爭對手,像蘋果、谷歌,有明顯的優(yōu)勢,這是第一個,我們數(shù)據(jù)的技術(shù)扎實。另外一個,訊飛在算法上面有明顯的優(yōu)勢,我們在抗噪、個性化的發(fā)音,語音的識別性方面,我們還有一定的優(yōu)勢。另外就是訊飛,我們在整個語音云,不光是云端,我們解決方案是云加端的解決方案,在手機端還有對應的模塊和解決方案,使我們的云加端的解決方案,無論是對無線網(wǎng)絡的要求,還是說準確率,相對來說純云端的語音識別我們是有明顯的優(yōu)勢。這幾方面就是訊飛語音為什么相對競爭對手做得比較好的地方。


  主持人:從您的介紹當中我們可以聽到,訊飛語音在這方面,在差異化方面做得是非常不錯的。剛才聊到了訊飛語音輸入法,現(xiàn)在我們再聊聊訊飛語點。訊飛語點,我記得語音技術(shù)出現(xiàn),可能是在蘋果的Siri起來以后,在全世界范圍內(nèi)引起了很大的反響,讓很多中國用戶感到驕傲的是,咱們訊飛語點的出現(xiàn),因為它畢竟是一個民族品牌,在使用方面,訊飛語點和Siri相比,您有什么樣的看法?


  江濤:對,應該說這兩個東西相比呢,應該說訊飛我們還是比較有信心的,其實主要差別在三方面,我們比較客觀地說,第一個呢,就是訊飛語音的交互效果比它好,因為現(xiàn)在中文版的在網(wǎng)上i0S 也能提到,一個是中文的語音識別準確率比它高,另外中國語音合成比它更加自然,它那個Siri一發(fā)音像一個國外的老大媽,我們的語點就是比較親切,聲音很甜美的一個小妹,這種感知就不一樣。這是語音的交互體驗,或者說語音的效果不一樣。如果說這次5分的話,我們至少是4分,比蘋果高一分,當然我們也有可以持續(xù)提高的地方。這是跟Siri比第一個環(huán)節(jié),我們5分比4分。第二個環(huán)節(jié)就是軟硬件一體化的,這個環(huán)節(jié)如果5分的話,蘋果得滿分,我們訊飛充其量只能得4分。因為蘋果最強的就是軟硬件一體化。比如說像蘋果手機上直接有一個鍵,一摁就能激活,像我們做出來的軟件,還要解鎖,再找到軟件對應摁了才能使用。蘋果已經(jīng)使用了三個麥克風能夠有效地消除噪音。還有跟手機系統(tǒng)的緊密結(jié)合,這方面蘋果做得好,這一點我們訊飛語點比他是有差距。這點來說它5分,我們充其量只能4分或者3分半,而且確實短時間內(nèi)沒法突破,因為人家占據(jù)著手機系統(tǒng)的優(yōu)勢。第三個環(huán)節(jié),就是它和手機互聯(lián)網(wǎng)應用的結(jié)合程度。這個環(huán)節(jié),用通俗的話就是比誰更接地氣,這個環(huán)節(jié)我們訊飛能夠得到5分,蘋果充其量能得到3分,因為它現(xiàn)在的服務就是OpenTable,這方面確實不差,但它是老美搞的東西。在國內(nèi),像攜程、基龍,每個領(lǐng)域在互聯(lián)網(wǎng)領(lǐng)域都有做得最強的,不比國外差的。我們跟這些合作伙伴是能夠深入地去溝通,把應用的對接做到極致,讓用戶有完整流暢的體驗,這一點蘋果相對來說它對中國沒有那么重視,他不會專門為中國的互聯(lián)網(wǎng)應用做太多對接的東西。


  所以說我們在這個層面的PK中,我相信我們能拿到5分,蘋果目前我覺得它只能拿3分,將來充其量它能拿到4分,所以總得來說我們還是有一定的優(yōu)勢。


  主持人:其實我是能聽出來,訊飛語點在××方面做得好,畢竟咱們本土的產(chǎn)品對咱們的使用習慣更加了解。剛才您提到蘋果Siri的軟硬件一體化,之前咱們的訊飛語點這個產(chǎn)品也一直努力在蘋果的APP Store上上架,現(xiàn)在進展如何呢?


  江濤:我們6月份提交的,到現(xiàn)在蘋果來拖著這個事情。


  主持人:有原因嗎?


  江濤:其實主要的原因是因為訊飛語點做得比它好,確實因為從網(wǎng)友的反饋,從大家的對比使用來說,確實軟硬件他做得比較好,但是我們語音交互的效果和語音接地化這一方面我們更實用。我猜蘋果可能沒法接受別人比它好。所以到現(xiàn)在還沒有結(jié)果,當然我們還會積極地去跟蘋果溝通,爭取給用戶多一些選擇,這個其實我們一直在呼吁,說訊飛語點APP Store如果能上市,對蘋果也是好事,蘋果用戶多一些選擇,多一點賣點,激發(fā)更多的開發(fā)者為蘋果來服務,其實是一個共贏的局面,我們倒是覺得沒必要把訊飛排斥在外。


  主持人:我可以看到蘋果還有一個自我保護的意識,有點拒外。剛才說到始終都是圍繞語音這個點來說的,但是我有一種觀點不知道對不對,語音這個東西可能落實到手機上,對于我一個普通用戶來說,這個東西可能是可有可無,沒有硬性的需求,作為訊飛語音這兩款產(chǎn)品來講,怎樣去挖掘一些潛在的用戶呢?


  江濤:對,這其實是一個過程,我們把時間拉長了點看,你看十年前的手機,如果有一個攝象頭那是很酷的事,手機都被攝象頭了,雖然攝象頭是30萬象素、20萬象素、、10萬象素,其實一點用處都沒有,多了一個攝象頭、多了一個賣點,F(xiàn)在要是哪個手機沒有攝象頭,壓根兒賣不出去,因為攝象頭在很多實際的場合,有很多很實用的功能。對比訊飛語音,現(xiàn)在的語音技術(shù)比十年前的攝象頭有用得多,比如說你在走路不方便,或者說你想很快地做成一件事情的時候,畢竟它比你在鍵盤上叨咕效率要高,它能提高你的效率,增加趣味性,或者在你不方便看的時候變換為聽。但是最大的問題是,或者說我們面臨的最大的挑戰(zhàn)還是用戶的使用習慣,一旦用戶使用習慣培養(yǎng)成了,難度就比較高。尤其對東方用戶來說,大家看電視,老美回家第一件事情摁一下語音電話,他們就覺得對著錄音設備講話是很自然的事情。但在中國,早期運營商大力推廣語音信箱,到后來有一段時間很多設備廠商去推錄音電話,但從來沒有成功過,東方的用戶相對來說更羞澀一點,更習慣于人和人之間的溝通,不習慣設備之間的溝通,這是使用習慣培養(yǎng)的過程。但是我們也能看到這個過程現(xiàn)在正在往前推動,蘋果、谷歌、微軟,大家都在培養(yǎng)用戶的過程中,蘋果5推的時候,會把Siri作為主要賣點。蘋果對用戶的教育能力很強,蘋果、谷歌、微軟,包括微信在內(nèi)的一些跟語音相關(guān)的軟件,逐步普及用戶的使用習慣,我相信幾年時間就能普及成,F(xiàn)在最大的問題是,用戶覺得對著手機說話有點傻,這完全是使用習慣的一個轉(zhuǎn)變過程,我相信這一天遲早會到來。


  主持人:剛才我們聊到了用戶的接受程度,其實可以看看現(xiàn)在已經(jīng)有一些硬件產(chǎn)品開始和咱們訊飛語音合作了,現(xiàn)在科大訊飛在硬件廠商合作取得了哪些成績,未來有什么計劃?


  江濤:這方面在過去一兩年中,成果還是很顯著的,我們整個語音云,我們最看中的跟硬件合作的是三個領(lǐng)域,手機、汽車和智能家電。先拿手機來說,現(xiàn)在,用剛才的話說,現(xiàn)在的語音還是一個激勵因素,作為一個賣點,像小米,二代發(fā)布會的時候,最大的賣點就是使用了訊飛的語音助理,類似于華為、聯(lián)想都已經(jīng)有相關(guān)的產(chǎn)品上市了,聯(lián)想高調(diào)地講在語音方面不怕任何國外的廠商,因為有語音賣點。國內(nèi)廠商還有一大批在做,不久的將來,我相信一年左右,基本上每個手機出來就必須用,沒有智能助理就會覺得這個手機比別人弱了一節(jié),這個是手機這塊。當然了,手機這塊語音跟硬件還可以進一步地程序結(jié)合優(yōu)化,比如說消噪技術(shù)怎么化解等等,這個蘋果值得學習。第二就是汽車,去年年底上海汽車發(fā)布了一款榮威350發(fā)布了一款叫××,方向盤有一個M鍵,一摁就跟汽車對話了,我要去國展,把路線畫出來,明天天氣怎么樣,汽車跟你對話,把結(jié)果告訴你,F(xiàn)在上汽,除了榮威系列以外,很快地各個系列也會上,另外其他的汽車也在推進。汽車用語音不是一個錦上添花。另外一個很大的就是智能家電,尤其是互聯(lián)網(wǎng)電視,過去電視就那么多的頻道,現(xiàn)在互聯(lián)網(wǎng)電視接到互聯(lián)網(wǎng)上,海量的互聯(lián)網(wǎng)用戶,如何讓用戶享受到,現(xiàn)在智能語音可以實現(xiàn),你想看什么直接喊出來。包括前段時間聯(lián)想集成電視,就有語音識別,喊一下就能出來,這是最大的賣點。到明年幾乎所有的電視都得有這個,沒有這個,你不能跟人家PK。當然智能家電中除了電視以外,還有其他的一些家電設備越來越迫切地提出通過語音交互來改善需求。這是最主要的領(lǐng)域,我們的理想。5到10年之后,每一部手機都能聽說,每一臺汽車都能聽說,每一個家電都能聽說,后臺就訊飛的語音云給大家提供的交互能力。


  主持人:今天我們的視頻專訪就進行到這里,感謝大家觀看,也感謝江總接受我們的采訪,謝謝大家。


  江濤:謝謝。 

分享到: 收藏

專題