首頁 > 新聞 > 國內(nèi) >

捷通華聲完美演繹智能語音 靈云“云+端”服務(wù)全中國

2013-10-18 09:14:34   作者:   來源:CTI論壇   評論:0  點擊:


  云計算、大數(shù)據(jù)、移動互聯(lián)網(wǎng)、人機(jī)交互……短短一兩年時間內(nèi),IT產(chǎn)業(yè)像經(jīng)歷了一場大洗牌,創(chuàng)新一詞已顯老舊,跨界、顛覆成為流行詞。國內(nèi)以BAT為代表的傳統(tǒng)互聯(lián)網(wǎng)巨頭開始猛攻移動互聯(lián)網(wǎng),并購、兼并層出不窮,相互疆域犬牙交錯,進(jìn)攻防守猶如一場“軍閥混戰(zhàn)”。電子市場的重心也迅速由PC端迅速轉(zhuǎn)移到智能移動終端,移動互聯(lián)網(wǎng)已成兵家必爭之地。如此讓產(chǎn)業(yè)興奮又讓產(chǎn)業(yè)顫抖的時代,智能人機(jī)交互(HCI)技術(shù)也終于迎來了有史以來最好的階段,而該HCI領(lǐng)域中的語音交互技術(shù)則迎來競爭最激烈的發(fā)展時期!

  縱觀國內(nèi)外移動互聯(lián)網(wǎng)發(fā)展態(tài)勢,各項炒得火熱的技術(shù)中,大數(shù)據(jù)、智能人機(jī)交互技術(shù)(簡稱HCI)并列前茅!從蘋果Siri的語音交互技術(shù)到谷歌眼鏡的圖像識別技術(shù),從智能手機(jī)大戰(zhàn)延伸至智能電視,無一不在說明在移動互聯(lián)網(wǎng)時代,IT整個行業(yè)都在發(fā)生由量到“智”的聚變,語音交互、圖像識別、語義理解、生物識別。。。。HCI技術(shù)風(fēng)靡全球!

  兩年前,蘋果的Siri一鳴驚人,帶動智能語音產(chǎn)業(yè)進(jìn)入發(fā)展最快的時期。十幾年來一直控制國內(nèi)中文語音合成技術(shù)市場的捷通華聲、科大訊飛發(fā)力語音識別技術(shù);百度、搜狗、騰訊為守住入口,憑借天然優(yōu)勢,重金砸出最高水平的語音識別技術(shù);中科信利、云知聲等老牌、新秀語音企業(yè),迎來難得發(fā)展機(jī)遇期。國內(nèi)語音識別技術(shù)力量集體爆發(fā),讓美國本來在語音識別技術(shù)上領(lǐng)先的Nuance、Google、微軟風(fēng)光不在,語音識別技術(shù)群雄割據(jù)的時代已然來臨,鹿死誰手好像尚不得而知。  

  語音識別、合成雙劍合璧,智能語音展露鋒芒

  其實語音識別這個技術(shù)很早就有,雖然并不成熟。上世紀(jì)90年代末,IBM推出的“Viavoice”就號稱能“解放雙手”,幫助讓人們實現(xiàn)文字錄入語音化。然而,伴隨全民漢字輸入能力的提高,“Viavoice”因語音識別率不高,加上口音、噪音的影響,黯然離場。

  近年來,互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的迅猛發(fā)展,帶動大數(shù)據(jù)量的形成;國內(nèi)外潛心研究的一代代科學(xué)家攻克了無數(shù)技術(shù)上的難題,大數(shù)據(jù)又為其提供了豐富的訓(xùn)練語料;開源技術(shù)更是促進(jìn)了技術(shù)跨越國境的交流共享,大大降低語音識別技術(shù)門檻;智能移動終端功能、性能的超常規(guī)提升,為對硬件環(huán)境要求高的語音識別技術(shù)創(chuàng)造了“運轉(zhuǎn)”的硬件環(huán)境;所有的變化匯集一處,讓人們夢寐以求的“自由說”語音識別技術(shù)成為現(xiàn)實。

  如果說語音識別技術(shù)是“說”,那么語音合成技術(shù)就是“聽”,“能說會聽”形成了語音交互—智能語音的完整概念。也許是巧合,語音交互技術(shù)的發(fā)展,如同人都是“先學(xué)會聽,才學(xué)會說”的進(jìn)步過程,語音合成早在十年前就完成了商品化進(jìn)程,人們也早已經(jīng)生活在語音合成—“機(jī)器說話”服務(wù)無處不在世界里;

  應(yīng)該說,蘋果的Siri的適時出現(xiàn),為智能語音產(chǎn)業(yè)發(fā)展做出了巨大貢獻(xiàn),其貢獻(xiàn)在于打開了智能語音應(yīng)用市場的暢想“天窗”;雖然,當(dāng)CNN公布Siri的配音者是演技派“大媽”時,導(dǎo)致“調(diào)戲”過Siri的眾網(wǎng)友“淚流滿面”,卻也讓大眾全方位感受到智能語音交互的魅力與力量。正如同兩把利劍,語音識別技術(shù)的進(jìn)步,使得語音合成、識別雙劍合璧,為產(chǎn)業(yè)、大眾打開了智能語音服務(wù)的新世界。也讓越來越多的設(shè)備、軟件廠商看到了智能語音應(yīng)用的廣闊前景,智能語音交互技術(shù)終于在移動互聯(lián)網(wǎng)時代展露鋒芒。

  2013年,互聯(lián)網(wǎng)搜索巨頭百度,盡管已擁有了最先進(jìn)語音識別技術(shù),但正是深刻理解把握了智能語音應(yīng)用的真諦,果斷投資捷通華聲,在其發(fā)展移動互聯(lián)網(wǎng)進(jìn)程中以最快的速度擺脫智能語音曾經(jīng)的束縛,放手在移動互聯(lián)網(wǎng)天地開疆破土,攻城拔寨!

  捷通華聲靈云演繹完美智能語音 人機(jī)交互前景明朗

  中國智能語音的產(chǎn)業(yè)化進(jìn)程起步于世紀(jì)之初,捷通華聲、科大訊飛、Nuance一直是中國最主要的語音技術(shù)供應(yīng)商。十幾年來,不同于喜歡“高打高唱”的科大訊飛,也不同于“習(xí)慣驕傲”的Nuance,由清華大學(xué)畢業(yè)的幾位同學(xué)創(chuàng)辦的捷通華聲似擁有“清華遺風(fēng)”,一直保持務(wù)實低調(diào)的風(fēng)格。盡管捷通華聲公司因過于低調(diào)不為大眾所詳知,但捷通華聲的語音技術(shù)務(wù)實卻從不“低調(diào)”,十幾年的專注與技術(shù)積累,讓捷通華聲語音合成技術(shù)可謂“爐火純青”,語音播報服務(wù)從縱貫中國的高鐵到各大飛機(jī)場;從各個醫(yī)院語音叫號到各地長途汽車站;從各大銀行聲訊服務(wù)到各領(lǐng)域企業(yè)呼叫服務(wù)中心。。。。。自2000年到今天,捷通之聲已“高調(diào)”服務(wù)中國十三億大眾十三年之久。

  這兩年來,語音界老牌新秀企業(yè)、國內(nèi)國外企業(yè)、跨界巨頭集體猛攻語音識別,一時間智能語音概念鋪天蓋地,語音產(chǎn)業(yè)則風(fēng)起云涌,捷通華聲表面不為所動,而是以“老虎打盹你以為我是病貓”的沉著與強(qiáng)大實力,悄然在2011年,推出全球第一個全方位智能人機(jī)交互能力云服務(wù)平臺—靈云(hcicloud.com),從HCI產(chǎn)業(yè)高度,將語音云服務(wù)等各種單一HCI技術(shù)能力云服務(wù)輕松納入靈云體系。

  靈云-hcicloud已從一個簡單域名概述了靈云的設(shè)計與發(fā)展理念。靈云的構(gòu)建不再局限于語音云服務(wù)等某一單一HCI技術(shù),而是一種可以用語音、手寫、拍照,手勢,將來甚至腦波識別等智能手段來操作、感知手機(jī)、計算機(jī)等數(shù)字設(shè)備的網(wǎng)絡(luò)云服務(wù)。捷通華聲期望從更寬廣的角度促進(jìn)HCI技術(shù)產(chǎn)業(yè)發(fā)展,從更完整的視野推動智能語音的服務(wù)與產(chǎn)業(yè)應(yīng)用。智能語音交互是最重要的人機(jī)交互手段,但正如同每一個人與其他人溝通,都不是只是靠說話完成交流,文字書寫、圖像、情感表達(dá)都是交流的組成部分,伴隨HCI技術(shù)的全面發(fā)展,人們會根據(jù)場景的變化去選擇最合適的HCI技術(shù)實現(xiàn)人與機(jī)器的自然交流。

  其實,捷通華聲“低調(diào)“的本質(zhì)是尊重合作伙伴,捷通華聲多年來始終堅持讓合作伙伴的產(chǎn)品出名而從不“喧賓奪主”,靈云則承繼這一傳統(tǒng)并將這一理念通過與合作伙伴的技術(shù)融合推向更加完美的境界。百度語音識別與靈云語音合成完美結(jié)合,助力百度地圖、百度導(dǎo)航掀起導(dǎo)航革命;搜狗語音識別與靈云語音合成更是精心設(shè)計,支持搜狗地圖在導(dǎo)航領(lǐng)域獨占一方霸主地位;獨樹一幟與擁有獨特發(fā)展理念的導(dǎo)航犬,全面應(yīng)用靈云語音識別、語音合成、語義理解、語音喚醒等功能,雙方開發(fā)團(tuán)隊如同一個企業(yè),日夜奮戰(zhàn)在一起,為數(shù)以千萬的用戶推出一項項精心設(shè)計的導(dǎo)航犬經(jīng)典服務(wù)。

  靈云如同天空之云,靜悄悄融入中國IT產(chǎn)業(yè)的生態(tài)環(huán)境,“低調(diào)”完美演繹智能語音等HCI技術(shù)能力服務(wù),“高調(diào)”為所有合作企業(yè)的經(jīng)典產(chǎn)品與市場進(jìn)步而喝彩! 

  闡述智能語音概念,靈云首創(chuàng)“云+端”人機(jī)交互服務(wù)模式

  站在產(chǎn)業(yè)中企業(yè)的角度,每個企業(yè)的設(shè)備不同、性能不同、應(yīng)用網(wǎng)絡(luò)環(huán)境不同,應(yīng)用HCI技術(shù)創(chuàng)新“智”造過程中,如有更多的選擇,就能更好的滿足大眾用戶;站在用戶的角度,每個人都希望全面享受智能語音等HCI技術(shù)最好的服務(wù),卻不希望受到網(wǎng)絡(luò)環(huán)境等因素及付出“高昂”費用。為順應(yīng)并滿足企業(yè)與用戶需求,靈云“舍棄”云端服務(wù)可以獲取所謂寶貴數(shù)據(jù)資源與用戶資源等利益,率先推出靈云“云+端”服務(wù)模式。合作企業(yè)可根據(jù)設(shè)備與應(yīng)用網(wǎng)絡(luò)環(huán)境自由選擇或讓用戶自由選擇,保證每一個產(chǎn)品都有與眾不同的特色,從而讓數(shù)以億記的大眾輕松享受智能語音等HCI技術(shù)能力的服務(wù)。

  智能語音很熱,應(yīng)用也很廣,靈云憑借捷通華聲十幾年的功底,語音合成“端”播放已輕松自然,并可讓合作伙伴選擇適合與自身應(yīng)用的多種聲音;而語音識別因其對硬件資源的特殊要求,實現(xiàn)“端”識別對技術(shù)提出更高的要求,靈云離線式“端”識別以識別率高,定制簡單等多種方式,與靈云語音合成一起為用戶提供完整的智能語音“云+端”服務(wù)。

  智能語音的目標(biāo)是完成完整的語音交互,針對不同的噪音環(huán)境,其實還需要一項技術(shù)來讓機(jī)器更好“讀懂”用戶的意圖,確保語音識別率。這個技術(shù)就是語義理解,靈云語義理解可對輸入語音的語義進(jìn)行分析,保證識別率的同時,也確保語音合成播報使用者需要獲得的準(zhǔn)確信息。捷通華聲靈云在此基礎(chǔ)上,近期又推出“語音喚醒”功能,并成功應(yīng)用于各種APP,導(dǎo)航犬應(yīng)用靈云智能語音各項技術(shù),可以在終端待機(jī)狀態(tài)瞬間喚醒導(dǎo)航軟件,并且以智能自然發(fā)聲應(yīng)答用戶提問,全程無需保持開機(jī)狀態(tài),各種環(huán)境下語音識別精度達(dá)到96%以上,旅途中的用戶與開車中的司機(jī)想去什么地方動動嘴就行,輕松省心又方便。

  靈云“云+端”自推出以來,迅速為產(chǎn)業(yè)所接納,不僅在導(dǎo)航領(lǐng)域,百度語音助手、搜狗語音助手、聚熵360、南京米果、蟲洞語音助手等系列語音助手軟件;天行輸入法、百度輸入法、觸寶輸入法、也包括“漢字英雄”、漢字書寫大賽更是將智能語音、智能圖象“云+端”及其合作模式,超乎想象地完美應(yīng)用,服務(wù)智能手機(jī)用戶已達(dá)數(shù)億之眾。 

  靈云愿景支持企業(yè)共同服務(wù)億萬大眾,HCI回歸純樸自然

  智能人機(jī)交互技術(shù)(HCI)幫助人們更方便地與機(jī)器進(jìn)行交流,包括語音交互、圖像識別、生物識別等,幾十年來,因HCI技術(shù)的難度大,一直呈現(xiàn)螺旋式進(jìn)步發(fā)展趨勢;但大眾對方便、高效的追求與渴望,及在凡事都要快的移動互聯(lián)網(wǎng)時代成為推動HCI技術(shù)進(jìn)步的巨大力量。

  移動互聯(lián)網(wǎng)時代,智能語音、智能圖像、智能客服、包括生物識別等技術(shù)產(chǎn)業(yè)蓬勃發(fā)展,而推動HCI技術(shù)迎來發(fā)展的巨大機(jī)遇的真正力量依然是來自IT產(chǎn)業(yè)發(fā)展與全社會的進(jìn)步。如今,智能語音概念如日中天,其中語音識別的各種“互聯(lián)網(wǎng)入口說、關(guān)卡壁壘說、大數(shù)據(jù)說、資本說”等各種說法風(fēng)靡IT產(chǎn)業(yè)。冷靜地想:如果語音識別是互聯(lián)網(wǎng)入口,那么手寫識別、拼音錄入是不是入口?如果說語音識別技術(shù)高不可攀,那么百度、騰訊、搜狗等十幾家非專業(yè)語音公司1-2年“輕松”拿下語音識別技術(shù),哪里還有什么技術(shù)壁壘?如果說資本市場會爆發(fā),美國Nuance公司十幾年兼并了幾乎除中國企業(yè)外所有的語音技術(shù)公司,擁有幾乎全世界所有國家的多語種智能語音交互技術(shù),資本說在納斯達(dá)克也跟著期盼了快二十年!如果說那家聲音數(shù)據(jù)采集多,那么誰家的語音數(shù)據(jù)又能夠超過騰訊的微信、三大運營商的語音數(shù)據(jù)?

  其實不管怎么說,智能語音還應(yīng)增加一個概念就是“工具說”,因為無論什么時候,智能語音最主要的核心功能還是一個聲音錄入與輸出的工具。無論今天還是未來發(fā)展,就像生活中沒有任何一種力量不讓大家說話交流一樣,智能語音在充分滿足了大眾的好奇之后,依然會象無數(shù)為語音技術(shù)發(fā)展進(jìn)步做出巨大貢獻(xiàn)的科學(xué)家、學(xué)者、工程師一樣,安心提高語音識別準(zhǔn)確率、語音合成自然度,回歸到自然與純樸。

  相信未來發(fā)展,HCI技術(shù)依然會呈現(xiàn)螺旋式進(jìn)步趨勢,無論智能語音、還是智能圖像,只有更好,沒有最好!合作共贏將成為HCI產(chǎn)業(yè)融入中國乃至世界IT產(chǎn)業(yè)的主旋律。捷通華聲靈云已開始為產(chǎn)業(yè)界提供語音識別、語音合成、手寫識別、OCR、語義理解、機(jī)器翻譯等多項HCI技術(shù)能力。未來發(fā)展中,靈云將在發(fā)揮自身多項HCI技術(shù)優(yōu)勢的基礎(chǔ)上,不斷與學(xué)術(shù)界、產(chǎn)業(yè)界合作,推出更多的HCI技術(shù)能力,靈云的目標(biāo)永遠(yuǎn)是助力中國信息產(chǎn)業(yè),讓人機(jī)交互像人與人溝通一樣的簡單自然,一起智創(chuàng)中國夢,慧及全球心!

分享到: 收藏

專題