捷通華聲

捷通華聲發(fā)布三項(xiàng)HCI新技術(shù) 語音識(shí)別準(zhǔn)確率90%以上

2012-11-29 17:07:29   作者:   來源:C114中國通信網(wǎng)   評論:0 點(diǎn)擊:


  北京捷通華聲語音技術(shù)有限公司(簡稱“捷通華聲”)今日在北京中關(guān)村舉行“2012靈云發(fā)布會(huì)”。會(huì)上,捷通華聲發(fā)布了語音識(shí)別、語義理解和光學(xué)字符識(shí)別三項(xiàng)HCI技術(shù),其中語音識(shí)別準(zhǔn)確率已達(dá)到90%以上。

  此前,捷通華聲一直以語音合成技術(shù)和手寫技術(shù)聞名于業(yè)界。而如今其語音合成技術(shù)依然保持領(lǐng)先,有超過50%的市占率。而手寫識(shí)別也占據(jù)了約35%的市場份額,且支持42種語言及手寫/疊寫識(shí)別,突破了用戶疊寫字跡無法識(shí)別的局限。


圖1:參會(huì)嘉賓通過手寫識(shí)別獲取簽到資料

  除了已有HCI技術(shù),捷通華聲在發(fā)布會(huì)上又發(fā)布了語音識(shí)別、語義理解和光學(xué)字符識(shí)別三項(xiàng)新技術(shù)。語音識(shí)別是指機(jī)器對人聲的識(shí)別,主要有“所說即所點(diǎn)”、“智能意圖控制”、“語音輸入”三種應(yīng)用場景。語義理解是機(jī)器對人類語言的理解,目前大多應(yīng)用在智能問答場景中。光學(xué)字符識(shí)別,則是對印刷體文本資料中的文字和版面信息識(shí)別的過程。

  在語音識(shí)別方面,捷通華聲針對三種不同場景做了專門優(yōu)化。“所說即所點(diǎn)”是用人聲來代替點(diǎn)擊操作,解決了車載等無法便捷實(shí)現(xiàn)點(diǎn)擊的場景局限。目前這方面的識(shí)別正確率已超過95%,識(shí)別響應(yīng)時(shí)間從原來的2.7秒降到了0.3秒。

  而“智能意圖控制”是人通過語音控制周圍環(huán)境,執(zhí)行一系列命令操作的過程,比如人與智能手機(jī)客戶端小唐龍的互動(dòng),成功實(shí)現(xiàn)了人機(jī)互動(dòng)的便捷生活。第三大場景“語音輸入”則是將人的聲音轉(zhuǎn)換成文字,目前捷通華聲這一技術(shù)在微博短信中的語音輸入正確率已超過90%。


圖2:靈云輸入法與小唐龍下載區(qū)

  至今,靈云已擁有語音合成(TTS)、語音識(shí)別(ASR)、手寫識(shí)別(HWR)、光學(xué)字符識(shí)別(OCR)、人工智能(AI)等多項(xiàng)HCI核心技術(shù)。通過捷通華聲工程師團(tuán)隊(duì)的努力,這些技術(shù)被成功放置到靈云平臺(tái)上,且其客戶端程序被大大縮減至3M。通過這3M大小的應(yīng)用程序,客戶可以調(diào)用所有的靈云能力,從而為不同領(lǐng)域、行業(yè)企業(yè)提供了多種HCI解決方案,包括無紙化辦公方案、電子簽批方案、電子表單處理方案、語音技術(shù)方案、智能客服系統(tǒng)方案等。

  除了支持多項(xiàng)HCI技術(shù),靈云還可以掛接第三方的HCI能力,力求將多樣化的HCI技術(shù)加載到靈云平臺(tái)上,服務(wù)服務(wù)廣大的用戶。而“云+端”的方式,使得靈云性能更優(yōu)化,響應(yīng)速度更快,極大地方便了用戶的使用。而作為一個(gè)開放性平臺(tái),靈云定制化的目標(biāo)更加明確,滿足各種場景應(yīng)用和需求。捷通華聲董事長張連毅表示,通過靈云以及各項(xiàng)HCI技術(shù)的不斷創(chuàng)新,捷通華聲希望能達(dá)成“讓人與機(jī)器的交流像人與人一樣自然”的愿景。

分享到: 收藏