您當(dāng)前的位置是:  首頁 > 資訊 > 國內(nèi) >
 首頁 > 資訊 > 國內(nèi) >

捷通華聲靈云:揭開語音識(shí)別能力的神秘面紗

2022-02-15 08:19:18   作者:   來源:CTI論壇   評(píng)論:0  點(diǎn)擊:


  信息是如何從我們的大腦傳遞給計(jì)算機(jī)的?從早期的鍵盤到我們口袋里的觸摸屏,我們逐步擴(kuò)展了人機(jī)數(shù)字交互的方式。隨著自動(dòng)語音識(shí)別(ASR)技術(shù)的發(fā)展,人工智能系統(tǒng)與真正“人類”交流的方式的差距逐漸縮短。
  本質(zhì)上講,語音識(shí)別可將人的語音轉(zhuǎn)換為文字,允許人機(jī)進(jìn)行語音對(duì)話。
  揭開語音識(shí)別能力的神秘面紗
  現(xiàn)今的語音識(shí)別主要通過將數(shù)據(jù)集直接輸入算法來進(jìn)行語音模型的訓(xùn)練。通常,工業(yè)界為了適應(yīng)不同年齡、不同地域、不同人群、不同信道、不同終端和不同噪聲環(huán)境的應(yīng)用環(huán)境,往往需要大量語音語料和文本語料來進(jìn)行訓(xùn)練,使之有效提高識(shí)別率。隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,大量文本和語音語料可從多個(gè)渠道進(jìn)行獲取,為語音識(shí)別的語言模型和聲學(xué)模型的訓(xùn)練提供了豐富的資源,使得通用大規(guī)模語言模型和聲學(xué)模型成功構(gòu)建。
  靈云語音識(shí)別能力基于捷通華聲公司最新一代的識(shí)別算法、解碼器核心、現(xiàn)今的聲學(xué)模型和語言模型訓(xùn)練方法,在核心的聲學(xué)模型、語言模型、解碼器上都有創(chuàng)新和突破。目前,靈云語音識(shí)別系統(tǒng)的主力模型為CTF模型,該模型有效的提升了語音識(shí)別引擎的執(zhí)行效率、增強(qiáng)了對(duì)不同口音、語速的適配能力,大幅提升了多人會(huì)談、遠(yuǎn)揚(yáng)講話的識(shí)別率。
  靈云語音識(shí)別能力基于聲學(xué)模型,用于搭建音頻信號(hào)和音素,就像應(yīng)用數(shù)字溫度計(jì)將溫度度數(shù)轉(zhuǎn)換為數(shù)字一樣,聲學(xué)模型可將聲波轉(zhuǎn)換為計(jì)算機(jī)語言。靈云語音識(shí)別系統(tǒng)應(yīng)用端到端(E2E)模型,可快速拓展多語種,減少解碼時(shí)間,提高語音識(shí)別準(zhǔn)確率。
  靈云語音識(shí)別能力可以準(zhǔn)確實(shí)現(xiàn)話者分離,不但在多人會(huì)議談話場(chǎng)景下應(yīng)用智能會(huì)議記錄中至關(guān)重要,而且還可避免因兩位發(fā)言者同時(shí)發(fā)言的語音組合一個(gè)無意義的記錄而造成的混淆。靈云語音識(shí)別的話者分離模塊采用了聲紋識(shí)別技術(shù)及語義理解技術(shù),新版本引擎在原有話者分離算法基礎(chǔ)上,增加了對(duì)采用字詞分割輔助的方法進(jìn)行話者分離的支持。該算法下,在正常 VAD 切分獲得初始分段的基礎(chǔ)上,還會(huì)使用免 VAD 的 方法先進(jìn)行識(shí)別,得到識(shí)別出的詞邊界,再利用此邊界對(duì)初始分段進(jìn)行修正,并輔助話者的聚類。
  靈云語音識(shí)別技術(shù)的應(yīng)用
  捷通華聲作為國內(nèi)最早期從事人工智能技術(shù)研發(fā)和產(chǎn)業(yè)化應(yīng)用的企業(yè),在成立之初便確定“融合技術(shù)、融合應(yīng)用、融合服務(wù)”發(fā)展理念,以場(chǎng)景需求為導(dǎo)向,本著對(duì)核心技術(shù)孜孜不倦的探索精神和務(wù)實(shí)推進(jìn)的原則,在保持技術(shù)先進(jìn)性的同時(shí),不斷創(chuàng)新場(chǎng)景應(yīng)用。
  靈云語音識(shí)別能力在各行各業(yè)都有出色承擔(dān)應(yīng)用程序和創(chuàng)新用例,在會(huì)議、談話、演講等現(xiàn)實(shí)場(chǎng)景中,它都可為客戶提供語音支撐技術(shù),為客戶提供便捷工作、生活方式。
  以呼叫中心為例,靈云語音識(shí)別能力可部署到全自動(dòng)聊天機(jī)器人中,可監(jiān)控客戶人機(jī)交互,以更快地解決問題以及改進(jìn)員工培訓(xùn)。“某公司應(yīng)用靈云語音識(shí)別能力將客戶事件平均處理時(shí)間減少40%,自助服務(wù)率從 5% 提高到20%,員工成本降低多達(dá) 500 萬,提高服務(wù)轉(zhuǎn)化率近 50%,極大提升了客戶滿意度和員工敬業(yè)度”。
 
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專題

CTI論壇會(huì)員企業(yè)