您當前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

黃鸝智聲CEO劉志:后疫情時代語音降噪對于客戶體驗的重要性

2020-09-21 10:35:18   作者:   來源:CTI論壇   評論:0  點擊:


  由CTI論壇(www.ctiforumcom)主辦的2020中國呼叫中心及企業(yè)通信大會(http://www.ctiforumcom/expo/2020/ccec2020spring/indexhtml)于9月18日在北京遼寧大廈盛大開幕。本次會議以“‘新基建’背景下ICT行業(yè)發(fā)展機遇與挑戰(zhàn)”為主題。深圳黃鸝智能科技有限公司CEO劉志應(yīng)邀出席此次會議并發(fā)表題為《后疫情時代語音降噪對于客戶體驗的重要性》的主題演講。隨著數(shù)字渠道的發(fā)展和人工智能的到來,一個普遍的誤解是傳統(tǒng)的人與人之間的語音交互已經(jīng)過時。但實際上并非如此,語音交互的目的已經(jīng)改變,從之前處理所有的咨詢業(yè)務(wù)轉(zhuǎn)變?yōu)樘幚砥髽I(yè)與其客戶之間最復雜,最有價值的交互。自從本次冠狀病毒大流行以來,語音交互的重要性更是不斷提升。在此背景下,如何提升語音交互的體驗?黃鸝智聲的演講為大家?guī)硇碌囊暯恰?/div>

圖:深圳黃鸝智能科技有限公司CEO劉志
▲演講PPT下載,pdf格式
  劉志:感謝CTI論壇,我在呼叫中心和企業(yè)通信領(lǐng)域是個新人,我們公司也很新,去年8月份剛剛成立。但是疫情讓我對這個領(lǐng)域所做的事情有更新的認識,首先我認識到呼叫中心也好、企業(yè)通信也好,是服務(wù)于全行業(yè)的。有一個笑話,說疫情當中三個月沒有接到推銷電話感覺整個人都不好了,終于盼來了一通推銷電話,瞬間點燃了自己。我也有這樣的感受,我接到的外呼電話和我打出去的客服電話,經(jīng)常會遇到這樣的場景,我給大家演示一下,就是這樣嘈雜的環(huán)境。這樣的場景大家并不陌生,不僅是在呼叫中心,在企業(yè)辦公中,整個疫情期間我參加的不下一百場的各種各樣的線上宣講、會議等等,才意識到一個問題,我們大部分人不知道通話的對方聽到我的聲音是怎樣的。而我聽到同事們家里面狗叫貓叫的聲音,我意識到我也可能給對方帶來了不好的體驗。
  實驗心理學有這樣的數(shù)據(jù),說明聲音有多重要,在人類獲取的信息當中有20%是直接來自于聲音,還有25%是聲音和視覺的結(jié)合,今天在現(xiàn)場能夠面對面的交流是對于信息交互是非常難得的,因為既有聲音又有視覺,大家可以看到我的表情、形態(tài)和肢體語言,但是一旦到了線上看不到對方,這種情況下聲音是不是就是我們獲取信息的唯一來源呢?從人類表達信息的手段來看,有聲語言更是占據(jù)了絕大多數(shù)的比例。可是聲音這么重要,我們卻常常忽略了噪聲的影響。
  我們可以看到疫情的影響下,越來越多的企業(yè)已經(jīng)在選擇在家辦公了,包括Facebook、推特,疫情前美國有5%的企業(yè)辦公選擇在家或者是比較自由的方式。我相信疫情終將過去,但是就像03年非典之后電商發(fā)展起來了,這次的疫情后我相信線上辦公、學習、娛樂等等很多新的生活工作方式會變成常態(tài),但這里面有個非常重要的問題,就像電商普及那樣,就是體驗非常重要。對于在線辦公和呼叫中心來說,語音降噪對于客戶體驗就是非常重要的。
  呼叫中心大家也都知道,今天數(shù)字化越來越成為潮流,今天下午的演講中五個同行,有四家都是在講人工智能,怎么樣用人工智能來讓客戶的體驗更好,但同時也要看到,今天在這種數(shù)字化變革下,今年85%呼叫中心也要做數(shù)字化變革,但是對于數(shù)字渠道滿意客戶只有21%,我自己就對很多數(shù)字渠道很不滿意,還有1/3通過數(shù)字渠道發(fā)起的客戶服務(wù)最終還是轉(zhuǎn)到了人工,這不是代表智能化不是趨勢,實際上智能化一定是趨勢,但是今天怎么樣去提升客戶的體驗,語音降噪在智能化當中也有非常多重要的價值。
  我們看到語音雖然是個非常古老的手段,但是不管是在呼叫中心還是在企業(yè)辦公中今天發(fā)揮的作用是不但沒有減小而且是越來越大的。拿呼叫中心來說,作為問題解決中心我們觀察到,雖然人工智能數(shù)字化渠道有很多好的提升效率的手段,但是總有一些查詢最終要到人這里,而且要看到一旦到了人這里的問題,一定是最有價值的問題,也是最難解答的問題,機器人搞不定的問題最終交給了人。我也是做人工智能的,人工智能今天只能解決相對簡單的有邏輯問題,畢竟人工智能沒有認知,也無法體察我的情感。
  語音到人工一定是處理的最有價值的交互,呼叫中心也是價值創(chuàng)造中心,今天獲取客戶的成本越來越高,我以前所在的教育培訓行業(yè)在今年疫情影響下是突飛猛進的增長,但是所有的從業(yè)者都有一個非常擔憂的事情就是獲客成本越來越高,這種情況下怎么能夠保留現(xiàn)有客戶,讓現(xiàn)有客戶為我們帶來更多的價值等等,這些都是企業(yè)必須要思考的問題,而這種保留客戶的發(fā)掘客戶價值的渠道、這樣的交互,人工智能只能作為輔助手段,一定需要通過人與人之間情感的交互。
  今天呼叫中心行業(yè)中語音渠道的目的改變了,已經(jīng)不是處理簡單查詢的問題,而更多的是解決復雜但是有價值的交互。優(yōu)化語音渠道,讓語音渠道給用戶帶來的體驗更好,這一點在后疫情時代越發(fā)有必要。
  我最開始演示的一樣,今天很多語音渠道連最基本的讓對方聽清楚這一點都有差距,這是什么原因呢?核心問題就是噪聲。我們通常大家會有個感受,我面對面交互的時候有噪聲影響也不大,為什么到了坐席這里、線上交互的時候噪聲難道就發(fā)生了質(zhì)的變化嗎?我研究聲音接近20年的時間,可以很明確的告訴大家線上和線下的語音交互是完全不一樣的體驗。兩點:一是我們在面對面交流的時候除了聲音以外,我們也有眼神的交互、肢體的語言,通過視覺那25%大量獲取輔助的信息,信息傳輸手段是綜合多維的,一旦變到只有單一的語音途徑的時候,對于聲音質(zhì)量的依賴性極大的加強了;二是人是非常智能的智能體,我們在面對面交流的時候不是一只耳在聽,而是兩只耳朵,這是雙耳效應(yīng),雙耳效應(yīng)可以自動幫助抑制噪聲、定位聲源方向,一旦錄下來再播出來相當于是一只耳朵在聽聲音,這種人類自身降噪機制發(fā)揮不了作用,這也就是為什么降噪這件事非常重要,但是又很困難。
  上世紀50年代很多人研究相關(guān)課題,直到今天我們看到了很多降噪的方法依然有各自缺陷。傳統(tǒng)的方法是預測噪聲的走向,知道下一個時刻噪聲是怎樣,從帶噪語音中把噪聲減去,但是只對穩(wěn)態(tài)的噪聲,比如空調(diào)的噪聲有預判,對穩(wěn)態(tài)噪聲效果非常好,但是實際上今天噪聲環(huán)境越來越復雜,傳統(tǒng)的方法很難解決。
  陣列方法模擬人耳雙耳效應(yīng),也有更多的四個麥克風、八個甚至更多,它的思路是模擬人耳,但是首先對麥克風的品質(zhì)一致性要求非常高,其次這種方法的邊界效應(yīng)比較明顯。最新2011年興起的深度學習降噪方法取得很好效果,但是也有兩個問題,首先是模型結(jié)構(gòu)非常復雜,算法復雜度非常高,很難滿足通信實時性的要求,其次是這一輪人工智能深度學習方法是黑盒,訓練出來的模型、模型參數(shù)什么樣很難搞清楚,我們也無法知道到底是怎么訓練的,有些時候用了這個方法之后中間聲音聽不到了,也不知道發(fā)生了什么、也無法進行修正。
  黃鸝智聲在降噪方面研究了15年以上的時間,發(fā)現(xiàn)前面的方法有些是從人耳的特性出發(fā)的,有些是從大腦特性出發(fā),比如深度學習是模擬大腦,前面說的陣列、傳統(tǒng)降噪方法是模擬人耳,而我們做的是把二者統(tǒng)一起來,聽覺智能是耳朵和大腦中樞一起作用的結(jié)果,把信號處理的方法和深度學習的方法進行融合,取長補短把它們當中優(yōu)點發(fā)揮出來。從而在降噪問題上解決了以下難題,既要高降噪又要低失真,很多降噪可以把噪聲降得比較好,但是要的聲音也有丟失,要么是聲音聽著還可以,但是一直聽到噪聲。高可靠低延時,我們方案最低8毫秒的延時,這是通信系統(tǒng)里面是完全可以被忽略的,同時高可靠,不會丟數(shù)據(jù),不會聽到中間斷斷續(xù)續(xù)的,三是高性能低成本,這樣的技術(shù)可以達到參數(shù)指標,可以做到降噪40DB以上,今天在飛機發(fā)動機尾部地方,十幾架直升機一起轟鳴,走出去感覺聲浪很厲害,直升機去感受一下,都可以感覺把人振起來,我對著別人耳朵大聲喊人家不知道我在說什么,但是用我們的技術(shù),帶上我們耳麥后可以實現(xiàn)清晰的聲音傳輸,也可以用它去進行語音識別,40db是對噪聲能量降低一萬倍以上,我們還可以讓語音質(zhì)量保持在3.5分以上滿分是5分,最終可以呈現(xiàn)出高質(zhì)量、高性價比的產(chǎn)品。
  基于這樣的技術(shù),我們也給呼叫中心和企業(yè)通信領(lǐng)域帶來了四款產(chǎn)品,自適應(yīng)通話降噪盒是去年11月份出來的產(chǎn)品,可以接固定電話,傳統(tǒng)的固定電話接上我們的降噪盒以后變成專門降噪的電話,第二款產(chǎn)品G100U,今年4月份剛剛出來的,主要定位教育培訓行業(yè),看著比較大一些。4月份剛剛出來5月份就在教育行業(yè)拿到了數(shù)十K的訂單,現(xiàn)在交付達到幾十K。第三、第四款產(chǎn)品是CTI論壇平臺上首次發(fā)布的,E100U,精英系列產(chǎn)品,主要目標人群是辦公人群,是可以接typecC接口,主流安卓手機,也可以接電話。C101是精巧系列,是給呼叫中心和坐席人員準備的,剛才我在剛開始的時候請老師給我播放了一個噪音我也戴著我的C101耳麥同步做了錄音,大家聽聽剛才用這樣的耳麥錄下來的剛才聲音。
  (播放聲音)
  同時播放了噪聲,大家聽聽用C101耳麥錄音是不是完全聽不到任何噪聲也沒有任何失真?這是技術(shù)所體現(xiàn)出來的實際的效果,不用建專業(yè)隔音室,只需要戴一個耳麥就相當于給每一個坐席、每一個辦公人員建立了一個專用虛擬的辦公室。
  智能化是方向,但是今天其實包括剛才云趣提到的問題,今天語音識別的識別準確率會非常受到環(huán)境噪聲的影響,實測安靜環(huán)境下95%的識別率,真的在噪聲環(huán)境下,噪聲環(huán)境相對比較惡劣的話可能會掉到70%以下,我們的設(shè)備還可以來支持數(shù)字渠道和智能化的渠道,合作伙伴只需要關(guān)注后端的質(zhì)檢、客服助手等技術(shù)的準確率以及效果,完全可以把前端怎么讓聲音更加干凈、更加清晰這樣的事情交給我們。
  我們公司是非常年輕的一家公司,去年剛剛成立,但是在聲音領(lǐng)域的研究有超過20年的歷史,我本人清華電子系畢業(yè)后一直從事聲音相關(guān)的工作,做過語音識別、做過口語測評、做過語音編解碼,和聲音相關(guān)方方面面很多我是非常非常清楚的,當時做語音識別的時候特別有感受,我的碩士課題是車載環(huán)境下語音識別,在實驗室里面調(diào)得非常好的設(shè)備拿到車上后馬達一響、車一開,完全報廢了。噪聲的影響也是我們團隊一直想去克服的,而且我們認為它對于人類生活工作品質(zhì)真的有非常大的幫助。
  我們企業(yè)的使命是用聲音智能來改善人類生活與工作品質(zhì),聲音作為人最重要的信息交互手段之一,實際上今天它的價值遠遠沒有被發(fā)掘,就拿它和視覺去對比,可以看到今天很多視覺的設(shè)備已經(jīng)非常多的應(yīng)用,但是語音始終感覺還是欠了點火候,在我們看來,噪音是其中一個非常重要的障礙,我們希望把我們的技術(shù)和更多的伙伴們一起合作,因為我們是前端技術(shù),是相對底層的技術(shù),所有需要噪聲環(huán)境下進行采集、通信、識別等聲音能夠發(fā)揮價值的地方都希望和大家一起攜手合作。我們有一個愿景,我們認為今天聲音更多的是人與人之間的交互,而未來它可能成為萬物互聯(lián)的手段,我們把我們的技術(shù)和大家的結(jié)合在一起,構(gòu)建這樣一個萬物交互的世界,我們認為這樣的一天不是那么的遙遠。
  謝謝大家!
 
【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

相關(guān)閱讀:

專題

CTI論壇會員企業(yè)