您當(dāng)前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

音視頻技術(shù)在云會(huì)議場(chǎng)景的拓展和未來

2021-04-20 15:33:37   作者:商世東   來源:CTI論壇   評(píng)論:0  點(diǎn)擊:


  音視頻技術(shù)不斷發(fā)展,云會(huì)議場(chǎng)景在人們生活中也越來越常見。那么如何將云會(huì)議場(chǎng)景中的音視頻技術(shù)不斷提升改善?本次分享會(huì)我們邀請(qǐng)到了來自騰訊會(huì)議的商世東先生,他將與我們分享云視頻技術(shù)在騰訊會(huì)議里面的一些領(lǐng)域使用情況和他們對(duì)未來的一些思考。
  大家好,我是騰訊天籟實(shí)驗(yàn)室負(fù)責(zé)人、資深專家研究員商世東。非常榮幸能夠在LiveVideoStackCon 2021音視頻技術(shù)大會(huì)上海站現(xiàn)場(chǎng)為大家分享,過去兩年我們通過騰訊會(huì)議探索音視頻技術(shù)在云會(huì)議場(chǎng)景下的應(yīng)用所收獲的經(jīng)驗(yàn)與心得,以及音視頻技術(shù)在騰訊會(huì)議中的使用情況;诖,我們進(jìn)一步探索音視頻技術(shù)在云會(huì)議場(chǎng)景下的未來。本次分享將從以下五個(gè)方面展開:
  01騰訊會(huì)議介紹
  請(qǐng)?jiān)试S我在此向大家簡單介紹一下騰訊會(huì)議——相信絕大多數(shù)同學(xué)在日常的工作、學(xué)習(xí)過程當(dāng)中都已成為騰訊會(huì)議的用戶。
  1.1.騰訊會(huì)議品牌
 
  2019年12月,騰訊會(huì)議1.0正式版發(fā)布。相對(duì)于現(xiàn)在的產(chǎn)品,當(dāng)時(shí)的騰訊會(huì)議功能比較基礎(chǔ)和單一,在使用體驗(yàn)上也都略顯粗糙;2020年年初,隨著疫情的爆發(fā)催生線上會(huì)議需求井噴,短短245天之內(nèi)騰訊會(huì)議的用戶就突破了1億,成為國內(nèi)市場(chǎng)最快超過1億用戶的視頻會(huì)議應(yīng)用;并且在過去一年,騰訊會(huì)議多次榮登App Store免費(fèi)榜的榜首;2020年11月,騰訊會(huì)議在疫情爆發(fā)期間協(xié)助各個(gè)企事業(yè)單位、學(xué)校復(fù)工復(fù)產(chǎn)、遠(yuǎn)程協(xié)助,為數(shù)字經(jīng)濟(jì)發(fā)展做出了卓越的貢獻(xiàn);并于2020年在浙江烏鎮(zhèn)舉辦的世界互聯(lián)網(wǎng)大會(huì)上榮獲“領(lǐng)先科技成果”大獎(jiǎng),這也是世界互聯(lián)網(wǎng)大會(huì)自2014年舉辦以來,首次獲得該獎(jiǎng)項(xiàng)的視頻會(huì)議產(chǎn)品。
  根據(jù)北京大學(xué)互聯(lián)網(wǎng)發(fā)展研究中心發(fā)布的研究報(bào)告《在線會(huì)議社會(huì)價(jià)值與未來發(fā)展報(bào)告》,騰訊會(huì)議在短短5個(gè)月的時(shí)間直接節(jié)約社會(huì)成本達(dá)714億元,在經(jīng)濟(jì)、技術(shù)、文化等多個(gè)層面為社會(huì)做出了卓越貢獻(xiàn)。
  1.2.依托騰訊云,騰訊會(huì)議助力企業(yè)協(xié)作轉(zhuǎn)型
  騰訊會(huì)議從速度、跨度、深度、廣度等多個(gè)維度上,有效助力企業(yè)數(shù)字化協(xié)作轉(zhuǎn)型:
  • 在速度上,騰訊會(huì)議提供了隨時(shí)隨地接入的視頻會(huì)議體驗(yàn);
  • 在跨度上,騰訊會(huì)議為眾多企業(yè)在大規(guī)模、跨企業(yè)、跨地域交流方面提供關(guān)鍵技術(shù)與產(chǎn)品支撐;
  • 在深度上,騰訊會(huì)議提供的眾多功能,有效為各大企業(yè)平臺(tái)提供一個(gè)可信賴的沉浸式協(xié)作環(huán)境;
  在廣度上,騰訊會(huì)議與業(yè)界眾多硬件和APP實(shí)現(xiàn)了集成,高效連接個(gè)人、會(huì)議與生態(tài)。
  1.3.騰訊會(huì)議產(chǎn)品全景圖
  
  騰訊會(huì)議為全行業(yè)提供在線會(huì)議賦能,深入政府、醫(yī)療、教育、金融、制藥等行業(yè),為諸多的企事業(yè)單位與組織機(jī)構(gòu)提供了遠(yuǎn)程協(xié)作和視頻會(huì)議服務(wù)。
  在平臺(tái)種類上,我們也可以看到,騰訊會(huì)議目前覆蓋了大家日常使用的8個(gè)主流平臺(tái),包括PC、移動(dòng)、會(huì)議室以及騰訊會(huì)議的硬件終端產(chǎn)品——騰訊會(huì)議Rooms。在全場(chǎng)景平臺(tái)架構(gòu)上的服務(wù)除了提供視頻會(huì)議和音頻會(huì)議之外,還提供了協(xié)作會(huì)議和會(huì)議直播。而在底層能力平臺(tái)方面,除了使用最多的音視頻引擎,還提供了IM、在線文檔、會(huì)議室連接器、智能管理等平臺(tái);除此之外,騰訊會(huì)議還提供了面對(duì)所有開發(fā)者的API服務(wù),開發(fā)者可以在各自領(lǐng)域和應(yīng)用硬件中集成騰訊會(huì)議的多項(xiàng)能力。
  1.4.常見應(yīng)用場(chǎng)景
  
  圖中列舉的諸多場(chǎng)景如遠(yuǎn)程培訓(xùn)、遠(yuǎn)程會(huì)商等,在騰訊會(huì)議上也都被廣泛使用,因?yàn)檫@些相關(guān)場(chǎng)景都涉及到遠(yuǎn)程協(xié)作溝通。
  以上是對(duì)騰訊會(huì)議的簡單介紹,希望能夠幫助大家對(duì)騰訊會(huì)議有進(jìn)一步了解。下一步我將具體分享騰訊會(huì)議音視頻所具有的黑科技。
  02騰訊會(huì)議的音視頻黑科技
  提及騰訊會(huì)議的音視頻能力,我們首先需要知悉的是騰訊會(huì)議音視頻的建設(shè)目標(biāo)。
  騰訊會(huì)議自啟動(dòng)以來,我們一直圍繞著更清晰、更流暢、更實(shí)時(shí)互動(dòng)的目標(biāo)進(jìn)行持續(xù)的能力建設(shè),不斷提高遠(yuǎn)程線上會(huì)議參與感和交流感。
  音視頻技術(shù)泛泛而言分為三個(gè)領(lǐng)域:音頻處理、視頻處理、弱網(wǎng)抗性增強(qiáng)。今天由于時(shí)間限制,不太可能和大家全面回顧這三個(gè)領(lǐng)域的相關(guān)技術(shù),還是和大家分享下三個(gè)領(lǐng)域我們經(jīng)歷的一些有趣故事吧。
  2.1.關(guān)于音頻降噪的故事
  
  我們內(nèi)部統(tǒng)計(jì)到,在所有的線上的會(huì)議中,純語音會(huì)議占到會(huì)議總數(shù)的80%左右,由于純語音會(huì)議不開攝像頭和屏幕分享,或者屏幕分享開的時(shí)間在整個(gè)會(huì)議中處于很小的比例。所以語音會(huì)議的質(zhì)量、流暢、純凈、智能互動(dòng)對(duì)于線上會(huì)議的體驗(yàn)至關(guān)重要。
  在現(xiàn)實(shí)生活當(dāng)中,由于開會(huì)所處的現(xiàn)實(shí)環(huán)境非常復(fù)雜,包括各種嘈雜的環(huán)境。為了提供良好的語音會(huì)議體驗(yàn),卓越的音頻降噪技術(shù)是不可或缺的。
  從騰訊會(huì)議開發(fā)伊始,音頻方案便沿著經(jīng)典信號(hào)處理和深度學(xué)習(xí)相結(jié)合的技術(shù)路徑進(jìn)行,我們運(yùn)用了獨(dú)特的大數(shù)據(jù)訓(xùn)練模型覆蓋多種常見的平穩(wěn)噪聲和非平穩(wěn)噪聲類型。不單是基于經(jīng)典的信號(hào)處理模型,而是監(jiān)測(cè)并消除了很多日常突發(fā)性的非平穩(wěn)噪聲。
  騰訊會(huì)議支持多平臺(tái)終端,因此我們的模型也是低復(fù)雜度輕量級(jí),保證能夠在多個(gè)終端平臺(tái)落地。在具體實(shí)現(xiàn)上,從技術(shù)細(xì)節(jié)角度來講,騰訊會(huì)議的音頻降噪算法結(jié)合了人體的聲帶與聲道的發(fā)聲模型以及人耳的聽覺模型,基于多種神經(jīng)網(wǎng)絡(luò)并融合多種損失函數(shù)和訓(xùn)練策略,最終在語音的保真度和自然度以及噪聲抑制上取得了一個(gè)良好的權(quán)衡。但這個(gè)挑戰(zhàn)也是巨大的,尤其是在音頻降噪上線以后,也給我們意想不到的挑戰(zhàn)。
  下面給大家分享一個(gè)有趣的故事。
  
  降噪的故事
  上圖兩個(gè)波形圖所展現(xiàn)的分別是掌聲與敲擊鍵盤的聲音,可以看到二者波形非常相似。2020年初疫情來臨時(shí),許多會(huì)議由線下轉(zhuǎn)為線上,當(dāng)時(shí)騰訊會(huì)議所采取的降噪算法還處于灰度測(cè)試階段。我們收到的一個(gè)比較尷尬的反饋是,公司領(lǐng)導(dǎo)使用騰訊會(huì)議開會(huì),講到最后時(shí)刻領(lǐng)導(dǎo)習(xí)慣性停下來等待大家鼓掌,此時(shí)由于降噪算法的強(qiáng)悍降噪效果,領(lǐng)導(dǎo)能從畫面中看到大家鼓掌,但耳朵中卻聽不到任何掌聲,這是由于當(dāng)時(shí)不夠成熟的降噪算法將掌聲也作為一種背景噪音過濾掉了;此時(shí)如果沒有開視頻畫面而只是運(yùn)用語音開會(huì)的話,則領(lǐng)導(dǎo)收不到任何反饋,這樣的體驗(yàn)無疑是不自然的。
  我們知道算法對(duì)于模型來說至關(guān)重要。騰訊會(huì)議針對(duì)非突發(fā)噪聲的消除采取了多種模型,當(dāng)時(shí)所采取的模型并不需要區(qū)分鍵盤敲擊聲與掌聲。如果仔細(xì)觀察鍵盤敲擊聲與掌聲的波形圖我們不難發(fā)現(xiàn),掌聲波形存在細(xì)微的差別,而敲擊不同鍵盤所呈現(xiàn)的聲音也會(huì)有一定差別,但人耳對(duì)二者很難區(qū)分。
  這無疑對(duì)我們實(shí)現(xiàn)噪聲消除模型帶來很大挑戰(zhàn)。一方面我們希望噪聲消除模型具有很好的泛化性能,不能只針對(duì)訓(xùn)練的數(shù)據(jù)做有效處理;但在一些特殊場(chǎng)景下,模型可能存在失效的情況,錯(cuò)誤過濾其他噪聲。意識(shí)到該問題后,我們對(duì)降噪模型進(jìn)行了創(chuàng)新,也就是在模型中加入了一個(gè)獨(dú)特的可融合幀級(jí)信息與語音片斷信息的多級(jí)別模型,而且還可以多尺度地獨(dú)立提取不同頻帶域特征,區(qū)分掌聲與非掌聲的局部特征信息,再對(duì)這些特征進(jìn)行融合從而達(dá)到識(shí)別全局不同類型噪聲的效果。以后我們通過騰訊會(huì)議與領(lǐng)導(dǎo)開會(huì),再也不需要擔(dān)心領(lǐng)導(dǎo)因?yàn)槁牪坏秸坡暥鴮擂瘟恕?/div>
  
  說完噪聲我們?cè)賮碚f語音,因?yàn)檎Z音增強(qiáng)和噪聲消除是相輔相成的,但語音和噪聲有很大差別。上圖展示的一段逐漸衰弱的語音波形圖,可以看到語音波形圖具有一定的諧波特征。但語音在距離遠(yuǎn)一些時(shí)非常容易淹沒在背景雜音里,這對(duì)語音增強(qiáng)而言,如何將語音從背景噪聲中分離并增強(qiáng)顯得尤為重要。
  剛開始的時(shí)候騰訊會(huì)議主要在手機(jī)、PC等平臺(tái)部署,不會(huì)存在太多人距離麥克風(fēng)較遠(yuǎn)的情況;但當(dāng)大家?guī)隙鷻C(jī)或者使用電腦在空曠會(huì)議室開會(huì)時(shí),尤其是當(dāng)多人在會(huì)議室里開會(huì),有些成員距離麥克風(fēng)較近,有些則距離麥克風(fēng)非常遠(yuǎn),這就導(dǎo)致一些遠(yuǎn)處的人聲會(huì)被當(dāng)成噪聲而消除。為了避免這樣的情況發(fā)生,我們對(duì)模型做出進(jìn)一步改進(jìn),優(yōu)化了模型以大幅度改善遠(yuǎn)處較弱語音的增強(qiáng)與降噪效果,在降低噪音的同時(shí)保留遠(yuǎn)處人聲的清晰度。
 
  音頻降噪不僅用于PC、手機(jī)等終端設(shè)備上,一些商業(yè)會(huì)議場(chǎng)景,尤其是部署在會(huì)議室的視頻會(huì)議產(chǎn)品,當(dāng)我們?cè)谂c合作伙伴探討最佳產(chǎn)品形態(tài)的時(shí)候發(fā)現(xiàn),市場(chǎng)上的大型會(huì)議室設(shè)備在遠(yuǎn)程拾音、降噪、雙講、噪聲消除方面往往無法滿足行業(yè)需求,體驗(yàn)與實(shí)用性都不佳,為此騰訊會(huì)議技術(shù)團(tuán)隊(duì)專門進(jìn)行了技術(shù)攻關(guān)。
  得益于騰訊會(huì)議天籟音頻團(tuán)隊(duì)的努力,我們最近提供了一套性能優(yōu)異的會(huì)議室遠(yuǎn)場(chǎng)拾音解決方案:我們采用了多個(gè)MEMS麥克風(fēng)板并結(jié)合音頻處理器,然后通過攝像頭上方的結(jié)構(gòu)非常方便地集成于在線會(huì)議設(shè)備之上,很好地實(shí)現(xiàn)了在參會(huì)者不方便使用電話或不方便使用擴(kuò)展麥克風(fēng)的場(chǎng)景中對(duì)遠(yuǎn)距離人聲的拾音問題。下面請(qǐng)大家體驗(yàn)下我們模組強(qiáng)悍的超遠(yuǎn)距離拾音能力。
  此外,該模組除了解決遠(yuǎn)距離人聲拾音的同時(shí),也實(shí)現(xiàn)了更為智能的噪聲消除效果。例如針對(duì)敲擊鍵盤、放水杯,咳嗽聲等突發(fā)性噪聲都具有良好消除性能。除了噪聲消除,雙講是視頻會(huì)議中一個(gè)常見的現(xiàn)象,同時(shí)也是一項(xiàng)挑戰(zhàn)。市場(chǎng)中大屏幕主流產(chǎn)品在處理雙講場(chǎng)景時(shí)往往會(huì)出現(xiàn)很明顯的失真現(xiàn)象或者雙講剪切,這就導(dǎo)致一些交流較為頻繁的會(huì)議,往往會(huì)影響語音的清晰程度。而使用天籟團(tuán)隊(duì)所開發(fā)的模組,雙講場(chǎng)景即便是多人同時(shí)講話依然能夠清晰的聽見每個(gè)人所說的大部分內(nèi)容。
  2.2.不止于超高清編解碼,更有AI視覺加持
 
  除了音頻,騰訊會(huì)議領(lǐng)先的視頻技術(shù)也絕不僅僅是一個(gè)全高清的視頻體驗(yàn)。除了高清H.264編解碼、HEVC等之外,為了改善視頻會(huì)議的參與感,騰訊會(huì)議還做了很多與視覺AI相關(guān)的工作。如虛擬背景,以及去年疫情開始很多學(xué)生使用時(shí)很喜歡的美顏功能。
  騰訊會(huì)議最近還收到來自一些用戶的反饋,他們打開攝像頭的時(shí)候總感覺不自然, 因?yàn)槿粘=涣鞯臅r(shí)候大家都會(huì)有眼神接觸,但在視頻會(huì)議的時(shí)候,因?yàn)閿z像頭和屏幕與人眼之間的夾角,對(duì)方看到人的時(shí)候眼睛是向下的;如果你非常激情且投入地參與會(huì)議,但是無法于其他參會(huì)人有眼神接觸,這樣的體驗(yàn)不會(huì)很好。于是我們決定做一個(gè)眼神接觸的功能,也就是將眼神偏離的向下的角度給糾正過來;但實(shí)際上做眼神接觸的時(shí)候,需要調(diào)整的不僅僅是眼神,還有眼睛上方的睫毛,下方的眼皮區(qū)域等等都需要做出相應(yīng)的改善,才能讓面部表情看起來自然。更具有挑戰(zhàn)性的是一些戴眼鏡的情況,眼鏡會(huì)有各種各樣的形狀,更會(huì)有反光,這都對(duì)建立人臉3D模型以及人臉3D模型生成的數(shù)據(jù)提出了很大的挑戰(zhàn)。我們?cè)陂_發(fā)這個(gè)功能采集了數(shù)千人的人眼,并且運(yùn)用人臉3D模型來生成總計(jì)超過百萬張的人眼數(shù)據(jù)。
  當(dāng)該功能上線后,大多數(shù)客戶反映都很正面,但我們也收到了一些意料之外的反饋。很多老師和學(xué)生反饋,原來上課的時(shí)候老師可以看到學(xué)生是否在專注的聽講,結(jié)果現(xiàn)在老師發(fā)現(xiàn)大家都盯著老師看,一堂課上下來學(xué)生都非常的專注,老師就覺得5分鐘、10分鐘還行,一堂課下來40分鐘這么多以前很調(diào)皮的學(xué)生現(xiàn)在如此專注就不太正常,下來一打聽,原來是學(xué)生把眼神接觸功能都打開了。我們收到這樣的反饋以后,也對(duì)模型的改善程度重新做了一些調(diào)整,當(dāng)眼神偏離幅度過大的時(shí)候,系統(tǒng)不再做眼神糾正了。
  2.3.不斷挑戰(zhàn)“下限”的弱網(wǎng)抗性
  
  因?yàn)轵v訊會(huì)議是在線會(huì)議,是基于IP網(wǎng)絡(luò)的。IP網(wǎng)是沒有QoS保證的,這點(diǎn)和PSTN網(wǎng)絡(luò)不一樣。所以保證QoS,保證音視頻的流暢性是騰訊會(huì)議網(wǎng)絡(luò)組孜孜不倦的追求目標(biāo)——如何保證騰訊會(huì)議在弱網(wǎng)特別是一些極限網(wǎng)絡(luò)的情況下的弱網(wǎng)抗性,在極限網(wǎng)絡(luò)情況下也很好的保證順利的流暢的會(huì)議體驗(yàn)。
  在眾多的會(huì)議里面都出現(xiàn)過發(fā)生弱網(wǎng)的條件。深圳北站,處于深圳的北郊,基站的部署不會(huì)像市中心那么密集,有地鐵通到深圳北站,還有深圳北站的高鐵。通過后臺(tái)大數(shù)據(jù)監(jiān)控發(fā)現(xiàn),這個(gè)地區(qū)網(wǎng)上經(jīng)常有周期性的大丟包和抖動(dòng)現(xiàn)象發(fā)生,導(dǎo)致會(huì)議的流暢度受到很大影響。我們就去深圳北站那棟大樓做實(shí)測(cè),結(jié)果和預(yù)想的一樣,由于基站比較少,尤其當(dāng)?shù)罔F和高鐵同時(shí)進(jìn)戰(zhàn)的時(shí)候,會(huì)導(dǎo)致網(wǎng)絡(luò)流量急劇增加,大量的用戶連接到基站。并且由于高鐵地鐵導(dǎo)致電磁干擾,基站分配到每個(gè)用戶可用的帶寬可以低至幾十kbps。50kbps以下要進(jìn)行一個(gè)很好的流暢的語音會(huì)議技術(shù)上是有挑戰(zhàn)的。
  發(fā)現(xiàn)了這個(gè)問題以后,我們?cè)诰W(wǎng)絡(luò)層做了很多優(yōu)化和調(diào)節(jié),保證在一些極限的條件下——比如地鐵里,或者高鐵交匯的時(shí)候,依然能保證大家在開會(huì)的時(shí)候有流暢的體驗(yàn)。
  03細(xì)節(jié)決定成敗
  前面和大家分享了我們的音視頻核心技術(shù)上面長期積累的點(diǎn)點(diǎn)滴滴的故事,那有些同學(xué)可能會(huì)問,我們有什么用的機(jī)制能夠系統(tǒng)和全面的發(fā)現(xiàn)這些問題,發(fā)現(xiàn)這些badcase,從而進(jìn)行有針對(duì)性的用戶體驗(yàn)改善的呢?
  3.1.在學(xué)術(shù)界和企業(yè)界做算法的差異
  
  在座許多同學(xué)來自學(xué)術(shù)界。在學(xué)術(shù)界做算法和工業(yè)界還是有很大的差異。學(xué)術(shù)和工業(yè)界做算法的共同點(diǎn)是“知己知彼”,學(xué)術(shù)界更多的是對(duì)如何做得更好,針對(duì)一個(gè)問題提出改善或提升。工業(yè)界除了如何做得更好,還需要知道誰做得不好?什么時(shí)候做得不好?哪里做得不好?比如,我們做算法的都知道,其實(shí)攝像頭和麥克風(fēng)對(duì)采集是有要求的,如果采集效果不好,在這個(gè)基礎(chǔ)上,本來采集的語音效果就比較差,后續(xù)就很難提升,如果攝像頭本身只有360P,怎么可能做出高清視頻;使情況更糟糕的是深度學(xué)習(xí)技術(shù)對(duì)數(shù)據(jù)的依賴性,比如模型遇到完全沒碰見過的數(shù)據(jù)的時(shí)候,它的表現(xiàn)不可測(cè)。這就要求我們能從現(xiàn)網(wǎng)中發(fā)現(xiàn)各個(gè)環(huán)節(jié)的缺陷,不管是自研的,還是其他廠商的產(chǎn)品,都要做好音視頻質(zhì)量的實(shí)時(shí)評(píng)估和檢測(cè),能發(fā)現(xiàn)其中算法效果的不足和局限性。
 
  此外還要做更進(jìn)一步的細(xì)分及指標(biāo)的定義。很多業(yè)界朋友交流到音視頻本身就是非常主觀的事物,如何把它細(xì)分指標(biāo)到各個(gè)層面從而提升音視頻體驗(yàn)是很困難的,但我們必須這樣做。
  細(xì)節(jié)決定成敗,細(xì)節(jié)取決于什么,細(xì)節(jié)的第一步就取決于細(xì)分指標(biāo)的定義,尤其對(duì)于我們做音視頻的同學(xué)而言都非常頭疼的的主觀感受指標(biāo)。
  視頻可以細(xì)分為視頻編解碼、視頻采集幀率、視頻接收碼率、屏幕分享幀率、屏幕分享接收碼率、視頻幀率的變化,視頻碼率的變化這些指標(biāo)。
  對(duì)于音頻更加主觀,處理環(huán)節(jié)更加多,同一個(gè)地方不同音頻設(shè)備會(huì)互相干擾,攝像頭間干擾可能性會(huì)比較小。所以為了對(duì)音頻做完整的監(jiān)控,我們將音頻指標(biāo)分為7大類包括無聲、卡頓、漏回聲、降噪、嘯叫、音質(zhì)采集、語音/音樂內(nèi)容分類。這是初步的7個(gè)種類,針對(duì)每一個(gè)種類我們有進(jìn)一步細(xì)致的劃分,比如卡頓問題是大家很困擾的,以前最早時(shí)卡頓問題我們一般認(rèn)為是網(wǎng)絡(luò)不好。網(wǎng)絡(luò)通過丟包導(dǎo)致卡頓,經(jīng)過進(jìn)一步修復(fù)分析后,發(fā)現(xiàn)并不是這么簡單,網(wǎng)絡(luò)丟包,抖動(dòng)導(dǎo)致的卡頓、前處理丟幀、播放側(cè)解碼失敗、3A處理導(dǎo)致的音量忽大忽小都會(huì)導(dǎo)致卡頓的發(fā)生。我們?nèi)绻梢园鸭?xì)分指標(biāo)都完善定義,那么就可以實(shí)現(xiàn)對(duì)會(huì)議音視頻體驗(yàn)的一個(gè)完整的監(jiān)控。但是定義出來的指標(biāo)是一方面,對(duì)騰訊會(huì)議這樣超過一億用戶的平臺(tái),很多時(shí)候大盤的指標(biāo)對(duì)于個(gè)體問題并不敏感。
  這就帶來了第二個(gè)問題,要進(jìn)行非常嚴(yán)格細(xì)致的場(chǎng)景分類。首先是比較基礎(chǔ)的根據(jù)設(shè)備類型、操作系統(tǒng)、軟件版本進(jìn)行分類,如這個(gè)版本放音視頻沒有問題,但可能下一個(gè)版本可能就會(huì)出現(xiàn)bug。更難的是根據(jù)音視頻的內(nèi)容所處場(chǎng)景進(jìn)行分類,大家在開視頻會(huì)議時(shí)可能在家里,馬路上,辦公室等不同位置;音頻會(huì)議場(chǎng)景可能更多,家里、地鐵、商場(chǎng)、機(jī)場(chǎng)、車?yán),?chǎng)景分類做出來后,這些具體指標(biāo)在各個(gè)場(chǎng)景中會(huì)有不同的表現(xiàn),對(duì)提高全網(wǎng)的質(zhì)量有非常大的幫助。舉一個(gè)例子,嘯叫一旦發(fā)生,就有災(zāi)難性的后果,所以我們的算法是一旦發(fā)生嘯叫就閉麥,避免嘯叫場(chǎng)景的發(fā)生。而嘯叫檢測(cè)本身帶來誤警,這是所有檢測(cè)都不可避免的,一旦誤警關(guān)麥時(shí),我們會(huì)統(tǒng)計(jì)出全網(wǎng)關(guān)麥的指標(biāo)。但只能看到指標(biāo)是否有波動(dòng)不知道如何使用是無效的。這時(shí)候我們就把場(chǎng)景進(jìn)行細(xì)分,進(jìn)而發(fā)現(xiàn)車載場(chǎng)景中,嘯叫指標(biāo)明顯高于其他場(chǎng)景。大家可以分析一下原因,其實(shí)當(dāng)汽車鳴笛的時(shí)候,是很有可能是被誤判為嘯叫的,這只是一個(gè)簡單的例子,還有其他如回聲、降噪都可以進(jìn)行類似的分析進(jìn)而發(fā)現(xiàn)我們算法的局限性和不足。
  多維度分析包括跨緯度,不同設(shè)備在不同場(chǎng)景中,進(jìn)行交叉維度分析,比如看回聲的指標(biāo)的時(shí)候,我們會(huì)看在各個(gè)設(shè)備,以及各個(gè)聲學(xué)場(chǎng)景下的效果的上報(bào),這樣可以發(fā)現(xiàn)很多有價(jià)值的信息。
  04未來云會(huì)議的音視頻技術(shù)
  現(xiàn)在和大家分享未來云會(huì)議的整個(gè)音視頻技術(shù)。
 
  講到未來時(shí),我們常常會(huì)思考現(xiàn)在的音視頻會(huì)議存在什么問題。
  我經(jīng)常開玩笑問朋友,誰最喜歡開線上視頻會(huì)議,開玩笑地說是項(xiàng)目經(jīng)理最喜歡,原因是在開項(xiàng)目會(huì)議時(shí),他不需要你說太多,只需要回答yes or no,不需要看見你,不需要知道你的心情,不需要知道你在什么樣的環(huán)境,只要關(guān)心項(xiàng)目版本的驗(yàn)證發(fā)布及生產(chǎn)效率,對(duì)他來說有明確的目標(biāo)及途經(jīng),于是線上會(huì)議于項(xiàng)目經(jīng)理而言是非常好的提升生產(chǎn)力的效果。
  誰最不喜歡開線上視頻會(huì)議呢?我閨女最不喜歡和我開視頻會(huì)議,每次最多不超過3分鐘就跑一邊去玩了、經(jīng)過調(diào)研發(fā)現(xiàn)類似的情況還有團(tuán)隊(duì)中的新同學(xué)入職時(shí)、每次有重要的事情和老板談時(shí)、BD第一次見客戶,你想和老板討論績效考核的時(shí)。這時(shí)候大家往往都會(huì)覺得視頻會(huì)議無法充分表達(dá)出想要的真正的意圖和目的。
  4.1.溝通的目的
  
  在工作中,人們溝通主要由三個(gè)目的。第一個(gè)是生產(chǎn)率;第二個(gè)是當(dāng)你面對(duì)開放性命題需要討論、思維碰撞時(shí)候需要?jiǎng)?chuàng)新性的解決方案的時(shí)候;第三是建立和維護(hù)人際關(guān)系的溝通。對(duì)于第二和第三類的溝通,我們現(xiàn)在知道,線上會(huì)議和線下會(huì)議的體驗(yàn)還是有蠻大的差距。
  4.2.溝通的方式
  
  這主要是因?yàn)椋诙偷谌惸康南碌臅?huì)議中的參會(huì)者,表達(dá)會(huì)有多種方式:文字語音帶有明確的目的和實(shí)施途徑,但是對(duì)于開放式的話題,更加需要的是面部表情及眼神接觸來達(dá)到充分的投入和交互,此外還有情感述求,比如尋求他人認(rèn)同、支持、還需要將情感述求和實(shí)際開會(huì)場(chǎng)景結(jié)合起來,比如線下輕松休閑的會(huì)議可以去咖啡館開,嚴(yán)肅的會(huì)議可以去正式的會(huì)議室等等,這樣的訴求目前在線上會(huì)議上都是難以滿足的。
  4.3.云會(huì)議的未來
 
  但是正在蓬勃發(fā)展的VR、AR技術(shù)也許可以彌補(bǔ)音視頻會(huì)議中上述的情景的不足,身體語言,面部表情可以通過VR/AR技術(shù)來彌補(bǔ)。它們?cè)趯?shí)時(shí)視頻會(huì)議中的一些作用,比如左圖的全息會(huì)議可以確保參會(huì)者的實(shí)時(shí)動(dòng)作出現(xiàn)在全息投影中,彌補(bǔ)實(shí)時(shí)視頻會(huì)議中參會(huì)者面不和身體語言的的缺失,現(xiàn)在使用手機(jī)相機(jī)即可實(shí)現(xiàn)高質(zhì)量的全息采集。右圖的VR技術(shù),可以使參會(huì)者在會(huì)議中使用一些有意思的掛件、服裝等,更好的構(gòu)建不同談話場(chǎng)景,為遠(yuǎn)程會(huì)議增添與會(huì)議目的一致的各種環(huán)境等等。
  由于時(shí)間限制,以上是我與大家分享的內(nèi)容,希望對(duì)大家有所幫助,謝謝
  來源:LiveVideoStack
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

相關(guān)閱讀:

專題

CTI論壇會(huì)員企業(yè)