国产在线无码精品无码,国产婷婷,精品无码综合专区在线

　　音視頻技術(shù)不斷發(fā)展，云會(huì)議場(chǎng)景在人們生活中也越來越常見。那么如何將云會(huì)議場(chǎng)景中的音視頻技術(shù)不斷提升改善？本次分享會(huì)我們邀請(qǐng)到了來自騰訊會(huì)議的商世東先生，他將與我們分享云視頻技術(shù)在騰訊會(huì)議里面的一些領(lǐng)域使用情況和他們對(duì)未來的一些思考。

　　大家好，我是騰訊天籟實(shí)驗(yàn)室負(fù)責(zé)人、資深專家研究員商世東。非常榮幸能夠在LiveVideoStackCon 2021音視頻技術(shù)大會(huì)上海站現(xiàn)場(chǎng)為大家分享，過去兩年我們通過騰訊會(huì)議探索音視頻技術(shù)在云會(huì)議場(chǎng)景下的應(yīng)用所收獲的經(jīng)驗(yàn)與心得，以及音視頻技術(shù)在騰訊會(huì)議中的使用情況�；诖�，我們進(jìn)一步探索音視頻技術(shù)在云會(huì)議場(chǎng)景下的未來。本次分享將從以下五個(gè)方面展開：

　　01騰訊會(huì)議介紹
　　請(qǐng)?jiān)试S我在此向大家簡單介紹一下騰訊會(huì)議——相信絕大多數(shù)同學(xué)在日常的工作、學(xué)習(xí)過程當(dāng)中都已成為騰訊會(huì)議的用戶。

　　1.1.騰訊會(huì)議品牌

　　2019年12月，騰訊會(huì)議1.0正式版發(fā)布。相對(duì)于現(xiàn)在的產(chǎn)品，當(dāng)時(shí)的騰訊會(huì)議功能比較基礎(chǔ)和單一，在使用體驗(yàn)上也都略顯粗糙；2020年年初，隨著疫情的爆發(fā)催生線上會(huì)議需求井噴，短短245天之內(nèi)騰訊會(huì)議的用戶就突破了1億，成為國內(nèi)市場(chǎng)最快超過1億用戶的視頻會(huì)議應(yīng)用；并且在過去一年，騰訊會(huì)議多次榮登App Store免費(fèi)榜的榜首；2020年11月，騰訊會(huì)議在疫情爆發(fā)期間協(xié)助各個(gè)企事業(yè)單位、學(xué)校復(fù)工復(fù)產(chǎn)、遠(yuǎn)程協(xié)助，為數(shù)字經(jīng)濟(jì)發(fā)展做出了卓越的貢獻(xiàn)；并于2020年在浙江烏鎮(zhèn)舉辦的世界互聯(lián)網(wǎng)大會(huì)上榮獲“領(lǐng)先科技成果”大獎(jiǎng)，這也是世界互聯(lián)網(wǎng)大會(huì)自2014年舉辦以來，首次獲得該獎(jiǎng)項(xiàng)的視頻會(huì)議產(chǎn)品。

　　根據(jù)北京大學(xué)互聯(lián)網(wǎng)發(fā)展研究中心發(fā)布的研究報(bào)告《在線會(huì)議社會(huì)價(jià)值與未來發(fā)展報(bào)告》，騰訊會(huì)議在短短5個(gè)月的時(shí)間直接節(jié)約社會(huì)成本達(dá)714億元，在經(jīng)濟(jì)、技術(shù)、文化等多個(gè)層面為社會(huì)做出了卓越貢獻(xiàn)。

　　1.2.依托騰訊云，騰訊會(huì)議助力企業(yè)協(xié)作轉(zhuǎn)型

　　騰訊會(huì)議從速度、跨度、深度、廣度等多個(gè)維度上，有效助力企業(yè)數(shù)字化協(xié)作轉(zhuǎn)型：

在速度上，騰訊會(huì)議提供了隨時(shí)隨地接入的視頻會(huì)議體驗(yàn)；
在跨度上，騰訊會(huì)議為眾多企業(yè)在大規(guī)模、跨企業(yè)、跨地域交流方面提供關(guān)鍵技術(shù)與產(chǎn)品支撐；
在深度上，騰訊會(huì)議提供的眾多功能，有效為各大企業(yè)平臺(tái)提供一個(gè)可信賴的沉浸式協(xié)作環(huán)境；

　　在廣度上，騰訊會(huì)議與業(yè)界眾多硬件和APP實(shí)現(xiàn)了集成，高效連接個(gè)人、會(huì)議與生態(tài)。

　　1.3.騰訊會(huì)議產(chǎn)品全景圖

　　騰訊會(huì)議為全行業(yè)提供在線會(huì)議賦能，深入政府、醫(yī)療、教育、金融、制藥等行業(yè)，為諸多的企事業(yè)單位與組織機(jī)構(gòu)提供了遠(yuǎn)程協(xié)作和視頻會(huì)議服務(wù)。

　　在平臺(tái)種類上，我們也可以看到，騰訊會(huì)議目前覆蓋了大家日常使用的8個(gè)主流平臺(tái)，包括PC、移動(dòng)、會(huì)議室以及騰訊會(huì)議的硬件終端產(chǎn)品——騰訊會(huì)議Rooms。在全場(chǎng)景平臺(tái)架構(gòu)上的服務(wù)除了提供視頻會(huì)議和音頻會(huì)議之外，還提供了協(xié)作會(huì)議和會(huì)議直播。而在底層能力平臺(tái)方面，除了使用最多的音視頻引擎，還提供了IM、在線文檔、會(huì)議室連接器、智能管理等平臺(tái)；除此之外，騰訊會(huì)議還提供了面對(duì)所有開發(fā)者的API服務(wù)，開發(fā)者可以在各自領(lǐng)域和應(yīng)用硬件中集成騰訊會(huì)議的多項(xiàng)能力。

　　1.4.常見應(yīng)用場(chǎng)景

　　圖中列舉的諸多場(chǎng)景如遠(yuǎn)程培訓(xùn)、遠(yuǎn)程會(huì)商等，在騰訊會(huì)議上也都被廣泛使用，因?yàn)檫@些相關(guān)場(chǎng)景都涉及到遠(yuǎn)程協(xié)作溝通。

　　以上是對(duì)騰訊會(huì)議的簡單介紹，希望能夠幫助大家對(duì)騰訊會(huì)議有進(jìn)一步了解。下一步我將具體分享騰訊會(huì)議音視頻所具有的黑科技。

　　02騰訊會(huì)議的音視頻黑科技

　　提及騰訊會(huì)議的音視頻能力，我們首先需要知悉的是騰訊會(huì)議音視頻的建設(shè)目標(biāo)。

　　騰訊會(huì)議自啟動(dòng)以來，我們一直圍繞著更清晰、更流暢、更實(shí)時(shí)互動(dòng)的目標(biāo)進(jìn)行持續(xù)的能力建設(shè)，不斷提高遠(yuǎn)程線上會(huì)議參與感和交流感。

　　音視頻技術(shù)泛泛而言分為三個(gè)領(lǐng)域：音頻處理、視頻處理、弱網(wǎng)抗性增強(qiáng)。今天由于時(shí)間限制，不太可能和大家全面回顧這三個(gè)領(lǐng)域的相關(guān)技術(shù)，還是和大家分享下三個(gè)領(lǐng)域我們經(jīng)歷的一些有趣故事吧。

　　2.1.關(guān)于音頻降噪的故事

　　我們內(nèi)部統(tǒng)計(jì)到，在所有的線上的會(huì)議中，純語音會(huì)議占到會(huì)議總數(shù)的80%左右，由于純語音會(huì)議不開攝像頭和屏幕分享，或者屏幕分享開的時(shí)間在整個(gè)會(huì)議中處于很小的比例。所以語音會(huì)議的質(zhì)量、流暢、純凈、智能互動(dòng)對(duì)于線上會(huì)議的體驗(yàn)至關(guān)重要。

　　在現(xiàn)實(shí)生活當(dāng)中，由于開會(huì)所處的現(xiàn)實(shí)環(huán)境非常復(fù)雜，包括各種嘈雜的環(huán)境。為了提供良好的語音會(huì)議體驗(yàn)，卓越的音頻降噪技術(shù)是不可或缺的。

　　從騰訊會(huì)議開發(fā)伊始，音頻方案便沿著經(jīng)典信號(hào)處理和深度學(xué)習(xí)相結(jié)合的技術(shù)路徑進(jìn)行，我們運(yùn)用了獨(dú)特的大數(shù)據(jù)訓(xùn)練模型覆蓋多種常見的平穩(wěn)噪聲和非平穩(wěn)噪聲類型。不單是基于經(jīng)典的信號(hào)處理模型，而是監(jiān)測(cè)并消除了很多日常突發(fā)性的非平穩(wěn)噪聲。

　　騰訊會(huì)議支持多平臺(tái)終端，因此我們的模型也是低復(fù)雜度輕量級(jí)，保證能夠在多個(gè)終端平臺(tái)落地。在具體實(shí)現(xiàn)上，從技術(shù)細(xì)節(jié)角度來講，騰訊會(huì)議的音頻降噪算法結(jié)合了人體的聲帶與聲道的發(fā)聲模型以及人耳的聽覺模型，基于多種神經(jīng)網(wǎng)絡(luò)并融合多種損失函數(shù)和訓(xùn)練策略，最終在語音的保真度和自然度以及噪聲抑制上取得了一個(gè)良好的權(quán)衡。但這個(gè)挑戰(zhàn)也是巨大的，尤其是在音頻降噪上線以后，也給我們意想不到的挑戰(zhàn)。

　　下面給大家分享一個(gè)有趣的故事。

　　降噪的故事

　　上圖兩個(gè)波形圖所展現(xiàn)的分別是掌聲與敲擊鍵盤的聲音，可以看到二者波形非常相似。2020年初疫情來臨時(shí)，許多會(huì)議由線下轉(zhuǎn)為線上，當(dāng)時(shí)騰訊會(huì)議所采取的降噪算法還處于灰度測(cè)試階段。我們收到的一個(gè)比較尷尬的反饋是，公司領(lǐng)導(dǎo)使用騰訊會(huì)議開會(huì)，講到最后時(shí)刻領(lǐng)導(dǎo)習(xí)慣性停下來等待大家鼓掌，此時(shí)由于降噪算法的強(qiáng)悍降噪效果，領(lǐng)導(dǎo)能從畫面中看到大家鼓掌，但耳朵中卻聽不到任何掌聲，這是由于當(dāng)時(shí)不夠成熟的降噪算法將掌聲也作為一種背景噪音過濾掉了；此時(shí)如果沒有開視頻畫面而只是運(yùn)用語音開會(huì)的話，則領(lǐng)導(dǎo)收不到任何反饋，這樣的體驗(yàn)無疑是不自然的。

　　我們知道算法對(duì)于模型來說至關(guān)重要。騰訊會(huì)議針對(duì)非突發(fā)噪聲的消除采取了多種模型，當(dāng)時(shí)所采取的模型并不需要區(qū)分鍵盤敲擊聲與掌聲。如果仔細(xì)觀察鍵盤敲擊聲與掌聲的波形圖我們不難發(fā)現(xiàn)，掌聲波形存在細(xì)微的差別，而敲擊不同鍵盤所呈現(xiàn)的聲音也會(huì)有一定差別，但人耳對(duì)二者很難區(qū)分。

　　這無疑對(duì)我們實(shí)現(xiàn)噪聲消除模型帶來很大挑戰(zhàn)。一方面我們希望噪聲消除模型具有很好的泛化性能，不能只針對(duì)訓(xùn)練的數(shù)據(jù)做有效處理；但在一些特殊場(chǎng)景下，模型可能存在失效的情況，錯(cuò)誤過濾其他噪聲。意識(shí)到該問題后，我們對(duì)降噪模型進(jìn)行了創(chuàng)新，也就是在模型中加入了一個(gè)獨(dú)特的可融合幀級(jí)信息與語音片斷信息的多級(jí)別模型，而且還可以多尺度地獨(dú)立提取不同頻帶域特征，區(qū)分掌聲與非掌聲的局部特征信息，再對(duì)這些特征進(jìn)行融合從而達(dá)到識(shí)別全局不同類型噪聲的效果。以后我們通過騰訊會(huì)議與領(lǐng)導(dǎo)開會(huì)，再也不需要擔(dān)心領(lǐng)導(dǎo)因?yàn)槁牪坏秸坡暥鴮擂瘟恕?/div>

　　說完噪聲我們?cè)賮碚f語音，因?yàn)檎Z音增強(qiáng)和噪聲消除是相輔相成的，但語音和噪聲有很大差別。上圖展示的一段逐漸衰弱的語音波形圖，可以看到語音波形圖具有一定的諧波特征。但語音在距離遠(yuǎn)一些時(shí)非常容易淹沒在背景雜音里，這對(duì)語音增強(qiáng)而言，如何將語音從背景噪聲中分離并增強(qiáng)顯得尤為重要。

　　剛開始的時(shí)候騰訊會(huì)議主要在手機(jī)、PC等平臺(tái)部署，不會(huì)存在太多人距離麥克風(fēng)較遠(yuǎn)的情況；但當(dāng)大家?guī)隙鷻C(jī)或者使用電腦在空曠會(huì)議室開會(huì)時(shí)，尤其是當(dāng)多人在會(huì)議室里開會(huì)，有些成員距離麥克風(fēng)較近，有些則距離麥克風(fēng)非常遠(yuǎn)，這就導(dǎo)致一些遠(yuǎn)處的人聲會(huì)被當(dāng)成噪聲而消除。為了避免這樣的情況發(fā)生，我們對(duì)模型做出進(jìn)一步改進(jìn)，優(yōu)化了模型以大幅度改善遠(yuǎn)處較弱語音的增強(qiáng)與降噪效果，在降低噪音的同時(shí)保留遠(yuǎn)處人聲的清晰度。

　　音頻降噪不僅用于PC、手機(jī)等終端設(shè)備上，一些商業(yè)會(huì)議場(chǎng)景，尤其是部署在會(huì)議室的視頻會(huì)議產(chǎn)品，當(dāng)我們?cè)谂c合作伙伴探討最佳產(chǎn)品形態(tài)的時(shí)候發(fā)現(xiàn)，市場(chǎng)上的大型會(huì)議室設(shè)備在遠(yuǎn)程拾音、降噪、雙講、噪聲消除方面往往無法滿足行業(yè)需求，體驗(yàn)與實(shí)用性都不佳，為此騰訊會(huì)議技術(shù)團(tuán)隊(duì)專門進(jìn)行了技術(shù)攻關(guān)。

　　得益于騰訊會(huì)議天籟音頻團(tuán)隊(duì)的努力，我們最近提供了一套性能優(yōu)異的會(huì)議室遠(yuǎn)場(chǎng)拾音解決方案：我們采用了多個(gè)MEMS麥克風(fēng)板并結(jié)合音頻處理器，然后通過攝像頭上方的結(jié)構(gòu)非常方便地集成于在線會(huì)議設(shè)備之上，很好地實(shí)現(xiàn)了在參會(huì)者不方便使用電話或不方便使用擴(kuò)展麥克風(fēng)的場(chǎng)景中對(duì)遠(yuǎn)距離人聲的拾音問題。下面請(qǐng)大家體驗(yàn)下我們模組強(qiáng)悍的超遠(yuǎn)距離拾音能力。

　　此外，該模組除了解決遠(yuǎn)距離人聲拾音的同時(shí)，也實(shí)現(xiàn)了更為智能的噪聲消除效果。例如針對(duì)敲擊鍵盤、放水杯，咳嗽聲等突發(fā)性噪聲都具有良好消除性能。除了噪聲消除，雙講是視頻會(huì)議中一個(gè)常見的現(xiàn)象，同時(shí)也是一項(xiàng)挑戰(zhàn)。市場(chǎng)中大屏幕主流產(chǎn)品在處理雙講場(chǎng)景時(shí)往往會(huì)出現(xiàn)很明顯的失真現(xiàn)象或者雙講剪切，這就導(dǎo)致一些交流較為頻繁的會(huì)議，往往會(huì)影響語音的清晰程度。而使用天籟團(tuán)隊(duì)所開發(fā)的模組，雙講場(chǎng)景即便是多人同時(shí)講話依然能夠清晰的聽見每個(gè)人所說的大部分內(nèi)容。

　　2.2.不止于超高清編解碼，更有AI視覺加持

　　除了音頻，騰訊會(huì)議領(lǐng)先的視頻技術(shù)也絕不僅僅是一個(gè)全高清的視頻體驗(yàn)。除了高清H.264編解碼、HEVC等之外，為了改善視頻會(huì)議的參與感，騰訊會(huì)議還做了很多與視覺AI相關(guān)的工作。如虛擬背景，以及去年疫情開始很多學(xué)生使用時(shí)很喜歡的美顏功能。

　　騰訊會(huì)議最近還收到來自一些用戶的反饋，他們打開攝像頭的時(shí)候總感覺不自然，因?yàn)槿粘＝涣鞯臅r(shí)候大家都會(huì)有眼神接觸，但在視頻會(huì)議的時(shí)候，因?yàn)閿z像頭和屏幕與人眼之間的夾角，對(duì)方看到人的時(shí)候眼睛是向下的；如果你非常激情且投入地參與會(huì)議，但是無法于其他參會(huì)人有眼神接觸，這樣的體驗(yàn)不會(huì)很好。于是我們決定做一個(gè)眼神接觸的功能，也就是將眼神偏離的向下的角度給糾正過來；但實(shí)際上做眼神接觸的時(shí)候，需要調(diào)整的不僅僅是眼神，還有眼睛上方的睫毛，下方的眼皮區(qū)域等等都需要做出相應(yīng)的改善，才能讓面部表情看起來自然。更具有挑戰(zhàn)性的是一些戴眼鏡的情況，眼鏡會(huì)有各種各樣的形狀，更會(huì)有反光，這都對(duì)建立人臉3D模型以及人臉3D模型生成的數(shù)據(jù)提出了很大的挑戰(zhàn)。我們?cè)陂_發(fā)這個(gè)功能采集了數(shù)千人的人眼，并且運(yùn)用人臉3D模型來生成總計(jì)超過百萬張的人眼數(shù)據(jù)。

　　當(dāng)該功能上線后，大多數(shù)客戶反映都很正面，但我們也收到了一些意料之外的反饋。很多老師和學(xué)生反饋，原來上課的時(shí)候老師可以看到學(xué)生是否在專注的聽講，結(jié)果現(xiàn)在老師發(fā)現(xiàn)大家都盯著老師看，一堂課上下來學(xué)生都非常的專注，老師就覺得5分鐘、10分鐘還行，一堂課下來40分鐘這么多以前很調(diào)皮的學(xué)生現(xiàn)在如此專注就不太正常，下來一打聽，原來是學(xué)生把眼神接觸功能都打開了。我們收到這樣的反饋以后，也對(duì)模型的改善程度重新做了一些調(diào)整，當(dāng)眼神偏離幅度過大的時(shí)候，系統(tǒng)不再做眼神糾正了。

　　2.3.不斷挑戰(zhàn)“下限”的弱網(wǎng)抗性

　　因?yàn)轵v訊會(huì)議是在線會(huì)議，是基于IP網(wǎng)絡(luò)的。IP網(wǎng)是沒有QoS保證的，這點(diǎn)和PSTN網(wǎng)絡(luò)不一樣。所以保證QoS，保證音視頻的流暢性是騰訊會(huì)議網(wǎng)絡(luò)組孜孜不倦的追求目標(biāo)——如何保證騰訊會(huì)議在弱網(wǎng)特別是一些極限網(wǎng)絡(luò)的情況下的弱網(wǎng)抗性，在極限網(wǎng)絡(luò)情況下也很好的保證順利的流暢的會(huì)議體驗(yàn)。

　　在眾多的會(huì)議里面都出現(xiàn)過發(fā)生弱網(wǎng)的條件。深圳北站，處于深圳的北郊，基站的部署不會(huì)像市中心那么密集，有地鐵通到深圳北站，還有深圳北站的高鐵。通過后臺(tái)大數(shù)據(jù)監(jiān)控發(fā)現(xiàn)，這個(gè)地區(qū)網(wǎng)上經(jīng)常有周期性的大丟包和抖動(dòng)現(xiàn)象發(fā)生，導(dǎo)致會(huì)議的流暢度受到很大影響。我們就去深圳北站那棟大樓做實(shí)測(cè)，結(jié)果和預(yù)想的一樣，由于基站比較少，尤其當(dāng)?shù)罔F和高鐵同時(shí)進(jìn)戰(zhàn)的時(shí)候，會(huì)導(dǎo)致網(wǎng)絡(luò)流量急劇增加，大量的用戶連接到基站。并且由于高鐵地鐵導(dǎo)致電磁干擾，基站分配到每個(gè)用戶可用的帶寬可以低至幾十kbps。50kbps以下要進(jìn)行一個(gè)很好的流暢的語音會(huì)議技術(shù)上是有挑戰(zhàn)的。

　　發(fā)現(xiàn)了這個(gè)問題以后，我們?cè)诰W(wǎng)絡(luò)層做了很多優(yōu)化和調(diào)節(jié)，保證在一些極限的條件下——比如地鐵里，或者高鐵交匯的時(shí)候，依然能保證大家在開會(huì)的時(shí)候有流暢的體驗(yàn)。

　　03細(xì)節(jié)決定成敗

　　前面和大家分享了我們的音視頻核心技術(shù)上面長期積累的點(diǎn)點(diǎn)滴滴的故事，那有些同學(xué)可能會(huì)問，我們有什么用的機(jī)制能夠系統(tǒng)和全面的發(fā)現(xiàn)這些問題，發(fā)現(xiàn)這些badcase，從而進(jìn)行有針對(duì)性的用戶體驗(yàn)改善的呢？

　　3.1.在學(xué)術(shù)界和企業(yè)界做算法的差異

　　在座許多同學(xué)來自學(xué)術(shù)界。在學(xué)術(shù)界做算法和工業(yè)界還是有很大的差異。學(xué)術(shù)和工業(yè)界做算法的共同點(diǎn)是“知己知彼”，學(xué)術(shù)界更多的是對(duì)如何做得更好，針對(duì)一個(gè)問題提出改善或提升。工業(yè)界除了如何做得更好，還需要知道誰做得不好？什么時(shí)候做得不好？哪里做得不好？比如，我們做算法的都知道，其實(shí)攝像頭和麥克風(fēng)對(duì)采集是有要求的，如果采集效果不好，在這個(gè)基礎(chǔ)上，本來采集的語音效果就比較差，后續(xù)就很難提升，如果攝像頭本身只有360P，怎么可能做出高清視頻；使情況更糟糕的是深度學(xué)習(xí)技術(shù)對(duì)數(shù)據(jù)的依賴性，比如模型遇到完全沒碰見過的數(shù)據(jù)的時(shí)候，它的表現(xiàn)不可測(cè)。這就要求我們能從現(xiàn)網(wǎng)中發(fā)現(xiàn)各個(gè)環(huán)節(jié)的缺陷，不管是自研的，還是其他廠商的產(chǎn)品，都要做好音視頻質(zhì)量的實(shí)時(shí)評(píng)估和檢測(cè)，能發(fā)現(xiàn)其中算法效果的不足和局限性。

　　此外還要做更進(jìn)一步的細(xì)分及指標(biāo)的定義。很多業(yè)界朋友交流到音視頻本身就是非常主觀的事物，如何把它細(xì)分指標(biāo)到各個(gè)層面從而提升音視頻體驗(yàn)是很困難的，但我們必須這樣做。

　　細(xì)節(jié)決定成敗，細(xì)節(jié)取決于什么，細(xì)節(jié)的第一步就取決于細(xì)分指標(biāo)的定義，尤其對(duì)于我們做音視頻的同學(xué)而言都非常頭疼的的主觀感受指標(biāo)。

　　視頻可以細(xì)分為視頻編解碼、視頻采集幀率、視頻接收碼率、屏幕分享幀率、屏幕分享接收碼率、視頻幀率的變化，視頻碼率的變化這些指標(biāo)。

　　對(duì)于音頻更加主觀，處理環(huán)節(jié)更加多，同一個(gè)地方不同音頻設(shè)備會(huì)互相干擾，攝像頭間干擾可能性會(huì)比較小。所以為了對(duì)音頻做完整的監(jiān)控，我們將音頻指標(biāo)分為7大類包括無聲、卡頓、漏回聲、降噪、嘯叫、音質(zhì)采集、語音/音樂內(nèi)容分類。這是初步的7個(gè)種類，針對(duì)每一個(gè)種類我們有進(jìn)一步細(xì)致的劃分，比如卡頓問題是大家很困擾的，以前最早時(shí)卡頓問題我們一般認(rèn)為是網(wǎng)絡(luò)不好。網(wǎng)絡(luò)通過丟包導(dǎo)致卡頓，經(jīng)過進(jìn)一步修復(fù)分析后，發(fā)現(xiàn)并不是這么簡單，網(wǎng)絡(luò)丟包，抖動(dòng)導(dǎo)致的卡頓、前處理丟幀、播放側(cè)解碼失敗、3A處理導(dǎo)致的音量忽大忽小都會(huì)導(dǎo)致卡頓的發(fā)生。我們?nèi)绻梢园鸭?xì)分指標(biāo)都完善定義，那么就可以實(shí)現(xiàn)對(duì)會(huì)議音視頻體驗(yàn)的一個(gè)完整的監(jiān)控。但是定義出來的指標(biāo)是一方面，對(duì)騰訊會(huì)議這樣超過一億用戶的平臺(tái)，很多時(shí)候大盤的指標(biāo)對(duì)于個(gè)體問題并不敏感。

　　這就帶來了第二個(gè)問題，要進(jìn)行非常嚴(yán)格細(xì)致的場(chǎng)景分類。首先是比較基礎(chǔ)的根據(jù)設(shè)備類型、操作系統(tǒng)、軟件版本進(jìn)行分類，如這個(gè)版本放音視頻沒有問題，但可能下一個(gè)版本可能就會(huì)出現(xiàn)bug。更難的是根據(jù)音視頻的內(nèi)容所處場(chǎng)景進(jìn)行分類，大家在開視頻會(huì)議時(shí)可能在家里，馬路上，辦公室等不同位置；音頻會(huì)議場(chǎng)景可能更多，家里、地鐵、商場(chǎng)、機(jī)場(chǎng)、車?yán)�，�?chǎng)景分類做出來后，這些具體指標(biāo)在各個(gè)場(chǎng)景中會(huì)有不同的表現(xiàn)，對(duì)提高全網(wǎng)的質(zhì)量有非常大的幫助。舉一個(gè)例子，嘯叫一旦發(fā)生，就有災(zāi)難性的后果，所以我們的算法是一旦發(fā)生嘯叫就閉麥，避免嘯叫場(chǎng)景的發(fā)生。而嘯叫檢測(cè)本身帶來誤警，這是所有檢測(cè)都不可避免的，一旦誤警關(guān)麥時(shí)，我們會(huì)統(tǒng)計(jì)出全網(wǎng)關(guān)麥的指標(biāo)。但只能看到指標(biāo)是否有波動(dòng)不知道如何使用是無效的。這時(shí)候我們就把場(chǎng)景進(jìn)行細(xì)分，進(jìn)而發(fā)現(xiàn)車載場(chǎng)景中，嘯叫指標(biāo)明顯高于其他場(chǎng)景。大家可以分析一下原因，其實(shí)當(dāng)汽車鳴笛的時(shí)候，是很有可能是被誤判為嘯叫的，這只是一個(gè)簡單的例子，還有其他如回聲、降噪都可以進(jìn)行類似的分析進(jìn)而發(fā)現(xiàn)我們算法的局限性和不足。

　　多維度分析包括跨緯度，不同設(shè)備在不同場(chǎng)景中，進(jìn)行交叉維度分析，比如看回聲的指標(biāo)的時(shí)候，我們會(huì)看在各個(gè)設(shè)備，以及各個(gè)聲學(xué)場(chǎng)景下的效果的上報(bào)，這樣可以發(fā)現(xiàn)很多有價(jià)值的信息。

　　04未來云會(huì)議的音視頻技術(shù)

　　現(xiàn)在和大家分享未來云會(huì)議的整個(gè)音視頻技術(shù)。

　　講到未來時(shí)，我們常常會(huì)思考現(xiàn)在的音視頻會(huì)議存在什么問題。

　　我經(jīng)常開玩笑問朋友，誰最喜歡開線上視頻會(huì)議，開玩笑地說是項(xiàng)目經(jīng)理最喜歡，原因是在開項(xiàng)目會(huì)議時(shí)，他不需要你說太多，只需要回答yes or no，不需要看見你，不需要知道你的心情，不需要知道你在什么樣的環(huán)境，只要關(guān)心項(xiàng)目版本的驗(yàn)證發(fā)布及生產(chǎn)效率，對(duì)他來說有明確的目標(biāo)及途經(jīng)，于是線上會(huì)議于項(xiàng)目經(jīng)理而言是非常好的提升生產(chǎn)力的效果。

　　誰最不喜歡開線上視頻會(huì)議呢？我閨女最不喜歡和我開視頻會(huì)議，每次最多不超過3分鐘就跑一邊去玩了、經(jīng)過調(diào)研發(fā)現(xiàn)類似的情況還有團(tuán)隊(duì)中的新同學(xué)入職時(shí)、每次有重要的事情和老板談時(shí)、BD第一次見客戶，你想和老板討論績效考核的時(shí)。這時(shí)候大家往往都會(huì)覺得視頻會(huì)議無法充分表達(dá)出想要的真正的意圖和目的。

　　4.1.溝通的目的

　　在工作中，人們溝通主要由三個(gè)目的。第一個(gè)是生產(chǎn)率；第二個(gè)是當(dāng)你面對(duì)開放性命題需要討論、思維碰撞時(shí)候需要?jiǎng)?chuàng)新性的解決方案的時(shí)候；第三是建立和維護(hù)人際關(guān)系的溝通。對(duì)于第二和第三類的溝通，我們現(xiàn)在知道，線上會(huì)議和線下會(huì)議的體驗(yàn)還是有蠻大的差距。

　　4.2.溝通的方式

　　這主要是因?yàn)椋诙偷谌惸康南碌臅?huì)議中的參會(huì)者，表達(dá)會(huì)有多種方式：文字語音帶有明確的目的和實(shí)施途徑，但是對(duì)于開放式的話題，更加需要的是面部表情及眼神接觸來達(dá)到充分的投入和交互，此外還有情感述求，比如尋求他人認(rèn)同、支持、還需要將情感述求和實(shí)際開會(huì)場(chǎng)景結(jié)合起來，比如線下輕松休閑的會(huì)議可以去咖啡館開，嚴(yán)肅的會(huì)議可以去正式的會(huì)議室等等，這樣的訴求目前在線上會(huì)議上都是難以滿足的。

　　4.3.云會(huì)議的未來

　　但是正在蓬勃發(fā)展的VR、AR技術(shù)也許可以彌補(bǔ)音視頻會(huì)議中上述的情景的不足，身體語言，面部表情可以通過VR/AR技術(shù)來彌補(bǔ)。它們?cè)趯?shí)時(shí)視頻會(huì)議中的一些作用，比如左圖的全息會(huì)議可以確保參會(huì)者的實(shí)時(shí)動(dòng)作出現(xiàn)在全息投影中，彌補(bǔ)實(shí)時(shí)視頻會(huì)議中參會(huì)者面不和身體語言的的缺失，現(xiàn)在使用手機(jī)相機(jī)即可實(shí)現(xiàn)高質(zhì)量的全息采集。右圖的VR技術(shù)，可以使參會(huì)者在會(huì)議中使用一些有意思的掛件、服裝等，更好的構(gòu)建不同談話場(chǎng)景，為遠(yuǎn)程會(huì)議增添與會(huì)議目的一致的各種環(huán)境等等。

　　由于時(shí)間限制，以上是我與大家分享的內(nèi)容，希望對(duì)大家有所幫助，謝謝
　　來源：LiveVideoStack

【免責(zé)聲明】本文僅代表作者本人觀點(diǎn)，與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立，不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考，并請(qǐng)自行承擔(dān)全部責(zé)任。

相關(guān)熱詞搜索：音視頻技術(shù)

上一篇:科大訊飛姚佶超：數(shù)智化轉(zhuǎn)型下AICC的思考

下一篇:最后一頁

相關(guān)閱讀：

音視頻技術(shù)在云會(huì)議場(chǎng)景的拓展和未來

評(píng)論排行

推薦閱讀

專題

大家都在看

CTI論壇會(huì)員企業(yè)