无码视频天天天天天天,偷拍老熟妇和小伙XXXX视频,在线a亚洲ⅴ天堂网2019

　　線(xiàn)上會(huì)議、在線(xiàn)教育、電商直播等多個(gè)場(chǎng)景的興起，也使得實(shí)時(shí)互動(dòng)技術(shù)從幕后走到臺(tái)前，得到了更多人的關(guān)注。編解碼、網(wǎng)絡(luò)傳輸、計(jì)算機(jī)視覺(jué)等 RTE 相關(guān)的一系列技術(shù)也正煥發(fā)出更強(qiáng)的生命力。2021 年，在深度學(xué)習(xí)、5G 等技術(shù)的加持下，RTE 會(huì)進(jìn)一步催生哪些可能？

　　聲網(wǎng)Agora 開(kāi)發(fā)者社區(qū)聯(lián)合 InfoQ 共同策劃，邀請(qǐng)了聲網(wǎng)Agora 開(kāi)發(fā)者社區(qū)中的多位技術(shù)專(zhuān)家，從視頻傳輸、計(jì)算機(jī)視覺(jué)、編解碼標(biāo)準(zhǔn)發(fā)展、WebRTC、機(jī)器學(xué)習(xí)、音頻技術(shù)等角度，共同撰寫(xiě)「2021 實(shí)時(shí)互動(dòng)技術(shù)展望系列」，一窺技術(shù)新趨勢(shì)。本文源于對(duì)聲網(wǎng)Agora 音頻體驗(yàn)與工程總監(jiān)陳若非的采訪。本系列內(nèi)容由聲網(wǎng) Agora 開(kāi)發(fā)者社區(qū) 與 InfoQ 聯(lián)合策劃，并由 InfoQ 審校，首發(fā)于 InfoQ。

　　音頻技術(shù)中有很多細(xì)節(jié)會(huì)影響到實(shí)時(shí)互動(dòng)的體驗(yàn)。隨著技術(shù)和應(yīng)用場(chǎng)景的變化，音頻也正在與更多的學(xué)科、技術(shù)結(jié)合。在實(shí)時(shí)互動(dòng)場(chǎng)景下，哪些因素會(huì)影響音頻的體驗(yàn)？相比于視頻技術(shù)，音頻技術(shù)是否發(fā)展較慢？面向 RTC 場(chǎng)景，音頻技術(shù)又需要作出哪些改變？……為了解答這些問(wèn)題，我們采訪了聲網(wǎng) Agora 音頻體驗(yàn)與工程總監(jiān)陳若非，請(qǐng)他來(lái)聊一聊在實(shí)時(shí)互動(dòng)場(chǎng)景下音頻技術(shù)的變遷與機(jī)遇。

　　Q：相對(duì)于研究網(wǎng)絡(luò)架構(gòu)、大前端等方面的工程師來(lái)講，研究音頻的工程師比較少。具體來(lái)講，音頻工程師都會(huì)研究哪些相關(guān)技術(shù)？

　　陳若非：聲音是信息和情感傳遞的載體，所以音頻相關(guān)的研究基本會(huì)圍繞如何讓信息和情感更好的被傳遞和感知理解展開(kāi)的。音頻領(lǐng)域相對(duì)專(zhuān)業(yè)細(xì)分，但是我們細(xì)挖一下就會(huì)發(fā)現(xiàn)音頻相關(guān)的研究方向其實(shí)很多，涉及到的交叉學(xué)科也很廣。從交互對(duì)象來(lái)說(shuō)我們可以分為兩類(lèi)：人機(jī)交互的音頻和人人交互的音頻。從交互的實(shí)時(shí)性來(lái)分，又可以分成實(shí)時(shí)的交互和非實(shí)時(shí)的交互。人機(jī)交互主要研究如何讓機(jī)器更好的理解聲音和生成聲音，通過(guò) ASR、MIR、TTS 等技術(shù)來(lái)實(shí)現(xiàn)人類(lèi)希望機(jī)器完成的任務(wù)。人人交互的部分更多和人的感知系統(tǒng)關(guān)聯(lián)，其優(yōu)化目標(biāo)會(huì)圍繞如何讓人更好的感知音頻來(lái)展開(kāi)。實(shí)時(shí)的人人音頻交互又在此基礎(chǔ)上提出了更多的約束條件，優(yōu)化需要用更低的延時(shí)、更小的計(jì)算量和因果系統(tǒng)下展開(kāi)。我所在的聲網(wǎng)就主要聚焦于實(shí)時(shí)互動(dòng)音頻領(lǐng)域的研究，所以我們會(huì)從采集播放、編解碼、前后處理、傳輸?shù)娜溌啡パ芯咳绾卧诒M可能低的延時(shí)和計(jì)算量下提供更好的音頻互動(dòng)體驗(yàn)。

　　Q：聊技術(shù)變遷之前，首先梳理一下概念，在實(shí)時(shí)互動(dòng)的場(chǎng)景下，哪些因素會(huì)影響音頻的體驗(yàn)？

　　陳若非：實(shí)時(shí)互動(dòng)音頻是端到端，嘴到耳的體驗(yàn)，所以全鏈路上所有的組成部分都有可能影響音頻體驗(yàn)。我們可以從采、播、濾、壓、傳五個(gè)方面去分解技術(shù)對(duì)音頻體驗(yàn)的影響。首先說(shuō)采集，不同麥克風(fēng)的聲學(xué)屬性差異就對(duì)音頻體驗(yàn)有決定性的影響，從拾音的距離，方向性到精度。被拾取的聲音信號(hào)經(jīng)過(guò)模數(shù)轉(zhuǎn)換，信號(hào)采樣也會(huì)造成聲音的損失，采樣率越高聲音的細(xì)節(jié)就會(huì)保留的更好。所以一個(gè)高質(zhì)量的麥克風(fēng)會(huì)從源頭上提供更好的音頻源。類(lèi)似的，一個(gè)高質(zhì)量的播放設(shè)備可以更好的保留更多聲音細(xì)節(jié)。然后前后處理是音頻鏈路上非常重要的一環(huán)，大家常聽(tīng)到的 3A 技術(shù)都屬于這個(gè)范疇，前后處理對(duì)原始采集的信號(hào)或者即將要播放的信號(hào)做二次處理，來(lái)濾除其中的干擾信號(hào)，比如回聲、噪音、雜音、嘯叫等，同時(shí)對(duì)目標(biāo)的音頻做音量和聽(tīng)感上的增強(qiáng)。另外在一些音效玩法里，我們也會(huì)通過(guò)對(duì)信號(hào)的處理實(shí)現(xiàn)變聲、美聲等特定聲音效果。再說(shuō)下編解碼和傳輸，這兩者是強(qiáng)耦合的。原理上編碼的采樣率和碼率越高，聲音的保真度就更好，聽(tīng)端的體驗(yàn)也更好。但現(xiàn)實(shí)中網(wǎng)絡(luò)的帶寬是有限制的，還會(huì)經(jīng)常出現(xiàn)丟包抖動(dòng)等不利情況。好的編解碼算法可以通過(guò)對(duì)聲學(xué)模型和信息冗余的深入理解，在相對(duì)低的碼率下實(shí)現(xiàn)高品質(zhì)的聲音保留，從而保證在各種弱網(wǎng)情況下的穩(wěn)定表現(xiàn)。同時(shí)我們也需要通過(guò)開(kāi)發(fā)信源信道的弱網(wǎng)對(duì)抗技術(shù)，在保證低延時(shí)的基礎(chǔ)上，減少丟包抖動(dòng)帶來(lái)的聽(tīng)感影響。

　　Q：行業(yè)中有種看法，認(rèn)為音頻技術(shù)相對(duì)于視頻技術(shù)，似乎發(fā)展會(huì)稍慢一些？你怎么看待目前音頻技術(shù)的發(fā)展？

　　陳若非：技術(shù)的進(jìn)步都是需求推動(dòng)的。電話(huà)時(shí)代的音頻技術(shù)曾經(jīng)經(jīng)歷火熱的發(fā)展，一些經(jīng)典理論如線(xiàn)性預(yù)測(cè)、自適應(yīng)濾波，很好的解決了一些基礎(chǔ)可用的問(wèn)題，很多技術(shù)到今天還在被沿用。近幾十年 VOIP 的技術(shù)也得到了長(zhǎng)足的發(fā)展，我們今天看到 VOIP 的分鐘數(shù)能在通信領(lǐng)域占據(jù)越來(lái)越大的份額，背后也離不開(kāi)音頻研究人員長(zhǎng)期的扎實(shí)工作和持續(xù)進(jìn)步。音頻需要較高的技術(shù)門(mén)檻，全鏈路的木桶效應(yīng)明顯，設(shè)備耦合重碎片化嚴(yán)重，改進(jìn)主觀不易被感知，這些因素都決定了音頻想要出成果需要坐的住冷板凳，需要長(zhǎng)期主義的堅(jiān)持。

　　近些年 AI 技術(shù)的興起給音頻注入了新的活力，也給很多長(zhǎng)時(shí)間不好解決的問(wèn)題提供了新的思路。人機(jī)語(yǔ)音交互成為了一個(gè)音頻領(lǐng)域新的熱點(diǎn)，相關(guān)的技術(shù)也蓬勃發(fā)展，目前在識(shí)別、合成等領(lǐng)域都取得了長(zhǎng)足的進(jìn)步。而在最近的幾年，也看到了不少 AI 技術(shù)和 RTC 領(lǐng)域結(jié)合的實(shí)踐成果，讓人看到了進(jìn)一步提升音頻體驗(yàn)的巨大空間。從外部環(huán)境來(lái)看，在看膩了千人一面的直播后，越來(lái)越多的人開(kāi)始喜歡心理包袱更小，想象空間更大的音頻社交，近期的行業(yè)里也開(kāi)始出現(xiàn)新的浪潮。相信在這種內(nèi)外因的結(jié)合下，會(huì)有更多的人開(kāi)始研究實(shí)時(shí)互動(dòng)音頻的體驗(yàn)，也非常期待這個(gè)行業(yè)會(huì)給大家?guī)?lái)不一樣的新體驗(yàn)。

　　Q：從實(shí)際來(lái)看，目前音頻在實(shí)時(shí)領(lǐng)域還存在哪些技術(shù)挑戰(zhàn)？

　　陳若非：實(shí)時(shí)互動(dòng)音頻領(lǐng)域還有很多技術(shù)挑戰(zhàn)需要我們的攻克。我這里提兩個(gè)大點(diǎn)。第一，碎片化。傳統(tǒng)的手機(jī)廠商是一臺(tái)臺(tái)調(diào)試算法和逐一通過(guò)聲學(xué)測(cè)試出廠的。如果我們要在不同設(shè)備、環(huán)境、網(wǎng)絡(luò)條件下提供一致性的高質(zhì)量音頻體驗(yàn)，我們就需要尋找新的突破。在接下來(lái)萬(wàn)物互聯(lián)的時(shí)代，這種需求會(huì)愈加強(qiáng)烈，而這方面技術(shù)的突破會(huì)帶來(lái)巨大的價(jià)值。第二，主觀性。音頻體驗(yàn)是一個(gè)非常主觀的存在，每個(gè)人的感知差異和喜好也迥異。我們需要找到更好的方法來(lái)匹配這種個(gè)性化的喜好和提供更好的量化評(píng)價(jià)體系。

　　Q：基于你對(duì)業(yè)界、學(xué)界的觀察，你認(rèn)為音頻技術(shù)面向 RTC 場(chǎng)景，接下來(lái)需要作出哪些改變？（如算法、技術(shù)的結(jié)合等）

　　陳若非：我認(rèn)為實(shí)時(shí)互動(dòng)音頻的未來(lái)應(yīng)該有下面三個(gè)部分。第一，AI 和信號(hào)處理的深度融合。經(jīng)典的信號(hào)處理和聲學(xué)模型已經(jīng)能幫我們解決很多問(wèn)題，當(dāng)然也不少解決不好的問(wèn)題。在 AI 的有效融合下，可以有效的補(bǔ)充傳統(tǒng)算法的不足，在合理的代價(jià)下更好的解決我們的問(wèn)題，而非簡(jiǎn)單視 AI 為靈丹妙藥包治百病。第二，符合時(shí)代的評(píng)價(jià)標(biāo)準(zhǔn)。目前很多音頻標(biāo)準(zhǔn)是給通訊設(shè)計(jì)的，真正如聚一堂的互動(dòng)體驗(yàn)需要對(duì)應(yīng)的評(píng)價(jià)標(biāo)準(zhǔn)，如何更好的評(píng)價(jià)互動(dòng)性，沉浸感是我們需要去探索的地方。第三，真正的沉浸感和伴隨感。人們開(kāi)始不滿(mǎn)足于單純的信息交互，進(jìn)一步的追求面對(duì)面的互動(dòng)體驗(yàn)和情感伴隨，而隨著網(wǎng)絡(luò)和設(shè)備條件的進(jìn)一步成熟，這種未來(lái)也成為可能。音頻全鏈路都需要升級(jí)，從聲場(chǎng)的采集到還原，甚至增強(qiáng)現(xiàn)實(shí)，來(lái)創(chuàng)造出真正沉浸式伴隨的體驗(yàn)，這也會(huì)將會(huì)是一條漫長(zhǎng)的探索之路。我們?cè)诼暰W(wǎng)一直致力于探索這些長(zhǎng)年存在的行業(yè)難題，也歡迎各路有想法有追求的朋友聯(lián)系我，共同交流探索，共同敲開(kāi)未來(lái)音頻之門(mén)。

2021 技術(shù)展望 | 實(shí)時(shí)互動(dòng)場(chǎng)景下，音頻的技術(shù)變遷與機(jī)遇

評(píng)論排行

推薦閱讀

專(zhuān)題

大家都在看

CTI論壇會(huì)員企業(yè)