您當(dāng)前的位置是:  首頁 > 資訊 > 國際 >
 首頁 > 資訊 > 國際 >

Google應(yīng)用神經(jīng)網(wǎng)絡(luò)開發(fā)音頻編碼器,不只壓縮音頻還能抑制噪音

2021-08-16 16:02:09   作者:   來源:CTI論壇   評論:0  點擊:


  SoundStream是第一個神經(jīng)音頻解編碼器,模型能夠同時壓縮音頻并降低噪音,可在低位元率運作良好
  Google發(fā)表最新將人工智慧應(yīng)用在音頻解編碼器的研究,釋出端到端神經(jīng)解編碼器SoundStream,這是一個應(yīng)用神經(jīng)網(wǎng)絡(luò) 的音頻解編碼器,可以提供高音質(zhì)的音頻,并且支援清楚的語音、有雜音和回聲的語音,甚至是混雜音樂、語音和環(huán)境音的音頻,Google提到,SoundStream是第一個可以處理語音和音樂的神經(jīng)網(wǎng)絡(luò) 解編碼器,可以在智慧型手機(jī)上即時執(zhí)行。
  音頻解編碼器用于有效率地壓縮音頻,以減少儲存和網(wǎng)絡(luò)頻寬需求,而理想的情況,音頻解編碼器的存在,應(yīng)該要讓使用者無感,包括無法察覺解碼後的音頻,與原始音頻間存在差異,而且解編碼的過程,也不能產(chǎn)生可察覺的延遲。
  市面上以及Google的各種影音服務(wù),大量使用了音頻解編碼器,像是Opus和增強(qiáng)型語音服務(wù)(Enhanced Voice Services,EVS)。Opus是一種多功能語音和音頻解編碼器,支援從6 kbps到510 kbps的位元率,已經(jīng)被Google用于視頻會議平臺Meet,還有串流媒體服務(wù)YouTube等應(yīng)用程式中。而EVS則是3GPP標(biāo)準(zhǔn)化機(jī)構(gòu)所開發(fā),是針對行動電話所開發(fā)的解編碼器,和Opus相同,是能夠處理多種位元率的多功能解編碼器。
  這兩種解編碼器雖然可以在中低位元率中表現(xiàn)出色,但是在極低位元率,像是小於等於3 kbps的情況,音質(zhì)就會急轉(zhuǎn)直下,Google提到,過去人類利用專業(yè)知識,以及增加壓縮演算法的效率,來最佳化音頻的處理,但最近研究人員開始使用機(jī)器學(xué)習(xí)來代替人工設(shè)計,以資料驅(qū)動的方法學(xué)習(xí)解編碼音頻。
  Google發(fā)布最新的端到端神經(jīng)解編碼器SoundStream,其主要技術(shù)便是使用神經(jīng)網(wǎng)絡(luò) ,由編碼器、解碼器和量化器組合而成,所有這些都經(jīng)過端到端訓(xùn)練。編碼器會將輸入的音頻,串流為編碼訊號,接著使用量化器對其進(jìn)行壓縮,并且使用解碼器將信號轉(zhuǎn)換回音頻。
  研究人員提到,SoundStream使用了神經(jīng)音頻合成領(lǐng)域中,目前最先進(jìn)的解決方案,透過訓(xùn)練判別器(Discriminator),計算對抗性和重建損失函式的組合,讓重建的音頻聽起來就像是未壓縮的原始音頻,進(jìn)而提供高品質(zhì)音頻輸出。
  經(jīng)過訓(xùn)練後,解碼器和編碼器可以分別在單獨的客戶端運作,以提高網(wǎng)絡(luò)傳輸高品質(zhì)音頻的效率。SoundStream處理音頻的效率非常好,特別是在低位元率的情況,研究人員解釋,SoundStream使用3 kbps位元率所提供的音頻品質(zhì),超過使用12 kbps位元率的Opus,以及9.6 kbps的EVS,位元率是這些解編碼器的三分之一到四分之一,這代表SoundStream可以使用更小的頻寬,提供類似的音頻品質(zhì)。
  在早前,Google發(fā)表了基于回歸網(wǎng)絡(luò) 的Lyra音頻解編碼器,而與SoundStream比起來,SoundStream仍然優(yōu)于Lyra當(dāng)前的版本,研究人員也提到,在傳統(tǒng)音頻處理工作管線中,壓縮和增強(qiáng)使用不同模組進(jìn)行,但這樣的方法會增加系統(tǒng)延遲。而Google采取不同的策略,將壓縮和增強(qiáng)功能綜合在同一個模型中,能夠同時進(jìn)行壓縮和背景降噪,但又不增加延遲。
  Google表示,SoundStream是將機(jī)器學(xué)習(xí)技術(shù),應(yīng)用在音頻解編碼器中重要的一步,比目前最先進(jìn)的解編碼器Opus和EVS效果更好,而且只需要部署一個可擴(kuò)展的模型。SoundStream會與下一版本的Lyra一起發(fā)布,藉由整合SoundStream與Lyra,開發(fā)人員可以利用現(xiàn)有的Lyra API和工具,來提供更好的音質(zhì)。
【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

專題

CTI論壇會員企業(yè)