首頁(yè)>>>技術(shù)>>>視像通信  視像通信產(chǎn)品

 

視頻和圖像編碼技術(shù)進(jìn)展探討

無(wú)線、廣域、寬帶網(wǎng)上

鐘玉琢 2002/05/27

  鐘玉琢

  現(xiàn)任清華大學(xué)計(jì)算機(jī)系教授

  計(jì)算機(jī)應(yīng)用學(xué)科博士生導(dǎo)師

  兼任中國(guó)計(jì)算機(jī)學(xué)會(huì)多媒體專(zhuān)委會(huì)主任

  北京大學(xué)計(jì)算機(jī)系兼職教授

  清華大學(xué)人機(jī)交互與媒體集成研究所副所長(zhǎng)

  鐘玉琢教授長(zhǎng)期從事機(jī)器人視覺(jué)技術(shù),智能計(jì)算機(jī)聲、文、圖一體化智能接口以及多媒體計(jì)算機(jī)技術(shù)等方面的教學(xué)和科研工作,多年來(lái)取得多項(xiàng)研究成果,曾榮獲原機(jī)電部科技進(jìn)步一等獎(jiǎng)和二等獎(jiǎng)、原教委科技進(jìn)步二等獎(jiǎng)、原國(guó)家科委863高技術(shù)研究發(fā)展計(jì)劃“七五”和“八五”期間優(yōu)秀個(gè)人獎(jiǎng)和先進(jìn)工作者獎(jiǎng)、清華大學(xué)先進(jìn)工作者獎(jiǎng)以及教育工作者優(yōu)秀獎(jiǎng),F(xiàn)在正在承擔(dān)國(guó)家計(jì)委的“數(shù)字家電網(wǎng)絡(luò)控制平臺(tái)”,863智能計(jì)算機(jī)的多媒體數(shù)據(jù)壓縮編碼算法與實(shí)現(xiàn)技術(shù),國(guó)家基金委的分布式層次結(jié)構(gòu)視頻服務(wù)器的關(guān)鍵技術(shù)研究等課題。

  目前正在研究的課題還有:MPEG-4和MPEG-7中的分割技術(shù)及基于內(nèi)容檢索技術(shù);網(wǎng)絡(luò)教學(xué)及遠(yuǎn)程教學(xué)中的課件點(diǎn)播技術(shù)(COD-Course Ware On Demand)。

  數(shù)字視頻和圖像壓縮編碼技術(shù)的研究,已歷經(jīng)半個(gè)世紀(jì),在理論和工程上都取得了很多成果。進(jìn)入20世紀(jì)90年代,在ISO和ITU等國(guó)際組織的協(xié)調(diào)下,對(duì)視頻和圖像編碼的成果進(jìn)行了收集、整理、綜合和加工,制定了幾個(gè)通用的壓縮編碼標(biāo)準(zhǔn),包括適用于二值圖像的JBIG、用于連續(xù)灰度和彩色靜止圖像的JPEG、用于64K視頻傳輸?shù)腍.261、面向1.5M數(shù)字視頻和音頻傳輸及存儲(chǔ)的MPEG-1、面向高品質(zhì)數(shù)字視頻和音頻傳輸及存儲(chǔ)的MPEG-2,以及適于低碼率視頻編碼的H.263。這些標(biāo)準(zhǔn)的算法主要由四類(lèi)技術(shù)混合構(gòu)成,即運(yùn)動(dòng)補(bǔ)償、正交變換、量化和熵編碼,代表了20世紀(jì)90年代中前期視頻和圖像編碼的研究水平。

  20世紀(jì)90年代中后期,Internet迅猛發(fā)展,無(wú)線通信也迅速在全球普及,因此人們開(kāi)始有了在網(wǎng)絡(luò)上傳輸視頻和圖像的愿望,于是視頻和圖像編碼的目標(biāo)也就從傳統(tǒng)的面向存儲(chǔ)變?yōu)楝F(xiàn)在的面向傳輸。在網(wǎng)絡(luò)上傳輸視頻和圖像等多媒體信息除了要解決誤碼問(wèn)題之外,最大的挑戰(zhàn)在于用戶可以獲得的帶寬在不停地變化。這主要是因?yàn)榫W(wǎng)絡(luò)的異構(gòu)性,即各子網(wǎng)的網(wǎng)絡(luò)資源,包括處理能力、帶寬、存儲(chǔ)和擁塞控制策略等分布得很不平均,用戶通過(guò)不同的通信子網(wǎng)傳輸數(shù)據(jù)會(huì)體驗(yàn)到非常不同的實(shí)際傳輸吞吐量、數(shù)據(jù)丟失率、傳輸延遲;另外由于現(xiàn)在的網(wǎng)絡(luò)沒(méi)有提供資源預(yù)留一類(lèi)的協(xié)議保障,當(dāng)網(wǎng)絡(luò)擁塞發(fā)生時(shí),多媒體數(shù)據(jù)流的有效傳輸帶寬會(huì)突然降低,影響用戶接收多媒體信息的質(zhì)量和速度,甚至造成無(wú)法觀看。

  為了適應(yīng)網(wǎng)絡(luò)帶寬的變化,可擴(kuò)展性編碼的思想被提了出來(lái)。可擴(kuò)展性編碼就是將多媒體數(shù)據(jù)壓縮編碼成多個(gè)流,其中一個(gè)可以獨(dú)立解碼,它稱為基本層碼流;其它的碼流稱為增強(qiáng)層,它們不可以單獨(dú)解碼,而只能與基本層和它以前的增強(qiáng)層聯(lián)合在一起解碼,用來(lái)提高觀看效果?蓴U(kuò)展性編碼主要分為時(shí)域可擴(kuò)展性編碼、空域可擴(kuò)展性編碼和質(zhì)量可擴(kuò)展性編碼。在這些策略中,編好的碼流可以按層為單位截?cái)啵哂幸欢ǖ木W(wǎng)絡(luò)帶寬適應(yīng)能力。

  新一代的視聽(tīng)對(duì)象編碼的國(guó)際標(biāo)準(zhǔn)MPEG-4中的精細(xì)可擴(kuò)展性(Fine Granular Scalable,FGS)視頻編碼更提供了完全可擴(kuò)展的增強(qiáng)層碼流,它可以在任何地點(diǎn)截?cái),具有極強(qiáng)的網(wǎng)絡(luò)帶寬適應(yīng)能力。后來(lái)又提出了漸進(jìn)的精細(xì)可擴(kuò)展性(Progressive Fine Granular Scalable,PFGS)的編碼方案,它保留了FGS的所有優(yōu)良性能,并且把編碼效率提高了將近1dB。

  最新的靜止圖像編碼國(guó)際標(biāo)準(zhǔn)JPEG2000,它利用小波變換、位平面編碼和基于上下文的算編碼等一系列新技術(shù),將圖像編碼的效率提高了一大步(同等質(zhì)量下,JPEG2000的碼流尺寸只有JPEGA的一半),并且提供可擴(kuò)展性的碼流。

  在當(dāng)前的網(wǎng)絡(luò)時(shí)代,視頻和圖像編碼的目標(biāo)從產(chǎn)生適合存儲(chǔ)的固定尺寸的碼流發(fā)展到產(chǎn)生適合一定的傳輸碼率范圍的可擴(kuò)展性碼流,因此今后的多媒體數(shù)據(jù)編碼必然要支持可擴(kuò)展性。當(dāng)然,可擴(kuò)展性編碼現(xiàn)在還是一個(gè)很不成熟的領(lǐng)域,與不具有可擴(kuò)展性的單層編碼相比,它的編碼效率還是比較低的(例如FGS的編碼效率比MPEG-4非可擴(kuò)展性編碼低2~3dB)。如何將可擴(kuò)展性編碼的效率盡可能地逼近非可擴(kuò)展性編碼,是一個(gè)值得繼續(xù)研究的問(wèn)題。

分層可擴(kuò)展性編碼

 。↙ayered Scalable Coding)

  關(guān)于分層可擴(kuò)展性編碼的研究可以追溯到10年前,目前它已經(jīng)被許多現(xiàn)行的國(guó)際壓縮標(biāo)準(zhǔn)接納,例如H.263+和MPEG-4。分層可擴(kuò)展編碼主要有三種:時(shí)域可擴(kuò)展性、空域可擴(kuò)展性和質(zhì)量可擴(kuò)展性。其中質(zhì)量可擴(kuò)展性也稱為PSNR可擴(kuò)展性,原因是視頻質(zhì)量通常用峰值信噪比(PSNR)來(lái)衡量。

  1.時(shí)域可擴(kuò)展性(Temporal Scalability)

  時(shí)域可擴(kuò)展性編碼通常是通過(guò)在碼流中添加B幀來(lái)實(shí)現(xiàn)的。B幀是使用與它在時(shí)間上最近鄰的前后兩個(gè)I幀或P幀來(lái)預(yù)測(cè)的,而自己并不作為任何其它幀的參考圖像,因此在傳輸中丟棄B幀并不影響其它幀的質(zhì)量,而僅僅降低幀率。圖1是MPEG-4的時(shí)域可擴(kuò)展性編碼的示意圖。

  圖1 MPEG-4中的時(shí)域可擴(kuò)展性編碼

  2.空域可擴(kuò)展性(Spatial Scalability)

  空域可擴(kuò)展性編碼是通過(guò)為視頻中的每一幀都創(chuàng)建多分辨率的表示來(lái)實(shí)現(xiàn)的。當(dāng)進(jìn)行空域可擴(kuò)展性編碼時(shí),原始視頻首先通過(guò)下采樣得到低分辨率的視頻,編碼得到基本層碼流;然后編碼原始視頻和基本層視頻的差生成增強(qiáng)層碼流。不過(guò)空域可擴(kuò)展性編碼在視頻傳輸中應(yīng)用較少,因?yàn)槿魏我粋(gè)用戶都不能接收在前一個(gè)GOP中觀看高分辨率視頻,而到下一個(gè)GOP只能獲得低分辨率視頻。因此即使增強(qiáng)層在傳輸中被丟棄,客戶端的解碼器也要對(duì)低分辨率的圖像進(jìn)行插值,這實(shí)際上是一種質(zhì)量可擴(kuò)展性的特殊情形。圖2為空域可擴(kuò)展性編碼的示意圖。

  圖2 空域可擴(kuò)展性編碼

  3.質(zhì)量可擴(kuò)展性(PSNR Scalability)

  質(zhì)量可擴(kuò)展性編碼的思想和空域可擴(kuò)展性編碼很類(lèi)似,只不過(guò)這里不需對(duì)原始視頻進(jìn)行下采樣,而是進(jìn)行一次很粗的量化形成基本層碼流。然后對(duì)原始視頻和基本層視頻的差再進(jìn)行一次量化,生成增強(qiáng)層碼流;如果有多個(gè)增強(qiáng)層碼流則重復(fù)上面的過(guò)程。圖3是質(zhì)量可擴(kuò)展性編碼的示意圖。

  圖3 質(zhì)量可擴(kuò)展性編碼

適合網(wǎng)絡(luò)傳輸?shù)木幋a方案

  從以上可以看出,傳統(tǒng)的視頻編碼方法不適合網(wǎng)絡(luò)傳輸,其根本原因是它們的目標(biāo)是將視頻壓縮成為適合一個(gè)或幾個(gè)固定碼率的碼流,也就是說(shuō)傳統(tǒng)的視頻編碼是面向存儲(chǔ)的。而由于網(wǎng)絡(luò)的異構(gòu)性和缺乏QoS保證,帶寬在一個(gè)很大的范圍內(nèi)變化,因此面向網(wǎng)絡(luò)傳輸?shù)囊曨l編碼的目標(biāo)是將視頻壓縮成為適合一個(gè)碼率的范圍。

  MPEG組織看到了網(wǎng)絡(luò)傳輸對(duì)視頻編碼的新要求,于是開(kāi)始征集精細(xì)的可擴(kuò)展性視頻編碼方案。它的基本思想是將視頻編碼成一個(gè)可以單獨(dú)解碼的基本層碼流和一個(gè)可以在任何地點(diǎn)截?cái)嗟脑鰪?qiáng)層碼流,其中基本層碼流適應(yīng)最低的網(wǎng)絡(luò)帶寬,而增強(qiáng)層碼流用來(lái)覆蓋網(wǎng)絡(luò)帶寬變化的動(dòng)態(tài)范圍。世界各地的學(xué)者提出了許多解決方案,主要分為三類(lèi),分別使用DCT變換技術(shù)、小波變換技術(shù)和Matching Pursuit技術(shù)。最終從編碼效率和復(fù)雜性兩方面的考慮,精細(xì)可擴(kuò)展性編碼(FGSC)及漸進(jìn)的精細(xì)可擴(kuò)展性編碼(PFGSC)被MPEG組織采納。

  1. 精細(xì)的可擴(kuò)展性編碼

  MPEG-4的FGS主要有以下一些特性:第一,基本層使用基于分塊運(yùn)動(dòng)補(bǔ)償和DCT變換的編碼方式達(dá)到網(wǎng)絡(luò)傳輸?shù)淖畹鸵螅坏诙,增?qiáng)層使用位平面編碼技術(shù)對(duì)DCT殘差進(jìn)行編碼來(lái)覆蓋網(wǎng)絡(luò)帶寬的變化范圍;第三,每一幀的增強(qiáng)層碼流可以在任何地點(diǎn)截?cái);第四,解碼器重建的視頻質(zhì)量和收到并解碼的比特?cái)?shù)成正比。

  FGS的基本層編碼和普通的MPEG-4非可擴(kuò)展性編碼相同,都是由運(yùn)動(dòng)估計(jì)、運(yùn)動(dòng)補(bǔ)償、DCT變換、標(biāo)量量化和變長(zhǎng)編碼(Variable Length Coding)組成。而在增強(qiáng)層編碼時(shí),從原始的DCT系數(shù)中減去基本層逆量化后重建的DCT系數(shù)值獲得DCT殘差,然后對(duì)每一個(gè)8×8的塊按從上到下從左到右的順序使用位平面進(jìn)行編碼。

  使用位平面編碼的好處就是使得每一個(gè)系數(shù)的重要部分(較高的位)優(yōu)先編碼,這樣在碼流截?cái)鄷r(shí)就保證了解碼器仍可以獲得有關(guān)視頻的重要信息,從而提供了精細(xì)可擴(kuò)展的特性。

  一般的FGS只考慮了要編碼系數(shù)的值,實(shí)際上FGS的應(yīng)用是非常靈活的。例如我們可以對(duì)圖像中比較感興趣的前景部分優(yōu)先編碼,具體作法就是將圖像中的某些塊上移若干個(gè)位平面,就實(shí)現(xiàn)了對(duì)圖像中感興趣部分的優(yōu)先傳輸。我們還可以對(duì)不同頻率的DCT系數(shù)加以不同的權(quán)重,也就是對(duì)不同的DCT系數(shù)上移不同的位平面,從而滿足人眼對(duì)不同頻率成分的敏感程度。

  FGS還可以和時(shí)域可擴(kuò)展性編碼相結(jié)合(FGST),即對(duì)B幀中的DCT系數(shù)都使用位平面技術(shù)編碼,這樣FGST不僅保持了FGS的精細(xì)可擴(kuò)展的特性,而且支持幀率的變化。

  FGS雖然具有優(yōu)良的可擴(kuò)展特性,但它也有致命的弱點(diǎn),即效率太低。在同等碼率下,F(xiàn)GS的質(zhì)量要比MPEG-4中的非可擴(kuò)展性編碼低2~3dB(3個(gè)dB意味著碼率翻一番),這是人們難以接受的。因此要想提高FGS的編碼率,必須改善它用作運(yùn)動(dòng)預(yù)測(cè)和補(bǔ)償?shù)膮⒖紙D像的質(zhì)量。

  2. 漸進(jìn)的精細(xì)可擴(kuò)展性編碼

  可以看出,質(zhì)量可擴(kuò)展性編碼(我們對(duì)它的增強(qiáng)層使用位平面編碼)和FGS編碼分別走了兩個(gè)級(jí)端,質(zhì)量可擴(kuò)展性編碼保證了編碼效率,因?yàn)樗猛瑢拥慕獯a圖像作參考,獲得了較為準(zhǔn)確的運(yùn)動(dòng)預(yù)測(cè)和補(bǔ)償,但它對(duì)錯(cuò)誤極為敏感,一旦某個(gè)增強(qiáng)層出現(xiàn)了錯(cuò)誤,它后面的增強(qiáng)層都將無(wú)法解碼,直到遇到下一個(gè)I幀為止;而FGS保證了對(duì)錯(cuò)誤的恢復(fù)能力,它可以從前一幀增強(qiáng)層的任何錯(cuò)誤恢復(fù)出來(lái),但是由于參考圖像質(zhì)量低,因而效率不高。為了在編碼效率和錯(cuò)誤恢復(fù)能力之間取得一個(gè)權(quán)衡,后來(lái)有人提出了一種被稱為漸進(jìn)的精細(xì)可擴(kuò)展性(Progressive Fine Granular Scalable,PFGS)的視頻編碼方案,在保持了FGS所具有的網(wǎng)絡(luò)帶寬自適應(yīng)和錯(cuò)誤恢復(fù)能力的同時(shí),提高了編碼效率將近1dB。

  但是,PFGS的編碼效率和非可擴(kuò)展性編碼相比,還有1~2dB的差距。如何進(jìn)一步提高它的性能,還是一個(gè)值得研究的問(wèn)題。

取得的最新研究成果

  目前正在研究視頻和圖像的可擴(kuò)展性編碼,其主要成果有:

  1. 根據(jù)PFGS增強(qiáng)層各幀之間碼率的不平衡性,研究了PFGS增強(qiáng)層的碼率分配問(wèn)題。首先提出了一個(gè)PFGS增強(qiáng)層多幀聯(lián)合的率失真(Rate-Distortion,R-D)函數(shù),然后我們根據(jù)這個(gè)率失真函數(shù)提出了一個(gè)局部最優(yōu)的PFGS增強(qiáng)層碼率分配算法。實(shí)驗(yàn)結(jié)果顯示,和FGS中使用的碼率平均分配算法相比,我們的算法不僅使視頻解碼質(zhì)量更加平滑,而且將視頻質(zhì)量提高了0.3~0.5dB。另外,我們算法的復(fù)雜性很低,使得它非常適合于視頻服務(wù)器使用。

  2.為了進(jìn)一步壓縮FGS和FPGS的基本層碼流,我們將位平面編碼技術(shù)和空域可擴(kuò)展性視頻編碼相結(jié)合,提出了一種稱為精細(xì)的空域可擴(kuò)展性(Fine-Granularity Spatially Scalable,FGSS)的視頻編碼算法。這個(gè)方案具有質(zhì)量精細(xì)變化的特性,即低分辨率和高分辨率的增強(qiáng)層碼流都可以在任何地點(diǎn)截?cái),具有極強(qiáng)的網(wǎng)絡(luò)帶寬適應(yīng)能力。

  此外,我們的算法還具有錯(cuò)誤恢復(fù)功能,同時(shí)保持了空域可擴(kuò)展性編碼的多分辨率特性,它可以滿足擁有不同網(wǎng)絡(luò)帶寬和不同分辨率接收設(shè)備的許多用戶的需求。實(shí)驗(yàn)表明,在大多數(shù)碼率條件下,F(xiàn)GSS的性能優(yōu)于傳統(tǒng)的空域可擴(kuò)展性編碼。

  3. 我們提出了一種基于塊的細(xì)粒度可擴(kuò)展(B-FGS)編碼方法,這種編碼方法比MPEG-4 FGS具有更多的靈活性,它能夠支持區(qū)域級(jí)的動(dòng)態(tài)碼率分配,它是MPEG-4 FGS的一種改進(jìn)。在基于塊的FGS編碼系統(tǒng)中,在視頻流化傳輸服務(wù)器端,通過(guò)給屬于感興趣區(qū)域的空塊分配更多的碼率就可以實(shí)現(xiàn)選擇性區(qū)域增強(qiáng),而增強(qiáng)區(qū)域的選擇是由傳輸策略決定的,由于B-FGS編碼將區(qū)域增強(qiáng)從編碼中分離出來(lái),所以可以很好地支持區(qū)域級(jí)動(dòng)態(tài)碼率分配。

  同時(shí),我們還較好地解決了B-FGS中均勻碼率分配所造成的編碼效率下降問(wèn)題,實(shí)現(xiàn)了B-FGS編碼中的快速最優(yōu)碼率分配,使其可以用于實(shí)時(shí)流媒體服務(wù)器中。

  上述編碼方法可以和MPEG-7內(nèi)容描述相結(jié)合,在低傳輸帶寬時(shí),實(shí)現(xiàn)重要區(qū)域的選擇性增強(qiáng),從而提高接收端視覺(jué)質(zhì)量。

賽迪網(wǎng) 2002/05/27



相關(guān)鏈接:
從瑞福特公司看我國(guó)IP視頻會(huì)議系統(tǒng)市場(chǎng)的發(fā)展 2002-05-20
會(huì)議電視系統(tǒng)解決方案 2002-05-20
將視頻通訊帶進(jìn)中國(guó)人的生活 2002-05-20
高檢采用VTEL設(shè)備建設(shè)會(huì)議電視系統(tǒng) 2002-05-20
評(píng)論:將視頻通訊帶進(jìn)中國(guó)人的生活 2002-05-16

分類(lèi)信息:     技術(shù)_視像通訊_文摘