深度学习图像视频压缩技术
說到圖像壓縮算法,最典型的有JPEG、JPEG2000等。
?
而其中JPEG 采用的是以離散余弦轉換(Discrete Cosine Transform) 為主的區塊編碼方式(如圖2)。JPEG2000改用以小波轉換(Wavelet Transform) 為主的多解析編碼方式。小波轉換的主要目的是將圖像的頻率成分抽取出來。
圖2 JPEG 編碼框圖
?
在有損壓縮下,JPEG2000一個比較明顯的優點是沒有JPEG壓縮中的馬賽克失真效果。JPEG2000的失真主要是模糊失真。模糊失真產生的主要原因是高頻量在編碼過程中一定程度的衰減。在低壓縮比情形下(比如壓縮比小于10:1),傳統的JPEG圖像質量有可能比JPEG2000好。JPEG2000在高壓縮比的情形下,優勢才開始明顯。
整體來說,和傳統的JPEG相比,JPEG2000仍然有很大的技術優勢,通常壓縮性能大概可以提高20%以上。一般在壓縮比達到100:1的情形下,采用JPEG壓縮的圖像已經嚴重失真并開始難以識別了,但JPEG2000的圖像仍可識別。
?
深度學習技術設計壓縮算法的目的
?
用深度學習技術設計壓縮算法的一個目的是學習一個比離散余弦變換或小波變換更優的變換,同時用深度學習技術也可以設計更簡潔的端到端算法,這樣可以設計出比JPEG2000等商用算法性能更優的算法。
在圖片或視頻壓縮領域,使用最多的深度學習技術是卷積神經網絡(CNN),先簡單介紹卷積神經網絡。如圖3所顯示,像搭積木一樣,一個卷積神經網絡可以由卷積、池化、非線性函數、歸一化層等模塊組成。最終的輸出根據應用而定,如在人臉識別領域,我們可以用它來提取一串數字(專業術語稱為特征)來對一幅人臉圖片進行表示。然后可以通過比較特征的異同,來進行人臉識別。
??????
圖3 卷積神經網絡示意圖
(來源http://blog.csdn.net/hjimce/article/details/47323463)
?
那如何利用卷積神經網絡做壓縮?如圖4所示,完整的框架包括CNN編碼網絡、量化、反量化、CNN解碼、熵編碼等幾個模塊。編碼網絡的作用是將圖片轉換為壓縮特征,解碼網絡就是從壓縮特征恢復出原始圖片。其中編碼網絡和解碼網絡,可以用卷積、池化、非線性等模塊進行設計和搭建。
圖4 用深度學習進行圖片壓縮示意圖
?
如何評判壓縮算法
?
在深入技術細節前,我們先來了解一下如何評判壓縮算法。評判一個壓縮算法好壞的重要指標有兩個:一個是每個像素占據的比特位數(bit per pixel, BPP),一個是PSNR。我們知道,數據在計算機中以比特形式存儲,所需要的比特數越多,則占據的存儲空間越大。BPP用于表示圖像中每個像素所占據的比特數,如一張RGB三通道圖,表示每個像素需要消耗24個比特。PSNR用來評估解碼后圖像的恢復質量,簡單理解就是PSNR越高,恢復質量越好。
?
我們舉個例子,假設長寬為768*512的圖片大小為1M,我們利用深度學習技術對它編碼,通過編碼網絡后產生包括96*64*192個數據單元的壓縮特征數據,如果表示每個數據單元平均需要消耗1個比特,則編碼整張圖需要96*64*192個比特。經過壓縮后,編碼每個像素需要的比特數為(96*64*192)/(768*512)=3,所以BPP值為3bit/pixel,壓縮比為24:3=8:1。這意味著一張1M的圖,通過壓縮后只需要消耗0.125M的空間,換句話說,之前只能放1張照片的空間,現在可以放8張。
????
如何用深度學習做壓縮
?
談到如何用深度學習做壓縮,還是用剛才那個例子。將一張大小768*512的三通道圖片送入編碼網絡,進行前向處理后,會得到占據96*64*192個數據單元的壓縮特征。有計算機基礎的讀者可能會想到,這個數據單元中可放一個浮點數,整形數,或者是二進制數。那問題來了,到底應該放入什么類型的數據?從圖像恢復角度和神經網絡原理來講,如果壓縮特征數據都是浮點數,恢復圖像質量是最高的。但一個浮點數占據32個比特位,那之前講的比特數計算公式變為(96*64*192*32)/(768*512)=96,壓縮后反而每個像素占據比特從24變到96,非但沒有壓縮,反而增加了,這是一個糟糕的結果,很顯然浮點數不是好的選擇。
?
所以為了設計靠譜的算法,我們使用一種稱為量化的技術,它的目的是將浮點數轉換為整數或二進制數,最簡單的操作是去掉浮點數后面的小數,浮點數變成整數后只占據8比特,則,表示每個像素要占據24個比特位。與之對應,在解碼端,可以使用反量化技術將變換后的特征數據恢復成浮點數,如給整數加上一個隨機小數,這樣可以一定程度上降低量化對神經網絡精度的影響,從而提高恢復圖像的質量。
即使壓縮特征中每個數據占據1個比特位,可是 8:1的壓縮比在我們看來并不是一個很理想的結果。那如何進一步優化算法?我們再看下BPP的計算公式。假設每個壓縮特征數據單元占據1個比特,則公式可寫成:,計算結果是3bit/pixel,從壓縮的目的來看,BPP越小越好。在這個公式中,分母由圖像決定,我們可以調整的部分在分子,分子中96、64、192這三個數字與網絡結構相關。很顯然,當我們設計出更優的網絡結構,這三個數字就會變小。
那1與哪些模塊相關?1表示每個壓縮特征數據單元平均占據1個比特位,量化會影響這個數字,但它不是唯一的影響因素,它還與碼率控制和熵編碼有關。碼率控制的目的是在保證圖像恢復質量的前提下,讓壓縮特征數據單元中的數據分布盡可能集中,出現數值范圍盡可能小,這樣我們就可以通過熵編碼技術來進一步降低1這個數值,圖像壓縮率會進一步提升。
用深度學習做視頻壓縮,可以看作是在深度學習圖片壓縮的基礎上擴展,可結合視頻序列幀間的光流等時空信息,在單張壓縮的基礎上,進一步降低碼字。
?
圖 5 在kodak24標準數據集上測評結果,上圖為PSNR結果,下圖為MS-SSIM的結果
???
總結
?
總的來說,用深度學習來設計視頻和圖像壓縮算法是個非常具有前景但也是非常具有挑戰性的技術。目前,其已經在人臉識別等領域證明了它的強大能力,有理由相信在不久的將來,深度學習技術將為圖像視頻壓縮領域帶來更大的突破。現階段我們公司自主研發的算法已經超過商用的JPEG2000。如圖6和圖7
圖 6 在同等壓縮率下壓縮視覺效果對比。上圖為我們所提出的算法,下圖為JPEG2K算法。在紋理細節上,我們的算法能得到更好的效果。
?
?
圖 7 在同等壓縮率下,對復雜圖像壓縮視覺效果對比。上圖為我們所提出的算法,下圖為JPEG2K算法。在細節上,我們的算法能得到更好的效果。
?聯系我們,關注圖鴨微信公眾號
總結
以上是生活随笔為你收集整理的深度学习图像视频压缩技术的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于微信失物招领小程序系统设计与实现 开
- 下一篇: 海思平台OSD的实现(1)