CVPR 2019 | 无监督领域特定单图像去模糊
圖像模糊是影響圖像質量的重要因素,顯著降低了許多計算機視覺應用的性能,例如物體檢測和人臉識別。隨著深度神經網絡的發展,計算機視覺領域的難題被一個個解決,單純依靠先驗核去實現圖像去模糊的技術已經漸漸被取代。
本文將針對 CVPR2019 Unsupervised Domain-Specific Deblurring via Disentangled Representations 一文進行分析,梳理一下基于深度神經網絡下圖像去模糊的實現方法。
作者丨武廣
學校丨合肥工業大學碩士生
研究方向丨圖像生成
論文引入
圖像的模糊嚴重影響圖像的本身質量,同時在進行圖像的識別和圖像中物體識別都會產生影響。圖像去模糊旨在從相應的模糊圖像中恢復潛在的清晰圖像。
大多數傳統方法將圖像去模糊任務公式化為模糊核估計問題,在過去的十年中,已經開發了各種自然圖像和先驗核來規范潛在銳利圖像的解空間,包括重尾梯度先驗,稀疏核先驗,梯度先驗,歸一化稀疏性和暗通道。
然而,這些先驗是通過有限的觀察來估計的,并且不夠準確。結果,去模糊的圖像通常欠去模糊(圖像仍然模糊)或過度去模糊(圖像包含許多偽像)。?
近年來深度神經網絡和 GAN 的巨大成功,已經提出了一些基于 CNN 的方法用于圖像去模糊,例如 Nimisha 在 ECCV 2018 發表的 Unsupervised Class-Specific Deblurring?[1] 是一種基于 GAN 的無監督圖像去模糊方法,在模型上增加了重復損失和多尺度梯度損失。雖然它們在合成數據集上取得了良好的性能,但它們對一些真實模糊圖像的結果并不令人滿意。
另一類方法是基于現有的圖像到圖像的模型,例如 CycleGAN [2] 這類無監督端到端的模型,然而,這些通用方法通常編碼其他因素(例如:顏色、紋理)而不是將信息模糊到發生器中,因此不會產生良好的去模糊圖像。
文章對這些方法進行了一個可視化結果比對,同時也是展示了自己模型的優越性:
上圖最右側就是這篇文章的實驗效果,可以看出對比已有的基于深度神經網絡的去模糊模型還是展示了不錯的實現效果的。這些效果的實現得益于文章提出了一種基于解纏表示的無監督域特定圖像去模糊方法,通過將模糊圖像中的內容和模糊特征解開,以將模糊信息準確地編碼到去模糊框架中。
我們后續再詳細分析,這里總結一下文章的創新和優勢所在:
內容編碼器和模糊編碼器將模糊圖像的內容和模糊特征區分開,實現了高質量的圖像去模糊;
對模糊編碼器添加 KL 散度損失以阻止模糊特征對內容信息進行編碼;
為了保留原始圖像的內容結構,在框架中添加了模糊圖像構造和循環一致性損失,同時添加的感知損失有助于模糊圖像去除不切實際的偽像。
模型詳解
我們還是先通過模型框架圖去理解文章設計的思路:
我們先把模型中的組間介紹清楚,由于模型的循環一致性設計,網絡的左右是基本對稱的,我們對左側組間交代下。s 代表清晰的真實圖像,b 代表模糊的真實圖像,是清晰圖像的內容編碼器(可以理解為圖像顏色、紋理、像素的編碼器),對應的是模糊圖像的內容編碼器,是模糊圖像的模糊編碼器(僅用來提取圖像的模糊信息),是模糊圖像生成器,是清晰圖像生成器,是生成的模糊圖像,是生成的清晰圖像。經過循環的轉換,s? 是循環生成的清晰圖像,b? 是循環生成的模糊圖像。結合上下標和模型結構,這些組間的名稱還是很好區別的。
看了這個模型,大家是不是有一些疑問,我們的目的是實現圖像的去模糊,為什么要添加模糊編碼器?為什么還要主動去生成模糊的圖像?怎么保證模糊圖像的內容編碼器真的提取到圖像的內容信息?為什么模糊編碼器要同時作用在和上?
這些問題正是這篇文章區別于已有模型的關鍵,我們按照文章思路一步步去分析。
文章的一大創新就是模糊編碼器的設計,它主要的作用是用來捕獲模糊圖像的模糊特征,如何去保證這個模糊編碼器是真的提取到模糊圖像的模糊特征了呢?
作者就采用了迂回的思路,既然清晰的圖像是不含模糊信息的,如果清晰的圖像通過結合模糊編碼器模糊特征去生成出模糊圖像,是不是可以說,模糊編碼器是在對清晰圖像做模糊化處理,這個模糊化的前提是什么?那就是模糊編碼器確實提取到了圖像的模糊特征,所以說由清晰圖像生成模糊圖像也保證了模糊編碼器是對圖像的模糊信息進行編碼的作用。
同時,由清晰圖像到模糊圖像的生成過程中,清晰圖像的內容編碼器我們是有理由相信它是提取到了清晰圖像的內容信息(因為清晰圖像并不包含模糊信息)。
文章為了保證模糊圖像的內容編碼器是對模糊圖像的內容進行編碼,文章將清晰圖像內容編碼器和模糊圖像內容編碼器強制執行最后一層共享權重,以指導學習如何從模糊圖像中有效地提取內容信息。
為了進一步盡可能多地抑制模糊編碼器對內容信息的編碼,通過添加一個 KL 散度損失來規范模糊特征的分布,使其接近正態分布 p(z)~N(0,1)。這個思路和 VAE 中的限制數據編碼的潛在空間的分布思路是相近的,這里將模糊編碼器的編碼向量限制住,旨在控制模糊編碼器僅對圖像的模糊信息進行編碼。
理清了上面的設計思路,這篇文章的實現就已經基本介紹完畢了。由模糊圖像去模糊到清晰圖像的過程中,將模糊圖像內容編碼和模糊編碼送入清晰圖像生成器重構得到去模糊的清晰圖像,清晰圖像到模糊圖像是為了優化模糊編碼和模糊圖像的內容編碼的作用。
通過循環一致性,進行進一步的還原保證模型的魯棒性。核心的損失是圖像生成在 GAN 的對抗損失,結合感知損失達到圖像下一些偽影的優化。
模型損失函數
本部分是對模型實現的補充,在上一小節中,也是大致上分析了各類損失的作用,這里做一個簡短的展開。
首先是對模糊編碼的隱空間分布進行約束,這個約束通過 KL 散度去實現,這個過程和 VAE 的思路是一致的:
這里的 p(z)~N(0,1),具體的損失可進一步寫為:?
此時,zb 可表示為 zb=μ+z°σ。
接下來就是 GAN 的那一套對抗損失,這里寫一下清晰圖像生成的判別器損失,模糊圖像的是一致的:
循環一致損失參考的是 CycleGAN [2]:
感知損失的加入,作者是加在預訓練 CNN 的第 1 層的特征,實驗中加在 ImageNet 上預訓練的 VGG-19 的 conv3,3。
感知損失中使用模糊圖像 b 而不是銳利圖像作為參考圖像有兩個主要原因。首先,假設 b 的內容信息可以由預訓練的 CNN 提取。其次,由于 s 和 b 未配對,因此在 s 和之間應用感知損失將迫使對 s 中的無關內容信息進行編碼。值得一提的是,和 s 上沒有添加感知損失。這是因為在訓練期間沒有在中發現明顯的偽像。
整個模型總的損失可寫為:
實驗
文章的網絡的設計結構參考了 Diverse image-to-image translation via disentangled representations [3]。內容編碼器由三個卷積層和四個殘差塊組成。模糊編碼器包含四個卷積層和一個完全連接的層。
對于發生器,該架構與內容編碼器對稱,具有四個殘差塊,后面是三個轉置的卷積層。判別器采用多尺度結構,其中每個尺度的特征圖經過五個卷積層,然后被饋送到 sigmoid 輸出。
采用 Adam 優化損失,對于前 40 個時期,學習速率最初設置為 0.0002,然后在接下來的 40 個時期使用指數衰減。超參上 λadv=1, λKL=0.01, λcc=10, λp=0.1。?
實驗數據集采用三種數據集:CelebA 數據集,BMVC 文本數據集和 CFP 數據集。
CelebA 數據集包含超過 202,000 個面部圖像,文章設置了清晰圖像 100k,模糊圖像 100k,測試圖像 2137。BMVC 文本數據集由 66,000 個文本圖像組成,分配方式類似于 CelebA 數據集。CFP 數據集由來自 500 個主題的 7,000 個靜止圖像組成,并且對于每個主題,它具有正面姿勢的 10 個圖像和具有專業姿勢的 4 個圖像。?
對于 CelebA 和 BMVC Text 數據集,我們使用標準的 debluring 指標(PSNR,SSIM)進行評估。文章還使用去模糊圖像和真實圖像之間的特征距離(即來自某些深層網絡的輸出的 L2 距離)作為語義相似性的度量,因為實驗發現它是比 PSNR 和 SSIM 更好的感知度量。
對于 CelebA 數據集,使用來自 VGG-Face 的 pool5 層的輸出,對于文本數據集,使用來自 VGG-19 網絡的 pool5 層的輸出。對于文本去模糊,另一個有意義的度量是去模糊文本的 OCR 識別率。在可視化模型和定量對比上,文章對比了各類模型的去模糊的效果:
實驗也對比了各個組間的有無對實驗結果的影響:
不僅僅在人臉圖像去模糊上,在文本去模糊上也展示了不錯的實驗效果:
總結
文章提出了一種無監督的領域特定單圖像去模糊方法。通過解開模糊圖像中的內容和模糊特征,并添加 KL 散度損失以阻止模糊特征對內容信息進行編碼。為了保留原始圖像的內容結構,在框架中添加了模糊分支和循環一致性損失,同時添加的感知損失有助于模糊圖像去除不切實際的偽像。每個組件的消融研究顯示了不同模塊的有效性。
文章的創新之處正是內容編碼器和模糊編碼器的設計和應用,嘗試將內容和模糊信息分離,這對圖像到圖像的工作具有一定的指導意義。
參考文獻
[1] T. Madam Nimisha, K. Sunil, and A. Rajagopalan. Unsupervised class-specific deblurring. In Proceedings of the European Conference on Computer Vision (ECCV), pages 353–369, 2018.?
[2] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of International Conference on Computer Vision (ICCV), 2017.?
[3] H.-Y. Lee, H.-Y. Tseng, J.-B. Huang, M. Singh, and M.-H.Yang. Diverse image-to-image translation via disentangled representations. In Proceedings of European Conference on Computer Vision (ECCV), pages 36–52. Springer, 2018.
點擊以下標題查看更多往期內容:?
Airbnb實時搜索排序中的Embedding技巧
圖神經網絡綜述:模型與應用
近期值得讀的10篇GAN進展論文
F-Principle:初探理解深度學習不能做什么
萬字綜述之生成對抗網絡(GAN)
基于預訓練自然語言生成的文本摘要方法
小米拍照黑科技:基于NAS的圖像超分辨率算法
深度思考 | 從BERT看大規模數據的無監督利用
近期必讀的12篇「推薦系統」相關論文
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
總結
以上是生活随笔為你收集整理的CVPR 2019 | 无监督领域特定单图像去模糊的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 万字综述之生成对抗网络(GAN)
- 下一篇: 本周值得读的15篇AI论文,还有源码搭配