GAN for Image-to-image translation 2019年文章综述
文章目錄
- 前言
- 一篇文獻(xiàn)的閱讀姿勢
- 1. 這篇論文的創(chuàng)新點(diǎn)是什么(idea是什么)
- 2. 這篇論文干了什么事情(idea怎么具體實現(xiàn))
- 3. 這篇論文如何分析自己的方法有效(如何設(shè)置實驗)
- GAN
- Conditional Generative Adversarial Nets(cGAN,2014)
- Image-to-Image Translation with Conditional GAN(2017)
- CycleGAN
- IIT task概念解釋:
- conditional
- unsupervised
- multi-modal and multi-domain
- unsupervised Image to Image translation(UNIT)
- multi-modal unsupervised Image to Image translation (MUNIT)
- StyleGAN
- StyleGAN2
- StarGAN(2018.12)
- RelGAN(2019.08)
- Latent Filter Scaling for Multimodal Unsupervised Image-to-Image Translation
- Multi-Channel Attention Selection GAN with Cascaded SemanticGuidance for Cross-View Image Translation
- 未完待續(xù)
前言
本篇博客記錄了筆者最近閱讀的2019年應(yīng)用于IIT(image-to-image translation)的GAN的最新論文,為了思路清晰,順帶也介紹了之前的比較經(jīng)典的關(guān)于IIT GAN的論文。
包括以下文章:
- GAN
- cGAN (conditional GAN)
- CycleGAN
- IIT中常見概念的解釋
-
- styleGAN與StyleGAN2
- UNIT
- MUNIT
- StarGAN
- RelGAN
- Latent Filter Scaling for Multimodal Unsupervised Image-to-Image Translation
- Multi-Channel Attention Selection GAN with Cascaded SemanticGuidance for Cross-View Image Translation
- A Unified Feature Disentangler for Multi-Domain I2I
- Homomorphic Latent Space Interpolation for Unpaired Image-to-image
- TraVeLGAN Image-to-image Translation by Transformation Vector Learning
- Image-to-Image Translation via Group-wise Deep Whitening-and-Coloring Transformation
本篇博客對于論文的介紹基本遵循lyf學(xué)長的《一篇文獻(xiàn)的閱讀姿勢》。具體介紹形式如下。當(dāng)然有些地方,筆者為了省事就一筆帶過了。
另外本篇文章并不是對論文做詳細(xì)的介紹,只是介紹每篇論文的idea和大致如何實現(xiàn)這個idea,可以讓讀者對論文有個大概了解:這篇論文干了啥。但如果想仔細(xì)了解論文的細(xì)節(jié),請閱讀其他的詳細(xì)解析文章或者原論文。
筆者CV剛?cè)腴T兩個月,水平實在有限,博客必定有許多疵漏和錯誤之處,請讀者們不吝指正。
一篇文獻(xiàn)的閱讀姿勢
1. 這篇論文的創(chuàng)新點(diǎn)是什么(idea是什么)
a) 別人的方法為何在這個情況/設(shè)置下行不通或者不好,有何缺點(diǎn)或不足(Limitations)
b) 確定其提出的是新方法/新理論,等等
c) 提出的方法如何從出發(fā)點(diǎn)(Motivation)上解決了上述別人方法的不足
2. 這篇論文干了什么事情(idea怎么具體實現(xiàn))
a) 確定其方法的輸入/輸出
b) 確定方法的核心實現(xiàn)是如何與論文出發(fā)點(diǎn)一一對應(yīng)的
3. 這篇論文如何分析自己的方法有效(如何設(shè)置實驗)
a) 實驗上可視化的圖片/給出的數(shù)據(jù),如何解決了之前方法沒有解決的問題 ——驗證1. a)
這個一般會給出強(qiáng)力的性能表現(xiàn),視覺效果比其他方法好,數(shù)值比其他效果好
b) 論文的實現(xiàn)如何體現(xiàn)出論文的Motivation ——驗證1. b) & 2. b)
這個一般需要分析實驗或者消融實驗,前者通過可視化工具得到方法的中間結(jié)果與預(yù)期一致;后者是通過將論文提出方法的核心部分去掉或者替換,以控制變量法的方式驗證關(guān)鍵部分的有效性
c) 論文提出的思路或者實現(xiàn)方式有不足,或者其他嚴(yán)謹(jǐn)性的方面需要討論
這個部分不一定所有論文都有,但是通過這個部分可以反觀這個論文的原理、方法的實現(xiàn)
GAN
GAN是一種訓(xùn)練生成模型的方法,包括兩個互相對抗的模型:一個生成模型G用于擬合樣本數(shù)據(jù)分布和一個判別模型D用于估計輸入樣本是來自于真實的訓(xùn)練數(shù)據(jù)還是生成模型G。
生成器通過映射函數(shù)把噪聲映射到數(shù)據(jù)空間,而判別器的輸出是一個標(biāo)量,表示數(shù)據(jù)來自真實訓(xùn)練數(shù)據(jù)而非G的生成數(shù)據(jù)的概率。
Conditional Generative Adversarial Nets(cGAN,2014)
為解決GAN太過自由的問題,在生成模型G和判別模型D中同時加入條件約束y來引導(dǎo)數(shù)據(jù)的生成過程。條件可以是任何補(bǔ)充的信息,如類標(biāo)簽(獨(dú)熱編碼)等,這樣使得GAN能夠更好地被應(yīng)用于跨模態(tài)問題,例如圖像自動標(biāo)注。
看損失函數(shù)就知cGAN與GAN的區(qū)別:其中x|y表示真實圖片x和標(biāo)簽y同時作為D的輸入;z|y表示噪聲z和標(biāo)簽y同時作為G的輸入。
Image-to-Image Translation with Conditional GAN(2017)
將cGAN用在I2I。與cGAN的Loss函數(shù)基本一致,輸入G和D的標(biāo)簽就是要被translation的image。
貢獻(xiàn):
a. 在損失函數(shù)中增加了L1 Loss,使生成圖像不僅要像真實圖片,也要更接近于輸入的條件圖片。
b. 在生成器中,用U-net結(jié)構(gòu)(G和D的鏡像層skip connection )代替encoder-decoder的G結(jié)構(gòu)
c. 提出PatchGAN通常判斷都是對生成樣本整體進(jìn)行判斷,比如對一張圖片來說,就是直接看整張照片是否真實。而且Image-to-Image Translation中很多評價是像素對像素的,所以在這里提出了分塊判斷的算法,在圖像的每個patch塊上去判斷是否為真,最終平均給出結(jié)果。
缺點(diǎn):Supervised learning, 要求source image and target image is a pair.
CycleGAN
Propose another network mapping target domain image to source domain image and cycle-consistency loss which preserved some properties of original image and avoid mode collapse(map all images to the same image)
IIT task概念解釋:
conditional
Unlike the unconditional case, where the latent vector can be simply mapped to a full size image, the conditional case requires using both the latent vector and the input image.
unsupervised
GANs that take an image from one domain and produce an image in another domain will be referred to as image-to-image translation GANs. If paired data are used, the GAN will be referred to as supervised. It will be referred to as unsupervised if the images from the two domains are not paired.
multi-modal and multi-domain
Multi-model: Finally, image-to-image translation GANs that produce a single image will be referred to as deterministic or unimodal, while multimodal ones make use of an input latent vector in addition to the input image to produce many outputs.(multi-model訓(xùn)練時并不要求數(shù)據(jù)集有attribute label)
Multi-domain: 這里的domain是指針對數(shù)據(jù)集中的attribute,根據(jù)attribute來劃分的,比如就性別這個attri而言,男是一個domain,女是一個,相對于發(fā)色而言,金發(fā)是一個domain,黑發(fā)是一個domain。(但multi-domainGAN如StarGAN,RelGAN需要dataset有attribute label)
Fine-grained: 精細(xì)控制
unsupervised Image to Image translation(UNIT)
multi-modal unsupervised Image to Image translation (MUNIT)
StyleGAN
styleGAN并不屬于IIT論文,而是提出了一個全新的generator framework.
a. 目前研究者對GAN的generator合成圖片的過程還沒有真正的充分了解,generator的運(yùn)作就像black box。另外對隱變量空間也沒有充分的理解。
b. 本文提出一個generator,它能實現(xiàn)生成圖片的隨機(jī)變化和圖片attribute的分離,還能實現(xiàn)對圖像合成過程的精細(xì)控制。并實現(xiàn)了更好的插值性質(zhì)和隱變量的解糾纏。
2.idea的具體實現(xiàn)
a.輸入:可學(xué)習(xí)常量 輸入:指定style的圖片
b. 將從正態(tài)分布隨機(jī)采樣的噪聲,先通過MLP映射到隱空間W,然后在每一個卷積層后,都加一個AdaIN,AdaIN的參數(shù)由W經(jīng)過仿射變換得到。關(guān)鍵在于,所有層都用同一個隱變量w(W中的一個點(diǎn)),但是都有自己的仿射變換,因此有不同的自適應(yīng)參數(shù)。
c.通過添加噪聲實現(xiàn)隨機(jī)變化(如發(fā)絲等),但對人臉的固有屬性并不會產(chǎn)生影響。
StyleGAN2
修復(fù)了StyleGAN中幾個生成圖片的質(zhì)量問題:
StarGAN(2018.12)
1. 創(chuàng)新點(diǎn)
a已存在的IIT方法只適用于two domain,在mult-domain上表現(xiàn)不足。
b本文提出StarGAN結(jié)構(gòu),能在一個network里面訓(xùn)練multi-II。甚至能在同一個網(wǎng)絡(luò)里train多個dataset
2 idea具體實現(xiàn)
a.輸入:image and domain information,輸出IIT后的image。
b.核心實現(xiàn):1.在D上附加一個domain分類器并提出domain分類損失 2.重建損失
3.通過Mask Vector來使GAN忽略多個dataset IIT時未知的label,聚集在已知的label上。
4.采用Wasserstein的GAN Adv Loss
3.實驗
a.采取DIAT,CycleGAN,IcGAN作為baseline,通過可視化的圖片,展示了StarGAN在Facial attribute transfer results on the CelebA dataset和Facial expression synthesis results on the RaFD dataset效果比baseline好。又通過數(shù)據(jù)(ResNet18s上的分類準(zhǔn)確性)展示了對StarGAN的定量評估。
b.采用消融實驗體現(xiàn)了joint datasets training的effect;通過正確和錯誤的mask vector對比展示了mask vector的重要作用。
RelGAN(2019.08)
1.創(chuàng)新點(diǎn)
A.以往的MIIT方法,屬性向量是二值的,對產(chǎn)生結(jié)果的控制不夠精細(xì);采用絕對的屬性向量,即使不想改變某些屬性,也需要指明它們的值。 本文提出相對屬性向量來解決這個問題。
B 本文提出: 1.相對屬性向量方法。 2.D_match 3. D_interp
2. idea具體實現(xiàn)
idea的具體實現(xiàn):包括了Conditional對抗損失,重建損失,插值損失等。
3.實驗
Experiment就是將StarGAN和AttGAN作為baseline,在IIT任務(wù)中,選擇FID作為metrics體現(xiàn)了RelGAN在視覺質(zhì)量上的優(yōu)越性;還比對了三個GAN的分類準(zhǔn)確性。 之后做了消融實驗展示了各個Loss的效果;做了分析實驗展示了插值效果。最后做了UserStudy將RelGAN和baseline比對了圖片質(zhì)量。
Latent Filter Scaling for Multimodal Unsupervised Image-to-Image Translation
文章指出現(xiàn)有的IIT方法很多都是把隱編碼(latent code)直接映射成圖像,這就需要十分復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和引入很多超參數(shù)。這篇文章提出把隱編碼當(dāng)做卷積濾波器的修飾器(和MUNIT相似),并保留傳統(tǒng)GAN的判別損失,需要控制的參數(shù)只有權(quán)衡生成圖像質(zhì)量和多樣性的這一個參數(shù)。這篇文章的貢獻(xiàn)和創(chuàng)新點(diǎn)可以概括為:
? 提出不用編碼器和重建損失,只保留傳統(tǒng)GAN的結(jié)構(gòu)和判別損失。本質(zhì)上抑制了模式崩潰的發(fā)生
? 較少的超參數(shù)和損失項,只有一個參數(shù)控制生成圖像的質(zhì)量和多樣性。
Multi-Channel Attention Selection GAN with Cascaded SemanticGuidance for Cross-View Image Translation
創(chuàng)新點(diǎn):
cross-view image translation:給出語義圖(物體輪廓)和場景圖,恢復(fù)出同一場景下語義圖視角的圖片。
1. 創(chuàng)新點(diǎn):
a之前的工作,生成的圖片重疊部分太多;有一個工作是用語義圖監(jiān)督圖像生成,但是由于語義圖不夠精確,因此生成圖片效果也不夠好。
b 貢獻(xiàn):A novel multi-channel attention selection GAN framework;
B novel multi-channel attention selection module
至于為什么multi-channel能refine the generated image,作者的解釋是:We argue that this is not
enough for the complex translation problem we are dealing with, and thus we explore using a larger generation space to have a richer synthesis via constructing multiple intermediate generations.
未完待續(xù)
總結(jié)
以上是生活随笔為你收集整理的GAN for Image-to-image translation 2019年文章综述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Android】Instant Run
- 下一篇: Star-GAN阅读笔记