Feature Statistics Mixing Regularization for Generative Adversarial Networks
這里寫目錄標(biāo)題
- Abstract
- 1. Introduction
- 2. Style-bias in GANs
- 2.2. Baseline: On-the-fly stylization
- 3. Proposed method
- 3.1. Preliminary: AdaIN
- 3.2. Feature statistics mixing regularization
- 3.3. Visualizing the effect of FSM
- 4. Experiments
- 4.1. Comparison with the on-the-fly stylization
- 4.2. Standard datasets
- 4.3. Small datasets.
- 5. Related Work
- 6. Limitation and Discussion
- 7. Conclusion
- References
Abstract
在生成對抗網(wǎng)絡(luò)中,改進(jìn)鑒別器是提高生成性能的關(guān)鍵因素之一。由于圖像分類器偏向于紋理,而消隱提高了準(zhǔn)確性,我們研究了1)鑒別器是否有偏差,以及2)如果消隱鑒別器將提高生成性能。事實(shí)上,我們發(fā)現(xiàn)經(jīng)驗(yàn)證據(jù)表明,鑒別器對圖像的風(fēng)格(例如紋理和顏色)很敏感。作為補(bǔ)救措施,我們提出了特征統(tǒng)計(jì)混合正則化(FSMR),鼓勵鑒別器的預(yù)測對輸入圖像的樣式保持不變。具體而言,我們在鑒別器的特征空間中生成原始圖像和參考圖像的混合特征,并應(yīng)用正則化,以便混合特征的預(yù)測與原始圖像的預(yù)測一致。我們進(jìn)行了大量實(shí)驗(yàn),以證明我們的正則化降低了對樣式的敏感性,并持續(xù)改進(jìn)了九個(gè)數(shù)據(jù)集上各種GAN架構(gòu)的性能。此外,將FSMR添加到最近提出的基于增強(qiáng)的GAN方法中,進(jìn)一步提高了圖像質(zhì)量。我們的代碼位于 https://github.com/naver-ai/FSMR.
1. Introduction
生成性對抗網(wǎng)絡(luò)(GANs)[8]在過去幾年中取得了重大發(fā)展,實(shí)現(xiàn)了許多計(jì)算機(jī)視覺和圖形應(yīng)用[4、5、14、22、23、25、31、44]。在精心設(shè)計(jì)的體系結(jié)構(gòu)之上[3、18、20、21、30、32、40],特定于GanS的數(shù)據(jù)增強(qiáng)和正則化技術(shù)是改進(jìn)的關(guān)鍵。正則化技術(shù)[9,15–17,28,29,41,43]通過懲罰輸入局部區(qū)域內(nèi)鑒別器輸出的急劇變化來穩(wěn)定訓(xùn)練動態(tài)。另一方面,數(shù)據(jù)增強(qiáng)技術(shù)[19,42]防止了鑒別器過度擬合,正如《分類法》中通常采用的那樣?通訊作者。干線。請注意,這兩項(xiàng)工作都旨在指導(dǎo)鑒別器不要專注于觀察的特定子集,而是概括整個(gè)數(shù)據(jù)分布。
紋理已經(jīng)被證明為分類器提供了強(qiáng)有力的提示[6,7,10]。如果這樣的提示足以達(dá)到高精度,那么模型往往無法了解預(yù)期任務(wù)的復(fù)雜性[2]。由于GAN鑒別器本質(zhì)上是分類器,我們假設(shè)它們也傾向于依賴紋理來分類真假圖像。因此,生成器將專注于合成被偏置鑒別器視為真實(shí)的紋理。在本文中,我們回答了兩個(gè)問題:1)鑒別器是否對風(fēng)格(例如紋理和顏色)敏感?2)如果是,對鑒別器進(jìn)行借記是否會提高生成性能?
為了回答第一個(gè)問題,我們定義了樣式距離,如圖1a所示。理想的鑒別器會產(chǎn)生較小的樣式距離,因?yàn)閮煞鶊D像具有相同的內(nèi)容。由于沒有度量單位,我們計(jì)算相對距離:樣式距離除以內(nèi)容距離。換句話說,我們用不同內(nèi)容的圖像之間距離的倍數(shù)來衡量對風(fēng)格的敏感性。令人驚訝的是,圖1b顯示所有基線在相對距離上都有明顯的值。
為了回答第二個(gè)問題,我們使用debias作為鑒別器并衡量生成性能的改善。借記的一種簡單方法是抑制鑒別器輸出中與輸入圖像樣式變化相關(guān)的差異。事實(shí)上,我們觀察到,在原始圖像與其樣式化版本之間的鑒別器上施加一致性損失[41,43]可以改進(jìn)生成器,因?yàn)槟7聝?nèi)容比模仿樣式更容易欺騙鑒別器。
然而,這種方法導(dǎo)致了其他困難:選擇樣式圖像的標(biāo)準(zhǔn)不明確,并且使用各種樣式引用對所有訓(xùn)練圖像進(jìn)行樣式化需要巨大的計(jì)算負(fù)擔(dān)和外部樣式數(shù)據(jù)集。為了有效解決風(fēng)格偏差問題,我們提出了特征統(tǒng)計(jì)混合正則化(FSMR),通過在discrim1 arXiv:2112.04120v2[cs.CV]2022年3月25日的inator中混合特征統(tǒng)計(jì),鼓勵鑒別器的預(yù)測對輸入圖像的風(fēng)格保持不變。具體來說,我們通過在鑒別器的中間層中組合原始和參考特征來生成混合特征,并在原始和混合特征的預(yù)測之間施加一致性。
在實(shí)驗(yàn)中,我們表明FSMR確實(shí)誘導(dǎo)鑒別器降低了對風(fēng)格的敏感性(第4.1節(jié))。然后,我們進(jìn)行了徹底的比較,以證明FSMR持續(xù)改進(jìn)了基準(zhǔn)數(shù)據(jù)集上的各種GAN方法(第4.2節(jié))。我們的方法可以很容易地應(yīng)用于任何環(huán)境,無需繁瑣的準(zhǔn)備工作。我們的實(shí)現(xiàn)和模型將在研究社區(qū)的網(wǎng)上公開。我們的貢獻(xiàn)總結(jié)如下:
- 據(jù)我們所知,我們的工作是第一次對性別歧視者進(jìn)行風(fēng)格偏差分析我們定義了相對距離度量來衡量對樣式的敏感性(第2節(jié))
- 我們提出了特征統(tǒng)計(jì)混合正則化(FSMR),這使得鑒別器的預(yù)測對樣式具有魯棒性(第3節(jié))
- FSMR不使用外部樣式圖像,優(yōu)于使用外部樣式圖像的簡單解決方案(第4.1節(jié))。
- FSMR改進(jìn)了關(guān)于FID和相對距離的所有標(biāo)準(zhǔn)和小型數(shù)據(jù)集的五條基線(第4.2、4.3節(jié))。
2. Style-bias in GANs
我們的工作是基于最近的發(fā)現(xiàn),即CNN對風(fēng)格而非內(nèi)容敏感,即當(dāng)風(fēng)格線索和內(nèi)容線索發(fā)生沖突時(shí),ImageNettrained CNN可能會做出風(fēng)格偏向的決定[7]。為了定量測量鑒別器對樣式的敏感程度,我們計(jì)算樣式距離、內(nèi)容距離,然后計(jì)算相對距離。之后,我們描述了一個(gè)簡單的基線解決方案,以減少鑒別器與樣式的距離。
我們?yōu)殍b別器對風(fēng)格的敏感程度定義了一個(gè)定量度量。首先,給定一組訓(xùn)練圖像,我們使用樣式轉(zhuǎn)換方法合成相同內(nèi)容的不同樣式化圖像。這些樣式是從WikiArt中隨機(jī)選擇的【1】。圖1a顯示了AFHQ的一些樣式化圖像示例【5】。我們定義了具有不同樣式和相同內(nèi)容的圖像之間的樣式距離ds。內(nèi)容距離dc的定義與此相反:
圖1.(a) 樣式轉(zhuǎn)換方法T(c,s)將s的樣式轉(zhuǎn)換為c的內(nèi)容。我們將樣式距離定義為由于樣式變化而產(chǎn)生的輸出差異。內(nèi)容距離是定義的,反之亦然。(b) 各種GAN方法的相對距離。相對距離表示鑒別器對樣式變化的敏感程度(等式3)。詳見第2節(jié)。
其中T(c,s)傳輸參考圖像s的樣式∈ RC×H×W到內(nèi)容圖像c∈ RC×H×W和d測量鑒別器最后一個(gè)特征向量中的余弦距離。在實(shí)踐中,我們使用自適應(yīng)實(shí)例規(guī)范化(AdaIN)[13]作為T。圖1說明了公式(1)和(2)中計(jì)算內(nèi)容和樣式距離的過程。
由于沒有測量單位,我們計(jì)算相對距離ρ,即樣式距離除以內(nèi)容距離:
其中C和S分別表示訓(xùn)練數(shù)據(jù)集和外部樣式數(shù)據(jù)集。ρ值越大,在對真假圖像進(jìn)行分類時(shí),鑒別器對樣式越敏感。從這里開始,我們將使用相對距離ρ進(jìn)行進(jìn)一步分析。我們的目標(biāo)是減少樣式距離,以便鑒別器認(rèn)為內(nèi)容更重要,并為生成器生成更豐富的梯度。
ImageNet預(yù)訓(xùn)練的ResNet50和用于分類樣式化ImageNet ResNet50的相對距離[7]支持度量的有效性。由于后者的相對距離小于前者,且后者被證明不太偏向于風(fēng)格,我們認(rèn)為相對距離較低的鑒別器對風(fēng)格的敏感度較低(數(shù)字推遲到第4.2節(jié))。
2.2. Baseline: On-the-fly stylization
防止分類器偏向于樣式的一種眾所周知的技術(shù)是使用樣式轉(zhuǎn)換版本來增強(qiáng)圖像,尤其是使用WikiArt數(shù)據(jù)集[1]作為樣式引用[7]。它之所以有效,是因?yàn)轱L(fēng)格轉(zhuǎn)換不會改變原始圖像的語義或網(wǎng)絡(luò)的預(yù)期輸出。另一方面,在GAN訓(xùn)練中,樣式轉(zhuǎn)換將圖像從原始數(shù)據(jù)分布中移出,從而改變鑒別器的預(yù)期輸出【19】。對于這種陷阱,有兩種解決方法:1)對真實(shí)和虛假數(shù)據(jù)應(yīng)用隨機(jī)增強(qiáng)[19,42],2)懲罰由增強(qiáng)引起的輸出差異,而不是將增強(qiáng)的圖像提供給鑒別器[41,43]。由于我們的目標(biāo)是使鑒別器對樣式變化不那么敏感,因此我們將第二種方法作為簡單的基線,例如,通過以下方式對原始圖像c及其隨機(jī)樣式化圖像T(c,s)之間的鑒別器施加一致性.
其中D(.)表示來自鑒別器的logit。然而,這也帶來了其他問題和困難:選擇樣式圖像的標(biāo)準(zhǔn)尚不明確,并且動態(tài)設(shè)置每個(gè)圖像的樣式需要額外的成本和外部數(shù)據(jù)集。另一種選擇是準(zhǔn)備一個(gè)樣式化的數(shù)據(jù)集,而不是動態(tài)樣式化,但它還需要非常大的存儲空間。為了解決這一問題,我們提出了一種有效且普遍有效的方法,即特征混合統(tǒng)計(jì)正則化,其詳細(xì)信息將在接下來的3節(jié)中描述。
3. Proposed method
我們首先對傳統(tǒng)的風(fēng)格轉(zhuǎn)換算法AdaIN進(jìn)行了初步描述。然后,我們討論了我們提出的特征統(tǒng)計(jì)混合正則化(FSMR)方法如何結(jié)合AdaIN來降低鑒別器對樣式的敏感性。
3.1. Preliminary: AdaIN
實(shí)例規(guī)范化(IN)[35]通過規(guī)范化特征統(tǒng)計(jì)信息來執(zhí)行一種形式的樣式刪除。Adaptive instance normalization(AdaIN)[13]擴(kuò)展到從內(nèi)容圖像中刪除現(xiàn)有樣式并傳輸給定樣式。具體而言,AdaIN將內(nèi)容特征貼圖x轉(zhuǎn)換為特征貼圖,其通道方向的均值和方差與樣式特征貼圖y的均值和方差相同:
其中x,y∈ RC×H×W是通過預(yù)訓(xùn)練編碼器獲得的特征,μ(·)和σ(·)表示它們的平均值和標(biāo)準(zhǔn)偏差,它們分別是為每個(gè)通道計(jì)算的空間尺寸。然后,通過一個(gè)經(jīng)過適當(dāng)訓(xùn)練的解碼器,變換后的特征成為一幅風(fēng)格化的圖像1。為了提高發(fā)電性能,在發(fā)電機(jī)內(nèi)采用AdaIN進(jìn)行了大量工作【5、14、20、22、23、25】。相反,我們提出的方法(FSMR)在鑒別器中使用它來實(shí)現(xiàn)高效正則化,如下所述。
3.2. Feature statistics mixing regularization
我們的目標(biāo)是使鑒別器不嚴(yán)重依賴輸入圖像的樣式,而不會遇到即時(shí)樣式化的困難(第2.2節(jié))。因此,我們提出了特征統(tǒng)計(jì)混合正則化(FSMR),它不需要任何外部數(shù)據(jù)集,并且可以根據(jù)鑒別器中的層操作有效地實(shí)現(xiàn)。FSMR使用另一個(gè)訓(xùn)練樣本在鑒別器中混合中間特征映射的平均值和標(biāo)準(zhǔn)偏差,并懲罰原始輸出和混合輸出之間的差異。
具體而言,我們將特征映射x相對于特征映射y的特征統(tǒng)計(jì)混合(FSM)定義為AdaIN,然后進(jìn)行線性插值:
其中α~ 均勻(0,1)控制特征擾動的強(qiáng)度。我們假設(shè),改變α可以讓鑒別器從各種正則化強(qiáng)度中學(xué)習(xí)。
將鑒別器的第i層表示為fi,將內(nèi)容圖像表示為c,將樣式參考圖像表示為s(從當(dāng)前小批量樣本中隨機(jī)選擇),我們通過FSM的前饋操作定義混合特征映射x和y:
然后,混合前饋通過具有n個(gè)卷積層的鑒別器的最終輸出logit變?yōu)?#xff1a;
給定原始輸出D(c)和混合輸出DFSM(c,s),我們將以損失來懲罰其差異:
圖2展示了FSMR的完整圖。在更新鑒別器參數(shù)時(shí),該損失被添加到對抗性損失中[8]。它對鑒別器進(jìn)行正則化,以在不同層次的特征的不同統(tǒng)計(jì)下產(chǎn)生一致的輸出。我們的LFSMR設(shè)計(jì)是通用的,因此可以與其他方法相結(jié)合【19、20、42】。如算法1所示,FSM只需幾行代碼即可實(shí)現(xiàn)。此外,我們在附錄C中提供了FSMR的類Tensorflow偽代碼。
3.3. Visualizing the effect of FSM
為了直觀地檢查FSM在鑒別器中的效果,我們訓(xùn)練了一個(gè)解碼器(與AdaIN[13]的結(jié)構(gòu)相同),該解碼器從原始鑒別器的32×32特征映射重建原始圖像。
在圖3中,內(nèi)容圖像通過與樣式圖像相關(guān)的所有層上具有FSM的鑒別器,以生成樣式化(即FSMed)中間特征。然后,學(xué)習(xí)解碼器根據(jù)FSMed特征合成結(jié)果圖像。
FSMed圖像具有與樣式圖像相似的全局樣式,但包含內(nèi)容圖像的語義。它的效果與AdaIN相似,但能更好地保留內(nèi)容的細(xì)節(jié)。我們認(rèn)為,鑒別器的關(guān)鍵是能夠?yàn)樯善魈峁└鎸?shí)的圖像梯度,從而獲得比即時(shí)樣式化基線更高質(zhì)量的圖像(第4.1節(jié))。
4. Experiments
我們使用五種GAN方法,如DCGAN【32】、bCRGAN【43】、StyleGAN2【21】、DiffAugment【42】和ADA【19】,對CIFAR-10【26】、FFHQ【20】、AFHQ【5】、CelebA HQ【18】、LSUN Church【37】和MetFaces【19】的六個(gè)數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn)。我們根據(jù)最近的實(shí)驗(yàn)設(shè)置選擇數(shù)據(jù)集和基線方法【19,42】。我們使用相對距離ρ(公式3)、弗雷切特起始距離(FID)[11]和起始分?jǐn)?shù)(IS)[33]作為評估指標(biāo)。當(dāng)我們計(jì)算FID時(shí),我們使用所有的訓(xùn)練樣本和相同數(shù)量的假樣本。所有基線方法都是使用作者提供的官方實(shí)現(xiàn)進(jìn)行培訓(xùn)的。詳見附錄A。接下來,我們將進(jìn)行徹底的實(shí)驗(yàn),以證明我們的方法優(yōu)于簡單的解決方案和基線。
4.1. Comparison with the on-the-fly stylization
在本節(jié)中,我們將我們的方法與on-Offly樣式化進(jìn)行比較,即在訓(xùn)練期間通過AdaIN生成樣式化圖像并應(yīng)用一致性正則化(第2.2節(jié))。為了實(shí)現(xiàn)這一點(diǎn),我們從WikiArt[1]中收集了100幅樣式圖像,并隨機(jī)抽取一幅,在培訓(xùn)期間對每幅圖像進(jìn)行樣式化。請注意,與on-thefly樣式化不同,FSMR不依賴外部樣式圖像。我們在五個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):CIFAR-10、CelebA HQ、FFHQ、AFHQ和LSUN Church。
表1比較了FID中正則化、動態(tài)樣式化和FSMR的效果。與基線相比,前者在一定程度上改善了FID,但在所有情況下,FSMR帶來的改善都更大。有關(guān)與其他網(wǎng)絡(luò)和數(shù)據(jù)集的比較,請參見附錄F。
為了測量鑒別器對樣式的敏感性,我們計(jì)算每種方法的相對距離ρ(公式3)。圖4顯示了CIFAR-10、FFHQ和AFHQ上的相對距離。正如人們很容易預(yù)料的那樣,利用樣式化的數(shù)據(jù)集會降低鑒別器對樣式的敏感性。值得注意的是,FSMR不僅持續(xù)降低敏感性,而且在所有情況下都優(yōu)于競爭對手。這是一個(gè)非常有意義的結(jié)果,因?yàn)镕SMR不使用任何外部樣式化的數(shù)據(jù)集,但在訓(xùn)練期間只使用原始圖像。我們還觀察到,在相同的環(huán)境中,較低的相對距離與較低的FID一致。
我們比較了表1中的時(shí)間和內(nèi)存成本。FSMR要求3.0~7.4%的額外訓(xùn)練時(shí)間,但飛行訓(xùn)練法需要17.2~26.8%的額外訓(xùn)練時(shí)間用于圖像樣式化中的額外前饋傳遞。此外,動態(tài)方法需要70.0~87.5%的額外GPU內(nèi)存用于存儲預(yù)訓(xùn)練的網(wǎng)絡(luò)和圖像樣式化功能,但FSMR只增加了微不足道的內(nèi)存(~2%)GPU內(nèi)存。為了避免在培訓(xùn)期間進(jìn)行動態(tài)樣式化的額外成本,我們可以在培訓(xùn)之前準(zhǔn)備樣式化數(shù)據(jù)集(即,不同的方法,但與動態(tài)樣式化具有相同的效果)。然而,如表2所示,提前進(jìn)行一對多樣式化需要大量計(jì)算和令人望而卻步的大量存儲。例如,要為具有100個(gè)樣式引用的1024×1024 FFHQ構(gòu)建樣式化數(shù)據(jù)集,我們需要處理和存儲7.0M(70k×100)以上的圖像(8.93TB)。
作為一項(xiàng)消融研究,我們推進(jìn)了更嚴(yán)格的正則化:使用隨機(jī)移動的特征映射代替FSM。我們觀察到,在AdaIN(方程式5)中使用任意平均值和標(biāo)準(zhǔn)偏差顯著阻礙了對抗生成器和鑒別器之間的訓(xùn)練,即訓(xùn)練發(fā)散。另一方面,使用印度支那樣本的FSMR顯示了預(yù)期的效果。
4.2. Standard datasets
我們在三個(gè)基準(zhǔn)數(shù)據(jù)集上評估了FSMR的有效性,所有這些數(shù)據(jù)集都有10k以上的訓(xùn)練圖像:CIFAR-10(50k)、FFHQ(70k)和AFHQ(16k)。表3(左)顯示,即使使用現(xiàn)有的增強(qiáng)技術(shù),FSMR也能持續(xù)改進(jìn)StyleGAN2【19,42】。我們強(qiáng)調(diào),FSMR通過AFHQ上的一個(gè)大間隙來增強(qiáng)基線,在這種情況下,鑒別器可能很容易偏向于動物的顏色和紋理。
圖5顯示了StyleGAN2變體在CIFAR-10、FFHQ和AFHQ上的相對距離。FSMR在所有情況下都減少了相對距離,他們同意FID的改進(jìn)。我們還提供了在ImageNet和樣式化ImageNet上預(yù)訓(xùn)練的ResNet50網(wǎng)絡(luò)的相對距離,作為每個(gè)數(shù)據(jù)集中的參考(第2.1節(jié))。由于相對距離越小,分類性能越高,鑒別器的相對距離越小,生成性能越高。
此外,表4表明,在StyleGAN2變體上應(yīng)用FSMR進(jìn)一步改進(jìn)了FID,并適用于CIFAR-10上的無條件和類條件生成。定性結(jié)果見圖6和附錄F。
4.3. Small datasets.
眾所周知,由于數(shù)據(jù)流形的覆蓋范圍有限,GAN很難在小型數(shù)據(jù)集上進(jìn)行訓(xùn)練。能夠在小數(shù)據(jù)集上訓(xùn)練GAN將導(dǎo)致各種應(yīng)用領(lǐng)域,為用戶提供豐富的合成體驗(yàn)。我們用五個(gè)小數(shù)據(jù)集嘗試了我們的方法,這些數(shù)據(jù)集由有限數(shù)量的訓(xùn)練圖像組成,如MetFaces(1k)、AFHQ Dog(5k)、AFHQ Cat(5k)。
AFHQ野生型(5k)。如表3(右)所示,我們可以觀察到,即使數(shù)據(jù)量很小,FSMR也能穩(wěn)定地改善所有基線模型的FID。定性結(jié)果見圖6和附錄F
5. Related Work
改進(jìn)鑒別器。雖然生成性對抗網(wǎng)絡(luò)[8]在其網(wǎng)絡(luò)架構(gòu)方面不斷發(fā)展[20、21、28、32],但將鑒別器規(guī)范化同時(shí)被視為穩(wěn)定其對抗訓(xùn)練的重要技術(shù)。示例包括實(shí)例噪聲【15】、梯度懲罰【9,28】、譜歸一化【29】、對比學(xué)習(xí)【16,17】和一致性正則化【41,43】。它們隱式或顯式地強(qiáng)制在輸入的某些擾動范圍內(nèi)對輸出進(jìn)行平滑更改。最近的方法使用數(shù)據(jù)增強(qiáng)技術(shù)來防止鑒別器過度擬合[19,42]。雖然它們顯式地增加了圖像,但我們的方法隱式地增加了鑒別器中的特征映射。此外,當(dāng)他們使用訓(xùn)練分類器中使用的標(biāo)準(zhǔn)變換時(shí),我們的方法使鑒別器規(guī)則化,以便在輸入圖像的樣式發(fā)生變化時(shí)產(chǎn)生小的變化,并有效防止鑒別器偏向樣式。
偏向風(fēng)格。卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練分類器[6、7、10]時(shí)偏向于風(fēng)格(紋理)。減少偏差的簡單解決方案是通過樣式轉(zhuǎn)移算法將樣本的紋理隨機(jī)化【7】。它是一種數(shù)據(jù)增強(qiáng)技術(shù),因?yàn)闃邮睫D(zhuǎn)換可以防止分類器過度擬合樣式,因?yàn)閹缀巫儞Q或顏色變換可以防止分類器過度擬合某些位置或顏色。由于簡單地干擾GAN訓(xùn)練中的數(shù)據(jù)分布會導(dǎo)致受干擾的偽分布[19],我們引入了一個(gè)具有隱式風(fēng)格化特征的額外前向傳遞,并在輸出中施加與原始前向傳遞的一致性(等式10)。雖然我們混合的線性插值類似于混音[39],但我們不插值目標(biāo)輸出,只軟化特征統(tǒng)計(jì)中的變化。
樣式混合正則化(Style mixing Regulation)[20]可能與FSMR相似,因?yàn)樗€混合了兩種樣式。它在生成器中混合樣式,并鼓勵生成器生成混合圖像,用于生成器和鑒別器的對抗性訓(xùn)練。其目標(biāo)是劃分各層的作用,對性能幾乎沒有影響(4.42→4.40,FFHQ,StyleGAN,1024x1024分辨率)。另一方面,FSMR隱式地在鑒別器中混合樣式,并通過對鑒別器施加一致性正則化來抑制對樣式的敏感性。FSMR對性能改進(jìn)有很大影響(5.52→3.72,FFHQ,StyleGAN2,256x256分辨率)。
6. Limitation and Discussion
如各種實(shí)驗(yàn)所示,我們發(fā)現(xiàn)鑒別器對樣式有偏差,這使得可以通過相對距離度量進(jìn)行數(shù)值表示。然而,我們還沒有找到每個(gè)模型應(yīng)該減少多少相對距離的最佳值。我們通過圖5中的參考值觀察到,盡管我們無法找到最佳值,但相對距離減小時(shí)的關(guān)系,對樣式的偏差減小。我們提出了FSMR,它減少了只使用內(nèi)部訓(xùn)練數(shù)據(jù)集而不使用外部數(shù)據(jù)集的風(fēng)格偏差,并證明了FSMR非常簡單而有效。在今后的工作中,有必要尋找相對距離的最佳值,并統(tǒng)一不同模型之間的相對距離。
7. Conclusion
我們觀察到鑒別器偏向于風(fēng)格。為了定量測量偏差量,我們提出了相對距離,即風(fēng)格距離除以內(nèi)容距離。雖然使用簡單的一致性正則化和樣式轉(zhuǎn)換方法減少樣式偏差會導(dǎo)致歧義和困難,但我們的特征統(tǒng)計(jì)混合正則化(FSMR)提供了一種簡單有效的解決方案。重要的是,FSMR不會明確地將圖像樣式化,但會干擾鑒別器中的中間特征8。我們將FSMR的效果可視化,并定量分析其相對靈敏度行為。實(shí)驗(yàn)表明,即使結(jié)合最新的技術(shù),我們的方法也能持續(xù)改進(jìn)各種網(wǎng)絡(luò)架構(gòu)。
致謝作者感謝NA VER AI實(shí)驗(yàn)室研究人員和朱俊安(Jun-Y an Zhu)的建設(shè)性討論。所有實(shí)驗(yàn)均在NA-VER智能機(jī)器學(xué)習(xí)(NSML)平臺上進(jìn)行【24,34】。這項(xiàng)工作得到了IITP撥款(編號:2021-0-00155)和NRF撥款(NRF-2021R1G1A1095637)的部分支持。這兩項(xiàng)贈款均由韓國政府(MSIT)資助。
References
[1] Wikiart. https://www.kaggle.com/c/painter-
by-numbers. 2, 3, 5
[2] Hyojin Bahng, Sanghyuk Chun, Sangdoo Y un, Jaegul Choo,
and Seong Joon Oh. Learning de-biased representations with
biased representations. In ICML, 2020. 1
[3] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large
scale gan training for high fidelity natural image synthesis.
In ICLR, 2019. 1
[4] Y unjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha,
Sunghun Kim, and Jaegul Choo. Stargan: Unified genera-
tive adversarial networks for multi-domain image-to-image
translation. In CVPR, 2018. 1
[5] Y unjey Choi, Y oungjung Uh, Jaejun Y oo, and Jung-Woo Ha.
Stargan v2: Diverse image synthesis for multiple domains.
In CVPR, 2020. 1, 2, 4, 5
[6] Leon A Gatys, Alexander S Ecker, and Matthias Bethge.
Texture synthesis using convolutional neural networks. In
NeurIPS, 2015. 1, 8
[7] Robert Geirhos, Patricia Rubisch, Claudio Michaelis,
Matthias Bethge, Felix A Wichmann, and Wieland Brendel.
Imagenet-trained cnns are biased towards texture; increasing
shape bias improves accuracy and robustness. In ICLR, 2019.
1, 2, 3, 7, 8
[8] Ian J Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing
Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville,
and Y oshua Bengio. Generative adversarial networks. In
NeurIPS, 2014. 1, 4, 7
[9] Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, Vincent
Dumoulin, and Aaron Courville. Improved training of
wasserstein gans. In NeurIPS, 2017. 1, 7
[10] Katherine L Hermann, Ting Chen, and Simon Kornblith. The
origins and prevalence of texture bias in convolutional neural
networks. In NeurIPS, 2020. 1, 8
[11] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,
Bernhard Nessler, and Sepp Hochreiter. Gans trained by a
two time-scale update rule converge to a local nash equilib-
rium. In NeurIPS, 2017. 5, 11
[12] Minui Hong, Jinwoo Choi, and Gunhee Kim. Stylemix: Sep-
arating content and style for enhanced data augmentation. In
CVPR, 2021. 12
[13] Xun Huang and Serge Belongie. Arbitrary style transfer in
real-time with adaptive instance normalization. In ICCV,
2017. 2, 4, 5, 12
[14] Xun Huang, Ming-Y u Liu, Serge Belongie, and Jan Kautz.
Multimodal unsupervised image-to-image translation. In
ECCV, 2018. 1, 4
[15] Simon Jenni and Paolo Favaro. On stabilizing generative
adversarial training with noise. In CVPR, 2019. 1, 7
[16] Jongheon Jeong and Jinwoo Shin. Training gans with
stronger augmentations via contrastive discriminator. In
ICLR, 2021. 1, 7
[17] Minguk Kang and Jaesik Park. Contragan: Contrastive learn-
ing for conditional image generation. In NeurIPS, 2020. 1,
7
9
[18] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen.
Progressive growing of gans for improved quality, stability,
and variation. In ICLR, 2018. 1, 5
[19] Tero Karras, Miika Aittala, Janne Hellsten, Samuli Laine,
Jaakko Lehtinen, and Timo Aila. Training generative ad-
versarial networks with limited data. In NeurIPS, 2020. 1, 3,
4, 5, 6, 7, 8
[20] Tero Karras, Samuli Laine, and Timo Aila. A style-based
generator architecture for generative adversarial networks. In
CVPR, 2019. 1, 4, 5, 7, 8
[21] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,
Jaakko Lehtinen, and Timo Aila. Analyzing and improving
the image quality of stylegan. In CVPR, 2020. 1, 5, 7
[22] Hyunsu Kim, Y unjey Choi, Junho Kim, Sungjoo Y oo, and
Y oungjung Uh. Exploiting spatial dimensions of latent in
gan for real-time image editing. In CVPR, 2021. 1, 4
[23] Hyunsu Kim, Ho Y oung Jhoo, Eunhyeok Park, and Sungjoo
Y oo. Tag2pix: Line art colorization using text tag with secat
and changing loss. In ICCV, 2019. 1, 4
[24] Hanjoo Kim, Minkyu Kim, Dongjoo Seo, Jinwoong Kim,
Heungseok Park, Soeun Park, Hyunwoo Jo, KyungHyun
Kim, Y oungil Yang, Y oungkwan Kim, et al. Nsml: Meet the
mlaas platform with a real-world case study. arXiv preprint
arXiv:1810.09957, 2018. 9
[25] Junho Kim, Minjae Kim, Hyeonwoo Kang, and Kwang Hee
Lee. U-gat-it: Unsupervised generative attentional net-
works with adaptive layer-instance normalization for image-
to-image translation. In ICLR, 2020. 1, 4
[26] Alex Krizhevsky, Geoffrey Hinton, et al. Learning multiple
layers of features from tiny images. 2009. 5
[27] Boyi Li, Felix Wu, Ser-Nam Lim, Serge Belongie, and Kil-
ian Q Weinberger. On feature normalization and data aug-
mentation. In CVPR, 2021. 12
[28] Lars Mescheder, Andreas Geiger, and Sebastian Nowozin.
Which training methods for gans do actually converge? In
ICML, 2018. 1, 7
[29] Takeru Miyato, Toshiki Kataoka, Masanori Koyama, and
Y uichi Y oshida. Spectral normalization for generative ad-
versarial networks. In ICLR, 2018. 1, 7
[30] Takeru Miyato and Masanori Koyama. cgans with projection
discriminator. In ICLR, 2018. 1
[31] Taesung Park, Ming-Y u Liu, Ting-Chun Wang, and Jun-Yan
Zhu. Semantic image synthesis with spatially-adaptive nor-
malization. In CVPR, 2019. 1
[32] Alec Radford, Luke Metz, and Soumith Chintala. Unsuper-
vised representation learning with deep convolutional gener-
ative adversarial networks. In ICLR, 2016. 1, 5, 7
[33] Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki
Cheung, Alec Radford, and Xi Chen. Improved techniques
for training gans. In NeurIPS, 2016. 5, 11
[34] Nako Sung, Minkyu Kim, Hyunwoo Jo, Y oungil Yang, Jing-
woong Kim, Leonard Lausen, Y oungkwan Kim, Gayoung
Lee, Donghyun Kwak, Jung-Woo Ha, et al. Nsml: A ma-
chine learning platform that enables you to focus on your
models. arXiv preprint arXiv:1712.05902, 2017. 9
[35] Dmitry Ulyanov, Andrea V edaldi, and Victor Lempitsky. In-
stance normalization: The missing ingredient for fast styliza-
tion. arXiv preprint arXiv:1607.08022, 2016. 4
[36] Vikas V erma, Alex Lamb, Christopher Beckham, Amir Na-
jafi, Ioannis Mitliagkas, David Lopez-Paz, and Yoshua Ben-
gio. Manifold mixup: Better representations by interpolating
hidden states. In ICML, 2019. 11
[37] Fisher Y u, Yinda Zhang, Shuran Song, Ari Seff, and Jianx-
iong Xiao. Lsun: Construction of a large-scale image dataset
using deep learning with humans in the loop. arXiv preprint
arXiv:1506.03365, 2015. 5
[38] Sangdoo Y un, Dongyoon Han, Seong Joon Oh, Sanghyuk
Chun, Junsuk Choe, and Y oungjoon Y oo. Cutmix: Regu-
larization strategy to train strong classifiers with localizable
features. In ICCV, 2019. 11
[39] Hongyi Zhang, Moustapha Cisse, Yann N Dauphin, and
David Lopez-Paz. mixup: Beyond empirical risk minimiza-
tion. In ICLR, 2018. 8, 11
[40] Han Zhang, Ian Goodfellow, Dimitris Metaxas, and Augus-
tus Odena. Self-attention generative adversarial networks. In
ICML, 2019. 1
[41] Han Zhang, Zizhao Zhang, Augustus Odena, and Honglak
Lee. Consistency regularization for generative adversarial
networks. In ICLR, 2020. 1, 3, 7
[42] Shengyu Zhao, Zhijian Liu, Ji Lin, Jun-Yan Zhu, and Song
Han. Differentiable augmentation for data-efficient gan
training. In NeurIPS, 2020. 1, 3, 4, 5, 6, 7
[43] Zhengli Zhao, Sameer Singh, Honglak Lee, Zizhao Zhang,
Augustus Odena, and Han Zhang. Improved consistency reg-
ularization for gans. In AAAI, 2021. 1, 3, 5, 7
[44] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A
Efros. Unpaired image-to-image translation using cycle-
consistent adversarial networks. In ICCV, 2016. 1
總結(jié)
以上是生活随笔為你收集整理的Feature Statistics Mixing Regularization for Generative Adversarial Networks的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java 正则提取及替换字符串
- 下一篇: [Leetcode][第632题][JA