當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Feature Statistics Mixing Regularization for Generative Adversarial Networks

發(fā)布時(shí)間：2023/12/10 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 Feature Statistics Mixing Regularization for Generative Adversarial Networks 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

這里寫目錄標(biāo)題

Abstract
1. Introduction
2. Style-bias in GANs
2.2. Baseline: On-the-fly stylization
3. Proposed method
3.1. Preliminary: AdaIN
3.2. Feature statistics mixing regularization
3.3. Visualizing the effect of FSM
4. Experiments
4.1. Comparison with the on-the-fly stylization
4.2. Standard datasets
4.3. Small datasets.
5. Related Work
6. Limitation and Discussion
7. Conclusion
References

Abstract

在生成對抗網(wǎng)絡(luò)中，改進(jìn)鑒別器是提高生成性能的關(guān)鍵因素之一。由于圖像分類器偏向于紋理，而消隱提高了準(zhǔn)確性，我們研究了1）鑒別器是否有偏差，以及2）如果消隱鑒別器將提高生成性能。事實(shí)上，我們發(fā)現(xiàn)經(jīng)驗(yàn)證據(jù)表明，鑒別器對圖像的風(fēng)格（例如紋理和顏色）很敏感。作為補(bǔ)救措施，我們提出了特征統(tǒng)計(jì)混合正則化（FSMR），鼓勵鑒別器的預(yù)測對輸入圖像的樣式保持不變。具體而言，我們在鑒別器的特征空間中生成原始圖像和參考圖像的混合特征，并應(yīng)用正則化，以便混合特征的預(yù)測與原始圖像的預(yù)測一致。我們進(jìn)行了大量實(shí)驗(yàn)，以證明我們的正則化降低了對樣式的敏感性，并持續(xù)改進(jìn)了九個(gè)數(shù)據(jù)集上各種GAN架構(gòu)的性能。此外，將FSMR添加到最近提出的基于增強(qiáng)的GAN方法中，進(jìn)一步提高了圖像質(zhì)量。我們的代碼位于 https://github.com/naver-ai/FSMR.

1. Introduction

生成性對抗網(wǎng)絡(luò)（GANs）[8]在過去幾年中取得了重大發(fā)展，實(shí)現(xiàn)了許多計(jì)算機(jī)視覺和圖形應(yīng)用[4、5、14、22、23、25、31、44]。在精心設(shè)計(jì)的體系結(jié)構(gòu)之上[3、18、20、21、30、32、40]，特定于GanS的數(shù)據(jù)增強(qiáng)和正則化技術(shù)是改進(jìn)的關(guān)鍵。正則化技術(shù)[9,15–17,28,29,41,43]通過懲罰輸入局部區(qū)域內(nèi)鑒別器輸出的急劇變化來穩(wěn)定訓(xùn)練動態(tài)。另一方面，數(shù)據(jù)增強(qiáng)技術(shù)[19，42]防止了鑒別器過度擬合，正如《分類法》中通常采用的那樣?通訊作者。干線。請注意，這兩項(xiàng)工作都旨在指導(dǎo)鑒別器不要專注于觀察的特定子集，而是概括整個(gè)數(shù)據(jù)分布。

紋理已經(jīng)被證明為分類器提供了強(qiáng)有力的提示[6,7,10]。如果這樣的提示足以達(dá)到高精度，那么模型往往無法了解預(yù)期任務(wù)的復(fù)雜性[2]。由于GAN鑒別器本質(zhì)上是分類器，我們假設(shè)它們也傾向于依賴紋理來分類真假圖像。因此，生成器將專注于合成被偏置鑒別器視為真實(shí)的紋理。在本文中，我們回答了兩個(gè)問題：1）鑒別器是否對風(fēng)格（例如紋理和顏色）敏感？2）如果是，對鑒別器進(jìn)行借記是否會提高生成性能？

為了回答第一個(gè)問題，我們定義了樣式距離，如圖1a所示。理想的鑒別器會產(chǎn)生較小的樣式距離，因?yàn)閮煞鶊D像具有相同的內(nèi)容。由于沒有度量單位，我們計(jì)算相對距離：樣式距離除以內(nèi)容距離。換句話說，我們用不同內(nèi)容的圖像之間距離的倍數(shù)來衡量對風(fēng)格的敏感性。令人驚訝的是，圖1b顯示所有基線在相對距離上都有明顯的值。

為了回答第二個(gè)問題，我們使用debias作為鑒別器并衡量生成性能的改善。借記的一種簡單方法是抑制鑒別器輸出中與輸入圖像樣式變化相關(guān)的差異。事實(shí)上，我們觀察到，在原始圖像與其樣式化版本之間的鑒別器上施加一致性損失[41,43]可以改進(jìn)生成器，因?yàn)槟７聝?nèi)容比模仿樣式更容易欺騙鑒別器。

然而，這種方法導(dǎo)致了其他困難：選擇樣式圖像的標(biāo)準(zhǔn)不明確，并且使用各種樣式引用對所有訓(xùn)練圖像進(jìn)行樣式化需要巨大的計(jì)算負(fù)擔(dān)和外部樣式數(shù)據(jù)集。為了有效解決風(fēng)格偏差問題，我們提出了特征統(tǒng)計(jì)混合正則化（FSMR），通過在discrim1 arXiv:2112.04120v2[cs.CV]2022年3月25日的inator中混合特征統(tǒng)計(jì)，鼓勵鑒別器的預(yù)測對輸入圖像的風(fēng)格保持不變。具體來說，我們通過在鑒別器的中間層中組合原始和參考特征來生成混合特征，并在原始和混合特征的預(yù)測之間施加一致性。

在實(shí)驗(yàn)中，我們表明FSMR確實(shí)誘導(dǎo)鑒別器降低了對風(fēng)格的敏感性（第4.1節(jié)）。然后，我們進(jìn)行了徹底的比較，以證明FSMR持續(xù)改進(jìn)了基準(zhǔn)數(shù)據(jù)集上的各種GAN方法（第4.2節(jié)）。我們的方法可以很容易地應(yīng)用于任何環(huán)境，無需繁瑣的準(zhǔn)備工作。我們的實(shí)現(xiàn)和模型將在研究社區(qū)的網(wǎng)上公開。我們的貢獻(xiàn)總結(jié)如下：

據(jù)我們所知，我們的工作是第一次對性別歧視者進(jìn)行風(fēng)格偏差分析我們定義了相對距離度量來衡量對樣式的敏感性（第2節(jié)）
我們提出了特征統(tǒng)計(jì)混合正則化（FSMR），這使得鑒別器的預(yù)測對樣式具有魯棒性（第3節(jié)）
FSMR不使用外部樣式圖像，優(yōu)于使用外部樣式圖像的簡單解決方案（第4.1節(jié)）。
FSMR改進(jìn)了關(guān)于FID和相對距離的所有標(biāo)準(zhǔn)和小型數(shù)據(jù)集的五條基線（第4.2、4.3節(jié)）。

2. Style-bias in GANs

我們的工作是基于最近的發(fā)現(xiàn)，即CNN對風(fēng)格而非內(nèi)容敏感，即當(dāng)風(fēng)格線索和內(nèi)容線索發(fā)生沖突時(shí)，ImageNettrained CNN可能會做出風(fēng)格偏向的決定[7]。為了定量測量鑒別器對樣式的敏感程度，我們計(jì)算樣式距離、內(nèi)容距離，然后計(jì)算相對距離。之后，我們描述了一個(gè)簡單的基線解決方案，以減少鑒別器與樣式的距離。

我們?yōu)殍b別器對風(fēng)格的敏感程度定義了一個(gè)定量度量。首先，給定一組訓(xùn)練圖像，我們使用樣式轉(zhuǎn)換方法合成相同內(nèi)容的不同樣式化圖像。這些樣式是從WikiArt中隨機(jī)選擇的【1】。圖1a顯示了AFHQ的一些樣式化圖像示例【5】。我們定義了具有不同樣式和相同內(nèi)容的圖像之間的樣式距離ds。內(nèi)容距離dc的定義與此相反：

圖1.（a）樣式轉(zhuǎn)換方法T（c，s）將s的樣式轉(zhuǎn)換為c的內(nèi)容。我們將樣式距離定義為由于樣式變化而產(chǎn)生的輸出差異。內(nèi)容距離是定義的，反之亦然。（b）各種GAN方法的相對距離。相對距離表示鑒別器對樣式變化的敏感程度（等式3）。詳見第2節(jié)。

其中T（c，s）傳輸參考圖像s的樣式∈ RC×H×W到內(nèi)容圖像c∈ RC×H×W和d測量鑒別器最后一個(gè)特征向量中的余弦距離。在實(shí)踐中，我們使用自適應(yīng)實(shí)例規(guī)范化（AdaIN）[13]作為T。圖1說明了公式（1）和（2）中計(jì)算內(nèi)容和樣式距離的過程。

由于沒有測量單位，我們計(jì)算相對距離ρ，即樣式距離除以內(nèi)容距離：

其中C和S分別表示訓(xùn)練數(shù)據(jù)集和外部樣式數(shù)據(jù)集。ρ值越大，在對真假圖像進(jìn)行分類時(shí)，鑒別器對樣式越敏感。從這里開始，我們將使用相對距離ρ進(jìn)行進(jìn)一步分析。我們的目標(biāo)是減少樣式距離，以便鑒別器認(rèn)為內(nèi)容更重要，并為生成器生成更豐富的梯度。

ImageNet預(yù)訓(xùn)練的ResNet50和用于分類樣式化ImageNet ResNet50的相對距離[7]支持度量的有效性。由于后者的相對距離小于前者，且后者被證明不太偏向于風(fēng)格，我們認(rèn)為相對距離較低的鑒別器對風(fēng)格的敏感度較低（數(shù)字推遲到第4.2節(jié)）。

2.2. Baseline: On-the-fly stylization

防止分類器偏向于樣式的一種眾所周知的技術(shù)是使用樣式轉(zhuǎn)換版本來增強(qiáng)圖像，尤其是使用WikiArt數(shù)據(jù)集[1]作為樣式引用[7]。它之所以有效，是因?yàn)轱L(fēng)格轉(zhuǎn)換不會改變原始圖像的語義或網(wǎng)絡(luò)的預(yù)期輸出。另一方面，在GAN訓(xùn)練中，樣式轉(zhuǎn)換將圖像從原始數(shù)據(jù)分布中移出，從而改變鑒別器的預(yù)期輸出【19】。對于這種陷阱，有兩種解決方法：1）對真實(shí)和虛假數(shù)據(jù)應(yīng)用隨機(jī)增強(qiáng)[19，42]，2）懲罰由增強(qiáng)引起的輸出差異，而不是將增強(qiáng)的圖像提供給鑒別器[41，43]。由于我們的目標(biāo)是使鑒別器對樣式變化不那么敏感，因此我們將第二種方法作為簡單的基線，例如，通過以下方式對原始圖像c及其隨機(jī)樣式化圖像T（c，s）之間的鑒別器施加一致性.

其中D（.）表示來自鑒別器的logit。然而，這也帶來了其他問題和困難：選擇樣式圖像的標(biāo)準(zhǔn)尚不明確，并且動態(tài)設(shè)置每個(gè)圖像的樣式需要額外的成本和外部數(shù)據(jù)集。另一種選擇是準(zhǔn)備一個(gè)樣式化的數(shù)據(jù)集，而不是動態(tài)樣式化，但它還需要非常大的存儲空間。為了解決這一問題，我們提出了一種有效且普遍有效的方法，即特征混合統(tǒng)計(jì)正則化，其詳細(xì)信息將在接下來的3節(jié)中描述。

3. Proposed method

我們首先對傳統(tǒng)的風(fēng)格轉(zhuǎn)換算法AdaIN進(jìn)行了初步描述。然后，我們討論了我們提出的特征統(tǒng)計(jì)混合正則化（FSMR）方法如何結(jié)合AdaIN來降低鑒別器對樣式的敏感性。

3.1. Preliminary: AdaIN

實(shí)例規(guī)范化（IN）[35]通過規(guī)范化特征統(tǒng)計(jì)信息來執(zhí)行一種形式的樣式刪除。Adaptive instance normalization（AdaIN）[13]擴(kuò)展到從內(nèi)容圖像中刪除現(xiàn)有樣式并傳輸給定樣式。具體而言，AdaIN將內(nèi)容特征貼圖x轉(zhuǎn)換為特征貼圖，其通道方向的均值和方差與樣式特征貼圖y的均值和方差相同：

其中x，y∈ RC×H×W是通過預(yù)訓(xùn)練編碼器獲得的特征，μ（·）和σ（·）表示它們的平均值和標(biāo)準(zhǔn)偏差，它們分別是為每個(gè)通道計(jì)算的空間尺寸。然后，通過一個(gè)經(jīng)過適當(dāng)訓(xùn)練的解碼器，變換后的特征成為一幅風(fēng)格化的圖像1。為了提高發(fā)電性能，在發(fā)電機(jī)內(nèi)采用AdaIN進(jìn)行了大量工作【5、14、20、22、23、25】。相反，我們提出的方法（FSMR）在鑒別器中使用它來實(shí)現(xiàn)高效正則化，如下所述。

3.2. Feature statistics mixing regularization

我們的目標(biāo)是使鑒別器不嚴(yán)重依賴輸入圖像的樣式，而不會遇到即時(shí)樣式化的困難（第2.2節(jié)）。因此，我們提出了特征統(tǒng)計(jì)混合正則化（FSMR），它不需要任何外部數(shù)據(jù)集，并且可以根據(jù)鑒別器中的層操作有效地實(shí)現(xiàn)。FSMR使用另一個(gè)訓(xùn)練樣本在鑒別器中混合中間特征映射的平均值和標(biāo)準(zhǔn)偏差，并懲罰原始輸出和混合輸出之間的差異。
具體而言，我們將特征映射x相對于特征映射y的特征統(tǒng)計(jì)混合（FSM）定義為AdaIN，然后進(jìn)行線性插值：

其中α～均勻（0，1）控制特征擾動的強(qiáng)度。我們假設(shè)，改變α可以讓鑒別器從各種正則化強(qiáng)度中學(xué)習(xí)。
將鑒別器的第i層表示為fi，將內(nèi)容圖像表示為c，將樣式參考圖像表示為s（從當(dāng)前小批量樣本中隨機(jī)選擇），我們通過FSM的前饋操作定義混合特征映射x和y：

然后，混合前饋通過具有n個(gè)卷積層的鑒別器的最終輸出logit變?yōu)?#xff1a;

給定原始輸出D（c）和混合輸出DFSM（c，s），我們將以損失來懲罰其差異：

圖2展示了FSMR的完整圖。在更新鑒別器參數(shù)時(shí)，該損失被添加到對抗性損失中[8]。它對鑒別器進(jìn)行正則化，以在不同層次的特征的不同統(tǒng)計(jì)下產(chǎn)生一致的輸出。我們的LFSMR設(shè)計(jì)是通用的，因此可以與其他方法相結(jié)合【19、20、42】。如算法1所示，FSM只需幾行代碼即可實(shí)現(xiàn)。此外，我們在附錄C中提供了FSMR的類Tensorflow偽代碼。

3.3. Visualizing the effect of FSM

為了直觀地檢查FSM在鑒別器中的效果，我們訓(xùn)練了一個(gè)解碼器（與AdaIN[13]的結(jié)構(gòu)相同），該解碼器從原始鑒別器的32×32特征映射重建原始圖像。
在圖3中，內(nèi)容圖像通過與樣式圖像相關(guān)的所有層上具有FSM的鑒別器，以生成樣式化（即FSMed）中間特征。然后，學(xué)習(xí)解碼器根據(jù)FSMed特征合成結(jié)果圖像。
FSMed圖像具有與樣式圖像相似的全局樣式，但包含內(nèi)容圖像的語義。它的效果與AdaIN相似，但能更好地保留內(nèi)容的細(xì)節(jié)。我們認(rèn)為，鑒別器的關(guān)鍵是能夠?yàn)樯善魈峁└鎸?shí)的圖像梯度，從而獲得比即時(shí)樣式化基線更高質(zhì)量的圖像（第4.1節(jié)）。

4. Experiments

我們使用五種GAN方法，如DCGAN【32】、bCRGAN【43】、StyleGAN2【21】、DiffAugment【42】和ADA【19】，對CIFAR-10【26】、FFHQ【20】、AFHQ【5】、CelebA HQ【18】、LSUN Church【37】和MetFaces【19】的六個(gè)數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn)。我們根據(jù)最近的實(shí)驗(yàn)設(shè)置選擇數(shù)據(jù)集和基線方法【19,42】。我們使用相對距離ρ（公式3）、弗雷切特起始距離（FID）[11]和起始分?jǐn)?shù)（IS）[33]作為評估指標(biāo)。當(dāng)我們計(jì)算FID時(shí)，我們使用所有的訓(xùn)練樣本和相同數(shù)量的假樣本。所有基線方法都是使用作者提供的官方實(shí)現(xiàn)進(jìn)行培訓(xùn)的。詳見附錄A。接下來，我們將進(jìn)行徹底的實(shí)驗(yàn)，以證明我們的方法優(yōu)于簡單的解決方案和基線。

4.1. Comparison with the on-the-fly stylization

在本節(jié)中，我們將我們的方法與on-Offly樣式化進(jìn)行比較，即在訓(xùn)練期間通過AdaIN生成樣式化圖像并應(yīng)用一致性正則化（第2.2節(jié)）。為了實(shí)現(xiàn)這一點(diǎn)，我們從WikiArt[1]中收集了100幅樣式圖像，并隨機(jī)抽取一幅，在培訓(xùn)期間對每幅圖像進(jìn)行樣式化。請注意，與on-thefly樣式化不同，FSMR不依賴外部樣式圖像。我們在五個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)：CIFAR-10、CelebA HQ、FFHQ、AFHQ和LSUN Church。

表1比較了FID中正則化、動態(tài)樣式化和FSMR的效果。與基線相比，前者在一定程度上改善了FID，但在所有情況下，FSMR帶來的改善都更大。有關(guān)與其他網(wǎng)絡(luò)和數(shù)據(jù)集的比較，請參見附錄F。

為了測量鑒別器對樣式的敏感性，我們計(jì)算每種方法的相對距離ρ（公式3）。圖4顯示了CIFAR-10、FFHQ和AFHQ上的相對距離。正如人們很容易預(yù)料的那樣，利用樣式化的數(shù)據(jù)集會降低鑒別器對樣式的敏感性。值得注意的是，FSMR不僅持續(xù)降低敏感性，而且在所有情況下都優(yōu)于競爭對手。這是一個(gè)非常有意義的結(jié)果，因?yàn)镕SMR不使用任何外部樣式化的數(shù)據(jù)集，但在訓(xùn)練期間只使用原始圖像。我們還觀察到，在相同的環(huán)境中，較低的相對距離與較低的FID一致。

我們比較了表1中的時(shí)間和內(nèi)存成本。FSMR要求3.0～7.4%的額外訓(xùn)練時(shí)間，但飛行訓(xùn)練法需要17.2～26.8%的額外訓(xùn)練時(shí)間用于圖像樣式化中的額外前饋傳遞。此外，動態(tài)方法需要70.0～87.5%的額外GPU內(nèi)存用于存儲預(yù)訓(xùn)練的網(wǎng)絡(luò)和圖像樣式化功能，但FSMR只增加了微不足道的內(nèi)存(～2%）GPU內(nèi)存。為了避免在培訓(xùn)期間進(jìn)行動態(tài)樣式化的額外成本，我們可以在培訓(xùn)之前準(zhǔn)備樣式化數(shù)據(jù)集（即，不同的方法，但與動態(tài)樣式化具有相同的效果）。然而，如表2所示，提前進(jìn)行一對多樣式化需要大量計(jì)算和令人望而卻步的大量存儲。例如，要為具有100個(gè)樣式引用的1024×1024 FFHQ構(gòu)建樣式化數(shù)據(jù)集，我們需要處理和存儲7.0M（70k×100）以上的圖像（8.93TB）。

作為一項(xiàng)消融研究，我們推進(jìn)了更嚴(yán)格的正則化：使用隨機(jī)移動的特征映射代替FSM。我們觀察到，在AdaIN（方程式5）中使用任意平均值和標(biāo)準(zhǔn)偏差顯著阻礙了對抗生成器和鑒別器之間的訓(xùn)練，即訓(xùn)練發(fā)散。另一方面，使用印度支那樣本的FSMR顯示了預(yù)期的效果。

4.2. Standard datasets

我們在三個(gè)基準(zhǔn)數(shù)據(jù)集上評估了FSMR的有效性，所有這些數(shù)據(jù)集都有10k以上的訓(xùn)練圖像：CIFAR-10（50k）、FFHQ（70k）和AFHQ（16k）。表3（左）顯示，即使使用現(xiàn)有的增強(qiáng)技術(shù)，FSMR也能持續(xù)改進(jìn)StyleGAN2【19,42】。我們強(qiáng)調(diào)，FSMR通過AFHQ上的一個(gè)大間隙來增強(qiáng)基線，在這種情況下，鑒別器可能很容易偏向于動物的顏色和紋理。

圖5顯示了StyleGAN2變體在CIFAR-10、FFHQ和AFHQ上的相對距離。FSMR在所有情況下都減少了相對距離，他們同意FID的改進(jìn)。我們還提供了在ImageNet和樣式化ImageNet上預(yù)訓(xùn)練的ResNet50網(wǎng)絡(luò)的相對距離，作為每個(gè)數(shù)據(jù)集中的參考（第2.1節(jié)）。由于相對距離越小，分類性能越高，鑒別器的相對距離越小，生成性能越高。

此外，表4表明，在StyleGAN2變體上應(yīng)用FSMR進(jìn)一步改進(jìn)了FID，并適用于CIFAR-10上的無條件和類條件生成。定性結(jié)果見圖6和附錄F。

4.3. Small datasets.

眾所周知，由于數(shù)據(jù)流形的覆蓋范圍有限，GAN很難在小型數(shù)據(jù)集上進(jìn)行訓(xùn)練。能夠在小數(shù)據(jù)集上訓(xùn)練GAN將導(dǎo)致各種應(yīng)用領(lǐng)域，為用戶提供豐富的合成體驗(yàn)。我們用五個(gè)小數(shù)據(jù)集嘗試了我們的方法，這些數(shù)據(jù)集由有限數(shù)量的訓(xùn)練圖像組成，如MetFaces（1k）、AFHQ Dog（5k）、AFHQ Cat（5k）。

AFHQ野生型（5k）。如表3（右）所示，我們可以觀察到，即使數(shù)據(jù)量很小，FSMR也能穩(wěn)定地改善所有基線模型的FID。定性結(jié)果見圖6和附錄F

5. Related Work

改進(jìn)鑒別器。雖然生成性對抗網(wǎng)絡(luò)[8]在其網(wǎng)絡(luò)架構(gòu)方面不斷發(fā)展[20、21、28、32]，但將鑒別器規(guī)范化同時(shí)被視為穩(wěn)定其對抗訓(xùn)練的重要技術(shù)。示例包括實(shí)例噪聲【15】、梯度懲罰【9，28】、譜歸一化【29】、對比學(xué)習(xí)【16，17】和一致性正則化【41，43】。它們隱式或顯式地強(qiáng)制在輸入的某些擾動范圍內(nèi)對輸出進(jìn)行平滑更改。最近的方法使用數(shù)據(jù)增強(qiáng)技術(shù)來防止鑒別器過度擬合[19,42]。雖然它們顯式地增加了圖像，但我們的方法隱式地增加了鑒別器中的特征映射。此外，當(dāng)他們使用訓(xùn)練分類器中使用的標(biāo)準(zhǔn)變換時(shí)，我們的方法使鑒別器規(guī)則化，以便在輸入圖像的樣式發(fā)生變化時(shí)產(chǎn)生小的變化，并有效防止鑒別器偏向樣式。

偏向風(fēng)格。卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練分類器[6、7、10]時(shí)偏向于風(fēng)格（紋理）。減少偏差的簡單解決方案是通過樣式轉(zhuǎn)移算法將樣本的紋理隨機(jī)化【7】。它是一種數(shù)據(jù)增強(qiáng)技術(shù)，因?yàn)闃邮睫D(zhuǎn)換可以防止分類器過度擬合樣式，因?yàn)閹缀巫儞Q或顏色變換可以防止分類器過度擬合某些位置或顏色。由于簡單地干擾GAN訓(xùn)練中的數(shù)據(jù)分布會導(dǎo)致受干擾的偽分布[19]，我們引入了一個(gè)具有隱式風(fēng)格化特征的額外前向傳遞，并在輸出中施加與原始前向傳遞的一致性（等式10）。雖然我們混合的線性插值類似于混音[39]，但我們不插值目標(biāo)輸出，只軟化特征統(tǒng)計(jì)中的變化。

樣式混合正則化（Style mixing Regulation）[20]可能與FSMR相似，因?yàn)樗€混合了兩種樣式。它在生成器中混合樣式，并鼓勵生成器生成混合圖像，用于生成器和鑒別器的對抗性訓(xùn)練。其目標(biāo)是劃分各層的作用，對性能幾乎沒有影響（4.42→4.40，FFHQ，StyleGAN，1024x1024分辨率）。另一方面，FSMR隱式地在鑒別器中混合樣式，并通過對鑒別器施加一致性正則化來抑制對樣式的敏感性。FSMR對性能改進(jìn)有很大影響（5.52→3.72，FFHQ，StyleGAN2，256x256分辨率）。

6. Limitation and Discussion

如各種實(shí)驗(yàn)所示，我們發(fā)現(xiàn)鑒別器對樣式有偏差，這使得可以通過相對距離度量進(jìn)行數(shù)值表示。然而，我們還沒有找到每個(gè)模型應(yīng)該減少多少相對距離的最佳值。我們通過圖5中的參考值觀察到，盡管我們無法找到最佳值，但相對距離減小時(shí)的關(guān)系，對樣式的偏差減小。我們提出了FSMR，它減少了只使用內(nèi)部訓(xùn)練數(shù)據(jù)集而不使用外部數(shù)據(jù)集的風(fēng)格偏差，并證明了FSMR非常簡單而有效。在今后的工作中，有必要尋找相對距離的最佳值，并統(tǒng)一不同模型之間的相對距離。

7. Conclusion

我們觀察到鑒別器偏向于風(fēng)格。為了定量測量偏差量，我們提出了相對距離，即風(fēng)格距離除以內(nèi)容距離。雖然使用簡單的一致性正則化和樣式轉(zhuǎn)換方法減少樣式偏差會導(dǎo)致歧義和困難，但我們的特征統(tǒng)計(jì)混合正則化（FSMR）提供了一種簡單有效的解決方案。重要的是，FSMR不會明確地將圖像樣式化，但會干擾鑒別器中的中間特征8。我們將FSMR的效果可視化，并定量分析其相對靈敏度行為。實(shí)驗(yàn)表明，即使結(jié)合最新的技術(shù)，我們的方法也能持續(xù)改進(jìn)各種網(wǎng)絡(luò)架構(gòu)。

致謝作者感謝NA VER AI實(shí)驗(yàn)室研究人員和朱俊安（Jun-Y an Zhu）的建設(shè)性討論。所有實(shí)驗(yàn)均在NA-VER智能機(jī)器學(xué)習(xí)（NSML）平臺上進(jìn)行【24，34】。這項(xiàng)工作得到了IITP撥款（編號：2021-0-00155）和NRF撥款（NRF-2021R1G1A1095637）的部分支持。這兩項(xiàng)贈款均由韓國政府（MSIT）資助。

References

[1] Wikiart. https://www.kaggle.com/c/painter-
by-numbers. 2, 3, 5
[2] Hyojin Bahng, Sanghyuk Chun, Sangdoo Y un, Jaegul Choo,
and Seong Joon Oh. Learning de-biased representations with
biased representations. In ICML, 2020. 1
[3] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large
scale gan training for high fidelity natural image synthesis.
In ICLR, 2019. 1
[4] Y unjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha,
Sunghun Kim, and Jaegul Choo. Stargan: Unified genera-
tive adversarial networks for multi-domain image-to-image
translation. In CVPR, 2018. 1
[5] Y unjey Choi, Y oungjung Uh, Jaejun Y oo, and Jung-Woo Ha.
Stargan v2: Diverse image synthesis for multiple domains.
In CVPR, 2020. 1, 2, 4, 5
[6] Leon A Gatys, Alexander S Ecker, and Matthias Bethge.
Texture synthesis using convolutional neural networks. In
NeurIPS, 2015. 1, 8
[7] Robert Geirhos, Patricia Rubisch, Claudio Michaelis,
Matthias Bethge, Felix A Wichmann, and Wieland Brendel.
Imagenet-trained cnns are biased towards texture; increasing
shape bias improves accuracy and robustness. In ICLR, 2019.
1, 2, 3, 7, 8
[8] Ian J Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing
Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville,
and Y oshua Bengio. Generative adversarial networks. In
NeurIPS, 2014. 1, 4, 7
[9] Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, Vincent
Dumoulin, and Aaron Courville. Improved training of
wasserstein gans. In NeurIPS, 2017. 1, 7
[10] Katherine L Hermann, Ting Chen, and Simon Kornblith. The
origins and prevalence of texture bias in convolutional neural
networks. In NeurIPS, 2020. 1, 8
[11] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,
Bernhard Nessler, and Sepp Hochreiter. Gans trained by a
two time-scale update rule converge to a local nash equilib-
rium. In NeurIPS, 2017. 5, 11
[12] Minui Hong, Jinwoo Choi, and Gunhee Kim. Stylemix: Sep-
arating content and style for enhanced data augmentation. In
CVPR, 2021. 12
[13] Xun Huang and Serge Belongie. Arbitrary style transfer in
real-time with adaptive instance normalization. In ICCV,
2017. 2, 4, 5, 12
[14] Xun Huang, Ming-Y u Liu, Serge Belongie, and Jan Kautz.
Multimodal unsupervised image-to-image translation. In
ECCV, 2018. 1, 4
[15] Simon Jenni and Paolo Favaro. On stabilizing generative
adversarial training with noise. In CVPR, 2019. 1, 7
[16] Jongheon Jeong and Jinwoo Shin. Training gans with
stronger augmentations via contrastive discriminator. In
ICLR, 2021. 1, 7
[17] Minguk Kang and Jaesik Park. Contragan: Contrastive learn-
ing for conditional image generation. In NeurIPS, 2020. 1,
7
9
[18] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen.
Progressive growing of gans for improved quality, stability,
and variation. In ICLR, 2018. 1, 5
[19] Tero Karras, Miika Aittala, Janne Hellsten, Samuli Laine,
Jaakko Lehtinen, and Timo Aila. Training generative ad-
versarial networks with limited data. In NeurIPS, 2020. 1, 3,
4, 5, 6, 7, 8
[20] Tero Karras, Samuli Laine, and Timo Aila. A style-based
generator architecture for generative adversarial networks. In
CVPR, 2019. 1, 4, 5, 7, 8
[21] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,
Jaakko Lehtinen, and Timo Aila. Analyzing and improving
the image quality of stylegan. In CVPR, 2020. 1, 5, 7
[22] Hyunsu Kim, Y unjey Choi, Junho Kim, Sungjoo Y oo, and
Y oungjung Uh. Exploiting spatial dimensions of latent in
gan for real-time image editing. In CVPR, 2021. 1, 4
[23] Hyunsu Kim, Ho Y oung Jhoo, Eunhyeok Park, and Sungjoo
Y oo. Tag2pix: Line art colorization using text tag with secat
and changing loss. In ICCV, 2019. 1, 4
[24] Hanjoo Kim, Minkyu Kim, Dongjoo Seo, Jinwoong Kim,
Heungseok Park, Soeun Park, Hyunwoo Jo, KyungHyun
Kim, Y oungil Yang, Y oungkwan Kim, et al. Nsml: Meet the
mlaas platform with a real-world case study. arXiv preprint
arXiv:1810.09957, 2018. 9
[25] Junho Kim, Minjae Kim, Hyeonwoo Kang, and Kwang Hee
Lee. U-gat-it: Unsupervised generative attentional net-
works with adaptive layer-instance normalization for image-
to-image translation. In ICLR, 2020. 1, 4
[26] Alex Krizhevsky, Geoffrey Hinton, et al. Learning multiple
layers of features from tiny images. 2009. 5
[27] Boyi Li, Felix Wu, Ser-Nam Lim, Serge Belongie, and Kil-
ian Q Weinberger. On feature normalization and data aug-
mentation. In CVPR, 2021. 12
[28] Lars Mescheder, Andreas Geiger, and Sebastian Nowozin.
Which training methods for gans do actually converge? In
ICML, 2018. 1, 7
[29] Takeru Miyato, Toshiki Kataoka, Masanori Koyama, and
Y uichi Y oshida. Spectral normalization for generative ad-
versarial networks. In ICLR, 2018. 1, 7
[30] Takeru Miyato and Masanori Koyama. cgans with projection
discriminator. In ICLR, 2018. 1
[31] Taesung Park, Ming-Y u Liu, Ting-Chun Wang, and Jun-Yan
Zhu. Semantic image synthesis with spatially-adaptive nor-
malization. In CVPR, 2019. 1
[32] Alec Radford, Luke Metz, and Soumith Chintala. Unsuper-
vised representation learning with deep convolutional gener-
ative adversarial networks. In ICLR, 2016. 1, 5, 7
[33] Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki
Cheung, Alec Radford, and Xi Chen. Improved techniques
for training gans. In NeurIPS, 2016. 5, 11
[34] Nako Sung, Minkyu Kim, Hyunwoo Jo, Y oungil Yang, Jing-
woong Kim, Leonard Lausen, Y oungkwan Kim, Gayoung
Lee, Donghyun Kwak, Jung-Woo Ha, et al. Nsml: A ma-
chine learning platform that enables you to focus on your
models. arXiv preprint arXiv:1712.05902, 2017. 9
[35] Dmitry Ulyanov, Andrea V edaldi, and Victor Lempitsky. In-
stance normalization: The missing ingredient for fast styliza-
tion. arXiv preprint arXiv:1607.08022, 2016. 4
[36] Vikas V erma, Alex Lamb, Christopher Beckham, Amir Na-
jafi, Ioannis Mitliagkas, David Lopez-Paz, and Yoshua Ben-
gio. Manifold mixup: Better representations by interpolating
hidden states. In ICML, 2019. 11
[37] Fisher Y u, Yinda Zhang, Shuran Song, Ari Seff, and Jianx-
iong Xiao. Lsun: Construction of a large-scale image dataset
using deep learning with humans in the loop. arXiv preprint
arXiv:1506.03365, 2015. 5
[38] Sangdoo Y un, Dongyoon Han, Seong Joon Oh, Sanghyuk
Chun, Junsuk Choe, and Y oungjoon Y oo. Cutmix: Regu-
larization strategy to train strong classifiers with localizable
features. In ICCV, 2019. 11
[39] Hongyi Zhang, Moustapha Cisse, Yann N Dauphin, and
David Lopez-Paz. mixup: Beyond empirical risk minimiza-
tion. In ICLR, 2018. 8, 11
[40] Han Zhang, Ian Goodfellow, Dimitris Metaxas, and Augus-
tus Odena. Self-attention generative adversarial networks. In
ICML, 2019. 1
[41] Han Zhang, Zizhao Zhang, Augustus Odena, and Honglak
Lee. Consistency regularization for generative adversarial
networks. In ICLR, 2020. 1, 3, 7
[42] Shengyu Zhao, Zhijian Liu, Ji Lin, Jun-Yan Zhu, and Song
Han. Differentiable augmentation for data-efficient gan
training. In NeurIPS, 2020. 1, 3, 4, 5, 6, 7
[43] Zhengli Zhao, Sameer Singh, Honglak Lee, Zizhao Zhang,
Augustus Odena, and Han Zhang. Improved consistency reg-
ularization for gans. In AAAI, 2021. 1, 3, 5, 7
[44] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A
Efros. Unpaired image-to-image translation using cycle-
consistent adversarial networks. In ICCV, 2016. 1

總結(jié)

以上是生活随笔為你收集整理的Feature Statistics Mixing Regularization for Generative Adversarial Networks的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： java 正则提取及替换字符串
下一篇： [Leetcode][第632题][JA