风格迁移篇--StarGAN:用于多域图像到图像翻译的统一生成对抗网络
文章目錄
- Abstract
- 1. Introduction
- 2. Related Work
- 3. Star Generative Adversarial Networks
- 3.1. Multi-Domain Image-to-Image Translation
- 3.2. Training with Multiple Datasets
- 4. Implementation
- 5. Experiments
- 5.1. Baseline Models
- 5.2. Datasets
- 5.3. Training
- 5.4. Experimental Results on CelebA
- 5.5. Experimental Results on RaFD
- 5.6. Experimental Results on CelebA+RaFD
- 6. Conclusion
Abstract
最近的研究表明,在兩個領域的圖像到圖像的翻譯取得了顯著的成功。然而,現(xiàn)有方法在處理兩個以上的域時具有有限的可擴展性和魯棒性,因為應為每對圖像域獨立構建不同的模型。為了解決這一局限性,我們提出了StarGAN,這是一種新穎且可擴展的方法,可以僅使用單個模型對多個域執(zhí)行圖像到圖像的翻譯。StarGAN的這種統(tǒng)一模型架構允許在單個網絡中同時訓練具有不同域的多個數(shù)據(jù)集。這使得StarGAN的翻譯圖像質量優(yōu)于現(xiàn)有模型,并且能夠靈活地將輸入圖像翻譯到任何所需的目標域。我們通過實驗證明了我們的方法在面部屬性轉移和面部表情合成任務中的有效性。
1. Introduction
圖像到圖像翻譯的任務是將給定圖像的特定方面更改為另一個方面,例如,將人的面部表情從微笑更改為皺眉(見圖1)。隨著生成對抗網絡(GAN)的引入,這項任務經歷了重大改進,結果包括改變頭發(fā)顏色[8]、從邊緣地圖重建照片[7]和改變風景圖像的季節(jié)[32]。
給定來自兩個不同域的訓練數(shù)據(jù),這些模型學習將圖像從一個域轉換到另一個域。我們將術語屬性表示為圖像中固有的有意義的特征,例如頭發(fā)顏色、性別或年齡,將屬性值表示為屬性的特定值,例如黑色/金發(fā)/棕色表示頭發(fā)顏色,或男性/女性表示性別。我們進一步將域表示為共享相同屬性值的一組圖像。例如,女性的圖像可以代表一個領域,而男性的圖像代表另一個領域。
幾個圖像數(shù)據(jù)集附帶了許多標記屬性。例如,CelebA[18]數(shù)據(jù)集包含40個與頭發(fā)顏色、性別和年齡等面部屬性相關的標簽,而RaFD[12]數(shù)據(jù)集包含8個面部表情標簽,例如“高興”、“憤怒”和“悲傷”。這些設置使我們能夠執(zhí)行更有趣的任務,即多域圖像到圖像的翻譯,其中我們根據(jù)多個域的屬性更改圖像。圖1中的前五列顯示了如何根據(jù)四個域中的任何一個來翻譯CelebA圖像,“金發(fā)”、“性別”、“年齡”和“蒼白皮膚”。我們可以進一步擴展到從不同數(shù)據(jù)集訓練多個域,例如聯(lián)合訓練CelebA和RaFD圖像,以使用通過RaFD訓練學習的特征來改變CelebA圖像的面部表情,如圖1最右邊的列所示。
然而,現(xiàn)有模型在此類多域圖像翻譯任務中既低效又無效。其效率低下的原因是為了學習k個域之間的所有映射,k(k?1) 發(fā)電機必須經過培訓。圖2說明了必須如何訓練十二個不同的生成器網絡以在四個不同的域之間翻譯圖像。同時,即使存在可以從所有域(如人臉形狀)的圖像中學習的全局特征,每個生成器也無法充分利用整個訓練數(shù)據(jù),只能從k個域中的兩個域中學習,這是無效的。未能充分利用訓練數(shù)據(jù)可能會限制生成圖像的質量。此外,它們無法從不同的數(shù)據(jù)集中聯(lián)合訓練域,因為每個數(shù)據(jù)集都有部分標記,我們將在第3.2節(jié)中進一步討論。
為了解決這些問題,我們提出了StarGAN,一種能夠學習多個域之間映射的生成對抗網絡。如圖2(b)所示,我們的模型接受多個域的訓練數(shù)據(jù),并僅使用一個生成器學習所有可用域之間的映射。這個想法很簡單。我們的模型沒有學習固定的翻譯(例如,從黑色到金色的頭發(fā)),而是將圖像和域信息作為輸入,并學習將輸入圖像靈活地翻譯到相應的域中。我們使用標簽(例如二進制或onehot向量)來表示域信息。在訓練過程中,我們隨機生成目標域標簽,并訓練模型將輸入圖像靈活地轉換到目標域。通過這樣做,我們可以控制域標簽,并在測試階段將圖像轉換為任何所需的域。
我們還介紹了一種簡單但有效的方法,通過在域標簽中添加掩碼向量來實現(xiàn)不同數(shù)據(jù)集的域之間的聯(lián)合訓練。我們提出的方法確保了該模型可以忽略未知標簽,并專注于特定數(shù)據(jù)集提供的標簽。通過這種方式,我們的模型可以很好地執(zhí)行任務,例如合成CelebA圖像的面部表情(a)跨域模型21 4 3 G21 G12 G41 G14 G32 G23 G34 G43 2 1 5 4 3(b)StarGAN圖2。跨域模型與我們提出的StarGAN模型之間的比較。(a) 為了處理多個域,應該為每一對圖像域建立跨域模型。(b) StarGAN能夠使用單個生成器學習多個域之間的映射。該圖表示連接多個域的星形拓撲。
從RaFD學習的ing特征,如圖1最右邊的列所示。據(jù)我們所知,我們的工作是第一次成功地跨不同數(shù)據(jù)集執(zhí)行多域圖像翻譯。
總的來說,我們的貢獻如下:
- 我們提出了StarGAN,這是一種新的生成對抗網絡,它僅使用單個生成器和鑒別器學習多個域之間的映射,并從所有域的圖像中進行有效訓練
- 我們演示了如何利用掩碼向量方法成功學習多個數(shù)據(jù)集之間的多域圖像轉換,該方法使StarGAN能夠控制所有可用的域標簽
- 我們使用StarGAN提供了人臉屬性轉移和人臉表情合成任務的定性和定量結果,顯示了其優(yōu)于基線模型。
[圖2:跨域模型與我們提出的StarGAN模型之間的比較。(a) 為了處理多個域,應該為每一對圖像域建立跨域模型。(b) StarGAN能夠使用單個生成器學習多個域之間的映射。該圖表示連接多個域的星形拓撲。]
2. Related Work
生成性對抗網絡。生成對抗網絡(GAN)[3]在各種計算機視覺任務中取得了顯著的成果,如圖像生成[1、6、23、31]、圖像翻譯[7、8、32]、超分辨率成像[13]和人臉圖像合成[9、15、25、30]。典型的氮化鎵模型由兩個模塊組成:鑒別器和發(fā)生器。鑒別器學習區(qū)分真實和虛假樣本,而生成器學習生成與真實樣本無法區(qū)分的虛假樣本。我們的方法還利用了對抗性損失,使生成的圖像盡可能逼真。
有條件的GAN。基于GAN的條件圖像生成也得到了積極的研究。先前的研究為鑒別器和生成器提供了類信息,以便生成以類為條件的樣本[19, 20, 21]. 最近的其他方法側重于生成與給定文本描述高度相關的特定圖像[24,29]。條件圖像生成的思想也已成功應用于域轉移[8,27]、超分辨率成像[13]和照片編輯[2,26]。在本文中,我們提出了一種可擴展的GAN框架,通過提供條件域信息,可以靈活地將圖像轉換到各種目標域。
圖像到圖像的翻譯。最近的工作在圖像到圖像的翻譯方面取得了令人印象深刻的成果[7、8、16、32]。例如,pix2pix[7]使用CGAN[19]以有監(jiān)督的方式學習該任務。它將對抗性損失與L1損失相結合,因此需要成對的數(shù)據(jù)樣本。為了緩解獲取數(shù)據(jù)對的問題,提出了未配對圖像到圖像的翻譯框架[8、16、32]。單元[16]將變分自動編碼器(V AEs)[11]與CoGAN[17]相結合,CoGAN[17]是一種GAN框架,其中兩個生成器共享權重,以學習圖像在跨域中的聯(lián)合分布。CycleGAN[32]和DiscoGAN[8]利用循環(huán)一致性損失來保留輸入和翻譯圖像之間的關鍵屬性。然而,所有這些框架一次只能學習兩個不同領域之間的關系。他們的方法在處理多個域時具有有限的可擴展性,因為應該為每對域訓練不同的模型。與上述方法不同,我們的框架可以僅使用單個模型來學習多個領域之間的關系。
[圖3。StarGAN的概述,由兩個模塊組成,一個鑒別器D和一個生成器G。(a)D學習區(qū)分真實圖像和虛假圖像,并將真實圖像分類到其相應的域。(b) G接收圖像和目標域標簽作為輸入,并生成假圖像。目標域標簽在空間上復制并與輸入圖像連接。(c) G嘗試從給定原始域標簽的偽圖像重建原始圖像。(d) G試圖生成與真實圖像無法區(qū)分的圖像,并通過d分類為目標域]
3. Star Generative Adversarial Networks
我們首先描述了我們提出的StarGAN,一個在單個數(shù)據(jù)集中解決多域圖像到圖像轉換的框架。然后,我們討論了StarGAN如何整合包含不同標簽集的多個數(shù)據(jù)集,以便使用這些標簽中的任何一個靈活地執(zhí)行圖像翻譯。
3.1. Multi-Domain Image-to-Image Translation
我們的目標是訓練學習多個域之間映射的單個生成器G。為了實現(xiàn)這一點,我們訓練G將輸入圖像x轉換為以目標域標簽c,G(x,c)為條件的輸出圖像y→ y、 我們隨機生成目標域標簽c,以便G學習靈活地翻譯輸入圖像。我們還引入了一個輔助分類器[21],它允許單個鑒別器控制多個域。也就是說,我們的鑒別器在信源和域標簽上產生概率分布,D:x→ {Dsrc(x),Dcls(x)}。圖3說明了我們提出的方法的訓練過程。
對抗性損失。為了使生成的圖像與真實圖像無法區(qū)分,我們采用了對抗性損失:
其中,G生成以輸入圖像x和目標域標簽c為條件的圖像G(x,c),而D試圖區(qū)分真實圖像和虛假圖像。在本文中,我們將術語Dsrc(x)稱為D給出的信源上的概率分布。生成器G試圖將該目標最小化38791,而鑒別器D試圖將其最大化。
域分類丟失。對于給定的輸入圖像x和目標域標簽c,我們的目標是將x轉換為輸出圖像y,該圖像y被正確分類到目標域c。為了實現(xiàn)此條件,我們在D的頂部添加了一個輔助分類器,并在優(yōu)化D和G時施加域分類損失。也就是說,我們將目標分解為兩項:用于優(yōu)化D的真實圖像的域分類損失和用于優(yōu)化G的虛假圖像的域分類損失。具體而言,前者定義為:
其中,術語Dcls(c′|x)表示由D計算的域標簽上的概率分布。通過最小化該目標,D學習將真實圖像x分類到其相應的原始域c′。我們假設輸入圖像和域標簽對(x,c′)由訓練數(shù)據(jù)給出。另一方面,偽圖像域分類的損失函數(shù)定義為:
重建損失。通過最小化對抗和分類損失,訓練G生成逼真的圖像,并將其分類到正確的目標域。然而,最小化損失(等式(1)和(3))并不能保證翻譯后的圖像在僅更改輸入的域相關部分的同時保留其輸入圖像的內容。為了緩解這個問題,我們對生成器應用了循環(huán)一致性損失[8,32],定義為:
其中,G以翻譯圖像G(x,c)和原始域標簽c′作為輸入,并嘗試重建原始圖像x。我們采用L1范數(shù)作為重建損失。注意,我們使用單個生成器兩次,首先將原始圖像轉換為目標域中的圖像,然后從轉換后的圖像重建原始圖像。
全面目標。最后,分別編寫優(yōu)化G和D的目標函數(shù),如下所示:
其中λcls和λrec是超參數(shù),分別控制域分類和重建損失相對于對抗損失的相對重要性。我們在所有實驗中使用λcls=1和λrec=10。
3.2. Training with Multiple Datasets
StarGAN的一個重要優(yōu)點是,它同時合并了包含不同類型標簽的多個數(shù)據(jù)集,因此StarGAN可以在測試階段控制所有標簽。然而,從多個數(shù)據(jù)集學習時的一個問題是,每個數(shù)據(jù)集只知道部分標簽信息。在CelebA[18]和RaFD[12]的情況下,前者包含諸如頭發(fā)顏色和性別等屬性的標簽,但它沒有任何諸如“高興”和“憤怒”等面部表情的標簽,反之亦然。這是有問題的,因為當從翻譯圖像G(x,c)重建輸入圖像x時,需要標簽向量c′上的完整信息(參見等式(4))。
**掩碼向量。**為了緩解這個問題,我們引入了掩碼向量m,該向量允許StarGAN忽略未指定的標簽,并專注于特定數(shù)據(jù)集提供的顯式已知標簽。在StarGAN中,我們使用n維一維熱向量來表示m,其中n是數(shù)據(jù)集的數(shù)量。此外,我們將標簽的統(tǒng)一版本定義為向量。
其中[·]表示串聯(lián),ci表示第i個數(shù)據(jù)集標簽的向量。已知標簽ci的向量可以表示為二進制屬性的二進制向量或分類屬性的單熱向量。對于剩余的n?1未知標簽我們只分配零值。在我們的實驗中,我們利用了CelebA和RaFD數(shù)據(jù)集,其中n為2。
培訓策略。當使用多個數(shù)據(jù)集訓練StarGAN時,我們使用等式(7)中定義的域標簽▄c作為生成器的輸入。通過這樣做,生成器學習忽略未指定的標簽(零向量),并專注于顯式給定的標簽。生成器的結構與使用單個數(shù)據(jù)集進行訓練時的結構完全相同,但輸入標簽的維數(shù)除外。另一方面,我們擴展了鑒別器的輔助分類器,以生成所有數(shù)據(jù)集標簽上的概率分布。然后,我們在多任務學習環(huán)境中訓練模型,其中鑒別器嘗試僅最小化與已知標簽相關的分類錯誤。例如,當使用CelebA中的圖像進行訓練時,鑒別器僅最小化與CelebA屬性相關的標簽的分類錯誤,而不最小化與RaFD相關的面部表情。在這些設置下,通過在CelebA和RaFD之間交替,鑒別器學習兩個數(shù)據(jù)集中的所有判別特征,生成器學習控制兩個數(shù)據(jù)集中的所有標簽。
4. Implementation
改進了GAN訓練。為了穩(wěn)定訓練過程并生成更高質量的圖像,我們將等式(1)替換為具有梯度懲罰[1,4]的Wasserstein-GAN目標,定義為:
其中?x沿一對真實圖像和生成圖像之間的直線均勻采樣。我們在所有實驗中使用λgp=10。
**網絡架構。**改編自[32],StarGAN具有由兩個步長為2的卷積層(用于下采樣)、六個殘差塊[5]和兩個步長為2的轉置卷積層(用于上采樣)組成的生成器網絡。我們對生成器使用實例歸一化[28],但對鑒別器不使用歸一化。我們利用PatchGANs[7,14,32]作為鑒別器網絡,該網絡將局部圖像補丁劃分為真實還是虛假。見附錄(第節(jié))有關網絡架構的更多詳細信息。
5. Experiments
在本節(jié)中,我們首先通過進行用戶研究,將StarGAN與最近的人臉屬性轉移方法進行比較。接下來,我們對面部表情合成進行了分類實驗。最后,我們證明了實驗結果,StarGAN可以從多個數(shù)據(jù)集學習圖像到圖像的翻譯。我們的所有實驗都是在訓練階段使用從看不見的圖像中輸出的模型進行的。
5.1. Baseline Models
作為我們的基線模型,我們采用DIA T[15]和CycleGAN[32],這兩種模型都在兩個不同的域之間執(zhí)行圖像到圖像的轉換。為了進行比較,我們針對兩個不同領域的每一對對對這些模型進行了多次訓練。我們還采用IcGAN[22]作為基線,可以使用cGAN[21]執(zhí)行屬性轉移。
DIAT使用對抗性損失從x學習映射∈ X到y(tǒng)∈ Y,其中x和Y分別是兩個不同域x和Y中的人臉圖像。該方法在映射上有一個正則項,即| | x? F(G(x))||1保留源圖像的身份特征,其中F是在人臉識別任務中預訓練的特征提取器。
CycleGAN還使用對抗損失來學習兩個不同域X和Y之間的映射。該方法通過循環(huán)一致性損失| | x正則化映射? (GY X(GXY(X)))|1和||y? (GXY(GY X(y))||1。該方法需要兩個生成器和鑒別器,用于兩個不同域的每對。
IcGAN將編碼器與cGAN[21]模型相結合。cGAN學習映射G:{z,c}→ x生成以潛在向量z和條件向量c為條件的圖像x。此外,IcGAN引入編碼器來學習cGAN的逆映射,Ez:x→ z和Ec:x→ c、 這使得IcGAN只需改變條件向量并保留潛在向量即可合成圖像。
5.2. Datasets
CelebA.。CelebFaces Attributes(CelebA)數(shù)據(jù)集[18]包含202599張名人的面部圖像,每個圖像都帶有40個二進制屬性的注釋。我們將最初的178×218大小的圖像裁剪為178×178,然后將其調整為128×128。我們隨機選擇2000幅圖像作為測試集,并使用所有剩余圖像作為訓練數(shù)據(jù)。我們使用以下屬性構建了七個域:頭發(fā)顏色(黑色、金色、棕色)、性別(男性/女性)和年齡(年輕/老年)。
RaFD.Radboud人臉數(shù)據(jù)庫(RaFD)[12]由從67名參與者收集的4824張圖像組成。每個參與者在三個不同的注視方向上做出八個面部表情,從三個不同的角度捕捉。我們將圖像裁剪為256×256,其中面居中,然后將其大小調整為128×128。
5.3. Training
所有模型均使用Adam[10]進行訓練,β1=0.5,β2=0.999。對于數(shù)據(jù)增強,我們以0.5的概率水平翻轉圖像。我們在五次鑒別器更新之后執(zhí)行一次生成器更新,如[4]所示。所有實驗的批量大小都設置為16。對于CelebA的實驗,我們在前10個階段以0.0001的學習率訓練所有模型,并在接下來的10個階段將學習率線性衰減為0。為了彌補數(shù)據(jù)的不足,當使用RaFD進行訓練時,我們以0.0001的學習率訓練100個時代的所有模型,并在接下來的100個時代應用相同的衰減策略。在單個NVIDIA Tesla M40 GPU上進行培訓大約需要一天。
5.4. Experimental Results on CelebA
我們首先在單屬性和多屬性傳輸任務上將我們提出的方法與基線模型進行比較。考慮到所有可能的屬性值對,我們多次訓練跨域模型,如DIAT和CycleGAN。在DIAT和CycleGAN的情況下,我們執(zhí)行多步驟翻譯來合成多個屬性(例如,在改變頭發(fā)顏色后轉移性別屬性)。
定性評估。圖4顯示了CelebA上的面部屬性轉移結果。我們觀察到,與跨域模型相比,我們的方法在測試數(shù)據(jù)上提供了更高的視覺質量的翻譯結果。一個可能的原因是StarGAN通過多任務學習框架的正則化效應。換句話說,我們訓練模型根據(jù)目標域的標簽靈活地翻譯圖像,而不是訓練模型執(zhí)行固定的翻譯(例如棕色到金色的頭發(fā)),這容易過度擬合。這使得我們的模型能夠學習普遍適用于具有不同面部屬性值的多個圖像域的可靠特征。
此外,與IcGAN相比,我們的模型在保留輸入的面部身份特征方面具有優(yōu)勢。我們推測這是因為我們的方法通過使用卷積層的激活圖作為潛在表示來維護空間信息,而不是像IcGAN中那樣僅使用低維潛在向量。
定量評估協(xié)議。為了進行定量評估,我們使用Amazon Mechanical Turk(AMT)以調查的形式進行了兩項用戶研究,以評估單屬性和多屬性轉移任務。給定輸入圖片,指示Turkers根據(jù)感知真實感、屬性傳遞質量和人物原始身份的保留來選擇生成的最佳圖像。選項是由四種不同方法生成的四個隨機洗牌圖像。在一項研究中,生成的圖像在頭發(fā)顏色(黑色、金色、棕色)、性別或年齡方面具有單一屬性轉換。在另一項研究中,生成的圖像涉及屬性轉換的組合。每個土耳其人都被問了30到40個問題,還有幾個簡單但合乎邏輯的問題,以驗證人類的努力。在單個和多個轉移任務中,每個用戶研究中驗證的Turker數(shù)分別為146和100。
定量結果。表1和表2分別顯示了我們在單屬性和多屬性轉移任務上的AMT實驗結果。斯塔根在所有情況下都獲得了最佳轉移屬性的多數(shù)選票。在表1中的性別變化情況下,我們的模型與其他模型之間的投票差異很小,例如,StarGAN的投票率為39.1%,DIA T的投票率為31.4%。然而,在多屬性變化情況下,例如表2中的“g+A”情況,性能差異變得顯著,例如,StarGAN的投票率為49.8%,IcGAN的投票率為20.3%),這清楚地表明了StarGAN在更復雜、,多屬性傳輸任務。這是因為與其他方法不同,StarGAN可以通過在訓練階段隨機生成目標域標簽來處理涉及多個屬性變化的圖像轉換。
5.5. Experimental Results on RaFD
接下來,我們在RaFD數(shù)據(jù)集上訓練我們的模型,以學習合成面部表情的任務。為了比較StarGAN模型和基線模型,我們將輸入域固定為“中性”表達式,但目標域在其余七個表達式中有所不同。
定性評估。如圖5所示,StarGAN在正確保持輸入的個人身份和面部特征的同時,清楚地生成最自然的表情。雖然DIA T和CycleGAN大多保留了輸入的身份,但他們的許多結果顯示模糊,無法保持輸入中的清晰度。IcGAN甚至無法通過生成男性形象來保持形象中的個人身份。
我們認為,StarGAN在圖像質量方面的優(yōu)勢是由于其在多任務學習環(huán)境中的隱式數(shù)據(jù)增強效應。RaFD圖像包含相對較小的樣本大小,例如,每個域包含500個圖像。當在兩個域上訓練時,DIA T和CycleGAN一次只能使用1000個訓練圖像,但StarGAN可以使用所有可用域中的4000個圖像進行訓練。這使StarGAN能夠正確地學習如何保持生成輸出的質量和清晰度。
定量評估。為了定量評估,我們計算了合成圖像上人臉表情的分類誤差。我們使用ResNet-18架構[5]在RaFD數(shù)據(jù)集上訓練面部表情分類器(90%/10%分割用于訓練集和測試集),獲得接近完美的準確率99.55%。然后,我們使用相同的訓練集訓練每個圖像翻譯模型,78795在相同的、看不見的測試集上執(zhí)行圖像翻譯。最后,我們使用上述分類器對這些翻譯圖像的表達進行分類。如表3所示,我們的模型實現(xiàn)了最低的分類誤差,這表明我們的模型在所有比較的方法中產生了最真實的面部表情。
我們模型的另一個重要優(yōu)點是在所需參數(shù)數(shù)量方面的可擴展性。表3的最后一列顯示,StarGAN學習所有翻譯所需的參數(shù)數(shù)量比DIA T小7倍,比CycleGAN小14倍。這是因為StarGAN只需要一個生成器和鑒別器對,而與域的數(shù)量無關,而在跨域模型(如CycleGAN)的情況下,應為每個源-目標域對訓練完全不同的模型。
5.6. Experimental Results on CelebA+RaFD
最后,我們實證證明,我們的模型不僅可以從單個數(shù)據(jù)集中的多個領域學習,還可以從多個數(shù)據(jù)集中學習。我們使用掩碼向量在CelebA和RaFD數(shù)據(jù)集上聯(lián)合訓練我們的模型(見第3.2節(jié))。為了區(qū)分僅在RaFD上訓練的模型和同時在CelebA和RaFD上訓練的模型,我們將前者表示為StarGAN SNG(單個),后者表示為StarGAN JNT(聯(lián)合)。
聯(lián)合訓練的效果。圖6顯示了StarGAN SNG和StarGAN JNT之間的定性比較,其中任務是在CelebA中合成圖像的面部表情。StarGAN JNT展示了高視覺質量的情感表達,而StarGAN SNG生成了合理但模糊的灰色背景圖像。這種差異是由于StarGAN JNT在訓練期間學習翻譯CelebA圖像,而不是StarGAN SNG。換句話說,StarGAN JNT可以利用這兩個數(shù)據(jù)集來改進共享的低級任務,例如面部關鍵點檢測和分割。通過同時利用CelebA和RaFD,StarGAN JNT可以改進這些低級任務,這有利于學習面部表情合成。
學習了掩碼向量的作用。在本實驗中,我們通過將特定面部表情的維度(可從第二個數(shù)據(jù)集RaFD獲得)設置為1。在這種情況下,由于明確給出了與第二個數(shù)據(jù)集相關聯(lián)的標簽,因此適當?shù)难诖a向量將為[0,1]。圖7顯示了給出該正確掩碼向量的情況,以及給出錯誤掩碼向量[1,0]的相反情況。當使用錯誤的掩碼向量時,StarGAN JNT無法合成面部表情,并且它會處理輸入圖像的年齡。這是因為該模型忽略了未知的面部表情標簽,并通過掩碼向量將面部屬性標簽視為有效。請注意,由于其中一個面部屬性是“年輕的”,因此當模型將零向量作為輸入時,它會將圖像從年輕轉換為老年。從這一行為中,我們可以確認,當涉及多個數(shù)據(jù)集的所有標簽時,StarGAN正確地了解了掩碼向量在圖像到圖像翻譯中的預期作用。
6. Conclusion
在本文中,我們提出了StarGAN,這是一種使用單個生成器和鑒別器在多個域之間進行可擴展的圖像到圖像轉換的模型。除了在可擴展性方面的優(yōu)勢外,由于多任務學習設置背后的泛化能力,與現(xiàn)有方法[15、22、32]相比,StarGAN生成的圖像具有更高的視覺質量。此外,使用擬議的簡單掩碼向量使StarGAN能夠利用具有不同域標簽集的多個數(shù)據(jù)集,從而處理其中的所有可用標簽。我們希望我們的工作能夠讓用戶跨多個領域開發(fā)有趣的圖像翻譯應用程序。
致謝。這項工作主要是在第一作者在NAVER的Clova AI research進行研究實習時完成的。我們感謝NAVER的所有研究人員,尤其是郭東玄,他們進行了富有洞察力的討論。這項工作得到了韓國政府(MSIP)資助的韓國國家研究基金會(NRF)撥款的部分支持(編號:NRF2016R1C1B2015924)。周是通訊作者。
References
[1] M. Arjovsky, S. Chintala, and L. Bottou. Wasserstein gen-
erative adversarial networks. In Proceedings of the 34th In-
ternational Conference on Machine Learning (ICML), pages
214–223, 2017. 2, 5
[2] A. Brock, T. Lim, J. M. Ritchie, and N. Weston. Neural
photo editing with introspective adversarial networks. arXiv
preprint arXiv:1609.07093, 2016. 3
[3] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu,
D. Warde-Farley, S. Ozair, A. Courville, and Y . Bengio. Gen-
erative adversarial nets. In Advances in Neural Information
Processing Systems (NIPS), pages 2672–2680, 2014. 2
[4] I. Gulrajani, F. Ahmed, M. Arjovsky, V . Dumoulin, and
A. Courville. Improved training of wasserstein gans. arXiv
preprint arXiv:1704.00028, 2017. 5, 6
[5] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning
for image recognition. In Proceedings of the IEEE confer-
ence on Computer Vision and Pattern Recognition (CVPR),
pages 770–778, 2016. 5, 7
[6] X. Huang, Y . Li, O. Poursaeed, J. Hopcroft, and S. Be-
longie. Stacked generative adversarial networks. In The
IEEE Conference on Computer Vision and Pattern Recog-
nition (CVPR), July 2017. 2
[7] P . Isola, J.-Y . Zhu, T. Zhou, and A. A. Efros. Image-to-image
translation with conditional adversarial networks. In Pro-
ceedings of the IEEE Conference on Computer Vision and
Pattern Recognition (CVPR), 2017. 1, 2, 3, 5
[8] T. Kim, M. Cha, H. Kim, J. K. Lee, and J. Kim. Learning to
discover cross-domain relations with generative adversarial
networks. In Proceedings of the 34th International Confer-
ence on Machine Learning (ICML), pages 1857–1865, 2017.
1, 2, 3, 4
[9] T. Kim, B. Kim, M. Cha, and J. Kim. Unsupervised visual
attribute transfer with reconfigurable generative adversarial
networks. arXiv preprint arXiv:1707.09798, 2017. 2
[10] D. Kingma and J. Ba. Adam: A method for stochastic opti-
mization. arXiv preprint arXiv:1412.6980, 2014. 6
[11] D. P . Kingma and M. Welling. Auto-encoding variational
bayes. In Proceedings of the 2nd International Conference
on Learning Representations (ICLR), 2014. 3
[12] O. Langner, R. Dotsch, G. Bijlstra, D. H. Wigboldus, S. T.
Hawk, and A. V an Knippenberg. Presentation and valida-
tion of the radboud faces database. Cognition and Emotion,
24(8):1377–1388, 2010. 2, 4, 6
[13] C. Ledig, L. Theis, F. Huszar, J. Caballero, A. Cunning-
ham, A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang, and
W. Shi. Photo-realistic single image super-resolution using a
generative adversarial network. In The IEEE Conference on
Computer Vision and Pattern Recognition (CVPR), 2017. 2,
3
[14] C. Li and M. Wand. Precomputed real-time texture synthesis
with markovian generative adversarial networks. In Proceed-
ings of the 14th European Conference on Computer Vision
(ECCV), pages 702–716, 2016. 5
[15] M. Li, W. Zuo, and D. Zhang. Deep identity-aware transfer
of facial attributes. arXiv preprint arXiv:1610.05586, 2016.
2, 5, 8
[16] M.-Y . Liu, T. Breuel, and J. Kautz. Unsupervised
image-to-image translation networks. arXiv preprint
arXiv:1703.00848, 2017. 3
[17] M.-Y . Liu and O. Tuzel. Coupled generative adversarial net-
works. In Advances in Neural Information Processing Sys-
tems (NIPS), pages 469–477, 2016. 3
[18] Z. Liu, P . Luo, X. Wang, and X. Tang. Deep learning face
attributes in the wild. In Proceedings of the IEEE Interna-
tional Conference on Computer Vision (ICCV), 2015. 2, 4,
6
[19] M. Mirza and S. Osindero. Conditional generative adversar-
ial nets. arXiv preprint arXiv:1411.1784, 2014. 3
[20] A. Odena. Semi-supervised learning with generative adver-
sarial networks. arXiv preprint arXiv:1606.01583, 2016. 3
[21] A. Odena, C. Olah, and J. Shlens. Conditional image
synthesis with auxiliary classifier gans. arXiv preprint
arXiv:1610.09585, 2016. 3, 5
[22] G. Perarnau, J. van de Weijer, B. Raducanu, and J. M.
álvarez. Invertible conditional gans for image editing. arXiv
preprint arXiv:1611.06355, 2016. 5, 8
[23] A. Radford, L. Metz, and S. Chintala. Unsupervised repre-
sentation learning with deep convolutional generative adver-
sarial networks. arXiv preprint arXiv:1511.06434, 2015. 2
[24] S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and
H. Lee. Generative adversarial text to image synthesis. arXiv
preprint arXiv:1605.05396, 2016. 3
[25] W. Shen and R. Liu. Learning residual images for face at-
tribute manipulation. In The IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), 2017. 2
[26] Z. Shu, E. Y umer, S. Hadap, K. Sunkavalli, E. Shechtman,
and D. Samaras. Neural face editing with intrinsic image
disentangling. In The IEEE Conference on Computer Vision
and Pattern Recognition (CVPR), 2017. 3
[27] Y . Taigman, A. Polyak, and L. Wolf. Unsupervised cross-
domain image generation. In 5th International Conference
on Learning Representations (ICLR), 2017. 3
[28] D. Ulyanov, A. V edaldi, and V . Lempitsky. Instance normal-
ization: The missing ingredient for fast stylization. arXiv
preprint arXiv:1607.08022, 2016. 5
[29] H. Zhang, T. Xu, H. Li, S. Zhang, X. Huang, X. Wang, and
D. Metaxas. Stackgan: Text to photo-realistic image syn-
thesis with stacked generative adversarial networks. arXiv
preprint arXiv:1612.03242, 2016. 3
[30] Z. Zhang, Y . Song, and H. Qi. Age progression/regression
by conditional adversarial autoencoder. In The IEEE Confer-
ence on Computer Vision and Pattern Recognition (CVPR),
July 2017. 2
[31] J. Zhao, M. Mathieu, and Y . LeCun. Energy-based genera-
tive adversarial network. In 5th International Conference on
Learning Representations (ICLR), 2017. 2
[32] J.-Y . Zhu, T. Park, P . Isola, and A. A. Efros. Unpaired image-
to-image translation using cycle-consistent adversarial net-
works. In Proceedings of the IEEE International Conference
on Computer Vision (ICCV), 2017. 1, 2, 3, 4, 5, 8
總結
以上是生活随笔為你收集整理的风格迁移篇--StarGAN:用于多域图像到图像翻译的统一生成对抗网络的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第七章-填充符号表
- 下一篇: PAT 甲级 1048 Find Coi