Cvae-gan: fine-grained image generation through asymmetric training论文阅读笔记
論文原文地址:CVAE-GAN: fine-grained image generation through asymmetric training
推薦閱讀:
VAE全面理解
生成模型——變分自編碼器VAE
從 GAN VAE 到 CVAE-GAN
摘要:
- 我們提出了變分生成對抗性網絡,這是一個將變分自動編碼器與生成對抗性網絡相結合的通用學習框架,用于合成精細的圖像,例如類別中特定人員或對象的臉。 我們的方法將圖像建模為概率模型中標簽和潛在屬性的組成。 通過改變輸入到生成模型中的細粒度類別標簽,我們可以在特定類別中生成圖像,并在潛在屬性向量上隨機繪制值。 我們的方法有兩個新的方面。 首先,我們對判別網絡和分類器網絡采用交叉熵損失,而對生成網絡則采用平均差異目標。 這種非對稱損失函數使GAN訓練更加穩定。【提出一種網絡結構】
- 第二,我們采用編碼器網絡來學習潛在空間和真實圖像空間之間的關系,并使用成對特征匹配來保持生成圖像的結構。 我們對人臉、花朵和鳥類的自然圖像進行了實驗,并證明了所提出的模型能夠生成具有細粒度類別標簽的真實和多樣的樣本。 我們進一步表明,我們的模型可以應用于其他任務,如圖像修復、超分辨率和數據增強,以訓練更好的人臉識別模型。 【使用編碼器網絡學習潛在空間的數據分布】
引言**
- 建立有效的自然圖像生成模型是計算機視覺中的關鍵問題之一。 它的目的是通過根據潛在的自然圖像分布改變一些潛在參數來生成不同的真實圖像。 因此,需要一個期望的生成模型來捕獲底層數據分布。 這通常是一項非常困難的任務,因為圖像樣本的集合可能位于非常復雜的流形上。 然而,深卷積神經網絡的最新進展催生了一系列深層生成模型[14,12,8,31,29,34,15,4,33,6]這些模型取得了巨大的進展,這主要是由于深度網絡在學習表示中的能力。【深度學習網絡可以捕獲真實圖像的底層分布】
- 在這些最近的工作取得成功的基礎上,我們希望更進一步生成細粒度對象類別的圖像。 例如,我們想能夠合成特定身份的圖像(圖1),或生成指定種類的花卉或鳥類的新圖像,等等。 在CVAE[34]和VAE/GAN[15]的啟發下,我們提出了一種通用的學習框架,它將變分自動編碼器與生成對抗性網絡結合在一個條件生成過程中來解決這個問題。【想要解決的問題就是:想要生成指定類別的真實圖像】
- 本文提出了一種關于生成器的新方法。 不使用與鑒別器網絡相同的交叉熵損失,而是要求生成器生成數據,使平均特征與真實數據的?2距離最小。 對于多類圖像生成,一個類別的生成樣本也需要匹配該類別真實數據的平均特征,因為特征距離和可分性呈正相關。 在一定程度上解決了梯度消失問題。 這種非對稱損失函數可以部分地幫助防止所有輸出向單點移動的模式崩潰問題,使Gan的訓練更加穩定。【提出非對稱損失函數,使訓練更加穩定。】
- 雖然使用平均特征匹配會減少模式坍塌的機會,但并不能完全解決問題。 一旦發生模式坍塌,梯度下降就無法分離相同的輸出。 為了保持生成樣本的多樣性,我們利用VAE和GAN的結合。 我們使用編碼器網絡將真實圖像映射到潛在向量。 然后要求生成器重建原始像素,并將原始圖像的特征與給定的潛在向量匹配。 這樣,我們就明確地建立了潛在空間與真實圖像空間之間的關系。 由于這些錨點的存在,生成器被強制發射不同的樣本。 此外,像素重建損失也有助于維持結構,如圖像中的直線或面部結構。【VAE和GAN結合,可以解決模式坍塌。】
- 如圖2(G)所示,我們的框架由四個部分組成:
- 1)編碼器網絡E,它將數據樣本x映射到潛在表示z。
- 2)生成網絡G,給定一個潛在向量z,它生成圖像x‘。
- 3)判別網絡D用來區分真實假圖像。
- 4)分類器網絡C,它測量數據的類概率。 這四個部分無縫地級聯在一起,整個管道被訓練成端到端。 我們稱之為CVAE-GAN。
圖2. 說明VAE[12,31]、GAN[8]、VAE/GAN[15]、CVAE[34]、CGAN[18]、PPGN和提出的CVAE-GAN的結構。 其中x和x‘是輸入和生成的圖像。 E、G、C、D分別是編碼器、生成網絡、分類網絡和判別網絡。 z是潛在向量。 y是表示真實/合成圖像的二進制輸出。 c是條件,如屬性或類標簽。
- 一旦CVAE-GAN被訓練,它就可以在不同的應用中使用,例如圖像生成、圖像修復和屬性變形。 我們的方法估計了輸入圖像的良好表示,生成的圖像似乎更真實。 我們表明,它的性能優于CVAE、CGAN和其他最先進的方法。 與GAN相比,該框架在訓練階段更容易訓練和收斂速度更快、更穩定。 在我們的實驗中,我們進一步表明,從我們的模型合成的圖像可以應用于其他任務,如數據增強訓練更好的人臉識別模型。【CVAE-GAN效果好,而且訓練好的網絡可以用于其他領域,比如圖像生成、圖像修復、屬性變換。訓練階段收斂快,更穩定。我們的框架生成的圖像可以用于其他任務。】
- 可以考慮將此框架應用于圖像修復。
2. Related work
- 傳統的智慧和早期的生成模型研究,包括主成分分析(PCA)[40]、獨立成分分析(ICA)[10]和高斯混合模型(GMM)[46,27,37],都假設數據的簡單形成。 它們難以模擬不規則分布的復雜模式。 后來的工作,如隱馬爾可夫模型(HMM)[35],馬爾可夫隨機場(MRF)[19]和限制波爾茲曼機(RBMs)[9,32],有區別地訓練生成模型[39],由于缺乏有效的特征表示,它們的結果限制在紋理補丁、數字數字或對齊面上。【傳統方法難以模擬復雜數據分布。】
- 深度生成模型 [14,12,8,31,29,15,4,33,6]的最近有了許多發展。 由于深層層次結構允許它們捕獲數據中的復雜結構,所有這些方法在生成比傳統生成模型更真實的自然圖像方面都顯示出有希望的結果。**【深度生成模型更容易捕獲數據中的復雜結構】**其中主要有三個主題:變量自動編碼器(VAE)[12,31]、生成對抗性網絡(GAN)[8,29,33]和自動回歸[14]。
- VAE[12,31]將可微編碼器網絡與解碼器/生成網絡配對。 VAE的一個缺點是,由于注入噪聲和不完善的元素度量,如平方誤差,產生的樣本往往是模糊的。【VAE產生的樣本是模糊的】
- 生成對抗性網絡(GAN)[8,29,33]是另一種流行的生成模型。 它同時訓練了兩個模型:生成模型來合成樣品,以及區分自然樣品和合成樣品的判別模型。 然而,GAN模型在訓練階段很難收斂,GAN生成的樣本往往遠離自然。 最近,許多工作試圖提高生成的樣本的質量。 例如,WassersteinGAN(WGAN)[2]使用地球Mover距離作為訓練GANs的目標,而McGAN[20]使用均值和協方差特征匹配。 它們需要限制鑒別器的參數范圍,這將降低鑒別能力。 損失敏感GAN[28]學習一個損失函數,它可以量化生成的樣本的質量,并使用這個損失函數生成高質量的圖像。 還有一些方法試圖結合GAN和VAE,例如VAE/GAN[15]和對抗性自動編碼器[17]。 它們與我們的工作密切相關,并在一定程度上激發了我們的工作。【一些試圖去提高GAN生成樣本質量的方法】
- 還可以對VAE和GAN進行有條件生成的培訓,例如CVAE[34]和CGAN[18]。 通過引入附加條件,它們可以處理概率一對多映射問題。 最近有很多基于CVAE和CGAN的有趣的作品,包括條件人臉生成[7],Attribute2Image[47],文本到圖像合成[30],從靜態圖像[42]預測,以及條件圖像合成[25]。 都取得了驕人的成績。【基于條件GAN和條件CVAE的應用】
- 生成ConvNet[44]表明,生成模型可以從常用的判別ConvNet中導出。 Dosovitskiy等人。 [5]和Nguyen等人。 [22]介紹了一種從經過訓練的分類模型中提取的特征中生成高質量圖像的方法。 PPGN[23]通過使用梯度上升和在發生器潛在空間之前產生樣本的性能非常好。
- 自動回歸[14]遵循不同的想法。 它使用自動回歸連接對圖像逐像素建模。 它的兩個變體,像素RNN[41]和像素CNN[26],也產生了優秀的樣本。
- 我們的模型不同于所有這些模型。 如圖2所示,我們將所提出的CVAEGAN的結構與所有這些模型進行了比較。 除了結構上的差異外,更重要的是,我們利用統計和兩兩特征匹配的優勢,使訓練過程收斂得更快、更穩定。
3. Our Formulation of CVAE-GAN
- 在本節中,我們將介紹所提出的CVAE-GAN網絡。 如圖3所示,我們提出的方法包含四個部分:1)編碼器網絡E;2)生成網絡G;3)判別網絡D;4)分類網絡C。
圖3. 說明我們的網絡結構。 我們的模型包括四個部分:1)編碼器網絡E;2)生成網絡G;3)分類網絡C;4)鑒別網絡D。詳情請參閱第3節。
- 網絡E和G的功能與條件變分自動編碼器(CVAE)[34]中的功能相同。 編碼器網絡E通過學習分布P(z|x,c)將數據樣本x映射到潛在表示z,其中c是數據的類別。 生成網絡G通過從學習分布P(x|z,c)中采樣生成圖像x‘。 網絡G和D的功能與生成對抗性網絡(GAN)[8]中的功能相同。 網絡G試圖通過判別網絡D給出的梯度來學習真實的數據分布,該梯度學習區分“真實”和“假”樣本。 網絡C的作用是測量后驗P(c|x)。
- 然而,VAE和GAN的na¨?ve組合不足。 最近的工作[1]表明,GAN的訓練將面臨網絡G的梯度消失或不穩定問題。因此,我們只保持網絡E、D和C的訓練過程與原始VAE[12]和GAN[8]相同,并提出了一個新的生成網絡G的平均特征匹配目標,以提高原始GAN的穩定性。【保持其余不變,提出新G的平均特征匹配目標提高原始GAN的穩定性】
- 即使采用平均特征匹配目標,仍然存在模式崩潰的風險。所以我們使用編碼器網絡E和生成網絡G獲得從真實樣本x到合成樣本x’的映射。 利用像素級?2損失和成對特征匹配,實現了生成模型的多種樣本發射和結構保持樣本的生成。【為了解決模式坍塌,引入像素級損失和成對特征匹配】
- 在下面的章節中,我們首先描述了基于GAN的平均特征匹配方法(3.1節)。 然后,我們證明了平均特征匹配也可以用于條件圖像生成任務(3.2節)。 在此之后,我們通過使用額外的編碼器網絡引入成對特征匹配(3.3節)。 最后,我們分析了所提出的方法的目標,并在培訓管道中提供了實施細節(3.4節)。【實施細節在下文】
3.1. Mean feature matching based GAN
- 在傳統的GAN中,生成器G和鑒別器D在兩人極小極大的游戲中競爭。 鑒別器試圖從合成的數據中區分真實的訓練數據;生成器試圖欺騙鑒別器。 具體而言,網絡D試圖最小化損失函數:
而網絡G試圖最小化
- 在實踐中,“真實”和“假”圖像的分布可能不會相互重疊,特別是在訓練過程的早期階段。 因此,判別網絡D可以完美地分離它們。 也就是說,我們總是有D(X)→1和D(X‘)→0,其中x‘=G(Z)是生成的圖像。 因此,在更新網絡G時,L‘GD/?D(x’)?梯度→?∞。 所以網絡G的訓練過程會不穩定。 最近的工作也[1,2] 表明訓練GAN往往需要處理G的不穩定梯度。為了解決這個問題,我們建議對生成器使用平均特征匹配目標。 目標要求合成樣品特征的中心,以匹配真實樣品特征的中心。 設fD(X)表示鑒別器中間層上的特征,G然后試圖最小化損失函數。【對生成器G使用平均特征匹配目標解決G的梯度不穩定問題】
- 在我們的實驗中,為了簡單起見,我們選擇網絡D的最后一個完全連接(FC)層的輸入作為特征fD。 結合多層特征可以略微提高收斂速度。 在訓練階段,我們使用小型艙內的數據來估計平均特征。 我們還使用移動歷史平均線使其更加穩定。
- 因此,在訓練階段,我們使用公式1更新網絡D。 使用公式2更新網絡G。 使用這種非對稱損失進行訓練GAN具有以下三個優點:
- 1)公式2中。 隨著可分性的增加,特征中心上的?2損失解決了梯度消失問題;
- 2)當生成的圖像足夠好時,平均特征匹配損失變為零,使訓練更加穩定;
- 3)與WGAN[2]相比,不需要對參數進行剪輯。 可以保持網絡D的鑒別力。
3.2. 條件圖像生成的平均特征匹配
- 在這一部分中,我們介紹了條件圖像生成的平均特征匹配。 假設我們有一組屬于K類的數據,我們使用網絡C來度量圖像是否屬于特定的細粒度類別。 在這里,我們使用一種標準的分類方法。 網絡C以x作為輸入,輸出一個K維向量,然后使用Softmax函數將其轉化為類概率。 每個條目的輸出表示后驗概率P(c|x)。 在訓練階段,網絡C試圖最小化Softmax損失:
對于網絡G,如果我們仍然使用類似于公式3中的Softmax損失函數。 它將遭受同一梯度不穩定問題,如[1]所述。 - 因此,我們建議使用生成網絡G的平均特征匹配目標。設fC(X)表示分類中間層上的特征,然后G試圖最小化:
- 在這里,我們選擇網絡C的最后一個FC層的輸入作為簡單的特征。 我們還試圖結合多個層的特征,它只略微提高了保持網絡G的身份的能力。由于在一個小型艙中只有少數屬于同一類別的樣本,因此有必要對真實和生成的樣本使用特征的移動平均值。
3.3. Pairwise Feature Matching
- 雖然使用平均特征匹配可以防止所有輸出向單點移動,從而減少模式崩潰的可能性,但它并不完全解決這個問題。 一旦模式崩潰發生,生成網絡就會為不同的潛在向量輸出相同的圖像,因此梯度下降將無法分離這些相同的輸出。 此外,盡管生成的樣本和真實樣本具有相同的特征中心,但它們可能具有不同的分布。
- 為了生成不同的樣本,DCGAN[29]使用批歸一化,McGan[20]使用均值和協方差特征統計量,Salimans等人。 [33]使用迷你艙歧視。 它們都基于使用多個生成的示例。 與這些方法不同,我們添加了一個編碼器網絡E來獲得從真實圖像x到潛在空間z的映射。 因此,我們明確地建立了潛在空間與真實圖像空間之間的關系。【為了解決模式坍塌,其他人提出的方法和我們提出的方法】
- 類似于VAE,對于每個樣本,編碼器網絡輸出潛在向量的均值和協方差,即μ和?。 我們使用KL損失來減少先驗P(Z)與提案分布之間的差距,即
- 然后,我們可以采樣潛在向量z=μr⊙exp(O),其中r~N(0,I)是隨機向量,⊙表示元素乘法。 在得到x到z的映射后,我們得到了網絡G生成的圖像x‘,然后在x和x之間添加了一個?2重建損失和成對特征匹配損失‘
- 其中,fD和fC分別是鑒別網絡D和分類網絡C的中間層的特征。
3.4. Objective of CVAE-GAN
-
我們的方法的目標是最小化以下損失函數:
-
其中每個術語的確切形式都在1-6中給出。上式的每一項都是有意義的。 LKL只與編碼器網絡E有關,它表示潛在向量的分布是否處于期望狀態。 LG、LGD和LGC與生成網絡G有關,它們分別表示合成的圖像是否與輸入訓練樣本、真實圖像和同一類別內的其他樣本相似。LC與分類網絡C有關,它表示網絡對不同類別圖像進行分類的能力,LD與鑒別網絡有關,它表示網絡在區分真實/合成圖像方面有多好。 所有這些目標是相輔相成的,最終使我們的算法能夠獲得優越的結果。 整個訓練過程在算法1中描述。 在我們的實驗中。 我們經驗性地設置λ1=3,λ2=1,λ3103和λ4103。【給出總損失函數的含義】
圖4. 不同生成模型的示例的結果。 藍色點為實點,紅色點為生成點。
a)真實的數據分布,就像一個“環”。
b)傳統GAN、WGAN和平均特征匹配GAN在不同迭代中生成的點。
4. Analysis of Toy Example
- 在這一部分中,我們介紹并演示了基于平均特征匹配的GAN的好處。 我們假設我們有一個真實的數據分布,它是一個“環”,如圖4(A)所示)。 環的中心設置為(100,100),使其遠離開始時生成的分布。 我們比較了傳統的GAN、WGAN和3.1節中引入的基于平均特征匹配的GAN,以真實的數據分布。三個比較模型共享相同的設置。 發生成器G是一個MLP【多層感知器】,有3個隱藏層,分別有32、64和64個單元。 鑒別器D也是一個MLP,有3個隱藏層,分別有32、64和64個單元。 我們使用RMSProp【前向均方根梯度下降算法】和固定學習率0.00005的所有方法。 我們對每個模型進行了2M迭代訓練,直到它們都收斂為止。 每個模型在不同迭代次數下的生成樣本在圖4中給出。從結果可以觀察到:1)對于傳統的GAN(圖4(B)中的第一行),生成的樣本只位于真實數據分布的有限區域,這就是所謂的模式崩潰問題。 這個問題在培訓過程中總是存在的。 2)對于WGAN(圖4(B)中的第二行),它不能在早期迭代中學習真實的數據分布,我們認為這個問題是由夾緊權重技巧引起的,這影響了D區分真實樣本和假樣本的能力。 我們還試圖改變鉗位值來加速訓練過程,發現如果值太小,就會引起梯度消失問題。 如果太大,網絡就會發散。 3)第三行顯示了基于GAN的特征匹配結果。 它正確地學習最快的真實數據分布。【對于圖4做了解釋,對比了GAN、MGAN和FMGAN的學習數據分布的能力,說明了提出的均值特征匹配方法的有效性】
5. Experiments
- 在這一部分中,我們使用實驗來驗證所提出的方法的有效性。 我們在三個數據集上評估我們的模型:FaceScrub[21]、102 Category Flower[24]和CUB-200[43]數據集。 這三個數據集包含三個完全不同的對象,分別是人臉、鳥類和花朵。所有實驗的輸入和合成圖像的大小為128×128。 對于面部擦洗數據集,我們首先用JDA面部檢測器[3]檢測面部區域,然后用SDM[45]定位五個面部地標(兩個眼睛、鼻尖和兩個嘴角。 在此之后,我們使用基于面部地標的相似性變換將人臉對齊到一個規范的位置。 最后,我們裁剪了一個128×128臉區域,中心圍繞鼻尖。 對于102類花卉數據集,我們根據包含花卉的地面真相掩碼緊緊地裁剪一個矩形區域,然后將其調整為128×128.對于CUB-200數據集,我們只是使用數據集的原始圖像。
圖5.在FaceScrub [21]、102個類別花卉數據集[24]和CUB-200[43]數據集上隨機生成的樣本的比較。 從一個類別a)9個隨機真實圖像。 b)CVAE的結果是模糊的,不能保持類別的同一性,c)來自傳統CGAN的結果,它失去了多樣性和結構信息。 d)結果從我們的平均特征匹配CGAN,顯示出不同的結果,但也失去了結構信息。 e)我們的CVAE-GAN的結果,顯示了現實的,多樣性和類別保持的結果。
- 在我們的實驗中,編碼器網絡E是GoogleNet[36],在E網絡的最后一個FC層將類別信息和圖像合并。 該G網絡由2個完全連接的層組成,然后是6個具有2乘2上采樣的反卷積層。 卷積層有256、256、128、92、64和3個通道,濾波器大小為3×3、3×3、5×5、5×5、5×5、5×5。 對于D網,我們使用與DCGAN[29]相同的D網。 對于C網絡,我們使用Alexnet[13]結構,并將輸入更改為128×128。 我們將潛在向量維數固定為256,并發現這種配置足以生成圖像。 在每個卷積層之后也應用批歸一化層[11]。 利用深度學習工具箱Torch實現模型。[具體的網絡結構說明]
5.1. Visualization comparison with other models
- 在本實驗中,我們比較了3.2節(FM-CGAN)中提出的基于平均特征匹配的CGAN模型和CVAE-GAN模型與其他生成模型,用于細粒度圖像的圖像合成。
- 為了公平地比較每種方法,我們對所有方法使用相同的網絡結構和相同的訓練數據。所有網絡都是從頭開始訓練的。 在測試階段,網絡體系結構是相同的。 三種方法都只使用網絡G生成圖像。 因此,雖然我們的方法在訓練階段有更多的參數,但我們認為這種比較是公平的。
- 我們對三個數據集進行了實驗:FaceScrub,102類花卉和CUB-200數據集。 我們為所有方法執行類別條件圖像生成。 對于每個數據集,所有方法都使用該數據集中的所有數據進行培訓。 在測試階段,我們首先隨機選擇一個類別c,然后通過采樣潛在向量z~N(0,I)隨機生成該類別的樣本)。 對于評估,我們可視化從所有方法生成的樣本。比較結果如圖5所示。 所有圖像都是隨機選擇的,沒有任何個人偏見。 我們觀察到由CVAE生成的圖像通常是模糊的。 對于傳統的CGAN,一個類別內的變化很小,這是由于模式崩潰。 對于FM-CGAN,我們觀察到清晰的圖像,保留了良好的身份,但有些圖像失去了物體的結構,如人臉的形狀。 另一方面,由所提出的CVAE-GAN模型生成的圖像看起來真實和清晰,并且彼此之間沒有很大的差異. 特別是視點和背景色。 我們的模型也能夠保留身份信息。 表明了所提出的CVAE-GAN方法的強度。
5.2. Quantitative Comparison
- 由于[38]的概率準則的多樣性,評估合成圖像的質量是具有挑戰性的。 我們試圖用三個標準來衡量生成模型:可鑒別性、多樣性和現實性。我們使用人臉圖像進行這個實驗。 首先,我們從CVAE、CGAN、FM-CGAN和CVAE-GAN模型中隨機生成53k個樣本(每個類100個)進行評估。為了測量可鑒別性,我們在真實數據上使用預先訓練的人臉分類網絡。 在這里我們使用GoogleNet[36]。 通過這個訓練模型,我們評估了每個方法生成的樣本的前1位精度。 結果見表1。 我們的模型達到了最好的頂級-1精度,與其他生成模型有很大的差距。 這證明了該方法的有效性。
表1. 不同方法生成圖像質量的定量結果。 詳情請參閱5.2節
- 按照[33]中的方法,我們使用初始評分來評估生成樣本的真實性和多樣性。 我們在CASIA數據集上訓練了一個分類模型,并采用exp(ExKL(p(y|x)||p(y))作為度量生成模型的真實度和多樣性的度量,其中p(y|x)表示每類生成樣本的后驗概率。 包含有意義對象的圖像應該具有低熵的條件標簽分布p(y|x)。 此外,如果模型生成不同的圖像,則邊緣p(Y)=Rp(Y|G(Z)DZ應該具有較高的熵。 一個更大的分數意味著生成器可以產生更真實和多樣的圖像。 結果見表1。 我們提出的CVAE-GAN和FM-CGAN獲得了比其他模型更好的分數,這也非常接近真實數據。[提出的FMGAN和CVAE-GAN效果很好]
5.3. Attributes Morphing
- 在這一部分中,我們驗證了生成的圖像中的屬性將隨著潛在向量不斷變化。 我們稱之為現象屬性變形。 我們還測試了我們的模型在FaceScrub,CUB-200和102類花卉數據集。 我們首先在同一類別中選擇一對圖像x1和x2,然后利用編碼器網絡E提取潛在向量z1和z2。最后,通過線性插值得到一系列潛在向量z,即z=αz1(1∞α)z2,α[0,1]。 圖6顯示了屬性變形的結果。 在每一行中,屬性,如姿勢、情感、顏色或花號,從左到右逐漸變化。
5.4. Image Inpainting
- 在這一部分中,我們證明了我們的模型也可以應用于圖像修復。 我們首先隨機地破壞了原始128×128圖像x的50個×50個補丁(圖7b,然后將其饋送到E網絡以獲得潛在向量z,然后我們可以用G(z,c)合成圖像x‘,其中c是類標簽,然后用以下方程更新圖像,即
其中M是損壞補丁的二進制掩碼,⊙表示按元素計算的乘積。 所以(1-M)⊙x是原始圖像中未損壞的區域。修復結果如圖7?所示)。 我們應該強調,所有輸入的圖像都是從網站下載的,沒有一個屬于訓練數據。 我們可以迭代地將得到的圖像輸入到模型中,以獲得更好的結果,如圖7(d,e)所示)。
圖7. 使用我們提出的模型CVAE-GAN-1~10進行圖像修復的結果顯示了迭代1~10的結果。
5.5. Comparing Different Combination of Losses
- 在我們的模型中,我們建議在圖像像素級、分類網絡C中的特征級和鑒別網絡D中使用成對特征匹配來更新網絡G。為了了解每個損失分量的影響,我們將LG+LGD+LGC分離為三個部分:LG(IMG) + LG(D)+LG?,其中LG?是圖像像素級的?2距離,LG(D)是鑒別網絡D中特征級的?2距離,LG?是分類網絡C中特征級的?2距離。
- 我們重復CVAE-GAN模型的訓練,在LG(IMG)、LG(D)和LG?中使用不同的損失組合,并比較了重建樣本的質量。 如圖8所示。 我們發現,去除對抗性損失LG(D)會導致模型產生模糊圖像。 移除像素級重建損失LG(IMG)會導致圖像丟失細節。 最后,如果刪除分類網絡C中的特征級別損失LG?,生成的樣本將丟失類別信息。 盡管如此,我們的模型產生了最好的結果。[通過組合不同的損失函數得到相應的效果]
圖8. 不同生成器G之間的可視化比較,每個訓練的損失組合不同。
5.6. CVAE-GAN for Data Augmentation
- 我們進一步表明,從我們的模型合成的圖像可以用于數據增強,以訓練更好的人臉識別模型。 我們使用Face Scrub數據集作為訓練數據,并使用LFW[16]數據集進行測試。
- 我們實驗了兩種數據增強策略:1)為訓練數據集中的現有身份生成更多的圖像;2)通過混合不同的身份來生成新的身份。 我們測試這兩種數據增強方法。 對于1),我們為每個人隨機生成大約200幅圖像.總共100K圖像。 對于2),我們通過隨機混合三個不同現有標識的標簽來創建5k新標識,并為每個新標識生成100個圖像。 對于這兩種策略,生成的圖像與Facescrub數據集相結合,以訓練人臉識別模型。
- 在測試階段,我們直接使用特征的余弦相似度來度量兩個人臉之間的相似性。 在表2中,我們比較了LFW數據集上的人臉驗證精度,以及是否有額外的合成人臉。 隨著新身份的數據增強,我們實現了大約1.0%的精度比沒有增強。 這說明我們的生成網絡具有一定的擴展能力。
數據增強的結果
6、conclusion
- 本文提出了一種用于細粒度類別圖像生成的CVAE-GAN模型。 在三個不同的數據集上的優越性能表明了生成各種對象的能力。 該方法可以支持多種應用,包括圖像生成、屬性變形、圖像修復和數據增強,以訓練更好的人臉識別模型。 我們未來的工作將探索如何生成未知類別的樣本,例如訓練數據集中不存在的人的面部圖像。
總結
以上是生活随笔為你收集整理的Cvae-gan: fine-grained image generation through asymmetric training论文阅读笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 武忠祥问题本 一 函数 极限 连续
- 下一篇: 一加6T手机Android10 root