MIT麻省理工最新研究揭示GAN生成数据可视化分析
背景
生成對抗網(wǎng)絡(luò)(GAN)對于合成真實(shí)圖像非常有用,但我們不禁要問:你怎么知道GAN不能生成什么模式丟失或模式崩潰被認(rèn)為是GAN面臨的最大挑戰(zhàn)之一,GAN忽略了目標(biāo)分布的某些部分,但是對于GAN中的這種現(xiàn)象,目前的分析工具提供的信息很少.
麻省理工學(xué)院的研究可視化了分布和實(shí)例級別的模式崩潰。
首先,作者部署了一個(gè)語義分割網(wǎng)絡(luò)來比較分割后的目標(biāo)在結(jié)果圖像中的分布和訓(xùn)練集的目標(biāo)集。統(tǒng)計(jì)上的差異可以揭示GAN忽略的目標(biāo)類別。
圖1a顯示,在church-GAN模型中,目標(biāo)類別(如人、車和柵欄)在生成的分布中出現(xiàn)的像素比訓(xùn)練分布中少。
圖1b我們比較了一對真實(shí)圖像及其重構(gòu),其中無法生成人和柵欄的個(gè)體實(shí)例。在每個(gè)塊中,我們都顯示真實(shí)照片(左上),生成的重建圖(右上)和兩者的分割圖(下)。
然后,給出被省略的目標(biāo)類別,作者直接可視化了GAN的省略。具體來說,作者比較了照片和GAN反轉(zhuǎn)的相似圖像之間的具體差異。為此,作者放寬了反問題的局限性,解決了GAN單層(而不是整個(gè)發(fā)生器)的反轉(zhuǎn)問題。
在實(shí)驗(yàn)中,作者應(yīng)用這個(gè)框架分析了最近幾次在不同場景數(shù)據(jù)集上訓(xùn)練的GANs作者驚訝地發(fā)現(xiàn),丟失的目標(biāo)類別沒有被扭曲、渲染不良或渲染噪音。相反,它們實(shí)際上根本沒有渲染,就好像對象不是場景的一部分圖1b顯示了一個(gè)例子,在這個(gè)例子中,您可以看到更大的肖像被完全跳過,柵欄的平行線被完全忽略。因此,GAN可以忽略太難處理的類別,同時(shí)獲得更高的平均視覺質(zhì)量輸出。
方法
數(shù)量分布水平模式崩塌
利用場景圖像的層次結(jié)構(gòu)可以分析GAN的系統(tǒng)誤差每個(gè)場景都可以自然地分解成對象,這樣就可以通過估計(jì)構(gòu)成目標(biāo)統(tǒng)計(jì)信息的偏差來估計(jì)與真實(shí)場景分布的偏差。例如,裝飾臥室的GAN也應(yīng)該裝飾一些窗簾如果窗簾的統(tǒng)計(jì)數(shù)據(jù)偏離了真實(shí)照片的統(tǒng)計(jì)數(shù)據(jù),那么我們就知道可以通過檢查窗簾來查看GAN的具體缺陷。
為了實(shí)現(xiàn)這一目標(biāo),作者利用文獻(xiàn)[44]提出的統(tǒng)一感知分析網(wǎng)絡(luò)對所有圖像進(jìn)行分割,將圖像中的每個(gè)像素標(biāo)記為336個(gè)目標(biāo)類別之一對于每個(gè)圖像樣本,作者收集每個(gè)目標(biāo)類別的總像素面積,并收集所有分割目標(biāo)類別的均值和協(xié)方差統(tǒng)計(jì)作者在一個(gè)生成的大圖像集和訓(xùn)練集圖像上對這些統(tǒng)計(jì)數(shù)據(jù)進(jìn)行采樣作者將所有目標(biāo)分割的統(tǒng)計(jì)數(shù)據(jù)稱為“生成的圖像分割統(tǒng)計(jì)”。
圖2顯示了兩個(gè)網(wǎng)絡(luò)的平均統(tǒng)計(jì)數(shù)據(jù)。在每個(gè)圖中,將生成的每個(gè)目標(biāo)類別的平均分割頻率與真實(shí)分布進(jìn)行比較。
來看看臥室生成遺漏的可視化;
已測試用于LSUN臥室的漸進(jìn)式GAN。最重要的是,對對象分布的比較表明,許多類的對象被發(fā)電機(jī)排除在外,包括人,靠墊,地毯,燈具和幾種類型的家具。在底部,照片圖中顯示了其重建G(E(x))以及分段。這些示例直接顯示出許多對象類被省略。
由于大多數(shù)類別不會(huì)出現(xiàn)在大多數(shù)圖像上,因此作者會(huì)按降序?qū)︻悇e進(jìn)行分類,然后重點(diǎn)關(guān)注最常見的類別這種比較揭示了當(dāng)前最佳模型之間的許多具體差異。分析中使用的兩個(gè)模型都是在相同的圖像分布(LSUN臥室集)上訓(xùn)練的,但是WGAN-GP與真實(shí)分布之間的差距遠(yuǎn)遠(yuǎn)大于StyleGAN與真實(shí)分布之間的差距。
也可以使用一個(gè)值來總結(jié)段的統(tǒng)計(jì)差異。為此,作者定義了Frechet分割距離(FSD),它類似于常用的Frechet起始距離(FID)度量,但FSD可以解釋為:
其中μt是訓(xùn)練圖像樣本上每個(gè)目標(biāo)類別的平均像素?cái)?shù),∑t是這些像素?cái)?shù)的協(xié)方差同樣,μg和∑g反映了生成模型的分割統(tǒng)計(jì)作者對實(shí)驗(yàn)中產(chǎn)生的10000個(gè)樣本和10000個(gè)自然圖像進(jìn)行了統(tǒng)計(jì)比較。
生成圖像分割統(tǒng)計(jì)信息可以測量整個(gè)分布:例如,它們可以顯示生成器忽略特定目標(biāo)類別的情況但是,它們并不單獨(dú)排除應(yīng)該生成目標(biāo)但未生成的特定圖像為了獲得更深入的了解,需要一種在每個(gè)圖像上可視化生成器省略的方法。
定量模式級崩潰
為了解決上述問題,作者比較了圖像對(x,x'),其中x是真實(shí)圖像(包含GAN生成器G中缺少的特定目標(biāo)類別),x'是GAN模型層可以生成的所有圖像的空間投影。
定義可解決的問題,理想情況下,您可以找到一個(gè)由生成器G完美組合的圖像,并使其接近真實(shí)圖像x。在數(shù)學(xué)中,目標(biāo)是找到,,l是圖像特征空間中的距離度量不幸的是,由于G中含有大量的層,以前的方法無法解決發(fā)電機(jī)的這個(gè)完全逆問題因此,作者轉(zhuǎn)向求解這個(gè)完全反問題的一個(gè)可解子問題。作者將生成器G分解為若干層:
其中g(shù) u 1,…,gu n是生成器的幾個(gè)早期層,gu f組合了g的所有后期層。
任何可以由G生成的圖像都可以由G-u f生成,也就是說,如果用range(G)表示可以由G輸出的所有圖像的集合,那么就有range(G)換句話說,G不能生成G-u f不能生成的任何圖像。因此,可以在范圍(G)中確定的任何遺漏也在范圍(G)中丟失。
因此,對于圖層反轉(zhuǎn),作者通過簡單地反轉(zhuǎn)G的后期圖層來可視化省略:
作者說,雖然最終的目標(biāo)是中間表示r,但它可以從估計(jì)的z提供很多幫助:z的初始估計(jì)可以幫助搜索更好的r值,這些r值更有可能是z生成的。因此,求解這個(gè)逆問題的過程分為兩個(gè)步驟:首先,構(gòu)造一個(gè)近似整個(gè)G的神經(jīng)網(wǎng)絡(luò)E,并計(jì)算估計(jì)結(jié)果Z00= E(x)。然后,通過求解一個(gè)優(yōu)化問題來確定一個(gè)中間表示,該中間表示可以生成一個(gè)重建圖像來非常相似地恢復(fù)x圖3顯示了這個(gè)層逆方法。
層反演方法綜述首先,訓(xùn)練反向G的網(wǎng)絡(luò)E;這可用于獲得隱含z_0=E(x)及其中間表示的初始估計(jì)然后使用r_0初始化對r*的搜索,以使重建的x'接近目標(biāo)x。
通過在更小的問題上預(yù)訓(xùn)練各個(gè)層,可以更輕松地訓(xùn)練深度網(wǎng)絡(luò)。因此,為了學(xué)習(xí)逆推神經(jīng)網(wǎng)絡(luò) E,作者選擇了逐層執(zhí)行的方法。對于每一層 g_i ∈ {g_1, ..., g_n, G_f },訓(xùn)練一個(gè)小網(wǎng)絡(luò) e_i 以近似地逆推 g_i。也就是說,定義 r_i = g_i(r_i?1),目標(biāo)是學(xué)習(xí)一個(gè)網(wǎng)絡(luò) e_i,使其能近似計(jì)算 r_{i?1} ≈ e_i(r_i)。作者也希望網(wǎng)絡(luò) e_i 的預(yù)測能夠很好地保留層 g_i 的輸出,因此需要 r_i ≈ g_i(e_i(r_i))。作者通過最小化左逆推和右逆推損失來訓(xùn)練 e_i:
為了將訓(xùn)練集中在由生成器獲得的表示流形附近,作者對 z 進(jìn)行了采樣,并使用層 g_i 計(jì)算了 r_{i?1} 和 r_i 的樣本,因此 r_{i?1} = g_{i?1}(· ·· g_1(z)· ··)。這里 ||·||_1 表示 L1 損失,作者將 λ_R 設(shè)為 0.01 以強(qiáng)調(diào) r_{i?1} 的重建。
一旦所有層都反轉(zhuǎn),就可以為整個(gè)G構(gòu)建反轉(zhuǎn)網(wǎng)絡(luò):
實(shí)驗(yàn)結(jié)果
這些差異通過Frechet分割距離進(jìn)行了總結(jié),證實(shí)了較好模型的分割統(tǒng)計(jì)量整體上更接近真實(shí)分布。
10000幅圖像有限樣本集上圖像分割統(tǒng)計(jì)生成的靈敏度。
圖6的前三列比較了新的逆方法和以前的逆方法圖6的最后三列比較了完全新方法(f)和兩個(gè)燒蝕實(shí)驗(yàn)版本。
者應(yīng)用上述逆推力工具測試了不同發(fā)生器在訓(xùn)練集外合成圖像的能力。圖7顯示了使用在LSUN臥室集合上訓(xùn)練的漸進(jìn)GAN來反轉(zhuǎn)和重建不同場景的自然照片的定性結(jié)果的應(yīng)用方法(f)。
總結(jié)
作者提出了一種方法來測量和可視化最新生成模型中的模式下降。產(chǎn)生的圖像分割統(tǒng)計(jì)信息可以比較不同模型和架構(gòu)的質(zhì)量,并提供有關(guān)它們的輸出空間的語義差異。層反轉(zhuǎn)讓我們進(jìn)一步探究發(fā)電機(jī)的范圍自然照片,揭示特定的對象和樣式無法代表。
通過相互比較標(biāo)記的分布,并通過比較自然照片與不完美的重建,我們可以識別出特定的物體,生成器無法生成的零件和樣式。作者在此提出的方法構(gòu)成了分析和理解物體潛在空間的第一步。GAN并指出其他問題。
相關(guān)論文源碼下載地址:關(guān)注“圖像算法”微信公眾號 回復(fù)“GANMIT”
總結(jié)
以上是生活随笔為你收集整理的MIT麻省理工最新研究揭示GAN生成数据可视化分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GBase 8s灾备集群HAC (四)
- 下一篇: 【找工作】三大运营商、航十