近期值得读的10篇GAN进展论文
作者丨蘇劍林
單位丨廣州火焰信息科技有限公司
研究方向丨NLP,神經(jīng)網(wǎng)絡(luò)
個人主頁丨kexue.fm
這篇文章簡單列舉一下我認(rèn)為最近這段時間中比較重要的 GAN 進(jìn)展論文,這基本也是我在學(xué)習(xí) GAN 的過程中主要去研究的論文清單。
生成模型之味
GAN 是一個大坑,尤其像我這樣的業(yè)余玩家,一頭扎進(jìn)去很久也很難有什么產(chǎn)出,尤其是各個大公司拼算力搞出來一個個大模型,個人幾乎都沒法玩了。但我總覺得,真的去碰了生成模型,才覺得自己碰到了真正的機(jī)器學(xué)習(xí)。這一點(diǎn),不管在圖像中還是文本中都是如此。所以,我還是愿意去關(guān)注生成模型。
當(dāng)然,GAN 不是生成模型的唯一選擇,卻是一個非常有趣的選擇。在圖像中至少有 GAN、Flow、PixelRNN/PixelCNN 這幾種選擇,但要說潛力,我還是覺得 GAN 才是最具前景的,不單是因?yàn)樾Ч?#xff0c;主要是因?yàn)樗菍沟乃枷搿?/span>
而在文本中,事實(shí)上 Seq2Seq 機(jī)制就是一個概率生成模型了,而 PixelRNN?這類模型,實(shí)際上就是模仿著 Seq2Seq 來做的,當(dāng)然也有用 GAN 做文本生成的研究(不過基本上都涉及到了強(qiáng)化學(xué)習(xí))。也就是說,其實(shí)在 NLP 中,生成模型也有很多成果,哪怕你主要是研究 NLP 的,也終將碰到生成模型。
好了,話不多說,還是趕緊把清單列一列,供大家參考,也作為自己的備忘。
拿效果來說話?
話在前頭
不嚴(yán)謹(jǐn)?shù)卣f,目前在 GAN 中,基本上都是效果說話。不管你多么完美的理論,只要你實(shí)驗(yàn)不能生成高清圖,都很難被人接受;你再丑陋的結(jié)果,只要你實(shí)驗(yàn)效果夠好,能生成高清大圖,大家都得圍著你轉(zhuǎn)。?
GAN 模型的一個標(biāo)志性事件,是 NVIDIA 去年搞出來的 Progressive Growing GANs,它首次實(shí)現(xiàn)了 1024*1024 的高清人臉生成。要知道,一般的 GAN 在生成 128*128 人臉時就會有困難,所以 1024 分辨率的生成稱得上是一個突破。而下面列舉的一些論文,都是在自己的實(shí)驗(yàn)中做到了 1024 的人臉生成。單是這個實(shí)驗(yàn)結(jié)果,就值得我們?nèi)リP(guān)注一下這些論文。?
當(dāng)然,生成 1024 圖除了需要模型的進(jìn)步,還需要很大的算力,因此一般人/實(shí)驗(yàn)室都很難做到。關(guān)注這些論文,并不是要我們?nèi)?fù)現(xiàn)這么大的圖生成,而是因?yàn)檫@些模型能生成這么大的圖,必然有它值得我們借鑒的地方,甚至我們可以從中明白到 GAN 的瓶頸所在,從而讓我們在自己的研究中少走彎路。
論文清單
這篇文章就是前面說的首次實(shí)現(xiàn)了 1024 人臉生成的 Progressive Growing GANs,簡稱 PGGAN,來自 NVIDIA。
顧名思義,PGGAN 通過一種漸進(jìn)式的結(jié)構(gòu),實(shí)現(xiàn)了從低分辨率到高分辨率的過渡,從而能平滑地訓(xùn)練出高清模型出來。論文還提出了自己對正則化、歸一化的一些理解和技巧,值得思考。當(dāng)然,由于是漸進(jìn)式的,所以相當(dāng)于要串聯(lián)地訓(xùn)練很多個模型,所以 PGGAN 很慢。
這篇文章有很多對 GAN 訓(xùn)練穩(wěn)定性的數(shù)學(xué)推導(dǎo),最終得到了比 WGAN-GP 更簡單的梯度懲罰項(xiàng),關(guān)注 GAN 訓(xùn)練穩(wěn)定性的同學(xué)可以參考。
除了 1024 人臉,這篇文章也做了很多其他數(shù)據(jù)集的實(shí)驗(yàn),效果都挺不錯,而且都是直接端到端訓(xùn)練,不需要漸進(jìn)式結(jié)構(gòu)。我唯一困惑的是,這個懲罰項(xiàng),不就是 WGAN-div?中的一個特例嗎?為什么論文沒有提到這一點(diǎn)?
這是個會“反省”的 VAE,通過對抗來改進(jìn)了 VAE,從而能生成高清圖片,并且能同時得到編碼器和生成器。
除了能生成1024的高清圖,更值得一提的是,這篇文章在構(gòu)思上非常精妙。因?yàn)槟芡瑫r得到編碼器和生成器的模型不算獨(dú)特,比如 BiGAN 就能做到,但是 IntroVAE 獨(dú)特之處在于它能直接利用了 encoder 作為判別器,不需要額外的判別器,也就是直接省去了 1/3 的參數(shù)量。這背后更深層次的原因,值得我們?nèi)ゼ?xì)細(xì)分析和回味。
這就是大名鼎鼎的 BigGAN。這篇文章雖然沒有提供 1024 的人臉生成結(jié)果,但是它提供了 128、256、512 的自然場景圖片的生成結(jié)果。要知道自然場景圖片的生成可是比 CelebA 的人臉生成要難上很多倍,既然它連 512 的自然場景圖片都可以生成了,我們自然不懷疑它能輕松生成 1024 的人臉。
BigGAN 在網(wǎng)上已經(jīng)有很多科普介紹了,不再重復(fù)。論文還提出了自己的一些正則化技巧,并分享了大量的調(diào)參經(jīng)驗(yàn)(調(diào)整哪些參數(shù)會有好的/壞的改變),非常值得參考。
這篇文章通過信息瓶頸來控制判別器的擬合能力,從而起到正則作用,穩(wěn)定了 GAN 的訓(xùn)練。信息瓶頸的簡介可以參考我的這篇文章。總的來說,在普通有監(jiān)督訓(xùn)練中一切防止過擬合的手段,理論上都可以用在判別器中,而信息瓶頸也算是防止過擬合的一種手段。
當(dāng)然,從標(biāo)題就可以知道,論文也不滿足于只用在 GAN 中,除了 1024 的人臉圖生成實(shí)驗(yàn),論文還做了仿真學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等實(shí)驗(yàn)。
這就是前幾天發(fā)出來的新的 GAN 生成器架構(gòu),被很多文章稱之為 GAN 2.0,依舊是 NVIDIA,依舊是 PGGAN 的作者,依舊是 PGGAN 的模式。只不過生成器的架構(gòu)換了,人家在一年前就已經(jīng)生成了 1024 圖,這次肯定也不例外了。
這個新的生成器架構(gòu),據(jù)說是借鑒了風(fēng)格遷移的模型,所以叫 Style-Based Generator。我讀了一下,其實(shí)它差不多就是條件 GAN(CGAN)的架構(gòu),但是把條件和噪聲互換了。簡單來說,就是把噪聲當(dāng)作條件,把條件當(dāng)作噪聲,然后代入到 CGAN 中。
看論文的效果圖,這種思維上的轉(zhuǎn)換的效果還是很不錯的,我自己也試著實(shí)現(xiàn)了一下,能 work,但是有點(diǎn) mode collapse,大家還是等開源吧。
順便一提的是,一年前也是 PGGAN 的作者給我們帶來了 CelebA HQ 數(shù)據(jù)集,現(xiàn)在還是他們給我們帶來了新數(shù)據(jù)集 FFHQ。據(jù)說數(shù)據(jù)集和代碼都將在明年一月開源,讓我們拭目以待。
穩(wěn)住訓(xùn)練再說
話在前頭
與有監(jiān)督學(xué)習(xí)的任務(wù)不同,有監(jiān)督學(xué)習(xí)中,一般只要設(shè)計(jì)好模型,然后有足夠多的數(shù)據(jù),足夠的算力,就可以得到足夠好的模型;但 GAN 從來都不是設(shè)計(jì)模型就完事了,它是一個理論、模型、優(yōu)化一體的事情。
從框架的角度來看,發(fā)展到 WGAN 后 GAN 的理論框架基本也就完備了,后面都只是不痛不癢的修補(bǔ)(包括我的 GAN-QP);從模型架構(gòu)來看,DCGAN 奠定了基礎(chǔ),后來發(fā)展的 ResNet + Upsampling 也成為了標(biāo)準(zhǔn)框架之一,至于剛出來的 Style-Based Generator 就不說了,所以說模型架構(gòu)基本上也成熟了。
那剩下的是什么呢?是優(yōu)化,也就是訓(xùn)練過程。我覺得,要想真正掌握 GAN,就得仔細(xì)研究它的優(yōu)化過程,也許得從動力學(xué)角度來仔細(xì)分析它的訓(xùn)練軌跡。這可能涉及到微分方程解的存在性、唯一性、穩(wěn)定性等性質(zhì),也可能涉及到隨機(jī)優(yōu)化過程的知識。總而言之,需要把優(yōu)化過程也納入到 GAN 的分析中,GAN 才可能真正完備起來。?
下面的這些論文,從不同的角度分析了 GAN 的訓(xùn)練問題,并給出了自己的解決方案,值得一讀。
論文清單
本文通過加噪聲的方式推導(dǎo)出了 GAN 的正則項(xiàng),推導(dǎo)過程理論上適用于一切 f-GAN。從論文效果圖看,結(jié)果還是不錯的。
本文提出了 TTUR 的訓(xùn)練策略,大概意思就是:原來我們每次迭代都是用相同的學(xué)習(xí)率將判別器和生成器交替訓(xùn)練不同的次數(shù),現(xiàn)在可以考慮用不同的學(xué)習(xí)率將各自訓(xùn)練一次,這樣顯然訓(xùn)練起來會更省時。
不過我粗略看了一下,盡管論文理論多,但是它理論基礎(chǔ)卻是另外一篇現(xiàn)成的文章 Stochastic approximation with two time scales [1],可以說論文只是反復(fù)在用這個現(xiàn)成的理論基礎(chǔ),略微單調(diào)。
在前面已經(jīng)介紹過這篇文章了,但這里還是再放一次,因?yàn)閷?shí)在是太經(jīng)典。感覺是研究 GAN 訓(xùn)練穩(wěn)定性必看的文章,作者從微分方程角度來理解 GAN 的訓(xùn)練問題。
在穩(wěn)定性分析的過程中,這篇文章主要還引用了兩篇文章,一篇是它的“前傳”(同一作者),叫做 The Numerics of GANs [2],另一篇是 Gradient descent GAN optimization is locally stable [3],都是經(jīng)典之作。
本文通過譜歸一化給判別器實(shí)現(xiàn) L 約束,應(yīng)該說是目前實(shí)現(xiàn) L 約束最漂亮的方法了。目前譜歸一化也用得很廣,所以值得一提。相關(guān)介紹也可以參考我之前的文章。
本文往 WGAN-GP 中添加了一個新的正則項(xiàng),這個正則項(xiàng)的想法很樸素,就是直接把 L 約束(差分形式)作為正則項(xiàng),跟 GAN-QP 的判別器多出來的二次項(xiàng)差不多。看論文的曲線圖,訓(xùn)練比純 WGAN-GP 要穩(wěn)定些。
歡迎繼續(xù)補(bǔ)充
這次的論文清單就這么多了,剛好湊夠了十篇。限于筆者閱讀量,不排除有疏漏之處,如果還有其他推薦的,歡迎在評論中提出。
相關(guān)鏈接
[1] Vivek S.Borkar. Stochastic approximation with two time scales. Systems & Control Letters Volume 29, Issue 5, February 1997, Pages 291-294.
[2] Lars Mescheder, Sebastian Nowozin, Andreas Geiger. The Numerics of GANs. NIPS 2017.
[3] Vaishnavh Nagarajan, J. Zico Kolter. Gradient descent GAN optimization is locally stable. NIPS 2017.
點(diǎn)擊以下標(biāo)題查看作者其他文章:?
變分自編碼器VAE:原來是這么一回事 | 附開源代碼
再談變分自編碼器VAE:從貝葉斯觀點(diǎn)出發(fā)
變分自編碼器VAE:這樣做為什么能成?
從變分編碼、信息瓶頸到正態(tài)分布:論遺忘的重要性
深度學(xué)習(xí)中的互信息:無監(jiān)督提取特征
全新視角:用變分推斷統(tǒng)一理解生成模型
細(xì)水長flow之NICE:流模型的基本概念與實(shí)現(xiàn)
細(xì)水長flow之f-VAEs:Glow與VAEs的聯(lián)姻
深度學(xué)習(xí)中的Lipschitz約束:泛化與生成模型
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢??答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標(biāo)準(zhǔn):
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請?jiān)谕陡鍟r提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨(dú)在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 查看作者博客
總結(jié)
以上是生活随笔為你收集整理的近期值得读的10篇GAN进展论文的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 头部数据人才24小时图鉴
- 下一篇: 从信息瓶颈理论一瞥机器学习的“大一统理论