CVPR 2019 | STGAN: 人脸高精度属性编辑模型
AttGAN 和 StarGAN 在人臉屬性編輯上取得了很大的成功,但當人臉屬性之間相互交集或者目標人臉屬性比較復雜時,這兩種方式對于控制屬性的標簽上的精細化就顯示了些許的不足。STGAN 是一個建立在 AttGAN 基礎上的人臉屬性編輯模型,通過差分屬性標簽下選擇性傳輸單元的跳躍連接實現了人臉高精度屬性的編輯。
作者丨武廣
學校丨合肥工業大學碩士生
研究方向丨圖像生成
論文引入
圖像編輯是計算機視覺下有趣但也具有挑戰性的工作,隨著生成對抗網絡的發展,圖像編輯取得了長足的發展,任意屬性編輯實際上也轉換到了多域圖像到圖像變換任務。類似于 CycleGAN 和 Pix2Pix 等此類單個翻譯模型已經取得了一定的成功,但是它在利用整個訓練數據方面是無效的,并且學習的模型隨著屬性的數量呈指數增長。為了解決這個問題,多屬性的圖像變換模型逐漸涌現,其中最為有名的則是 AttGAN [1] 和 StarGAN [2] 了。?
這兩個模型都是架構在編碼器 - 解碼器上,同時將源圖像和目標屬性向量作為輸入,AttGAN 不是對潛在表示施加約束,而是對生成的圖像應用屬性分類約束,以保證所需屬性的正確變化,同時引入重建學習以保留屬性排除細節。StarGAN 只用一個 generator 網絡,處理多個 domain 之間互相 generate 圖像的問題,這是比 AttGAN 更深一步的人臉屬性遷移。?
STGAN 是建立在這兩個模型基礎上的人臉高精度屬性編輯模型,我們先看一下這三個模型生成的人臉對比:
從上圖可以看出這三個模型下雖然所有屬性都保持不變,但 AttGAN 和 StarGAN 在結果中可以觀察到不必要的變化和視覺退化,造成這種結果的主要原因在于編碼器 - 解碼器的結構限制和目標屬性的使用矢量作為輸入。STGAN 僅考慮要改變的屬性,以及在用解碼器特征編輯屬性無關區域時選擇性地連接編碼器特征。?
僅考慮要改變的屬性通過目標和源屬性標簽之間的差異作為編碼器 - 解碼器的輸入;提出了選擇性傳輸單元(STU)來自適應地選擇和修改編碼器特征,其進一步與解碼器特征連接以增強圖像質量和屬性操縱能力。
總結一下 STGAN 的優勢:?
將差異屬性向量作為輸入,以增強屬性的靈活轉換并簡化訓練過程;
設計選擇性傳輸單元并與編碼器 - 解碼器結合,以同時提高屬性操作能力和圖像質量;
實驗結果上,STGAN 在任意面部屬性編輯和圖像翻譯方面取得了很好的效果。
Skip Connection
skip connection 在 UNet 下被廣泛使用,翻譯過來的話可以稱為跳躍連接,skip connection 已經在圖像語義分割上得到了廣泛的應用,同時也不僅僅是限于 UNet 的設計框架下。
STGAN 將 skip connection 應用在模型中,我們知道人臉屬性編輯上的架構采用編碼器 - 解碼器結構,其中空間池化或下采樣對于獲得屬性操縱的高級抽象表示是必不可少的。
然而,下采樣不可逆地降低了空間分辨率和特征圖的細節,這些細節無法通過反卷積完全恢復,并且結果容易模糊或丟失細節。為了提高編輯結果的圖像質量,skip connection 自然而然的被想到應用在結構中。?
為了分析 skip connection 的影響和限制,作者在測試集上測試了 AttGAN 的四種變體:
沒有 skip connection 的 AttGAN (AttGAN-ED);
具有一個skip connection (AttGAN) 也就是原版的 AttGAN;
具有兩個 skip connection 的 AttGAN (AttGAN-2s);
具有所有對稱 skip connection 的 AttGAN (AttGAN-UNet)。
下表和下圖顯示了對比實驗的結果:
可以看出,添加跳過連接確實有利于重建細節,并且隨著 skip connection 的增加可以獲得更好的結果。然而,作者又做了人臉屬性添加上的對比性實驗:
通過分類準確率可以看到,添加多個 skip connection 卻實現了降低指標的作用,我們可以猜測通過 skip connection 的部署弱化了屬性操縱能力為代價改善了重建圖像質量,主要歸因于該跳過連接直接連接編碼器和解碼器特征。為了避免這種情況,STGAN 采用選擇性傳輸單元來自適應地轉換由要改變的屬性引導的編碼器特征。
選擇性傳輸單元
在介紹選擇性傳輸單元之前,我們先把文章對目標屬性和源屬性的標簽處理交代一下。StarGAN 和 AttGAN 都將目標屬性向量和源圖像 x 作為輸入到生成器。
實際上,使用完整目標屬性向量是多余的,可能對編輯結果有害。如果目標屬性向量與源完全相同,此時,理論上輸入只需要對圖像進行重構即可,但 StarGAN 和 AttGAN 可能會錯誤地操作一些未更改的屬性,比如把原本就是金色頭發變得更加的金色。?
對于任意圖像屬性編輯,而不是完整目標屬性向量,只應考慮要更改的屬性以保留源圖像的更多信息。因此,將差異屬性向量定義為目標和源屬性向量之間的差異是合適的:
比如男性有胡子戴眼鏡的源圖編輯到男性無胡子戴眼鏡禿頭目標圖,這里面僅僅是添加了禿頭這一屬性,減少了胡子這一屬性,其它的可以保持不變。可以為指導圖像屬性編輯提供更有價值的信息,包括是否需要編輯屬性,以及屬性應該改變的方向。然后可以利用該信息來設計合適的模型,以將編碼器特征與解碼器特征進行變換和連接,并且在不犧牲屬性操縱精度的情況下提高圖像重建質量。?
選擇性傳輸單元(STU)來選擇性地轉換編碼器特征,使其與解碼器特征兼容并互補,而不是通過 skip connection 直接將編碼器與解碼器特征連接起來。這個變換需要適應變化的屬性,并且在不同的編碼器層之間保持一致,作者修改 GRU [3] 的結構以構建用于將信息從內層傳遞到外層的 STU。我們來看一下 STU 的結構:
為編碼器第 l 層輸出,為數據編碼在 l+1 層的隱藏狀態,隱藏狀態則是結合了得到的:
其中 [?,?] 表示為 concatenation 操作,?T 為轉置卷積,然后,STU 采用 GRU 的數學模型來更新隱藏狀態和轉換后的編碼器特征:
其中 ? 表示卷積運算,° 表示逐項乘積,σ(?) 表示 sigmoid 函數。復位門和更新門的引入允許以選擇性方式控制隱藏狀態,差異屬性向量和編碼器特征。輸出提供了一種自適應的編碼器特征傳輸方法及其與隱藏狀態的組合。
選擇性傳輸單元(STU)說白了就是在GRU的結構上實現的,差分標簽控制下的編碼特征的選擇。
模型結構
有了上述的分析,我們再看模型的結構則是比較容易理解了:
整個模型比較簡單,在編碼器和解碼器過程中,加入 STU 選擇單元,從而獲得人臉屬性編輯后的輸出。編碼器的輸入端包括源圖 x 和差分屬性標簽。對于判別器,也是判別生成器輸出真假和對應的屬性標簽。
對抗損失采用 WGAN-GP 來實現生成優化,對應著,。對于屬性標簽和生成器的屬性優化通過源真實樣本和標簽優化判別器,再通過判別器去判別目標生成的屬性結果來優化生成器:
,為源域和目標域屬性標簽,文章還加入了一個不使用標簽的重構誤差,也就是差分標簽置為 0:
最終得到的損失為:
實驗
人臉屬性編輯的實驗建立在 CelebA 數據集上,CelebA 數據集包含裁剪到 178×218 的 202,599 個對齊的面部圖像,每個圖像有 40 個帶/不帶屬性標簽。圖像分為訓練集,驗證集和測試集,文章從驗證集中獲取 1,000 張圖像以評估訓練過程,使用驗證集的其余部分和訓練集來訓練 STGAN 模型,并利用測試集進行性能評估。
實驗考慮 13 種屬性,包括禿頭,爆炸,黑發,金發,棕色頭發,濃密眉毛,眼鏡,男性,嘴微微開口,小胡子,無胡子,蒼白皮膚和年輕,實驗中,每個圖像的中心 170×170 區域被裁剪并通過雙三次插值調整為 128×128。
定性結果分析上,文章將STGAN與四種競爭方法進行比較,即IcGAN,FaderNet,AttGAN和StarGAN,實驗結果如下圖所示,可以看出STGAN展示了很好的競爭效果。
定量評估上,文章從兩個方面評估屬性編輯的性能,即圖像質量和屬性生成準確性。圖像質量上,保持目標屬性向量與源圖像屬性相同,得到了 PSNR / SSIM 結果:
對于屬性生成準確性,STGAN?也展示了優秀的結果:
實驗在用戶的選擇測試上也取得了最佳效果,Ablation Study 實驗上也證實了模型的每一部分的優勢和必要。最后放一張 STGAN 在圖像季節轉換的實驗效果:
總結
文章研究了選擇性傳輸視角下任意圖像屬性編輯的問題,并通過在編碼器 - 解碼器網絡中結合差分屬性向量和選擇性傳輸單元(STU)來提出 STGAN 模型。通過將差異屬性向量而不是目標屬性向量作為模型輸入,STGAN 可以專注于編輯要改變的屬性,這極大地提高了圖像重建質量,增強了屬性的靈活轉換。
參考文獻
[1] He, Zhenliang, et al. "Attgan: Facial attribute editing by only changing what you want." arXiv preprint arXiv:1711.10678 (2017).?
[2] Choi, Yunjey, et al. "Stargan: Unified generative adversarial networks for multi-domain image-to-image translation." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.?
[3] Chung, Junyoung, et al. "Empirical evaluation of gated recurrent neural networks on sequence modeling." arXiv preprint arXiv:1412.3555 (2014).
點擊以下標題查看更多往期內容:?
最新Anchor-Free目標檢測模型—FoveaBox
從動力學角度看優化算法:GAN的第三個階段
近期值得讀的10篇GAN進展論文
天秤座R-CNN:全面平衡的目標檢測器
萬字綜述之生成對抗網絡(GAN)
CVPR 2019 | 基于高清表示網絡的人體姿態估計
小米拍照黑科技:基于NAS的圖像超分辨率算法
全新缺失圖像數據插補框架—CollaGAN
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
總結
以上是生活随笔為你收集整理的CVPR 2019 | STGAN: 人脸高精度属性编辑模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 复旦大学邱锡鹏教授:词法、句法分析研究进
- 下一篇: CVPR 2019 | 实体零售场景下密