【论文解读】Cross-domain Correspondence Learning for Exemplar-based Image Translation
論文題目:Cross-domain Correspondence Learning for Exemplar-based Image Translation
論文主頁:https://panzhang0212.github.io/CoCosNet/
論文鏈接:https://arxiv.org/abs/2004.05571
代碼鏈接:https://github.com/microsoft/CoCosNet
用于基于示例的圖像翻譯的跨域語義對應學習
?
Task
本文所針對的任務是基于示例的圖像翻譯,不同于普通的圖像翻譯,不僅提供了input,還提供了包含風格的示例,相當于提供了語義圖像和風格圖像,對生成圖像有了更多約束但也提供了更多信息。
這個任務的難點有兩個:
如何解決跨域語義對應
如何生成高質量的對應圖像
這兩個問題不需要完全分離,它們可以是兩個相輔相成的過程。正確的語義對應有助于指導網絡參考范例的顏色及紋理,從而提高最終圖像質量;反之,生成高質量圖片的目標會反過來要求子模塊找到合理的對應。
?
CoCosNet網絡結構
網絡包含兩個部分:跨域對齊網絡和圖像生成網絡
大致流程:
-
跨域對齊網絡:把兩個域的圖像映射到一個中間域,在中間域上找到二者的匹配關系,然后利用匹配關系扭曲示例圖像。
-
圖像轉換網絡:利用多層卷積和扭曲的示例圖像逐步生成高質量的目標域圖像。
?
Cross-domain correspondence network 跨域對齊網絡
這一部分網絡包含兩個步驟:
步驟一:
輸入圖像XA是A域的,示例YB是B域的,把他們映射到同一個中間域S的話就可以較為方便地找到他們之間的語義對應關系,作者這里使用的映射方式是用FPN提取兩張圖像的特征圖,再都轉換為S域中的表示XS和YS,這里的F就是整個的轉換關系,theta是需要學習的參數。
這一步對應的loss叫域對齊損失,(XB是XA在B域中對應的圖像,類似于ground truth,但嚴格來說不是),如果這個中間域找的好的話,這里好的定義就是語義對齊,那么XA和XB轉換到S域應該是完全對齊的,因為他們本來就是相同場景的不同域圖像,是包含相同語義的。
Domain alignment loss
步驟二:
都轉換到S域之后就要找到他們之間的語義相關性,首先計算一個S域中他們倆的相關矩陣,其中這個hat指的是在通道維度均值歸0后的值,然后通過softmax加權選擇YB中最相關的像素,這樣就得到了一張直接通過輸入圖像把示例圖像扭曲過來的圖像。
跟這一步相對應的loss叫對應關系正則損失,對于這個扭曲后的示例圖像是沒有強監督的,所以作者這里是通過一個循環一致性來約束的,就是通過同樣的方法把扭曲后的圖像按照原示例圖YB扭曲回去,得到的應該是YB原圖。
Correspondence regularization loss
這里提前放一下關于這兩個loss的消融實驗
如果沒有第一個域對齊損失,會造成兩個域沒有實現對應,扭曲圖片會出現過度平滑;如果沒有第二個對應正則損失,將會產生不正確的對應,導致最后生成的圖像質量不好。
?
Translation network
接下來是它的圖像生成網絡,從一個固定的常量z開始,通過逐步卷積逐步注入扭曲圖像的風格信息,每一次注入風格都是通過Positional normalization和Spatially-adaptive denormalization, positional normalization是指在每一個像素點進行歸一化操作,SPADE指的是去正則化時的Alpha和Beta不是學來的,而是從風格參考圖像中得來的,而且也是每一個像素不同,這里得到Alpha和Beta的操作也是通過卷積。
經過七層這樣的操作,最終得到輸出圖片。
除了之前說到的兩個跨域對齊損失,還有一些跟圖像生成有關的loss
第一個是偽參考圖像對損失,這里再一次用到了XB,XB在這里是真正作為ground truth,XB’是對XB做了一些隨機變形,裁剪或是翻轉之類的,如果把它作為示例圖像,XA作為輸入圖像,生成的應該是XB才對,這里的Phi l是VGG-19的第l層激活。
feature matching loss
第二個是參考圖像轉換損失,其中包含兩項,perceptual loss和contextual loss,感知損失用的是高層語義信息,也就是VGG-19比較靠后的一層特征,為了使生成圖像XB hat和XB擁有較高的語義一致性;感知損失約束的是全局高頻特征的相似性,上下文損失約束的是局部的特征,所以這里用到的是包含更豐富風格信息(例如顏色、紋理)的幾個低層特征,為了使XB hat和YB在風格上相似。contextual loss來自另一篇論文“The contextual loss for image transformation with non-aligned data”,想要詳細了解可以搜索一下。
perceptual loss
contextual loss
最后一項是對抗損失,與一般GAN的損失函數類似,主要是為了讓生成的圖片屬于B域,提升圖片質量。
Adversarial loss
綜上最后總的損失函數就是這6項的加權和。
1. 偽參考圖像對損失,2. 語義約束損失,3. 風格約束損失,4. 生成對抗損失,5. 領域對齊損失,6. 相似度矩陣正則化損失
?
實驗結果
還有一些定量結果,評價指標包含三部分:生成圖像是否像真的,語義信息是否像input,風格是否像exemplar。FID和SWD都是圖像生成的評價指標,FID表示生成圖像分布和真實圖像分布的距離;SWD表示將生成圖像改變為真實圖像需要移動的最短距離。都是越低越好。具體的結果大家可以看論文中,這里不再貼圖。此外還包括用戶判斷實驗和每一項loss的消融實驗,作者的實驗做的很全面。
?
Limitation
one-to-many and many-to-one mappings
示例圖像中的紅黑兩輛汽車同時與input中的汽車相對應,導致生成圖像中的汽車一半黑一半紅,與現實不符;下面一行中枕頭只是簡單地復制,丟失了多樣性。
2. 第二個不足在于相關矩陣等計算非常占用GPU內存,使得這個方法很難用在高分辨率的圖像上。
參考文獻:
Zhang, Pan, Bo Zhang, Dong Chen, Lu Yuan, and Fang Wen. “Cross-domain Correspondence Learning for Exemplar-based Image Translation.” arXiv preprint arXiv:2004.05571 (2020).
總結
以上是生活随笔為你收集整理的【论文解读】Cross-domain Correspondence Learning for Exemplar-based Image Translation的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: android隐藏系统ui_如何启用An
- 下一篇: Windows10 应用商店打不开问题,