CVPR 2019 开源论文 | 基于翻译向量的图像翻译
作者丨薛潔婷
學校丨北京交通大學碩士生
研究方向丨圖像翻譯
圖像翻譯通常要解決兩個問題:將原域圖像翻譯至目標域并且翻譯后的圖像和原域圖像保持相似性。我們利用 GAN 可以很好的解決第一個問題,而針對第二個問題大多數(shù)模型都是通過限制生成器來實現(xiàn),比如在生成器某層中使用跨域權(quán)重耦合或者設(shè)計循環(huán)一致性損失等。但是限制生成器可能不僅會影響模型的多樣性而且還會阻止模型學習某些必要映射。
因此作者提出了利用三個網(wǎng)絡來進行圖像翻譯:Generator, Discriminator 以及 Siamese,其中前兩個網(wǎng)絡主要解決將原域圖像翻譯至目標域的問題,Siamese 網(wǎng)絡用于學習圖像高級語義特征從而保證翻譯后的圖像與原域圖像相似。
模型架構(gòu)
TraVeLGAN 主要依賴于三個網(wǎng)絡,其模型架構(gòu)如圖 1。其中 Generator 和 Discriminator 與之前大多數(shù)基于 GAN 的圖像翻譯模型類似,都是基于 U-Net 架構(gòu)來將原域圖像翻譯至目標域圖像,Siamese 網(wǎng)絡用于提取圖像的高級語義特征。
▲?圖1. TraVeLGAN模型架構(gòu)對于 Siamese 網(wǎng)絡而言其希望可以保證原域任意圖像間的高級語義特征差:與對應翻譯后圖像間的高級語義特征差保持一致,即:
作者將定義為模型的翻譯向量,這部分的損失函數(shù)如下。不同于 Generator 和 Discriminator 之間互相對抗的關(guān)系,這里的 Siamese 和 Generator 是互相協(xié)作的,它們都希望能最小化損失。
為了避免 Siamese 網(wǎng)絡偏向于學習使損失為 0 的情況,其還必須保證每個點至少與潛在空間中的其他點相距 δ,即,因此模型整體的的損失函數(shù)如下,對于鑒別器而言其僅優(yōu)化對抗損失即可。
實驗結(jié)果
作者主要針對傳統(tǒng)圖像翻譯模型經(jīng)常采用的 Apples to oranges, Van Gogh to landscape photo, Sketch to shoe 等異構(gòu)性不大的數(shù)據(jù)集進行對比實驗,另外也選取了 ImageNet 中 abacus, crossword, volcano, jack-o-lantern 等異構(gòu)性較大的數(shù)據(jù)集進行實驗。
▲?圖2. 相似域翻譯的實驗結(jié)果對于相似域間的圖像翻譯效果的評估,作者使用了 SSIM 結(jié)構(gòu)相似性來衡量,結(jié)果如表 1 所示,其中主要的對比實驗是 CycleGAN 及其變種,可以看出對于相似域間的圖像翻譯 TraVeLGAN 可以達到和 CycleGAN 類似的效果,也就是我們完全可以不對生成器進行限制就能達到良好的翻譯結(jié)果,如圖 2 所示。
▲?表1. 相似域間的 SSIM 得分
對于強異構(gòu)性的圖像翻譯,作者發(fā)現(xiàn)加入 Siamese 網(wǎng)絡后 TraVeLGAN 可以學習到更高級的語義特征。如圖 3 所示,TraVeLGAN 可以將算盤中的黑色珠子映射到填字游戲中的黑/白方塊中,而 CycelGAN 僅能學習到將黑色珠子映射為白色方塊,即在強異構(gòu)性的圖像翻譯中 TraVeLGAN 比 CycelGAN 能產(chǎn)生更合理更多樣的輸出結(jié)果。
▲?圖3. TraVeLGAN vs CycelGAN
由于強異構(gòu)性域圖像翻譯的目標不再是希望翻譯后的圖像和原域圖像相似,因此作者采用了 FID 得分以及鑒別器得分來衡量模型效果,由表 2 可以看出相比 CycelGAN 及其變種 TraVeLGAN 對于強異構(gòu)性域的圖像翻譯效果更好,具體效果如圖 4 所示。
▲?表2. 強異構(gòu)型域間 FID 得分
▲?圖4. 強異構(gòu)性域間翻譯效果
總結(jié)
目前絕大多數(shù)的無監(jiān)督圖像翻譯都是通過限制生成器來保證翻譯后圖像與原域圖像的相似性,而這種限制可能會影響模型的表達能力,限制其翻譯的多樣性。作者發(fā)現(xiàn)加入 Siamese 網(wǎng)絡可以幫助模型在不損害原有翻譯能力的前提下進行強異構(gòu)型的圖像翻譯,并且能有效的指導生成器生成更加合理逼真的結(jié)果,這無疑為之后更加靈活的圖像翻譯模型設(shè)計提供了新的思路。
點擊以下標題查看更多往期內(nèi)容:?
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學習心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
總結(jié)
以上是生活随笔為你收集整理的CVPR 2019 开源论文 | 基于翻译向量的图像翻译的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 十年编程经验输给新晋AI工程师,6个月我
- 下一篇: 为什么电脑桌面黑屏怎么办 电脑桌面怎么办