译文(Artistic Style Transfer with Internal-external Learning and Contrastive Learning)
內部-外部學習和對比性學習的藝術風格轉移
摘要?
盡管現(xiàn)有的藝術風格轉移方法在深度神經網絡的作用下取得了明顯的改善,但它們仍然存在著諸如不和諧的顏色和重復的圖案等偽影。受此啟發(fā),我們提出了一種具有兩種對比性損失的內部-外部風格轉移方法。具體來說,我們利用單個風格圖像的內部統(tǒng)計數(shù)據來確定風格化圖像的顏色和紋理模式,同時,我們利用大規(guī)模風格數(shù)據集的外部信息來學習人類感知的風格信息,這使得風格化圖像中的顏色分布和紋理模式更加合理和諧。此外,我們認為現(xiàn)有的風格轉換方法只考慮了內容到風格化和風格到風格化的關系,忽視了風格化到風格化的關系。為了解決這個問題,我們引入了兩個對比性損失,當多個風格化嵌入具有相同的內容或風格時,它們會相互拉近,但在其他情況下則會推遠。我們進行了廣泛的實驗,表明我們提出的方法不僅可以產生視覺上更加和諧和令人滿意的藝術圖像,而且還可以促進渲染視頻片段的穩(wěn)定性和一致性。
1 引言
圖1:風格化的例子。第一列和第二列分別顯示了風格和內容圖像。其他七列顯示了由我們的方法、Gatys等人[10]、AdaIN[15]、WCT[30]、Avatar-Net[41]、LST[28]和SANet[36]產生的風格化圖像。
藝術風格轉移是一個長期的研究課題,它試圖用給定的藝術作品風格來呈現(xiàn)一張照片。自從Gatys等人[10]首次提出利用預訓練的深度卷積神經網絡(DCNN)來分離和重新組合任意圖像的內容和風格的神經方法以來,風格轉換出現(xiàn)了空前的繁榮[20, 26, 15, 30, 36, 51, 48]。
盡管最近取得了一些進展,但在真實的藝術作品和合成的風格化之間仍然存在著很大的差距。如圖1所示,風格化的圖像通常包含一些不和諧的顏色和重復的圖案,這使得它們很容易與真實的藝術作品相區(qū)別。我們認為,這是因為現(xiàn)有的風格轉換方法往往局限于單個藝術圖像的內部風格統(tǒng)計。在其他一些任務中(例如,圖像到圖像的翻譯[17, 60, 16, 25, 8, 18]),風格通常是從圖像集合中學習的,這啟發(fā)我們利用大規(guī)模風格數(shù)據集中保留的外部信息來提高風格轉移的風格化結果。為什么外部信息對風格轉換如此重要?我們的分析如下:
盡管風格數(shù)據集中的不同圖像在細節(jié)上有很大的不同,但它們有一個關鍵的共同點:它們都是人類創(chuàng)造的藝術品,其筆觸、色彩分布、紋理模式、色調等更符合人類的感知。也就是說,它們包含了一些人類意識到的風格信息,而這些信息在合成的風格化中是缺乏的。一個自然的想法是利用這種人類意識到的風格信息來改善風格化的結果。為此,我們在訓練中采用了內部-外部學習方案,將內部學習和外部學習都考慮在內。
更具體地說,一方面,我們遵循以前的方法[10, 20, 46, 54, 58],利用單個藝術品的內部統(tǒng)計數(shù)據來確定風格化圖像的顏色和紋理模式。另一方面,我們采用生成對抗網(GANs)[11, 39, 2, 56, 3],從大規(guī)模風格數(shù)據集中外部學習人類感知的風格信息,然后利用這些信息使風格化圖像的顏色分布和紋理模式更加合理、和諧,大大彌補了人類創(chuàng)作的藝術品與人工智能創(chuàng)作的藝術品之間的差距。
此外,現(xiàn)有的風格轉換方法還有一個問題:它們通常采用內容損失和風格損失來分別執(zhí)行內容到風格的關系和風格到風格的關系,而忽略了風格化到風格化的關系,這對風格轉換也很重要。什么是風格化與風格化的關系?直觀地說,用同一風格圖像渲染的風格化圖像應該比用不同風格圖像渲染的圖像在風格上有更緊密的關系。同樣地,基于相同內容圖像的風格化圖像應該比基于不同內容圖像的風格化圖像在內容上有更緊密的關系。受此啟發(fā),本文介紹了兩種對比性損失:內容對比性損失和風格對比性損失,當多個風格化嵌入具有相同的內容或風格時,它們可以相互拉近,但在其他情況下則會推遠。據我們所知,這是第一項在風格轉換場景中成功利用對比學習[6, 12, 21, 38]力量的工作。
我們大量的實驗表明,所提出的方法不僅可以產生視覺上更和諧、更合理的藝術形象,而且還可以促進渲染的視頻片段的穩(wěn)定性和一致性。
總而言之,這項工作的主要貢獻有三點:
2 相關工作
藝術風格的轉移。藝術風格轉移是一項圖像編輯任務,目的是將藝術風格轉移到日常照片上,以創(chuàng)造新的藝術作品。早期的方法通常借助于傳統(tǒng)的2種技術,如筆畫渲染[13]、圖像類比[14, 42, 9, 31]和圖像過濾[52]來進行藝術風格轉移。這些方法通常依賴于低級別的統(tǒng)計,往往不能捕捉到語義信息。最近,Gatys等人[10]發(fā)現(xiàn),從預訓練的DCNN中提取的深層特征后的Gram矩陣可以明顯代表視覺風格的特征,這開啟了神經風格轉移的時代。此后,一系列的神經方法被提出,從不同的關注點推動了風格轉移的發(fā)展。具體來說,[20, 27, 46]利用前饋網絡來提高工作效率。[26, 54, 36, 58, 35]細化風格化圖像中的各種元素(包括內容保存、紋理、筆觸等),以提高視覺質量。[7, 15, 30, 41, 28]提出通用的風格轉移方法,以實現(xiàn)通用化。[29、47、51]向生成網絡注入隨機噪聲以鼓勵多樣性。盡管進展迅速,但這些風格轉移方法仍然存在虛假的假象,如不和諧的顏色和重復的圖案。
請注意,還有另一條工作路線[40, 24, 23, 45, 4, 5],旨在從藝術家的所有作品中學習其風格。相比之下,我們的重點不是學習藝術家的風格,而是在外部風格數(shù)據集中保留的人類意識的風格信息的幫助下,更好地傾向于藝術品的風格(就像上一段提到的風格轉移方法)。因此,我們的方法與這些工作是正交的。
圖像到圖像的轉換。圖像到圖像轉移(I2I)[17,60,16,25,8,18]旨在學習不同視覺領域之間的映射,這與風格遷移密切相關。[60,16]已經區(qū)分了這兩個任務:(I)I2I只能在內容相似的視域(如馬?斑馬和夏天?冬天)之間進行翻譯,而風格轉移沒有這樣的限制,其內容圖像和樣式圖像可以完全不同(例如,前者是一個人的照片,后者是梵高的《星空》)。(II)I2I旨在學習兩個圖像集合之間的映射,而風格遷移則旨在學習兩個特定圖像之間的映射。然而,我們認為可以借鑒I2I的一些見解,利用大規(guī)模風格圖像集合的外部信息來提高風格傳遞的風格化質量。
內部-外部學習。內部-外部學習在各種圖像生成任務中顯示出有效性,如超分辨率、圖像繪畫等。詳細來說,Soh等人[44]通過利用外部和內部樣本,提出了一種快速、靈活和輕量級的自監(jiān)督超分辨率方法。Park等人[37]開發(fā)了一種內部-外部超分辨率方法,促進了超分辨率網絡的發(fā)展,進一步提高了修復圖像的質量。Wang等人[49]提出了一個通用的外部-內部學習繪畫方案,該方案通過在大型數(shù)據集上的訓練從外部學習語義知識,同時充分利用單一測試圖像的內部統(tǒng)計數(shù)據。然而,在風格轉換領域,現(xiàn)有的方法只使用單一的藝術圖像來學習風格,導致風格化的結果不令人滿意。受此啟發(fā),在這項工作中,我們提出了一種內部-外部風格轉移方法,該方法同時考慮了內部學習和外部學習,大大縮小了人類創(chuàng)造的藝術品和人工智能創(chuàng)造的藝術品之間的差距。
對比性學習。一般來說,對比學習過程中有三個關鍵因素:查詢、正面例子和負面例子。對比學習的目標是將 "查詢 "與 "正面 "例子聯(lián)系起來,同時將 "查詢 "與其他被稱為 "負面 "的例子分開。最近,對比性學習在條件圖像合成領域顯示了其有效性。更具體地說,ContraGAN[21]引入了條件性對比損失(2C損失)來學習數(shù)據到類別和數(shù)據到數(shù)據的關系。Park等人[38]通過對比性學習使輸入和輸出之間的相互信息最大化,以鼓勵在非配對圖像翻譯問題中保留內容。Liu等人[34]引入了潛伏的對比性損失,鼓勵由相鄰的潛在的代碼生成的圖像相似,由不同的潛在的代碼生成的圖像不相似,實現(xiàn)了多樣化的圖像合成。Yu等人[55]提出了對抗性訓練中的雙重對比損失,通過泛化表征來更有效地區(qū)分真假,并進一步激勵圖像生成質量。Wu等人[53]通過引入對比性學習改進了圖像去模糊的結果,確保修復后的圖像在表示空間中被拉近到清晰的圖像,并被推遠到模糊的圖像。
需要注意的是,上述所有的對比性學習方法都不能被用于風格轉換。在這項工作中,我們首次嘗試將對比學習適用于藝術風格轉移,并提出了兩種新的對比損失:內容對比損失和風格對比損失,以學習現(xiàn)有風格轉移方法所忽略的風格化與靜態(tài)化關系。
3 提出的方法?
圖2:擬議方法的概述。(a)說明了我們的基本框架,它主要包含一個預訓練的編碼器,一個風格-注意力轉換模塊,一個解碼器和一個鑒別器。風格損失Ls和內容損失Lc分別用于學習風格和內容信息。對抗性損失Ladv被用來學習人類意識到的風格信息。(b)和(c)描述了身份損失Lidentity和對比損失Ls-contra & Lc-contra,其中Lidentity用于保留風格化圖像中更多的內容結構和風格特征,而Ls-contra & Lc-contra用于學習風格化與風格化的關系。
現(xiàn)有的風格轉移方法通常會產生令人不滿意的風格化結果,具有不和諧的顏色和重復的圖案,這使得它們很容易與真實的藝術作品相區(qū)別。
為了彌補人類創(chuàng)作的藝術作品和人工智能創(chuàng)作的藝術作品之間的巨大差距,我們提出了一種新型的內部-外部風格轉移方法,該方法有兩個對比性損失。我們的方法概述如圖2所示。值得注意的是,我們的框架建立在SANet[36](最先進的風格轉移方法之一)的主干上,它由一個編碼器E、一個轉換模塊T和一個解碼器D組成。具體來說,E是一個預訓練的VGG-19網絡[43],用于提取圖像特征;T是一個風格注意網絡,可以靈活地將語義最近的風格特征匹配到內容特征上;D是一個生成網絡,用于將編碼的語義特征圖轉化為風格化圖像。我們用我們提出的修改來擴展SANet[36],我們的完整模型描述如下。
3.1?內部-外部學習?
讓C和S分別為照藝術作品的集合。我們的目標是既從單個藝術品Is∈S中學習內部風格特征,又從數(shù)據集S中學習外部人類意識的風格信息,然后將它們轉移到任意的內容圖像Ic∈C中,以創(chuàng)建新的藝術圖像Isc。
內部風格學習。按照以前的風格轉移方法[15, 36, 1],我們使用預先訓練好的VGG-19網絡φ來捕捉單一藝術圖像的內部風格特征,風格損失一般可以計算為:
其中φi表示VGG-19網絡的第i層(Relu1_1, Relu2_1, Relu3_1, Relu4_1和Relu5_1層在我們的模型中被使用)。μ和σ分別代表由φi提取的特征圖的平均值和標準偏差。
外部風格學習。在這里,我們采用GAN[11, 39, 2, 56, 3]來從風格數(shù)據集S中學習人類意識到的風格信息。GAN是一個流行的生成模型,由兩個相互競爭的網絡(即生成器G和判別器D)組成。具體來說,我們將生成器產生的風格化圖像和從S中取樣的藝術作品分別作為假數(shù)據和真實數(shù)據輸入到鑒別器。在訓練過程中,生成器將試圖通過生成真實的藝術圖像來欺騙鑒別器,而鑒別器將試圖區(qū)分生成的假藝術作品和真實的藝術作品。這兩個網絡的聯(lián)合訓練導致生成器能夠利用學到的人類意識風格信息生成顯著的逼真假圖像。對抗性訓練過程可以被表述為(注意我們的生成器G包含一個編碼器E,一個轉換模塊T,和一個解碼器D,如圖2(a)所示)。
內容結構保存。為了在風格化圖像Isc中保留Ic的內容結構,我們采用廣泛使用的感知損失:
身份損失。與[36, 32, 59]類似,當內容圖像和風格圖像相同時,我們利用身份損失來鼓勵生成器G成為一個近似的身份映射。通過這種方式,在風格化結果中可以保留更多的內容結構和風格特征。身份損失在圖2(b)中描述,定義為:
其中Icc是內容圖像和風格圖像都是Ic時產生的輸出圖像。λidentity1和λidentity2是與不同損失項相關的權重。對于φi,我們在實驗中選擇Relu1_1、Relu2_1、Relu3_1、Relu4_1和Relu5_1層。
3.2對比學習?
直觀地說,用相同風格的圖像渲染的風格化圖像應該比用不同風格的圖像渲染的圖像在風格上有更緊密的關系。同樣地,基于相同內容圖像的風格化圖像應該比基于不同內容圖像的風格化圖像在內容上有更緊密的關系。我們把這種關系稱為風格化與風格化的關系。一般來說,現(xiàn)有的風格轉換方法只考慮了內容到風格和風格到風格的關系,采用了內容損失和風格損失(如上面介紹的Lc和Ls),而忽略了風格化到風格化的關系。為了解決這個問題,我們首次將對比性學習引入到風格轉換中。對比學習的核心思想是將數(shù)據點與它們的 "正面 "例子聯(lián)系起來,而將它們與其他被認為是 "負面 "的數(shù)據點分開。
具體來說,我們提出了兩種對比性損失:風格對比性損失和內容對比性損失來學習風格化與風格化的關系。請注意,為了更清楚地表達,以下我們用si表示第i個風格圖像,ci表示第i個內容圖像,sici表示用si和ci生成的風格化圖像。為了在每個訓練批次中進行對比學習,我們以下列方式安排一批風格和內容圖像:
假設批次大小=b,是一個偶數(shù)。那么我們得到一批風格化圖像{s1, s2, ..., sb/2, s1, s2, ..., sb/2-1, sb/2},和一批內容圖像{c1, c2, ..., cb/2, c2, c3, ..., cb/2, c1}。因此,相應的風格化圖像是{s1c1, s2c2, ..., sb/2cb/2, s1c2, s2c3, ..., sb/2-1cb/2, sb/2c1}。通過這種方式,我們確保對于每個風格化的圖像sicj,我們可以找到一個與它有相同風格的風格化圖像sicx(x ≠?j),以及一個與它有相同內容的風格化圖像sycj(y ≠?i)在同一批次。圖2(c)以b=8為例,描述了這個過程。
風格對比性損失。為了關聯(lián)具有相同風格的風格化圖像,對于一個風格化圖像sicj,我們選擇sicx(x ≠?j)作為它的正面例子(sicx與sicj具有相同的風格),并選擇smcn(m ≠?i和n ≠?j)作為它的負面例子。請注意,smcn代表了一系列風格化的圖像,而不僅僅是一個圖像。那么我們可以把我們的風格對比損失表述如下:
其中l(wèi)s = hs(φrelu3_1(·)),其中hs是一個風格投影網絡。ls用于從風格化圖像中獲得風格嵌入。τ是一個溫度超參數(shù),用于控制推力和拉力。
內容對比性損失。與風格對比損失類似,為了關聯(lián)共享相同內容的風格化圖像,對于風格化圖像sicj,我們選擇sycj(y ≠?i)作為其正面例子(sycj與sicj共享相同的內容),選擇smcn(m ≠?i和n ≠?j)作為其負面例子。我們將內容對比損失表示為:
其中l(wèi)c = hc(φrelu4_1(·)),其中hc是一個內容投影網絡。lc被用來從風格化的圖像中獲得內容嵌入。
3.3最終目標
我們總結所有上述損失,得到我們模型的最終目標,
其中λ1、λ2、λ3、λ4、λ5和λ6是用于適當平衡損失的超參數(shù)。
4 實驗結果
在本節(jié)中,我們首先介紹了實驗設置。然后,我們介紹了所提出的方法和幾個基線模型之間的定性和定量比較。最后,我們通過進行消融研究來討論我們模型中每個組成部分的效果。
4.1實驗設置
實施細節(jié)。我們在最近的SANet[36]骨干網的基礎上,用我們提出的修改來擴展它,以進一步推動自動藝術品生成的界限。關于編碼器E、轉換模塊T和解碼器D的詳細網絡結構,我們參考原始論文[36]。至于判別器D,我們采用Wang等人[50]提出的多尺度判別器。風格投影網絡hs是一個兩層的MLP(多層感知器),第一層有256個單元,第二層有128個單元。同樣地,內容投影網絡hc是一個兩層MLP,每層有128個單元。公式(5)和(6)中的超參數(shù)τ被設定為0.2。方程(4)和(7)中的損失權重設置為λidentity1=50,λidentity2=1,λ1=1,λ2=5,λ3=1,λ4=1,λ5=0.3,和λ6=0.3。我們使用Adam優(yōu)化器訓練我們的網絡,學習率為0.0001,批次大小為16,迭代次數(shù)為160000。我們的代碼可在以下網站獲得:
GitHub - HalbertCH/IEContraAST: This is the official PyTorch implementation of our paper: "Artistic Style Transfer with Internal-external Learning and Contrastive Learning".
數(shù)據集。與[15, 58, 36, 19]一樣,我們將MS-COCO[33]和WikiArt[22]分別作為內容數(shù)據集和風格數(shù)據集。在訓練階段,我們首先將訓練圖像的最小尺寸調整為512,同時保留長寬比,然后從這些圖像中隨機裁剪出256×256的補丁作為輸入。請注意,在參考階段,我們的方法適用于任何尺寸的內容圖像和風格圖像。
基線。我們選擇了幾種最先進的風格轉換方法作為基線,包括Gatys等人[10]、AdaIN[15]、WCT[30]、Avatar-Net[41]、LST[28]和SANet[36]。所有這些方法都是通過使用公共代碼和默認配置進行的。
圖3:圖像風格遷移的定性比較。第一行顯示內容和樣式圖像。其余行顯示使用不同樣式傳遞方法生成的樣式化結果。
4.2定性比較
在圖3中,我們顯示了我們的方法與上面介紹的六個基線之間的定性比較。我們觀察到Gatys等人[10]容易陷入糟糕的局部最小值(例如,第1、2和3列)。Adain[15]有時會產生亂七八糟的風格化圖像,邊緣帶有看不見的顏色和不想要的光暈(例如,第1、3和6列)。WCT[30]經常引入扭曲的圖案,從而產生結構較少且缺乏風格化的圖像(例如,第二、第四和第五列)。Avatar-Net[41]很難產生清晰的細節(jié)和細膩的筆觸(例如,第一、第四和第五欄)。LST[28]通常產生樣式較少的圖像,紋理圖案非常有限(例如,第2、4和6列)。SANET[36]傾向于在不同的風格(例如,第1、第3和第6列)之間應用相似的重復紋理圖案。
盡管最近取得了一些進展,但合成的藝術圖像和真實的藝術作品之間的差距仍然很大。為了進一步縮小這一差距,我們將內部-外部學習和對比學習引入到藝術風格的轉換中,從而使視覺上更加和諧和,如圖3的第二行所示。
我們還將我們的方法與6條基線進行了視頻風格轉換的比較,視頻風格轉換是在內容視頻和風格圖像之間以幀的方式進行的。樣式化結果如圖4所示。為了可視化合成視頻剪輯的穩(wěn)定性和一致性,我們還在圖4的最后一列中顯示了不同幀之間差異的熱圖。正如我們可以看到的那樣,我們的方法在穩(wěn)定性和一致性方面明顯優(yōu)于現(xiàn)有的樣式轉換方法。這可以歸因于兩點:(I)外部學習通過消除那些扭曲的紋理模式來平滑風格化結果;(II)擬議的對比損失考慮了風格化與風格化的關系,將相鄰的風格化框架拉得更近,因為它們擁有相同的風格和相似的內容。
圖4:視頻風格轉移的定性比較。第一行顯示了幾個視頻幀和樣式圖像。其余行顯示使用不同樣式傳遞方法生成的樣式化結果。最后一列顯示了不同幀之間差異的熱圖。
4.3定量比較
由于上面提出的定性評估可能是主觀的,在本節(jié)中,我們借助幾個評估指標,以定量的方式更好地評估所提出的方法的性能。
用戶研究[54, 36, 24, 23, 48]是風格轉換中最廣泛采用的評價指標,它調查了用戶對不同風格化結果的偏好,以進行更客觀的比較。
傾向性得分。我們使用10張內容圖像和15張風格圖像來合成150張風格化的圖像。每種方法。然后為每個參與者隨機選擇20個內容-風格對,并按隨機順序向他們展示我們的方法和競爭者的方法所產生的風格化圖像。接下來,我們要求每個參與者為每個內容風格對選擇他/她最喜歡的風格化結果。最后,我們從50名參與者中收集了1000張投票,并在表1的第二行列出了每種方法的得票率在表1的第二行。結果表明,由我們的方法生成的風格化圖像與其他競爭方法生成的圖像相比,人類參與者更喜歡我們的風格化圖像。 ?
欺騙得分。為了衡量人工智能創(chuàng)造的藝術圖像和人類創(chuàng)造的藝術作品之間的差距,我們進行了另一項用戶研究:對于每個參與者,我們向他們展示80張藝術圖像,其中包括從WikiArt[22]收集的10張人類創(chuàng)造的藝術作品,以及由我們和6種基線方法生成的70張風格化圖像(注意,每種方法提供10張風格化的圖像)。然后,對于每張圖片,我們要求這些參與者猜測它是否是真正的藝術品。欺騙得分被計算為由該方法生成的風格化圖像被識別為 "真實 "的次數(shù)的百分比。為了比較,我們也報告了人類創(chuàng)造的藝術品被識別為 "真實 "的次數(shù)。結果顯示在表1的第三行,我們可以看到我們的方法的欺騙率最接近人類創(chuàng)造的藝術品,進一步證明了我們方法的有效性。
為了定量評估所提出的方法在視頻風格轉換上的穩(wěn)定性和一致性,我們采用LPIPS(學習感知圖像補丁相似度)[57]作為評估指標。
LPIPS。LPIPS是多模態(tài)圖像-圖像轉換(MI2I)領域中廣泛使用的指標[61, 16, 25, 8],用于衡量多樣性。在本文中,我們采用LPIPS,通過計算相鄰幀之間的平均感知距離來衡量渲染片段的穩(wěn)定性和一致性。
請注意,與MI2I方法相反的是,我們期望較高的LPIPS值能實現(xiàn)更好的多樣性,我們期望較低的LPIPS值能實現(xiàn)更好的穩(wěn)定性和一致性。我們?yōu)槊糠N方法合成了18個風格化的視頻片段,并在表2中報告了平均LPIPS距離,我們觀察到我們的方法在所有方法中獲得了最好的分數(shù),與圖4中的定性比較一致。
4.4消融研究?
圖5:外部學習(abbr . EL)和對比學習(abbr . CL)對(a)圖像風格轉移和(b)視頻風格轉移的消融研究。請放大以獲得更好的視野和細節(jié)。
在本節(jié)中,我們進行了幾項消融研究,以突出我們模型中不同成分的效果。
我們首先探討外部學習(abbr . EL)和對比學習(abbr . CL)對圖像風格轉移的影響。至于內部學習,由于它的效果已經在現(xiàn)有的風格轉移方法中得到了充分的驗證,所以我們在本實驗中沒有消減它。圖5(a)顯示了我們的方法在有和沒有EL/CL的情況下的圖像風格化結果。可以看出,沒有EL,風格化的圖像變得更加混亂,顏色突變,明顯失真。原因可能是沒有EL的模型只注重提高風格化圖像和風格化圖像之間的風格相似度,而沒有考慮風格化圖像中的顏色分布和紋理模式是否自然和諧。相比之下,帶有EL的模型可以從大規(guī)模的風格數(shù)據集中學習人類意識到的風格信息,從而得到更真實、更和諧的風格化圖像,辨別器無法將其與真實的藝術作品區(qū)分開。此外,我們還發(fā)現(xiàn),我們的方法可以通過提出的對比性損失更好地將目標風格與內容圖像相匹配。這是因為我們的對比性損失可以幫助網絡通過考慮風格化與風格化的關系來學習更好的風格和內容表征,進一步完善風格化的結果。圖5(a)最后一欄報告的用戶偏好結果也表明,我們的完整模型具有最好的性能。
在視頻風格轉移上也進行了類似的消融研究。如圖5(b)所示,在我們將外部學習或對比學習從我們的方法中移除后,可以觀察到穩(wěn)定性的下降(注意頭發(fā)和皮膚的顏色),這與報道的LPIPS距離是一致的。結果表明,外部學習和對比性學習都可以提高視頻風格轉移的穩(wěn)定性。正如我們在第4.2節(jié)中所分析的,外部學習通過消除扭曲的紋理模式獲得穩(wěn)定性收益,而對比學習通過將相鄰的風格化幀拉近來獲得穩(wěn)定性收益。
5 局限性?
本工作的一個局限性是,所提出的內部-外部學習方案和兩個對比性損失不能應用于無學習的風格轉移方法,如WCT[30],Avatar-Net[41],LST[28]等。這是因為訓練過程對我們的方法是必要的。因此,我們的方法只能被納入到基于學習的方法中,如Johnson等人[20]、AdaIN[15]、SANet[36](在這項工作中,我們主要以SANet為骨干來展示我們方法的有效性和優(yōu)越性)等。另一個限制是,在推理階段,與訓練風格差異過大的風格圖像可能無法從外部學習方案中受益,因為它們不在學習的風格分布范圍內。
6 結論?
在本文中,我們提出了一種具有兩種新型對比損失的內部-外部風格轉移方法。
內部-外部學習方案同時學習單個藝術圖像的內部統(tǒng)計數(shù)據和大規(guī)模風格數(shù)據集的人類感知風格信息。至于對比損失,它們專門用于學習風格化與風格化之間的關系,當多個風格化嵌入具有相同的內容或風格時,它們會相互拉近,而在其他情況下則會相互推遠。大量的實驗表明,我們的方法不僅可以產生視覺上更和諧、更令人滿意的藝術圖像,而且還可以大大促進渲染的視頻片段的穩(wěn)定性和一致性。所提出的方法簡單而有效,并可能從一個新的角度為未來對藝術風格轉移的更多理解提供啟示。在未來,我們希望將我們的方法擴展到其他視覺任務中,例如,紋理合成。
參看文獻
[1] Jie An, Siyu Huang, Yibing Song, Dejing Dou, Wei Liu, and Jiebo Luo. Artflow: Unbiased image style
transfer via reversible neural flows. arXiv preprint arXiv:2103.16877, 2021.
[2] Martin Arjovsky, Soumith Chintala, and Léon Bottou. Wasserstein gan. arXiv preprint arXiv:1701.07875,
2017.
[3] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale gan training for high fidelity natural
image synthesis. arXiv preprint arXiv:1809.11096, 2018.
[4] Haibo Chen, Lei Zhao, Zhizhong Wang, Huiming Zhang, Zhiwen Zuo, Ailin Li, Wei Xing, and Dongming
Lu. Dualast: Dual style-learning networks for artistic style transfer. In Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition, pages 872–881, 2021.
[5] Haibo Chen, Lei Zhao, Huiming Zhang, Zhizhong Wang, Zhiwen Zuo, Ailin Li, Wei Xing, and Dongming
Lu. Diverse image style transfer via invertible cross-space mapping. In Proceedings of the IEEE/CVF
International Conference on Computer Vision (ICCV), pages 14880–14889, October 2021.
[6] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for
contrastive learning of visual representations. In International conference on machine learning, pages
1597–1607. PMLR, 2020.
[7] Tian Qi Chen and Mark Schmidt. Fast patch-based style transfer of arbitrary style. arXiv preprint
arXiv:1612.04337, 2016.
[8] Y unjey Choi, Y oungjung Uh, Jaejun Y oo, and Jung-Woo Ha. Stargan v2: Diverse image synthesis
for multiple domains. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition, pages 8188–8197, 2020.
[9] Oriel Frigo, Neus Sabater, Julie Delon, and Pierre Hellier. Split and match: Example-based adaptive patch
sampling for unsupervised style transfer. In Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition, pages 553–561, 2016.
[10] Leon A Gatys, Alexander S Ecker, and Matthias Bethge. Image style transfer using convolutional neural
networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages
2414–2423, 2016.
[11] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron
Courville, and Y oshua Bengio. Generative adversarial nets. In Advances in neural information processing
systems, pages 2672–2680, 2014.
[12] Kaiming He, Haoqi Fan, Y uxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised
visual representation learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition, pages 9729–9738, 2020.
[13] Aaron Hertzmann. Painterly rendering with curved brush strokes of multiple sizes. In Proceedings of the
25th annual conference on Computer graphics and interactive techniques, pages 453–460, 1998.
[14] Aaron Hertzmann, Charles E Jacobs, Nuria Oliver, Brian Curless, and David H Salesin. Image analogies.
In Proceedings of the 28th annual conference on Computer graphics and interactive techniques, pages
327–340, 2001.
[15] Xun Huang and Serge Belongie. Arbitrary style transfer in real-time with adaptive instance normalization.
In Proceedings of the IEEE International Conference on Computer Vision, pages 1501–1510, 2017.
[16] Xun Huang, Ming-Y u Liu, Serge Belongie, and Jan Kautz. Multimodal unsupervised image-to-image
translation. In Proceedings of the European Conference on Computer Vision (ECCV), pages 172–189,
2018.
[17] Phillip Isola, Jun-Y an Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional
adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition,
pages 1125–1134, 2017.
[18] Somi Jeong, Y oungjung Kim, Eungbean Lee, and Kwanghoon Sohn. Memory-guided unsupervised
image-to-image translation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition, pages 6558–6567, 2021.
[19] Y ongcheng Jing, Xiao Liu, Y ukang Ding, Xinchao Wang, Errui Ding, Mingli Song, and Shilei Wen.
Dynamic instance normalization for arbitrary style transfer. In Proceedings of the AAAI Conference on
Artificial Intelligence, volume 34, pages 4369–4376, 2020.
[20] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptual losses for real-time style transfer and
super-resolution. In European conference on computer vision, pages 694–711. Springer, 2016.
[21] Minguk Kang and Jaesik Park. ContraGAN: Contrastive Learning for Conditional Image Generation.
2020.
[22] Sergey Karayev, Matthew Trentacoste, Helen Han, Aseem Agarwala, Trevor Darrell, Aaron Hertzmann,
and Holger Winnemoeller. Recognizing image style. arXiv preprint arXiv:1311.3715, 2013.
[23] Dmytro Kotovenko, Artsiom Sanakoyeu, Sabine Lang, and Bjorn Ommer. Content and style disentangle-
ment for artistic style transfer. In Proceedings of the IEEE/CVF International Conference on Computer
Vision, pages 4422–4431, 2019.
[24] Dmytro Kotovenko, Artsiom Sanakoyeu, Pingchuan Ma, Sabine Lang, and Bjorn Ommer. A content
transformation block for image style transfer. In Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition, pages 10032–10041, 2019.
[25] Hsin-Ying Lee, Hung-Y u Tseng, Jia-Bin Huang, Maneesh Singh, and Ming-Hsuan Yang. Diverse image-
to-image translation via disentangled representations. In Proceedings of the European conference on
computer vision (ECCV), pages 35–51, 2018.
[26] Chuan Li and Michael Wand. Combining markov random fields and convolutional neural networks for
image synthesis. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
pages 2479–2486, 2016.
[27] Chuan Li and Michael Wand. Precomputed real-time texture synthesis with markovian generative adver-
sarial networks. In European Conference on Computer Vision, pages 702–716. Springer, 2016.
[28] Xueting Li, Sifei Liu, Jan Kautz, and Ming-Hsuan Yang. Learning linear transformations for fast image
and video style transfer. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition, pages 3809–3817, 2019.
[29] Yijun Li, Chen Fang, Jimei Yang, Zhaowen Wang, Xin Lu, and Ming-Hsuan Yang. Diversified texture
synthesis with feed-forward networks. In Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition, pages 3920–3928, 2017.
[30] Yijun Li, Chen Fang, Jimei Y ang, Zhaowen Wang, Xin Lu, and Ming-Hsuan Y ang. Universal style transfer
via feature transforms. In Advances in neural information processing systems, pages 386–396, 2017.
[31] Jing Liao, Y uan Yao, Lu Y uan, Gang Hua, and Sing Bing Kang. Visual attribute transfer through deep
image analogy. arXiv preprint arXiv:1705.01088, 2017.
[32] Jianxin Lin, Yingxue Pang, Yingce Xia, Zhibo Chen, and Jiebo Luo. Tuigan: Learning versatile image-to-
image translation with two unpaired images. In European Conference on Computer Vision, pages 18–35.
Springer, 2020.
[33] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár,
and C Lawrence Zitnick. Microsoft coco: Common objects in context. In European conference on
computer vision, pages 740–755. Springer, 2014.
[34] Rui Liu, Yixiao Ge, Ching Lam Choi, Xiaogang Wang, and Hongsheng Li. Divco: Diverse conditional
image synthesis via contrastive generative adversarial network. arXiv preprint arXiv:2103.07893, 2021.
[35] Ming Lu, Hao Zhao, Anbang Yao, Y urong Chen, Feng Xu, and Li Zhang. A closed-form solution to
universal style transfer. In Proceedings of the IEEE/CVF International Conference on Computer Vision,
pages 5952–5961, 2019.
[36] Dae Y oung Park and Kwang Hee Lee. Arbitrary style transfer with style-attentional networks. In
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5880–5888,
2019.
[37] Seobin Park, Jinsu Y oo, Donghyeon Cho, Jiwon Kim, and Tae Hyun Kim. Fast adaptation to super-
resolution networks via meta-learning. arXiv preprint arXiv:2001.02905, 5, 2020.
[38] Taesung Park, Alexei A Efros, Richard Zhang, and Jun-Yan Zhu. Contrastive learning for unpaired
image-to-image translation. In European Conference on Computer Vision, pages 319–345. Springer, 2020.
[39] Alec Radford, Luke Metz, and Soumith Chintala. Unsupervised representation learning with deep
convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434, 2015.
[40] Artsiom Sanakoyeu, Dmytro Kotovenko, Sabine Lang, and Bjorn Ommer. A style-aware content loss for
real-time hd style transfer. In Proceedings of the European Conference on Computer Vision (ECCV), pages
698–714, 2018.
[41] Lu Sheng, Ziyi Lin, Jing Shao, and Xiaogang Wang. Avatar-net: Multi-scale zero-shot style transfer by
feature decoration. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
pages 8242–8250, 2018.
[42] YiChang Shih, Sylvain Paris, Connelly Barnes, William T Freeman, and Frédo Durand. Style transfer for
headshot portraits. 2014.
[43] Karen Simonyan and Andrew Zisserman. V ery deep convolutional networks for large-scale image recogni-
tion. arXiv preprint arXiv:1409.1556, 2014.
[44] Jae Woong Soh, Sunwoo Cho, and Nam Ik Cho. Meta-transfer learning for zero-shot super-resolution. In
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3516–3525,
2020.
[45] Jan Svoboda, Asha Anoosheh, Christian Osendorfer, and Jonathan Masci. Two-stage peer-regularized
feature recombination for arbitrary image style transfer. In Proceedings of the IEEE/CVF Conference on
Computer Vision and Pattern Recognition, pages 13816–13825, 2020.
[46] Dmitry Ulyanov, V adim Lebedev, Andrea V edaldi, and Victor S Lempitsky. Texture networks: Feed-
forward synthesis of textures and stylized images. In ICML, volume 1, page 4, 2016.
[47] Dmitry Ulyanov, Andrea V edaldi, and Victor Lempitsky. Improved texture networks: Maximizing quality
and diversity in feed-forward stylization and texture synthesis. In Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition, pages 6924–6932, 2017.
[48] Huan Wang, Yijun Li, Y uehai Wang, Haoji Hu, and Ming-Hsuan Yang. Collaborative distillation for
ultra-resolution universal style transfer. In Proceedings of the IEEE/CVF Conference on Computer Vision
and Pattern Recognition, pages 1860–1869, 2020.
[49] Tengfei Wang, Hao Ouyang, and Qifeng Chen. Image inpainting with external-internal learning and
monochromic bottleneck. arXiv preprint arXiv:2104.09068, 2021.
[50] Ting-Chun Wang, Ming-Y u Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. High-
resolution image synthesis and semantic manipulation with conditional gans. In Proceedings of the IEEE
conference on computer vision and pattern recognition, pages 8798–8807, 2018.
[51] Zhizhong Wang, Lei Zhao, Haibo Chen, Lihong Qiu, Qihang Mo, Sihuan Lin, Wei Xing, and Dongming
Lu. Diversified arbitrary style transfer via deep feature perturbation. In Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition, pages 7789–7798, 2020.
[52] Holger Winnem?ller, Sven C Olsen, and Bruce Gooch. Real-time video abstraction. ACM Transactions
On Graphics (TOG), 25(3):1221–1226, 2006.
[53] Haiyan Wu, Yanyun Qu, Shaohui Lin, Jian Zhou, Ruizhi Qiao, Zhizhong Zhang, Y uan Xie, and Lizhuang
Ma. Contrastive learning for compact single image dehazing. In Proceedings of the IEEE/CVF Conference
on Computer Vision and Pattern Recognition, pages 10551–10560, 2021.
[54] Y uan Yao, Jianqiang Ren, Xuansong Xie, Weidong Liu, Y ong-Jin Liu, and Jun Wang. Attention-aware
multi-stroke style transfer. In Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, pages 1467–1475, 2019.
[55] Ning Y u, Guilin Liu, Aysegul Dundar, Andrew Tao, Bryan Catanzaro, Larry Davis, and Mario Fritz. Dual
contrastive loss and attention for gans. arXiv preprint arXiv:2103.16748, 2021.
[56] Han Zhang, Ian Goodfellow, Dimitris Metaxas, and Augustus Odena. Self-attention generative adversarial
networks. In International conference on machine learning, pages 7354–7363. PMLR, 2019.
[57] Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang. The unreasonable
effectiveness of deep features as a perceptual metric. In Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition, pages 586–595, 2018.
[58] Y ulun Zhang, Chen Fang, Yilin Wang, Zhaowen Wang, Zhe Lin, Y un Fu, and Jimei Yang. Multimodal
style transfer via graph cuts. In Proceedings of the IEEE International Conference on Computer Vision,
pages 5943–5951, 2019.
[59] Yihao Zhao, Ruihai Wu, and Hao Dong. Unpaired image-to-image translation using adversarial consistency
loss. In European Conference on Computer Vision, pages 800–815. Springer, 2020.
[60] Jun-Y an Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. Unpaired image-to-image translation using
cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer
vision, pages 2223–2232, 2017.
[61] Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A Efros, Oliver Wang, and Eli
Shechtman. Toward multimodal image-to-image translation. In Advances in neural information processing
systems, pages 465–476, 2017.
總結
以上是生活随笔為你收集整理的译文(Artistic Style Transfer with Internal-external Learning and Contrastive Learning)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Open*** 服务器的搭建
- 下一篇: [Leetcode][第332题][JA