风格迁移篇----艺术风格转换的内容与风格解构
文章目錄
- Abstract
- 1. Introduction
- 2. Related Work
- 3. Approach
- 3.1. Fixpoint Triplet Loss
- 3.2. Disentanglement Loss
- 3.3. Training and Model Architecture
- 4. Experiments
- 4.1. Stylization Assessment
- 4.2. Disentanglement of Style and Content
- 4.3. Distribution Divergence
- 4.4. Ablations
- 5. Conclusion
- Acknowledgements
- References
Abstract
藝術(shù)家在其整個(gè)職業(yè)生涯中很少使用單一的繪畫風(fēng)格。他們更經(jīng)常地改變風(fēng)格或發(fā)展其變體。此外,不同風(fēng)格甚至同一風(fēng)格的藝術(shù)品對(duì)真實(shí)內(nèi)容的描繪也不同:雖然畢加索的藍(lán)色時(shí)期以藍(lán)色色調(diào)展示了一個(gè)花瓶,但作為一個(gè)整體,他的立體派作品解構(gòu)了這個(gè)物體。為了產(chǎn)生藝術(shù)上令人信服的風(fēng)格,風(fēng)格轉(zhuǎn)換模型必須能夠反映這些變化和變化。最近,許多工作旨在改進(jìn)風(fēng)格轉(zhuǎn)換任務(wù),但忽略了處理所描述的觀察結(jié)果。我們提出了一種新的方法,它捕捉了風(fēng)格的特殊性和內(nèi)部的變化,并將風(fēng)格和內(nèi)容分離開來(lái)。這是通過(guò)引入兩種新的損失來(lái)實(shí)現(xiàn)的:一種是用于學(xué)習(xí)一種風(fēng)格內(nèi)或不同風(fēng)格之間細(xì)微變化的固定點(diǎn)三聯(lián)體風(fēng)格損失,另一種是用于確保風(fēng)格化不受真實(shí)輸入照片的限制的解糾纏損失。此外,本文提出了各種評(píng)估方法來(lái)衡量這兩種損失對(duì)最終風(fēng)格的有效性、質(zhì)量和可變性的重要性。我們提供了定性結(jié)果來(lái)證明我們方法的性能。
1. Introduction
風(fēng)格轉(zhuǎn)換模型以給定藝術(shù)品的風(fēng)格合成真實(shí)圖像。為了達(dá)到令人信服的風(fēng)格,模型必須保留真實(shí)圖像的內(nèi)容,并與所選的藝術(shù)風(fēng)格非常相似。這引發(fā)了以下問(wèn)題:“維護(hù)內(nèi)容意味著什么”和“什么特征定義了風(fēng)格”。
【圖1.由我們的網(wǎng)絡(luò)生成的樣式化示例。保羅·塞尚(上圖)、文森特·梵高(中)、保羅·高更和恩斯特·路德維?!せ矁?nèi)爾(下圖)。全尺寸圖像可在補(bǔ)充材料和我們的項(xiàng)目頁(yè)面?中找到?!?/p>
藝術(shù)品展示了不同的內(nèi)容渲染:雖然一些風(fēng)格忽視了內(nèi)容,如杰克遜·波洛克的抽象表現(xiàn)主義或瓦西里·康定斯基的高度抽象風(fēng)格,但其他風(fēng)格顯示內(nèi)容,但以特定方式改變內(nèi)容。馬克·夏加爾或亨利·盧梭的現(xiàn)代繪畫將現(xiàn)實(shí)轉(zhuǎn)化為近乎夢(mèng)幻般的舞臺(tái)場(chǎng)景。這些觀察結(jié)果得出的結(jié)論是,需要更深入地研究藝術(shù)風(fēng)格和內(nèi)容之間的關(guān)系,以獲得更好的圖像風(fēng)格。這里沒(méi)有衡量藝術(shù)家改變內(nèi)容程度的工具。事實(shí)上,這需要原始內(nèi)容的照片來(lái)顯示藝術(shù)家在特定藝術(shù)品中繪制的確切內(nèi)容。讓我們假設(shè)相反的場(chǎng)景:假設(shè)我們確實(shí)有一組照片和一種簡(jiǎn)單的近似于藝術(shù)家的風(fēng)格。然后,我們得到了一組內(nèi)容樣式化對(duì),可以用來(lái)解決上述內(nèi)容轉(zhuǎn)換問(wèn)題(如果我們忽略樣式化仍然只是近似的,尚未優(yōu)化的事實(shí))。因此,如果我們將同一內(nèi)容的照片風(fēng)格化為兩種不同的風(fēng)格,結(jié)果應(yīng)該反映出風(fēng)格的差異,同時(shí)顯示相同的內(nèi)容。相反,如果我們使用相同風(fēng)格但內(nèi)容不同的圖像,我們應(yīng)該獲得相同風(fēng)格但內(nèi)容不同的風(fēng)格。后一個(gè)約束保證了風(fēng)格與內(nèi)容的獨(dú)立性。我們將此目標(biāo)表述為不動(dòng)點(diǎn)解糾纏損失。
最近,人們對(duì)風(fēng)格轉(zhuǎn)換的任務(wù)產(chǎn)生了極大的興趣;現(xiàn)有作品通過(guò)從單個(gè)藝術(shù)品[7、13、28、18、10、4、31]或圖像集合[24、33]中提取風(fēng)格特征來(lái)生成風(fēng)格化圖像。雖然這些方法再現(xiàn)了給定的風(fēng)格,但它們對(duì)風(fēng)格的細(xì)微變化缺乏敏感性,對(duì)風(fēng)格缺乏全面的理解。以前的模型沒(méi)有學(xué)習(xí)一種風(fēng)格的所有可能變體,而是只學(xué)習(xí)風(fēng)格中最主要的視覺(jué)線索,而忽略了風(fēng)格流形的其余部分。然而,藝術(shù)家很少在其職業(yè)生涯中保持單一風(fēng)格,但更經(jīng)常的是改變風(fēng)格或發(fā)展變化。雖然仍以印象派風(fēng)格創(chuàng)作,但由于健康狀況下降,莫奈后期的作品與早期的繪畫相比,表現(xiàn)出更為松散和富有表現(xiàn)力的筆觸。為了捕捉這些風(fēng)格上的小變化,我們需要一個(gè)能夠模擬這種變化的框架。因此,我們提出了一種新方法,該方法將藝術(shù)家的特定風(fēng)格作為單個(gè)實(shí)體學(xué)習(xí),并通過(guò)引入單個(gè)風(fēng)格中的風(fēng)格相似性和差異來(lái)調(diào)整風(fēng)格,以適應(yīng)特定的風(fēng)格示例。這是通過(guò)使用兩個(gè)相似的樣式樣本對(duì)相同的內(nèi)容進(jìn)行樣式化,并強(qiáng)制顯示相同內(nèi)容的樣式在樣式空間中仍然分開來(lái)實(shí)現(xiàn)的。我們通過(guò)引入不動(dòng)點(diǎn)三重態(tài)丟失來(lái)實(shí)現(xiàn)這一目標(biāo)。
我們提出了第一種方法,該方法從一組整體風(fēng)格相同但有細(xì)微變化的示例中提取風(fēng)格,同時(shí)仍然可以對(duì)風(fēng)格進(jìn)行精細(xì)控制。我們做出了以下貢獻(xiàn):(i)我們提出了兩種新的損失,即定點(diǎn)解糾纏損失和定點(diǎn)三重態(tài)樣式損失,以實(shí)現(xiàn)更精細(xì)的圖像樣式化和更好的樣式分布覆蓋。(ii)此外,如實(shí)驗(yàn)部分所示,我們提供了一種將藝術(shù)品的風(fēng)格和內(nèi)容分離開來(lái)的方法,從而實(shí)現(xiàn)藝術(shù)上引人注目的風(fēng)格化和更好的內(nèi)容保存。(iii)我們的模型還提供了一個(gè)平滑的樣式空間,因此允許在一個(gè)樣式內(nèi)和不同樣式之間進(jìn)行插值。我們還使用我們的方法生成平滑的視頻樣式;示例可以在我們的項(xiàng)目頁(yè)面上找到。
2. Related Work
風(fēng)格傳遞風(fēng)格傳遞方法通過(guò)利用從真實(shí)藝術(shù)品圖像中提取的風(fēng)格信息渲染輸入內(nèi)容圖像,以特定藝術(shù)家的風(fēng)格生成新圖像。Gatys等人[7]首先提出了一種神經(jīng)風(fēng)格轉(zhuǎn)換,使用預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)特征激活之間的成對(duì)相關(guān)矩陣對(duì)圖像風(fēng)格進(jìn)行編碼。給定單個(gè)內(nèi)容圖像和單個(gè)參考樣式圖像,然后通過(guò)迭代優(yōu)化過(guò)程生成樣式化,該過(guò)程將內(nèi)容圖像的樣式表示與樣式圖像相匹配。Selim等人[26]進(jìn)一步擴(kuò)展了神經(jīng)風(fēng)格轉(zhuǎn)換方法[7],并將其應(yīng)用于人臉肖像。為了實(shí)現(xiàn)更快的風(fēng)格化,其他研究工作使用了神經(jīng)網(wǎng)絡(luò)[13、10、18、30、17],其近似于[7]的緩慢迭代算法。為了在單個(gè)模型中對(duì)多種藝術(shù)風(fēng)格進(jìn)行建模,Dumoulin等人[4]提出了一種條件實(shí)例歸一化方法,該方法能夠合成不同風(fēng)格之間的插值。[8,12]通過(guò)改變顏色、比例和筆劃大小,引入了對(duì)風(fēng)格化結(jié)果的額外控制。[16] 介紹了編碼器和解碼器之間的內(nèi)容轉(zhuǎn)換模塊,以實(shí)現(xiàn)內(nèi)容和風(fēng)格感知的風(fēng)格化。他們?cè)谡掌蜆邮街惺褂昧祟愃频膬?nèi)容,以進(jìn)一步學(xué)習(xí)特定于對(duì)象的樣式。
大多數(shù)現(xiàn)有的樣式轉(zhuǎn)換方法從單個(gè)藝術(shù)品[7、13、28、18、10、4、17、31]中提取樣式表示,并將每個(gè)藝術(shù)品視為一個(gè)獨(dú)立的樣式示例。據(jù)我們所知,只有[24,33]從一系列相關(guān)的風(fēng)格示例中學(xué)習(xí)風(fēng)格。然而,它們無(wú)法同時(shí)對(duì)多個(gè)樣式進(jìn)行建模,缺乏靈活性,并且無(wú)法控制樣式化過(guò)程。相反,我們的方法利用了從一個(gè)樣式的圖像集合中獲取的一組非常相似的樣式樣本中提供的豐富信息,將多個(gè)樣式組合在同一網(wǎng)絡(luò)中,并對(duì)樣式化過(guò)程提供了更細(xì)粒度的控制。
生成模型中的潛在空間學(xué)習(xí)可解釋的潛在空間表示一直是深度學(xué)習(xí)研究的熱點(diǎn),尤其是在生成模型領(lǐng)域[3,21,1]。近年來(lái),條件圖像合成受到了廣泛關(guān)注[11,21]。其他研究提出了更多的理論方法,如[20,3]或最先進(jìn)的方法,這些方法在自然圖像[2]和人臉[14,15]的圖像合成中顯示了良好的結(jié)果,但需要巨大的計(jì)算能力。最近,許多工作集中在物體形狀和外觀的解開[6,19,5]。
3. Approach
我們最初的任務(wù)可以描述如下:給定一組藝術(shù)品(y,s)~ Y、 其中Y是一個(gè)藝術(shù)圖像,s是一個(gè)樣式類標(biāo)簽,是x的照片集~ 十、 我們想學(xué)習(xí)一個(gè)變換G:X? → 為了測(cè)量映射G逼近分布Y的程度,我們引入了一個(gè)鑒別器D,其任務(wù)是區(qū)分真實(shí)樣本Y∈ Y和x的生成樣本G(x)∈ 十、 在我們的框架中,這項(xiàng)任務(wù)相當(dāng)于學(xué)習(xí)從照片域到藝術(shù)品域的任意映射。
【圖2.對(duì)具有內(nèi)容表示c1、c2的一對(duì)內(nèi)容圖像和具有樣式表示s1、s2的一對(duì)樣式圖像執(zhí)行訓(xùn)練迭代。在下一步中,圖像對(duì)分別饋送到內(nèi)容編碼器Ec和樣式編碼器Es?,F(xiàn)在,我們使用解碼器D生成所有可能的內(nèi)容和樣式表示對(duì)。生成的圖像再次饋送到樣式編碼器Es,以計(jì)算LF P T?通過(guò)將生成圖像的樣式表示與輸入樣式圖像的樣式s1、s2、s1、s2進(jìn)行比較,在共享c2 | s1的兩個(gè)三元組上創(chuàng)建樣式。將得到的圖像提供給鑒別器D以計(jì)算條件對(duì)抗損失Ladv,并提供給Ec以計(jì)算差異LF P?樣式化c2 | s2,c1 | c1和原始c1,c2之間的內(nèi)容。所描繪的兩個(gè)編碼器Es以及兩個(gè)編碼器Ec共享。】
就其本身而言,這種方法對(duì)原始內(nèi)容的保存沒(méi)有任何約束,因此可以使照片的原始內(nèi)容無(wú)法識(shí)別。為了防止這種情況,我們強(qiáng)制生成的圖像與像素域中的樣式化圖像相似,即通過(guò)最小化L2距離kG(x)? xk2。
如前所述,我們希望我們的圖像以查詢樣式圖像G(x | y)為條件,以便進(jìn)行更精細(xì)的樣式控制。這需要在輸入樣式圖像y上調(diào)節(jié)生成的圖像。我們建議通過(guò)從樣式圖像y中提取樣式Es(y)來(lái)使用樣式編碼器Es調(diào)節(jié)輸出,然后在此樣式向量上調(diào)節(jié)生成網(wǎng)絡(luò)。
關(guān)于無(wú)監(jiān)督和有監(jiān)督域翻譯的工作[33、11、22]表明,可以通過(guò)利用編碼器-解碼器架構(gòu)來(lái)解決圖像到圖像的翻譯任務(wù)。我們將生成器定義為三個(gè)網(wǎng)絡(luò)的組合:內(nèi)容編碼器Ec、解碼器D和樣式編碼器Es。前兩個(gè)是負(fù)責(zé)圖像生成任務(wù)的完全卷積前饋神經(jīng)網(wǎng)絡(luò),而后一個(gè)網(wǎng)絡(luò)從圖像y推斷樣式向量Es(y)。通過(guò)替換解碼器D的實(shí)例歸一化層[29]的偏移和比例參數(shù)來(lái)調(diào)節(jié)生成器網(wǎng)絡(luò)。應(yīng)盡量減少損失的決定取決于我們確定的目標(biāo)。首先,我們的目標(biāo)是通過(guò)保留給定繪畫的風(fēng)格類別來(lái)生成具有藝術(shù)說(shuō)服力的風(fēng)格。因此,我們將有條件對(duì)抗損失公式如下:
其次,從樣式圖像(y,s)和輸入內(nèi)容圖像x獲得的樣式化應(yīng)該類似于輸入內(nèi)容圖像x。因此,我們?cè)谳斎雰?nèi)容圖像x和樣式化結(jié)果之間強(qiáng)制執(zhí)行重建損失:
然而,我們的目標(biāo)不是實(shí)現(xiàn)與輸入內(nèi)容照片的簡(jiǎn)單像素級(jí)相似性。事實(shí)上,這種損失對(duì)風(fēng)格轉(zhuǎn)換任務(wù)是不利的,因?yàn)樵S多藝術(shù)家往往會(huì)嚴(yán)重改變顏色和形狀,因此像素級(jí)的損失可能會(huì)阻礙風(fēng)格化任務(wù)。考慮到這一點(diǎn),我們讓內(nèi)容編碼器Ec來(lái)確定哪些特征與內(nèi)容保存相關(guān),哪些可以忽略。這是通過(guò)使用定點(diǎn)內(nèi)容丟失來(lái)實(shí)現(xiàn)的:
雖然這些損失足以為一個(gè)特定的藝術(shù)家獲得令人信服的風(fēng)格,但它們不適合訓(xùn)練一個(gè)能夠在單個(gè)網(wǎng)絡(luò)中為多個(gè)藝術(shù)家合并風(fēng)格的模型。我們?cè)诒?中的燒蝕表明,這些損失不支持模型對(duì)查詢樣式圖像中細(xì)微的樣式變化敏感,即使示例取自同一樣式。
另一個(gè)問(wèn)題是,如果僅使用這三種損失訓(xùn)練模型,則會(huì)在無(wú)意中對(duì)輸入內(nèi)容的樣式化進(jìn)行限制。為了克服這一問(wèn)題,我們引入了兩個(gè)額外的損失,這兩個(gè)損失對(duì)于風(fēng)格轉(zhuǎn)移任務(wù)來(lái)說(shuō)是新穎的:固定點(diǎn)三重態(tài)風(fēng)格損失和固定點(diǎn)解糾纏損失。
3.1. Fixpoint Triplet Loss
如果目標(biāo)是上述三種損失1、2和3的加權(quán)組合,我們立即觀察到,樣式編碼器Es僅由條件對(duì)抗損失Ladv驅(qū)動(dòng)。通過(guò)學(xué)習(xí)將(Es)的值域劃分為不同的區(qū)域,可以最大限度地減少這種損失。因此,我們無(wú)法強(qiáng)制編碼器學(xué)習(xí)樣式表示的平滑空間,該空間顯示不同樣式之間的連續(xù)過(guò)渡和單個(gè)樣式內(nèi)的明顯過(guò)渡。為了緩解這種情況,我們引入了不動(dòng)點(diǎn)三重態(tài)損耗:
類似于LF P?內(nèi)容定義見3。丟失迫使網(wǎng)絡(luò)保留輸入樣式。然而,當(dāng)同一樣式(y1,s)、(y2,s)的視覺(jué)上非常不同的示例時(shí),它顯示出與上述類似的行為~ Y映射到同一點(diǎn),即Es(y1)≡ Es(y2);導(dǎo)致相同的樣式D(Ec(x),Es(y1))≡ D(Ec(x),Es(y2))。
這種推理可以形式化如下:首先,我們希望樣式化類似于樣式空間中的輸入樣式示例。其次,由不同風(fēng)格獲得的風(fēng)格化在風(fēng)格表示空間中也必須是遙遠(yuǎn)的。這類似于度量學(xué)習(xí)中廣泛使用的三重態(tài)損失[25,9]。在我們的例子中,對(duì)于樣式示例(y1,s1)、(y2,s2)~ Y和內(nèi)容照片x~ 十、 錨點(diǎn)是編碼樣式Es(y1),正樣本分別是Es(D(Ec(X),Es(y1)),負(fù)Es(D(Ec(X),Es(y2)))。對(duì)于裕度r,我們定義了樣式的不動(dòng)點(diǎn)三重態(tài)損耗:
3.2. Disentanglement Loss
圖像中的內(nèi)容可以指示樣式。例如,特定的衣服可能暗示了繪畫的時(shí)間和風(fēng)格。因此,內(nèi)容和風(fēng)格糾纏在一起。生成的樣式也有條件地依賴于照片的內(nèi)容目標(biāo),而不僅僅依賴于樣式目標(biāo)。為了區(qū)分這兩個(gè)特征,有必要使目標(biāo)樣式獨(dú)立于目標(biāo)內(nèi)容。這可以通過(guò)最小化以下?lián)p失來(lái)實(shí)現(xiàn):
然而,這種損失過(guò)于嚴(yán)格,阻礙了模型的成功訓(xùn)練。因此,我們軟化了約束:而不是最小化它,我們只是使用不動(dòng)點(diǎn)樣式的loss LF P從頂部綁定它?風(fēng)格通過(guò)降低LF P T,該損失最小化?樣式丟失。因此,我們還最小化了6。總之:對(duì)于輸入樣式樣本(y,s)~ Y和兩張隨機(jī)照片x1、x2~ X我們定義了不動(dòng)點(diǎn)解糾纏損耗LF P D:
對(duì)于樣式表示中過(guò)大的擾動(dòng),LF P D懲罰模型:如果給定樣式向量s=Es(y),則兩種樣式的樣式差異大于樣式和原始樣式之間的差異。
固定點(diǎn)三元組丟失的主要區(qū)別在于,后者防止不同的樣式塌陷為同一樣式,而固定點(diǎn)解糾纏丟失減輕了內(nèi)容圖像對(duì)結(jié)果樣式的影響。
3.3. Training and Model Architecture
我們總結(jié)了給定損失權(quán)重λadv、λ像素、λF P的所有上述損失?含量,λF P T?式中,λF P D生成復(fù)合損耗L?. 我們將其作為鑒別器生成器極小極大博弈的最終目標(biāo):minG maxD L?. 補(bǔ)充材料中提供了詳細(xì)的模型架構(gòu)和訓(xùn)練步驟描述。
4. Experiments
4.1. Stylization Assessment
風(fēng)格化圖像的質(zhì)量以及藝術(shù)風(fēng)格的表現(xiàn)可以通過(guò)幾種方式來(lái)衡量。我們使用四種不同的方法評(píng)估性能,在1中:
專家偏好率我們首先使用表1中列出的不同方法以一位藝術(shù)家的風(fēng)格對(duì)各種照片進(jìn)行樣式化。第二步,我們從所有樣式化圖像中剪出相同大小的補(bǔ)丁,并創(chuàng)建一批。然后,我們向藝術(shù)史專家展示不同的補(bǔ)丁,讓他們選擇最能代表各自藝術(shù)家風(fēng)格的補(bǔ)丁。
【圖3.保羅·塞尚(第2欄)和文森特·梵高(第6欄)的給定風(fēng)格樣本之間的插值。放大區(qū)域表明,我們的方法不僅模擬顏色,而且模擬特定于樣式的輪廓和紋理。視頻插值在我們的項(xiàng)目頁(yè)面上提供。】
然后,我們測(cè)量每種方法的首選頻率。專家欺騙率。對(duì)于專家欺騙率,采用了與之前實(shí)驗(yàn)中所述相同的方法。我們?cè)俅蜗蛩囆g(shù)史學(xué)家展示了從風(fēng)格化圖像中裁剪出來(lái)的一組補(bǔ)丁。然而,這一次我們添加了一個(gè)補(bǔ)丁從一個(gè)藝術(shù)家的真實(shí)藝術(shù)品;我們計(jì)算藝術(shù)史學(xué)家從真實(shí)藝術(shù)品而不是程式化圖像中識(shí)別補(bǔ)丁的次數(shù)。
非專家欺騙率。與專家欺騙率相同的評(píng)估是對(duì)沒(méi)有藝術(shù)史培訓(xùn)的非專家進(jìn)行的。
欺騙率。[24]介紹了這種評(píng)估風(fēng)格化圖像質(zhì)量的方法:將風(fēng)格化圖像呈現(xiàn)給網(wǎng)絡(luò),網(wǎng)絡(luò)根據(jù)藝術(shù)家分類進(jìn)行訓(xùn)練。給定一個(gè)程式化的圖像,欺騙率是預(yù)訓(xùn)練網(wǎng)絡(luò)預(yù)測(cè)藝術(shù)家正確使用程式化的頻率。
實(shí)驗(yàn)是在補(bǔ)丁而非全尺寸圖像上進(jìn)行的,原因如下:內(nèi)容圖像是來(lái)自Places365數(shù)據(jù)集的照片[32]。幾乎每一張圖片都包含了明確地指向我們時(shí)代的細(xì)節(jié),即汽車、火車、運(yùn)動(dòng)鞋或手機(jī)。因此,當(dāng)人類發(fā)現(xiàn)這些物體時(shí),可以很容易地將圖像識(shí)別為非真實(shí)繪畫。通過(guò)從樣式化圖像中裁剪出補(bǔ)丁,我們可以顯著減輕這種影響。
我們?yōu)槭徊煌乃囆g(shù)家進(jìn)行了所有實(shí)驗(yàn),并在表1中總結(jié)了平均結(jié)果。從表中我們可以得出結(jié)論,我們的模型明顯優(yōu)于最先進(jìn)的AST模型[24]。另請(qǐng)注意,藝術(shù)史專家欺騙率高于非專家欺騙率,因?yàn)楹笳卟糠钟捎?jì)算機(jī)視覺(jué)、因此,他們更善于發(fā)現(xiàn)生成模型的典型工件。補(bǔ)充材料提供了有關(guān)評(píng)估的更多詳細(xì)信息。
【表1組成。在圖像補(bǔ)丁上測(cè)量風(fēng)格化的吸引力(越高越好)。偏好率衡量藝術(shù)史學(xué)家對(duì)特定風(fēng)格化技術(shù)的偏好程度。欺騙率分別表示程式化補(bǔ)丁欺騙觀眾、專家和非專家的頻率。10種不同風(fēng)格的平均分?jǐn)?shù)。Wikiart測(cè)試提供了測(cè)試集中真實(shí)藝術(shù)品的準(zhǔn)確性。】
4.2. Disentanglement of Style and Content
我們引入不動(dòng)點(diǎn)解糾纏損耗來(lái)解糾纏風(fēng)格和內(nèi)容。為了測(cè)量糾纏度,我們提出了以下兩個(gè)實(shí)驗(yàn)。
風(fēng)格差異。我們的模型能夠獨(dú)立于內(nèi)容目標(biāo)照片的變化而保留精細(xì)的樣式細(xì)節(jié)。為了驗(yàn)證這一點(diǎn),我們首先測(cè)量選定風(fēng)格的真實(shí)藝術(shù)品中的平均風(fēng)格變化,該變化由藝術(shù)品集合表示。為了進(jìn)行測(cè)量,我們采用了用于藝術(shù)家分類的預(yù)訓(xùn)練網(wǎng)絡(luò)~Es[24]和從真實(shí)藝術(shù)品中提取第一個(gè)完全連接層的激活∈ S、 由eEf cs(S)表示。最終,這使我們可以近似地得出一個(gè)樣式的樣式變化分布
然后,我們測(cè)量給定不同輸入照片x1、x2和固定樣式樣本s的樣式化圖像的樣式變化:
在最后一步中,我們計(jì)算了相同的分布9,但對(duì)于在沒(méi)有解糾纏損失的情況下訓(xùn)練的模型。
通過(guò)分別以紅色、藍(lán)色和綠色顯示其概率密度函數(shù),圖5總結(jié)了這三種分布。該圖表明,與丟失的模型相比,丟失的模型生成的樣式更好地表示選定的樣式。此外,我們觀察到,不同的內(nèi)容對(duì)一種風(fēng)格的風(fēng)格化結(jié)果的影響小于藝術(shù)家作品集中的風(fēng)格變化。表明
內(nèi)容不一致。在第二個(gè)實(shí)驗(yàn)中,我們建立了風(fēng)格變化對(duì)內(nèi)容保存的影響程度。內(nèi)容相似性表示為VGG16網(wǎng)絡(luò)的eEf cc(·)表示的第一個(gè)完全連接層的特征空間中的L2距離[27];該網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練[23]。
首先,我們需要一個(gè)代表細(xì)微差別的基線分布內(nèi)容的變化。因此,我們測(cè)量eEf cc(·)空間中最近鄰居之間的內(nèi)容相似性,并繪制分布圖。設(shè)Ci表示i類ImageNet照片的數(shù)據(jù)集。則eEf cc(·)空間中ImageNet集的最近鄰之間內(nèi)容相似性的基線分布為:
其中,N N(x)表示同一類的所有ImageNet樣本中eEf cc(·)空間中樣本x的最近鄰居。
我們現(xiàn)在評(píng)估使用不同藝術(shù)風(fēng)格風(fēng)格的圖像中內(nèi)容的變化。對(duì)于兩種類型的數(shù)據(jù)集S1、S2,我們估計(jì)了分布:
對(duì)于通過(guò)模型定型的圖像,我們估計(jì)了如上定義的相同分布,而不存在不動(dòng)點(diǎn)解糾纏損失。圖7繪制了所有三種分布的概率密度函數(shù)。
該實(shí)驗(yàn)表明,樣式化圖像的變化對(duì)內(nèi)容的擾動(dòng)比到同一類中最近鄰居的距離小。
定性實(shí)驗(yàn)。我們?cè)趫D3、4和6中提供了我們方法的定性結(jié)果。圖3顯示,我們的模型捕捉到了兩種風(fēng)格之間的細(xì)微變化。此外,我們的方法學(xué)習(xí)了更精細(xì)的藝術(shù)特性(即筆觸的變化)(見圖4),減少了人工制品和人工結(jié)構(gòu)的數(shù)量,并理清了風(fēng)格和內(nèi)容(見圖6)。
4.3. Distribution Divergence
接下來(lái),我們將研究我們的方法在多大程度上覆蓋了它旨在復(fù)制的風(fēng)格分布的可變性。我們計(jì)算了真實(shí)風(fēng)格分布和我們已風(fēng)格化的圖像的風(fēng)格分布之間的Kullback-Leibler散度DKL,以衡量我們的模型在多大程度上代表了它旨在代表的風(fēng)格分布。
【圖6.不同模型的風(fēng)格化結(jié)果(從左到右):我們的(紅色)、AST、Gatys等人和CycleGAN。我們?cè)诘谝恍泻偷诙刑峁邮胶蛢?nèi)容圖像,以便對(duì)樣式進(jìn)行定性判斷。該圖強(qiáng)調(diào)了通過(guò)我們的模型獲得的圖像質(zhì)量的改善。圖像顯示的人工結(jié)構(gòu)較少(如畢加索或基什內(nèi)爾的圖像所示),同質(zhì)區(qū)域中不包含任何人工制品(見塞尚),最重要的是突出了風(fēng)格和內(nèi)容的成功分離。這可以從莫奈的風(fēng)格化例子中看出。相比之下,AST模型產(chǎn)生了“花”,這在藝術(shù)家的類似山水畫中很常見,但在內(nèi)容圖像中并不存在。結(jié)果最好在屏幕上顯示并放大。補(bǔ)充資料中提供了全尺寸圖像?!?/p>
我們使用經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)eEs對(duì)繪畫風(fēng)格進(jìn)行分類,以獲得通過(guò)第一個(gè)完全連接層(即eEf cs)的激活近似的風(fēng)格分布。真實(shí)的風(fēng)格分布部分由真實(shí)藝術(shù)品上的eEf cs激活近似。接下來(lái),我們提取程式化圖像的激活eEf CSF來(lái)近似Pstylized,并計(jì)算真實(shí)藝術(shù)品的風(fēng)格分布和程式化圖像DKL(Pstylized k部分)的風(fēng)格分布之間的差異。我們對(duì)沒(méi)有不動(dòng)點(diǎn)三重態(tài)損失的訓(xùn)練模型重復(fù)這個(gè)過(guò)程?計(jì)算DKL(Pno LF P T)的樣式(4)?樣式和零件)。表2總結(jié)了風(fēng)格差異。
現(xiàn)在,我們可視化了不同風(fēng)格化方法的風(fēng)格分布。首先,我們修復(fù)兩個(gè)藝術(shù)家,并用LF P T訓(xùn)練一個(gè)模型?款式有失一無(wú)。然后,我們使用這兩種模型對(duì)一組相同的內(nèi)容圖像進(jìn)行樣式化,并計(jì)算網(wǎng)絡(luò)eEf cs的激活[24]。作為參考,我們計(jì)算了兩位選定藝術(shù)家的真實(shí)藝術(shù)品的風(fēng)格分布。接下來(lái),我們對(duì)這些激活運(yùn)行PCA,并在第一個(gè)激活上可視化投影主成分作為概率密度函數(shù)(見圖8)。我們觀察到,該模型利用LF P T?風(fēng)格可以更好地匹配真實(shí)藝術(shù)品的目標(biāo)分布,而模型沒(méi)有這種損失。
【圖7.不同風(fēng)格內(nèi)容的分離。使用兩個(gè)不同的樣式示例對(duì)同一內(nèi)容圖像進(jìn)行樣式化;兩種固化的內(nèi)容差異計(jì)算為VGG-16網(wǎng)絡(luò)第一個(gè)FC層激活之間的L2范數(shù)[27]。所有距離均累積并顯示為分布(藍(lán)色)。對(duì)有(藍(lán)色)和無(wú)(綠色)解糾纏的模型進(jìn)行了實(shí)驗(yàn)。此外,我們計(jì)算從照片到其最近鄰居的內(nèi)容距離作為參考(紅色)。詳見第4.2節(jié)?!?br />
【表2.欺騙率表示獲得的風(fēng)格與目標(biāo)風(fēng)格的接近程度(越高越好)。分類精度顯示了樣式化后輸入照片的剩余內(nèi)容(越高越好)。風(fēng)格差異顯示了通過(guò)風(fēng)格化獲得的風(fēng)格分布與真實(shí)風(fēng)格分布之間的差異(越低越好)?!?/p>
4.4. Ablations
為了總結(jié)擬議損失對(duì)最終模型的影響,我們使用了三個(gè)指標(biāo):欺騙率、風(fēng)格差異和分類精度。后者對(duì)應(yīng)于VGG-16網(wǎng)絡(luò)在ImageNet樣式化圖像上的分類精度。
我們將AST[24]模型作為基線,因?yàn)樗?jīng)過(guò)訓(xùn)練可以從圖像集合中提取樣式。表2總結(jié)了燒蝕結(jié)果。它們表明,LF P T?風(fēng)格對(duì)于整體融入風(fēng)格至關(guān)重要。另一方面,LF-P-D主要負(fù)責(zé)更好的內(nèi)容保存,但也提高了樣式化任務(wù)的性能。
【圖8.PCA分解第一主成分上的風(fēng)格特征投影。計(jì)算真實(shí)藝術(shù)品(紅色)、樣式化圖像(藍(lán)色)和由模型樣式化的圖像的樣式特征,而不存在固定點(diǎn)三元組樣式損失(綠色)。風(fēng)格化的例子和藝術(shù)品僅取自兩位藝術(shù)家,因此呈雙峰分布。顯然,利用不動(dòng)點(diǎn)三元組風(fēng)格損失的模型可以更好地近似真實(shí)藝術(shù)品風(fēng)格特征的分布】
5. Conclusion
雖然以前的工作集中于改進(jìn)風(fēng)格化任務(wù),但他們?nèi)狈?duì)以下問(wèn)題的正式調(diào)查:我們?cè)谝环N風(fēng)格內(nèi)或不同風(fēng)格之間發(fā)現(xiàn)了多少差異?風(fēng)格和內(nèi)容之間的關(guān)系是什么兩者都與理解風(fēng)格有關(guān)。本文提出了一種新的風(fēng)格轉(zhuǎn)換方法,該方法能夠捕捉風(fēng)格的細(xì)微變化,同時(shí)能夠區(qū)分不同的風(fēng)格,理清內(nèi)容和風(fēng)格。我們通過(guò)在訓(xùn)練網(wǎng)絡(luò)中引入不動(dòng)點(diǎn)三重態(tài)損耗來(lái)實(shí)現(xiàn)前者。我們進(jìn)一步證明,引入分離損失使風(fēng)格化獨(dú)立于內(nèi)容的變化。我們通過(guò)測(cè)量風(fēng)格化圖像中內(nèi)容的保留和風(fēng)格的表現(xiàn),研究了內(nèi)容和風(fēng)格對(duì)最終風(fēng)格的影響。我們的方法提供了對(duì)風(fēng)格化過(guò)程的控制,并使藝術(shù)歷史學(xué)家能夠研究,例如,藝術(shù)家的風(fēng)格發(fā)展細(xì)節(jié)。
Acknowledgements
這項(xiàng)工作由德國(guó)研究基金會(huì)(DFG)-421703927和NVIDIA公司的硬件捐贈(zèng)資助。
References
[1] Piotr Bojanowski, Armand Joulin, David Lopez-Paz, and
Arthur Szlam. Optimizing the latent space of generative
networks. In ICML, 2018. 2
[2] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large
scale gan training for high fidelity natural image synthesis.
CoRR, abs/1809.11096, 2018. 2
[3] Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya
Sutskever, and Pieter Abbeel. Infogan: Interpretable rep-
resentation learning by information maximizing generative
adversarial nets. In NIPS, 2016. 2
[4] Vincent Dumoulin, Jonathon Shlens, and Manjunath Kudlur.
A learned representation for artistic style. Proc. of ICLR,
2017. 2
[5] Patrick Esser, Johannes Haux, and Bj¨orn Ommer. Unsuper-
vised robust disentangling of latent characteristics for image
synthesis. In Proceedings of the Intl. Conf. on Computer
Vision (ICCV), 2019. 2
[6] Patrick Esser, Ekaterina Sutter, and Bj¨orn Ommer. A varia-
tional u-net for conditional appearance and shape generation.
In The IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), July 2018. 2
[7] Leon A Gatys, Alexander S Ecker, and Matthias Bethge.
Image style transfer using convolutional neural networks.
In Computer Vision and Pattern Recognition (CVPR), 2016
IEEE Conference on, pages 2414–2423. IEEE, 2016. 2
[8] Leon A Gatys, Alexander S Ecker, Matthias Bethge, Aaron
Hertzmann, and Eli Shechtman. Controlling perceptual fac-
tors in neural style transfer. In IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), 2017. 2
[9] Alexander Hermans, Lucas Beyer, and Bastian Leibe. In
defense of the triplet loss for person re-identification. CoRR,
abs/1703.07737, 2017. 4
[10] Xun Huang and Serge Belongie. Arbitrary style transfer in
real-time with adaptive instance normalization. In ICCV,
2019. 2
[11] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A.
Efros. Image-to-image translation with conditional adver-
sarial networks. 2017 IEEE Conference on Computer Vision
and Pattern Recognition (CVPR), pages 5967–5976, 2017. 2,
3
[12] Y ongcheng Jing, Yang Liu, Yezhou Yang, Zunlei Feng,
Yizhou Y u, Dacheng Tao, and Mingli Song. Stroke con-
trollable fast style transfer with adaptive receptive fields. In
Proceedings of the European Conference on Computer Vision
(ECCV), pages 238–254, 2018. 2
[13] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptual
losses for real-time style transfer and super-resolution. In
European Conference on Computer Vision, pages 694–711.
Springer, 2016. 2
[14] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen.
Progressive growing of gans for improved quality, stability,
and variation. CoRR, abs/1710.10196, 2017. 2
[15] Tero Karras, Samuli Laine, and Timo Aila. A style-based
generator architecture for generative adversarial networks.
CoRR, abs/1812.04948, 2018. 2
[16] Dmytro Kotovenko, Artsiom Sanakoyeu, Pingchuan Ma,
Sabine Lang, and Bjorn Ommer. A content transformation
block for image style transfer. In Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition,
pages 10032–10041, 2019. 2
[17] Chuan Li and Michael Wand. Precomputed real-time texture
synthesis with markovian generative adversarial networks. In
European Conference on Computer Vision, pages 702–716.
Springer, 2016. 2
[18] Yijun Li, Chen Fang, Jimei Yang, Zhaowen Wang, Xin Lu,
and Ming-Hsuan Yang. Universal style transfer via feature
transforms. In Advances in Neural Information Processing
Systems, pages 385–395, 2017. 2, 5
[19] Dominik Lorenz, Leonard Bereska, Timo Milbich, and Bj¨orn
Ommer. Unsupervised part-based disentangling of object
shape and appearance. In Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition (CVPR) (Oral +
Best paper finalist: top 45 / 5160 submissions), 2019. 2
[20] Mehdi Mirza and Simon Osindero. Conditional generative
adversarial nets. CoRR, abs/1411.1784, 2014. 2
[21] Augustus Odena, Christopher Olah, and Jonathon Shlens.
Conditional image synthesis with auxiliary classifier gans. In
ICML, 2017. 2
[22] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net:
Convolutional networks for biomedical image segmentation.
In MICCAI, 2015. 3
[23] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, San-
jeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy,
Aditya Khosla, Michael Bernstein, Alexander C. Berg, and Li
Fei-Fei. ImageNet Large Scale Visual Recognition Challenge.
International Journal of Computer Vision (IJCV), 115(3):211–
252, 2015. 6
[24] Artsiom Sanakoyeu, Dmytro Kotovenko, Sabine Lang, and
Bj¨orn Ommer. A style-aware content loss for real-time hd
style transfer. In Proceedings of the European Conference on
Computer Vision (ECCV), 2018. 2, 5, 7, 8
[25] Florian Schroff, Dmitry Kalenichenko, and James Philbin.
Facenet: A unified embedding for face recognition and clus-
tering. 2015 IEEE Conference on Computer Vision and Pat-
tern Recognition (CVPR), pages 815–823, 2015. 4
[26] Ahmed Selim, Mohamed Elgharib, and Linda Doyle. Painting
style transfer for head portraits using convolutional neural
networks. ACM Transactions on Graphics (ToG), 35(4):129,
2020. 2
[27] Karen Simonyan and Andrew Zisserman. V ery deep convo-
lutional networks for large-scale image recognition. arXiv
preprint arXiv:1409.1556, 2014. 6, 8
[28] Dmitry Ulyanov, V adim Lebedev, Andrea V edaldi, and Vic-
tor S Lempitsky. Texture networks: Feed-forward synthesis
of textures and stylized images. In ICML, pages 1349–1357,
2021. 2
[29] Dmitry Ulyanov, Andrea V edaldi, and Victor Lempitsky. In-
stance normalization: The missing ingredient for fast styliza-
tion. arXiv preprint arXiv:1607.08022, 2016. 3
[30] Dmitry Ulyanov, Andrea V edaldi, and Victor Lempitsky. Im-
proved texture networks: Maximizing quality and diversity
in feed-forward stylization and texture synthesis. In Proc.
CVPR, 2017. 2
4430
[31] Hongmin Xu, Qiang Li, Wenbo Zhang, and Wen Zheng.
Styleremix: An interpretable representation for neural im-
age style transfer. arXiv preprint arXiv:1902.10425, 2019.
2
[32] Bolei Zhou, Agata Lapedriza, Jianxiong Xiao, Antonio Tor-
ralba, and Aude Oliva. Learning deep features for scene
recognition using places database. In Advances in neural
information processing systems, pages 487–495, 2014. 5
[33] Jun-Y an Zhu, Taesung Park, Phillip Isola, and Alexei A Efros.
Unpaired image-to-image translation using cycle-consistent
adversarial networks. In IEEE International Conference on
Computer Vision, 2017. 2, 3
總結(jié)
以上是生活随笔為你收集整理的风格迁移篇----艺术风格转换的内容与风格解构的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 发现很多人的基础都不好
- 下一篇: 进一步理解:inline-block,v