Industrial Style Transfer with Large-scale Geometric Warping and Content Preservation论文解读
Industrial Style Transfer with Large-scale Geometric Warping and Content Preservation論文解讀
作者:Jinchao Yang1, Fei Guo1, Shuo Chen2, Jun Li1y, Jian Yang1
1PCA Lab, Nanjing University of Science and Technology 2RIKEN
fyangjinchao,feiguo,junli,csjyangg@njust.edu.cn shuo.chen.ya@riken.jp
Contributes equally yCorresponding author&project lead
代碼:github
論文框架
論文涉及數(shù)據(jù)集
metropolitan museum of art collection:紐約大都會博物館藝術(shù)收藏;
下載鏈接:https://github.com/metmuseum/openaccess
(可以到https://www.metmuseum.org/art/collection/search?searchField=All&showOnly=openAccess&sortBy=relevance&pageSize=
下載公共領(lǐng)域和不受限制的藝術(shù)品圖像
或者參考https://github.com/trevorfiez/The-Metropolitan-Museum-of-Art-Image-Downloader
進(jìn)行對應(yīng)圖像下載)
Zalando:德國電子商城,提供Fashion-MNIST數(shù)據(jù)集;
數(shù)據(jù)集:提供衣物圖像數(shù)據(jù),包含60000個樣本的訓(xùn)練集和10000個樣本的測試集;
下載鏈接:https://github.com/zalandoresearch/fashion-mnist
或https://pjreddie.com/projects/coco-mirror/
Wiki,MS-COCO:微軟發(fā)布的大型的、豐富的對象檢測、分割和字幕數(shù)據(jù)集;
數(shù)據(jù)集:包含33萬張圖像、80個目標(biāo)類別、每張圖像5個標(biāo)題、25萬張帶有關(guān)鍵點(diǎn)的人像;
下載鏈接:https://cocodataset.org/#download
論文翻譯
圖 1. 我們提出了一種用于視覺產(chǎn)品設(shè)計(jì)的工業(yè)風(fēng)格轉(zhuǎn)移方法。 我們的方法通過將一種產(chǎn)品的形狀(目標(biāo))和藝術(shù)風(fēng)格參考轉(zhuǎn)移到另一種產(chǎn)品(源)來創(chuàng)建新的產(chǎn)品外觀(例如徽標(biāo)和 Day&Night 瓶)。
Abstract
我們提出了一種新穎的風(fēng)格遷移方法,可以快速創(chuàng)建外觀漂亮的新視覺產(chǎn)品??,供工業(yè)設(shè)計(jì)師參考。 給定一個源產(chǎn)品、一個目標(biāo)產(chǎn)品和一個藝術(shù)風(fēng)格的圖像,我們的方法產(chǎn)生一個扭曲源形狀以模仿目標(biāo)幾何風(fēng)格的神經(jīng)扭曲場和一個將藝術(shù)風(fēng)格轉(zhuǎn)移到扭曲源的神經(jīng)紋理變換網(wǎng)絡(luò) 產(chǎn)品。 我們的模型工業(yè)風(fēng)格轉(zhuǎn)移(InST)由==大規(guī)模幾何翹曲(LGW)和興趣一致性紋理轉(zhuǎn)移(ICTT)==組成。LGW 旨在探索源產(chǎn)品和目標(biāo)產(chǎn)品的形狀掩碼之間的無監(jiān)督轉(zhuǎn)換,以擬合大規(guī)模形狀翹曲。 此外,我們引入了一個掩碼平滑正則化項(xiàng),以防止源產(chǎn)品細(xì)節(jié)的突然變化。ICTT 引入了一個興趣正則化術(shù)語,以在使用藝術(shù)風(fēng)格圖像進(jìn)行風(fēng)格化時保持扭曲產(chǎn)品的重要內(nèi)容。 廣泛的實(shí)驗(yàn)結(jié)果表明,InST 在多個視覺產(chǎn)品設(shè)計(jì)任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能,例如公司的蝸牛標(biāo)志和經(jīng)典瓶子(請參見圖 1)。 據(jù)我們所知,我們是第一個擴(kuò)展神經(jīng)風(fēng)格遷移方法來創(chuàng)建工業(yè)產(chǎn)品外觀的人。 代碼位于 https://jcyang98.github.io/InST/home.html
1. Introduction
視覺產(chǎn)品設(shè)計(jì) (VPD) 已被公認(rèn)為工業(yè)產(chǎn)品設(shè)計(jì)領(lǐng)域的核心角色,因?yàn)橄M(fèi)者的選擇在很大程度上取決于市場上新產(chǎn)品的視覺外觀 [12]。 VPD 通常通過遵循不同的外觀角色(例如,審美、功能和象征)來設(shè)計(jì)新穎的產(chǎn)品 [11]。 例如,設(shè)計(jì)師通常會參考飛機(jī)和汽車,以融合它們的飛行和駕駛功能以及吸引人的審美,來制作飛行汽車的美麗外觀。 然而,由于VPD過程中的人類智能,很難快速創(chuàng)造出高質(zhì)量的產(chǎn)品外觀,這在很大程度上依賴于設(shè)計(jì)師的創(chuàng)意能力。 幸運(yùn)的是,神經(jīng)風(fēng)格遷移 (NST) [16, 21, 28, 38] 旨在將一兩個參考圖像的藝術(shù)和幾何風(fēng)格轉(zhuǎn)移到內(nèi)容圖像中,因?yàn)樗囆g(shù)風(fēng)格轉(zhuǎn)換是 適合審美價值,一些幾何形狀的變換可以獲得功能和象征價值,如北京國家體育場(鳥巢和建筑)。 因此,我們尋求一種風(fēng)格轉(zhuǎn)移公式來自動生成許多新產(chǎn)品的視覺外觀候選,以供工業(yè)設(shè)計(jì)師參考。
然而,由于以下兩個挑戰(zhàn),大多數(shù)現(xiàn)代 NST 方法 [14,25,32,59,60],包括幾何 NST [28, 38],都很難或不可能擴(kuò)展到直接設(shè)計(jì)視覺產(chǎn)品外觀。 一種是在不同的對象(或產(chǎn)品)之間縮放大幾何形狀,因?yàn)樵O(shè)計(jì)新產(chǎn)品通常是融合兩個具有非常不同幾何形狀的對象,例如飛行汽車(飛機(jī)和汽車)和蝴蝶門(蝴蝶的翅膀和汽車門)。 另一個是 NST 在風(fēng)格化過程中通常會使內(nèi)容變得更糟,例如 AdaIN [21] 和 WCT [33],導(dǎo)致產(chǎn)品設(shè)計(jì)師無法同時參考豐富的內(nèi)容和新穎的幾何形狀來產(chǎn)生創(chuàng)意靈感。
為了應(yīng)對這些挑戰(zhàn),我們開發(fā)了一種工業(yè)風(fēng)格遷移 (InST) 方法來創(chuàng)建新的產(chǎn)品外觀,如圖 2 所示。給定源產(chǎn)品(或?qū)ο?#xff09;、目標(biāo)產(chǎn)品和藝術(shù)參考圖像,InST 旨在遷移 目標(biāo)產(chǎn)品的工業(yè)幾何形狀和源產(chǎn)品的參考圖像的藝術(shù)風(fēng)格。 與現(xiàn)有的 NST 方法相比,InST 由大規(guī)模幾何翹曲(LGW)和興趣一致性紋理轉(zhuǎn)移(ICTT)組成。 與小規(guī)模幾何 NST [28, 38] 不同,LGW 使用形狀一致性損失在源產(chǎn)品和目標(biāo)產(chǎn)品的形狀掩碼之間設(shè)計(jì)了一個神經(jīng)變形場。 這與它們的紋理像素之間的翹曲場不同,因?yàn)樗鼤?dǎo)致更糟糕的優(yōu)化,即失效變形。 此外,我們探索了一個掩碼平滑正則化項(xiàng),以防止源產(chǎn)品細(xì)節(jié)的突然變化。 在掩碼的幫助下,LGW 在兩個產(chǎn)品之間的大規(guī)模變形中表現(xiàn)良好,即使它們在語義上是不相關(guān)的。
ICTT 旨在通過使用藝術(shù)參考圖像在風(fēng)格化時保留新產(chǎn)品的有趣內(nèi)容。 受 SuperPoint 網(wǎng)絡(luò) [15] 的啟發(fā),我們提出了一個基于興趣點(diǎn)和描述符的興趣正則化 (IR) 項(xiàng),以約束藝術(shù)風(fēng)格化,以最大限度地減少新產(chǎn)品與其風(fēng)格化產(chǎn)品之間的感知差異。 與最相關(guān)的工作 ArtFlow [3] 不同,我們設(shè)計(jì)了有趣的感知約束來防止更糟糕的內(nèi)容,并且我們的 IR 可以進(jìn)一步提高 ArtFlow 的性能。 總的來說,這項(xiàng)工作的貢獻(xiàn)總結(jié)如下:
- 對于視覺產(chǎn)品設(shè)計(jì)過程中的大規(guī)模幾何差異,我們探索了一種基于掩模的大規(guī)模幾何變形模塊,將幾何形狀風(fēng)格從一個對象產(chǎn)品轉(zhuǎn)移到另一個對象產(chǎn)品,即使語義不相關(guān)。
- 對于風(fēng)格化過程中的產(chǎn)品內(nèi)容維護(hù),我們引入了一種興趣一致性紋理傳輸,使用由 SuperPoint 網(wǎng)絡(luò)提取的興趣點(diǎn)和描述符進(jìn)行有趣的正則化,以保留內(nèi)容細(xì)節(jié)。
- 將 LGW 與 ICTT 相結(jié)合,我們提出了一個工業(yè)風(fēng)格轉(zhuǎn)移框架,以快速生成新產(chǎn)品的視覺外觀,例如公司徽標(biāo)、飛行汽車和瓷器時裝。 據(jù)我們所知,這項(xiàng)工作可以開辟風(fēng)格轉(zhuǎn)移的新領(lǐng)域,設(shè)計(jì)工業(yè)產(chǎn)品外觀。
2. Related Work
在本節(jié)中,我們主要回顧視覺產(chǎn)品設(shè)計(jì)、紋理風(fēng)格轉(zhuǎn)移和幾何風(fēng)格轉(zhuǎn)移,因?yàn)槲覀儗L(fēng)格轉(zhuǎn)移技術(shù)擴(kuò)展到一個新的應(yīng)用,產(chǎn)品外觀設(shè)計(jì)任務(wù)。
2.1. Visual Product Design
消費(fèi)者感知[5, 6],視覺產(chǎn)品設(shè)計(jì)(VPD)可以被認(rèn)為是設(shè)計(jì)師(公司)和消費(fèi)者之間的溝通過程[12]。 在這個過程中,設(shè)計(jì)師旨在通過改變幾何形狀、藝術(shù)風(fēng)格等,通過產(chǎn)品外觀傳達(dá)特定的信息,消費(fèi)者在看到產(chǎn)品外觀時向設(shè)計(jì)師提供對產(chǎn)品改進(jìn)的反應(yīng)[41]。 通常,對于消費(fèi)者來說,有四種流行的產(chǎn)品外觀類型:審美印象、功能效果、符號聯(lián)想和人體工程學(xué)信息[11,12,43]。
然而,這是一個手工勞動過程,通信和產(chǎn)品設(shè)計(jì)成本很高,因?yàn)樗枰S多反饋循環(huán),并且設(shè)計(jì)人員需要花費(fèi)大量時間來改進(jìn)每個循環(huán)中的產(chǎn)品設(shè)計(jì) [12]。 這種昂貴的成本促使我們探索一種快速的設(shè)計(jì)方法。更重要的是,由于高質(zhì)量的產(chǎn)品外觀取決于設(shè)計(jì)師的創(chuàng)造能力,它鼓勵我們產(chǎn)生許多產(chǎn)品創(chuàng)新來激發(fā)設(shè)計(jì)師的靈感。因此,我們開發(fā)了一種新穎的風(fēng)格轉(zhuǎn)移方法來創(chuàng)建許多視覺產(chǎn)品外觀候選者,以幫助或啟發(fā)設(shè)計(jì)師。
2.2. Texture Style Transfer.
作為一個熱門話題,紋理風(fēng)格轉(zhuǎn)移由來已久。 最初的工作 [16, 17, 34, 45] 關(guān)注迭代優(yōu)化。 后來,許多基于前饋網(wǎng)絡(luò)的作品 [9, 26, 52, 62] 提高了質(zhì)量和數(shù)量,例如視覺效果和計(jì)算時間。 雖然大大提高了紋理風(fēng)格的轉(zhuǎn)移,這些方法通過經(jīng)過訓(xùn)練的模型僅轉(zhuǎn)移一種風(fēng)格。很多作品,包括 AdaIN [21]、WCT [33]、AvatarNet [48]、LinearWCT [32]、SANet [42]、MST [63] 和最近的 [20、31、35、37、54、55、57 , 58],被擴(kuò)展到任意風(fēng)格轉(zhuǎn)移。 然而,這些方法僅限于保留內(nèi)容圖像的細(xì)節(jié)。 風(fēng)格遷移中內(nèi)容變差的問題引起了眾多學(xué)者的關(guān)注。 引入了一種結(jié)構(gòu)保持算法[10]來保持內(nèi)容圖像的結(jié)構(gòu)。ArtFlow [3] 通過可逆神經(jīng)流從內(nèi)容圖像中保留更多細(xì)節(jié)。 但是,它們的視覺質(zhì)量仍有待提高。 我們提出了一種由 SuperPoint 網(wǎng)絡(luò) [15] 計(jì)算的興趣正則化,它將內(nèi)容圖像作為輸入并輸出相應(yīng)的興趣點(diǎn)和描述符以使內(nèi)容更好。
2.3. Geometric Style Transfer
傳統(tǒng)的幾何匹配方法涉及檢測和匹配手工制作的興趣點(diǎn),例如 SIFT [40]、形狀上下文匹配 [4] 或 HOG [13]。雖然這些方法對于實(shí)例級匹配效果很好,但它對外觀變化和噪聲干擾很敏感。后來,卷積神經(jīng)網(wǎng)絡(luò)由于能夠提取強(qiáng)大且魯棒的特征而在幾何匹配中流行起來。 目前最好的方法遵循[46]提出的由特征提取、匹配層和回歸網(wǎng)絡(luò)組成的網(wǎng)絡(luò)范式,并在此基礎(chǔ)上進(jìn)行各種改進(jìn)[18,27,38,46,47]。 以上所有方法都作用于兩個 RGB 圖像,并嘗試估計(jì)一個扭曲場以直接匹配它們。盡管在語義相似的圖像之間表現(xiàn)良好,但它們無法處理具有大規(guī)模翹曲的不同類別的對象。 在沒有語義相關(guān)性的情況下,計(jì)算兩個 RGB 圖像之間的相關(guān)性是不合理的,定義匹配度量也很困難。DST [28] 通過匹配 NBB 關(guān)鍵點(diǎn) [2] 和估計(jì)薄板樣條 (TPS) [7] 變換來實(shí)現(xiàn)翹曲。它也僅限于類級別的變形,因?yàn)?NBB 只能提取相似對象之間的關(guān)鍵點(diǎn)。一些方法僅限于專門的語義類,例如人臉 [61]、漫畫 [49] 或文本 [60]。 與上述幾何匹配方法相比,我們甚至在不同類別的任意對象之間也實(shí)現(xiàn)了大規(guī)模扭曲。 總體而言,與上述方法不同,我們旨在拓寬產(chǎn)品設(shè)計(jì)任務(wù)的風(fēng)格遷移應(yīng)用,并且我們的方法獲得了令人驚嘆的工業(yè)產(chǎn)品外觀來激發(fā)設(shè)計(jì)師的靈感。
圖 2. 我們的工業(yè)風(fēng)格轉(zhuǎn)移的管道。 我們的方法通過將源 S 扭曲到目標(biāo) T 來創(chuàng)建新產(chǎn)品 N,并通過將參考圖像 A 的藝術(shù)風(fēng)格轉(zhuǎn)移到新產(chǎn)品 N 來生成最終產(chǎn)品外觀 O。
3. Industrial Style Transfer
在本節(jié)中,我們開發(fā)了一個工業(yè)風(fēng)格轉(zhuǎn)移(InST)框架來創(chuàng)建圖 2 中的新視覺產(chǎn)品??外觀,由兩個模塊組成:3.1 小節(jié)中的大規(guī)模幾何翹曲(LGW)和興趣一致性紋理轉(zhuǎn)移(ICTT) 在第 3.2 小節(jié)中。 我們用 SSS表示源產(chǎn)品(或?qū)ο?#xff09;,用TTT表示目標(biāo)產(chǎn)品 ,用 AAA表示藝術(shù)參考圖像,用 NNN 表示使用 LGW 的新變形產(chǎn)品,用 OOO 表示最終輸出。
3.1. Largescale GeometricWarping
LGW 的目標(biāo)是扭曲源產(chǎn)品 SSS 以匹配目標(biāo)產(chǎn)品 TTT 的幾何形狀,以生成新產(chǎn)品,即使存在大規(guī)模的形狀差異和不相關(guān)的語義。 為了實(shí)現(xiàn)這一目標(biāo),我們在形狀掩碼之間設(shè)計(jì)了一個神經(jīng)變形場,其靈感來自光流方法、循環(huán)全對場變換 (RAFT) [51]。 特別是,圖 3 顯示了我們的 LGW 模塊,包括一個掩模 RAFT 和一個無監(jiān)督的翹曲損失。
3.1.1 Mask RAFT Network
Mask RAFT網(wǎng)絡(luò)被分為以下幾個階段:(1)掩模提取,(2)特征提取,(3)位置嵌入,(4)相關(guān)計(jì)算,(5)循環(huán)更新。 更多細(xì)節(jié)描述如下。
掩模提取:我們采用對象分割網(wǎng)絡(luò),表示為Fm:RH×W×3→0,1H×W)→((repeatit3times)→0,1H×W×3)F_m:R^{H×W×3}→{0,1}^{H×W)}→((repeat it 3times)→ {0,1}^{H×W×3} )Fm?:RH×W×3→0,1H×W)→((repeatit3times)→0,1H×W×3) ,提取產(chǎn)品的掩膜。 給定產(chǎn)品 SSS 和 TTT 作為輸入,它們的掩碼分別為 Ms=Fm(S)和Mt=Fm(T)Ms = Fm(S) 和 Mt = Fm(T)Ms=Fm(S)和Mt=Fm(T)。 在這里,我們使用了一個固定的 Resnet50+FPN+PointRend(基于點(diǎn)的渲染)網(wǎng)絡(luò),該網(wǎng)絡(luò)已經(jīng)在 [30] 中進(jìn)行了預(yù)訓(xùn)練。
特征提取: 使用卷積編碼器網(wǎng)絡(luò)從輸入掩碼 MsM_sMs? 和 MtM_tMt? 中提取掩碼特征,表示為 Ff:0,1H×W×3→RH/8×W/8×D)F_f:{0,1}^{H×W×3}→R^{H/8×W/8×D})Ff?:0,1H×W×3→RH/8×W/8×D),其中 DDD 設(shè)置為 256。為了計(jì)算 MsM_sMs? 和 MtM_tMt? 之間的相關(guān)性,該網(wǎng)絡(luò)類似于 RAFT [51] 的特征編碼器網(wǎng)絡(luò),由 6 個殘差塊組成,2 個在 分別為 1=2、1=4 和 1=8 分辨率。然后,我們有掩碼多尺度特征,Fs=Ff(Ms)F_s = F_f (M_s)Fs?=Ff?(Ms?) 和 Ft=Ff(Mt)F_t = F_f (M_t)Ft?=Ff?(Mt?)。
位置嵌入: 由于缺乏顏色信息,源掩碼和目標(biāo)掩碼之間有太多相似或相同的特征,導(dǎo)致相關(guān)計(jì)算和變形較弱。 為了避免這種情況,相鄰位置信息可以改善變形場,因?yàn)樗铝藢ο螽a(chǎn)品的每個像素(位置)的變化。 因此,我們通過使用流行的殘差操作來考慮特征圖 FsF_sFs?和 FtF_tFt? 的位置嵌入 PPP [53],并將新的位置+特征定義為:
相關(guān)計(jì)算和定期更新。在這里,我們遵循 RAFT [51] 的計(jì)算視覺相似性和迭代更新來計(jì)算多尺度相關(guān)性并循環(huán)更新翹曲場。在本文中,這兩個步驟表示為
總的來說,我們的掩模 RAFT 網(wǎng)絡(luò)被描述為
其中 R 是迭代次數(shù),我們在實(shí)現(xiàn)中設(shè)置 R = 3。
3.1.2 UnsupervisedWarping Loss
mask RAFT 網(wǎng)絡(luò)通過構(gòu)建形狀一致性損失和平滑正則化在無監(jiān)督環(huán)境中進(jìn)行訓(xùn)練。
形狀一致性損失。 基于翹曲場估計(jì)ω\omegaω在等式 (2),我們通過空間變換器[23]中提到的差分雙線性采樣得到扭曲的源掩碼{ωr(Ms)r=1R}{\{\omega_r(M_s)}^R_{r=1}\}{ωr?(Ms?)r=1R?}。 給定目標(biāo)掩碼MtM_tMt?,這個?1\ell_1?1?損失定義為
Lshape=∑r=1Rαr∥,ωr(Ms)?Mt∥L_shape=\sum^R_{r=1}\alpha_r\lVert,\omega_r(M_s)-M_t\rVertLs?hape=r=1∑R?αr?∥,ωr?(Ms?)?Mt?∥
其中αr\alpha_rαr?用于平衡變形程度。
平滑正則化。 為了避免混沌變形,需要進(jìn)一步限制warping field的采樣方向,以最大限度地保留圖像的內(nèi)容細(xì)節(jié)源對象。 特別地,我們設(shè)計(jì)了一個平滑蒙版,如圖4所示,其生成公式表示為
Msmooth=Mcompress∣Mexpand=(Medge&Ms)∣(Ms⊕Mt&Mt)M_{smooth}=M_{compress}|M_{expand}=(M_{edge} \& M_s)|(M_s \oplus M_t\&M_t)Msmooth?=Mcompress?∣Mexpand?=(Medge?&Ms?)∣(Ms?⊕Mt?&Mt?)
圖 4. 給定兩種形狀,我們?yōu)閴嚎s(右上)和擴(kuò)展(右下)這兩個部分設(shè)計(jì)了不同的平滑蒙版。 中間的平滑蒙版是我們在平滑正則化中使用的。
其中∣|∣、 &\&& 和⊕\oplus⊕表示邏輯析取、合取和 XOR,MedgeM_{edge}Medge? 表示目標(biāo)對象乘積的邊。 MedgeM_{edge}Medge? 是通過所有一個內(nèi)核的卷積運(yùn)算計(jì)算的,Medge=Cov(Mt,ker)M_{edge}= Cov(M_t,ker)Medge?=Cov(Mt?,ker) ,其中 ker=[1]kxkx3ker = [1]^{kxk x3}ker=[1]kxkx3,kkk 是預(yù)定義的內(nèi)核大小,我們設(shè)置 k=9k = 9k=9。(更多細(xì)節(jié)是 在補(bǔ)充材料中提供。)因?yàn)?Msmooth∈0,1HxWx3M_{smooth}\in {0,1}^HxWx3Msmooth?∈0,1HxWx3在三個通道中具有相同的掩碼圖,其中一個通道用M∈0,1HxW\Mu \in{0,1}^HxWM∈0,1HxW 表示。 給定扭曲場估計(jì) {ωr(Ms)r=1R}{\{\omega_r(M_s)}^R_{r=1}\}{ωr?(Ms?)r=1R?},?2\ell_2?2?正則化 M\MuM 定義為
Lsmooth=∑r=1RβrLsmooth(ωrM)L_{smooth}=\sum^R_{r=1}\beta_r L_{smooth}(\omega_r \Mu)Lsmooth?=r=1∑R?βr?Lsmooth?(ωr?M)
其中βr\beta_rβr?表示不同warp field的內(nèi)容保留程度, Lsmooth(ωrM)=L_{smooth}(\omega_r\Mu)=Lsmooth?(ωr?M)=
上述項(xiàng)是經(jīng)線場上的一階平滑度! 通過約束坐標(biāo) (i; j) 周圍的水平、垂直和對角鄰域的位移。 它驅(qū)動源對象的紋理內(nèi)容在變形后靠近其鄰域。 通過將 LshapeL_{shape}Lshape? 與 LsmoothL_{smooth}Lsmooth? 相結(jié)合,翹曲損失被描述為
Loverall=Lshape+γLsmoothL_overall=L_shape+\gamma L_{smooth}Lo?verall=Ls?hape+γLsmooth?
其中 γ=1\gamma=1γ=1 控制每個術(shù)語的重要性
3.2. InterestConsistency Texture Transfer
在LGW生成新產(chǎn)品N后,ICTT的目標(biāo)是通過轉(zhuǎn)移N的藝術(shù)風(fēng)格,創(chuàng)造出具有N重要內(nèi)容細(xì)節(jié)的風(fēng)格化產(chǎn)品外觀O。使用神經(jīng)風(fēng)格遷移 (NST) 方法參考圖像 A 到 N。 為了實(shí)現(xiàn)這一目標(biāo),我們在圖 5 中引入了一個興趣正則化(IR)項(xiàng),以基于 SuperPoint 網(wǎng)絡(luò) [15] 保持 O 和 N 的有趣內(nèi)容之間的相似性,因?yàn)樗梢杂行У赜?jì)算興趣點(diǎn)位置及其相關(guān)描述符。
NST 通常是通過最小化 NST 損失來訓(xùn)練圖像轉(zhuǎn)換網(wǎng)絡(luò) F,表示為 LNST,包括內(nèi)容和紋理樣式損失。 在這項(xiàng)工作中,我們考慮了兩種流行的算法,AdaIN [21] 和 LinearWCT [32],以及一種最相關(guān)的方法,ArtFlow [3]。
IR是通過SuperPoint網(wǎng)絡(luò)控制N和O的感知差異,記為S(?)S(·)S(?),輸出一個H W大小65通道的興趣點(diǎn)頭,P 2 RH W 65,描述符頭H W 尺寸和 256 個通道,KaTeX parse error: Undefined control sequence: \inR at position 2: D\?i?n?R?^HxWx256。 然后我們有 (PN;DN)=S(N)(P_N;D_N) = S(N)(PN?;DN?)=S(N) 和 (PO;DO)=S(O)P_O;D_O) = S(O)PO?;DO?)=S(O)。 IR定義如下:
LIR=LP(PN,PO)+λLD(DN,DO)L_{IR}=L_P(P_N,P_O)+\lambda L_D(D_N,D_O)LIR?=LP?(PN?,PO?)+λLD?(DN?,DO?)
其中 λ=0:00005\lambda= 0:00005λ=0:00005。 LPL_PLP? 是 2 范數(shù)的平方,即
其中 PhwNP^N_{hw}PhwN? 和 PhwOP^O_{hw}PhwO? 是分別屬于 PNP_NPN? 和 POP_OPO? 的 65 維向量。 LDL_DLD? 是一個鉸鏈損失[15],正邊距 mp=1m_p = 1mp?=1,負(fù)邊距 mn=0.2m_n = 0.2mn?=0.2,即 LD(DN,DO)=L_D(D_N,D_O) =LD?(DN?,DO?)=
圖 5. 興趣一致性紋理轉(zhuǎn)移。 它由用于藝術(shù)風(fēng)格轉(zhuǎn)換的 NST 方法和用于通過興趣點(diǎn)約束保存內(nèi)容的 SuperPoint 網(wǎng)絡(luò)組成。
4. Experiments
在本節(jié)中,我們進(jìn)行了廣泛的實(shí)驗(yàn)來評估我們的 InST 方法的視覺產(chǎn)品設(shè)計(jì)能力,例如公司徽標(biāo)、瓶子、瓷器時裝和飛行汽車。 補(bǔ)充材料中提供了更多產(chǎn)品設(shè)計(jì)比較。
4.1. Experimental Settings
數(shù)據(jù)集。 由源和目標(biāo)產(chǎn)品(或?qū)ο?#xff09;和藝術(shù)風(fēng)格圖像組成。 在 [56] 之后,通過開放訪問 API [1] 從大都會藝術(shù)博物館收藏中選擇源產(chǎn)品,并使用 PointRend [30] 獲得其分割掩碼。 我們使用從 Zalando 數(shù)據(jù)集 [24] 收集的衣服作為目標(biāo)產(chǎn)品,并使用 VITON [19] 獲得它們的分割掩碼。 藝術(shù)風(fēng)格圖像是 WikiArt 數(shù)據(jù)集 [8]。此外,MS-COCO 數(shù)據(jù)集 [36] 也被視為 ICTT 模塊中用于訓(xùn)練網(wǎng)絡(luò)的內(nèi)容圖像。 輸入圖像的大小調(diào)整為 512 512。 每個圖像被隨機(jī)裁剪為 256 256 用于訓(xùn)練。
訓(xùn)練。 由于我們的模型包括 LGW 和 ICTT 模塊,我們的訓(xùn)練計(jì)劃分為三個步驟。 首先,使用源產(chǎn)品和目標(biāo)產(chǎn)品來訓(xùn)練LGW的warping網(wǎng)絡(luò)。 超參數(shù)設(shè)置為 f rg3r =1 = f0:1; 0:2; 方程式中的 1g。 (3)、f rg3r =1 = f0:1; 0:05; 方程式中的 0:01g。 (5), 和 = 1 在等式。 (7)。 其次,使用藝術(shù)風(fēng)格圖像和作為內(nèi)容圖像的 MS-COCO 來訓(xùn)練 ICTT 的藝術(shù)傳輸網(wǎng)絡(luò)。 在方程式中,超參數(shù)設(shè)置為 = 0:00005。 (8) 和 = 1 在等式。 (11)。 第三,我們使用收集的數(shù)據(jù)集共同優(yōu)化變形和藝術(shù)傳輸網(wǎng)絡(luò)。 在我們的實(shí)驗(yàn)中,我們訓(xùn)練這三個步驟進(jìn)行 50k/60k/10k 迭代,批量大小為 16/2/2,Adam [29] 優(yōu)化器的學(xué)習(xí)率為 0.001/初始 0.0001,衰減為 0.00001/0.0001。 在單個 GTX 2080Ti GPU 上訓(xùn)練大約需要 10/12/8 小時。
4.2. Main Results
為了證明所提出的 InST 具有創(chuàng)建具有美妙視覺外觀的新產(chǎn)品的幾何和紋理轉(zhuǎn)移能力,我們將其與最近的兩種幾何轉(zhuǎn)移方法,例如 DST [28] 和 GTST [38] 以及三種紋理轉(zhuǎn)移方法進(jìn)行了比較 ,例如,AdaIN [21]、LinearWCT [32] 和 ArtFlow(內(nèi)容保存)[3]。
視覺比較。 我們從三個方面定性地展示新的視覺產(chǎn)品:(i)幾何翹曲,(ii)紋理轉(zhuǎn)移,(iii)它們的組合。
幾何翹曲。 圖 S7 顯示了幾何風(fēng)格遷移算法的新產(chǎn)品設(shè)計(jì)結(jié)果。 例如,圓形地球和魔方分別被轉(zhuǎn)移到 Twitter、Apple、Meta、McDonald’s 和 Jordan 的 logo 中。 與幾何方法相比,
圖 6. 使用幾何風(fēng)格轉(zhuǎn)移方法的視覺產(chǎn)品設(shè)計(jì)結(jié)果,例如 DST [28]、GTST [38] 和我們的 InST。 與 DST 和 GTST 相比,我們在汽車和飛機(jī)之間的中間結(jié)果對產(chǎn)品設(shè)計(jì)人員具有更多的參考價值,因?yàn)樗鼈冾愃朴诋a(chǎn)品的俯視圖(例如 Terrafugia 和 AeroMobil-4.01)
圖 7. 使用紋理風(fēng)格轉(zhuǎn)移方法的內(nèi)容保存結(jié)果,例如 AdaIN [21]、LinearWCT [32] 和 ArtFlow [3]。
例如,DST 和 GTST,我們的 LGW 模塊可以更好地匹配目標(biāo)的幾何形狀,更好地保持源的紋理內(nèi)容。 他們失敗的原因是DST和GTST通過使用對應(yīng)的關(guān)鍵點(diǎn)[28]和學(xué)習(xí)小規(guī)模的翹曲場[38]在兩個對象之間只有很少的語義關(guān)系,導(dǎo)致在面對大規(guī)模幾何時結(jié)果更差。 形狀。 相比之下,我們設(shè)計(jì)了一個平滑的蒙版翹曲場,以適應(yīng)視覺產(chǎn)品設(shè)計(jì)中的大規(guī)模翹曲。
紋理轉(zhuǎn)移。 圖 7 顯示了紋理風(fēng)格轉(zhuǎn)移算法的內(nèi)容保存,例如 AdaIN、Linear-WCT 和 ArtFlow。 我們可以觀察到,我們的 IR 正則化可以改進(jìn)所有算法以保留更多內(nèi)容細(xì)節(jié),因?yàn)樗J(rèn)為興趣點(diǎn)是相似的。 這與 ArtFlow 非常不同,因?yàn)樗紤]了可逆的神經(jīng)流和無偏的特征轉(zhuǎn)移。
幾何和紋理轉(zhuǎn)移。 我們根據(jù)最先進(jìn)的 GTST [38],結(jié)合幾何和紋理風(fēng)格轉(zhuǎn)移來評估具有美觀外觀的整體產(chǎn)品設(shè)計(jì)。 圖 1 顯示了我們的 InST 方法是創(chuàng)建精美的產(chǎn)品外觀,例如 Apple 和 Twitter 的蝸牛標(biāo)志。 此外,無花果。 圖 8 和圖 9 還顯示了更多的產(chǎn)品設(shè)計(jì)結(jié)果。 與 GTST 相比,我們的方法可以提供更大規(guī)模的變形并保留源對象(或產(chǎn)品)的更多細(xì)節(jié)。
定量比較。 除了上述視覺比較,我們還提供了 LGW 和 IR 模塊的兩個定量比較。 首先,我們使用平均交叉交叉 (mIoU) 評估幾何翹曲性能,這是語義分割的流行指標(biāo) [39]。 在表 1 中,我們看到 LGW 的 mIoU 分?jǐn)?shù)高于 DST 和 GTST。 這意味著翹曲產(chǎn)品更好地匹配目標(biāo)的幾何等。 其次,類似于[3],內(nèi)容和風(fēng)格化圖像之間的結(jié)構(gòu)相似性指數(shù)(SSIM)被認(rèn)為是衡量細(xì)節(jié)保存性能的指標(biāo)。 表 2 報告說,這些使用我們的 IR 術(shù)語的方法具有更高的 SSIM 分?jǐn)?shù),并且可以保留更詳細(xì)的信息,而無需額外的測試時間。
用戶研究。 我們進(jìn)行了一項(xiàng)用戶研究,以評估所提出的 InST 算法對現(xiàn)有方法的效果。我們從幾何扭曲、內(nèi)容維護(hù)及其組合的角度將評估分為三組,每組包括十個選項(xiàng)。我們總共收集了 114 個用戶的 3420 張選票,每個組獲得 1140 張選票。 表 3 報告了具體投票的結(jié)果。 鑒于源產(chǎn)品和目標(biāo)產(chǎn)品,91.5% 的用戶報告說我們的 LGW 網(wǎng)絡(luò)更好地匹配目標(biāo)的幾何形狀,而 GTST [38] 和 DST [28] 僅為 5.3% 和 3.2%。 在內(nèi)容維護(hù)評估中,66.9% 的用戶認(rèn)為我們的 ICTT 模塊比相應(yīng)的紋理風(fēng)格遷移方法維護(hù)了更多的內(nèi)容細(xì)節(jié) [3,21,32]。 最后,在從上述兩個方面評估整體效果時,我們提出的算法占 1140 票的 88.2%,而 GTST [38] 占 11.8%。 總體而言,我們的結(jié)果在所有方面和評估方法中都是最受歡迎的。
圖 8. 使用幾何和紋理風(fēng)格轉(zhuǎn)移方法的視覺標(biāo)志設(shè)計(jì)結(jié)果,例如 GTST [38] 和我們的 InST。
圖 9. 使用幾何和紋理風(fēng)格轉(zhuǎn)移方法的視覺產(chǎn)品設(shè)計(jì)結(jié)果,例如 GTST [38] 和我們的 InST。
4.3. Ablation Study
由于上述小節(jié)已經(jīng)提供了ICTT的LWG和IR的比較實(shí)驗(yàn),我們對LWG中mask RAFT網(wǎng)絡(luò)的位置嵌入進(jìn)行了消融實(shí)驗(yàn)。我們通過訓(xùn)練沒有該組件的LGW模塊來測試位置嵌入的重要性 . 圖 10 顯示了三個循環(huán)更新的比較結(jié)果。 位置嵌入實(shí)現(xiàn)了更好的性能,因?yàn)檫@樣的操作增強(qiáng)了相鄰位置的相關(guān)性。
圖 10. 位置嵌入的消融研究。
5. Discussion
在本節(jié)中,我們將討論三個問題,以更好地理解我們的掩模 RAFT 和我們的 InST 方法的局限性。 此外,補(bǔ)充材料中還提供了潛在的應(yīng)用。
為什么 RAFT [51] 適用于幾何翹曲任務(wù)? 解釋的原因有三個。 1)光流估計(jì)被廣泛應(yīng)用于通過學(xué)習(xí)扭曲場[22、39、44、50、51]來估計(jì)連續(xù)視頻幀中對象的兩個移動幾何之間的扭曲。 2)與光流估計(jì)類似,語義變換方法[27]已被用于訓(xùn)練相似對象之間的幾何翹曲場,稱為GTST [38],它優(yōu)于DST [28]。 3) RAFT [51] 獲得了 ECCV 2020 的最佳論文獎,是最先進(jìn)的。
我們?yōu)槭裁匆O(shè)計(jì)掩模翹曲場? 一個原因是當(dāng)一個對象的 RGB 像素在語義上不相關(guān)或它們的形狀有很大差異時(例如蝸牛和 Twitter 徽標(biāo)),很難或不可能直接扭曲一個對象的 RGB 像素以匹配另一個對象。 另一個原因是兩個掩碼之間的差異低于紋理 RGB 圖像,從而更容易優(yōu)化。 我們用 RGB 圖像及其掩碼輸入訓(xùn)練我們的 LGW 模塊,并在圖 11 中顯示損失曲線。很明顯,使用掩碼輸入比 RGB 具有更低的損失和更快的收斂速度。 為了進(jìn)一步比較,我們還在圖 11 中分別展示了它們的可視化結(jié)果,顯然,掩模 RAFT 比基于 RGB 的 RAFT 具有更好的變形。
RAFT 和 mask RAFT 有什么區(qū)別? 與 RAFT [51] 相比,我們的面具 RAFT 有以下四個不同之處。 首先,我們設(shè)計(jì)了一個無監(jiān)督損失和一個掩模平滑度來學(xué)習(xí)一個大規(guī)模的翹曲場,而RAFT 在有監(jiān)督的環(huán)境中探索了一個小規(guī)模的光流場。 其次,在 RAFT 之前,我們引入了一個掩碼提取階段,以從其 RGB 圖像中獲取對象(或產(chǎn)品)掩碼。 第三,我們提出了一種位置嵌入,用于增強(qiáng)相鄰位置相關(guān)性的特征提取。 第四,我們使用目標(biāo)的特征^Ft,而不是使用另一個網(wǎng)絡(luò)進(jìn)行特征提取??傮w而言,我們的蒙版 RAFT 可以更好地扭曲大型幾何形狀。
限制。 在這里,我們討論幾何翹曲的局限性。 因?yàn)槲覀兊哪康氖菍?shí)現(xiàn)產(chǎn)品(或物體)之間的大規(guī)模翹曲場,它有一點(diǎn)語義對應(yīng),所以我們不依賴語義信息來引導(dǎo)翹曲場。 當(dāng)輸入對共享語義屬性時,我們的方法可能會產(chǎn)生違反直覺的結(jié)果。 例如,在圖 12 中,我們的 LGW 方法嘗試匹配形狀而不考慮??內(nèi)部語義對齊,例如將眼睛與眼睛對齊。
圖 11. 我們的 LGW 模塊的損失與 RGB 和掩模輸入。
圖 12. 限制:原則上的限制是相似對象之間的語義對應(yīng)。
6. Conclusion
在本文中,我們提出了一種用于視覺產(chǎn)品設(shè)計(jì)任務(wù)的工業(yè)風(fēng)格遷移方法。 我們的方法構(gòu)建了一個幾何變換場來創(chuàng)建一個新產(chǎn)品,并進(jìn)一步學(xué)習(xí)了一個風(fēng)格變換網(wǎng)絡(luò),將參考圖像的藝術(shù)風(fēng)格轉(zhuǎn)移到新產(chǎn)品上。 值得一提的是,我們的方法扭曲了源產(chǎn)品以模仿目標(biāo)產(chǎn)品的幾何形狀,即使它們在語義上不相關(guān)。 大量實(shí)驗(yàn)表明,我們的方法優(yōu)于最先進(jìn)的風(fēng)格轉(zhuǎn)移算法,尤其是具有挑戰(zhàn)性的大規(guī)模幾何形狀。 我們還將風(fēng)格轉(zhuǎn)移管道應(yīng)用到一些產(chǎn)品設(shè)計(jì)任務(wù)中,例如令人驚嘆的標(biāo)志、漂亮的瓶子、飛行汽車和瓷器時裝。 希望我們的工作能夠開辟一條途徑,幫助或啟發(fā)設(shè)計(jì)師通過使用風(fēng)格轉(zhuǎn)移技術(shù)設(shè)計(jì)新的工業(yè)產(chǎn)品。
總結(jié)
以上是生活随笔為你收集整理的Industrial Style Transfer with Large-scale Geometric Warping and Content Preservation论文解读的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 90 Subsets II
- 下一篇: 【知识导图】数据结构与算法