ARCH++
ARCH++: Animation-Ready Clothed Human Reconstruction Revisited
可直接用于動(dòng)畫的穿衣服人體重建
我們提出了一種基于圖像的三維化身重建方法ARCH++,該方法可以重建具有任意服裝風(fēng)格的3D化身。我們重建的化身是動(dòng)畫就緒和高度逼真的,在輸入視圖的可見(jiàn)區(qū)域和不可見(jiàn)區(qū)域都是如此。雖然以前的工作顯示出很有希望重建具有各種拓?fù)浣Y(jié)構(gòu)的可動(dòng)畫衣著的人,但我們觀察到存在導(dǎo)致次優(yōu)重建質(zhì)量的根本限制。在本文中,我們回顧了基于圖像的化身重建的主要步驟,并利用ARCH++解決了這些限制。首先,我們引入了一種端到端的幾何編碼器來(lái)更好地描述底層3D人體的語(yǔ)義,取代了以前手工制作的特征。其次,針對(duì)典型姿態(tài)下衣著人體拓?fù)渥兓鸬恼加新势缌x問(wèn)題,提出了一種跨空間一致性的協(xié)同監(jiān)督框架,用于聯(lián)合估計(jì)姿態(tài)空間和規(guī)范空間中的占有率。最后,我們使用圖像到圖像的轉(zhuǎn)換網(wǎng)絡(luò)來(lái)進(jìn)一步細(xì)化重建曲面上的細(xì)節(jié)幾何和紋理,從而提高了任意視點(diǎn)之間的逼真度和一致性。在實(shí)驗(yàn)中,我們展示了在重建質(zhì)量和真實(shí)感方面在公共基準(zhǔn)和用戶研究方面的改進(jìn)。
?
給定一個(gè)任意姿勢(shì)的對(duì)象圖像(左),我們的方法可以在設(shè)定的輸入空間(中間)和自動(dòng)裝配的規(guī)范空間(右)中生成照片級(jí)逼真的化身。
Introduction
數(shù)字人類已經(jīng)成為眾多AR/VR應(yīng)用的重要組成部分,例如視頻游戲、社交遠(yuǎn)程呈現(xiàn)[48,39]和虛擬試穿。要獲得真正身臨其境的體驗(yàn),對(duì)這些化身來(lái)說(shuō),獲得超越[Uncanny Valley](機(jī)器人、化身和動(dòng)畫的目標(biāo)是極端現(xiàn)實(shí)主義,但卻陷入了一個(gè)被稱為詭異山谷的令人不安的深淵。它們極其逼真,栩栩如生,但當(dāng)我們審視它們時(shí),我們會(huì)發(fā)現(xiàn)它們并不完全是人類。當(dāng)機(jī)器人或動(dòng)畫畫像躺在這個(gè)“山谷”里時(shí),人們往往會(huì)感到不安、陌生、厭惡或令人毛骨悚然。
怪誕谷是一個(gè)術(shù)語(yǔ),用來(lái)描述機(jī)器人物體的類人外觀和它引起的情感反應(yīng)之間的關(guān)系。在這一現(xiàn)象中,人們對(duì)高度逼真的人形機(jī)器人感到不安甚至反感。你可能以前體驗(yàn)過(guò)這種感覺(jué)–可能是在看CGI動(dòng)畫電影或玩電子游戲的時(shí)候。這個(gè)動(dòng)畫人可能看起來(lái)幾乎是真實(shí)的,但看起來(lái)“幾乎是人”和“完全是人”之間的細(xì)微鴻溝會(huì)讓你感到不舒服,甚至令人反感。)的更高水平的現(xiàn)實(shí)感是至關(guān)重要的[45]。建立一個(gè)照片真實(shí)感的化身需要藝術(shù)家的許多手工作品,或者在受控環(huán)境下昂貴的捕獲系統(tǒng)[14,21,49],這限制了訪問(wèn)并增加了成本。因此,以最小的前提(例如自拍)革新重建技術(shù)對(duì)于未來(lái)的數(shù)字人類應(yīng)用是至關(guān)重要的。
最近從一張圖像重建的人體模型結(jié)合了之前特定類別的數(shù)據(jù)和圖像觀察[72,31,66]。其中,基于模板的方法[32,34,67,3,9]仍然存在保真度不足和難以支持服裝變化的問(wèn)題;而非參數(shù)重建方法[55,75,56,23],例如使用隱式曲面函數(shù),盡管保真度令人印象深刻,但不能提供直觀的方式來(lái)使重建的化身動(dòng)畫化。在最近的工作ARCH[26]中,作者提出在規(guī)范空間中使用像素對(duì)齊的隱函數(shù)[55]來(lái)重建非參數(shù)人體模型,其中所有重建的化身都被變換成一個(gè)共同的姿勢(shì)。為此,利用參數(shù)化人體模型來(lái)確定變換。通過(guò)從底層身體模型傳輸蒙皮權(quán)重(其編碼每個(gè)頂點(diǎn)受每個(gè)軀干關(guān)節(jié)的變換的影響程度),可以對(duì)重建結(jié)果進(jìn)行動(dòng)畫處理。然而,我們觀察到參數(shù)化人體模型和像素對(duì)齊隱式函數(shù)的優(yōu)勢(shì)沒(méi)有被充分利用。
在本文中,我們介紹了ARCH++,它重新回顧了從圖像重建可動(dòng)畫化化身的主要步驟,并解決了先前工作的公式和表示中的局限性。首先,目前基于隱函數(shù)的方法主要使用手工制作的特征作為三維空間表示,存在深度模糊和缺乏人體語(yǔ)義信息的問(wèn)題。為了解決這個(gè)問(wèn)題,我們提出了一種基于PointNet++ [52,53]的端到端幾何編碼器,它表達(dá)性地描述了底層的3D人體。第二,我們發(fā)現(xiàn)獲得規(guī)范空間監(jiān)督的解映射過(guò)程會(huì)導(dǎo)致拓?fù)渥兓?例如,移除自相交區(qū)域),因此關(guān)節(jié)重建無(wú)法在原始設(shè)定空間中獲得相同水平的精度。因此,我們提出了一個(gè)共同監(jiān)督框架,其中占用率是在設(shè)定空間和規(guī)范空間中共同預(yù)測(cè)的,并在跨空間一致性上有額外的約束。這樣,我們兩者都受益:在設(shè)定空間中的監(jiān)督允許預(yù)測(cè)保留原始掃描的所有細(xì)節(jié);而規(guī)范空間重建可以確保重建化身的完整性。最后,基于圖像的化身重建經(jīng)常遭受遮擋區(qū)域的幾何和紋理退化。為了使問(wèn)題更容易處理,我們首先使用圖像平移網(wǎng)絡(luò)來(lái)推斷圖像域中被遮擋區(qū)域的表面法線和紋理,然后使用模制修復(fù)方案來(lái)細(xì)化重建的表面。
在實(shí)驗(yàn)中,我們?cè)谡鎸?shí)感渲染的合成圖像和野外圖像上評(píng)估了ARCH++,性能優(yōu)于基于隱式函數(shù)和公共基準(zhǔn)上的其他設(shè)計(jì)選擇的先前作品。
ARCH++的貢獻(xiàn)包括:1)基于點(diǎn)的隱式函數(shù)幾何編碼器,直接提取人體形狀和姿態(tài)先驗(yàn),高效且無(wú)量化誤差;2)我們首先指出并研究了確定目標(biāo)占用空間的基本問(wèn)題:定態(tài)空間保真度與規(guī)范空間完備性。盡管之前被忽略,但我們概述了不同空間的利弊,并提出了聯(lián)合空間占用場(chǎng)的共同監(jiān)管框架;3)我們發(fā)現(xiàn)基于圖像的表面屬性估計(jì)可以解決視圖不一致重構(gòu)質(zhì)量的公開(kāi)問(wèn)題。我們的模塑-修復(fù)表面精細(xì)化策略生成了360?照片級(jí)真實(shí)感3D化身。4)我們的方法在基于圖像的動(dòng)畫化身重建這一全新的任務(wù)上表現(xiàn)出了更好的性能。
Related Work
基于模板的重建利用參數(shù)化人體模型,例如SCAPE [4]和SMPL [40]來(lái)提供身體形狀和姿態(tài)的強(qiáng)先驗(yàn),以解決不適定問(wèn)題,包括服裝下的身體估計(jì)[69,73]和基于圖像的人體形狀重建[11,37,32,20,35,65,34,67]。雖然這些作品主要關(guān)注的是在不穿衣服的情況下強(qiáng)調(diào)身體形狀,但基于模板的表示后來(lái)擴(kuò)展到用最小身體[51]或外部衣服模板[10]、3D掃描[68,51]、視頻[2,22]和單個(gè)圖像[1,10,29]的位移來(lái)建模穿衣服的人。當(dāng)這些方法在身體模板網(wǎng)格上構(gòu)建服裝形狀時(shí),重構(gòu)的模型可以很容易地由參數(shù)化身體模型的姿態(tài)參數(shù)驅(qū)動(dòng)。為了解決有限的網(wǎng)格分辨率細(xì)節(jié)的缺乏,最近的工作提出利用2D紫外線地圖[36,3]。然而,由于服裝拓?fù)淇赡軙?huì)明顯偏離下面的身體網(wǎng)格,并且其變化很大,這些基于模板的解決方案無(wú)法捕捉現(xiàn)實(shí)世界中的服裝變化。
非參數(shù)捕捉廣泛用于在受控環(huán)境下從多視圖系統(tǒng)捕捉具有任意拓?fù)涞母叨仍敿?xì)的3D形狀[43,5,61,58,18,62,16,64,59,42]。深度學(xué)習(xí)的最新進(jìn)展通過(guò)支持稀疏視圖輸入[19,25],甚至單目輸入[38]進(jìn)一步推進(jìn)了這一極限。對(duì)于單視圖服裝人體重建,直接回歸方法證明了有希望的結(jié)果,支持各種服裝類型,具有廣泛的形狀表示,包括體素[60,28]、雙向深度圖[17,57]、視覺(jué)外殼[46]和隱式函數(shù)[55,56,23]。特別是,像素對(duì)齊的隱函數(shù)(PIFu)[55]及其后續(xù)工作[56,23]通過(guò)利用神經(jīng)隱函數(shù)[44,12,50]和完全卷積的圖像特征,展示了令人印象深刻的重建結(jié)果。不幸的是,盡管其結(jié)果是高保真的,但由于缺少身體部分的分離和關(guān)節(jié),非參數(shù)重建還不能動(dòng)畫化。最近,IF-Net [13]利用部分點(diǎn)云輸入,并使用潛在體素特征學(xué)習(xí)隱式函數(shù)。與基于圖像的化身重建相比,從點(diǎn)完成可以利用直接提供的強(qiáng)形狀和姿勢(shì)線索,從而跳過(guò)從復(fù)雜圖像中學(xué)習(xí)它們。
混合方法結(jié)合了基于模板的方法和非參數(shù)方法,使我們能夠利用兩者的優(yōu)點(diǎn),即結(jié)構(gòu)先驗(yàn)和對(duì)任意拓?fù)涞闹С帧W罱墓ぷ鱗8]表明,使用SMPL模型作為指導(dǎo),顯著提高了來(lái)自RGB-D輸入的非剛性融合的魯棒性。對(duì)于單視角人體重建,Zheng等人首先引入了模板-模型(SMPL)和非參數(shù)形狀表示(體素[75]和隱式表面[74])的混合方法。然而,這些方法選擇用于形狀建模的輸入視圖空間,其中重構(gòu)的身體部分潛在地粘在一起,使得重構(gòu)難以像前述非參數(shù)方法那樣動(dòng)畫化。與我們的工作最相關(guān)的是ARCH [26],其中重建的穿著衣服的人類已經(jīng)準(zhǔn)備好動(dòng)畫,因?yàn)橄袼貙?duì)齊的隱式函數(shù)在未裝箱的規(guī)范空間中建模。然而,這樣的框架從根本上導(dǎo)致了次優(yōu)的重建質(zhì)量。通過(guò)解決隱式函數(shù)的手工空間編碼、原始設(shè)定空間中缺乏監(jiān)管以及遮擋區(qū)域保真度有限的問(wèn)題,我們實(shí)現(xiàn)了準(zhǔn)確性和照片真實(shí)性的顯著提高。
Proposed Methods
我們提出的ARCH++框架使用從粗到精的方案,即通過(guò)學(xué)習(xí)連接空間隱式曲面函數(shù)(見(jiàn)圖2)進(jìn)行初始重建,然后在兩個(gè)空間中進(jìn)行網(wǎng)格細(xì)化(見(jiàn)圖3)。
初始關(guān)節(jié)空間隱式曲面重建概述。該過(guò)程包括三個(gè)部分:I)語(yǔ)義感知幾何編碼器,ii)像素對(duì)齊外觀編碼器和iii)聯(lián)合空間占用估計(jì)器。
Joint-Space Implicit Surface Reconstruction
語(yǔ)義感知幾何編碼器。查詢點(diǎn)的空間特征表示對(duì)于深度隱式函數(shù)至關(guān)重要。雖然通過(guò)堆棧沙漏網(wǎng)絡(luò)[47]的像素對(duì)齊外觀特征已經(jīng)通過(guò)先前的工作[55,56,26,23]證明了其在詳細(xì)的有衣人體重建中的有效性,但是逐點(diǎn)空間編碼的有效設(shè)計(jì)還沒(méi)有得到很好的研究。提取的幾何特征應(yīng)該被告知潛在的三維人體的語(yǔ)義,這提供了強(qiáng)有力的先驗(yàn)知識(shí)來(lái)規(guī)范整個(gè)穿著的人的形狀。
以前使用的空間編碼方法包括手工制作的特征(例如,徑向基函數(shù)( Radial Basis Function, RBF)[26])和潛在體素特征[13,23,74]。前者是基于查詢點(diǎn)和身體關(guān)節(jié)之間的歐幾里德距離構(gòu)建的,忽略形狀。基于體素的特征捕捉參數(shù)化身體網(wǎng)格的形狀和姿態(tài)先驗(yàn)。與手工制作的特征相比,端到端學(xué)習(xí)的體素特征更好地了解底層身體結(jié)構(gòu),但通常受到圖形處理器內(nèi)存大小的限制,并且由于空間分辨率低而遭受量化誤差。為了在不損失精度的情況下有效地編碼形狀和姿態(tài)先驗(yàn),我們提出了一種新的語(yǔ)義感知幾何編碼器,它提取點(diǎn)狀空間編碼。本質(zhì)上,一個(gè)參數(shù)化的身體網(wǎng)格可以被采樣成一個(gè)點(diǎn)云,并被輸入PointNet++ [52,53]來(lái)學(xué)習(xí)基于點(diǎn)的空間特征,這比手工制作的徑向基函數(shù)特征和基于體素的特征都有幾個(gè)優(yōu)點(diǎn)。我們的方法編碼參數(shù)形狀的形狀和姿態(tài)先驗(yàn),沒(méi)有計(jì)算開(kāi)銷和網(wǎng)格體素化過(guò)程引起的量化誤差。在[17]中報(bào)告了代表3D形狀的點(diǎn)v.s .體素的附加詳細(xì)統(tǒng)計(jì)比較。
給定由[67,26]估計(jì)和變形的參數(shù)化身體網(wǎng)格,我們使用基于PointNet++ [52,53]的語(yǔ)義感知幾何編碼器來(lái)學(xué)習(xí)底層的3D人體先驗(yàn)。我們從身體網(wǎng)格表面采樣N0(e.g., 7324)點(diǎn),并將它們饋送到幾何編碼器用于空間特征學(xué)習(xí),也就是說(shuō),
fpn:{x0i}i=1N0?{x1j,h1j}j=1N1,{x2k,h2k}k=1N2,{x3l,h3l}l=1N3,(1)\small \begin {aligned} f_{pn}:\{x_0^i\}_{i=1}^{N_0} \mapsto \{x_1^j,h_1^j\}_{j=1}^{N_1},\{x_2^k,h_2^k\}_{k=1}^{N_2},\{x_3^l,h_3^l\}_{l=1}^{N_3}, \end {aligned} (1) fpn?:{x0i?}i=1N0???{x1j?,h1j?}j=1N1??,{x2k?,h2k?}k=1N2??,{x3l?,h3l?}l=1N3??,?(1)
其中x_0i_是從參數(shù)體網(wǎng)格采樣的點(diǎn)。基于PointNet++的編碼器利用完全連接的層和鄰域最大池來(lái)提取點(diǎn)的語(yǔ)義感知幾何特征h∈R32。它還應(yīng)用最遠(yuǎn)點(diǎn)采樣對(duì)N1= 2048、N2= 512、N3 = 128的點(diǎn)進(jìn)行漸進(jìn)下采樣,以提取感受野不斷增加的潛在特征。例如{ xj 1 }是大小為N1的下采樣點(diǎn)集,hj1∈R32是每個(gè)點(diǎn)的學(xué)習(xí)特征。
如圖2所示,對(duì)于規(guī)范空間中的任何查詢點(diǎn)pa∈R3,我們通過(guò)基于逆L2范數(shù)核的特征插值獲得它的點(diǎn)態(tài)空間編碼fg∈R96,然后是查詢坐標(biāo)連接的多層感知器(MLP)。特別地,我們從不同的點(diǎn)集密度-j,k,l中提取這些特征來(lái)構(gòu)造級(jí)聯(lián)特征fg= (fjg⊕fkg⊕flg),這些級(jí)聯(lián)特征被告知多尺度結(jié)構(gòu)。例如,fjg∈R32定義為:
fgj(pa,{x1j,h1j})=MLP(pa⊕∑m∥pa?x1m∥?2S(pa,{x1j,h1j})h1m),S(pa,{x1j,h1j})=∑m∥pa?x1m∥?2,(2)\small \begin {aligned} f_g^j(p_a, \{x_1^j,h_1^j\}) &= \text {MLP}(p_a \oplus \sum _{m} \frac {\left \| p_a - x_1^m \right \|^{-2}}{S(p_a, \{x_1^j,h_1^j\})}h_1^m),\\ S(p_a, \{x_1^j,h_1^j\}) &= \sum _{m} \left \| p_a - x_1^m \right \|^{-2}, \end {aligned} (2) fgj?(pa?,{x1j?,h1j?})S(pa?,{x1j?,h1j?})?=MLP(pa?⊕m∑?S(pa?,{x1j?,h1j?})∥pa??x1m?∥?2?h1m?),=m∑?∥pa??x1m?∥?2,?(2)
其中通過(guò)在查詢點(diǎn)的點(diǎn)集{ xj 1}中找到K個(gè)最近的鄰居來(lái)確定索引。根據(jù)經(jīng)驗(yàn),我們發(fā)現(xiàn)設(shè)置k=3可以獲得相當(dāng)好的性能。分別利用 {xk2,hk2}和{xl3,hl3}類似地獲得在其他點(diǎn)設(shè)置密度f(wàn)kg、flg∈R32提取的特征。
像素對(duì)齊外觀編碼器。我們采用與[55,56,26,23]相同的架構(gòu)設(shè)計(jì),通過(guò)加權(quán)為μ的堆疊沙漏網(wǎng)絡(luò)[47],將輸入圖像I∈R512×512×3映射到潛在特征映射ψ(I)∈R128×128×256。為了獲得任意查詢點(diǎn)pb∈R3在姿態(tài)空間中的外觀編碼a∈R256,我們基于弱透視投影的攝像機(jī)模型將其投影回圖像平面,并對(duì)潛在圖像特征進(jìn)行雙線性插值:
fa(pb,I)=B(ψμ(I),π(pb)),(3)\small \begin {aligned} f_a(p_b,I) = \mathcal {B}(\psi _{\mu }(I), \pi (p_b)), \end {aligned} (3) fa?(pb?,I)=B(ψμ?(I),π(pb?)),?(3)
其中B(·)表示可微雙線性采樣操作,π(·)表示從查詢點(diǎn)pb到 I 的像平面的弱透視相機(jī)投影。
聯(lián)合空間占用估計(jì)器。雖然大多數(shù)非參數(shù)和混合方法使用設(shè)定的空間作為學(xué)習(xí)和推理的目標(biāo)空間,但是ARCH在規(guī)范空間中直接重建穿衣服的人體網(wǎng)格,其中人體處于標(biāo)準(zhǔn)化的A形姿勢(shì)。目標(biāo)空間的不同選擇各有利弊。設(shè)定的空間自然地與輸入像素證據(jù)對(duì)齊,因此重建利用直接的圖像特征對(duì)應(yīng)具有高數(shù)據(jù)保真度。因此,許多工作選擇在其原始設(shè)定的空間中重建有衣人體網(wǎng)格(例如,PIFu(HD)[55,56],Geo-PIFu [23],PaMIR [74])。然而,在許多情況下,人可以展示復(fù)雜的自我交叉姿勢(shì)(例如,雙手放在口袋里,交叉手臂),導(dǎo)致難以表達(dá)的“粘合”網(wǎng)狀結(jié)構(gòu)。與此同時(shí),規(guī)范的姿態(tài)重建為我們提供了一個(gè)動(dòng)畫就緒的裝配網(wǎng)格(通過(guò)其注冊(cè)的A形參數(shù)網(wǎng)格[26])。使用規(guī)范空間作為目標(biāo)空間的問(wèn)題是,當(dāng)我們將網(wǎng)格扭曲到其設(shè)定的空間中時(shí),可能會(huì)出現(xiàn)像相交表面和扭曲身體部分這樣的偽影(見(jiàn)圖6)。因此,扭曲得到的規(guī)范拓?fù)淇臻g網(wǎng)格的重建保真度將退化。為了保持輸入圖像的保真度和重建表面的完整性,我們建議學(xué)習(xí)聯(lián)合空間占有率分布。
我們使用關(guān)節(jié)空間定義的占據(jù)圖O來(lái)隱式地表示原始設(shè)定空間和操縱的規(guī)范空間下的3D服裝人類:
O={(pa,pb,oa,ob):pa,pb∈R3,?1≤oa,ob≤1},(4)\small O = \{ (p_a, p_b, o_a, o_b):\; p_a,p_b \in \mathbb {R}^3,\ -1 \leq o_a, o_b \leq 1\}, (4) O={(pa?,pb?,oa?,ob?):pa?,pb?∈R3,??1≤oa?,ob?≤1},(4)
其中θ,β是基于MLP的深度隱式曲面函數(shù)的網(wǎng)絡(luò)權(quán)重。為了從兩個(gè)空間中密集的占用率估計(jì)中重建化身,我們使用Marching Cube[41]分別在oa= τ 和ob=τ (即,τ=0)處提取等值面。
根據(jù)設(shè)定的空間查詢點(diǎn)Pb及其對(duì)應(yīng)的規(guī)范空間點(diǎn)Pa是否在穿著的人體網(wǎng)格內(nèi),由地面真實(shí)關(guān)節(jié)空間占有率O_?_a,O_?_b來(lái)監(jiān)督網(wǎng)絡(luò)輸出Oa,Ob。雖然pa,pb是一對(duì)映射點(diǎn),但它們的地面實(shí)況占用值在所有情況下都不相同。例如,如果姿勢(shì)空間中的原始網(wǎng)格具有自接觸(例如,手在口袋中),則參數(shù)化實(shí)體手部外部和附近的點(diǎn)可能具有o?b>0和o?a<0。即,SemDF定義了兩個(gè)空間之間的密集對(duì)應(yīng)映射,但它們的占有率值不必相同。因此,天真地學(xué)習(xí)一個(gè)空間中的分布,然后將重建扭曲到另一個(gè)姿勢(shì)可能會(huì)導(dǎo)致網(wǎng)格偽影(參見(jiàn)圖6)。這促使我們對(duì)兩個(gè)空間占有率分布進(jìn)行聯(lián)合建模,以保持規(guī)范空間網(wǎng)格的完備性和位姿空間重構(gòu)的保真度。
網(wǎng)格細(xì)化步驟概述。我們的方法利用估計(jì)的法線和紋理,從圖2中細(xì)化最初估計(jì)的關(guān)節(jié)空間網(wǎng)格。
Mesh Refinement
我們通過(guò)添加幾何曲面細(xì)節(jié)和照片級(jí)真實(shí)感紋理來(lái)進(jìn)一步細(xì)化關(guān)節(jié)空間中的重構(gòu)網(wǎng)格。如圖3所示,我們提出了一種模塑修復(fù)方案,該方案利用在圖像空間中估計(jì)的正面和背面法線和紋理。這是基于這樣的觀察,即使用深度隱式函數(shù)(如[26])直接學(xué)習(xí)和推斷密集的法線/色場(chǎng)通常會(huì)導(dǎo)致過(guò)度平滑的模糊圖案和塊偽影(參見(jiàn)圖5)。相比之下,法線和紋理貼圖的圖像空間估計(jì)會(huì)產(chǎn)生精細(xì)細(xì)節(jié)的清晰結(jié)果,并且對(duì)人體姿勢(shì)和形狀的變化具有很強(qiáng)的魯棒性。這些好處來(lái)自設(shè)計(jì)良好的2D卷積深度網(wǎng)絡(luò)(例如,Pix2Pix[27,63])和高級(jí)(對(duì)抗性)圖像生成訓(xùn)練方案,如GAN,但有感知損失。圖像空間估計(jì)的法線(和紋理)貼圖可以兩種不同的方式使用。它們既可以作為單視圖圖像的附加通道直接輸入到堆棧沙漏中,也可以用作基于造型的正面和背面網(wǎng)格細(xì)化采樣源。在實(shí)驗(yàn)中,我們對(duì)這兩種方案進(jìn)行了燒蝕研究(即早期的直接輸入和后期的表面細(xì)化),并證明了我們的基于模塑的細(xì)化在保持不同視圖的精細(xì)表面細(xì)節(jié)方面更好(見(jiàn)圖8)。
姿態(tài)空間。對(duì)于Marching Cube在原始姿態(tài)空間中獲得的服裝人體網(wǎng)格,我們進(jìn)行可見(jiàn)性跟蹤,以確定頂點(diǎn)V∈R3是否應(yīng)該投影到正面或背面,以便對(duì)法線/紋理貼圖進(jìn)行雙線性采樣。本質(zhì)上,這是一個(gè)基于造型的網(wǎng)格優(yōu)化過(guò)程,用于表面細(xì)節(jié)和紋理增強(qiáng)。我們首先進(jìn)行正常的細(xì)化。
請(qǐng)注意,對(duì)于其未細(xì)化法線n∈R3與輸入圖像平面接近平行(即在ε度內(nèi))的頂點(diǎn),我們將其投影到正面和背面法線貼圖Ifn,Inb∈R512×512×3。然后,我們可以通過(guò)線性混合融合來(lái)計(jì)算精化的曲面法線n‘∈R3:
n′=χ(1?α′)B(Inf,π(V))+χ(α′)B(Inb,π(V)),α′=(90°+ε?α)/(2ε),(6)\small \begin {aligned} \mathbf {n}' &= \chi (1-\alpha ')\,\mathcal {B}(I_{n}^f,\pi (V)) + \chi (\alpha ')\,\mathcal {B}(I_{n}^b,\pi (V)),\\ \alpha ' &= (90^{\circ } + \varepsilon - \alpha )/(2\varepsilon ),\\ \end {aligned} (6) n′α′?=χ(1?α′)B(Inf?,π(V))+χ(α′)B(Inb?,π(V)),=(90°+ε?α)/(2ε),?(6)
其中α是未細(xì)化法線和前向攝影機(jī)光線投射之間的角度,α’是α的規(guī)格化值。同樣,B(·)表示雙線性采樣操作。指示函數(shù)χ(·)確定從正面和背面采樣的法線的混合權(quán)重:
χ(α′)=min?(max?(α′,0),1)(7)\small \chi ({\alpha }') = \min (\max ({\alpha }',\, 0),\, 1) (7) χ(α′)=min(max(α′,0),1)(7)
這種簡(jiǎn)單而有效的融合方案創(chuàng)建了一個(gè)具有可以忽略的混合邊界偽影的歸一化細(xì)化網(wǎng)格。有了精化的曲面法線,我們可以進(jìn)一步應(yīng)用泊松曲面重構(gòu)[33]來(lái)更新網(wǎng)格拓?fù)?#xff0c;但在實(shí)踐中我們發(fā)現(xiàn)這是不必要的,因?yàn)樵煨途幕硪呀?jīng)可以滿足各種AR/VR和新視圖渲染應(yīng)用。DeepHuman[75]中也使用了這種凹凸渲染的想法,但他們只使用前視圖來(lái)優(yōu)化網(wǎng)格。我們進(jìn)一步以類似的方式進(jìn)行紋理細(xì)化,但使用細(xì)化的法線來(lái)幫助確定邊界頂點(diǎn)的線性混合權(quán)重。我們基于造型的正面/背面法線和紋理優(yōu)化方法生成衣物人體網(wǎng)格,這些網(wǎng)格在不同的視點(diǎn)下看起來(lái)像照片一樣逼真,具有全身表面細(xì)節(jié)(例如,衣服皺紋、頭發(fā))。
規(guī)范空間。重建的規(guī)范空間化身被操縱,因此可以扭曲回其姿勢(shì)空間,然后通過(guò)上述相同的管道進(jìn)行精煉。然而,規(guī)范化身優(yōu)化的一個(gè)獨(dú)特挑戰(zhàn)是,此空間中的網(wǎng)格重建可能會(huì)在姿態(tài)空間下包含不可見(jiàn)的曲面。例如,在圖5的第三行中,折疊的手臂在姿勢(shì)空間中與胸部接觸,但在規(guī)范空間中展開(kāi)。因此,我們沒(méi)有標(biāo)準(zhǔn)網(wǎng)格胸部區(qū)域的直接法線/紋理對(duì)應(yīng)。為了解決這個(gè)問(wèn)題,我們用不完整的法線和紋理繪制標(biāo)準(zhǔn)網(wǎng)格的正面和背面圖像,并將其視為修復(fù)任務(wù)。這個(gè)問(wèn)題已經(jīng)使用深度神經(jīng)網(wǎng)絡(luò)[70,71]和基于補(bǔ)丁匹配的方法[7,6,24]進(jìn)行了很好的研究。我們使用PatchMatch[6]作為它的健壯性。如圖5的最后兩列所示,與直接回歸逐點(diǎn)法線和紋理相比,我們基于修復(fù)的結(jié)果獲得了更清晰的細(xì)節(jié)和更少的偽像。
總結(jié)
這篇論文關(guān)于人體重建的最后結(jié)果很不錯(cuò),但是最棒的的還是重建的結(jié)果能夠直接動(dòng)畫驅(qū)動(dòng),能夠?qū)⑷梭w重建的結(jié)果應(yīng)用于實(shí)踐當(dāng)中。
復(fù)的結(jié)果獲得了更清晰的細(xì)節(jié)和更少的偽像。
總結(jié)
這篇論文關(guān)于人體重建的最后結(jié)果很不錯(cuò),但是最棒的的還是重建的結(jié)果能夠直接動(dòng)畫驅(qū)動(dòng),能夠?qū)⑷梭w重建的結(jié)果應(yīng)用于實(shí)踐當(dāng)中。
總結(jié)
- 上一篇: 教育的未来,会是什么样子?
- 下一篇: 自然语言处理 # 中文分词技术 概述