3D Human相关研究总结:人体、姿态估计、人体重建等
?PaperWeekly 原創(chuàng) ·?作者|張瑩
單位|騰訊
本文簡(jiǎn)要介紹與 3D 數(shù)字人相關(guān)的研究,包括常用 3D 表示、常用 3D 人體模型、3D 人體姿態(tài)估計(jì),帶衣服 3D 人體重建,3D 衣服建模,以及人體動(dòng)作驅(qū)動(dòng)等。
常用3D表示
目前 3D 學(xué)習(xí)中,物體或場(chǎng)景的表示包括顯式表示與隱式表示兩種,主流的顯式表示包括基于 voxel、基于 point cloud、和基于 polygon mesh 三種,隱式表示包括基于 Occupancy Function [1]、和基于 Signed Distance Functions [2] 兩種。下表簡(jiǎn)要總結(jié)了各種表示方法的原理及其相應(yīng)優(yōu)缺點(diǎn)。
1.1 Voxel
表示圖像:
表示原理:體素用規(guī)則的立方體表示 3D 物體,體素是數(shù)據(jù)在三維空間中的最小分割單位,類似于 2D 圖像中的像素。
優(yōu)缺點(diǎn):
+ 規(guī)則表示,容易送入網(wǎng)絡(luò)學(xué)習(xí)
+ 可以處理任意拓?fù)浣Y(jié)構(gòu)
- 隨著分辨率增加,內(nèi)存呈立方級(jí)增長(zhǎng)
- 物體表示不夠精細(xì)
- 紋理不友好
1.2 Point Cloud
表示圖像:
表示原理:點(diǎn)云將多面體表示為三維空間中點(diǎn)的集合,一般用激光雷達(dá)或深度相機(jī)掃描后得到點(diǎn)云數(shù)據(jù)。
優(yōu)缺點(diǎn):
+ 容易獲取
+ 可以處理任意拓?fù)浣Y(jié)構(gòu)
- 缺少點(diǎn)與點(diǎn)之間連接關(guān)系
- 物體表示不夠精細(xì)
- 紋理不友好
1.3 Polygon Mesh
表示圖像:
表示原理:多邊形網(wǎng)格將多面體表示為頂點(diǎn)與面片的集合,包含了物體表面的拓?fù)湫畔ⅰ?/p>
優(yōu)缺點(diǎn):
+ 高質(zhì)量描述 3D 幾何結(jié)構(gòu)
+ 內(nèi)存占有較少
+ 紋理友好
- 不同物體類別需要不同的 mesh 模版
- 網(wǎng)絡(luò)較難學(xué)習(xí)
1.4 Occupancy Function
表示圖像:
表示原理:occupancy function 將物體表示為一個(gè)占有函數(shù),即空間中每個(gè)點(diǎn)是否在表面上。
優(yōu)缺點(diǎn):
+ 可以精細(xì)建模細(xì)節(jié),理論上分辨率無(wú)窮
+ 內(nèi)存占有少
+ 網(wǎng)絡(luò)較易學(xué)習(xí)
- 需后處理得到顯式幾何結(jié)構(gòu)
1.5 Signed Distance Function
表示圖像:
表示原理:SDF 將物體表示為符號(hào)距離函數(shù),即空間中每個(gè)點(diǎn)距離表面的距離。
優(yōu)缺點(diǎn):
+ 可以精細(xì)建模細(xì)節(jié),理論上分辨率無(wú)窮
+ 內(nèi)存占有少
+ 網(wǎng)絡(luò)較易學(xué)習(xí)
- 需后處理得到顯式幾何結(jié)構(gòu)
常用3D人體模型
目前常用的人體參數(shù)化表示模型為德國(guó)馬克斯?普朗克研究所提出的 SMPL [3],該模型采用 6890 個(gè)頂點(diǎn)(vertices), 和 13776 ?個(gè)面片(faces)定義人體 template mesh,并采用 10 維參數(shù)向量控制人體 shape,24 個(gè)關(guān)節(jié)點(diǎn)旋轉(zhuǎn)參數(shù)控制人體 pose,其中每個(gè)關(guān)節(jié)點(diǎn)旋轉(zhuǎn)參數(shù)采用 3 維向量來(lái)表示該關(guān)節(jié)相對(duì)其父關(guān)節(jié)分別沿著 x, y, z 軸的旋轉(zhuǎn)角。
該研究所在 CVPR 2019 上提出 SMPL-X [4],采用了更多頂點(diǎn)來(lái)精細(xì)建模人體,并加入了面部表情和手部姿態(tài)的參數(shù)化控制。這兩篇工作給出了規(guī)范的、通用的、可以與工業(yè) 3D 軟件如 Maya 和 Unity 相通的人體參數(shù)化表示,并提出了一套簡(jiǎn)單有效的蒙皮策略,使得人體表面的頂點(diǎn)跟隨關(guān)節(jié)旋轉(zhuǎn)運(yùn)動(dòng)時(shí)不會(huì)產(chǎn)生明顯瑕疵。
近年來(lái)也有不少改進(jìn)的人體模型,如 SoftSMPL [5],STAR [6],BLSM [7],GHUM [8] 等。
2.1 SMPL
基本表示:
mesh 表示:6890 vertices, 13776 faces
pose 控制:24 個(gè)關(guān)節(jié)點(diǎn),24*3 維旋轉(zhuǎn)向量
shape 控制:10 維向量
示意圖:
2.2 SMPL-X
基本表示:
mesh 表示:10475 vertices, 20908 faces
pose 控制:身體 54 個(gè)關(guān)節(jié)點(diǎn),75 維 PCA
手部控制:24 維 PCA
表情控制:10 維向量
shape 控制:10 維向量
示意圖:
3D人體姿態(tài)估計(jì)
3D 人體姿態(tài)估計(jì)是指從圖像、視頻、或點(diǎn)云中估計(jì)人物目標(biāo)的體型(shape)和姿態(tài)(pose),是圍繞人體 3D 研究中的一項(xiàng)基本任務(wù)。3D 人體姿態(tài)估計(jì)是 3D 人體重建的重要前提,也可以是人體動(dòng)作驅(qū)動(dòng)中動(dòng)作的重要來(lái)源。目前很多 3D 姿態(tài)估計(jì)算法主要是估計(jì)場(chǎng)景中人體的 SMPL 參數(shù)。
根據(jù)場(chǎng)景不同,可以分為針對(duì)單張圖像和針對(duì)動(dòng)態(tài)視頻的人體 3D 姿態(tài)估計(jì)。下表簡(jiǎn)要總結(jié)了目前兩種場(chǎng)景下的一些代表工作,并給出了一些簡(jiǎn)要原理介紹和評(píng)價(jià)。
3.1 單張圖像
代表工作:
Keep it SMPL: Automatic Estimation of 3D Human Pose and Shape from a Single Image. In ECCV, 2016.
End-to-end Recovery of Human Shape and Pose. In CVPR, 2018.
Learning to Estimate 3D Human Pose and Shape from a Single Color Image. In CVPR, 2018.
Delving Deep into Hybrid Annotations for 3D Human Recovery in the Wild. In ICCV, 2019.
SPIN: Learning to reconstruct 3d human pose and shape via model-fitting in the loop. In ICCV, 2019.
I2L-MeshNet: Image-to-Lixel Prediction Network for Accurate 3D Human Pose and Mesh Estimation from a Single RGB Image. In ECCV, 2020.
Learning 3D Human Shape and Pose from Dense Body Parts. In TPAMI, 2020.
ExPose: Monocular Expressive Body Regression through Body-Driven Attention. In ECCV, 2020.
Hierarchical Kinematic Human Mesh Recovery. In ECCV, 2020.
Pose2Mesh: Graph Convolutional Network for 3D Human Pose and Mesh Recovery from a 2D Human Pose. In ECCV, 2020.
原理及評(píng)價(jià):
主要思路:估計(jì) SMPL 參數(shù),加入 2D keypoint loss,adversarial loss,silhouette loss 等;有 3D 真值時(shí)可以加入 SMPL 參數(shù)真值、Mesh 真值、3D joint 真值約束;融合 regression-based 和 optimization-based 方法協(xié)作提升;從估計(jì) SMPL 估計(jì)更精細(xì)的 SMPL-X,對(duì)手部和頭部強(qiáng)化處理;
目前挑戰(zhàn):現(xiàn)實(shí)場(chǎng)景缺乏真值數(shù)據(jù),如何產(chǎn)生有用的監(jiān)督信號(hào)或 pseudo ground-truth 來(lái)幫助訓(xùn)練;合成數(shù)據(jù)有真值但存在 domain gap,如何有效利用合成數(shù)據(jù)來(lái)幫助真實(shí)場(chǎng)景訓(xùn)練;目前很多方法估計(jì)結(jié)果在人體深度、肢體末端如手部和腳部還存在偏差,對(duì)復(fù)雜姿勢(shì)估計(jì)結(jié)果仍不夠準(zhǔn)確;
3.2 動(dòng)態(tài)視頻
代表工作:
Learning 3D Human Dynamics from Video. In CVPR, 2019.
Monocular Total Capture: Posing Face, Body, and Hands in the Wild. In CVPR, 2019.
Human Mesh Recovery from Monocular Images via a Skeleton-disentangled Representation. In ICCV, 2019.
VIBE: Video Inference for Human Body Pose and Shape Estimation. In CVPR, 2020.
PoseNet3D: Learning Temporally Consistent 3D Human Pose via Knowledge Distillation. In CVPR, 2020.
Appearance Consensus Driven Self-Supervised Human Mesh Recovery. In ECCV, 2020.
原理及評(píng)價(jià):
主要思路:估計(jì)單幀 SMPL 參數(shù)基礎(chǔ)上加入幀間連續(xù)性和穩(wěn)定性約束;幀間聯(lián)合優(yōu)化;appearance 一致性約束。
目前挑戰(zhàn):幀間連續(xù)性和穩(wěn)定性約束會(huì)對(duì)動(dòng)作產(chǎn)生平滑效果,導(dǎo)致每一幀都不是很準(zhǔn)確;估計(jì)出來(lái)的結(jié)果仍會(huì)存在漂浮、抖動(dòng)、滑步等問(wèn)題。
3D人體重建
近年來(lái)與 3D 人體重建相關(guān)的工作很多,按照上述 3D 表示形式可分為基于 Voxel 表示、基于 Mesh 表示和基于 Implicit function 表示;按照輸入形式可分為:基于單張圖像、多視角圖像和基于視頻輸入,這些輸入都可以帶有深度信息或無(wú)深度信息;按照重建效果可以分為帶紋理重建和不帶紋理重建,能直接驅(qū)動(dòng)和不能直接驅(qū)動(dòng)等等。
4.1 單張RGB圖像
重建效果:
+ 帶衣服褶皺
+ 帶紋理
+ 能直接驅(qū)動(dòng)
代表工作:
360-Degree Textures of People in Clothing from a Single Image. In 3DV, 2019.
Tex2Shape: Detailed Full Human Body Geometry From a Single Image. In ICCV, 2019.
ARCH: Animatable Reconstruction of Clothed Humans. In CVPR, 2020.
3D Human Avatar Digitization from a Single Image. In VRCAI, 2019.
基本原理及評(píng)價(jià):
帶衣服人體表示:SMPL+Deformation+Texture;
思路1:估計(jì) 3D pose 采樣部分紋理,再用 GAN 網(wǎng)絡(luò)生成完整紋理和displacement;
思路2:估計(jì) 3D pose 并 warp 到 canonical 空間中用 PIFU 估計(jì) Occupancy;
優(yōu)勢(shì):可直接驅(qū)動(dòng),生成紋理質(zhì)量較高;
問(wèn)題:過(guò)度依賴掃描 3D 人體真值來(lái)訓(xùn)練網(wǎng)絡(luò);需要非常準(zhǔn)確的 Pose 估計(jì)做先驗(yàn);較難處理復(fù)雜形變?nèi)玳L(zhǎng)發(fā)和裙子;
重建效果:
+ 帶衣服褶皺
+ 帶紋理
- 不能直接驅(qū)動(dòng)
代表工作:
PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization. In ICCV, 2019.
PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization. In CVPR, 2020.
SiCloPe: Silhouette-Based Clothed People. In CVPR, 2019.
PaMIR: Parametric Model-Conditioned Implicit Representation for Image-based Human Reconstruction. In TPAMI, 2020.
Reconstructing NBA Players. In ECCV, 2020.
基本原理及評(píng)價(jià):
帶衣服人體表示:Occupancy + RGB;
思路1:訓(xùn)練網(wǎng)絡(luò)提取空間點(diǎn)投影到圖像位置的特征,并結(jié)合該點(diǎn)位置預(yù)測(cè)其 Occupancy 值和 RGB 值;
優(yōu)勢(shì):適用于任意 pose,可建模復(fù)雜外觀如長(zhǎng)發(fā)裙子
問(wèn)題:過(guò)度依賴掃描 3D 人體真值來(lái)訓(xùn)練網(wǎng)絡(luò);后期需要注冊(cè) SMPL 才能進(jìn)行驅(qū)動(dòng);紋理質(zhì)量并不是很高;
重建效果:
+ 帶衣服褶皺
- 不帶紋理
- 不能直接驅(qū)動(dòng)
代表工作:
BodyNet: Volumetric Inference of 3D Human Body Shapes. In ECCV, 2018.
DeepHuman: 3D Human Reconstruction From a Single Image. In ICCV, 2019.
基本原理及評(píng)價(jià):
帶衣服人體表示:voxel grid occupancy;
思路1:預(yù)測(cè) voxel grid 每個(gè)格子是否在 body 內(nèi)部;
優(yōu)勢(shì):適用于任意 pose,可建模復(fù)雜外觀如長(zhǎng)發(fā)裙子
問(wèn)題:需要另外估紋理;分辨率較低;過(guò)度依賴掃描 3D 人體真值來(lái)訓(xùn)練網(wǎng)絡(luò);后期需要注冊(cè) SMPL 才能進(jìn)行驅(qū)動(dòng);
4.2 多視角RGB圖像
重建效果:
+ 帶衣服褶皺
+ 帶紋理
- 不能直接驅(qū)動(dòng)
代表工作:
Deep Volumetric Video From Very Sparse Multi-View Performance Capture. In ECCV, 2018.
PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization. In ICCV, 2019.
PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization. In CVPR, 2020.
基本原理及評(píng)價(jià):
帶衣服人體表示:Occupancy + RGB;
思路:多視角 PIFU;
優(yōu)勢(shì):多視角信息預(yù)測(cè)更準(zhǔn)確;適用于任意 pose;可建模復(fù)雜外觀如長(zhǎng)發(fā)和裙子;
問(wèn)題:多視角數(shù)據(jù)較難采集,過(guò)度依賴掃描 3D 人體真值來(lái)訓(xùn)練網(wǎng)絡(luò);后期需要注冊(cè) SMPL 才能進(jìn)行驅(qū)動(dòng);紋理質(zhì)量并不是很高;
4.3 單張RGBD圖像
重建效果:
+ 帶衣服褶皺
+ 帶紋理
- 不能直接驅(qū)動(dòng)
代表工作:
NormalGAN: Learning Detailed 3D Human from a Single RGB-D Image. In ECCV, 2020.
基本原理及評(píng)價(jià):
帶衣服人體表示:3D point cloud + triangulation;
思路:GAN 網(wǎng)絡(luò)生成 front-view 和 back-view 的 depth 和 color,再用 triangulation 得到 mesh;
優(yōu)勢(shì):適用于任意 pose;可建模復(fù)雜外觀如長(zhǎng)發(fā)和裙子;
問(wèn)題:過(guò)度依賴掃描 3D 人體真值來(lái)訓(xùn)練網(wǎng)絡(luò);后期需要注冊(cè) SMPL 才能進(jìn)行驅(qū)動(dòng);紋理質(zhì)量并不是很高;
4.4 RGB視頻輸入
重建效果:
+ 帶衣服褶皺
+ 帶紋理
+ 能直接驅(qū)動(dòng)
代表工作:
Video Based Reconstruction of 3D People Models. In CVPR, 2018.
Detailed Human Avatars from Monocular Video. In 3DV, 2018.
Learning to Reconstruct People in Clothing from a Single RGB Camera. In CVPR, 2019.
Multi-Garment Net: Learning to Dress 3D People from Images. In ICCV, 2019.
基本原理及評(píng)價(jià):
帶衣服人體表示:SMPL+Deformation+Texture;
思路1:多幀聯(lián)合估計(jì) canonical T-pose 下的 SMPL+D,投影回每幀提取紋理融合;
優(yōu)勢(shì):可直接驅(qū)動(dòng);生成紋理質(zhì)量較高;簡(jiǎn)單場(chǎng)景下效果較好;
問(wèn)題:過(guò)度依賴掃描 3D 人體真值來(lái)訓(xùn)練網(wǎng)絡(luò);需要較準(zhǔn)確的 Pose 估計(jì)和 human parsing 做先驗(yàn);較難處理復(fù)雜形變?nèi)玳L(zhǎng)發(fā)裙子
重建效果:
+ 帶衣服褶皺
- 不帶紋理
- 不能直接驅(qū)動(dòng)
代表工作:
MonoClothCap: Towards Temporally Coherent Clothing Capture from Monocular RGB Video. In 3DV, 2020.
基本原理及評(píng)價(jià):
帶衣服人體表示:SMPL+Deformation;
思路:每幀估計(jì) SMPL 參數(shù)并聯(lián)合多幀優(yōu)化得到穩(wěn)定 shape 和每幀 pose,為不同衣服建模形變參數(shù)化模型,約束 Silhouette, Clothing segmentation, Photometric, normal 等信息一致
優(yōu)勢(shì):無(wú)需 3D 真值;可以建模較為細(xì)致的衣服形變;
問(wèn)題:依賴較準(zhǔn)確的 pose 和 segmentation 估計(jì);只能處理部分衣服類型;
4.5 RGBD視頻輸入
重建效果:
+ 帶衣服
+ 帶紋理
+ 也許能直接驅(qū)動(dòng)
代表工作:
Robust 3D Self-portraits in Seconds. In CVPR, 2020.
TexMesh: Reconstructing Detailed Human Texture and Geometry from RGB-D Video. In ECCV, 2020.
基本原理及評(píng)價(jià):
帶衣服人體表示:Occupancy+RGB;
思路1:RGBD 版 PIFU 生成每幀先驗(yàn),TSDF(truncated signed distance function)分為 inner model 和 surface layer,PIFusion 做? double layer-based non-rigid tracking,多幀聯(lián)合微調(diào)優(yōu)化得到 3D portrait;
優(yōu)勢(shì):建模較精細(xì),可以處理較大形變?nèi)玳L(zhǎng)發(fā)和裙子;不需要掃描真值;
問(wèn)題:流程略復(fù)雜;紋理質(zhì)量一般;
4.6 Depth視頻輸入
重建效果:
+ 帶衣服褶皺
- 不帶紋理
+ 也許能直接驅(qū)動(dòng)
代表工作:
DoubleFusion: Real-time Capture of Human Performances with Inner Body Shapes from a Single Depth Sensor. In CVPR, 2018.
基本原理及評(píng)價(jià):
帶衣服人體表示:outer layer + inner layer(SMPL)
思路:joint motion tracking, geometric fusion and volumetric shape-pose optimization
優(yōu)勢(shì):建模較精細(xì);速度快,可以實(shí)時(shí);
問(wèn)題:無(wú)紋理;
3D衣服建模
在 3D 人體重建任務(wù)中,衣服一般是用與 template mesh 每個(gè)頂點(diǎn)綁定的 Deformation 來(lái)表示,但這種表示并不能精細(xì)建模衣服的紋理褶皺等細(xì)節(jié),在人物模型運(yùn)動(dòng)起來(lái)時(shí)也會(huì)很不自然。
因此近年來(lái)也有一部分工作將 3D 衣服建模與深度神經(jīng)網(wǎng)絡(luò)結(jié)合,旨在不同 shape 和 pose 情況下,準(zhǔn)確逼真地模擬、預(yù)測(cè)人體衣服的形變。
5.1 TOG 2018
Physics-Inspired Garment Recovery from a Single-View Image. In TOG, 2018.
基本原理:
簡(jiǎn)要評(píng)價(jià):
思路:衣服分割+衣服特征估計(jì)(尺碼,布料,褶皺)+人體 mesh 估計(jì),材質(zhì)-姿態(tài)聯(lián)合優(yōu)化+衣物仿真;
優(yōu)勢(shì):衣服和人體參數(shù)化表示較規(guī)范;引入物理、統(tǒng)計(jì)、幾何先驗(yàn);
問(wèn)題:衣服特征估計(jì)受光照和圖像質(zhì)量影響較大,受限于 garment 模版的豐富程度;需要后期通過(guò)衣物仿真聯(lián)合優(yōu)化來(lái)調(diào)整效果;
5.2?ECCV 2018
DeepWrinkles: Accurate and Realistic Clothing Modeling. In ECCV, 2018.
基本原理:
簡(jiǎn)要評(píng)價(jià):
思路:統(tǒng)計(jì)模型學(xué)習(xí)衣服在某 pose 和 shape 下的大致效果,GAN 模型生成更細(xì)致的褶皺;
優(yōu)勢(shì):用 GAN 可以生成逼真細(xì)致的褶皺;
問(wèn)題:依賴 4D 掃描動(dòng)作序列真值;需提前做好衣服注冊(cè);
5.3?ICCV?2019
Multi-Garment Net: Learning to Dress 3D People from Images. In ICCV, 2019.
基本原理:
簡(jiǎn)要評(píng)價(jià):
思路:human parsing 分割衣服并預(yù)測(cè)類別,估計(jì)衣服 PCA 參數(shù)和細(xì)節(jié) Displacement;
優(yōu)勢(shì):明確 3D scan segmentation 和 Garment registration 的? pipeline;引入 Human parsing 可以得到更準(zhǔn)確的衣服類別;
問(wèn)題:過(guò)度依賴 3D 真值訓(xùn)練;PCA 參數(shù)表示的準(zhǔn)確性依賴 dataset 大小;
5.4?EUROGRAPHICS 2019
Learning-Based Animation of Clothing for Virtual Try-On. In EUROGRAPHICS, 2019.
基本原理:
簡(jiǎn)要評(píng)價(jià):
思路:衣服仿真生成真值幫助網(wǎng)絡(luò)訓(xùn)練,基于 shape 學(xué)習(xí)衣服模版變形,基于 pose 和 shape 學(xué)習(xí)動(dòng)態(tài)褶皺,
優(yōu)勢(shì):衣物仿真可以得到任意 pose 下的大量真值數(shù)據(jù);
問(wèn)題:與現(xiàn)實(shí)數(shù)據(jù)差距較大;依賴衣物模版的豐富程度;直接學(xué)習(xí) defromation 不夠穩(wěn)定,容易穿模需后處理;
5.5?CVPR 2020
TailorNet: Predicting Clothing in 3D as a Function of Human Pose, Shape and Garment Style. In CVPR, 2020.
基本原理:
簡(jiǎn)要評(píng)價(jià):
思路:將衣服形變分為高頻和低頻,低頻部分用網(wǎng)絡(luò)估計(jì)大致形變,高頻部分估計(jì)多個(gè)特定 style-shape 模型,每個(gè)模型負(fù)責(zé)估計(jì)特定形變及加權(quán)權(quán)重;
優(yōu)勢(shì):可以得到較為細(xì)致的衣服褶皺;提出合成數(shù)據(jù)集,仿真 20 件衣服,1782 ?個(gè) pose 和 9 種 shape;
問(wèn)題:在不同 shape 和 style 上訓(xùn)練得到結(jié)果過(guò)于平滑,不夠真實(shí);
5.6?ECCV 2020
BCNet: Learning Body and Cloth Shape from A Single Image. In ECCV, 2020.
基本原理:
簡(jiǎn)要評(píng)價(jià):
思路:基于單張圖像估計(jì) SMPL 參數(shù)和上下身的 Garment 參數(shù),用兩個(gè)網(wǎng)絡(luò)分別估計(jì) displacement 和 skining weight;
優(yōu)勢(shì):對(duì) garment 學(xué)習(xí)蒙皮權(quán)重,動(dòng)起來(lái)可以更自然;garment mesh 與 body ?mesh 不綁定,可以重建更多衣服類別;
問(wèn)題:將衣服分為上下半身,對(duì)連衣裙和長(zhǎng)款不友好;
5.7?ECCV 2020
Deep Fashion3D: A Dataset and Benchmark for 3D Garment Reconstruction from Single Images. In ECCV, 2020.
基本原理:
簡(jiǎn)要評(píng)價(jià):
貢獻(xiàn):提出 Deep Fashion3D 數(shù)據(jù)集,包括 2000 件衣服,10 種類型,標(biāo)記相應(yīng)點(diǎn)云,多視角圖像,3D body pose,和 feature lines;
思路:提出基于單張圖像的 3D 衣服重建,通過(guò)估計(jì)衣服類型,body pose,feature lines 對(duì) adaptable template 進(jìn)行形變;
優(yōu)勢(shì):衣服類型、feature line 估計(jì)可以提供更多 deformation 先驗(yàn);引入 implicit surface 重建更精細(xì);
問(wèn)題:當(dāng)衣服類型與 adaptable template 差距較大時(shí),handle-based Laplcacian deformation 優(yōu)化較難;
人體動(dòng)作驅(qū)動(dòng)
人體動(dòng)作驅(qū)動(dòng)目的是使 3D 人體按照我們預(yù)先設(shè)置的動(dòng)作運(yùn)動(dòng)起來(lái),這里面一般需要考慮兩個(gè)問(wèn)題:人體動(dòng)作怎么來(lái)?怎么驅(qū)動(dòng)人體得到滿意結(jié)果?
動(dòng)作獲取
目前常用的動(dòng)作獲取方法包括手工制作、物理模擬、視頻估計(jì)的和動(dòng)捕采集等,每種策略的詳細(xì)優(yōu)缺點(diǎn)可以參考 [9]。簡(jiǎn)單來(lái)說(shuō),手工制作動(dòng)作可以適用于各種目標(biāo)如人和動(dòng)物,但代價(jià)高昂,依賴于專業(yè)美術(shù)人員的審美;物理模擬方式根據(jù)物理規(guī)則的來(lái)生成動(dòng)作,但一般僅適用于少部分規(guī)則運(yùn)動(dòng);基于視頻估計(jì)的方法代價(jià)最低,但目前技術(shù)很難獲得高質(zhì)量穩(wěn)定動(dòng)作;因此目前對(duì)于只是使用人體動(dòng)作的場(chǎng)景來(lái)說(shuō),動(dòng)捕采集依賴于專業(yè)設(shè)備來(lái)捕捉真實(shí)的演員運(yùn)動(dòng),可以獲得穩(wěn)定的高質(zhì)量動(dòng)作 [10]。
目前也有一些研究工作會(huì)基于深度神經(jīng)網(wǎng)絡(luò)來(lái)生成新動(dòng)作如?PFNN [11]、Dancing to Music [12],或是基于網(wǎng)絡(luò)進(jìn)行動(dòng)作插值來(lái)減輕美術(shù)工作量如 Motion In-Betweening [13],Motion Inpainting [14],或是基于強(qiáng)化學(xué)習(xí)使目標(biāo)人物學(xué)會(huì)做一些動(dòng)作 [15]。
3D人體驅(qū)動(dòng)
一般來(lái)說(shuō),目前常用的動(dòng)作驅(qū)動(dòng)流程是將動(dòng)捕采集數(shù)據(jù)轉(zhuǎn)換為 SMPL 參數(shù),再根據(jù) SMPL 的骨骼結(jié)構(gòu)和蒙皮策略將目標(biāo)人物 repose 到特定姿勢(shì)。對(duì)于角色控制精度要求不高的情況下,直接輸入 SMPL 參數(shù)來(lái)控制動(dòng)作可以滿足大部分需求。
而在要求較高的動(dòng)畫(huà)場(chǎng)景中,或者是驅(qū)動(dòng)其他骨骼結(jié)構(gòu)類似的角色時(shí),因?yàn)榻巧g的骨骼長(zhǎng)度,體型等會(huì)存在差異,只是輸入?yún)?shù)控制會(huì)產(chǎn)生一些問(wèn)題如動(dòng)作不能做到位,產(chǎn)生穿模等等。因此,目前也有一些研究工作探索不同骨骼結(jié)構(gòu)之間的 motion retargeting,如 [16, 17, 18] 等。
人體動(dòng)作遷移
另外值得一提的是,只是進(jìn)行動(dòng)作遷移也可以不需要對(duì)角色進(jìn)行顯式的 3D 建模,目前常用策略是采用 GAN 網(wǎng)絡(luò)基于 2D/3D 姿態(tài)參數(shù)來(lái)生成動(dòng)作遷移后的目標(biāo)圖像或視頻,如 Dense Pose Transfer [19],Everybody Dance Now [20],LWGAN [21], Few-shot vid2vid [22],TransMoMo [23] 等等。
總的來(lái)說(shuō),基于 3D 目標(biāo)重建的動(dòng)作遷移的優(yōu)勢(shì)在于可以泛化到各種動(dòng)作,運(yùn)動(dòng)起來(lái)外觀比較穩(wěn)定,而難點(diǎn)在于如何精確重建外觀幾何如衣服和頭發(fā)等位置,如何在驅(qū)動(dòng)的時(shí)候產(chǎn)生逼真的外觀變化效果如衣擺運(yùn)動(dòng)和頭發(fā)飄起等;基于 GAN 生成的動(dòng)作遷移優(yōu)勢(shì)在于可以生成逼真的外觀變化,而難點(diǎn)在于如何應(yīng)對(duì)復(fù)雜動(dòng)作和新動(dòng)作下的外觀生成,如何保證生成視頻的人物動(dòng)作和外觀穩(wěn)定性等。
總結(jié)
本文簡(jiǎn)要概述了與 3D 人體相關(guān)的一些研究工作,包括 Representation、Body、Pose、Reconstruction、Cloth、Animation 等多個(gè)方面,涉及到各種細(xì)分的研究領(lǐng)域,如人體模型表示、人體姿態(tài)估計(jì)、人體重建、衣服建模、動(dòng)作合成與驅(qū)動(dòng)等等。
從深度學(xué)習(xí)的角度來(lái)看,這些研究方向的主要挑戰(zhàn)是缺乏 3D 真值數(shù)據(jù),目前 3D 數(shù)據(jù)的采集還受限于特定環(huán)境和設(shè)備且價(jià)格不菲,而數(shù)據(jù)的標(biāo)注則需要專業(yè)的 3D 知識(shí)和 CG 技術(shù),因此從仿真數(shù)據(jù)中學(xué)習(xí)一些規(guī)律并利用自監(jiān)督或無(wú)監(jiān)督學(xué)習(xí)算法來(lái)遷移到現(xiàn)實(shí)場(chǎng)景也是目前研究工作在探索的方向。
目前各種技術(shù)的終極目標(biāo)是在虛擬世界里還原真實(shí)的人類,除了外觀和動(dòng)作,還有說(shuō)話、語(yǔ)音、表情、交互等多個(gè)方面。此外值得一提的是,渲染技術(shù)也是 3D 數(shù)字人領(lǐng)域的關(guān)鍵技術(shù),提升渲染技術(shù)的真實(shí)性和實(shí)時(shí)性對(duì)于該領(lǐng)域發(fā)展有著重要意義。
參考文獻(xiàn)
[1]?Occupancy Networks: Learning 3D Reconstruction in Function Space. In CVPR, 2019.
[2]?DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation. In CVPR, 2019.
[3]?SMPL: A Skinned Multi-Person Linear Model. In SIGGRAPH Asia, 2015.
[4]?Expressive Body Capture: 3D Hands, Face, and Body from a Single Image. In CVPR, 2019.
[5]?SoftSMPL: Data-driven Modeling of Nonlinear Soft-tissue Dynamics for Parametric Humans. In Eurographics, 2020.
[6]?STAR: Sparse Trained Articulated Human Body Regressor. ECCV, 2020.
[7]?BLSM: A Bone-Level Skinned Model of the Human Mesh. ECCV, 2020.
[8]?GHUM & GHUML:?Generative 3D Human Shape and Articulated Pose Models. CVPR (Oral), 2020.
[9]?3D Human Motion Editing and Synthesis: A Survey. In CMMM, 2020.
[10]?MoSh: Motion and Shape Capture from Sparse Markers. In SIGGRAPH Asia, 2014.
[11]?Phase-Functioned Neural Networks for Character Control. In SIGGRAPH, 2017.
[12]?Dancing to Music Neural Information Processing Systems. In NeurIPS, 2019.
[13]?Robust Motion In-betweening. In SIGGRAPH, 2020.
[14]?Human Motion Prediction via Spatio-Temporal Inpainting. In ICCV, 2019.
[15]?DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills. In SIGGRAPH 2018.
[16]?RigNet: Neural Rigging for Articulated Characters. In SIGGRAPH, 2020.
[17]?Skeleton-Aware Networks for Deep Motion Retargeting. In SIGGRAPH, 2020.
[18]?Motion Retargetting based on Dilated Convolutions and Skeleton-specific Loss Functions. In Eurographics, 2020.
[19]?Dense Pose Transfer. In ECCV, 2018.
[20]?Everybody Dance Now. In ICCV, 2019.
[21]?Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis. In ICCV, 2019.
[22] [Few-shot Video-to-Video Synthesis. In NeurIPS 2019.
[23]?TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting. In CVPR, 2020.
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的3D Human相关研究总结:人体、姿态估计、人体重建等的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: bios里怎么设置集成声卡 bios设置
- 下一篇: 发动机涡轮和活塞式的区别