當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

关键点检测算法（一）总体介绍

發布時間：2024/9/27 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了关键点检测算法（一）总体介绍小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

正文

一、簡介

關鍵點檢測領域包括人臉關鍵點、人體關鍵點、特定類別物體（如手骨）關鍵點檢測等。其中人體骨骼關鍵點檢測是其中比較熱門，難度系數較高，且應用非常廣泛的一個研究領域，在自動駕駛中也會有很好的應用前景，所以本文主要是介紹人體關鍵點檢測的一些相關內容。

人體骨骼關鍵點檢測是諸多計算機視覺任務的基礎，例如姿態估計，行為識別，人機交互，虛擬現實，智能家居，以及無人駕駛等等。由于人體具有柔韌性，會出現各種姿態，人體任何部位的變化都會產生新的姿態，同時關鍵點的可見性受姿態、穿著、視角等影響非常大，而且還面臨著遮擋、光照等環境的影響，使得人體骨骼關鍵點檢測成為計算機視覺領域中一個極具挑戰性的課題。本文主要介紹內容包括：

單人2D人體骨骼關鍵點檢測算法
多人2D人體骨骼關鍵點檢測算法
3D人體骨骼關鍵點檢測算法

二、人體關鍵點檢測相關數據集

2D數據集

LSP 地址：http://sam.johnson.io/research/lsp.html

FLIC 地址：https://bensapp.github.io/flic-dataset.html

MPII 地址：http://human-pose.mpi-inf.mpg.de/

MSCOCO 地址：http://cocodataset.org/#download

AI Chanllenge 地址：https://challenger.ai/competition/keypoint/subject

Pose Track 地址：https://www.posetrack.net/users/download.php

3D數據集

Human3.6M 地址：http://vision.imar.ro/human3.6m/description.php

HumanEva 地址：http://humaneva.is.tue.mpg.de/

Total Capture 地址：https://github.com/CMU-Perceptual-Computing-Lab/panoptic-toolbox、http://domedb.perception.cs.cmu.edu/dataset.html

JTA Dataset 地址：http://aimagelab.ing.unimore.it/jta、https://github.com/fabbrimatteo/JTA-Dataset

MPI-INF-3DHP 地址：http://gvv.mpi-inf.mpg.de/3dhp-dataset/

SURREAL 地址：https://www.di.ens.fr/willow/research/surreal/data/

UP-3D 地址：http://files.is.tuebingen.mpg.de/classner/up/

DensePose COCO 地址：https://github.com/facebookresearch/DensePose、https://www.aiuai.cn/aifarm278.html、http://densepose.org/#dataset

三、關鍵點檢測的Ground Truth的構建

1）Coordinate

Coordinate即直接將關鍵點坐標作為最后網絡需要回歸的目標，這種情況下可以直接得到每個坐標點的直接位置信息。

2）Heatmap

Heatmap即將每一類坐標用一個概率圖來表示，對圖片中的每個像素位置都給一個概率，表示該點屬于對應類別關鍵點的概率，比較自然的是，距離關鍵點位置越近的像素點的概率越接近1，距離關鍵點越遠的像素點的概率越接近0，具體可以通過相應函數進行模擬，如二維Gaussian等，如果同一個像素位置距離不同關鍵點的距離大小不同，即相對于不同關鍵點該位置的概率不一樣，這時可以取Max或Average。

對于兩種Ground Truth的差別：

Coordinate網絡在本質上來說，需要回歸的是每個關鍵點的一個相對于圖片的offset，而長距離offset在實際學習過程中是很難回歸的，誤差較大，同時在訓練中的過程，提供的監督信息較少，整個網絡的收斂速度較慢；
Heatmap網絡直接回歸出每一類關鍵點的概率，在一定程度上每一個點都提供了監督信息，網絡能夠較快的收斂，同時對每一個像素位置進行預測能夠提高關鍵點的定位精度，在可視化方面，Heatmap也要優于Coordinate，除此之外，實踐證明，Heatmap確實要遠優于Coordinate，具體結構如下圖所示。

3）Heatmap + Offsets

Heatmap + Offsets是Google在CVPR 2017上提出的，與單純的Heatmap不同的是，Google的Heatmap指的是在距離目標關鍵點一定范圍內的所有點的概率值都為1，在Heatmap之外，使用Offsets，即偏移量來表示距離目標關鍵點一定范圍內的像素位置與目標關鍵點之間的關系。

四、單人2D關鍵點檢測算法

1.DeepPose: Human Pose Estimation via Deep Neural Networks (CVPR’14)

2.Efficient Object Localization Using Convolutional Networks (CVPR’15)

3.Convolutional Pose Machines（2016）

4.Learning Feature Pyramids for Human Pose Estimation（ICCV2017）

5.Stacked Hourglass Networks for Human Pose Estimation (2017)

6.Multi-Context Attention for Human Pose Estimation (2018)

7.A Cascaded Inception of Inception Network with Attention Modulated Feature Fusion for Human Pose Estimation (2018)

8.Deeply Learned Compositional Models for Human Pose Estimation (2018ECCV）

9.Human Pose Estimation with Spatial Contextual Information (2019)

10.Cascade Feature Aggregation for Human Pose Estimation (2019)

11.Toward fast and accurate human pose estimation via soft-gated skip connections (2020)

五、多人2D關鍵點檢測算法

多人關鍵點檢測分自上而下和自下而上兩種方法：

自上而下（Top-Down）的人體骨骼關鍵點檢測算法主要包含兩個部分，目標檢測和單人人體骨骼關鍵點檢測，對于目標檢測算法，這里不再進行描述，而對于關鍵點檢測算法，首先需要注意的是關鍵點局部信息的區分性很弱，即背景中很容易會出現同樣的局部區域造成混淆，所以需要考慮較大的感受野區域；其次人體不同關鍵點的檢測的難易程度是不一樣的，對于腰部、腿部這類關鍵點的檢測要明顯難于頭部附近關鍵點的檢測，所以不同的關鍵點可能需要區別對待；最后自上而下的人體關鍵點定位依賴于檢測算法的提出的Proposals，會出現檢測不準和重復檢測等現象，大部分相關論文都是基于這三個特征去進行相關改進。

自下而上（Bottom-Up）的人體骨骼關鍵點檢測算法主要包含兩個部分，關鍵點檢測和關鍵點聚類，其中關鍵點檢測和單人的關鍵點檢測方法上是差不多的，區別在于這里的關鍵點檢測需要將圖片中所有類別的所有關鍵點全部檢測出來，然后對這些關鍵點進行聚類處理，將不同人的不同關鍵點連接在一塊，從而聚類產生不同的個體。而這方面的論文主要側重于對關鍵點聚類方法的探索，即如何去構建不同關鍵點之間的關系。

5.1 多人2d關鍵點檢測算法（自上而下）

1.RMPE: Regional Multi-Person Pose Estimation（2018）

2.Cascaded Pyramid Network for Multi-Person Pose Estimation（cpn）（2018）

3.Rethinking on Multi-Stage Networks for Human Pose Estimation（2019）

4.Spatial Shortcut Network for Human Pose Estimation（2019）

5.Deep High-Resolution Representation Learning for Human Pose Estimation (2019cvpr)

5.2 多人2d關鍵點檢測算法（自下而上）

1.OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields（IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE2019）

2.Single-Network Whole-Body Pose Estimation（ICCV2019）

六、3D關鍵點檢測算法

1.Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose（2017）

2.A simple yet effective baseline for 3d human pose estimation（ICCV2017）

3.RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation（CVPR2019）

4.Generating Multiple Hypotheses for 3D Human Pose Estimation with Mixture Density Network（cvpr2019）

5.Learnable Triangulation of Human Pose（ICCV 2019 oral）

6.Weakly-Supervised Discovery of Geometry-Aware Representation for 3D HumanPose Estimation（cvpr2019）

7.3D human pose estimation in video with temporal convolutions and semi-supervised training （cvpr2019）

8.Semantic Graph Convolutional Networks for 3D Human Pose Regression （cvpr2019）

9.Exploiting Spatial-temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks（ICCV2019）

10.3D Human Pose Estimation using Spatio-Temporal Networks with Explicit Occlusion Training （AAAI2020）

11.Motion Guided 3D Pose Estimation from Videos（2020）

12.XNect: Real-time Multi-Person 3D Motion Capture with a Single RGB Camera(2020)

13.VIBE: Video Inference for Human Body Pose and Shape Estimation （2020cvpr）

總結

以上是生活随笔為你收集整理的关键点检测算法（一）总体介绍的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。