Simple Baselines for Human Pose Estimation 阅读笔记
SimpleBaseline姿態(tài)估計閱讀筆記
ECCV2018
論文鏈接
代碼鏈接
摘要: 近年來,姿態(tài)估計在取得重大進展的同時,總體算法和系統(tǒng)復(fù)雜性也日益增加,加劇了算法分析和比較的難度,本項工作提供了一個簡單有效的baseline,來幫助激發(fā)并評估該領(lǐng)域的新想法。
文章目錄
- SimpleBaseline姿態(tài)估計閱讀筆記
- 1 Introduction
- 2 Pose Estimation Using A Deconvolution Head Network
- 3 姿態(tài)估計實驗
- 3.1 Pose Estimation on COCO
- 4 Conclusions
1 Introduction
得益于深度學習的發(fā)展,人體姿態(tài)估計任務(wù)已取得很大提升。自先驅(qū)工作 DeepPose 和 [Joint training of a convolutional network and a graphical model for human pose estimation] 被提出以來,MPII基準的性能在三年內(nèi)達到飽和(從約80% PCKH@0.5 提升至 90%以上)。挑戰(zhàn)性的COCO人體姿態(tài)基準的進展更快,其mAP指標在一年內(nèi)從60.5(COCO 2016挑戰(zhàn)賽冠軍)提升至72.1(COCO 2017挑戰(zhàn)賽冠軍)。隨著姿態(tài)估計的迅速成熟,最近引入了一項更具挑戰(zhàn)性的任務(wù):“在野外同時進行姿態(tài)檢測和跟蹤”
與此同時,姿態(tài)估計的網(wǎng)絡(luò)架構(gòu)和實驗也日趨復(fù)雜,加劇了算法分析和比較的難度。,例如,MPII上的領(lǐng)先方法 [Stacked hourglass,Multi-context attention for human pose estimation,Adversarial posenet,Learning feature pyramids for human pose estimation] 在許多細節(jié)上差異較大,其準確性相當。此外,COCO上的代表性工作 [Associative embedding,Towards accurate multi-person pose estimation in the wild,Mask r-cnn,Cascaded pyramid network for multi-person pose estimation,Realtime multi-person 2d pose estimation using part affinity fields] 也很復(fù)雜且差異很大,但這些工作間主要在系統(tǒng)層面比較,信息量較少。雖然姿態(tài)跟蹤的相關(guān)工作不多,但由于問題維度和解決方案空間的增加,其系統(tǒng)的復(fù)雜性會進一步增加。
本文試圖從相反的角度簡化此問題:“簡單的方法性能可以有多好呢?”,為回答此問題,本項工作為姿態(tài)估計和跟蹤提供了一個簡單有效的baseline,希望能激發(fā)新想法并簡化評估。
本文提出的姿態(tài)估計器在ResNet backbone上添加了幾個轉(zhuǎn)置卷積層,這可能是從深度低分辨率特征圖中估計熱圖的最簡單方法。我們的單一模型在COCO testdev split上實現(xiàn)了sota 73.7 mAP,較 COCO 2017關(guān)鍵點挑戰(zhàn)賽winner的單一模型及其集成模型分別提高了1.6%和0.7%
這項工作沒有任何理論依據(jù),它基于簡單的技術(shù),并通過全面的消融實驗進行驗證。請注意,盡管我們?nèi)〉昧烁玫慕Y(jié)果,但我們并沒有聲稱它優(yōu)于任何先前的算法。我們并未與之前的方法進行完全公平比較,這也并非我們的意圖,本項工作的貢獻是堅實的baseline。
2 Pose Estimation Using A Deconvolution Head Network
ResNet是最常用的特征提取backbone,我們僅在ResNet最后一的卷積層加了一些轉(zhuǎn)置卷積層:C5C_5C5?,整體網(wǎng)絡(luò)架構(gòu)如圖1?所示。這種結(jié)構(gòu)可以說是從深度低分辨率特征生成熱圖的最簡單方法,Mask R-CNN也采用了這種結(jié)構(gòu)。
默認情況下,使用3個具有BN和ReLU激活的轉(zhuǎn)置卷積層,每層有256個4×4 kernel 的 filter,stride=2,最后加一個 1×1 卷積層來生成 k個關(guān)鍵點預(yù)測熱圖 {H1…Hk}。使用 MSE 作預(yù)測熱圖和GT熱圖間的損失,第 k 關(guān)節(jié)GT位置作中心生成2D高斯來生成關(guān)節(jié) k 的目標熱圖 H^k\hat{H}_kH^k?。
討論: 如圖1所示,為理解 baseline 的簡單合理性,將其與 Hourglass 和 CPN對比。
- Hourglass 是MPII上的主要方法,采用 multi-stage 架構(gòu),具有重復(fù)的bottom-up、top-down處理和skip layer feature concatenation。
- Cascaded Pyramid network(CPN)是COCO 2017 keypoint challenge上的主要方法,它包括 skip layer feature concatenation 和一個 online hard keypoint mining step。
相比于Hourglass 和 CPN,SBL的不同之處在于如何生成高分辨率特征圖。Hourglass 和 CPN 都使用上采樣來提高特征圖分辨率,并將卷積參數(shù)放入其他 block 中。相反,SBL 以更簡單的方式將上采樣和卷積參數(shù)組合到反卷積層(原文是 deconvolutional ,但其實使用轉(zhuǎn)置卷積更妥帖)中,而不使用跳躍層連接。
3 姿態(tài)估計實驗
3.1 Pose Estimation on COCO
COCO Keypoint Challenge 要求在不可控條件下定位多人關(guān)鍵點。COCO train,validation 和 test sets 包含超過20萬張圖像和25萬個具有關(guān)鍵點標注的人體實例,其中的15萬個人體實例用于訓練和驗證。SBL 僅在 COCO train 2017 set(包括57K張圖像和150K個人體實例)上進行訓練,在val2017 set進行消融實驗,最后報告了test-dev2017 set上的最終結(jié)果,并與其他模型進行比較。
COCO 評估定義了對象關(guān)鍵點相似性(OKS),并使用 mean average precision (AP) over 10 OKS thresholds作度量。OKS與目標檢測中的IoU作用相同,根據(jù)預(yù)測點和由人體尺度正則化得到的GT點之間的距離進行計算。
訓練: 延長gt human box的長或?qū)挒楣潭ū嚷?#xff1a;height : width = 4 : 3,然后將其從圖像中 crop下來,并resize為固定分辨率,默認分辨率:256:192,數(shù)據(jù)增強包括:scale(±30%),rotation(±40 degrees) 和 flip。
ResNet backbone 通過在ImageNet分類任務(wù)預(yù)訓練初始化,姿態(tài)估計的訓練中,基本學習率為1e-3,在第90個 epoch 降至1e-4,在第120個 epoch 降至1e-5,共訓練140個epoch,Mini-batch size = 128,使用 Adam 優(yōu)化器,四個GPU。默認使用ResNet-50。
測試: 采用 two-stage 的 top-down 范式,默認使用Faster-rcnn(COCO val2017 上的人體檢測精度為 56.4 AP)作人體檢測器,根據(jù)原始圖像和翻轉(zhuǎn)圖像的平均熱圖預(yù)測關(guān)節(jié)位置,從最高響應(yīng)到第二高響應(yīng)方向上 1/4 的offset用于獲得最終位置。
消融實驗:表2對第2節(jié)baseline中的各種選項進行了消融實驗。
COCO val2017上與其他方法比較:
COCO test-dev set上的比較:
表4.COCO test-dev set的比較。top:僅在COCO train set上訓練。middle:提交給COCO test-dev 排行榜的結(jié)果,其中有額外的訓練數(shù)據(jù)(*)或模型(+)。bottom:SBL單一模型結(jié)果,僅在COCO train set上訓練。4 Conclusions
本文提出了一個簡單有效的的姿態(tài)估計和跟蹤 baseline,并在具有挑戰(zhàn)性的基準上取得了 sota。該研究希望 SimpleBaseLine 通過簡化 idea development 和 evaluation 使該領(lǐng)域受益。
總結(jié)
以上是生活随笔為你收集整理的Simple Baselines for Human Pose Estimation 阅读笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: kali虚拟机中没有ip或者检测不到网卡
- 下一篇: win10 wsappx禁用问题