ICCV 2019 | 基于无标签单目视频序列的单帧三维人体姿态估计算法
作者丨王璇
學校丨西安交通大學
研究方向丨人體姿態(tài)估計
我們都知道,要訓練一個準確的三維人體姿態(tài)估計深度神經(jīng)網(wǎng)絡,需要大量有三維標簽的數(shù)據(jù),越多越好。而在現(xiàn)實生活中,我們很難得到很多有標簽數(shù)據(jù),而無標簽單目視頻序列的獲取要容易得多。
那么有沒有辦法利用這些無標簽視頻序列,來輔助三維人體姿態(tài)估計網(wǎng)絡的訓練呢?針對這一情況,本工作提出了一種針對訓練樣本較少的情況下三維人體姿態(tài)估計的標簽自動標注算法,使用完全無標簽的視頻序列,輔助單目單幀三維人體姿態(tài)估計網(wǎng)絡的訓練。本工作由西安交通大學完成,發(fā)表于 ICCV 2019。
背景
從單目圖像估計三維人體姿態(tài)是計算機視覺中的一個重要課題。近年來,隨著深度學習的發(fā)展,用深度神經(jīng)網(wǎng)絡解決三維人體姿態(tài)估計問題的技術(shù)也發(fā)展的越發(fā)成熟。
然而,基于深度學習的人體姿態(tài)估計方法存在著一個較大的局限,即需要大量的有標簽數(shù)據(jù)才能訓練出較為準確的三維人體姿態(tài)估計網(wǎng)絡。而三維標簽的獲取,要么使用動作捕捉系統(tǒng),需要特殊的儀器和受限的環(huán)境;要么使用人工標注的方法,耗時費力且準確度不高。
針對三維標簽難以獲得的問題,近年來也提出了一些半監(jiān)督的解決方案,如使用無標簽的多視圖數(shù)據(jù)或二維標注的圖像對訓練數(shù)據(jù)進行增廣等。然而,多視圖數(shù)據(jù)仍然需要特殊的多相機拍照環(huán)境才可獲取,而 2D 人體關(guān)鍵點的人工標注也仍然耗時費力。相比之下,無標簽單目視頻序列的獲取就容易得多。
因此,如何僅利用無標簽的視頻序列來輔助單幀三維人體姿態(tài)估計任務呢?針對這一問題,我們提出了一種從無標簽的單目人體動作視頻序列中自動標注三維標簽的算法。
與之前從連續(xù)圖像序列學習人體姿態(tài)的方法不同,在我們的方法中,視頻數(shù)據(jù)僅需在訓練期間使用。給定僅使用少量有標簽數(shù)據(jù)進行預訓練的基線模型,我們的算法可以使用基于矩陣補全的方法自動從單目視頻序列中收集 3D 標簽。
在此過程中,除了需要少量的有 3D 標簽的數(shù)據(jù)之外,我們的方法不需要任何人工干預(如 2D 姿態(tài)的手動標注或多相機系統(tǒng)的校準),而這些人工干預通常是現(xiàn)有的弱監(jiān)督方法所必須的。
如在 Human3.6M 和 MPI-INF-3DHP 數(shù)據(jù)集上的實驗所示,我們的方法成功地將預訓練的模型進行了微調(diào),使其遷移到了無標簽單目視頻中所描述的新的動作和主題上。微調(diào)后的模型所估計的 3D 人體姿態(tài),比基線模型的準確性提高了約 10%。
框架
本文設計了一種從無標簽的單目人體動作視頻序列中自動標注三維標簽的算法,用以在有標簽訓練樣本較少的情況下,輔助三維人體姿態(tài)估計網(wǎng)絡的訓練。該框架的主要流程如圖 1 所示。
首先,使用少量有標簽的數(shù)據(jù)預訓練出一個基線模型,使其可以輸出可用但不太準確的 3D 人體姿態(tài)。然后,優(yōu)化此基線模型所輸出的不準確的三維人體姿態(tài),并將其當作偽標簽,用以對基線模型的進一步訓練(微調(diào))。
與之前的方法相比,本文中的方法所需要的訓練數(shù)據(jù)僅為無標簽的單目視頻序列,而單目視頻序列的捕獲不需要任何特定的設備(如多相機系統(tǒng)),且不受控制環(huán)境的限制。此外,使用本方法用視頻對數(shù)據(jù)集進行擴充時,無需人工干預。
▲?圖1.?基于無標簽單目視頻序列的三維人體姿態(tài)估計框架
下面幾個小節(jié)將從基線模型、軌跡補全(標簽優(yōu)化)和模型微調(diào)三個方面詳述該框架的工作過程。
基線模型
為了從單目圖像重建 3D 人體姿勢,通常需要準確的 2D 特征表示。文獻?[1]?中所提出的堆疊沙漏網(wǎng)絡架構(gòu)(stacked hourglass network),對于從圖像中提取 2D 特征以預測 3D 姿態(tài)非常有效。此外,受?[2]?的啟發(fā),現(xiàn)有的 2D 人體姿態(tài)估計數(shù)據(jù)集可用于訓練 2D 人體姿態(tài)檢測器,該檢測器的特征提取層隨后可遷移到 3D 人體姿態(tài)估計網(wǎng)絡上。
為了直接從單目圖像中獲取準確的 3D 人體姿態(tài),我們參考了文獻?[3]?的工作,該工作中介紹了堆疊沙漏網(wǎng)絡的體素形式。基于這種網(wǎng)絡架構(gòu),可以將在大型 2D 人體姿態(tài)數(shù)據(jù)上訓練好的 2D 檢測器提取的特征遷移到 3D 沙漏網(wǎng)絡中,使得該網(wǎng)絡僅需少量帶 3D 標簽的訓練數(shù)據(jù),就可以對無標簽的視頻序列進行合理的估計。
與?[4]?中的網(wǎng)絡設置不同,我們的 3D 網(wǎng)絡直接從單幀圖像中輸出 3D 姿態(tài),而無需將 2D 姿態(tài)作為中間結(jié)果,因此不需要 2D 關(guān)鍵點數(shù)據(jù)來微調(diào) 2D 檢測器或訓練 3D 網(wǎng)絡。圖 2 顯示了我們網(wǎng)絡的架構(gòu)和初始化網(wǎng)絡的整個過程。
▲?圖2. 基線模型的網(wǎng)絡架構(gòu)和初始化過程
軌跡補全
僅通過少量有標簽的 3D 數(shù)據(jù)訓練的網(wǎng)絡,就可以對無標簽的視頻序列進行初始預測。這些預測值可以被保存和擴充,用作偽標簽,以進行網(wǎng)絡的進一步(無監(jiān)督)訓練。但是,由于對 3D 沙漏網(wǎng)絡的訓練不足,初始預測值會不夠精確。由于視頻序列中的人體姿態(tài)不是剛性的,并且具有低秩和時間平滑等特性,我們可以通過應用于 3D 軌跡的矩陣補全方法來優(yōu)化初始預測值。
對初始預測值的優(yōu)化可以看作一個矩陣補全問題。我們在一個視頻序列中,可以固定置信度較高的姿態(tài)預測值,并利用這些固定值,去補全置信度較低的預測值。我們結(jié)合了視頻中人體姿態(tài)的低秩性和時間平滑性,將該軌跡補全問題建模為以下優(yōu)化問題:
其中 X 是優(yōu)化目標,即包含一個視頻序列中三維人體姿態(tài)的矩陣。最小化 X 的核范數(shù)即使視頻序列中的人體姿態(tài)滿足低秩性。D 是一個主對角線的值均為 1、下主對角線均為 -1、其他位置均為 0 的對角矩陣,用以表達時間平滑性約束。E 為錯誤項。S 代表 3D 姿態(tài)的初始預測值,在優(yōu)化過程中該矩陣內(nèi)的值是不變的。?代表從矩陣中取置信度高的預測值、并將置信度低的預測值置 0 的操作。B 和 C 為自表達矩陣,二者相等。將二者分開表示是為了使優(yōu)化過程中每個子問題都有閉式解。
為求解上述優(yōu)化問題,我們使用增廣拉格朗日法(ALM)[5]。通過將上式轉(zhuǎn)化為增廣拉格朗日形式,可以將該優(yōu)化問題分為 5 個子問題迭代求解。具體方法為輪番求解各子問題,在更新其中一個變量時固定其他所有變量,從而最終最小化損失函數(shù)。每個子問題都可以利用目前已經(jīng)比較成熟的算法進行求解。
最終,ALM 收斂后,我們將 X 作為優(yōu)化結(jié)果,并在模型的進一步訓練(微調(diào))中使用優(yōu)化的結(jié)果作為監(jiān)督項。
模型微調(diào)
在前面的步驟中,我們將無標簽視頻序列的圖像輸入初始網(wǎng)絡以獲得 3D 預測,然后優(yōu)化并保存這些預測。在進一步的模型微調(diào)步驟中,我們將這些優(yōu)化后的預測值進行增廣,以“監(jiān)督”初始網(wǎng)絡的進一步訓練。這些操作相當于自動為無標簽的視頻收集“標簽”。
然而,在優(yōu)化的預測中仍然存在許多錯誤,且這些錯誤很可能會誤導網(wǎng)絡的進一步訓練。為了減輕這些錯誤的影響,我們根據(jù)每個預測的置信度對損失函數(shù)中的偽監(jiān)督項進行加權(quán),并對同一視頻中同一人的骨骼長一致性添加約束。這一步驟所使用的網(wǎng)絡的完整損失函數(shù)如下:
其中,?表示加權(quán)的偽監(jiān)督項,U 表示基于骨骼長度的無監(jiān)督項。對于加權(quán)偽監(jiān)督項,由于我們將高置信度的初始預測值看作是準確的,我們不希望微調(diào)后的網(wǎng)絡對這部分數(shù)據(jù)的輸出值與初始預測值差距太大。
而我們的網(wǎng)絡的輸出為熱圖(heatmap),因此可以直接提取預測關(guān)節(jié)的熱圖的值作為置信度得分。進而,我們可以利用這些置信度得分對損失函數(shù)的偽監(jiān)督項進行加權(quán)。其具體形式為:
其中??代表基于置信度得分的加權(quán)函數(shù),定義為:
上式中的 τ 是一個 0~1 之間的值,被定義為置信度閾值。置信度高于該閾值的項被看作是準確預測,在損失函數(shù)中權(quán)重為 1。
對于骨骼長度項,我們可以取初始預測中每個視頻序列內(nèi)人體的骨骼長度的中位數(shù),作為網(wǎng)絡微調(diào)過程中的另一個監(jiān)督項。在本文中我們選取 11 個較為穩(wěn)定的骨骼(左右上下臂、左右上下腿、左右胯、頭長)作為該項的監(jiān)督。骨骼長度損失項的具體形式為:
此外,在網(wǎng)絡的微調(diào)過程中,骨骼長度項的計算需要將網(wǎng)絡預測的熱圖中的坐標值取出,而一般的使用 argmax 操作的取坐標方法又是不可微分的。為了使微調(diào)過程中的網(wǎng)絡可以回傳參數(shù),我們將 argmax 操作替換為?[6]?中所提出的 peak finding 操作,即將以最大得分的粗略位置為中心的立方體內(nèi)的熱圖置信度得分的加權(quán)總和作為預測的關(guān)節(jié)坐標。
實驗結(jié)果
我們在兩個大型公開的三維人體姿態(tài)估計數(shù)據(jù)集——Human3.6M (H36M)?[7]?和 MPI-INF-3DP (3DHP)?[8]?上進行了實驗。
對于我們基線網(wǎng)絡的 2D 特征提取部分,我們使用了二維人體姿態(tài)估計數(shù)據(jù)集 MPII Human Pose?[9]?進行初始化。
對于三維姿態(tài)估計部分,我們首先使用數(shù)據(jù)集的訓練集中的一個小子集及其三維標簽進行全監(jiān)督訓練,得出初始網(wǎng)絡。然后,將訓練集中剩下的數(shù)據(jù)看作無標簽的視頻序列,使用初始網(wǎng)絡對這些序列進行預測。接著,將不準確的預測值進行軌跡補全優(yōu)化。最后用優(yōu)化后的三維標簽作為監(jiān)督項,結(jié)合骨骼長度項,對網(wǎng)絡進行微調(diào)。微調(diào)后的網(wǎng)絡在數(shù)據(jù)集的測試集上進行測試。
使用的評價指標為 MPJPE(平均關(guān)節(jié)位置誤差)、NMPJPE(骨架歸一化后的平均關(guān)節(jié)位置誤差)和 PMPJPE(將骨架進行 Procrustes 對齊后的平均關(guān)節(jié)位置誤差)。軌跡補全和不同數(shù)據(jù)劃分方式下的網(wǎng)絡微調(diào)結(jié)果展示如下。
3D 軌跡補全結(jié)果:對于 H36M,我們使用S1進行全監(jiān)督訓練,對S5-8 進行預測和優(yōu)化;對于 3DHP,我們使用 S1 進行全監(jiān)督訓練,在 S2-8 上進行預測和優(yōu)化。兩數(shù)據(jù)集優(yōu)化前后的結(jié)果分別如表 1 和表 2 所示。可見軌跡補全過程發(fā)揮了作用,誤差降低了。另外,結(jié)果還表明,使用置信度分數(shù)可以選出更準確的預測值和優(yōu)化值。
▲?表1.?H36M上的預測和優(yōu)化結(jié)果
▲?表2.?3DHP上的預測和優(yōu)化結(jié)果
以subject劃分數(shù)據(jù)的網(wǎng)絡微調(diào)結(jié)果:我們使用 H36M 的 S1 進行網(wǎng)絡初始化,使用無標簽的 S5-8 進行網(wǎng)絡微調(diào)。表 3 展示了這樣得出的最終模型在 H36M 測試集每個動作上的效果。可以看出,我們框架的每個組件(軌跡優(yōu)化、加權(quán)監(jiān)督和骨骼長度監(jiān)督)都起到了增量的效果。
圖 3 是最終模型在 H36M 和 3DHP 上預測結(jié)果的可視化,其中綠色骨架為真值,紅色骨架為基線網(wǎng)絡的預測結(jié)果,藍色骨架為微調(diào)后最終模型的預測結(jié)果。可見最終結(jié)果明顯改進,并且更接近真值。
▲?表3.?在H36M上用S1初始化、S5-8微調(diào)的預測結(jié)果
▲?圖3.?S1有監(jiān)督訓練、其余數(shù)據(jù)無監(jiān)督訓練在H36M(前兩列)和3DHP(第三列)測試集上的預測結(jié)果
以 action 劃分數(shù)據(jù)的網(wǎng)絡微調(diào)結(jié)果:為測試我們的框架將模型遷移到新動作的能力,我們使用訓練數(shù)據(jù)集中一部分動作的有標簽數(shù)據(jù)進行網(wǎng)絡初始化、用剩下的動作的無標簽視頻序列進行模型的微調(diào),并在測試集上對無標簽部分的動作進行測試。
我們采用了兩種動作劃分方式:1)用隨機的一半動作作為有標簽數(shù)據(jù),另一半動作序列作為無標簽數(shù)據(jù);2)用簡單的動作作為有標簽數(shù)據(jù),困難動作序列作為無標簽數(shù)據(jù)。這兩種劃分方式在 H36M 上的結(jié)果如表 4 和表 5 所示。可見,模型可以成功地從無標簽視頻序列中學習到新的甚至是更困難的動作,即模型可以成功地被遷移到無標簽視頻序列中所表達的動作上來。
▲?表4.?H36M上使用隨機部分動作進行網(wǎng)絡初始化、剩下部分動作進行微調(diào)的預測結(jié)果
▲?表5.?H36M上使用簡單動作進行網(wǎng)絡初始化、困難動作進行微調(diào)的預測結(jié)果
跨數(shù)據(jù)集測試結(jié)果:在現(xiàn)實生活中一個更為常見的應用場景是,我們擁有某個數(shù)據(jù)集的有標簽數(shù)據(jù)用以進行全監(jiān)督訓練得出一個模型,但需要在另一個沒有三維標簽、只能得到單目視頻序列的數(shù)據(jù)集上使用該模型,即跨數(shù)據(jù)集的使用場景。針對這一情況我們也進行了實驗。我們在 H36M 進行全監(jiān)督訓練,使用 3DHP 上的一些無標簽視頻序列進行網(wǎng)絡微調(diào),最后在 3DHP 上測試。最終,微調(diào)后的模型比未進行微調(diào)的模型性能提升了 25.6%。這對于沒有使用任何新數(shù)據(jù)集標簽這一困難的場景來說,是一個非常可觀的提升。
總結(jié)與思考
在本文中,我們介紹了一種用于單目單幀圖像 3D 人體姿態(tài)估計的框架,可通過自動收集無標簽的單目視頻的 3D 標簽,來提升三維人體姿態(tài)估計網(wǎng)絡的性能。
大量實驗證明了我們框架的有效性,表明它可以成功地幫助網(wǎng)絡從無標簽的單目視頻序列中學習新的 3D 人體姿態(tài)。當沒有足夠的有標簽數(shù)據(jù)、而有許多無標簽的單目視頻可用時,我們可以使用此框架來訓練 3D 人體姿態(tài)估計網(wǎng)絡。這也是現(xiàn)實生活中最常見的情況,充分說明了本文所提出的框架的應用價值。
參考文獻
[1] Alejandro Newell, Kaiyu Yang, and Jia Deng. Stacked hourglass networks for human pose estimation. In European conference on computer vision, pages 483–499. Springer, 2016.
[2] Dushyant Mehta, Helge Rhodin, Dan Casas, Pascal Fua, Oleksandr Sotnychenko, Weipeng Xu, and Christian Theobalt. Monocular 3d human pose estimation in the wild using improved cnn supervision. In 2017 International Conference on 3D Vision (3DV), pages 506–516. IEEE, 2017.
[3] Georgios Pavlakos, Xiaowei Zhou, Konstantinos G Derpanis, and Kostas Daniilidis. Coarse-to-fine volumetric prediction for single-image 3d human pose. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7025–7034, 2017.
[4] Dario Pavllo, Christoph Feichtenhofer, David Grangier, and Michael Auli. 3d human pose estimation in video with temporal convolutions and semi-supervised training. pages 7753–7762, 2019.
[5] Stephen Boyd, Neal Parikh, Eric Chu, Borja Peleato, Jonathan Eckstein, et al. Distributed optimization and statistical learning via the alternating direction method of multipliers. Foundations and Trends in Machine learning, 3(1):1–122, 2011.
[6] Xuanyi Dong, Shoou-I Yu, Xinshuo Weng, Shih-En Wei, Yi Yang, and Yaser Sheikh. Supervision-by-registration: An unsupervised approach to improve the precision of facial landmark detectors. In In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 360–368, 2018.
[7] Catalin Ionescu, Joao Carreira, and Cristian Sminchisescu. Iterated second-order label sensitive pooling for 3d human pose estimation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1661– 1668, 2014.
[8] Dushyant Mehta, Helge Rhodin, Dan Casas, Pascal Fua, Oleksandr Sotnychenko, Weipeng Xu, and Christian Theobalt. Monocular 3d human pose estimation in the wild using improved cnn supervision. In 2017 International Conference on 3D Vision (3DV), pages 506–516. IEEE, 2017.
[9] Mykhaylo Andriluka, Leonid Pishchulin, Peter Gehler, and Bernt Schiele. 2d human pose estimation: New benchmark and state of the art analysis. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3686–3693, 2014.
點擊以下標題查看更多往期內(nèi)容:?
通過多標簽相關(guān)性研究提升神經(jīng)網(wǎng)絡視頻分類能力
ICCV 2019?| 適用于視頻分割的全新Attention機制
從多視角RGB圖像生成三維網(wǎng)格模型Pixel2Mesh++
ICCV 2019 | 沉迷AI換臉?不如來試試“AI換衣”
ShapeMatchingGAN:打造炫酷動態(tài)的藝術(shù)字
ICCV 2019 | COCO-GAN: 通過條件坐標的部分圖像生成
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學習心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
???? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
總結(jié)
以上是生活随笔為你收集整理的ICCV 2019 | 基于无标签单目视频序列的单帧三维人体姿态估计算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: u盘ntfs怎么做不了系统盘 u盘格式为
- 下一篇: 致正煎熬的科研人:一个工具让你快速“KO