當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

CVPR2019论文解读：单眼提升2D检测到6D姿势和度量形状

發(fā)布時間：2023/11/28 生活经验 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR2019论文解读：单眼提升2D检测到6D姿势和度量形状小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

CVPR2019論文解讀：單眼提升2D檢測到6D姿勢和度量形狀

ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric
Shape

論文鏈接地址：https://arxiv.org/pdf/1812.02781.pdf

摘要內(nèi)容：

本文提供了基于端到端單目3D目標檢測和度量形狀檢索的深度學習方法。為了在3D中提升2D檢測，定位，以及縮放，提出了一種新的loss函數(shù)。不同于各自獨立的優(yōu)化這些數(shù)量，3D示例允許適當?shù)亩攘縝oxes的不一致性。實驗結(jié)果顯示，10維稀疏2D興趣域Regions of Interests (RoIs)提升在6D姿態(tài)和示例紋理幾何測量中都取得很好的效果。這也能夠通過直接在2D場景上修復(fù)恢復(fù)的網(wǎng)格來增強數(shù)據(jù)。對照在KITTI 3D數(shù)據(jù)上別的單目方案，本文的方案基于官方正規(guī)的數(shù)據(jù)集上，在3D姿態(tài)測試結(jié)果達到雙倍的AP。

1．introduction

文章提出了一種度量精確的單目3D目標檢測端對端方法。

主要貢獻有三點：

一種度量精確的單目3D目標檢測端對端方法，包括一種可微分的2D ROI到3D ROI 提升映射，并提供了用于回歸3D box 實例的所有組件；

一種用于在度量空間對其3D box的損失函數(shù)，直接優(yōu)化其關(guān)于真值的誤差；

擴展模型，將其用于預(yù)測度量紋理面片，保證了進一步的3D 推理，包括3D 一致性仿真數(shù)據(jù)增強。

稱該模型為"ROI-10D"，將2D ROI提升到3D ROI需要6自由度的位姿參數(shù)，3個自由度的空間體積，和一個形狀自由度。

用于位姿和形狀估計的單目10D提升

分三個部分介紹了方法：

模型結(jié)構(gòu)

用于3D的損失函數(shù)

學習得到的度量形狀空間，以及如何使用估計的形狀參數(shù)進行3D重建

2.1 端到端的單目結(jié)構(gòu)

類似于Faster RCNN，首先檢測2D區(qū)域的proposals，然后為每個proposal region執(zhí)行分支預(yù)測。2D proposals使用了FPN-ResNet34，并使用了focal loss加權(quán)。對每個檢測到的proposal region使用ROIAlign 提取用于預(yù)測分支的特征。

由于信息缺失和重投影模糊，從單目圖像中直接回歸3D信息是病態(tài)、不穩(wěn)定的。該文獻使用了state-of-the-art的SuperDepth 網(wǎng)絡(luò)預(yù)測輸入圖像中逐像素的深度值。然后將FPN網(wǎng)絡(luò)輸出的特征與深度特征堆積在一起，使用帶有Group Normalization 的兩個卷積層處理得到融合特征，最后使用檢測到的2D bbox和ROI Align在ROI Lifting中提取對應(yīng)的特征，回歸3D旋轉(zhuǎn)、平移、目標的絕對尺度以及目標形狀。

2.2 由單目2D實例到6D位姿

該問題其實是一個可微分的提升映射，，即從一個2D的到一個3D的bounding box 。將旋轉(zhuǎn)編碼為4D的四元數(shù)，將平移編碼為2D物體中心的相對深度。此外，使用到數(shù)據(jù)集平均體積的偏差描述物體三維體積。

給定一個2D ROI ，使用ROI Align提取指定區(qū)域特征，分別預(yù)測出旋轉(zhuǎn)量q，相對于ROI的2D中心(x, y)，深度值z和物體的絕對尺度(w, h, l)，提升映射為：

?

其中K為相機內(nèi)參矩陣

損失函數(shù)

當僅從單目圖像中估計位姿參數(shù)時，像素空間中的微小誤差可以導(dǎo)致位姿參數(shù)的劇烈變化。將問題提升到了3D，并使用了6D自由度的代理損失函數(shù)。因此，沒有同時對所有預(yù)測項進行優(yōu)化，而是讓網(wǎng)絡(luò)在訓練期間自己調(diào)整。給定一個3D bbox 和對應(yīng)的2D檢測框，其到3D的提升映射為，在度量空間關(guān)于八個3D角點的損失函數(shù)為：

在訓練過程中，需要一個warm up過程以得到穩(wěn)定的數(shù)值流形。因此訓練單個的預(yù)測項，直到得到穩(wěn)定的3D box實例。

Allocentric 回歸 and Egocentric 提升

相機光軸是否對準目標中心，Egocentric 以相機為中心，相機光軸不一定對準目標中心，allocentric是以目標為中心。兩者的區(qū)別在于當發(fā)生與相機之間的位移時，Allocentric中相機光軸隨著目標位移而移動，目標的形狀變化不大，而Egocentric中相機光軸不變，目標的形狀變化較大。

大視場條件下，Allocentric pose estimation很重要。

由于ROI缺少全局的信息，在回歸時認為四元數(shù)是Allocentric的，然后結(jié)合推理出來的平移量矯正為Egocentric，然后提升到3D boxes。

2.3 目標形狀學習與檢索

介紹了如何將端到端的單目3D目標檢測模型擴展到預(yù)測三角面片，并用于數(shù)據(jù)增強。

學習一個光滑的形狀

給定了50種商用模型，創(chuàng)建了一個映射受限的帶符號的距離場，大小為128×128×256。首先使用PCA學習低維的形狀，實驗中發(fā)現(xiàn)形狀空間很快地偏離了均值。使用PCA生成形狀要求評價每一維度的標準差。因此，使用一個3D自編碼/解碼器
E和D，對輸出的TSDF強制不同的約束。E和D都使用了1，8， 16， 32四種卷基層。此外使用核為6的全卷積層作為隱藏層。在訓練過程中將所有的隱藏層映射到半球上，以保證連續(xù)性。對輸出層的跳躍通過總方差進行懲罰，損失函數(shù)為：

形狀真值的標注

對于3D 提升器的形狀分支，預(yù)測形狀s和形狀真值s*間的相似度由兩點在半球上的角度決定：

在推理時，預(yù)測了低維的隱藏層向量，并將其傳遞給解碼器以得到TSDF表示。

簡單面片紋理

模型可以得到目標的尺度與形狀，可以投影檢索得到的3D面片。將朝向相機的定點映射到圖像平面，并賦予相應(yīng)的值。

2.4 消融分析

評估新的算法怎樣優(yōu)化極小化loss。另外，證實在KITTI 3D數(shù)據(jù)集上在哪里和為何如此難以準確評估。最后，分析由于不同的輸入以及怎樣更好讓loss影響姿態(tài)的質(zhì)量。

2.5 仿真3D 數(shù)據(jù)增強

KITTI3D數(shù)據(jù)集較小，且3D真值獲取耗時耗力，采用仿真數(shù)據(jù)是一種常用方法。文章使用提取得到的面片以生成真實的渲染，而不是寫固定的CAD模型。此外，仿真目標的擺放沒有太多限制。使用allocentric pose移動目標，不改變視角。

實驗

總結(jié)

以上是生活随笔為你收集整理的CVPR2019论文解读：单眼提升2D检测到6D姿势和度量形状的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： CVPR2019目标检测论文看点：并域上
下一篇： CVPR2018论文看点：基于度量学习分