基于点云的三维重建_香港科技大学王煜教授:深度学习在物体三维重建中的应用...
基于單幅圖像的物體三維重建是計算機視覺領域的一個重要問題, 近十年來得到了廣泛地關注. 隨著深度學習的不斷發展, 近年來逐漸成為一個新的學術研究熱點問題.
計算機視覺研究的主要目標之一是從二維圖像復原三維結構. 二維圖像是當今時代極易獲取的數據形式, 互聯網上每時每刻都在產生海量的圖像數據, 而三維模型相對難以獲取. 目前已經有許多基于多幅圖像的物體三維重建方法被提出, 而基于單幅圖像的物體三維重建問題因其輸入形式的特殊性使得更具挑戰性.僅以單幅圖像作為輸入使得重建丟失了很多幾何信息, 這就需要一些假設或者先驗知識, 亦或是從已有的模型基于學習來進行重建. 評價基于單幅圖像的物體三維重建的重建精度目前仍沒有一個固定的標準, 一些傳統方法采用hausdorff距離作為評價重建效果的標準, 而隨著深度學習的不斷發展, IoU(Intersection over union)值被引入, 且被大多數論文采用為評價標準, 此外亦有論文采用更注重物體幾何外形的CD(Chamfer distance)值等.
基于圖像的三維重建具有重要的實用價值和應用前景. 隨著互聯網及電子商務的發展, 很多商家或者企業開始利用三維模型來幫助自己進行產品的展示與推廣. 三維模型與二維圖像相比, 因為多了一維信息,所以更能將物體的真實感和細節的質感與紋理表現出來. 同時, 在諸如虛擬現實、城市數字化建模、文物數字化保護、醫學CT器官重建、三維影視動漫制作等領域, 基于圖像的三維重建也具有廣泛的應用. 多目圖像三維重建往往需要相機標定等額外操作, 相比之下基于單幅圖像的三維重建因其輸入簡單, 更適合于需要便捷式三維重建的應用場合, 因而近年來逐漸成為一個新的學術研究熱點問題.
然而基于單幅圖像的三維重建常常面臨來自以下幾個方面的挑戰:
1) 類內差異和類間差異
不同的重建物體即使是同一個類型, 也會因為材料、外形等存在較大的差異性. 而不同類型的物體, 亦可能存在較大的相似性. 如果只是針對某個特定類別的物體進行三維重建往往會使重建系統缺乏一般性, 而針對多類別的重建系統則會因較大的類內差異和較小的類間差異使得重建精度不高, 如何構建既具有一般性又重建精度高的三維重建算法是目前研究的重點.
2) 圖像自身屬性
真實世界視圖中的物體往往存在著遮擋、非剛性變形等現象, 且很多時候不滿足理想的朗伯特反射模型, 這就使得待重建的物體存在較大的多樣性, 因此對重建算法提出了更高的要求.
3) 不適定問題
基于單幅圖像的三維重建本身就是一個不適定問題(ill-posed problem), 即由于輸入形式為單幅圖像, 深度信息不可避免地丟失, 如果不給定一些先驗知識或者假設, 其重建結果是不唯一的. 如何根據一些假設和先驗知識來重建出最適合的模型, 以及如何提供最少的假設和先驗, 這對三維重建工作提出了不小的挑戰.
隨著深度學習技術的不斷發展, 很多基于深度學習的三維重建方法近幾年開始被提出, 逐漸成為該領域近年來研究的重點.
基于單幅圖像三維重建研究的常用數據集 為了更好的研究基于單幅圖像的物體三維重建, 構建大規模的三維模型數據集成為必然要求. 目前有多個三維模型的公共數據集供科研人員使用.
1) PASCAL 3D+數據集
PASCAL VOC數據集是在圖像識別、圖像分割和目標檢測等領域經常使用的大型數據集, 它的廣泛使用也推動了計算機視覺領域的不斷發展. 而PASCAL 3D+正是基于PASCAL VOC 2012的12種剛體類別的圖像,為它們添加了三維模型標注的數據集, 其每一類通過ImageNet擴展得到更多的圖像, 最終每一類平均有3000左右的物體. 該數據集圖像物體變化較大, 且包含遮擋和截斷的物體, 能夠更好的反應真實世界中的變化.
2) ShapeNet數據集
該數據集是由物體的三維CAD模型組成, 它也是目前為止包含豐富注釋的最大的三維模型數據集. 其在WordNet分類下進行組織, 為每一個三維模型提供許多的語義注釋, 包括物理尺寸、關鍵字等, 注釋可通過基于Web的界面提供, 以實現對象屬性的數據可視化. ShapeNet共包含超過300萬個模型, 其中22萬個模型被歸類為3135個類別. 如下圖為ShapeNet數據集部分三維模型示例.
3) Online Products數據集
該數據集包含在線銷售的23000個物體的圖像. 由于存在寬基線的問題, 傳統的MVS和SFM方法無法通過這些圖像進行重建.
4) ModelNet數據集
該數據集是當前規模較大、模型類別較多的一個大型CAD數據集, 收集了各類3D CAD網站, 3D Warehouse以及Princeton Shape Benchmark 660 種共計151125個CAD模型.
5) IKEA Dataset
該數據集收集了來自Google 3D Warehouse的225個IKEA的三維模型和從Flickr得到的800幅圖像, 分為IKEA家具和IKEA房間兩個部分, 主要集中了室內家具的模型, 模型類別及數量相對較少, 同時部分圖像存在遮擋. 該數據集的每一幅圖像都標注其關聯的三維模型, 可以借此評估三維重建的效果.
ShapeNet數據集中部分三維模型示例
隨著深度學習的不斷發展和三維數據集的不斷完善, 基于單幅圖像的三維重建取得了較大的進展, 與傳統手工設計的方法相比, 基于深度學習的端到端的訓練方法能夠直接以單幅圖像作為輸入, 并以重建的三維模型作為輸出, 其提取特征效率更高, 重建效果更好. 同時深度學習使用諸如dropout等稀疏化網絡參數的方法來防止過擬合, 以此來利用大規模的數據, 其具有更好的泛化性. 正如人看到二維圖像即可聯想到它的三維表示, 基于深度學習的單幅圖像重建也越來越趨向于與人類認知三維物體方法相同的無監督學習, 也有越來越多的網絡融合了單幅圖像和多幅圖像兩種方式, 使得重建能夠更加靈活.
綜上所述, 基于深度學習方法相較于傳統的方法擁有較多的優勢, 并且在這一領域逐漸取得了顯著進展, 但是與此同時在這一領域也存在著一些問題:
1) 公共數據集較小
對于一個三維重建任務來說, 增加訓練數據的種類和規模可以增加學習的泛化能力. 但是與目前千萬級的二維圖像數據集想比, 三維公共數據集規模小、種類少. 即使是近年來發布的較大的數據集ModelNet也僅僅包含了來自662個類的127915個三維外形. 相信隨著深度學習在三維領域的不斷深入, 在未來會涌現出更大規模的三維公共數據集.
2) 重建分辨率及精度問題
三維物體相較于二維多了一個維度, 基于體素的重建隨著重建分辨率的增加, 物體體積成立方體增長,使得受限于計算和內存, 重建物體常見的分辨率是32×32×32. 這樣分辨率的重建結果是非常粗糙的, 離真實物體還有較大差距. 即使有針對這一問題提出改進的方法, 但改進后仍然無法達到較為精密的重建效果.而在以主要依賴于大規模多樣性標記數據集的監督學習的方法中, 在實驗中與真實模型的對比, 其重建精度也未達到0.85以上. 要提高基于體素重建的分辨率, 還要考慮三維體素的稀疏性, 未來針對如何在基于體素的重建中提升計算效率, 避免在未占用的部分浪費過多內存, 提高重建的分辨率以及如何改善網絡結構以提高重建效果, 能夠恢復更多細節, 這些仍然是未來值得關注的問題.
3) 基于點云和網格重建的問題
圖像是結構化的, 可以表示為二維平面上的一個矩陣, 基于體素的重建使模型通過體素化變為二值模式, 也保證了大小的相同. 但三維點云和網格都是不規則的數據形式, 這使得學習方法的應用存在問題, 由于歐幾里德卷積運算不能直接應用, 這些數據表示不能很好地適應傳統的CNN. 目前針對該問題僅有少數前期探索工作, 其主要思路有: 1)將三維點云或者網格數據轉化成二維圖像, 再在神經網絡中提取特征. 2)設計適應原始三維數據特點的網絡模型, 如結合GCN的網絡模型. 3)在三維外形上手工提取低級特征, 再采用深度學習模型提取高級特征. 但總體而言, 該問題仍未得到很好地解決, 如何設計能適應原始三維數據特點的深度學習模型, 如何設計點云生成網絡的損失函數仍舊是未來一個值得研究的課題. 而基于網格的重建, 如何生成具有不同拓撲的對象, 仍然是一個具有重要意義的研究方向.
4) 單幅圖像重建的不適定問題
正如在傳統方法中所提到的, 對一幅圖像的三維重建, 特別是對一幅來自真實世界的圖像(區別于從CAD模型中生成的二維圖像), 其不可見部分的幾何外形需要猜測, 一幅圖像往往可能對應多個不同的重建模型, 且他們均可以看作是該幅圖像的重建結果. 從統計的角度來看, 輸入圖像的合理預測形成一個分布. 反映在訓練集中, 兩個看起來相似的圖像可能具有相當不同的重建結果. 如果將這個問題看作一個回歸問題,這就與傳統的只有一個對應真實模型的三維重建大有不同, 定義正確的損失函數就顯得尤為重要. 針對這一問題Fan等通過VAE的網絡結構和其定義的MoN損失使得網絡能對單幅圖像生成多種可能的重建結果, 該方法進行了一次有益的嘗試, 但在實現細節和準確度上仍有提高的空間.
5) 三維模型的表示形式和評價指標
與深度學習在二維圖像中的應用不同, 目前人們仍然還在探索什么樣的三維表示是最準確有效的, 因此基于體素、網格、點云表示的方法也都不斷涌現. 而同樣, 在對基于單幅圖像的三維重建的評價標準上,至今也仍舊沒有一個完全統一的定論, 哪種評價指標最能夠反映重建的效果, 仍然有待進一步研究.
文章信息:陳加, 張玉麒, 宋鵬, 魏艷濤, 王煜. 深度學習在基于單幅圖像的物體三維重建中的應用. 自動化學報, 2019, 45(4): 657-668.
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的基于点云的三维重建_香港科技大学王煜教授:深度学习在物体三维重建中的应用...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一种全数字实时仿真的安全关键领域解决方案
- 下一篇: 计算机学报在线阅读,面向目标检测与姿态估