三维重建【一】——————(深度学习方式)
經典的計算機視覺問題是3-D重建。
基本上可以分成兩種路徑:一是多視角重建,二是運動重建。前者有一個經典的方法是多視角立體視覺(MVS,multiple view stereo),就是多幀的立體匹配,這樣采用CNN模型來解決也合理。傳統MVS的方法可以分成兩種:區域增長(region growing)和深度融合(depth-fusion)。soccor on tabke 等效果驚艷,在現有的5G技術加持下,有望實現實時的賽事傳播,結合現有的VR/AR背景,想想實現后的場景,也許這才是這個世界該有的樣子吧。
后者在機器人領域成為同步定位和制圖(SLAM)技術,有濾波法和優化(關鍵幀)法兩種,后者精度高,在稀疏特征點的基礎上可以采用集束調整(BA,Bundle Adjustment),著名的方法如PTAM,ORB-SLAM1/2,LSD-SLAM,KinectFusion(RGB-D數據),LOAM/Velodyne SLAM(激光雷達數據)等。運動恢復結構(SFM)是基于背景不動的前提,計算機視覺的同行喜歡SFM這個術語,而機器人的同行稱之為SLAM。SLAM比較看重工程化的解決方案,SFM理論上貢獻大。
因為CNN已經在特征匹配、運動估計和立體匹配得到應用,這樣在SLAM/SFM/VO/MVS的應用探索也就成了必然,一定程度上可以通過深度網絡的方式與傳統的方式相結合的方式來解決現在領域中的小問題,是目前學術界的一個普遍的觀點(不必將深度學習神圣化,由于黑箱模型的解釋性較差,一般更加適合用來解決特定的問題,從筆者實際應用過程中發現,傳統的基于圖像的處理方法在解決問題的過程中可以i清晰的看到每一個小的步驟的處理結果,從而可以很快速的定位到,問題解決過程中遇到的問題,從而可以快速的準確定位到問題,以便于去做進一步的處理,然而基于深度學習的模型,更多的是通過經驗去解決或者重構網絡結果,相對與傳統的方式目前在有些問題的精度上有一定的優勢)。下來羅列一個一些結合深度學習的SLAM。
??DeepVO:
如圖所示,經典VO流水線通常包括攝像機標定、特征檢測、特征匹配(或跟蹤)、異常值拒絕(例如RANSAC)、運動估計、尺度估計和局部優化(集束調整,BA)。
DeepVO基于深度遞歸卷積神經網絡(RCNN)提出了一種端到端單目視覺里程計(VO)框架。由于以端到端的方式進行訓練和部署,因此它直接從一系列原始RGB圖像(視頻)中推斷出姿態,而不采用傳統VO流水線中的任何模塊。基于RCNN,它不僅通過CNN自動學習VO問題的有效特征表示,而且用深度遞歸神經網絡隱式地建模串聯動力學和關系。
如圖所示是這個端到端VO系統的架構圖:采用視頻片段或單目圖像序列作為輸入;在每個時間步,作為RGB圖像幀預處理,減去訓練集的平均RGB值,可以將圖像尺寸調整為64的倍數;將兩個連續圖像堆疊在一起以形成深RCNN的張量,學習如何提取運動信息和估計姿勢。具體地,圖像張量被饋送到CNN以產生單目VO的有效特征,然后通過RNN進行串行學習。每個圖像對在網絡的每個時間步產生姿勢估計。VO系統隨時間推移而發展,并在圖像獲取時估計新的姿勢。
?
CNN具有9個卷積層,每層之后是除Conv6之外的ReLU激活,總共17層。網絡中感受野的大小逐漸從7×7減少到5×5,然后逐漸減少到3×3,以捕捉小的有趣特征。引入零填充以適應感受野的配置或在卷積之后保持張量的空間維度。其中通道的數量,即用于特征檢測的濾波器的數量,會增加以學習各種特征。
通過堆疊兩個LSTM層來構造深度RNN,其中LSTM的隱藏狀態是另一個的輸入。在DeepVO網絡中,每個LSTM層具有1000個隱藏狀態。深度RNN基于從CNN生成的視覺特征在每個時間步輸出姿勢估計。隨著相機移動并獲取圖像,這個進程隨時間而繼續。
??UnDeepVO
?UnDeepVO能夠通過使用深度神經網絡估計單目相機的6-DoF姿勢及其視野的深度。有兩個顯著特征:一個是無監督深度學習方案,另一個是絕對的深度恢復。訓練UnDeepVO時,通過使用立體圖像對恢復尺度來,但測試時,使用連續的單眼圖像。UnDeepVO還是一個單目系統。網絡訓練的損失函數基于時空密集信息,如圖所示。
?下圖所示時UnDeepVO的架構圖。姿勢估計器是基于VGG的CNN架構,需要兩個連續的單目圖像作為輸入,并預測它們之間的6-自由度(DoF)變換矩陣。由于旋轉(由歐拉角表示)具有高度非線性,與平移相比通常難以訓練。對于有監督的訓練,一種流行的解決方案是將旋轉估計損失給予更大的權重,如同歸一化。為了更好地無監督學習訓練旋轉預測,在最后一個卷積層之后用兩組獨立的全連接層將平移和旋轉分離。這樣為獲得更好的性能,引入一個權重標準化的旋轉預測和平移預測。深度估計器主要基于編碼器-解碼器架構以生成致密深度圖。與其他方法不同的是, UnDeepVO直接預測深度圖,這是因為以這種方式訓練時整個系統更容易收斂。
?如圖所示,用立體圖像序列的時空幾何一致性來定義損失函數。空間幾何一致性表示左右圖像對中的對應點之間的外極線約束,而時間幾何一致性表示兩個連續單目圖像中的對應點之間的幾何投影約束。這些約束構造最后的損失函數并使其最小化,而UnDeepVO學習端對端無監督方式估計尺度化的6-DoF姿勢和深度圖。簡單提一下,空間損失函數包括光度一致性損失(Photometric Consistency Loss)、視差一致性損失(Disparity Consistency Loss)和姿態一致性損失(Pose Consistency Loss);時間損失函數包括光度一致性損失和3-D幾何校準損失(3D Geometric Registration Loss)。
??VINet
如圖是比較傳統VIO(visual-inertial odometry)和基于深度學習的VINet方法。VINet時一種使用視覺和慣性傳感器進行運動估計的流形(on-manifold)序列到序列的學習方法。其優點在于:消除相機和IMU之間繁瑣的手動同步,無需手動校準;模型自然地結合特定領域信息,顯著地減輕漂移。
?VINet的架構圖見下圖所示。該模型包括CNN-RNN網絡,為VIO任務量身定制。整個網絡是可微分的,可以進行端到端訓練實現運動估計。網絡的輸入是單目RGB圖像和IMU數據,即一個6維向量,包含陀螺儀測量的加速度和角速度的x,y,z分量。網絡輸出是7維向量 - 3維平移和4維四元數(quaternion)- 姿勢變化。從本質上講,它學習將圖像和IMU數據的輸入序列轉換為姿勢的映射。
?CNN-RNN網絡執行從輸入數據到李代數se(3)的映射。指數圖將它們轉換為特殊的歐幾里德群SE(3),然后可以在SE(3)中組成各個運動以形成軌跡。這樣,網絡需要近似的功能仍然隨著時間的推移保持受限,因為相機幀到幀的運動是由平臺在軌跡過程中復雜動力學定義的。借助RNN模型,網絡可以學習平臺的復雜運動動力學,并考慮到那些難以手工建模的序列依賴性。下圖是其中SE(3) 級聯層(composition layer)的示意圖:無參數層,主要連接SE(3)群上幀之間的變換。
在LSTM模型中,隱藏狀態被轉移到下一個時間步,但輸出本身不會反饋到輸入。在里程計情況下,先前狀態的可用性特別重要,因為輸出基本上是每步增量位移的累積。因此,直接連接SE(3)級聯層產生的姿態輸出,作為下個時間步核心LSTM的輸入。
???SfM-Net
SfM-Net是一種用于視頻運動估計幾何覺察的神經網絡,根據場景、目標深度、相機運動、3D目標旋轉和平移等來分解幀像素運動。給定一圖像幀序列,SfM-Net預測深度、分割、相機和剛體運動,并轉換為密集的幀到幀運動場(光流),可以及時地對幀進行差分變形以匹配像素和反向傳播。該模型可以通過不同程度的監督進行訓練:1)通過重投影光度誤差(完全無監督)自我監督訓練,2)自身運動(攝像機運動)監督訓練,或3)由深度圖(例如,RGBD傳感器)監督訓練。
下圖是SfM-Net的流程圖。給定一對圖像幀作為輸入,模型將幀到幀像素運動分解為3D場景深度、3D攝像機旋轉和平移、一組運動掩碼和相應的3D剛性旋轉和平移運動。然后,將得到的3D場景流反投影到2D光流中并相應地變形完成從這幀到下一幀的匹配像素。其中前向一致性檢查會約束估計的深度值。
?如下圖是SfM-Net的架構圖:對于每對連續幀It,It+1,一個conv / deconv子網絡能預測深度dt,而另一個conv / deconv子網絡預測一組K個分割掩碼mt;運動掩碼編碼器的最粗特征圖通過全連接層進一步解碼,輸出攝像機和K個分割的3D旋轉和平移;使用估計的或已知的相機內參數將預測的深度轉換為每幀點云;然后,根據預測的3D場景流(scene flow)對其進行變換,由3D攝像機運動和獨立的3D掩碼運動組成;將變換后的3D深度再投射回2D的下一圖像幀,從而提供相應的2D光流場;可差分后向變形映射將圖像幀It+1到It,并且梯度可基于像素誤差來計算;對逆圖像幀對It+1,It重復該過程來強加“前向-后向約束”,并且通過估計的場景運動約束深度dt和dt+1保持一致性。
?如圖是一些SfM-Net結果例子。在KITTI 2015,基礎事實的分割和光流與SfM-Net預測的運動掩碼和光流相比。模型以完全無監督的方式進行訓練。
???CNN-SLAM
借助于CNN的深度圖預測方法,CNN-SLAM可以用于精確和密集的單目圖像重建。CNN預測的致密深度圖和單目SLAM直接獲得的深度結果融合在一起。在單目SLAM接近失敗的圖像位置例如低紋理區域,其融合方案對深度預測賦予特權,反之亦然。深度預測可以估計重建的絕對尺度,克服單目SLAM的一個主要局限。最后,從單幀獲得的語義標簽和致密SLAM融合,可得到語義連貫的單視圖場景重建結果。
如圖是CNN-SLAM的架構圖。CNN-SLAM采用基于關鍵幀的SLAM范例,特別是直接半致密(direct semi-dense)法作為基準。這種方法將不同視覺幀收集作為關鍵幀,其姿態經過基于姿態圖(pose-graph)的優化方法全局修正。同時,通過幀與其最近的關鍵幀之間的變換估計,實現每個輸入幀的姿態估計。
?下面是一些結果:辦公室場景(左)和NYU Depth V2數據集的兩個廚房場景(中,右),第一行是重建,第二行是語義標簽。
??PoseNet
PoseNet是一個實時單目6 DOF重定位系統。它訓練CNN模型以端映端方式從RGB圖像回歸6-DOF相機姿態,無需額外的工程或圖形優化。該算法可以在室內和室外實時運行,每幀5ms。通過一個有效的23層深度卷積網絡,PoseNet實現圖像平面的回歸,對于那些照明差、運動模糊并具有不同內參數的攝像頭(其中SIFT校準失敗)場景算法魯棒。產生的姿勢特征可推廣到其他場景,僅用幾十個訓練樣例就可以回歸姿態參數。
PoseNet使用GoogLeNet作為姿態回歸網絡的基礎;用仿射回歸器替換所有3個softmax分類器;移除softmax層,并修改每個最終全聯接層輸出表示3-D位置(3)和朝向四元數(4)的7維姿態向量;在特征大小為2048的最終回歸器之前插入另一個全聯接層;在測試時,將四元數朝向矢量單位歸一化。
如圖是PoseNet的結果展示。綠色是訓練示例,藍色是測試示例和紅色顯示姿勢預測
?需要補充一下,姿勢回歸采用以下目標損失函數的隨機梯度下降來訓練:
?其中x是位置向量,q是四元數向量,β是選擇的比例因子,以保持位置和朝向誤差的預期值近似相等。
??VidLoc
VidLoc是一種用于視頻片段6-DoF定位的遞歸卷積模型。即使僅考慮短序列(20幀),它也可以平滑姿態的估計并且可以大大減少定位誤差。
如圖是VidLoc的架構模型。CNN部分的目標是從輸入圖像中提取相關的特征,這些特征可用于預測圖像的全局姿態。CNN由堆疊的卷積和池化層構成,對輸入圖像操作。這里主要處理時間順序的多個圖像,采用VidLoc CNN的GoogleNet架構,其實只使用GoogleNet的卷積層和池化層,并刪除所有全連接層。
?當輸入連續時間的圖像流時,利用時間規律性可以獲得大量的姿態信息。例如,相鄰圖像通常包含相同目標的視圖,這可以提高特定位置的置信度,并且幀之間的運動也存在嚴格約束。為捕獲這些動態相關性,在網絡中使用LSTM模型。LSTM擴展了標準RNN,能夠學習長期時間依賴性,是通過遺忘門、輸入和輸出復位門以及存儲器單元來實現的。進出存儲器單元的信息流由遺忘門和輸入門調節,這允許網絡在訓練期間克服梯度消失問題,能夠學習長期的相關性。LSTM輸入是CNN輸出,由一系列特征向量xt組成。LSTM將輸入序列映射到輸出序列,輸出序列參數化為7維向量的全局姿態組成yt,包括平移向量和朝向四元數。為充分利用時間連續性,這里LSTM模型采用雙向結構,如圖所示。
?為了模擬姿態估計的不確定性,采用混合密度網絡(mixture density networks)方法。這種方法用混合模型取代了高斯模型,可以對多模態后驗輸出分布建模。
??NetVLAD
大規模基于視覺的位置識別問題要求快速準確地識別給定查詢照片的位置。NetVLAD是一種CNN架構中的一層,幫助整個架構直接以端到端的方式用于位置識別。其主要組成部分是一個通用“局部聚合描述子向量”(VLAD,Vector of Locally Aggregated Descriptors)層,受到圖像檢索中特征描述子池化法VLAD的啟發。該層可以很容易地插入任何CNN架構中,并且可以通過反向傳播(BP)進行訓練。根據一個定義的弱監督排名損失(ranking loss)可以訓練從谷歌街景時間機(Google Street View Time Machine)下載的相同位置的圖像,以端到端的方式學習該架構參數。
如圖是帶NetVLAD層的CNN結構。該層用標準CNN層(卷積,softmax,L2歸一化)和一個易于實現的聚合層NetVLAD來實現“VLAD核”聚合,可在有向無環圖(DCG)中連接。
?給定N個D-維局部圖像特征描述符{xi}作為輸入,將K個聚類中心(“視覺詞”){ck}作為VLAD參數,輸出VLAD圖像表示V是K×D維矩陣。該矩陣可轉換為矢量,歸一化后可作為圖像表示。V的(j,k)元素計算如下:
?
其中xi(j)和ck(j)分別是第i個特征描述符和第k個聚類中心的第j維。ak(xi)將描述符xi的成員資格記錄為第k個視覺單詞,即如果集群ck是最接近解釋xi的集群則為1,否則為0。
VLAD的不連續性源來自描述符xi到聚類中心ck的硬分布ak(xi)。為了使之可微分,將其替換為描述子的多個聚類軟分配,即
?
?將上式的平方項展開,很容易看出exp()項在分子和分母之間消掉,導致如下軟分配
?
?其中向量wk和標量bk
?
?這樣最終的“VLAD核”聚合公式變成
?
?其中{wk},{bk}和{ck}是每個群集k的可訓練參數集。
在VLAD編碼,來自不同圖像但劃歸同一聚類的兩個特征描述子對兩個圖像之間相似性測度的貢獻是殘差向量之間的標量積,其中殘差向量是描述符與聚類錨點(anchor point)之間的差。錨點ck可以被解釋為特定聚類k的新坐標系原點。在標準VLAD中,錨點被選為聚類中心(×),以便數據庫中的殘差均勻分布。然而如圖所示,在監督學習設置中,來自不匹配圖像的兩個描述子可以學習更好的錨點,使新殘差向量之間的標量積很小。
??Learned Stereo Machine
伯克利分校提出的一個用于多視角立體視覺的深度學習系統,即學習立體視覺機(LSM)。與最近其他一些基于學習的3D重建方法相比,沿著觀察光線做特征投影和反投影,它利用了問題的基礎3D幾何關系。通過可微分地定義這些操作,能夠端到端地學習用于量度3D重建任務的系統。這種端到端學習能夠在符合幾何約束的同時共同推理形狀的先驗知識,能夠比傳統方法需要更少的圖像(甚至單個圖像)進行重建以及完成看不見的表面。
如圖是LSM概述:一個或多個視圖和攝像頭姿態作為輸入;通過特征編碼器處理圖像,然后使用可微分的反投影操作將其投影到3D世界坐標系中。
?如圖給出1D圖和2D網格之間的投影和反投影示意圖。(a)投影操作沿光線以等間隔z值采樣值到1D圖像中。在z平面的采樣特征堆疊成通道形成投影的特征圖。(b)反投影操作從特征圖(1-D)中獲取特征,并沿光線放置在相應與之相交的網格塊。
?
然后,以遞歸方式匹配這些網格G以產生融合網格Gp,這里采用的是門控遞歸單元(GRU)模型。接著,通過3D CNN將其轉換為Go。最后,LSM可以產生兩種輸出 - 從Go解碼的體素占有網格(體素 LSM)或在投影操作之后解碼的每視角的深度圖(深度LSM)。
下圖給出V-LSM的一些結果,
如圖給出D-LSM的一些例子。
?
???DeepMVS
DeepMVS是一種用于多視角立體視覺(MVS)重建的深度卷積神經網絡(ConvNet)。將任意數量各種姿態的圖像作為輸入,首先產生一組平面掃描體積(plane-sweep volumes),并使用DeepMVS網絡來預測高質量的視差圖。其關鍵特點是(1)在照片級真實感的合成數據集上進行預訓練;(2)在一組無序圖像上聚合信息的有效方法;(3)在預訓練的VGG-19網絡集成多層特征激活函數。使用ETH3D基準驗證了DeepMVS的功效。
算法流程分四步。首先,預處理輸入圖像序列,然后生成平面掃描容積(plane-sweep volumes)。接著,網絡估計平面掃描容積的視差圖,最后細化結果。如圖所示。
下面兩個圖分別顯示帶超參數的DeepMVS體系結構。整個網絡分三部分:1)補丁匹配(patch matching)網絡,2)容積內特征聚合(intra volume feature aggregation)網絡,3)容積之間特征聚合(inter volume feature aggregation)網絡。除了最后一層,網絡中所有卷積層都跟著一個可縮放指數線性單元(Scaled Exponential Linear Unit ,SELU)層。
?
?為了進一步改進性能,將全連通條件隨機場(DenseCRF)應用到視差預測結果。
??MVSNet
給定參考圖像I1和一組其相鄰圖像{Ii} Ni = 2,MVSNet提出了一種端到端深度神經網絡來推斷參考深度圖D。在其網絡中,首先通過2D網絡從輸入圖像中提取深度圖像特征{ Fi} Ni = 1。然后,通過可微分的單應性(Homography)變換將2D圖像特征變形到參考相機坐標系,這樣在3D空間中構建特征容積{Vi} Ni = 1。為了處理任意N視角圖像輸入,基于方差的成本測度將N個特征容積映射到一個成本容積C。與其他立體視覺和MVS算法類似,MVSNet使用多尺度3D CNN正則化成本容積,并通過軟argmin 操作回歸參考深度圖D。在MVSNet末端應用一個細化網絡進一步增強預測深度圖的性能。由于在特征提取期間縮小了深度圖像特征{Fi} Ni = 1,因此輸出深度圖大小是每個維度中原始圖像大小的1/4。
MVSNet在DTU數據集以及Tanks and Temples數據集的中間集展示了最先進的性能,其中包含具有“從外看里”的攝像頭軌跡和小深度范圍的場景。但是,用16 GB內存 Tesla P100 GPU卡,MVSNet只能處理H×W×D = 1600×1184×256的最大重建尺度,并且會在較大的場景中失敗,即Tanks and Temples的高級集合。
如圖是MVSNet網絡設計圖。輸入圖像通過2D特征提取網絡和可微分單應性變形生成成本容積。從正則化的概率容積回歸最終的深度圖輸出,并且用參考圖像細化。
?下圖是推斷的深度圖、概率分布和概率圖。(a)DTU數據集的一個參考圖像; (b)推斷的深度圖; (c)內點像素(頂部)和出格點像素(底部)的概率分布,其中x軸是深度假設索引,y軸是概率,紅色線是軟argmin結果; (d)概率圖。
?
???Recurrent MVSNet
?
MVS方法的一個主要限制是可擴展性:耗費內存的成本容積(cost volume)正則化使得學習的MVS難以應用于高分辨率場景。Recurrent MVSNet是一種基于遞歸神經網絡的可擴展多視角立體視覺框架。遞歸多視角立體視覺網絡(R-MVSNet)不是一次性正則化整個3-D成本容積,而是通過門控遞歸單元(GRU)網絡串行地沿深度值方向正則化2-D成本圖。這大大減少了內存消耗,并使高分辨率重建成為可能。
下圖比較了不同正則化方案的策略。一次性全局正則化成本容積C的替代方案是串行地沿深度方向處理成本容積。最簡單的順序方法是贏家通吃(WTA)的平面掃描(plane sweeping)立體視覺法,它粗略地用較好的值替換逐像素深度值,因此受到噪聲的影響(如圖(a))。為此,成本聚合法過濾不同深度的匹配成本容積C(d)(如圖(b)),以便收集每個成本估算的空間上下文信息。遵循串行處理的思想,這里采用一種基于卷積GRU的更強大的遞歸正則化方案。該方法能夠在深度方向上收集空間和單向上下文信息(如圖(c)),與全空間3D CNN(如圖(d))相比,這實現了差不多的正則化結果,但是 運行時內存更加有效。
?
?下圖是R-MVSNet的框圖介紹。從輸入圖像中提取深度圖像特征,然后將其變形到參考相機坐標系的前向平行平面。在不同深度處計算成本圖并由卷積GRU串行地正則化處理。網絡被訓練為具有交叉熵(cross-entropy)損失的分類問題。
?如圖是R-MVSNet的重建流水線直觀圖:(a)DTU圖像;(b)來自網絡的初始深度圖;(c)最終深度圖估計;(d)基礎事實深度圖;(e)輸出點云;(f)深度圖濾波的概率估計圖;(g)初始深度圖的梯度圖;(h)細化后的梯度圖。
?參考文獻
-
1. Kendall A, Grimes M, Cipolla R. “Posenet: A convolutional network for real-time 6-dof camera relocalization”,IEEE ICCV. 2015
-
2. Li X, Belaroussi R. “Semi-Dense 3D Semantic Mapping from Monocular SLAM”. arXiv 1611.04144, 2016.
-
3. J McCormac et al. “SemanticFusion: Dense 3D semantic mapping with convolutional neural networks”. arXiv 1609.05130, 2016
-
4. R Arandjelovic et al. “NetVLAD: CNN architecture for weakly supervised place recognition”, CVPR 2016
-
5. B Ummenhofer et al., "DeMoN: Depth and Motion Network for Learning Monocular Stereo", CVPR 2017
-
6. R Li et al. “UnDeepVO: Monocular Visual Odometry through Unsupervised Deep Learning”. arXiv 1709.06841, 2017.
-
7. S Wang et al.,“DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks”, arXiv 1709.08429, 2017
-
8. R Clark et al. "VidLoc: 6-doF video-clip relocalization". arXiv 1702.06521,2017
-
9. R Clark et al. "VINet: Visual-Inertial Odometry as a Sequence-to-Sequence Learning Problem." AAAI. 2017
-
10. D DeTone, T Malisiewicz, A Rabinovich. “Toward Geometric Deep SLAM”. arXiv 1707.07410, 2017.
-
11. S Vijayanarasimhan et al.,“SfM-Net: Learning of Structure and Motion from Video”, arXiv 1704.07804, 2017
-
12. K Tateno K et al. “CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction”. arXiv 1704.03489, 2017.
-
13. J Zhang et al. “Neural SLAM : Learning to Explore with External Memory”,arXiv 1706.09520, 2017
-
14. Wu J, Ma L, Hu X. “Delving deeper into convolutional neural networks for camera relocalization”,IEEE ICRA, 2017
-
15. A Kar, C Haene, J Malik, “Learned Stereo Machine”, NIPS, 2017
-
16. P Huang et al.,“DeepMVS: Learning Multi-view Stereopsis”, CVPR 2018
-
17. Y. Yao et al., “Mvsnet: Depth inference for unstructured multi-view stereo”. ECCV, 2018.
-
18. Y Yao et al.,“Recurrent MVSNet for High-resolution Multi-view Stereo Depth Inference”, CVPR 2019
-
19. G Zhai et al.,“PoseConvGRU: A Monocular Approach for Visual Ego-motion Estimation by Learning”, arXiv 1906.08095, 2019
-
20. X Han, H Laga, M Bennamoun,“Image-based 3D Object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era”, arXiv 1906.06543, 2019
總結
以上是生活随笔為你收集整理的三维重建【一】——————(深度学习方式)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 求穆桂英挂帅豫剧歌词。
- 下一篇: 三维重建【二】————3D recons