卷积神经网络语音识别_用于物体识别的3D卷积神经网络
本文提出了一種基于CNN的3D物體識別方法,能夠從3D圖像表示中識別3D物體,并在比較了不同的體素時的準確性。已有文獻中,3D CNN使用3D點云數據集或者RGBD圖像來構建3D CNNs,但是CNN也可以用于直接識別物體體積表示的體素。本文中,我們提出了3D CAD物體檢測。
相關工作
數據集
近年來,已有一些3D數據集可用。但是,這些數據集沒有像包含2D圖像的ImageNet1數據集那樣大。有許多合理大小的三維數據集。大多數三維數據集是基于點云的,這些點云是通過距離掃描器獲取的,比如ModelNet2、Sydney Urban Objects3、SUN-3D4。ModelNet數據集用于訓練和測試提出的CNN模型。ModelNet數據集包含來自662個不同對象類的127,915張CAD三維圖像。ModelNet40是ModelNet的一個子集,它是3D對象識別的基準,并分為9843個訓練圖像和2468個測試圖像中使用。在實驗中,我們還在ModelNet10上測試了我們的網絡。ModelNet10有10個對象類別,它是ModelNet40的一個子集。在實驗中,我們還在ModelNet10上測試了我們的網絡。ModelNet10有10個對象類別,它是ModelNet40的一個子集。
方法
通過從目標類中選擇最相似的特征,實現了三維CNN中的目標識別。對象識別過程可分為兩部分,即三維對象的數據表示和CNN對表示數據的訓練。我們在提出的架構中使用了三維體數據表示。大多數研究人員使用體素或點云方法來表示體積數據。我們在CNNs中使用了基于體素的數據表示。體素是在二進制“occupation grid”的幫助下生成的。與二維數據集相比,dataset提供的模型數量較少,因此,為了利用網絡,我們向模型提供了沿重力方向30°的旋轉。所有的體素都是由ModelNet 數據集中提供的網格模型渲染到12個不同的方向后生成的。本文所提出的網絡是Voxnet的改進版本。我們使用了兩種不同的網絡進行培訓。
網絡模型1
Network-1包括三個卷積層和兩個完全連接的層。大多數研究人員使用的體素大小等于或小于32×32×32。但是,我們認為32×32×32像素對于一個物體的準確預測是非常少的。在二維圖像任務中,實驗表明小于227×227的迭代對二維圖像中的目標識別任務效果不佳。為了充分利用網絡,我們使用體素有32×32×32、64×64×64、128×128×128三種不同尺寸。體素中的許多像素表示空單元,產生大量不必要的矩陣乘法(零值矩陣)。為了降低這一成本,我們使用5×5×5的核來代替體積CNNs中常用的3×3×3卷積核。卷積(layer)操作后使用ReLU和max-pooling(大小為2×2×2)層。池化層來減少過多參數的過擬合。為了避免數據過擬合,由于方向和相似的視圖,我們在第一個完全連接層之前使用dropout層,概率為0.5。
網絡模型2
網絡模型2的靈感來自AlexNet的網絡架構。它由五個卷積層和三個全連接的層組成。網絡模型2還使用了體素的多個視圖。我們以30度旋轉訓練網絡。除了池之外,此網絡具有network-1中使用的所有設置。為了訓練網絡,我們沒有使用網絡中池化層。在我們看來,池化可以在對象的形狀上產生歧義。Network-2幫助我們了解CNN的深度如何影響識別模型的性能。
實驗
該網絡使用ModelNet數據集進行訓練和測試。所有的三維CAD圖像都使用[19]提供的腳本在體素中轉換。我們測試了不同尺寸的體素32×32×32、64×64×64和128×128×128的網絡。我們分別實現了這兩個網絡,并比較了它們的結果。然而,兩種網絡的結果有非常小的差異。我們比較了ModelNet10和ModelNet40數據集的體素大小相同的結果。結果表明,高分辨率體素提高了識別任務的精度。與VoxNet相比,我們的模型具有更好的精度。然而,VoxNet在其架構中只有不到100萬個參數,而我們的network-2有超過200萬個參數。我們訓練network-2不使用pooling來測試pooling對volume - CNN的效果。但結果表明,池化層對結果沒有顯著影響。池化層對性能沒有影響的原因之一是,用于訓練和測試的所有體素都是實心的。ModelNet數據集中沒有一個對象模型,它具有空心對象。結果如圖4所示,圖5為損耗和精度。
結論
本文描述了基于體素的三維數據表示的三維數據識別任務。分析了CNN在不同體素尺寸下的性能。分析進一步設計新的網絡和測試不同大小的體素,以找到適合CNN操作的大小。實驗結果表明,體素的大小直接影響目標識別任務。但是另一方面,增加體素的大小會在容量CNN架構中造成性能瓶頸。為了克服這一問題,我們應該探索一種關于時間和空間的優化數據結構來處理體素的大尺寸。
總結
以上是生活随笔為你收集整理的卷积神经网络语音识别_用于物体识别的3D卷积神经网络的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 查看环境列表_Xfce 4.14桌面环境
- 下一篇: 学生票多少钱啊?