【图像分割模型】BRNN下的RGB-D分割—LSTM-CF
這是專欄《圖像分割模型》的第10篇文章。在這里,我們將共同探索解決分割問題的主流網絡結構和設計思想。
深度信息的引入往往會給分割帶來更好的結果。之前提到的ENet除了直接變成ReSeg分割網絡,同樣也可以結合RGB-D信息實現更準確的分割。
作者 | 孫叔橋
編輯 | 言有三
本期論文:《LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling》
?
1 RGB-D分割
前面我們已經討論過許多基于RGB信息的分割網絡了,今天就來談談RGB-D分割。RGB-D分割中的D指的是“Depth”,即“深度”,也就是相機到物體在實際空間中的距離。
那么既然RGB信息已經能夠實現分割,為什么要用到深度信息呢?原因很簡單:引入深度信息后,其提供的額外結構信息能夠有效輔助復雜和困難場景下的分割。比如,與室外場景相比,由于語義類別繁雜、遮擋嚴重、目標外觀差異較大等原因,室內場景的分割任務要更難實現。此時,在結合深度信息的情況下,能夠有效降低分割的難度。
雖然道理容易,但是如何實現RGB-D分割還是有些問題需要解決的:
如何有效地表述和融合共存的深度和光度(RGB)數據
如何在特征學習過程中有效獲取全局場景上下文
下面我們就通過LSTM-CF網絡結構來了解一下,如何實現RGB-D下的分割。
?
2 LSTM-CF
上一篇文章我們已經介紹過了ReNet,這里簡單回顧一下。ReNet是通過在兩個正交方向上級聯應用RNN來獲取圖像中的2D依賴項。ReNet的具體實現方式如下圖所示:
?
基于ReNet,LSTM-CF利用長短時間記憶和DeepLab實現分割。LSTM-DF主要包括四個部分:用于豎直深度上下文提取的層,用于豎直光度上下文提取的層,用于整合光度和深度上下文成2D全局上下文的記憶融合層,和像素級場景分割層。
下圖是LSTM-CF網絡模型:
輸入深度信息后,LSTM-CF利用HHA描述,將深度信息轉換成視差、表面法線和高這三個通道的信息。隨后,利用ReNet提取不同方向上的上下文信息,并在兩個方向進行雙向傳播。
與此同時,對于RGB通道信息,網絡利用如上圖所示的卷積結構提取特征,利用插值將各級特征恢復到相同分辨率下,并級聯。之后,同樣利用ReNet獲取上下文信息。
細心的讀者可能注意到了,RGB通道比深度通道多出了兩層。這是因為,考慮到光度圖像比離散、稀疏的深度圖像包含的信息多,網絡對光度圖像分支給予更多的關注。
概括起來,LSTM-CF的分割流程可以總結為下圖的形式:
?
?
3 實驗結果
為了驗證深度信息和長短信息記憶等模塊對于分割任務的影響,LSTM-CF對網絡結構進行了剝離實驗。下圖是實驗結果:
?
可見,分割的主要精度還是來源于RGB信息的,但是引入了深度信息和上下文信息后,網絡的精度能夠得到一定的提升。
下圖是LSTM-CF在SUNRGBD數據庫下的實驗結果:
?
第一行為圖像,第二行為真值,第三行為LSTM-CF分割結果
經過10期的介紹,語義分割問題上應該了解的基礎網絡結構就基本說完了。下一期我們來聊聊與語義分割稍有差異的實例分割網絡結構。
本專欄文章:
第一期:【圖像分割模型】從FCN說起
第二期:【圖像分割模型】編解碼結構SegNet
第三期:【圖像分割模型】感受野與分辨率的控制術—空洞卷積
第四期:【圖像分割模型】快速道路場景分割—ENet
第五期:【圖像分割模型】以RNN形式做CRF后處理—CRFasRNN
第六期:【圖像分割模型】多感受野的金字塔結構—PSPNet
第七期:【圖像分割模型】全局特征與局部特征的交響曲—ParseNet
第八期:【圖像分割模型】多分辨率特征融合—RefineNet
第九期:【圖像分割模型】用BRNN做分割—ReSeg
第十期:【圖像分割模型】BRNN下的RGB-D分割—LSTM-CF
第十一期:【圖像分割模型】實例分割模型—DeepMask
第十二期:【圖像分割模型】全景分割是什么?
感謝各位看官的耐心閱讀,不足之處希望多多指教。后續內容將會不定期奉上,歡迎大家關注有三公眾號 有三AI!
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的【图像分割模型】BRNN下的RGB-D分割—LSTM-CF的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【周报6.10-6.16】NLP,RL,
- 下一篇: 【图像分割模型】实例分割模型—DeepM