指哪分哪:交互式分割近期发展
?PaperWeekly 原創 · 作者|武廣
學校|合肥工業大學碩士生
研究方向|圖像生成
圖像分割在深度學習的加持下精度性得到不斷的提高,主要的分割任務集中在全自動分割的方法下進行,然而一些特定的任務往往是自動分割方法無法實現的。例如僅對感興趣的目標進行分割,在自動分割結果不夠好的情況下通過用戶介入矯正,特定醫療圖像的目標分割等。
此時,交互式分割則發揮著重要的作用,它可以在自動分割不充分的情況下通過用戶提供前景和背景的標記實現更加精細和特定位置的目標分割。本文將對交互式分割近年的發展進行梳理和介紹。
交互式分割簡介
交互式分割是用戶通過提供目標物體前景和背景信息實現交互式的監督分割。交互式分割往往是建立在自動分割的基礎上,對已有的監督信息中增加人為(模擬人為)的標記,實現更加精細的分割。圖 1 展示了通過指定前景和背景點實現的交互式分割。其中綠色點為前景標記點,紅色點為背景標記點。
▲圖1.前景背景點下的交互式分割
交互式分割作為圖像分割的一個重要分支也經歷了一定的發展。早期的分割和交互式分割是基于高斯混合模型和馬爾科夫隨機場實現。
通過基于馬爾科夫隨機場模型的圖像分割算法假設待分割圖像的像素只與其鄰域內的像素相關,與鄰域外的像素無關;基于該假設我們能定量計算圖像局部的先驗結構信息,并根據最大后驗概率準則(MAP),有效的利用像素間結構信息分割圖像。
依靠能量最小化的分割是定義一個能量函數E,其最小值對應理想的分割。由于前景和背景灰度水平直方圖和不透明度是連貫的,并能反映物體實體化的傾向。這樣獲得一個“吉布斯(Gibbs)”能量的形式。
隨著深度學習的發展,以GrabCut算法 [1] 為主,利用圖像中的紋理(顏色)信息和邊界(反差)信息,只要少量的用戶交互(提供前景標記框)操作即可得到比較好的分割結果。
我們知道,近年來的神經網絡朝著更大更深的方向發展,圖像分割的精度和細節愈發的逼近真實分割結果,本文將通過近年典型的幾篇交互式分割文章對該方法進行一定梳理和分析。
交互式分割近年典型方法
2.1 F-BRS
f-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation [2] 是 CVPR 2020 的文章,文章提出了一種新穎的反向傳播優化方案(f-BRS),該方案可在網絡的中間特征上運行,并且只需要對網絡的一小部分進行正向和反向傳遞。實驗結果在準確性和速度方面設定了最高的結果。
f-BRS 的優化過程可以通過以下 demo 進行演示。
可以看到,f-BRS 可以在得到交互式前景和背景的點擊下,在進行傳播的過程中,不僅可以從輸入進行反向傳遞也可以從相應的特征提取的模塊節點下進行反向傳播優化網絡,這將在推理上可以實現大幅度的速度提升,值得說的是后端優化的節點并沒有帶來多大分割精度上的損失。
我們看一下模型的實現細節,整個模型結構如圖 2 所示。
▲圖2.f-BRS模型結構
模型的輸入為原圖 image 和已經處理好的前景背景的點。如何處理好這些前景和背景的點呢,這就需要通過一個 Distance Maps 去實現,也就是圖上畫出來的。
說的通俗一點,這個 Distance 就是怎樣確定前景點和對應的 mask 上的區域,源碼下采用 num_max 作為前景點的最多個數,默認是 10 個。也就是最多在一個區域標記 10 個前景點和 10 個背景點,通過將這些點進行距離映射處理后得到與圖像尺寸相當的 channel 為 2 的距離圖。
得到 Distance Maps 后,我們的輸入就是對應的 Image 的,有人可能又要質疑了,你是怎么確定前景點和背景點的呢?處理前景點和背景點的任務其實是要人通過交互的輸入進行的。怎么去程序化呢?也就是讓電腦模擬人的輸入進行交互呢?
這其實很簡單的,就是通過已有的真實圖像的 Mask 去確定,Mask 在目標物體位置區域內是 1,否則全為 0。隨機選擇 1 的位置作為前景點,0 的位置作為背景點,允許重復的情況下選擇 10 個前景點和 10 個背景點(坐標(-1,-1) 的情況下表示放棄標點)。
文章在對數據進行增強的時候,利用了 Python 下的 albumentations 包,這是個專門實現數據增強的模塊,其中包括 Compose, ShiftScaleRotate, PadIfNeeded, RandomCrop, RGBShift, RandomBrightnessContrast, RandomRotate90, Flip。
對于后續的網絡架構,我們以 ResNet34 為例,對網絡進行了詳細展開,得到的結果如圖 3 所示,對模型中的 BatchSize 進行省略,輸入的圖像尺寸為 。
▲圖3.f-BRS基于ResNet34實現細節
中間的特征節點?f-BRS-A、f-BRS-B?和?f-BRS-C?在圖 3 中進行了標注,在進行部分反向傳播的時候,也是以這幾個節點為基礎進行操作。模型采用了較為成熟的 Skip project 和 ASPP 方法,這里還要再強調一下文章提出的?zoom in 方式,使用的 zoom in 分為 5 個階段。
階段一是確定目標下的邊界框
適度小的擴展找到的邊界框
通過得到的邊界框對圖像進行剪裁
上采樣得到的中心區域
再次預測邊界
Zoom in 方式的采用可以在不添加任何互動點擊的情況下得到更好的結果。同時 zoom in 的使用將之前已有的交互式分割方法也可以得到較好的提升,這種方式還是很值得借鑒的。
f-BRS 在 GrabCut、Berkeley、SBD 和 DAVIS 數據集上均取得了優異的結果。
▲圖4.f-BRS各數據集下實驗結果
2.2 Uncertainty-Guided
Uncertainty-Guided Efficient Interactive Refinement of Fetal Brain Segmentation from Stacks of MRI Slices [3] 是 MICCAI 2020(醫學圖像領域的頂會)一項工作,這是一篇典型的在自動分割的基礎上施加交互式分割的文章,我們先從整體的邏輯實施切入分析。
▲圖5.Uncertainty-Guided交互式分割流程
輸入的一張圖像通過自動分割得到初始的分割結果和一張不確定分割結果,所謂的不確定分割圖,就是網絡對某些部位是前景還是背景的懷疑程度,文章得到 N 個不確定分割圖,這 N 個不確定分割圖通過懷疑概率從高到低進行排列,由人為進行交互修正。
當用戶連續對 3 張不確定圖作出不需要修正的決定后便提前終止交互,輸出細化后的分割結果。在模型的網絡結構上采用基于分組卷積的 MG-Net。
▲圖6.Uncertainty-Guided模型結構
該模型實現了同時獲得多個分段預測和實時不確定性估計,在進行不確定分割結果的交互上通過從高到低的檢測方式,避免了對分割良好的結果進行不必要的手動檢查。可以這樣說,只要自動分割得到的初始化分割結果夠好,根本不用后續的不確定分割的參與,直接輸出。
正是不確定分割的引入,對網絡和細分割上進行了要求上的調整,只有滿足一定的人為修正次數或者人為認定不需要進行修正時,才能作為最后的結果輸出。這種設計正是交互式分割在處理細化分割上最應該實現的方式。
將 Uncertainty-Guided 應用在不同模型下的定量結果如下。
2.3 Refinement Network
Interactive Deep Refinement Network for Medical Image Segmentation [4] 提出了 RefineNet,這是一種用于醫學圖像分割的交互式深度優化網絡。主要目的是完善自動分割網絡產生的分割結果。
網絡由兩部分組成,第一部分是產生初始分割的分割主干;第二部分是優化網絡,該網絡結合了多尺度初始細分的功能和用戶的種子點。網絡可以在訓練階段自行生成種子點,并且僅在測試階段需要用戶的種子點。
這種方式不同于 Uncertainty-Guided 的不確定性分割,而是通過多尺度細分去實現交互式分割,模型結構框架如圖 7 所示。
▲圖7.Refinement Network模型結構
左半部分就是典型的 U-Net 網絡,文章的創新之處都在右半部分,由 U-Net 在不同尺度下得到各尺度下分割圖像。在不同尺度下反饋到交互指導圖(種子圖像),種子圖就是我們說的用戶的輸入的指示圖,也就是上圖中的右下角的圖像。
這個種子圖的獲取上,在訓練和測試階段是分開的,在訓練階段種子圖的獲取的方式是通過 GT(Ground Truth)和初始的分割圖進行相減,用圖 8 進行解釋。
▲圖8.前景點和背景點的確定
將兩個圖像相減會生成相減掩碼,由于都是二值圖像,指示每個像素為 -1、0 或 +1,得到的結果為 +1 遮罩稱為過分分割遮罩(此時判定為過分分割),而 -1 遮罩被視為分割不足遮罩(此時判定為分割不足)。
這反映在種子圖上就是用紅色標記背景,用藍色標記前景,回歸到結構框架上,種子圖通過 resize 指導不同尺度下的圖像進行修正。
在測試階段,一般交互式分割方法的主要缺點是用戶不知道困難區域,該區域主要是分割不足或分割過度,直到獲得初始分割結果為止。
初始分割是從第一個網絡生成的;通過初始分段,用戶可以觀察初始分割結果,對過度分割和分割不足的區域,并將它們用作輸入準則。與訓練階段的種子點不同,自動生成的種子點需要真實分割圖像,而人工種子點是從用戶輸入的。
Refinement Network 在分割實驗上取得了不錯的結果。
總結
本文就近年交互式分割下典型的三種模型進行介紹,以單純交互式分割 F-BRS、通過對自動分割后的不確定性的 Uncertainty-Guided 進行細致分割,以多尺度交互式細分分割的 Refinement Network。
F-BRS 反向傳播優化方案將大幅度提升分割速度,只需要對網絡的一小部分進行正向和反向傳遞。Uncertainty-Guided 設計的不確定分割圖是交互式分割的發展方向,也是一條很值得學習的方式,這種分組卷積的成功為以后設計的交互式分割提供了參考。
Refinement Network 通過 GT 與預測之間的相減確定是否過度分割或者分割不足的情況可以適用于很多的分割上,這種自動化的方式可以適用在背景和前景的交互指導上,可以對分割結果進行進一步的結果修正。
同時在各個尺度下的指導修正也是一個很值得利用的點,當獲得種子圖,可以通過 resize(此時的 resize 操作只是在標記點的映射,不影響種子點)進行不同尺度的調整。
大尺度可以 resize 到小尺度,小尺度的種子圖完全可以 resize 到大尺度,這個種子圖不受尺寸影響,得到的種子圖指導大尺度的話,可以得到更加合理的分割圖像。小尺度的連續,可以指導大尺度下的不連續,這種方式可以做一定程度的適用和改進。
參考文獻
[1] Rother C, Kolmogorov V, Blake A. " GrabCut" interactive foreground extraction using iterated graph cuts[J]. ACM transactions on graphics (TOG), 2004, 23(3): 309-314.
[2] Sofiiuk K, Petrov I, Barinova O, et al. f-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 8623-8632.
[3] Wang G, Aertsen M, Deprest J, et al. Uncertainty-Guided Efficient Interactive Refinement of Fetal Brain Segmentation from Stacks of MRI Slices[J]. arXiv preprint arXiv:2007.00833, 2020.
[4] Kitrungrotsakul T, Yutaro I, Lin L, et al. Interactive Deep Refinement Network for Medical Image Segmentation[J]. arXiv preprint arXiv:2006.15320, 2020.
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的指哪分哪:交互式分割近期发展的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 北京大学孙俊教授课题组深度视频研究室招收
- 下一篇: addlink 推出 G55 (H) 固