实例分割:MaskXRCnn 与Visual Genome数据集
一、VG數據集
???? ??? 機器學習領域的突破突然讓計算機獲得了以未曾有的高精度識別圖像中物體的能力——幾乎達到了讓人驚恐的程度。現在的問題是機器是否還能更上層樓,學會理解這些圖片中所發生的事件。
???????? Visual Genome的新圖像數據庫有望推動計算機向這一目標挺進,并幫助衡量計算機在理解真實世界這一進程中的進步。教會計算機理解視覺場景是人工智能非常重要的基礎。它不僅能產生更多有用的視覺算法,也能幫助訓練計算機實現更高效的交流,因為語言與物質世界的表征具有非常密切的聯系。
???????? Visual Genome是由專業研究計算機視覺的教授兼斯坦福大學人工智能實驗室主任李菲菲與幾位同事合作開發的。“我們非常專注于一些計算機視覺領域里最困難的問題,這些問題能夠真正構建起感知到認知的橋梁。”李教授說,“并不只是輸入像素數據后理解其顏色、陰影這類東西,而還要將其轉換成對3D和語義視覺世界更全面的理解。”
???????? 摘自于知乎: VG數據集....
.............................
???????? Visual Genome中的圖像比ImageNet中的圖像擁有更多的標記,包括單張圖像中出現的多種物體的名稱和細節、這些物體之間的關系和正在發生的動作的信息。這些標記是通過李教授的斯坦福同事Michael Bernstein所開發的眾包方式完成的。李教授團隊的計劃是在2017年使用該數據庫推出一個類似于ImageNet的挑戰賽。
?????? ? 使用Visual Genome中的案例訓練的算法將不止能完成識別物體的任務,還應該擁有一定的分析更復雜視覺場景的能力。
Visual Genome is a dataset, a knowledge base, an ongoing effort to connect structured image concepts to language.
? ??????
截至 2018年03月05日,VG數據集達到條目 10萬張數據集
?2.關于Place數據集
????? ? Place數據集是另外一個標記場景的數據集,但貌似現階段只對整體場景進行標記,并沒有到對象檢測和分割的層面。
二、MaskXRCnn
?????? 圖片分割掩模Mask標注遠比實例Rect標注耗費更多的人力財力,因此使用有限的Mask標注和大量的Rect標注稱為訓練分割網絡的一個預期,因此引入偏監督學習。
?????? 基于偏監督學習的實例分割任務如下:
???? (1)給定一組感興趣的類別和一個有實例掩碼注釋的小的子集,而其他類別只有邊界框注釋;
???? (2)實例分割算法可以利用這個數據來擬合一個模型,該模型可以分割所感興趣的集合中的所有對象類別的實例。由于訓練數據是完整注釋數據(帶掩碼的示例)和弱注釋數據(僅帶框的示例)的混合,因此我們將該任務稱為偏監督任務。
?????? .........................
???????? 偏監督學習樣例流程的主要好處是它允許我們通過利用兩種類型的現有數據集來構建一個大規模的實例分割模型:那些在大量的類上使用邊界框注釋的數據集,比如Visual Genome, 以及那些在少數類別上使用實例掩碼注釋的,例如COCO數據集。正如我們接下來將要展示的那樣,這使得我們能夠將最先進的實例分割方法擴展到數千個類別,這對于在現實世界中部署實例分割是非常重要的。
???????? 為了解決偏監督的實例分割問題,我們提出了一種基于Mask R-CNN的新型遷移學習的方法。 Mask R-CNN非常適合我們的任務,因為它將實例分割問題分解為了目標的邊界框檢測和掩碼預測兩個子任務。這些子任務是由專門的網絡“頭部(heads)”共同訓練的。我們的方法背后的直覺是,一旦訓練完成了,邊界框頭部(the bounding box head)參數編碼嵌入到每個對象類別,使該類別的視覺信息轉移到偏監督掩碼頭部(the partially supervised mask head)參數上。
???? ? ? ...................................???????
???????? 下面的才是重點:
學習分割一切物體
假設集合C為一組對象類別(例如‘things’),我們要用這些類別來訓練一個實例分割模型。大多數現有方法假設C中所有的訓練實例都標有掩碼注釋。我們放寬了這個要求,只假設C=A∪B,也就是說:集合A中的類別實例都標有掩碼注釋,集合B中的類別實例只有邊界框注釋。由于集合B中的類別只帶有關于目標任務(實例分割)的弱標簽,我們將使用組合強標簽(strong labels)和弱標簽(weak labels)的類別來訓練模型的問題稱為偏監督學習問題。
注意:我們可以輕易地將實例的掩碼注釋轉換為邊界框注釋,因此我們假設A中的類別也帶有邊界框注釋。由于Mask RCNN這樣的實例分割模型都帶有一個邊界框檢測器和一個掩碼預測器,我們提出的
利用權重傳遞函數預測掩碼
................請看原始論文或者完整翻譯....
流程圖
?
參考:
Learning to Segment Every Thing
總結
以上是生活随笔為你收集整理的实例分割:MaskXRCnn 与Visual Genome数据集的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: oracle权限grant权限
- 下一篇: Linux 虚拟机Nat模式网络设置