判断图像局部过暗_CVPR 2020丨基于记忆增强的全局局部整合网络:更准确的视频物体检测方法...
編者按:在視頻物體檢測任務中,由于相機失焦、物體遮擋等問題,僅基于圖像的目標檢測器很可能達不到令人滿意的效果。針對此類問題,微軟亞洲研究院提出了基于記憶增強的全局-局部整合網絡(Memory Enhanced Global-Local Aggregation, MEGA),它可以在只增加非常小的計算開銷的前提下,整合大量的全局信息和局部信息來輔助關鍵幀的檢測,從而顯著地提升了視頻物體檢測器的性能。在廣泛使用的 ImageNet VID 數據集中,此方法達到了截至目前的最好結果。
視頻物體檢測(video object detection),即在一段視頻中檢測出每一幀上的所有物體。相對于在靜止的圖像中尋找物體而言,在一段視頻中找到物體會面臨更多的困難:物體可能會遭遇相機失焦,物體遮擋等問題(圖1),因此如果只是簡單地將一個圖像檢測器用于視頻檢測,效果通常是不盡如人意的。
圖1:視頻中一些常見的問題
但反過來,在視頻中檢測物體意味著我們可以利用時序上的相關性來輔助我們進行檢測:人們可以根據一些歷史信息(比如說位置信息、語義信息),來判斷這個被遮擋的物體是什么。因此在視頻物體檢測中,如何利用好時序信息來輔助質量比較差的幀上的檢測是一個重要的研究方向。
一般來說,人類主要會通過兩類信息來輔助對質量較差的幀進行物體檢測,即局部定位信息與全局語義信息。如果物體在當前幀中難以定位,我們可以通過相鄰幀之中的類似物體或幀的差異來輔助定位,我們稱之為局部定位信息。如果我們難以判斷這一幀的物體的類別,我們可以通過從任意其他幀中找出與當前的模糊物體具有高度相似性(比如說顏色、形狀很像)的物體來輔助定位,此類信息被定義為全局語義信息。具體如下圖2所示。
圖2:人類可以利用的信息規模
從這個角度出發,我們發現目前的視頻物體檢測方法都僅單獨考慮了其中一種信息進行輔助目標檢測,雖然它們各自都取得了不錯的效果,但是如果能夠設計一種更加高效的信息融合方式來同時利用好兩類信息,那么模型的表現應該能夠更加出色。
除此之外,另一個在現存方法中存在的問題就是整合規模(aggregation scale),也就是關鍵幀能夠使用信息的范圍。因為計算資源的限制,不管是局部類還是全局類的方法,他們使用的幀的數量通常都只有20-30幀,換算成秒也就是1-2秒,整合規模的不足也局限了這些方法的有效性。
解決方案圖3:模型結構示意圖
我們分兩步來解決上文提到的兩個問題。
第一步:解決全局信息和局部信息單獨考慮的問題。我們設計了簡潔的基礎模型(圖3a)來完成這項任務。首先,我們使用區域候選網絡從關鍵幀的相鄰幀和全局幀中生成一些候選區域。第二是使用關聯模塊(relation module)將全局幀中候選區域對應的特征給整合到局部幀的候選區域的特征中。之后,局部幀內部會再過若干層關聯模塊得到增強后的關鍵幀特征。由此,我們的關鍵幀特征就同時得到了全局和局部兩方面的信息。
第二步:解決整合規模太小的問題。如果只有基礎模型,我們關鍵幀能夠得到的全局和局部信息仍然很少,以圖3a為例,全局和局部信息都只有4幀。為了解決這個問題,我們設計了一個簡潔高效的長時記憶模塊(Long Range Memory,LRM),在做完對某一幀的檢測后將其特征保存下來,并在下一幀的檢測中使用該特征來輔助檢測,由于關系模塊的多層結構,可以極大地增加了關鍵幀能夠看到的范圍,以圖3b為例,我們保留了長度為3幀的記憶,而由于其具有兩層的關系模塊,使得其整合規模從之前的8幀增長到20幀。
不僅如此,這兩部分結構還互相受益:長時記憶模塊使得關鍵幀能夠獲得更多的全局和局部信息,反過來,這些幀又能夠提供更加強大的記憶。
實驗結果我們在廣泛使用的視頻物體檢測數據集 ImageNet VID 上對我們的方法進行了實驗,表1總結了我們的方法與其他方法相比的表現。在本文新提出的模塊的輔助下,我們訓練出來的視頻物體檢測器取得了在該數據集上的至今最佳結果。
表1:總體實驗結果
為了驗證我們方法的有效性,我們做了充足的消融實驗。表2展示了我們的模型中各個模塊的作用,表3展示了全局信息和局部信息兩個缺一不可,表4則說明了超參數對模型整體表現的影響。
表2:各個模塊的作用
表3:全局信息與局部信息的作用
表4:超參數的設置
圖4是模型的一些可視化結果。可以看到我們的方法能夠克服許多困難的情形,得出不錯的檢測結果。
圖4:可視化結果
結語在本文中,我們提出了基于記憶增強的全局-局部整合網絡(MEGA),它從全局和局部兩方面出發,共同解決視頻物體檢測的問題。首先我們將全局特征整合到局部特征中,以解決無效的問題。之后,我們引入了新的長時記憶模塊(Long Range Memory, LRM)來解決整合規模太小的問題。在視頻物體檢測數據集 ImageNet VID 上進行的實驗表明,我們的方法取得了在該數據集上的至今最佳結果。
更多細節請參考原文:
https://arxiv.org/abs/2003.12063
代碼請參考:
https://github.com/Scalsol/mega.pytorch
你也許還想看:
總結
以上是生活随笔為你收集整理的判断图像局部过暗_CVPR 2020丨基于记忆增强的全局局部整合网络:更准确的视频物体检测方法...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java删除javaee_JavaEE-
- 下一篇: ubuntu linux本地源,如何制作