ECCV 2020 Spotlight | 图像定位上的细粒化区域相似性自监督
?PaperWeekly?·?作者|葛藝瀟
學校|香港中文大學博士生
研究方向|圖像檢索、圖像生成等
本文介紹一篇我們發表于 ECCV 2020 的論文,很榮幸該論文被收錄為 spotlight presentation。我們針對大規模圖像定位中的弱監督問題提出有效的解決方法,旨在通過自監督學習的方法充分挖掘表征學習中的難樣本,并進一步將圖像級監督細粒化為區域級監督,以更好地建模圖像與區域間的復雜關系。
利用該算法訓練的模型具有較強的魯棒性和泛化性,在多個圖像定位數據集上進行了驗證,Recall@1 準確度大幅超越最先進技術高達 5.7%,代碼和模型均已公開。
論文標題:Self-supervising Fine-grained Region Similarities for Large-scale Image Localization
論文來源:ECCV 2020
論文鏈接:https://arxiv.org/abs/2006.03926
代碼鏈接:https://github.com/yxgeee/OpenIBL
項目主頁:https://geyixiao.com/projects/sfrs
視頻介紹(簡要版):https://www.bilibili.com/video/BV1Y54y1q7CL/
視頻介紹(完整版):https://www.bilibili.com/video/BV1Da4y1E79q
背景簡介
圖像定位
給定一張目標圖像,圖像定位(Image-based Localization)技術旨在不借助 GPS 等額外信息的情況下估計出圖像所在的地理位置,該技術被廣泛應用于 SLAM、AR/VR、手機拍照定位等場景。
目前針對圖像定位的研究主要可以分為三個方向,分別為基于圖像檢索的、基于 2D-3D 匹配的和基于地理位置分類的算法。其中基于圖像檢索(Image Retrieval)的方案在大規模(Large-scale)的長期圖像定位(Long-term Localization)上可行性更高,所以該工作針對基于圖像檢索的定位問題展開了研究。
基于圖像檢索的圖像定位
基于檢索的圖像定位問題旨在通過從城市級規模的數據庫中識別出與目標圖像最相似的參考圖像,從而通過參考圖像的地理位置(GPS)來估計目標圖像的地理位置。基于檢索的圖像定位問題也被稱為地點識別(Place Recognition)。
挑戰 #1
圖像定位的數據集目前主要主要分為兩種,一種是直接從街景地圖(谷歌街景圖、百度街景圖等)中對圖像和相應的 GPS 標簽進行爬取,這種類型的數據集無需人為標注,零成本,易于收集和進行規模提升;另一種是具有 6DoF 相機位姿的數據集,該類數據集通常通過自動駕駛車進行收集,收集成本較高。該工作以前者為基準開展研究,即在僅有 GPS 標簽的情況下進行基于檢索的圖像定位算法研究。
圖像檢索的關鍵在于如何學習到具有辨別性的圖像特征,而在模型的訓練中往往都需要有正樣本和負樣本。具體來說,模型需要學習讓目標圖像的特征靠近正樣本而遠離負樣本。在僅有 GP S的圖像定位數據集中,我們可以首先通過 GPS 進行篩選,比如 GPS 相距 10m 以內的圖像為潛在正樣本(Potential Positives)。
但是,如下圖所示,當地理位置上較近(GPS 較近)的圖像在面向不同方向時,并不會拍攝到同樣的場景,所以僅靠 GPS 進行過濾的潛在正樣本中仍然具有很多假性正樣本(False Positives)。所以在模型訓練中,這被定義為一個弱監督學習問題。
以前的方法
如果在訓練中讓目標圖像靠近假的正樣本,會導致嚴重的誤差放大,乃至模型崩潰。所以,如下圖所示,現有的訓練算法 [2, 3] 讓目標圖像靠近潛在正樣本中特征距離最近的圖像,也被稱為 top-1/最相似圖像。
雖然這樣的方法可以有效減少假性正樣本出現的概率,但是,讓模型學習靠近已經是最相似(也就是最簡單)的正樣本,會使得訓練的模型缺乏適應多種條件(光照、角度等等)的能力,降低模型的魯棒性。
動機
我們認為,困難的正樣本(Difficult Positives)在表征學習中不可缺少。但是,簡單地使用 top-k 圖像(這里 top-k 指的是利用特征距離進行排序后的 top-k 數據庫圖像)作為正樣本進行學習具有較大的噪聲。
如下圖所示,top-k 的圖像中無法避免地包含一些假性正樣本,在對比實驗中我們也發現,簡單地采用 top-k 圖像進行訓練,結果還不如上述只學習 top-1 的現有方法。所以,問題的關鍵在于,如何合理地使用 top-k 圖像,在挖掘困難正樣本的同時,減輕假性正樣本對模型訓練帶來的干擾。
解決方法
我們提出利用目標圖像與數據庫圖像之間的相似性作為軟標簽對模型訓練進行監督。具體來說,對于假性正樣本,或具有較小重疊區域的正樣本,我們希望設置較小的相似性標簽;而針對與目標圖像重疊區域較大的正樣本,我們希望設置較大的相似性標簽。這樣的話,在相似性標簽的監督下,模型可以模擬出目標圖像與不同匹配圖像之間距離關系,從而有針對性地進行表征學習。
那么,如何獲得相似性標簽呢?直接通過當前模型的數據進行預測是不可行的,這就類似于自己站在自己的腳上,既沒有夠到更高的區域,反而會站不穩(導致誤差放大)。所以,我們提出,通過迭代訓練(Training in Generations)的方案,將第一代模型的輸出作為第二代模型的監督,以此類推。
請注意,這里的“代”指的是一個模型從初始化訓練到收斂的整個過程。如下圖所示,第一代模型通過與現有算法一致的方案進行訓練,訓練收斂后,建立并初始化第二代模型,并使用固定的第一代模型進行相似度標簽的估計,用以訓練第二代模型。預測的相似度標簽準確性和模型的辨別性隨著訓練的迭代不斷更新和提升,從而形成自監督的過程。
迭代訓練的思路與自蒸餾(Self-distillation)的算法 [4, 5] 比較相關,不同的是,自蒸餾的算法主要針對分類問題,對具有固定類別數目的分類預測值進行蒸餾,而我們成功地將迭代訓練的思路應用于圖像檢索問題,在表征學習的過程中利用我們提出的相似性標簽進行信息迭代。具體公式在這里就不做展示了,感興趣的同學可以查閱原論文。
挑戰 #2
問題與動機
上文,我們討論了如何合理地挖掘困難正樣本,并減輕假性正樣本對訓練造成的干擾。但是,我們發現,即使是真的正樣本,與目標圖像之間仍然存在不重疊的區域,該區域在困難正樣本中尤為顯著。
如下圖左邊所示,只使用圖像級的監督會使得目標圖像與正樣本圖像的所有局部特征都趨向于相似,這樣的監督會損害局部特征的辨別性學習。所以,我們提出,理想的監督應當為區域級的監督,如下圖右邊所示,讓正樣本中的正區域(Positive Regions)靠近目標圖像,而負區域(Negative Regions)遠離目標圖像。
解決方法
為了實現區域級的監督,我們將匹配的正樣本分解為 4 個二分之一區域和 4 個四分之一區域,并將圖像-圖像間的相似性監督細粒化為圖像-區域間的相似性監督,以上文中所述迭代訓練的方式進行學習。具體來說,第一代模型所預測的圖像-區域的相似性標簽用于監督第二代模型的圖像-區域學習。
實驗結果
下圖是實驗結果,我們的模型只在一個數據集(Pitts30k-train)上進行了訓練,可以很好地泛化到不同的測試集上,例如在 Tokyo 24/7 和 Pitts250k-test 上均取得了最先進的精度。其中,Tokyo 24/7 數據集難度最大,因為圖像的光照、角度、拍攝裝置等條件都具有很強的多樣性,我們在 Recall@1 準確度上超出此前最先進的 SARE 算法(發表于 ICCV’19)5.7% 個點。
上圖中的模型及訓練測試代碼均已開源。同時,我們還開源了基于 PyTorch 的 NetVLAD [2] 和 SARE [3] 復現(官方代碼基于 MatConvNet),方便大家后續的研究與開發,歡迎大家 watch/star/fork。
參考文獻
[1] Y. Ge, et al. Self-supervising Fine-grained Region Similarities for Large-scale Image Localization. ECCV, 2020.?
[2] R. Arandjelovic, et al. NetVLAD: CNN architecture for weakly supervised place recognition. CVPR, 2016.?
[3] L. Liu, et al. Stochastic Attraction-Repulsion Embedding for Large Scale Image Localization. ICCV, 2019.?
[4] T. Furlanello, et al. Born Again Neural Networks. ICML, 2018.?
[5] Q. Xie, et al. Self-training with noisy student improves imagenet classification. CVPR, 2020.
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的ECCV 2020 Spotlight | 图像定位上的细粒化区域相似性自监督的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SamMobile 推测:三星拉联发科组
- 下一篇: 南海大沥盐步河西黎边村停电?