论文精读2: Ground-to-Aerial Image Geo-LocalizationWith a Hard Exemplar Reweighting Triplet Loss
Ground-to-Aerial Image Geo-LocalizationWith a Hard Exemplar Reweighting Triplet Loss
-
Ground-to-Aerial Image Geo-LocalizationWith a Hard Exemplar Reweighting Triplet Loss
-
時間:2019 ICCV
-
作者:Sudong Cai
-
motivation
-
跨視角視覺定位的挑戰來源于巨大的域差異,以及未知的orientation 方向
-
需要確定難度等級,對難例的挖掘還不到位
-
-
idea
-
提出了一個 a novel in-batch reweighting triplet loss 一種新穎的三重態損失批量權重方法
- 可以強調難例的 positive effect 積極影響
-
將注意力機制 attention mechanism 嵌入到了模型
-
我們首先使用距離校正因子 distance retifying factor對三胞胎進行改進的logistic回歸。
-
然后,設置相應錨 anchor 的參考負距離 reference negative distances,并通過比較三個錨的難度與相應參考來計算三個錨的相對權重。
-
為了減少絕對難例的影響,以及相對沒用的簡單的例子,最終權重是使用upper and lower bound constraints 修剪過的
- 這個好像就是那個剪枝?
-
state of art本領域頂級
-
基于圖像的地理定位最近在自動駕駛、增強現實以及移動機器人領域獲得了很多的關注和應用
-
地對地的匹配很簡單,但是只是依靠汽車或者人群的視角很難覆蓋整個空間
-
地對空的問題存在于: 巨大的域差異 viewpoint differences, 光照的變化lighting variations 以及 朝向問題orientation (方位角,又稱地平經度(Azimuth angle,縮寫為Az),是在平面上量度物體之間的角度差的方法之一。是從某點的指北方向線起,依順時針方向到目標方向線之間的水平夾角。)
-
-
現在的模型開始通過CNN 模型訓練計算空域和地域圖片之間的特點相似度 similarities between features
-
此前已經證實過,參數共享的孿生神經網絡在這方面的表現很差
-
Vo 和 Hays 提出了一個基于軟余量距離的損耗和輔助網絡支路估計方向。soft-margin distance-based loss and an auxiliary network branch to estimate the orientation. 他們的模型非常魯棒,在面對隨機朝向問題的時候
-
本論文提出了一個可以根據難度等級,自動給triplets分配權重的方式,以此可以僅僅聚焦于informative hard exemplars
-
-
contributions
-
提出了一個新的triplet loss來提升訓練網絡的質量,可以實現在線的適應性的難例挖掘,實驗結果表明outperform普通的soft-margin triplet loss
-
提出了一個lightweight attention module FCAM 輕量級的注意力機制, 并且將他集成到一個基本的residual network 殘差神經網絡,來搭建了一個Siamese network 孿生神經網絡;效果更好點
-
訓練我們的孿生神經網絡,得到了差異化的CNN 特征,試驗結果表明很牛
-
-
Conclusion
- 同上面的contribution
-
提到的其他的論文里面的精華
-
Hand Crafted Feature Based Approach 手工制作特征
-
Bansal 等人從傾斜的航空圖像中提取建筑立面 building facades ,并通過匹配建筑立面面片進行地理定位。并且他通過編碼圖案的自相似度進行自相似編碼
- 結果證明S4特征比Scale Invariance Feature Transform SIFT表現更好
-
Viswanathan 把地域的圖片轉化為 top - down 的視角(讀一下),極大的提升了匹配的準確率;
-
事實證明,因為域差異巨大,手工制作特征的方法并不好用
-
-
Deep Learning Based Approaches 基于深度學習的方法
-
Lin 第一個把深度學習方法引入到跨視角視覺定位領域,他們使用了兩個孿生神經網絡 Where CNN 和 Where CNN DS,證明了確實比手工制作的效果高
-
Workman 引入了一個機器學習的方法,可以將空域圖片aerial images 進行語義上的表達,還提出了一種融合fuse不同空間尺度語義特征semantic features的CNN模型,他們的實驗再次證明了從空地域對訓練的結果,比自己提前制作好的現有的CNN的特征更好
-
一些網絡開始使用注意力機制,Altwaijry 把Spatial Transformer 集成到了一個孿生神經網絡AlexNet上,就是可以只關注重要的信息點進行計算,而不是整個圖片,效果證明為好
-
Tian 用 Faster RCNN構建了一個兩階段的框架,可以來檢測建筑;圖像由從建筑物斑塊推斷出的特征構建的主導集表示。優勢集的成對相似性是從孿生神經網絡中學習到的
-
就是通過只關注特定的部分,就可以加強CNN的魯棒性;但是他們的效率是低的
- 本文通過制定light weight feature輕量級的特征,來重制定注意力機制的權重。
-
-
后面的方法開始將對于metric和discriminative global image representations 度量學習和高分辨率全球圖片表示的(?)
-
Vo 添加輔助方向 auxiliary orientation regression branch回歸分支以實現旋轉不變性 rotation invariance (?)
-
CVM net 只使用top - 1 難例的挖掘確實遺漏了一些有信息的例子
-
-
開始講方法
-
提到了的兩個重要的主要的貢獻
-
Feature Context-based Attention Module (FCAM) 基于特征內容的注意力機制
-
Hard Exemplar Reweighting triplet loss 難例挖掘
-
-
里面的點
-
因為卷積操作,結合了channel 和 spatial information,來生成informative features;作者提出了一個 lightweight dual attention module 輕量級雙注意模塊
- 可以通過在頻道channel 和 spatial dimensions 空域的維度應用注意力機制,提升feature discriminativeness 特征的區分度
-
建立了兩個相同結構的CNN 特征提取器,分別對應地域和空域
-
把注意力機制嵌入到基礎的ResNet 中
-
參數不共享
-
又加了一個auxiliary Orientation Regression 輔助定向回歸(或)學習分支。
-
對于 channel attention,采取了Convolutional Block Attention Module 卷積塊注意模塊
-
Channel attention submodule
-
采用了這個頻道的注意力的子機制來挖掘頻道內部的CNN特征的依賴性
-
第一維和第二維都是使用最大池化和平均池化生成的
-
通過Multi Layer Perception MLP 來激發
-
-
是一個空間注意力 + 通道注意力
-
-
流程圖
-
Spatial attention submodule
-
用來標記有意義的
-
integrate feature context-aware learning into the basic spatial attention submodule of CBAM
-
并沒有用單一的7 x 7 的卷積,而是使用具有不同的感受野的卷積,來生成 intermediate feature masks 中間特征掩碼
-
簡單來講就是通過,頻道注意力機制channel和空域注意力機制spatial共同構建成的序列化結合
-
-
-
對于難例挖掘的
-
對有用的但是難的東西,引入了新的HER機制,給他們分配更大的權重,對于沒用的但是簡單的,就分配了小的權重
-
一種上下文感知的特征權重調整策略 context aware feature reweighting strategy 加了進去
-
原始的triplet loss
-
劣勢:
- 因為這個依賴 max - margin 來 truncate the penalization 截斷處罰陽性樣本和陰性樣本之間的距離是有限的
-
idea
-
address the limitation of generating penalization with max-margin
-
Vo的嘗試, 效果更好
-
我們的根據權重分配的
-
大概是這樣,就是加一個權重,在Vo的基礎上
-
Distance rectified logistic regression.
-
權重分配方法
-
對于極端難例,gap(i, k) = dn(i , k) ? dp(i ),
-
那么也就是說
-
-
-
-
-
-
-
-
總結
以上是生活随笔為你收集整理的论文精读2: Ground-to-Aerial Image Geo-LocalizationWith a Hard Exemplar Reweighting Triplet Loss的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 二进制里的「逢二进一」是什么意思
- 下一篇: 启动异常进入recovery模式