【翻译】HyNet: Learning Local Descriptor with Hybrid Similarity Measure and Triplet Loss
一篇很nice的論文
大部分機翻,可能有不通的地方,建議結合原文一起看
基于Hybrid Similarity Measure和Triplet Loss的局部描述子學習
摘要
最近的研究表明,局部描述符學習得益于L2歸一化的使用,然而,文獻中缺乏對這種效應的深入分析。在本文中,我們研究了L2歸一化如何影響訓練期間的反向傳播描述符梯度。根據我們的觀察,我們提出了一個新的局部描述符HyNet,它可以在匹配方面帶來最先進的結果。HyNet引入了一種混合相似性度量,用于度量三態邊際損失,一個正則化項約束描述符范數,以及一種新的網絡體系結構,該體系結構對所有中間特征映射和輸出描述符執行L2正則化。在包括補丁匹配、驗證和檢索在內的標準基準上,HyNet大大超過了以前的方法,并且在3D重建任務上優于完整的端到端方法。代碼和模型可在https://github.com/yuruntian/HyNet上找到。
1介紹
局部特征檢測器和描述符在許多計算機視覺任務中發揮著關鍵作用,如三維重建[39]、視覺定位[38,42]和圖像檢索[1,33,29]。近年來,聯合檢測與描述[51,30,10,11,34,22,25,13,45,5]引起了廣泛的關注。盡管端到端檢測和描述的想法很誘人,但經典的兩階段策略在許多計算機視覺任務中經受住了多年的測試,仍然在標準基準測試中具有競爭性能[7,2,40,18]。此外,定制的匹配器[27,36,35,6,37]也有助于提高匹配性能,其中時間復雜度至關重要。盡管在端到端方法方面取得了進展,但兩階段過程仍然值得注意,因為它常常導致整個匹配系統的有競爭力的結果。
深度描述符[43,3,46,26,19,15,47,54,53]在不同的任務中[2,18,7,40]顯示出優于手工制作的描述符[23,50]。目前的工作主要集中在改進損失函數或采樣策略上。L2-Net[46]引入了帶n對損失的漸進批量采樣。HardNet[26]使用了一個簡單但有效的硬負面挖掘策略,證明了抽樣的重要性。除了對比或三重損失,DOAP[15]采用基于檢索的排名損失。GeoDesc[24]集成了多視圖重建的幾何約束,有利于訓練。除了一階優化外,SOSNet[47]表明二階約束進一步改進了描述符。
描述符的L2歸一化可以帶來持續的改進,這已經被廣泛觀察到。描述符的L2歸一化方法[46,26,15,12,47,56,54]明顯優于早期的非規范化描述符[43,3]。此外,即使是手工制作的描述符也可以通過L2歸一化[2]進行改進。所有這些觀察結果表明,描述符的矢量方向比大小(L2規范)更能區分,在其他特征嵌入任務中也可以發現類似的結論[49,9,21].
因此,我們從梯度的角度分析了L2歸一化對學習的影響。由于每一層的梯度都是通過鏈規則[14]生成的,所以我們在鏈的開頭分析它們,在那里它們是由給定的相似性度量或距離度量生成的。我們的直覺是梯度方向應該有利于描述子方向的優化,而梯度大小應該適應訓練樣本的硬度水平。因此,引入了HyNet,以更好地利用梯度信號的方向和幅度。
盡管損耗函數的設計不斷發展,但三態損失仍被應用于最先進的局部描述符中[26,47]。此外,在各種嵌入任務中,如人臉識別[41,31]和人的再識別[8,16],三態損失也得到了顯著的普及。在[28]中一個有趣的觀察表明,從經典的對比和三態損失的改善是微小的的。在這項工作中,我們進一步表明,最先進的局部描述符可以通過三態損失與一個更好設計的相似性度量來學習。具體而言,我們提出:1)混合相似度度量,可以平衡正樣本和負樣本的梯度貢獻;2)正則化項,為描述符規范提供適當的約束;3)一種新的網絡結構,能夠L2正則化中間特征映射。
2梯度分析
在本節中,我們將探討廣泛使用的內積和L2距離如何為訓練歸一化和非歸一化描述符提供梯度。
2.1預賽
我們將L(t(x, y))表示為描述符對(x, y)的損失,其中(-,.)可以是相似性度量或距離度量。為了保證本文后面的一致性,我們將距離度量也稱為相似度量,盡管它度量的是逆相似度。無論(x, y)是正的(匹配的)還是負的(不匹配的),相對于描述符的梯度計算如下:
為了清楚起見,省略了(x, y)。重要的是,網絡中可學習權值的梯度是在鏈的最開始的Eqn.(1)中推導出來的,在訓練過程中起著關鍵作用。注意,這是一個標量,而梯度的方向是由w的偏導數決定的。對于有或沒有L2歸一化的描述符,我們考慮最常用的內積和L2距離:
式中為L2范數(= Vx),原始描述符s和d為內積和L2距離,s和d為規范化描述符。請注意,我們認為L2標準化是相似度量的一部分。
圖1:在方程3中導出的梯度下降方向,正負對為+和-。9是描述符之間的夾角。黑色箭頭:L2正?;暗拿枋龇<t色箭頭:從a開始的梯度下降方向。綠色箭頭:從a開始的平行分量。藍色箭頭:從A1開始的正交分量。顏色更好看。
然后得到偏導數:
在下面的章節中,我們將根據方向和幅度來分析上述梯度。
2.2梯度方向
最優梯度方向是收斂的關鍵,即無論學習速率如何,給定不正確的梯度,學習過程都不會收斂。我們表示1,其中A為總梯度方向,A和A分別為平行分量和正交分量。根據Eqn。(3),得到A = xT = 0, yT = 0, xTad = 0, yT ad = 0,即梯度始終正交于描述子,說明L2規范化描述子只有AL。同時,非規范化描述子的兩個分量都是非零的。為了更好的理解,我們在圖1中說明了二維描述符和相應的梯度下降方向(梯度負方向),其中e是描述符之間的夾角。具體來說,A修改描述符的大小(L2規范),而A1更新描述符的方向。然而,由于描述符的大小可能對匹配有害(見第1節),訓練應該集中于描述符方向的優化,這可以通過L2規范化描述符實現。一個有趣的問題是是否有可能更好地使用a。我們在3.1節中解決了這個問題,并說明了詳細的分析會導致提高性能的訓練約束。
2.3梯度大小
訓練梯度不僅要有最優的方向,而且要有適當的尺度。強度應該適應訓練樣本的“硬度”水平,即,硬樣本應該比簡單樣本得到更強的更新。我們專注于L2正則化描述符,其梯度具有最佳方向。我們表示-和v=作為兩個用L2標準化的描述符。進一步,s和d表示為描述符之間夾角的函數:u
圖2(a)顯示了HardNet和SOSNet在訓練中的9個分布,即這兩個模型都是在Liberty上進行訓練和測試的。注意,從等式4中,梯度級數是周期為n的周期函數。如圖所示,幾乎所有硬正負在[0,T/2]范圍內都有9。因此,我們觀察了gs和ga在[0,T/2]范圍內的行為,如圖2(b)所示。
梯度不同,即gs是單調遞增的,而ga是遞減的。這說明gs更有利于正面的優化,因為硬正面(大0→T/2)比容易正面(小9)產生更大的梯度。相反,ga傾向于負面,因為硬負面(小9)比容易負面(大0)產生更大的更新。這些觀察結果得出的結論是,無論是內積還是L2本身都無法平衡優化的正面和負面。
同樣值得注意的是,根據Eqn。(1),將整體梯度幅度進一步加權,這意味著較好的L形式可以緩解gs和gd的固有缺陷。因此,在第3.2節中,我們展示了一種精心設計的相似性度量方法可以在標準三態損失下獲得最先進的性能。
3方法
基于上一節的分析,我們建議通過以下方式改進描述符學習:1)引入一個正則化項,它提供了一個有益的a; 2)一種混合相似度度量,它可以在梯度更新的正負貢獻之間取得平衡;3)一種新的網絡架構,將模擬輸出描述符的中間特征圖標準化,使它們在方向上而不是幅度上得到優化。
3.1 L2 Norm regularization
第2.2節表明L2歸一化排除了平行梯度A,也就是說,描述子規范沒有約束,它可以隨著圖像強度的縮放而變化。直觀地說,a對優化做出積極貢獻的一種可能方式是在L2歸一化之前引入以下約束:
x;和xt是L2歸一化之前的一對正描述符。RL作為一種正則化術語,驅動網絡對圖像強度變化(如不同光照引起的圖像強度變化)具有魯棒性。
3.2混合相似測度與三態損失
最近在改善標準三態損失方面的努力包括對三聯體進行智能采樣[26,52]和自適應裕度[55,55]。相比之下,我們探索用混合相似性度量來增加三重態損失,這樣可以產生更好的梯度。如2.3節所述,s和d分別傾向于正樣本和負樣本,因此我們提出了一個混合樣本相似度量sH可以在兩者之間取得平衡。
其中a是一個范圍為0到+oo的標量,調整s和d之間的比率,Z是標準化因子,確保梯度的最大幅度為1。從梯度的角度,當邊界約束在等式中。(6)不滿足時,得到aCTriplet (Triplet) = 1,否則為0。因此,s' h (e)和s'(0)是直接相關的?sн(0) ?sн(0)到梯度大小。我們將在第五節展示Eqn。(6)在平衡梯度方面的性能優于其他可能的解決方案。最后,我們的總體損失函數定義為:
其中,y作為正則化參數,以及平衡s和d的貢獻。最優a可以通過第5節中討論的網格搜索來找到。
3.3網絡體系結構
在L2-Net[46]的工作中,作者表明扁平化的特征地圖可以像最終描述符一樣被優化。因此,我們受到啟發,將第2節的觀察結果推廣到中間特征圖。我們建議為不同的層更好地控制梯度,而不是構建額外的損失函數。由于特征圖也是高維空間中的特征向量,所以仍然可以應用之前的梯度分析方法。我們的目標是通過L2正常化為所有層的特征圖生成正交梯度,這樣它們就可以在模仿描述符的方向方面得到更好的優化。為此,我們可以直接采用現成的Filter Response Normalisation(FRN)[44],它最近被提出,在分類任務中顯示出了很有前景的結果。FRN的核心思想是L2歸一化具有可學習仿射參數的中間特征映射。具體來說,FRN通過以下方法對feature map的每一層進行歸一化:
其中y和B為學習參數,f為第i個通道的平展特征圖,N為像素數。請注意,[44]中還提出,在FRN之后,梯度w.r.t. f總是正交的,這適合我們的場景。我們將在第5節中展示,盡管FRN可以提供一般的性能提升,但它與提議的混合相似度更兼容。
我們的HyNet架構基于L2-Net[46],它由7個卷積層組成,輸出128維描述符。如圖3所示,在原始L2- net中,除了最終L2歸一化之前的最后一層外,所有的批處理歸一化(Batch Normalisation, BN)[17]層都被FRN層取代。此外,正如[44]中建議的那樣,每個FRN后面是閾值線性單元(TLU),而不是傳統的ReLU。因此,HyNet具有與HardNet[26]和SOSNet[47]相同數量的卷積權值。
4實驗
我們的新架構和培訓是在PyTorch[32]中實現的。該網絡被訓練為200個epoch,批量大小為1024,Adam優化器[20]。從scratch培訓,每一層TLU中的閾值T用-1初始化。我們設a = 2 和y = 0.1。在接下來的實驗中,我們將HyNet與目前三種標準下的深度局部描述符[3,46,26,47]和端到端方法[10,11,34]進行了比較基準 [7, 2, 40].。
4.1 UBC驗證
UBC數據集[7]由三個子場景組成,分別是Liberty、Notredame和Yosemite。基準測試主要關注補丁對的驗證任務,即匹配結果是正的還是負的。按照評估協議[7],在一個子集上訓練模型,并在其他兩個子集上測試模型。在表1中,我們報告了在六個訓練和測試分段上95%召回率(FPR@95)[7]的誤報率標準測量。我們可以看到,雖然性能接近飽和,但HyNet仍然比以前有顯著的改進方法。
4.2 HPatches匹配
HPatches數據集[2]評估三個任務,patch驗證,patch檢索,以及局部patch之間的視點和光照變化的圖像匹配。根據幾何噪聲水平的不同,將結果分為易、硬、硬3類。
圖4:HPatches[2]測試集'a'上的結果在這個基準測試中,HyNet在所有指標上都優于最先進的SOSNet[47]和其他本地圖像描述符。
我們將結果顯示在圖4中,其中所有模型都是在Liberty上訓練的,Liberty是[2]中提出的協議。HyNet對MAP進行了大幅度的改進,在之前最先進的SOSNet[47]中,三個任務分別為0.89、2.35和1.75。請注意,SOSNet對其前身HardNet[26]的改進在發布時分別為0.03、0.96和1.14。
4.3 ETH結構從運動
ETH SfM基準[40]對戶外場景的Structure from Motion (SfM)任務中的局部描述符進行評估。為了量化SfM質量,在表2中,我們遵循[40]的協議,報告配準圖像的數量、重建的稀疏和密集點、平均跟蹤長度和平均重投影誤差。首先,我們將HyNet與HardNet[26]和SOSNet[47]進行比較,使用從DoG檢測器中提取的相同的局部補丁,虛線上方顯示。由于檢測器是固定的,所以結果反映了描述符的性能。為了確保公平的比較,HardNet、SOSNet和HyNet都是從UBC數據集[7]上在Liberty上訓練的。在這個基準測試中,HyNet通過為大場景注冊更多的圖像和重建更多的空閑點,顯示出了顯著的優勢,而其他指標的結果與性能最好的描述符相當。接下來,我們將HyNet與最近的端到端方法,即SuperPoint[10]、D2-Net[11]和R2D2[34]進行比較。??
DoG+HyNet在更大的場景中表現得更好,例如,馬德里大都會和憲兵市場,在3D中,它提供了超過50%的重建稀疏點。值得注意的是,在SfM任務中,配準圖像和重建點的數量對三維模型的質量至關重要。此外,結果還表明,HyNet對最先進的探測器KeyNet提供的不同補丁有很好的推廣效果 [4],其中平均軌道長度增加了一些場景。
5討論
在本節中,我們首先研究HyNet的每個構建塊對整體性能的貢獻。
消融研究如表3所示,它顯示了L2范數正則化項RL2、相似性度量和特征地圖歸一化如何影響性能。具體來說,我們在Liberty[7]上訓練不同的模型,在Hpatches[2]上報告平均MAP匹配任務。
首先,我們可以看到RL2有助于提高性能,這證明了我們的直覺認為它是最佳的米塞斯使網絡對強度變化具有魯棒性。接下來,我們將sH與等式中的s和d進行比較。(7),其中每個相似度的最佳結果(通過網格搜索最優邊際)被報告。sH比s和d分別提高了1.87和0.78,表明其在平衡正和梯度量級上的有效性
圖5:(a)參數a對擬混合損耗的影響。(b)不同a的擬議HyNet損失的梯度幅度。(c)將擬議損失與其他結合內積和L2損失的變體進行比較。
最后,將過濾器響應歸一化(FRN)[44]與批處理歸一化(BN)[17]和實例歸一化(IN)[48]進行比較,在這些方法中,已有的方法使用了帶有BN的網絡[46,26,47,15]。FRN至少超過BN和IN 1.5倍,這表明L2歸一化中間特征映射的優勢。綜上所示,我們將RL2、SH和FRN結合在一起,達到了最好的效果。此外,為了證明FRN更符合我們提出的混合相似度,我們用HyNet架構對HardNet和SOSNet進行了重新訓練。如圖所示,HyNet的MAP比FRN提高了1.93,而HardNet和SOSNe的MAP分別為1.33和1.10。通過網格搜索研究了a和m的影響,如圖5(a)所示,其中當a = 2, m = 1.2時,HyNet的性能達到最佳。此外,我們通過改變a在圖5(b)中繪制梯度幅度gHls'(0)|??梢钥吹?#xff0c;對于gs(9), a = 2的曲線介于α = +oo和ga(e)的a = O之間,平衡了正負的貢獻。其他可能的解決方案包括:
CA用s表示正的,d表示負的,這是自適應梯度幅度最直接的方法。同時,Cs疊加了兩個三重損失,其中mB和mB是兩個差額。我們對CA和CB進行網格搜索,設置ma = 1.0, α = 2.0, mB = 0.9, mB2 = 1.2。在[47]之后,我們將他們的訓練曲線與圖5(c)中的HyNet損失進行比較,其中網絡在Liberty上訓練,FPR@95在Notredame和Yosemite上是平均的。如圖所示,我們使用sH的HyNet損耗優于其他兩種解決方案。值得注意的是,CA的直接組合并不顯示出優勢。我們認為具有線性裕度的三重態損失不能很好地擬合s與d之間的非線性變換,即d = V2(1 - s),但我們將其留作進一步研究。同時,不同相似度的疊加三重損失也是次優的,這進一步證明了所提出的混合相似度的有效性。
6結論
我們引入了一個名為HyNet的新的深度局部描述符,它的靈感來自對描述符梯度的分析和優化。HyNet進一步受益于一種正則化術語,該術語限制了L2歸一化之前的描述符的大小,這是一種混合相似性度量,從正對和負對做出不同的貢獻,以及一種新的網絡架構,L2歸一化中間特征映射。根據經驗,HyNet在各種任務上的表現明顯優于以前的方法。此外,全面的燒蝕研究揭示了每個提議的組件對其最終性能的貢獻。
更廣泛的影響
局部特征描述符和基于梯度的優化是立體視覺、增強現實、三維重建、SLAM等技術的重要組成部分。因此,提出的方法提高了這些技術的結果質量,這些技術通常用于各種應用程序,包括智能手機應用程序的圖像處理,無人駕駛汽車,機器人技術,AR耳機。它的社會影響潛力在這些應用中,特別是技術的可靠性,這是我們的方法所貢獻的。同樣,任何倫理問題也與應用程序有關,因為我們的方法不能獨立于一個更大的系統使用。
總結
以上是生活随笔為你收集整理的【翻译】HyNet: Learning Local Descriptor with Hybrid Similarity Measure and Triplet Loss的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 架构师日记——VCL介绍和使用
- 下一篇: 您从未听说过在中东启动游戏的游戏机