ECCV 2020 亮点摘要(上)
正文字數:6788 ?閱讀時長:10分鐘
2020年歐洲計算機視覺會議(ECCV)于8月23日至28日在網上舉行,由1360篇論文組成,包括104場orals,160場spotlights以及1096篇posters,共進行有45場workshops和16場tutorials。與近年來的ML和CV會議一樣,產出了大量精彩的論文。
作者 /?Yassine
原文鏈接 / https://yassouali.github.io/ml-blog/eccv2020/
與我的CVPR2020帖子類似,為了了解今年會議的總體趨勢,我將在這篇博客文章中總結一些引起我注意的論文(列出一些),并對整個會議進行概括。
首先,以下是一些相關鏈接:
會議所有收錄論文:https://www.ecva.net/papers.php
部分成果展示:https://crossminds.ai/category/eccv%202020/
Youtube播放列表:https://www.youtube.com/playlist?list=PL6liSIqFR4BXnfg7-HM5-f7LGEKL1EDYb
每篇論文的一句話介紹:https://www.paperdigest.org/2020/08/eccv-2020-highlights/
ECCV網站:https://papers.eccv2020.eu/paper/160/
免責聲明:這篇文章并不是對ECCV2020中的論文和主題的描述和代表;它只是我對自己感興趣的內容進行的概述。
整體統計概況
本部分的統計數據摘自官方Opening&Awards。讓我們從一些一般的統計數據開始:
與2018年會議相比,論文提交的數量比起前幾年有著持續增長的趨勢,所提交的論文數增加了200%以上,與CVPR 2020的論文數量相近。如預期的那樣,審稿人數和涉及的領域相應地增加了。
不出所料,大多數被收納的論文都集中在與深度學習,識別,檢測和理解有關的主題上。與CVPR 2020類似,研究人員對諸如無監督學習的標簽有效方法和低視野等領域的興趣日益濃厚。
就研究機構的組成而言;與今年的ICML相似,Google排名第一,有180位作者,其次是香港中文大學的140位作者,北京大學的110位作者。
在下一部分中,我們將按主題介紹一些論文摘要。
識別,檢測,分割和姿態估計
End-to-End Object Detection with Transformers
(https://arxiv.org/abs/2005.12872)
目標檢測的任務包括對給定圖像中的可見對象進行定位和分類。現如今大部分的目標檢測框架包括一系列預先定義的方框,即也就是稱作 anchors 或是 region proposals 的幾何先驗框),這些框首先將由網絡進行分類,然后進行回歸以調整邊界框的尺寸 ,然后進行后處理步驟以刪除重復的檢測結果。但是,由于引入了后處理,整個網絡并不能像其他計算機視覺任務一樣進行端到端的訓練。。在本文中,作者提出了一個新的目標檢測框架,DETR(DEtectionTRANSformer),這是一個可以完全端到端訓練的網絡模型,且無需任何幾何先驗知識。下圖是 DETR 與 Faster R-CNN 計算流程的對比(該圖是從作者們的展示文稿中獲取的),強調了 DETR 整體的自然性。
DETR基于編碼器-解碼器的transformer結構構造的。該模型由三部分的組件組成:卷積神經網絡特征提取器,編碼器,以及解碼器。一張給定圖像首先需要通過特征提取器獲取圖像特征。然后,將使用不同頻率的sin函數生成的位置編碼信息添加到特征中,以保留圖像的二維結構信息。然后,生成的新特征將通過transformer編碼器傳遞,以匯總要素之間的信息并分離不同的目標實例。為了進行解碼,目標查詢向量會與編碼向量一同經過解碼器并產生最終的輸出特征向量。這些查詢向量是一組固定的學習嵌入向量(embedding),剛開始隨機初始化,在訓練過程中進行優化,評測階段則保持不變,而查詢向量的數量也決定了該檢測器能夠檢測的目標數量上界。最后,輸出特征向量通過一個(共享)全連接的層,以預測每個查詢對應的類別和邊界框。為了計算損失并訓練模型,作者使用了匈牙利算法將輸出與標注進行一對一匹配。
MutualNet: Adaptive ConvNet via Mutual Learning from Network Width and Resolution
(https://arxiv.org/abs/1909.12978)
傳統神經網絡只能在特定數量的計算資源充足的情況下才可使用,并且如果不滿足計算資源的情況出現后,則該模型將無法使用。但是,這會大大限制模型在實際應用中的使用。例如,如果模型需要用于電話上進行前向推理,則計算資源將始終根據負載和電話的電池電量而變化。一種簡單的解決方案是在設備上保留幾種不同大小尺寸的模型,并每次使用具有相應資源的模型,但這需要大量的內存,并且無法適用于不同的計算資源。近期類似于 S-Net 與 US-Net 的網絡在訓練期間采樣不同大小的子網絡,使得網絡在部署階段可以調整為不同的網絡寬度(也就是通道數量)。但是在非常低的計算資源的條件下,這類網絡的性能會急劇下降。
這篇論文建議同時利用不同尺寸的網絡規模和輸入圖像規模,以尋求在準確度和計算效率之間找到良好的平衡。如上所述,在一次訓練迭代過程中,會采樣四個子網絡,其中一個是完整的網絡,和三個具有不同寬度的子網絡。完整的網絡使用原始大小的圖像數據與標簽進行交叉熵損失訓練,其余三個則隨機輸入不同尺度的圖像(原始圖像或是尺度下采樣后的圖像),并使用他們的輸出與完整網絡的輸出之間的KL散度進行監督訓練(也就是蒸餾損失)。這樣,每個子網絡都可以學會適應不同網絡尺寸與輸入大小的多尺度表達。在部署過程中,在給定特定資源限制的情況下,可以選擇網絡規模和輸入規模的最佳組合進行推理。
Gradient Centralization: A New Optimization Technique for Deep Neural Networks
(https://arxiv.org/abs/2004.01461)
在神經網絡的優化過程中使用類似于均值和方差之類的二階統計數據來對網絡激活值或網絡權重進行形式的標準化已然成為了神經網絡訓練過程中極為重要的一環,例如 BatchNorm 和 weight norm。因此,梯度集中化(GC)可以通過將梯度向量集中為零均值來直接對梯度進行操作,而不是對權重或激活進行額外的歸一化模塊操作,從而可以平滑和加速神經網絡的訓練過程,甚至可以改善模型泛化性能。
給定計算出的梯度,GC操作符首先計算梯度向量的均值,如上所示,然后減去對應的均值,數學形式上,對于一個權重向量 Wi,其對應的梯度為?Wi(i=1,2,…,N),則GC操作可定義為:
Smooth-AP: Smoothing the Path Towards Large-Scale Image
(https://arxiv.org/abs/2007.12163)
在圖像檢索中,其目標是從大量圖像中檢索與查詢圖像相同類別的圖像數據。此任務與分類任務不同,,圖像檢索任務中,測試圖像的類別在訓練過程中都已經見到過了,測試圖像的類別可能會很少見,但是我們仍需在圖像集合中找到與之相似的圖像,這也就是一個開集問題。,圖像檢索任務中,測試圖像的類別在訓練過程中都已經見到過了,測試圖像的類別可能會很少見,但是我們仍需在圖像集合中找到與之相似的圖像,這也就是一個開集問題。特征提取器的訓練目標就是要達到良好的排序效果(即屬于同一類別的圖像相似度應盡可能高)。而網絡的性能則是使用 Average Precision (AP) 來度量的,該指標計算每個正確檢索結果的名次與其在整個圖像集合中的名次之比并對其求和。計算一張給定圖像的名次需要應用一個閾值化操作,該操作用到了海維賽德階躍函數,使得其不可微分,所以我們無法直接使用最終排名來端到端地優化模型。
為了解決這個問題,論文作者提議用一個溫度參數控制的igmoid函數代替Heaviside階躍函數,從而使該排名可區分,并可作為損失函數來端到端地優化網絡模型。與三元組損失函數相比,smooth-Ap損失函數優化了排名的損失,而三元組損失則是間接優化以獲得良好排名的替代損失。
Hybrid Models for Open Set Recognition
(https://arxiv.org/abs/2003.12506)
現有的圖像分類方法通常是基于閉集假設的,即訓練集涵蓋了可能出現在測試階段的所有可能的類別。但是這種假設顯然是不現實的,因為即使對于像ImageNet這樣具有1K類物品的大規模數據集,也無法覆蓋所有可能的在現實世界中存在的類別。而這就是開集分類的來源,并通過假定測試集包含已知和未知類來嘗試解決此問題。
在本文中,作者使用基于流的模型來解決開集分類問題。基于流的方法能夠通過最大似然的估計以無監督的方式擬合適合訓練樣本的概率分布。然后可以使用流模型來預測每個樣本的概率密度。當輸入樣本的概率密度較大時,那么它可能是已知類別的訓練分布的一部分,而離群點的概率密度則將較小。雖然先前的方法在流模型的頂部堆疊了分類器,但作者建議為流模型和分類器學習聯合嵌入向量,因為僅從基于流的模型學習的嵌入向量很可能沒有足夠的判別特征來進行有效的分類。如上所示,在訓練過程中,圖像會由一個編碼器網絡映射為一個隱特征,接著這個編碼特征會同時被送入分類器與流模型中,分類器端使用交叉熵損失進行監督,流模型端則負責概率密度估計。整個網絡架構是可端到端訓練的。為了進行測試,計算每個圖像的logp(x)log?p(x),然后將其與訓練集中獲取的最低logp(x)log?p(x)進行比較。如果大于閾值,則將其發送到分類器以識別其特定的已知類,否則將其作為未知樣本拒絕。
Conditional Convolutions for Instance Segmentation
(https://arxiv.org/abs/2003.05664)
實例分割仍然是計算機視覺領域中具有挑戰性的任務之一,需要給定圖像中每個可見目標打上一個逐像素的掩膜(mask)以及一個類別標簽。占主導地位的方法是Msak R-CNN,它包括兩個步驟,首先,目標檢測器Faster R-CNN為每個實例生成了相應的邊界框。然后,對于每個檢測到的實例,使用ROI Align將感興趣區域從輸出特征圖中裁剪出來并縮放為同一分辨率大小,接著,將其送入一個掩膜頭網絡(mask head),該網絡是一個小型全卷積網絡,用以預測分割掩膜。但是,作者指出了這種體系結構的以下局限性。(1)ROI Align可能會獲取屬于背景干擾或其他實例的不相關特征,(2)調整大小的縮放操作限制了實例分割的分辨率,(3)掩膜頭網絡需要堆疊多個 3x3 卷積來產生足夠大的感受野以生成掩膜,這極大得增加了掩膜頭的計算量。
在本文中,作者們提出了使用語義分割網絡中的 FCN 來進行實例分割。為了進行有效的實例分割,FCN需要兩種類型的信息:一是表觀信息用于目標分類,二是位置信息用于區分同一類別的不同目標。在論文中所提出的網絡結構稱為CondInst(用于實例分割的條件卷積),是基于CondConv和HyperNetworks的網絡構建而成的,其中對于每個實例,一個子網絡將根據每個實例所在的中心區域生成掩膜FCN頭的權重,即用于預測給定實例的掩膜。具體來說,如上所示,網絡由在特征圖的多個不同尺度下包含多個掩膜頭組成。每個頭網絡都會在預定位置預測給定實例的類別,以及生成掩膜FCN頭網絡要使用的網絡權重。然后,就由各個頭網絡使用對應的參數進行掩膜預估。
Multitask Learning Strengthens Adversarial Robustness
(https://arxiv.org/abs/2007.07236)
深度神經網絡的主要局限之一是其容易受到對抗性攻擊,在這種攻擊中,圖像中引入極為微小且不可見的擾動就會導致完全錯誤的輸出,甚至輸入的表觀肉眼看來幾乎完全一致。近年來,從輸入數據(例如,使用無標簽數據和對抗訓練)到使用正則化的模型本身(例如,Parseval網絡),研究人員在多個層面深入探討神經網絡的對抗魯棒性,但是, 模型的輸出仍未用于提高模型的魯棒性。在本文中,作者研究了具有多個輸出的多任務學習在對抗魯棒性上的影響,因為越來越多的機器學習應用程序要求能夠同時解決多個任務的模型,所以這種設置很有用。
使用有界p范式球攻擊方式,其中在給定輸入樣本的給定半徑下,在p范式球內發現對抗性擾動。接著,將計算得到的總損失變化視作網絡的脆弱度。作者在雙任務訓練下表現出更高的魯棒性(例如,從以下兩項中隨機選擇兩項任務:分割,深度估計、法向量估計、reshading、輸入重建、2D或3D關鍵點預測等等……)。在單任務攻擊(即,使用一個輸出來計算的擾動)和多任務攻擊(即,使用所有輸出來計算的對應擾動中的最大擾動)上可以觀察到改進的魯棒性。作者還從理論上表明,只有在任務相關的情況下才能獲得這種多任務魯棒性。
Dynamic Group Convolution for Accelerating Convolutional Neural Networks
(https://arxiv.org/abs/2007.04242)
分組卷積首次出現還要追溯到AlexNet,當時分組的目的是為了加速訓練,然后適用于輕量級CNN網絡的設計中,例如MobileNet和Shufflenet。它們包括將卷積層中的輸入和輸出沿著通道維等量切分成互斥的部分或組,同時在每個單獨的組內執行正常的單獨卷積操作。因此對于GG組,計算量減少了GG次。但是,作者認為,它們有著兩個關鍵缺陷:(1)分組卷積首次出現還要追溯到AlexNet,當時分組的目的是為了加速訓練。(2) 現有分組卷積對輸入通道做固定的分組操作,忽視了各個輸入之間的相關性。
為了在保持原始網絡完整結構的同時,為每個組自適應地選擇最相關的輸入通道,作者提出了動態組卷積(DGC)。DCG由兩個頭網絡組成,每個頭網絡中都有一個顯著性分數生成器,用于為每個通道生成重要性分數。通過使用這些分數,對重要性分數較低的頻道進行修剪和移除。接著,對余下的特征層進行普通卷積并得到輸出。最后,來自不同頭網絡的輸出會在通道為級聯起來并隨機調換通道的位置。
Disentangled Non-local Neural Networks
(https://arxiv.org/abs/2006.06668)
Non-local 模塊使用注意力機制,對長距離像素之間的依存關系進行建模,并已廣泛用于眾多計算機視覺識別任務,例如目標檢測,語義分割和視頻動作識別。
在本文中,作者試圖更好地解釋non-local block,找到其局限性,并提出改進版本。首先,作者們首先將像素i(稱為key像素)與像素j(稱為query像素)之間的相似度重新計算為兩個項的和:其中一項是成對項,形式上這是一個白化后的點積結果,述了 query 像素與 key 像素之間的關系,另一項則是一個一元項,表征了給定的 key 像素對哪個 query 像素影響最大。然后,為了了解每個術語的影響和作用,他們分別只用其中一項進行訓練,并發現成對項負責類別信息,一元項負責邊界信息。但是,通過分析non-local block的梯度,作者們發現當上述兩項結合起來應用于注意力操作時,他們的梯度相乘了。這也就導致,如果其中一項的梯度為0,那么另一個項不為0的梯度對網絡的訓練也起不到作用了。為了解決這個問題,作者們提出了一個 non-local 模塊的分解版,使得這兩項能夠分開來優化。
Hard negative examples are hard, but useful
(https://arxiv.org/abs/2007.12749)
深度度量學習旨在優化了一種嵌入函數,使得經過該函數映射后語義相似的圖像會處在高維空間中相對較近的位置,而且語義不相似的圖像則使其映射后的距離較遠。一種較為常用的學習該映射的方法是根據圖像的三元組定義一個損失函數。其中,這個三元組包含一張錨圖像,一張與錨圖像同一類別的正樣本圖像和一張與錨圖像不同類別的負樣本圖像。然后,當錨點映射到負圖像的位置比正圖像的位置更近時,對模型進行懲罰。接著,在優化的過程中,模型會在錨圖像與負樣本圖像的距離小于錨圖像與正樣本圖像的距離時給予懲罰。然而,在優化期間,大多數候選三元組都已經達到了標準,即錨圖像與正樣本的距離小于其與負樣本的距離,這也就使得這些三元組對訓練來說十分冗余。另一方面,使用最困難的負樣本進行優化還會導致在訓練初期陷入局部最優。在這情況下,根據余弦相似度(即歸一化特征向量的點積結果)計算得到的錨-負樣本的相似度比錨-正樣本的相似度會大很多。
作者們展示了三元組損失的標準實現中使用困難樣本挖掘的問題所在。具體來說,(1)如果在梯度計算過程中未考慮歸一化,則會損失了很大一部分梯度;(2)如果兩張不同類別的圖像在嵌入空間中的距離非常接近,那么損失的梯度很可能將其拉得更近而非將其分得更開。為了解決這個問題,作者不再像原始三元組損失那樣盡可能地將錨-正樣本對拉得更近以便將其更加緊密地聚類,相反,作者們會避開更新錨-正樣本對的損失梯度,也就使得某一類的實例構成的聚類不會過于緊致。這個方法僅僅集中于直接將困難負樣本拉離錨圖像。
Volumetric Transformer Networks
(https://arxiv.org/abs/2007.09433)
卷積神經網絡CNN成功背后的關鍵之一是其學習語義目標各個部分的判別性特征表達的能力,這對于計算機視覺任務非常有用。但是,CNN仍然缺乏處理各種空間變化的能力(如尺寸,視點和類內變化)的能力。空間變壓器網絡(STN)等最新的方法試圖通過先對空間分布不同的特征圖變形,使其變為標準形式來抑制圖像的空間變換,然后再對這些標準化后的特征做分類。但是這樣的方法對所有特征通道做相同的變形操作,但是這沒有考慮到各個特征通道可以表征不同的語義組件的,將其變換為標準形式也就需要不同的空間變換操作。
為了解決這個問題,本文引入了 Volumetric transformer network (VTN),如圖所示,這是一個可學習的模塊會對每個通道的每個像素位置預測一個形變變換,用于將中間的 CNN 特征變換為一個空間位置無關的標準形式。VTN是一個編碼器-解碼器結構的網絡,其中的網絡模塊用于在不同的特征圖通道之間傳遞信息,以估計不同語義組件之間的依賴性。
Faster AutoAugment: Learning Augmentation Strategies Using Backpropagation
(https://arxiv.org/abs/1911.06987)
數據增強(DA)已成為深度學習方法的重要的和必不可少的組成部分,最近的研究(例如AutoAugment,Fast AutoAugment和RandAugment)表明,搜索算法得到的數據增強策略優于標準的增強策略。這類算法預先定義好所有可能的數據變換集合,比如幾何變換(如旋轉)或是色彩增強變換(如負感化),旨在找到最優的數據增強參數,比如增強的幅度、數據增強的概率以及不同數據增強手段的組合數量,如下方左圖所示。通過雙重優化循環學習最佳策略,從而使使用給定策略訓練的CNN的驗證誤差最小化。然而,這種優化方法有一定的局限性,尤其是在數據增強策略搜索空間過于龐大的情況下,需要復雜的搜索方法,并且策略優化的單次數據需要對CNN進行完整訓練。為了解決這個問題,作者建議使用原始圖像和增強圖像的密度匹配優化策略以及基于梯度的優化來找到最佳策略。
通過將DA視為填充原始數據缺失點的一種方式,目標是使用對抗性學習最小化增強數據與原始數據之間的距離,并且為了學習最佳增強策略,該策略需要 關于轉換的參數是可區分的。對于應用給定增強的可能性,作者使用從伯努利分布中采樣的隨機二進制變量,并使用Gumbel trick進行了優化,增廣的強度通過直接估計來近似,增廣方法的組合則使用one-hot向量的組合來學習。
由于原文篇幅較長,為保證讀者的閱讀體驗,半監督學習,無監督學習,遷移學習,表征學習以及小樣本學習、三維計算機視覺以及機器人學?、圖像和視頻合成?、視覺和語言四部分內容將安排在下周發布。
LiveVideoStackCon 2021 ShangHai
這個世界沒有準備好這一說
機會和技術不會主動敲開你的門
LiveVideoStackCon 2021?上海站
北京時間:2021年4月16日-4月17日
點擊【閱讀原文】了解大會詳情
總結
以上是生活随笔為你收集整理的ECCV 2020 亮点摘要(上)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【线上分享】华为云RTC服务架构及应用实
- 下一篇: 华为云视频Cloud Native架构设