NeurIPS 2019:计算机视觉论文回顾
作者:Maria Dobko? ? ?編譯:ronghuaiyang
導讀
這是2019年12月9日至14日在溫哥華舉行的NeurIPS 2019的概述(筆記)。這篇文章中提到的所有論文都是在計算機視覺領域。
NIPS 2019上的一些論文回顧
會議網站:https://neurips.cc/
論文全集:https://papers.nips.cc/book/advances-in-neural-information-processing-systems-32-2019
這是2019年12月9日至14日在溫哥華舉行的NeurIPS 2019的概述(筆記)。超過13000名參與者。兩天的研討會,一天的輔導課和三天的主要會議。在這篇文章中,我會簡要地描述了一些論文,它們引起了我的注意。這篇文章中提到的所有論文都是在計算機視覺領域,這是我的研究領域。
神經網絡可視化的全梯度表示
Suraj Srinivas, Fran?ois Fleuret
論文鏈接:https://papers.nips.cc/paper/8666-full-gradient-presentation-for-neural-networkvisualiz.pdf
探索輸入部分的重要性如何被顯著性映射捕獲。研究表明,任何神經網絡的輸出都可以分解為輸入梯度項和神經元梯度項。他們證明了在卷積網絡中聚合這些梯度映射可以改善顯著性映射。論文提出了FullGrad顯著性,它結合了輸入梯度和特征級偏差梯度,因此,滿足兩個重要概念:局部(模型對輸入的敏感性)和全局(顯著性圖的完整性)。
擾動生成模型中目標分割的出現 Emergence of Object Segmentation in Perturbed Generative Models
Adam Bielski, Paolo Favaro
論文鏈接:https://arxiv.org/pdf/1905.12663.pdf
提出了一種不需要人工標注就能從一組圖像中學習目標分割的框架。其主要思想是建立在這樣的觀察之上:相對于給定的背景,物體的位置可以被局部擾動,而不影響場景的真實感。訓練生成模型,生成分層圖像表示:背景,掩模,前景。作者使用小的隨機移位來暴露無效的分割。他們用兩個生成器訓練StyleGAN,用蒙版分別作為背景和前景。它經過訓練,使具有移位前景的合成圖像呈現出有效的場景。在生成的掩碼上還有兩個損失項,以促進二值化并且幫助最小掩碼的收斂,這兩個項都添加到WGAN-GP生成器損失中。他們還訓練了編碼器與固定的生成器,以獲得分割的真實圖像。該方法在LSUN物體數據集的4個類別上進行了測試:汽車、馬、椅子、鳥。
GPipe:利用管道并行性有效地訓練巨型神經網絡
Yanping Huang, Youlong Cheng, Ankur Bapna, Orhan Firat, Mia Xu Chen, Dehao Chen, HyoukJoong Lee, Jiquan Ngiam, Quoc V. Le, Yonghui Wu, Zhifeng Chen
為了解決高效和任務無關的模型并行性需求,引入了GPipe,這是一個可擴展的模型并行性庫,用于訓練可以表示為層序列的巨型神經網絡。該算法采用同步梯度更新的方法,使模型并行化,具有較高的硬件利用率和訓練穩定性。主要貢獻包括模型可擴展性(在吞吐量和大小上幾乎線性加速,支持超過1k層和90B參數的非常深的transformer),靈活性(任何網絡的擴展),簡單的編程接口。GPipes提供了一種提高質量的方法,甚至可以使用遷移學習或多任務學習來提高較小數據集的質量。實驗表明,越深的網絡遷移效果越好,而越寬的模型記憶效果越好。
使用神經網絡來學習條件可變形模板
Adrian Dalca, Marianne Rakic, John Guttag, Mert Sabuncu
論文鏈接:https://papers.nips.cc/paper/8368-learning-conditional-deformable-templates-with-convolutional-networks.pdf
代碼:https://github.com/voxelmorph/voxelmorph
學習框架估計可變形模板(atlases)連同校準網絡。啟用基于所需屬性的條件模板生成函數。該方法聯合學習注冊網絡和圖集。我們開發了一個學習框架來建立可變形模板,它在許多圖像分析和計算解剖任務中起著基礎作用。在模板創建和圖像對齊的傳統方法中,模板是使用模板估計和對齊的迭代過程中構建的,這通常在計算上非常昂貴。介紹的方法包括一個概率模型和有效的學習策略,生成通用模板或條件模板,以及一個神經網絡,提供有效的對齊這些模板的圖像。這對臨床應用特別有用。
學習預測用于語義圖像生成的布圖到圖像的條件卷積
論文鏈接:https://arxiv.org/pdf/1910.06809.pdf
代碼:https://github.com/xh-liu/CC-FPSE
該方法根據語義標簽映射對卷積核進行預測,從噪聲映射中生成中間特征映射,最終生成圖像。作者認為,對于generator:卷積核應該知道不同位置上不同的語義標簽,而對于discriminator,應該加強生成圖像和輸入語義布局之間的細節和語義對齊。因此,使用圖像生成器來預測條件卷積(有效地預測深度可分卷積,只預測深度卷積的權值,是一個全局上下文感知的權值預測網絡)。引入的特征金字塔語義-嵌入鑒別器用于紋理和邊緣等細節,也用于與布局圖的語義對齊。
Saccader:提高視覺的注意力模型的準確性
Gamaleldin F. Elsayed, Simon Kornblith, Quoc V. Le
論文鏈接:https://arxiv.org/pdf/1908.07644.pdf
代碼:https://github.com/google-research/google-research/tree/master/saccader
在這項工作中,硬注意模型的改進(他們選擇圖像中的顯著區域,并只使用它們進行預測)被提出。這篇文章介紹的模型 — Saccader有一個訓練前的步驟,只需要類標簽和提供初始注意位置的策略梯度優化。 Saccader的結構:1、表示網絡(BagNet),2、注意力網絡,3、Saccader單元(無RNN,每次預測視覺的注意力位置)。最好的Saccader模型縮小了與普通ImageNet基線的差距,達到75%的top-1和91%的top-5,而只關注不到三分之一的圖像。
使用重畫的非監督物體分割
Micka?l Chen, Thierry Artières, Ludovic Denoyer
論文鏈接:https://arxiv.org/pdf/1905.13539.pdf
ReDO(重繪物體)是一種非監督數據驅動的物體分割方法。作者假設自然圖像的生成是一個復合過程,其中每個物體都是獨立生成的。他們把物體分割任務看作是發現可以重繪而不需要看到圖像其余部分的區域。如本文所述,該方法基于一種對抗性架構,其中生成器由輸入樣本引導:給定一個圖像,它提取物體掩碼,然后在相同位置重新繪制一個新對象。該生成器由一個鑒別器控制,以確保生成的圖像的分布與原始圖像對齊。加入學習函數,嘗試從一般圖像中重建噪聲向量,然后通過每次只重建一個區域,保持圖像的其余部分不變,將輸出與輸入綁定在一起。
學習物體分割的完整模型。學到的神經網絡用粗體的彩色線條表示神經網絡中的近似特征沖突
Ke Li, Tianhao Zhang, Jitendra Malik
論文鏈接:https://papers.nips.cc/paper/9713-approximate-feature-collisions-in-neural-nets.pdf
特征沖突 — 兩個不同的樣本共享相同的特征激活,因此具有相同的分類決策。本文提出了一種特征沖突檢測的方法。在這篇論文中,作者們證明了神經網絡可以令人驚訝地對巨大的逆向選擇的變化不敏感。在這個實驗中,他們觀察到這種現象可能是由ReLU激活函數的固有特性引起的,從而導致兩個非常不同的樣本共享相同的特征激活,從而做出相同的分類決策。可能的應用包括有代表性的數據收集、正則化器的設計、易受攻擊的訓練樣本的識別。
網格對語義分割上下文解釋的重要性
Lukas Hoyer, Mauricio Munoz, Prateek Katiyar, Anna Khoreva, Volker Fischer
論文鏈接:https://arxiv.org/pdf/1907.13054.pdf
結果表明,網格顯著性可以成功地提供易于解釋的上下文解釋,而且可以用于檢測和定位數據中出現的上下文偏差。主要目標是開發一種顯著性方法,通過擴展現有的方法來生成網格顯著性,從而為網絡預測提供可視化的解釋。這為(像素級)稠密預測網絡提供了空間相干的視覺解釋,并為語義分割網絡提供了上下文解釋。
通過對抗性模型操作來欺騙神經網絡解釋
Juyeon Heo , Sunghwan Joo , Taesup Moon
論文鏈接:https://arxiv.org/pdf/1902.02041.pdf
假設:基于映射的顯著性解釋器很容易被欺騙,而不會顯著降低準確性。本文證明了目前最先進的基于顯著性映射的解釋器,如LRP、Grad-CAM和SimpleGrad等,很容易被對抗性模型操作所欺騙。文章中提出了兩種類型的欺騙,被動的和主動的,以及定量的度量 — 欺騙成功率(FSR)。它給出了為什么對抗性模型操作會有效,以及一些限制。
深度神經網絡中解釋方法的基準
Sara Hooker, Dumitru Erhan, Pieter-Jan Kindermans, Been Kim
論文鏈接:https://papers.nips.cc/paper/9167-a-benchmark-for-interpretability-methods-in-deep-neural-networks.pdf
對模型預測重要內容的錯誤估計可能導致對敏感領域(醫療、自動駕駛等)產生不利影響的決策。作者比較了特征重要性估計器,并探討了集成它們是否能提高準確性。為了比較這些方法,他們從每幅圖像中去除一小部分所有像素,這些像素被認為是對模型預測貢獻最大的,并且在沒有這些像素的情況下對模型進行再訓練。假設最佳解釋方法應提供去除模型性能最弱的像素點。這種評估方法稱為ROAR:RemOve And Retrain。測試方法包括基礎估計(梯度的熱圖,梯度積分,導向后向傳播),基礎預測器的集成(SmoothGrad梯度積分,VarGrad梯度積分等等),以及控制變量(隨機,sobel邊緣濾波器)。最有效的方法是SmoothGrad-Squared和VarGrad。
人眼感知評估:生成模型的基準
Sharon Zhou, Mitchell L. Gordon et al.
HYPE是一個標準化的、有效的生成模型評估,它測試生成模型在人眼中的逼真程度。正如作者所提到的,它是一致的,靈感來自于知覺心理學中的心理物理學方法,可以可靠的通過從一個模型中隨機取樣的不同集合輸出,得到可分離的模型性能,并且在成本和時間上很高效。
用于語義分割的區域互信息損失
Shuai Zhao, Yang Wang , Zheng Yang, Deng Cai
論文鏈接:https://arxiv.org/pdf/1910.12037.pdf
代碼:https://github.com/ZJULearning/RMI
語義分割通常采用像素分類的方法來解決,而像素損失忽略了圖像中像素之間的依賴關系。作者使用一個像素和它的相鄰像素來表示這個像素,并將一個圖像轉換成一個多維分布。因此,通過最大化預測和目標分布之間的相互信息,可以使預測和目標更加一致。RMI的思想是直觀的,它也很容易使用,因為它只需要在訓練階段的一些額外的內存,甚至不需要改變基本分割模型。RMI也可以在性能上實現實質性的、一致的改進。這個方法在PASCAL VOC 2012上進行了測試。
多源領域自適應語義分割
Sicheng Zhao, Bo Li, Xiangyu Yue, Yang Gu, Pengfei Xu, Runbo Hu, Hua Chai, Kurt Keutzer
論文鏈接:https://arxiv.org/pdf/1910.12181.pdf
在這個工作領域中,對語義分割的適應是從多個來源進行的,并提出了一個新的框架,稱為MADAN。正如作者所述,除了特征級對齊外,像素級對齊還通過為每個源循環生成一個自適應的域來進一步考慮,這與一種新的動態語義一致性損失是一致的。為了提高不同自適應域的一致性,提出了兩種判別器:跨域循環判別器和子域聚合判別器。該模型在合成數據集 —— GTA和SYNTHIA,以及真實的城市景觀和BDDS上進行了測試。
—END—
英文原文:https://medium.com/@dobko_m/neurips-2019-computer-vision-recap-ddd26b13337c
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習在線手冊深度學習在線手冊AI基礎下載(pdf更新到25集)備注:加入本站微信群或者qq群,請回復“加群”獲取一折本站知識星球優惠券,請回復“知識星球”
喜歡文章,點個在看
總結
以上是生活随笔為你收集整理的NeurIPS 2019:计算机视觉论文回顾的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么要学习 Markdown?究竟有什
- 下一篇: AI入门:Transfer Learni