CVPR 2018 论文解读集锦(9月26日更新)
本文為極市平臺(tái)原創(chuàng)收集,轉(zhuǎn)載請(qǐng)附原文鏈接:
https://blog.csdn.net/Extremevision/article/details/82757920
CVPR 2018已經(jīng)順利閉幕,目前已經(jīng)公布了所有收錄論文名單和最佳論文,為了能夠讓大家更深刻了解CVPR的論文,我們進(jìn)行了一些CVPR 2018論文解讀的整理,后續(xù)還會(huì)持續(xù)更新。同時(shí)我們也對(duì)ECCV、ICCV等解讀文章進(jìn)行了整理,歡迎關(guān)注。
CVPR 2017 論文解讀集錦
ICCV 2017 論文解讀集錦
NIPS 2017 論文解讀集錦(12-13更新)
ECCV 2018論文解讀及資源集錦(10月17日更新,含全部論文下載鏈接)
【CVPR 2018 論文集】“Computer Vision Foundation open access”
53.CVPR 2018|分割算法——可以分割一切目標(biāo)(附各種分割總結(jié))
本文是對(duì)何愷明CVPR 2018的目標(biāo)分割工作解讀,同時(shí)作者基于時(shí)間順序及相關(guān)paper總結(jié)了語義分割的結(jié)構(gòu)演變歷程。
52、CVPR2018 oral|香港中文大學(xué)胡梟瑋:用于陰影檢測的 DSC 特征
CVPR2018oral文章,來自香港中文大學(xué)的胡梟瑋采用了提取 DSC 特征的方式,有效解決了計(jì)算機(jī)視覺物體檢測與跟蹤中的陰影遮擋問題。
51、CVPR 2018 | Repulsion loss:專注于遮擋情況下的行人檢測
本文由同濟(jì)大學(xué)和北京大學(xué)合作發(fā)表于CVPR2018,聚焦于loss層面,為遮擋情況下的行人檢測問題提供了一種行之有效的解決方案。
50、DensePose開源了,2D變3D人體姿勢實(shí)時(shí)識(shí)別 | Facebook@CVPR 2018
Facebook發(fā)布的人體姿勢實(shí)時(shí)識(shí)別系統(tǒng)DensePose開源,可以把2D圖像,轉(zhuǎn)換成3D人體模型。
49、CVPR 2018|Cascade R-CNN:向高精度目標(biāo)檢測器邁進(jìn)
本文是CVPR2018通用目標(biāo)檢測的一篇Oral,在Faster R-CNN框架下,通過級(jí)聯(lián)多個(gè)分類器,逐步提高目標(biāo)定位的精度,向高精度的目標(biāo)檢測器邁出了堅(jiān)實(shí)的一步。
48、CV 屆的金雞百花獎(jiǎng):盤點(diǎn)我心中的 CVPR 2018 創(chuàng)意 TOP10
伴隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的突飛猛進(jìn),我們?nèi)栽谔剿魉械目赡苄浴TS多論文將提出全新的深度網(wǎng)絡(luò)在視覺上的應(yīng)用。本文作者將向大家展示其認(rèn)為是CVPR 2018中最酷最具創(chuàng)意的10篇論文。
47、CVPR 2018 |“尋找”極小人臉
本文是CVPR2018人臉檢測的一篇Oral,結(jié)合GAN的思想提升了極小人臉的檢測性能,是GAN入侵目標(biāo)檢測領(lǐng)域的又一篇力作。
46、【論文整理】CVPR2018 人體姿態(tài)相關(guān)
作者整理了一份CVPR2018中人體姿態(tài)相關(guān)的論文列表,并簡述了論文的思路和方法,方便大家有選擇性地閱讀和收藏~
45、CVPR 2018 | 炫酷的卡通畫目標(biāo)檢測
本文由東京大學(xué)發(fā)表在CVPR2018,論文采用了圖像層面的域適應(yīng)策略和弱監(jiān)督偽標(biāo)簽策略,探索了如何將已有的檢測器遷移到卡通畫中進(jìn)行目標(biāo)檢測。
44.、CVPR 2018 | 無監(jiān)督語義分割之全卷積域適應(yīng)網(wǎng)絡(luò)
本文由中科大和微軟亞洲研究院合作完成,論文提出了兩種域適應(yīng)策略,探索了如何使用合成圖像提升真實(shí)圖像的語義分割性能。
43、CVPR 2018 Best Paper Taskonomy 作者解讀
斯坦福本科生/準(zhǔn)博士生沈博魁,CVPR2018最佳論文Taskonomy的共同二作。鑒于poster session時(shí)發(fā)現(xiàn)很多人對(duì)Taskonomy的理解有偏差,作者親自寫了一篇Taskonomy的中文解讀,希望能對(duì)大家有幫助。
42、CVPR2018最佳論文演講:研究任務(wù)之間的聯(lián)系才是做遷移學(xué)習(xí)的正確姿勢
今年 CVPR 2018 最佳論文《Taskonomy: Disentangling Task Transfer Learning》(任務(wù)學(xué):任務(wù)遷移學(xué)習(xí)的解耦)研究了一個(gè)非常新穎的課題,那就是研究視覺任務(wù)之間的關(guān)系,根據(jù)得出的關(guān)系可以幫助在不同任務(wù)之間做遷移學(xué)習(xí)。相比于我們看慣了的在為各種任務(wù)刷分的研究,這篇論文可謂是一股計(jì)算機(jī)視覺領(lǐng)域的春風(fēng)。
41、【CVPR 2018最佳論文出爐】斯坦福等名校折桂,何愷明獲年輕研究員獎(jiǎng)
CVPR 2018最佳論文花落斯坦福和伯克利大師論文,最佳學(xué)生論文獎(jiǎng)授予了CMU。何愷明獲得了PAMI年輕研究員獎(jiǎng)。
40、CVPR 2018 | ETH Zurich提出利用對(duì)抗策略,解決目標(biāo)檢測的域適配問題
本文是 ETH Zurich 發(fā)表于 CVPR 2018 的工作,論文提出了采用當(dāng)前火熱的對(duì)抗策略,解決目標(biāo)檢測任務(wù)中使用不同數(shù)據(jù)集訓(xùn)練的域適配問題。
39、CVPR 2018 | 阿里巴巴&浙大Poster論文:基于直推式無偏嵌入的零樣本學(xué)習(xí)
大多數(shù)現(xiàn)有的零樣本學(xué)習(xí)(Zero-Shot Learning,ZSL)方法都存在強(qiáng)偏問題,因此在廣義 ZSL 設(shè)置中部署后性能很差。本文提出了一個(gè)簡單有效的方法——準(zhǔn)完全監(jiān)督學(xué)習(xí)(QFSL)來解決此問題。
38、CVPR 2018 | 牛津大學(xué)&Emotech首次嚴(yán)謹(jǐn)評(píng)估語義分割模型對(duì)對(duì)抗攻擊的魯棒性
牛津大學(xué)&Emotech 實(shí)驗(yàn)室合作的一篇論文,首次嚴(yán)謹(jǐn)評(píng)估了語義分割模型對(duì)對(duì)抗攻擊的魯棒性。
37、CVPR 2018 | 非監(jiān)督任意姿勢人體圖像合成
在CVPR2018有很多優(yōu)秀的文章,這篇文章目的在于以非監(jiān)督的方式利用一張人體圖像合成任意姿勢的同一個(gè)人的新圖片。
36、CVPR 2018 | 視頻分析的非局部(non-local) 神經(jīng)網(wǎng)絡(luò)模塊,CMU與Facebook AI研究室視頻分類識(shí)別新貢獻(xiàn)
很大程度上,目前的芯片工藝和技術(shù),決定了人類只能依靠神經(jīng)網(wǎng)絡(luò)這樣的方案(高于傳統(tǒng)機(jī)器學(xué)習(xí)一個(gè)計(jì)算級(jí)別)。而非局部(non-local) 模塊把非局部感受野的信息提取操作做成一個(gè)神經(jīng)網(wǎng)絡(luò)模塊,方便了端到端的視頻分析。
35、CVPR 2018 | ETH Zurich提出新型網(wǎng)絡(luò)「ROAD-Net」,解決語義分割域適配問題
本文是 ETH Zurich 發(fā)表于 CVPR 2018 的工作,論文提出了兩個(gè)網(wǎng)絡(luò)策略,用于處理語義分割任務(wù)中使用合成數(shù)據(jù)訓(xùn)練的域適配問題。
34、CVPR2018|DiracNets:無需跳層連接,訓(xùn)練更深神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)參數(shù)化與Dirac參數(shù)化的ResNet
論文講述了虛擬化技術(shù)犧牲硬件開銷和性能,換來軟件功能的靈活性;深度模型也類似,如果把網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)化,得到的模型更靈活易控,但是計(jì)算效率并不高。
33、CVPR 2018 | 殘差密集網(wǎng)絡(luò):利用所有分層特征的圖像超分辨率網(wǎng)絡(luò)
美國東北大學(xué)最近在圖像超分辨領(lǐng)域提出了一種殘差密集網(wǎng)絡(luò),來從原圖生成高分辨率圖像。該網(wǎng)絡(luò)結(jié)合殘差網(wǎng)絡(luò)與密集連接網(wǎng)絡(luò)的特性充分利用原始 LR 圖像的所有分層特征,因而能重構(gòu)出高質(zhì)量的圖像。
32、CVPR2018|DA-GAN技術(shù):計(jì)算機(jī)幫你創(chuàng)造奇妙“新物種”
微軟亞研院被CVPR2018接收的論文提出的DA-GAN技術(shù),能夠通過文字描述生成新形象,形成了全新的藝術(shù)創(chuàng)造模式。
31、CVPR 2018 論文概述:有損壓縮視頻的多幀質(zhì)量增強(qiáng)方法
CVPR 2018論文《Multi Frame Quality Enhancement for Compressed Video》提出針對(duì)有損壓縮視頻的多幀質(zhì)量增強(qiáng)方法,顯著提升了視頻質(zhì)量增強(qiáng)的性能。
30、CVPR 2018 | 使用CNN生成圖像先驗(yàn),實(shí)現(xiàn)更廣泛場景的盲圖像去模糊
現(xiàn)有的最優(yōu)方法在文本、人臉以及低光照?qǐng)D像上的盲圖像去模糊效果并不佳,主要受限于圖像先驗(yàn)的手工設(shè)計(jì)屬性。本文研究者將圖像先驗(yàn)表示為二值分類器,訓(xùn)練 CNN 來分類模糊和清晰圖像。實(shí)驗(yàn)表明,該圖像先驗(yàn)比目前最先進(jìn)的人工設(shè)計(jì)先驗(yàn)更具區(qū)分性,可實(shí)現(xiàn)更廣泛場景的盲圖像去模糊。
29、CVPR2018:基于時(shí)空模型無監(jiān)督遷移學(xué)習(xí)的行人重識(shí)別
本文為你解讀CVPR2018 TFusion,解決的目標(biāo)是跨數(shù)據(jù)集的Person Rei,屬于無監(jiān)督學(xué)習(xí),方法是多模態(tài)數(shù)據(jù)融合 + 遷移學(xué)習(xí)。實(shí)驗(yàn)效果上,超越了所有無監(jiān)督Person reid方法,逼近有監(jiān)督方法,在部分?jǐn)?shù)據(jù)集上甚至超越有監(jiān)督方法
28、獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)(IndRNN):打造更長更深的RNN
電子科技大學(xué)和澳大利亞伍倫貢大學(xué)的研究者合作發(fā)表論文,介紹了他們創(chuàng)造的獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)(IndRNN),這種新型RNN能有效解決網(wǎng)絡(luò)收斂時(shí)的梯度爆炸和消失問題,并能夠處理更長的序列。
27、CVPR 2018 | 騰訊AI Lab、MIT等機(jī)構(gòu)提出TVNet:可端到端學(xué)習(xí)視頻的運(yùn)動(dòng)表征
來自騰訊 AI Lab、MIT、清華、斯坦福大學(xué)的研究者完成并入選 CVPR 2018 Spotlight 論文的一項(xiàng)研究提出了一種能從數(shù)據(jù)中學(xué)習(xí)出類光流特征并且能進(jìn)行端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò):TVNet
26、CVPR 2018 | Spotlight論文:變分U-Net,可按條件獨(dú)立變換目標(biāo)的外觀和形狀
來自德國海德堡大學(xué)的研究者提出了條件 U-Net,將變分自編碼器輸出的外觀條件化。實(shí)驗(yàn)證明,這個(gè)模型能夠完成條件圖像生成和轉(zhuǎn)換。在多個(gè)數(shù)據(jù)集上進(jìn)行的定性和定量實(shí)驗(yàn)表明,該方法比目前最先進(jìn)的方法都有所提升。
以下論文解讀來源于paperweekly
25、Unsupervised Person Image Synthesis in Arbitrary Poses
CVPR 2018 Spotlight 論文,ReID + GAN 換 pose。本文用了較多的篇幅講 loss function,pose 的提取用的是 OpenPose 這個(gè)庫。 其 loss 分為三部分: Image Adversarial Loss、 Pose Loss、Identity Loss。
論文鏈接:
https://iri,upc.edu/people/aagudo/Papers/CVPR2018/apumarola_etal_cvpr18_2.pdf
24、Person Transfer GAN to Bridge Domain Gap for Person Re-Identification
CVPR 2018 RE-ID Spotlight 一篇,這篇文章主要 contribution 有以下兩點(diǎn):
提出了一個(gè)新的更大的數(shù)據(jù)集,更為細(xì)致:考慮到了視角,光照等更為細(xì)致的因素,具體參數(shù)可以直接看文章;多個(gè)數(shù)據(jù)集間的差異,即 domain-gap,通過 GAN 來生成和模仿。
論文鏈接:https://arxiv.org/pdf/1711.08565.pdf
代碼鏈接:https://github.com/JoinWei-PKU/PTGAN
數(shù)據(jù)集鏈接:http://www.pkuvmc.com/publications/msmt17.html
23、Disentangled Person Image Generation
在 NIPS 2017 上,該團(tuán)隊(duì)已經(jīng)為我們貢獻(xiàn)了 Pose Guided Person Image Generation 這篇非常棒的文章,在 CVPR 2018 中,他們推出的更新的這篇文章不僅僅解決了換 pose 問題,還實(shí)現(xiàn)了”隨心所欲“的換裝換 pose,入選今年的 Spotlight。
論文鏈接:https://arxiv.org/pdf/1712.02621.pdf
22、Practical Block-wise Neural Network Architecture Generation
CVPR 2018 Oral 一篇,本文主要提出了通過封裝模塊(block-wise)的方法,運(yùn)用增強(qiáng)學(xué)習(xí)設(shè)計(jì)生成網(wǎng)絡(luò)架構(gòu)的方法。
論文鏈接:https://arxiv.org/pdf/1708.05552.pdf
21、Deep Layer Aggregation
CVPR 2018 Oral,topic:網(wǎng)絡(luò)設(shè)計(jì)模塊化。如名所示,提出了 aggregation 的具體思路,并在層融合上提出了具體方式。
論文鏈接:https://arxiv.org/pdf/1707.06484.pdf
20、Learning Face Age Progression: A Pyramid Architecture of GANs
CVPR 2018 Oral,文中提出了特征提取器用于提出特定特征,原因是作者認(rèn)為相同年齡段的不同人臉有著相同的的紋理等特定信息,而這個(gè)提取器就是提取出這些特征。此外,該分類器是經(jīng)過 age 分類任務(wù)預(yù)訓(xùn)練好了的。
論文鏈接:https://arxiv.org/pdf/1711.10352v1
19、Convolutional Neural Networks with Alternately Updated Clique
北大團(tuán)隊(duì)提出的新的 block 設(shè)計(jì),achieves the performance of the state of the art with less parameters.。由于 block 內(nèi)任意兩層互連,故實(shí)現(xiàn)了 top-bottom refinement,也就實(shí)現(xiàn)了 attention 機(jī)制。文中還提到了部分 technique。
論文鏈接:https://arxiv.org/abs.1802.10419
代碼鏈接:https://github.com/iboing/CliqueNet
18、Unsupervised Discovery of Object Landmarks as Structural Representations
CVPR 2018 Oral, 今年 CVPR Landmark 和 Attention 這兩個(gè)詞出現(xiàn)的頻率很高。現(xiàn)在看到的是第二版,對(duì)該文進(jìn)行了更深入的研究后完成。
論文鏈接:https://arxiv.org/pdf/1804.04412.pdf
17、An Analysis of Scale Invariance in Object Detection - SNIP
CVPR 2018 Oral,文章主要解決網(wǎng)絡(luò)處理不同 scale 圖片的網(wǎng)絡(luò)策略。
論文鏈接:https://arxiv.org/pdf/1711.08189.pdf
16、Wasserstein Introspective Neural Networks
文章主要做的事情就是提出了基于 Wasserstein 的 INN,該組已經(jīng)在 ICCV,NIPS 等多次提出并改進(jìn)該模型,該模型主要做的就是將 GAN 中的 G 和 D 結(jié)合起來。
論文鏈接:https://arxiv.org/pdf/1711.08875
代碼鏈接:https://github.com/kjunelee/WINN
15、Im2Flow: Motion Hallucination from Static Images for Action Recognition
CVPR 2018 Oral,用 u-net 訓(xùn)練一個(gè)模型:輸入是一個(gè)靜態(tài)的幀,輸出的預(yù)測的五幀光流信息,模型在 YouTube 數(shù)據(jù)集上訓(xùn)練。
論文鏈接:https://arxiv.org/pdf/1712.04109.pdf
14、What have we learned from deep representations for action recognition?
CVPR 2018 Zisserman 的新論文,這篇文章就是 two-stream 模型中間層的可視化方法,換句話說,就是探尋 two-stream 模型學(xué)到了怎樣的時(shí)空信息。
論文鏈接:https://arxiv.org/pdf/1801.01415.pdf
13、Squeeze-and-Excitation Networks
考慮通道加權(quán),用全局池化后訓(xùn)練的全連層作為權(quán)重,相當(dāng)于在 channels 上加了一個(gè) attention 機(jī)制,給不同的 channel 不同的權(quán)重。
論文鏈接:https://arxiv.org/pdf/1709.01507.pdf
代碼鏈接:https://github.com/hujie-frank/SENet
12、Actor and Action Video Segmentation from a Sentence
CVPR 2018 Oral,本文定義了一個(gè)新的任務(wù):給出一個(gè)句子,根據(jù)該句子分割視頻中的 actor 及其 action。
論文鏈接:https://arxiv.org/pdf/1803.07485.pdf
11、Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
CVPR 2018 Oral,主題是 attention+VQA,本文的主要思路是用 faster-rcnn 提取出 proposal,然后用其做 image captioning 或者 VQA,該方法取得了 2017 VQA Challenge 的第一名。
論文鏈接:https://arxiv.org/pdf/1707.07998
代碼鏈接:https://github.com/peteanderson80/bottom-up-attent…
10、Embodied Question Answering
這篇文章主要定義了一個(gè)新的 task 并給出了一個(gè)數(shù)據(jù)集。將一個(gè) agent 隨機(jī)丟進(jìn)一個(gè)房間,向他提出一個(gè)問題,這個(gè) agent 需要自己導(dǎo)航并回答問題。
論文鏈接:https://arxiv.org/pdf/1711.11543
9、Taskonomy: Disentangling Task Transfer Learning
本文定義了一個(gè)新的任務(wù),針對(duì)在視覺內(nèi)的遷移學(xué)習(xí),并提出了一個(gè)蠻大的數(shù)據(jù)庫, 定義的任務(wù)是這樣的:vision task 類目很多,只針對(duì)某個(gè)問題來解決的話,會(huì)需要很大的標(biāo)注的數(shù)據(jù)集,但我們不難想到的是,一個(gè)視覺任務(wù)的解決應(yīng)該能夠一定程度的解決另一個(gè)視覺任務(wù),畢竟一個(gè)成熟模型的構(gòu)建意味著對(duì)該 image 的一定的理解,而這部分的理解的一部分或許對(duì)另一個(gè) task 有助益,例,物體 relation 的理解對(duì)深度信息的學(xué)習(xí)毫無疑問是有著助益的。
論文鏈接:https://arxiv.org/pdf/1804.08328.pdf
代碼鏈接:https://github.com/StanfordVL/taskonomy
8、Detail-Preserving Pooling in Deep Networks
CVPR 2018 Oral,顧名思義,提出了保留 detail 的池化方法。 max/avg pooling 一個(gè)只選取最大而忽略與周圍像素的關(guān)聯(lián)性,一個(gè)重視關(guān)聯(lián)性卻又直接抹平,并且在實(shí)際梯度計(jì)算中也有一些 drawback,所以該文提出了這個(gè)新方法,一句話概括,就是在池化過程中學(xué)了一個(gè)動(dòng)態(tài)的 weight。
論文鏈接:https://arxiv.org/pdf/1804.04076.pdf
代碼鏈接:https://github.com/visinf/dpp
7、High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs
CVPR 2018 Oral,本文解決了 GAN 生成高分辨率突破的問題,分辨率達(dá)到了 2048*1024,方法精細(xì),值得深入來看。
論文鏈接:https://arxiv.org/pdf/1711,11585.pdf
代碼鏈接:https://github.com/NVIDIA/pix2pixHD
6、Feature Space Transfer for Data Augmentation
CVPR 2018 ORAL,用GAN生成新數(shù)據(jù)。
論文鏈接:https://arxiv.org/pdf/1801.04356.pdf
5、StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation
這里的 domain 是指針對(duì)數(shù)據(jù)集中的 attribute,根據(jù) attribute 來劃分的,比如相對(duì)于發(fā)色而言,金發(fā)是一個(gè) domain,黑發(fā)是一個(gè) domain ,作者在本文提出了一個(gè)可以解決 multiple domain translation 的 translator。
論文鏈接:https://arxiv.org/pdf/1711.09020.pdf
代碼鏈接:https://github.com/yunjey/StarGAN
4、Discriminative Learning of Latent Features for Zero-Shot Recognition
CVPR 2018 Oral,Zero-Shot Learning 就是尋求將學(xué)習(xí)到的特征映射到另一個(gè)空間中,從而 map 到 seen 及 unseen 的屬性或者 label 上。這篇文章的主要亮點(diǎn)在于學(xué)習(xí)了已定義label的同時(shí),學(xué)習(xí)了latent attribute(隱含屬性)。
論文鏈接:https://arxiv.org/pdf/1803.06731.pdf
3、Relation Networks for Object Detection
CVPR 2018 Oral,本文設(shè)計(jì)了一個(gè)考慮 relation 的 module,來增強(qiáng) object detection 的性能。
論文鏈接:https://arxiv.org/pdf/1711.11575.pdf
2、Semi-parametric Image Synthesis
CVPR 2018 Oral,來自 CUHK,這里設(shè)計(jì)的模型以 semantic layout 輸入,輸出真實(shí)的相片般的圖片。
論文鏈接:https://vladlen.info/papers/SIMS.pdf
1、Synthesizing Images of Humans in Unseen Poses
CVPR 2018 Oral,Pose 合成。
論文鏈接:https://arxiv.org/pdf/1804.07739.pdf
總結(jié)
以上是生活随笔為你收集整理的CVPR 2018 论文解读集锦(9月26日更新)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 极市电大 | 京东AI时尚挑战赛Top3
- 下一篇: ECCV 2018 | CornerNe