听说读论文也有trick?这篇文章告诉你深度学习论文阅读最佳姿势
2020年的今天,我們的專業是deep learning,但是我們要keep learning,每天早上一睜眼,arxiv每天更新上百篇的論文,著名微博博主@愛可可-愛生活保持也在推送最新的deep learning資訊和論文。
我們不缺少計算機視覺論文,我們缺少的是鑒別哪些應該讀。無論是泛讀還是精度,海量論文總是讓我們迷失雙眼,Github搜索awesome有成百上千個repo,但是缺少比較和注解。我們應該去哪里找值得讀的論文,我們打開pdf論文的姿勢正確嗎?
論文應該怎么讀
海量論文看不夠,自己萌發了分門別類寫閱讀筆記的習慣。好記性不如爛筆頭,更何況計算機視覺方向眾多,對自己不熟悉的領域,每次都從頭閱讀,感覺很費勁。當我分門別類閱讀計算機視覺的科研論文,查詢和檢索如此簡單。比如對于目標檢測領域,有綜述,人臉檢測,目標檢測,樣本不平衡問題,one-stage 檢測,每片論文都有閱讀等級,解決的主要問題,創新點,可能存在的問題,TODO等,隨時隨地和查詢過去的知識點。復習某一領域的知識,只要一根繩子就串起來。
個人閱讀計算機視覺論文,會橫向和縱向發散,考慮更多的問題:
要點一
每篇論文都不會說自己的缺點,只會放大優點。但是引用別人的論文時,卻總放大別人工作的缺點。當你對比閱讀時,形成一個知識串,才會對某個問題有更清晰的認識。
要點二
論文為了出成果,一般只會選擇對自己模型有力的數據集驗證。對某一領域數據集特征了解,再也不會被作者蒙蔽雙眼了。比如NAS(Neural Architecture Search),很多論文喜歡在CIFAR-10/ CIFAR-100/SVHN等小數據集比實驗結果,ImageNet性能表現避重就輕避而不談;很多論文寫state-of-art的性能,對實時性不談;論文沒有說的沒有做的可能是個大坑。
要點三
論文因為要投稿和發表頂會,故意會云里霧里引入很多概念和公式,當對比代碼,關鍵trick,才能返璞歸真。Code+paper,才是論文最佳的閱讀方式。
要點四
對于自己關注的領域,可能每篇有影響的,實驗結果不是state-of-art也要關注,因為工作可能會撞車。對橫向領域的論文,要關注state-of-art,說不定很多trick可以直接遷移到自己的工作。
要點五
重點關注數著名實驗室/老師/三大頂會(CVPR,ICCV,ECCV)的連續劇。2020年的CVPR投稿量都破萬,各種水文魚目混雜,實在是難以鑒別,個人傾向于paper+code模式。敢于開源code的論文,真金不怕火煉,作者有底氣。沒有code的論文,也許是商業或者其他授權暫時沒有發布,但是發布了一兩年還在遮遮掩掩,這些論文不看也罷。
要點六
最重要一點拒絕二手知識。閱讀一篇論文,google搜索題目可能有1000+篇的閱讀筆記,閱讀筆記的數量比論文的引用量都多;包括我在內的很多博客/筆記也喜歡摘抄,google翻譯+復制粘貼造就閱讀筆記的虛假繁榮。有些問答還是具有參考意義,比如知乎中常見的“如何評價Google Brain團隊最新檢測論文SpineNet?”,在這些如何評價的思想碰撞中,還是有些很好的火花。個人感覺不管是做科研學術工業界做項目,要摒棄完全重二手知識中學習,直接從原文閱讀思考、和作者郵箱聯系尋找答案。
最新最全的state-of-art論文
自己也在github找論文,有些repo推薦的論文對自己幫助很大。我發現這些repo只是論文的堆砌,可能發布awesome的人也沒有完全讀過這些論文。基于自己對論文的理解,和每年看一篇論文的目標,于是將每天的閱讀筆記發布在https://github.com/ahong007007/awesomeCV。包含檢測識別、分割、圖像增強、AutoML、GCN、壓縮剪枝、優化訓練、點云、視頻分析、自動駕駛等方向:
每篇論文都有相應的閱讀筆記:
以下節選部分內容:
1 檢測識別(包含綜述/人臉檢測/目標檢測/不平衡/loss/one stage/tricks)
綜述
◎香港中文大學,商湯等聯合提出的MMDetection,包括檢測模型,實體分割等state-of-art模型框架源碼,屬業界良心。
[2019.06]MMDetection: Open MMLab Detection Toolbox and Benchmark
https://arxiv.org/pdf/1906.07155.pdf
人臉檢測
◎主要針對移動端設計(backbone MobileNet v2)在高通845上達到140fps的實時性。
[2019.02][PFLD:A Practical Facial Landmark Detector]
https://arxiv.org/pdf/1902.10859.pdf
目標檢測
◎北京大學等提出的一種改善型backbone,論文最強指標Cascade Mask R-CNN +Triple-ResNeXt152在COCO數據集實現53.3AP,性能上是數據榜首。
[2019.09][CBNet: A Novel Composite Backbone Network Architecture for Object Detection]
https://arxiv.org/pdf/1909.03625.pdf
......
2?分割(包含綜述/語義分割/實例分割/全景分割)
綜述
◎[2020][Image Segmentation Using Deep Learning:A Survey]
https://arxiv.org/pdf/2001.05566.pdf
語義分割
◎[DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation]
https://share.weiyun.com/5NgHbWH
......
3?圖像處理(包含綜述/超分辨率/圖像去噪/圖像增強)
◎Blind Deblurring綜述
[2019.07][Blind Deblurring using Deep Learning: A Survey]
https://arxiv.org/pdf/1907.10128.pdf
◎Image inpainting綜述
[2019.09][Image inpainting: A review]
https://arxiv.org/pdf/1909.06399.pdf
◎圖像去除雨滴算法綜述
[2019.09][A Survey on Rain Removal from Video and Single Image]
https://arxiv.org/pdf/1909.08326.pdf
◎圖像去噪綜述。
[2019][Deep Learning on Image Denoising: An overview]
https://arxiv.org/pdf/1912.13171.pdf
超分辨率
◎CVPR2019論文,中科大,自動化所,曠視等聯合提出Meta-SR, 單一模型解決任意尺度的 super-resolution。
[Meta-SR: A Magnification-Arbitrary Network for Super-Resolution]
https://arxiv.org/pdf/1903.00875.pdf
圖像增強
◎CVPR2019論文,香港中文大學等提出。論文假設自然圖像的光照圖有著相對簡單的先驗,讓網絡模型去學習image-to-illumination mapping,實現retinex的圖像增強。
[Underexposed Photo Enhancement using Deep Illumination Estimation]
http://jiaya.me/papers/photoenhance_cvpr19.pdf
......
每天一坑,很少間斷,不要怕repo爛尾。只要作者還在計算機視覺領域,就會不斷更新自己的私房菜。
圖 目標是日更,還是有偷懶的幾天啊!
不要忘記star和pull requests,讓我們紅塵作伴。
安利一個論文閱讀查找
安利一個機器學習(包含計算機視覺的)網站(已經被Facebook收購),將ArXiv上的最新機器學習論文與GitHub上的代碼(TensorFlow/PyTorch/MXNet /等)對應起來。據網站開發者介紹,里面包含了 966 個機器學習任務、515 個評估排行榜(以及當前最優結果)、8625 篇論文(帶源碼)、704 個數據集。
paperwithcode網站廣泛涉及了各類機器學習任務,包括計算機視覺、自然語言處理、醫療、方法(Methodology)、語音、游戲、圖、時序、音頻、機器人、音樂、推理、計算機代碼、知識庫、對抗等方面的內容。
感受一下網站風格,再也不怕找不到最好看的論文,加上ahong007007的awesomeCV,三個月一個療程,計算機視覺從入門到入坑,三個療程,可以治愈計算機視覺臉盲的問題。網站地址:https://paperswithcode.com
awesomeCV什么時候能被Facebook和paperwithcode網站收購那,讓我們拭目以待。
閱讀論文書籍,探討讀書意義
寫到這里有跑題之嫌,但是我覺得閱讀計算機視覺的專業文獻,和讀書有些共同之處。
我每天閱讀一篇專業論文,也在坐地鐵時間打卡微信閱讀。在豆瓣寫了5年的書評,在微信閱讀打卡280小時。
理工科讀paper讀專業書籍,都有一把尺子——各種實驗數據集,能衡量理解的對不對,每天都有可能推翻之前的state-of-art,經典書籍可能10年100年不過時;論文會用實驗數據表明我的工作好不好,有Related Work橫向和縱向比較誰更好,書沒有答案,沒有學科綜述,全靠你去總結。一般經典書籍不會說別人對不對,但是每個觀點都能自圓其說。
但是對于人文學科的思想和精神財富,沒有評價標準和答案,只有根據個人的閱歷,讀懂引起心靈共振的段落。當閱讀時候,一定要有自己的思考,延伸,才會讓血肉之軀留下更多的精華。當我再拿起書,我會知道我應該辯證去看,這篇文章的有沒有abstract在哪里,introduction該怎么說,有沒有Related work可比較一下,backbone是干嘛的,method做了沒,Experiments該怎么做,看完書應該得出什么conclusion。
讀一篇論文,會第一時間看看Experiments做的好不好;讀書,也要第一時間翻到最后,作者寫的虎頭蛇尾,說明作者才華不足以完整整個工作,就不要花費過多的精力了。
用理工科的思維去讀書,也挺有意思:理解背后的動機,原理,當過了N年,即使不記得那本書,還記得那個思想理論和背后的故事。也許會推導出以前讀過的結論、也許是推翻以前的結論。
為了幫助大家更好的閱讀論文,我們整理了一份硬核干貨:計算機視覺頂會資源大合集,內容包含:
CVPR資源合集:400篇CVPR2020論文合集+解讀/CVPR2019論文合集+解讀+代碼+大會Oral視頻+分享會/CVPR2018/CVPR2017/CVPR2016
ICCV/ECCV資源合集:ICCV2019論文合集+解讀+全部開源代碼/ECCV2018 論文合集+解讀/ICCV2017論文合集+解讀
ICLR/NeurIPS/AAAI/Valse資源合集
……
掃描下方二維碼,回復極市平臺即可獲得上述資源
本文原創首發于公眾號【極市平臺】,一個專注計算機視覺前沿資訊和技術干貨的純粹技術號。
掃描上方二維碼,回復加群,即可加入來自港科大、北大、清華、CMU、騰訊、百度的10000+開發者技術交流社群,獲得大咖直播分享、技術干貨、前沿資訊、算法競賽實踐、真實項目需求對接、行業技術交流機會等內容。
極市平臺優質文章精選:
25篇最新CV領域綜述性論文速遞!涵蓋15個方向:目標檢測/圖像處理/姿態估計/醫學影像/人臉識別等方向
CV開發者自我修養 | 吳恩達教程/筆記/刷題資料最全匯總
極市直播|第45期-俞剛Human pose Estimation分享回放視頻(含PPT)
秋招面經?| 計算機視覺匯總面經分享
總結
以上是生活随笔為你收集整理的听说读论文也有trick?这篇文章告诉你深度学习论文阅读最佳姿势的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 高效利用无标注数据:自监督学习简述
- 下一篇: 他与她,一个两年前的故事