【学术相关】为什么很多国内学者的AI的论文复现不了?
吳恩達老師曾經說過,看一篇論文的關鍵,是復現作者的算法。
然而,很多論文根本就復現不了,這是為什么呢?
一、數據關系
因為作者使用的數據比較私密,一般人拿不到,這種情況下,即使作者提供了源代碼,但是讀者卻拿不到數據,也就沒法復現算法。
這種情況在國內學術界很普遍,數據別人沒有,這就好像一位奧數老師,自己出了一道奧數題,自己解答出來,然后把解題過程寫了論文,這類論文往往說服力不夠,故事性不夠強。
二、硬件原因
深度學習的很多算法,是靠大力出奇跡的方法做出來的。比如谷歌、facebook的一些算法,依靠強大的硬件訓練出來。
普通研究者沒有那么強大的硬件資源,估計達不到他們的1%的算力,根本無法復現算法。
三、數據劃分和訓練方式
有些論文公開了代碼,也公開了數據,但是論文里沒有提到數據劃分問題,數據如果比較少的話,不同的劃分會導致結果不同。
四、眾所周知的原因
這個原因大家心知肚明,我就不說太明白了,這個情況出現在很多國內作者的論文里。這個在公開數據上比較少見。
很多國內的學者發的論文,通常的套路是:
1. 定義一個很新但是意義不大的問題;
2. 面向github編程;
3. 網絡中加一些attention,module,normalization,loss,加到不會崩為止;
4. 編故事,寫小說,看上去邏輯挺清晰的,但是不給別人復現的機會。
理想的論文什么樣?
1.效果可以復現,論文里每一個實驗邏輯都很通暢,論文所有實驗形成的邏輯鏈完備,使用公開數據集,效果和論文基本一致。
能夠達到這種的一般是領域內的大佬,比如陳天奇、何愷明。
2.使用公開數據,公開代碼,論文細節清楚,能復現論文的效果。盡管很多論文的作者也不能說明為什么這么設計的網絡效果好,這個應該是深度學習可解釋性差的原因。因為他們公開了代碼,在公開數據集上效果好,能復現效果,所以也是好論文。
文末推薦
最后,推薦一個網站:paperswithcode.com/,很多優秀論文的代碼都能找到。
往期精彩回顧適合初學者入門人工智能的路線及資料下載(圖文+視頻)機器學習入門系列下載中國大學慕課《機器學習》(黃海廣主講)機器學習及深度學習筆記等資料打印《統計學習方法》的代碼復現專輯 AI基礎下載機器學習交流qq群955171419,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【学术相关】为什么很多国内学者的AI的论文复现不了?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java基础学习笔记(二)
- 下一篇: 服务器系统盘安装在sdb,从U盘自动安装