【竞赛相关】南大化院博士刘子腾:跨专业如何做数据竞赛浅谈
作者:劉子騰,南京大學化學化工學院博士研究生
跨專業如何做數據競賽淺談
自我介紹
劉子騰,南京大學化學化工學院理論與計算化學研究所(ITCC)博士研究生,導師是馬晶教授,主要研究方向是材料的多尺度模擬和基于“材料基因工程”的數據庫建設與分子性質預測的算法發展,曾獲得Codalab Tencent Alchemy Contest比賽冠軍。
?
怎么知道數據競賽的
這個要感謝張杰的啟發,我最早是通過阿里天池天文賽中張杰的解決方案了解到了數據競賽,后來去聽了他在南京大學的數據科學講座,從中獲知了數據競賽的大概流程和競賽經驗。我也加入了Kaggle競賽的社區群,在此社群中可以獲得國內外很多賽題的開放信息。
如何跨專業數據競賽
(1)???? 選擇和自身研究更有關系的比賽。對于研究分子科學的學生,如果是從預測分子性質或者AI制藥的比賽入手相對會簡單一些,比如同一時期Codalab Alchemy Contest[1]和Kaggle Predicting Molecular Properties對我來說可能都是合適的。但是Kaggle比賽側重于AI對分子自旋性質的預測,Codalab則是更傾向分子偶極、軌道能級和熱力學性質的預測,相比之下我平時所做的后者性質的模擬更多,因此Codalab是更適合我的,同期的Kaggle比賽完全就當參考學習了。
(2)???? 結合課題思考AI的可用之處。雖然之前沒做過這類比賽,但我的一個課題是通過統計手段來研究材料相變熱力學性質中的熵效應(entropy effect)。我當時因為完全從物理的角度出發遇到了一些困難,所以一直也在思考能否通過AI來破除困境。后來自己發現這個性質和數據競賽中的所關注的一個任務關系是十分密切的,這也激發了自己的興趣,通過數據競賽和大家一起探索建立合適的機器學習模型來解決問題。
(3)???? 尋找一位計算機專業的搭檔。在算法基本功的方面,計算機系的同學肯定還是更專業一些,他們也能提供GPU資源,對你的思考提出專業的建議;對于跨專業的同學而言,最有價值的是和他們一起讀論文,了解他們的思維方式和習慣并從物理角度一起思考解決問題的算法實踐方案。這里我更建議先自己獨立嘗試解決,當比賽到達一定階段后針對自己遇到的問題,再尋找跨專業的合作伙伴,當各自對問題都有了一定解決和需求后,彼此之間的溝通會更加順利。
(4)???? 嘗試從已發表論文的展望中尋找解決方案。一篇優秀的論文,通常都會實在地指出自己的不足,并給出未來解決方案的可能發展方向。比如Alchemy比賽的baseline是谷歌團隊2017ICML的MPNN[2],在論文最后的地方它指出了該算法的不足并給出了2個方向。我們算法的一部分就是從解決這里的問題展開的,另一部分則是從量子化學模擬原理與比賽數據本身特點,嘗試去解決MPNN算法本身的不足,這和他提出的問題也是有一定關系的。
數據競賽價值與意義
(1)???? 數據競賽(尤其是Kaggle、Codalab等這些國際競賽平臺的比賽)能拓寬眼界,提升問題的思考深度,并促進不同國界不同專業不同背景的交流。在Alchemy競賽中,參賽者需使用機器學習算法預測經典量子模擬算法中密度泛函理論求解分子的 12 個量子性質。這里不僅有發表過NeurIPS, ICLR的計算機方向的博士,也有發表過Science advance,Nucleic Acids Research或者JCTC等基礎科學物化生方向的關注者。在平時,處在不同評價體系的人很少能有一個問題能夠讓差異化巨大的社區聚在一起交流探討解決方案。比賽后,相信每一個人都成長了很多,并且很多人都會在第一時間在論壇對主辦方表示感謝。作為一個化學屆的學生,我最開心的是跟著大家學到了很多AI屆發展的處理圖結構數據相關的算法會議前沿,而我也遇到了對量子力學感興趣找我討論的計算機系的同學,真的很有意思,大家都在另一個維度獲得了提升。
(2)???? 競賽對論文的發表以及找工作都是非常有幫助的。比如,Alchemy比賽中的第三名慕尼黑工業大學TUM KDD組Johannes Klicpera發展的DimeNet[3,4],在比賽結束后他們把算法做到了更好,不久就中了ICLR2020 spotlight和NeurIPS2020的Machine Learning for Molecules Workshop。并且有的比賽,只要獲得不錯的成績,論文就有直接發表的機會。賽后,我也把自己的一點觀點整理了一篇小文章[5]掛了預印本在Chemrxiv上,雖然還未正式發表,但是已經被引用5次了。另外,比賽對求職是也是有作用的,雖然自己水平較為一般,但也有不少公司聯系我提供了實習機會。
(3)???? 競賽讓你結識不同領域的朋友,體會到合作共贏的工作方式,對個人發展的影響是非常重要且長遠的。數據競賽不僅會給出最具挑戰性的數據和計算問題,通常也是最為公平直接的個人呈現方式,因此會吸引各方向研究者和工程師的匯聚。事實上,比賽會有結束的時候,但比賽所關注的問題可能仍會引發思考。比如,關于分子圖結構數據的量子化學性質預測中的遷移性問題,競賽后,大家之間的討論還是非常激烈,彼此之間仍然在相互促進學習,并成為了很好的朋友。這里我要尤其感謝自己比賽時的隊友,他的信任與幫助,教給了我最重要最寶貴的東西,在和這些人的接觸中,你也總能被激發遇到更好的自己。如果在Kaggle或者Codalab這些平臺做比賽,你還有可能找到與不同國家的人不同背景的人一起合作努力的機會。Alchemy這次比賽的一位對手是德國人,比賽結束后,我們已經是有興趣合作去嘗試其他競賽問題的朋友了,在與他的交流中,我也發現成長于另一種教育體系下他身上所具有的獨特研究品質,這里面很多都是自己非常欠缺的,甚至給我帶來了一些自我反思。
?
對學弟學妹的建議
(1)???? 樹立自信,勇敢走出舒適區,腳踏實地。這方面,大家要相信自己想學就一定能夠學會,可以嘗試多去復現AI論文的算法,學習Kaggle等社區的解決方案等。知識的掌握和專業、年紀都沒有直接關系,有問題可以多寫郵問論文作者、獲獎選手或者去相應社區提問,不要害怕走得慢或者問題很難就停下腳步。
(2)???? 樹立“學習的長期主義”、“學習不局限于本專業”的觀念。AI發展的一個趨勢是越來越多的與專家領域知識相結合,變化也很快,同樣作為領域的研究者,也應該去學習前沿的算法理念。沒有人能夠一開始就能做得很好,但可以通過保持學習逐步積累來獲得好的狀態,自我充實,逐步提升,這很重要。
(3)???? 多動手實踐,不迷信發表的論文,養成獨立思考的習慣。在數據競賽中,所有的算法都會來到同一個跑道上,你會發現很多論文的算法并沒有那么神,相反還可能存在很多問題。多動手實踐,能培養你對算法的直覺與理解能力,漸漸地,對于一類數據集,你不動手大概能看到算法的優點和劣勢所在,很快篩選尋找合適數據競賽的解決方案。物理化學材料等科學界,更傾向于直接利用現有的算法去解決問題或者只在自己建立的數據集上發展算法,這會讓人擁有一些基礎,但如果有空自己也可以獨立思考,是否可以通過設計算法把性能指標推到另一個境地,甚至在公用的數據集上與SOTA比較,這對培養數據競賽能力是很重要的。
(4)???? 善于向他人學習,多看到對方的優點,聽取他人意見。數據競賽中競賽選手的背景豐富度可能非常高,各種年齡、專業、學歷、國別都存在,對于同一個問題,在大家可能有不同的甚至沖突的反饋,但都是非常寶貴的。這時候你要多去聽取不同背景人的意見,給出你的意見并尋求他們的支持。同時,在不違反競賽協議的前提下,當別人有一些疑惑向你尋求幫助時,你也應該真誠的給出解答,和對方一起走得更遠。
??
最后,有問題歡迎大家給我寫信:njuziteng@hotmail.com
?
參考文獻
?
[1] https://alchemy.tencent.com/
[2] Gilmer, Justin, Samuel S. Schoenholz, Patrick F. Riley, Oriol Vinyals, and George E. Dahl. "Neural message passing for quantum chemistry." arXiv preprint arXiv:1704.01212 (2017).
[3] Klicpera, Johannes, Janek Gro?, and Stephan Günnemann. "Directional message passing for molecular graphs." International Conference on Learning Representations (2020).
[4] Klicpera, Johannes, Shankari Giri, Johannes T. Margraf, and Stephan Günnemann. "Fast and Uncertainty-Aware Directional Message Passing for Non-Equilibrium Molecules." arXiv preprint arXiv:2011.14115 (2020).
[5] Liu, Ziteng, Liqiang Lin, Qingqing Jia, Zheng Cheng, Yanyan Jiang, Yanwen Guo, and Jing Ma. "Transferable multi-level attention neural network for accurate prediction of quantum chemistry properties via multi-task learning." ChemRxiv 12588170 (2020): v1.
?
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯 獲取本站知識星球優惠券,復制鏈接直接打開: https://t.zsxq.com/qFiUFMV 本站qq群704220115。加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【竞赛相关】南大化院博士刘子腾:跨专业如何做数据竞赛浅谈的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: windows7怎么清空电脑只剩系统
- 下一篇: 【学术相关】揭秘2020年度百篇最具国际