干货 | 机器学习入门方法和资料合集
作者 何從慶
授權自 AI算法之心
近些天在微信群里經常看小伙伴問到“機器學習如何入門,看哪些資料 ?”,于是乎想根據筆者學習兩年多的學習經驗,介紹下機器學習如何入門,該看哪些資料?下面我將從以下幾個方面整理機器學習入門的資源:
(1)語言:機器學習中常用的語言。
(2)書籍:書中自有黃金屋,機器學習中涉及到的很多數學理論,只看視頻或者博客是很難獲取到完整的知識框架。
(3)視頻:書中有些公式推導很難理解,可以看看大牛們深入淺出的課程。
(4)博客:經常看一些大牛們的分享,對于擴展知識面具有一定的幫助。
(5)比賽:實踐是檢驗學習成果重要標準,參加一些算法競賽,對于理解算法有著良好的幫助。
(6)論文:對于一些碩士來說,創新是檢驗學習能力重要體現。
語言
“人生苦短,我用python”,python目前已經成為機器學習中最主流的語言,由于其豐富的算法庫。
1、numpy:?最基礎的python庫之一
地址:http://www.numpy.org/
2、pandas:?常用于數據處理的庫
地址:https://pandas.pydata.org/pandas-docs/stable/
3、scipy:?SciPy是一個開源的Python算法庫和數學工具包。
地址:https://docs.scipy.org/doc/scipy/reference/tutorial/index.html
4、scikit-learn:sklearn包含眾多的算法接口,從監督學習到半監督學習,再到無監督學習。還有評價指標、特征選擇等。
地址:https://scikit-learn.org/
5、scikit-multilearn:multi-label的算法庫。
地址:http://scikit.ml/
還有一些深度學習的算法庫,如:
6、keras:最適合入門深度學習的小伙伴的算法庫。
地址:https://keras.io/zh/
還有一些較難的深度學習算法庫,如tensorflow,pytorch。
書籍
1、《統計學習方法》:李航老師的《統計學習方法》這本書堪稱經典,很多同學都靠著這本書找到理想的工作,強力推薦!對于許多想入門機器學習的小伙伴們,建議多看幾遍這本書,弄懂算法的每一個細節。
2、《機器學習》:周志華老師的《機器學習》這本書,很多人又稱之為西瓜書,也是很有幫助的。基本涵蓋機器學習的所有分支,如監督學習,無監督學習,半監督學習,強化學習,特征選擇等。
3、《推薦系統實戰》:項亮博士的《推薦系統實戰》這本書,很適合對于想了解推薦系統的小伙伴們有一定的幫助。
4、《概率論與數理統計》:很多機器學習算法都是從統計學概率論上發展而來的,對于概率知識統計知識不足的小伙伴們,建議研讀這本書。
5、《Pattern Recognition and Machine Learning》:如果有小伙伴們英文比較好,小伙伴們也可以看看PRML這本經典的書。
6、《Reinforcement Learning:?An Introduction》:如果有小伙伴想研究強化學習,這是一本不錯的強化學習入門書籍。
上述資料的pdf版本已上傳至網盤,如果有小伙伴感興趣,歡迎關注"AI算法之心",后臺回復"機器學習入門書籍"。
視頻
如果小伙伴們對于上述書籍看起來很吃力,很難弄懂算法的來龍去脈,建議將書籍(初學者推薦:《統計學習方法》)與視頻結合起來,相互促進。
1、吳恩達老師的公開課:網易云上和coursera上都有他的講課,很基礎的版本,建議大家入門的時候多看看這個視頻。個人覺得coursera上面的課程比較簡單點。
網易云上面的地址:http://open.163.com/special/opencourse/machinelearning.html
coursera上面的地址:
https://www.coursera.org/learn/machine-learning
2、李宏毅老師的課程:李宏毅老師的課程也是比較好,值得大家學習。
這里有整理好的版本:https://blog.csdn.net/soulmeetliang/article/details/77461607
博客
國內:
1、火光搖曳:騰訊技術大牛們的博客
地址:http://www.flickering.cn/
2、美團技術團隊的博客:里面也有很多干貨:?
地址:https://tech.meituan.com/
3、蘇劍林的博客里面也全是干貨
地址:https://spaces.ac.cn/
4、還有一些比較大型的博客網站,如博客園,簡書,CSDN,知乎等等。
國外:
1、Netflix:Netflix技術博客,很多干貨。
地址:https://medium.com/netflix-techblog
2、Towards Data Science:主要分享些概念、idea和代碼。
地址:https://towardsdatascience.com/
3、Github: all code is here。
比賽
學習機器學習的過程中,如何檢驗自己學習的成果呢?比賽就是一個比較好的方向,比賽其實可能會為了成績,摳那千分位,百分位的差距,但是其實在比賽中思考才是最重要的。如何將這些經典的算法應用到工業中,這些算法在工業中的優缺點?慢慢體會!
國內比較大型的算法平臺有:
天池大數據:
https://tianchi.aliyun.com/home/
datacastle:
http://www.pkbigdata.com/
datafountain:
https://www.datafountain.cn/
biendata:
https://biendata.com/
kesci:
https://www.kesci.com/
Jdata:
https://jdata.jd.com/
國外比較大型的算法平臺有:
kaggle:
https://www.kaggle.com/
比賽平臺有很多,這幾個是比較出名的平臺。大家可以去官網看一看,有很多正在進行中的比賽。另外,還有很多其他的平臺,這里我就不介紹了,近些天,我和我朋友也在思考這個問題,是否可以做個網站,集成這些比賽網站還有國外著名會議的學術評測比賽呢?歡迎大家在留言區一起討論!!!順便給我個意見!
論文
很多即將大四畢業,跨入研究生生活的師弟師妹們,也或者即將邁入研二的師弟師妹呢,是否還在為畢業發愁呢?小論文成為中國碩士畢業老難題!其實,寫一篇比較簡單的ccf c類的論文并不是很難,或許 ccf b ?ccf a類的論文確實很難!如何入門呢?看近些年機器學習、人工智能的頂級會議、期刊論文(會議論文速度更快)。這里我僅整理下會議論文。
值得看的會議文章:
1、數據挖掘類:
SIGKDD:頂級數據挖掘論文。
2019年:審稿中
2018年accepted paper:
https://www.kdd.org/kdd2018/accepted-papers
2017年accepted paper:
https://www.kdd.org/kdd2017/accepted-papers
2016年accepted paer:?
https://www.kdd.org/kdd2016/program/accepted-papers
SIGIR:頂級推薦系統論文
2019年accepted paper:審稿中
2018年accepted paper:?
http://sigir.org/sigir2018/accepted-papers/
2017年accepted paper:
http://sigir.org/chiir2017/accepted-papers.html
2016年accepted paper:?
http://sigir.org/sigir2016/full-papers/
http://sigir.org/sigir2016/short-papers/
還有一些次頂級會議:CIKM/ECML-PKDD/ICDM/SDM/WSDM
2、機器學習類:
AAAI: 頂級人工智能綜合會議
2019年accepted paper:?
https://aaai.org/Conferences/AAAI-19/wp-content/uploads/2018/11/AAAI-19_Accepted_Papers.pdf
2018年accepted paper:?
https://aaai.org/Conferences/AAAI-18/wp-content/uploads/2017/12/AAAI-18-Accepted-Paper-List.Web_.pdf
2017年accepted paper:??
https://www.aaai.org/Conferences/AAAI/2017/aaai17accepted-papers.pdf
IJCAI: 頂級人工智能綜合會議
2019年 accepted paper: 審稿中
2018年accepted paper:?
http://www.ijcai-18.org/accepted-papers/index.html
2017年accepted paper:?
https://ijcai-17.org/accepted-papers.html
ICML :頂級機器學習會議
2019年accepted paper: 審稿中
2018年accepted paper:
https://icml.cc/Conferences/2018/Schedule?type=Poster
2017年accepted paper:?
https://icml.cc/Conferences/2017/Schedule?type=Poster
NIPS:頂級綜合人工智能會議
2019年accpeted paper: 征稿中
2018年accepted paper:?
https://nips.cc/Conferences/2018/Schedule?type=Poster
2017年accepted paper:
https://nips.cc/Conferences/2017/Schedule?type=Poster
還有一些其他的專業人工智能會議:如自然語言處理領域的 ACL/EMNLP/NAACL/COLING。偏統計的人工智能會議:AISTATS。
圖像的人工智能會議:CVPR/ICCV/ECCV。小伙伴們可以看一些上述與自己相關的會議論文,針對論文的方法的不足,思考改進的方法!
這是一個小騷包,長按二維碼即可關注
總結
以上是生活随笔為你收集整理的干货 | 机器学习入门方法和资料合集的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 这里有 40 本 Python 书等你来
- 下一篇: 深度学习搞CV?图像数据不足咋办?看这里