史上最萌最认真的机器学习/深度学习/模式识别入门指导手册(二)
謝謝你們。小夕昨晚又熬夜被發現了,謝謝對小夕的關心...
有你們陪著,小夕很幸運。
路人乙:“小夕,別人都說上完coursera上的那門機器學習課就已經入門機器學習了,可你又不這樣認為。那你認為上完那門課,或者說學完上一篇的階段一,處于什么水平呢?”
小夕:“大忽悠水平。”
前言
?2333,小夕沒有開玩笑哦,coursera那門課是為了幫助大家從整體上了解一下機器學習大框架,并培養興趣。而僅僅完成階段一的話,其實對企業而言幾乎是毫無價值的,啃論文也會寸步難行的呢。
?
那么完成階段二以后是處于什么水平呢?當然是真正的機器學習入門水平啦~
只要您認真學、認真總結了,相信此時配合您的編程能力,就可以嘗試自己實現機器學習模型啦。調用別人寫好的API,也會胸有成竹啦,而不是將其看作黑匣子了。
對于應用場景來說,完成該階段就可以轉行去做數據挖掘(DM)了,但要做計算機視覺(CV)、自然語言處理(NLP)中的模式識別問題的話,還不夠哦~
所以說,小夕將東西放在這里咯,剩下的就靠各聰明的你們用探索欲去完成啦~
?
還有哦,在正式開始階段二之前,小夕強烈建議您將階段一中的matlab代碼實現的機器學習算法再重新看一遍吶。不要光看你寫的!更重要的是看老師給寫好的大框架!甚至可以打開某個matlab內置的庫函數感受一下!
?
階段二
?概率與統計
前置課程
微積分
主參考資料
《概率論與數理統計》陳希孺(注意不是浙大的那本!)
重點內容:
整本書!
學習方法
這本書寫的超棒!雖然學校的概率統計用的浙大那本教材,但是學完也有好多地方似懂非懂。直到在圖書館無意間遇到了這本書。。。所以認真讀咯,是不是一想到小夕也讀過這本書,就迫不及待想開始了呢【捂臉】主要意義
這門課程不需要談意義了吧╮(╯▽╰)╭這門課都沒有掌握,那只能處于計劃一的大忽悠水平咯~
最優化算法-上
前置課程
微積分(高等數學)
線性代數
主參考資料
《Deep Learning》第四章(中文版鏈接見手冊(一))
《Numerical Optimization》Jorge?Nocedal等
輔助參考資料
《最優化理論與方法》袁亞湘,孫文瑜(這本書已絕版,但某寶有賣復刻版;在學校的同學可去圖書館借,沒收藏這本書的大學應該可以取消數學和計算機專業了吧)重點內容:
一階無約束優化算法
梯度下降法(簡單了解步長的確定方法)
二階無約束優化算法
牛頓法
約束優化算法
線性規劃概念與應用
二次規劃概念與應用
拉格朗日乘子法的簡單認識
高級內容(依照自身數學基礎,盡可能深的理解)
一階無約束優化算法
梯度下降法(僅掌握線搜索法,學嗨了可以看信賴域法)
二階無約束優化算法
共軛梯度法
擬牛頓法
約束優化算法
線性規劃(僅掌握單純形法,學嗨了可以看內點法)
二次規劃(僅掌握對偶法,學嗨了可以看積極集法)
學習方法
小夕考慮到最優化算法對機器學習而言雖然至關重要,但是對數學基礎要求很高。因此在本計劃中采用個性化定制的方式:
如果您的數學基礎很好,強烈建議您盡可能的完成高級內容,這對后面機器學習算法的透徹理解極其重要。
如果您的數學基礎不夠,只需完成重點內容即可。但是希望在業余再加深一下對微積分、線性代數等知識的理解哦~方便以后突破瓶頸吶。
對于重點內容,只需要認真研究理解《Deep Learning》中的4.3節和4.4節,這兩節信息量很大,請務必認真閱讀每一句話。如果這兩節都感到寸步難行的話,請補習最優化的前置課程哦。
對于高級內容,《Numerical?Optimazation》是極其合適的,這本書很偏工程實踐,講了很多practical的問題。也是我們學校最優化課的教材。這本書貌似沒有中文版,不過相信您的數學基礎都那么好啦,看英文資料也沒有問題噠~
主要意義
????小夕在指導(一)中提到的機器學習瓶頸就是指的這門課!
????小夕第一次學機器學習時,以為各個機器學習模型是孤立的,有的用梯度下降,有的二次規劃的,當時也不知道,結果學完之后機器學習體系特別散。
????直到上了這門課,才恍然大悟,竟然有這么一個數學體系將機器學習中的“尋最優參數”(即最優化)問題全都聚攏到一起了!
????所以,這門課之于機器學習的重要性,小夕只能說重中之重呀。?
機器學習-下
前置課程
線性代數
概率與統計
最優化算法
主要參考資料
《統計學習方法》李航
《數據挖掘導論》Pang-Ning Tan等
重點內容:
感知機模型
K近鄰模型
樸素貝葉斯模型
決策樹模型
支持向量機模型
集成分類器
Bagging
Boosting
Random Forest
學習方法
在確信自己的前置課程已經完成的前提下,針對重點內容的前5項,抱起《統計學習方法》怒啃吧!不要有心理障礙,當你像接受python一樣接受數學語言時,你會發現這本書讀起來很輕松~
對于Logistic模型,也就是書上的第六章可以不用看。完成階段一后應對Logistic模型有足夠的了解了(只要你別偷懶!),更深入的了解會在下一階段展開。小夕總覺得這一章講的半淺不深的。建議跳過。
對于決策樹模型,也就是書上的第五章,需要預先學習信息論中的一點知識,起碼弄懂熵、條件熵、自信息、互信息的概念。如果感覺書上的講解不易理解,可以求助《數據挖掘導論》或者Google。
對于SVM模型,記得初學時在98、99頁的位置遇到過一個問題,感覺書上的解釋不夠詳細,導致沒理解SVM。但是小夕實在想不起來了QAQ。懂了之后再找這個點好難。所以如果你們讀到這里后遇到跟小夕一樣的問題,請及時求助Google或者紙質資料哦(小夕當時是看《信息檢索導論》理解的這個點,這本書的第15章講的SVM挺棒,不過你們沒有文本方面的前置知識小夕不清楚會不會影響理解QAQ)
如果依然感到某個模型的數學描述太難理解,則拿起《數據挖掘導論》找到對應的模型學習一遍,再返回來看。(你想說《數據挖掘導論》上也看不懂怎么辦?咳咳,請返回計劃1。)
如果你感覺某個模型的數學描述看懂了,但是總感覺意猶未盡,好像還缺點什么,甚至會有一種小茫然,那么恭喜你,你的大腦試圖在模型之間建立聯系,它已經迫不及待的要開啟下一輪計劃了~暫時沒有這種感覺也沒關系,畢竟不同人的學習模式不一定一樣嘛。
重點內容的前五項完成后,第六項在《數據挖掘導論》中解決(第五章第六節)。
主要意義
????在階段一我們已經淺淺的嘗了一下整個機器學習大框架。除了了解了機器學習的基本概念、常用模型外,也對正則化技術、交叉驗證思想等有了初步的認識,完成了科普階段的積累。
????但是小夕講了,我們不做大忽悠哦~因此經過本課程勤懇的鉆研,您就可以揭開機器學習的大部分面紗啦!你會發現看似神奇的學習算法,人工智能中看似神奇的學習能力,原來不過是幾個數學公式+工業界的小trick嘛~~?
????至此,您可以稱得上機器學習的從業者了。動手欲強的人估計此時已經將書上的數學語言翻譯成您喜歡的編程語言了吧( ̄? ̄)?
下階段預告
python
機器學習任務實踐
模式識別與深度學習-上
?
文末,還是想再說一聲“謝謝你們(?????????)”。小夕會將你們帶給小夕的感動延續下去,再轉交到你們手里。
總結
以上是生活随笔為你收集整理的史上最萌最认真的机器学习/深度学习/模式识别入门指导手册(二)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Solr Facet技术的应用与研究
- 下一篇: 美团点评技术年货:一本覆盖各技术领域、1