吴恩达《Machine Learning》精炼笔记 1:监督学习与非监督学习
作者 | Peter
編輯 |?AI有道
0. 引言
吳恩達(dá)(Andrew Ng),毫無疑問,是全球人工智能(AI)領(lǐng)域的大 IP!然而,吳恩達(dá)從最早的 CS229,到后來的 deeplearning.ai 深度學(xué)習(xí)專項課程,還有其它 AI 資源,大神發(fā)布的 AI 知名課程和資料非常多。
說到吳恩達(dá)優(yōu)秀的 AI 課程,首當(dāng)其沖的就是幾年前在 Coursera 上發(fā)布的《Machine Learning》課程!
這門《Machine Learning》評分高達(dá) 4.9 分,共有超過 300w 人注冊學(xué)習(xí)。其火爆程度可想而知!
課程主頁:
https://www.coursera.org/learn/machine-learning/
課程特色:
這門課基本涵蓋了機器學(xué)習(xí)的主要知識點:線性回歸、邏輯回歸、支持向量機、神經(jīng)網(wǎng)絡(luò)、K-Means、異常檢測等。課程中沒有復(fù)雜的公式推導(dǎo)和理論分析,讓機器學(xué)習(xí)初學(xué)者能夠快速對整個機器學(xué)習(xí)知識點有比較整體的認(rèn)識,便于快速入門。
完整中文筆記(pdf、word、markdown版本)、中英文字幕離線視頻、復(fù)現(xiàn)的python作業(yè):
https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes
在線筆記:
http://www.ai-start.com/ml2014/
課后作業(yè)(Python 版本):
https://github.com/nsoojin/coursera-ml-py
課后作業(yè)(Jupyter 版本):
https://github.com/kaleko/CourseraML
鑒于這門課程非常適合入門,在接下來的一段時間中,我們將推出吳恩達(dá)《Machine Learning》的系列筆記,方便大家配套學(xué)習(xí)!
今天帶來第一周課程的筆記:監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)。
主要內(nèi)容:
監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)
單變量線性回歸問題
代價函數(shù)
梯度下降算法
1-1.?監(jiān)督學(xué)習(xí)Supervised Learning
利用監(jiān)督學(xué)習(xí)預(yù)測波士頓房價(回歸問題)
大多數(shù)情況下,可能會擬合直線
有時候用二次曲線去擬合效果可能會更好的
什么是回歸問題?
在監(jiān)督學(xué)習(xí)中,我們給學(xué)習(xí)算法一個數(shù)據(jù)集,比如一系列房子的數(shù)據(jù),給定數(shù)據(jù)集中每個樣本的正確價格,即它們實際的售價然后運用學(xué)習(xí)算法,算出更多的答案,我們需要估算一個連續(xù)值的結(jié)果,這屬于回歸問題
利用監(jiān)督學(xué)習(xí)來推測乳腺癌良性與否(分類問題)
橫軸表示腫瘤的大小
縱軸表示1表示惡性,0表示良性
什么是分類問題??
機器學(xué)習(xí)的問題就在于,估算出腫瘤是惡性的或是良性的概率,屬于分類問題。?
分類問題指的是,我們試著推測出離散的輸出值:0或1良性或惡性,而事實上在分類問題中,輸出可能不止兩個值。?
比如說可能有三種乳腺癌,所以希望預(yù)測離散輸出0、1、2、3。0 代表良性,1 表示第1類乳腺癌,2表示第2類癌癥,3表示第3類,也是分類問題。?
應(yīng)用?
垃圾郵件問題
疾病分類問題
1-2 無監(jiān)督學(xué)習(xí)Unsupervised Learning?
監(jiān)督學(xué)習(xí)中,數(shù)據(jù)是有標(biāo)簽的
無監(jiān)督學(xué)習(xí)中,數(shù)據(jù)是沒有標(biāo)簽,主要提到了聚類算法
應(yīng)用
基因?qū)W的理解應(yīng)用
社交網(wǎng)絡(luò)分析
組織大型計算機集群
細(xì)分市場
新聞事件分類
2.?單變量線性回歸Linear Regression with One Variable
房價問題?
橫軸是不同的房屋面積,縱軸是房屋的出售價格。?
監(jiān)督學(xué)習(xí):對于每個數(shù)據(jù)來說,給出了正確的答案。在監(jiān)督學(xué)習(xí)中,我們有一個給定的數(shù)據(jù),叫做訓(xùn)練集training set
回歸問題:根據(jù)之前的數(shù)據(jù),預(yù)測出一個準(zhǔn)確的輸出值。?
分類問題:預(yù)測離散的輸出值,例如尋找癌癥腫瘤,并想要確定腫瘤是良性的還是惡性的,屬于0/1離散輸出的問題
監(jiān)督學(xué)習(xí)工作模式
學(xué)習(xí)過程解釋:
將訓(xùn)練集中的房屋價格喂給學(xué)習(xí)算法
學(xué)習(xí)算法工作,輸出一個函數(shù),用h表示
h表示hypothesis,代表的是學(xué)習(xí)算法的解決方案或者函數(shù)。
h根據(jù)輸入的x值得到y(tǒng)值,因此h是x到的y的一個函數(shù)映射
可能的表達(dá)式:hθ(x)=θ0+θ1x,只有一個特征或者出入變量,稱為單變量線性回歸問題
3.?代價函數(shù)cost function
代價函數(shù)也稱之為平方誤差函數(shù),平方誤差代價函數(shù)。
在線性回歸中我們有一個像這樣的訓(xùn)練集,m代表了訓(xùn)練樣本的數(shù)量,比如?m=47。而我們的假設(shè)函數(shù),也就是用來進(jìn)行預(yù)測的函數(shù),是這樣的線性函數(shù)形式:hθ(x)=θ0+θ1x。
函數(shù)解釋
m:訓(xùn)練樣本的個數(shù)
hθ(x)=θ0+θ1x:假設(shè)函數(shù)
θ0和θ1:表示兩個模型參數(shù),即直線的斜率和y軸上的截距
建模誤差
建模目標(biāo)
圖中紅色的點表示真實值yi,真實的數(shù)據(jù)集
h(x)表示的是通過模型得到的預(yù)測值
目標(biāo):選擇出可以使得建模誤差的平方和能夠最小的模型參數(shù)
代價函數(shù)直觀解釋1
本例中是通過假設(shè)θ0=0來進(jìn)行,假設(shè)函數(shù)h(x)是關(guān)于x的函數(shù),代價函數(shù)J(θ0,θ1)是關(guān)于θ的函數(shù),使得代價函數(shù)最小化
代價函數(shù)直觀解釋2
通過等高線圖來進(jìn)行解釋。通過繪制出等高線圖可以看出來,必定存在某個點,使得代價函數(shù)最小,即:可以看出在三維空間中存在一個使得J(θ0,θ1)最小的點。
4.?梯度下降Gradient Descent
思想
梯度下降是一個用來求函數(shù)最小值的算法。
背后的思想:開始隨機選取一個參數(shù)的組合(θ0,θ1,…,θn)計算代價函數(shù),然后我們尋找下一個能讓代價函數(shù)值下降最多的參數(shù)組合。
持續(xù)這么做,直到一個局部最小值(local minimum),因為并沒有嘗試完所有的參數(shù)組合,所以不能確定得到的局部最小值是否是全局最小值(global minimum)
批量梯度下降batch gradient descent
算法公式為
特點:需要同步更新兩個參數(shù)
梯度下降直觀解釋
算法公式:
具體描述:對θ賦值,使得J(θ)按照梯度下降最快的方向進(jìn)行,一直迭代下去,最終得到局部最小值。
學(xué)習(xí)率:α是學(xué)習(xí)率它決定了我們沿著能讓代價函數(shù)下降程度最大的方向向下邁出的步子有多大。
學(xué)習(xí)率太小:收斂速度慢需要很長的時間才會到達(dá)全局最低點
學(xué)習(xí)率太大:可能越過最低點,甚至可能無法收斂
梯度下降的線性回歸GradientDescent-For-LinearRegression
梯度下降是很常用的算法,它不僅被用在線性回歸上和線性回歸模型、平方誤差代價函數(shù)。將梯度下降和代價函數(shù)相結(jié)合。
梯度下降VS線性回歸算法
批量梯度下降算法
對之前的線性回歸問題運用梯度下降法,關(guān)鍵在于求出代價函數(shù)的導(dǎo)數(shù),即:
這種梯度下降的算法稱之為批量梯度下降算法,主要特點:
在梯度下降的每一步中,我們都用到了所有的訓(xùn)練樣本
在梯度下降中,在計算微分求導(dǎo)項時,我們需要進(jìn)行求和運算,需要對所有m個訓(xùn)練樣本求和
至此,第一周的課程筆記完畢!
推薦閱讀
(點擊標(biāo)題可跳轉(zhuǎn)閱讀)
干貨 | 公眾號歷史文章精選
我的深度學(xué)習(xí)入門路線
我的機器學(xué)習(xí)入門路線圖
重磅!
AI有道年度技術(shù)文章電子版PDF來啦!
掃描下方二維碼,添加?AI有道小助手微信,可申請入群,并獲得2020完整技術(shù)文章合集PDF(一定要備注:入群?+ 地點 + 學(xué)校/公司。例如:入群+上海+復(fù)旦。?
長按掃碼,申請入群
(添加人數(shù)較多,請耐心等待)
感謝你的分享,點贊,在看三連↓
總結(jié)
以上是生活随笔為你收集整理的吴恩达《Machine Learning》精炼笔记 1:监督学习与非监督学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 程序员思维是什么?程序员思维从哪里来?程
- 下一篇: C\C++语言,从编程语言到库、API、