李宏毅机器学习课程---2、Regression - Case Study
李宏毅機器學習課程---2、Regression - Case Study
一、總結
一句話總結:
分類討論可能是比較好的找最佳函數的方法:如果 有這樣的因素存在的話
模型不夠好,可能是因素沒有找全
因素以及函數的復雜度,并不是越高越好,適合的才是最好的
?
1、AI訓練師的工作是什么?
為機器挑選【合適的model 和 loss function】,不同的model和loss function,來適合解決不同的問題
?
loss
英 [l?s]? 美 [l?s]
n. 減少;虧損;失敗;遺失
n. (Loss)人名;(匈)洛什;(法、德、意)洛斯
[ 復數 losses ]
?
2、如何理解“要訓練出厲害的AI,AI訓練師功不可沒”?
AI訓練師為機器挑選【合適的model 和 loss function】,不同的model和loss function,來適合解決不同的問題
?
3、機器學習要做的就是找一個function,那Regression要做的是什么?
找一個scalar(output a scalar):就是輸出一個數值,比如自動駕駛汽車:f(無人車上的各個傳感器)= 方向盤的角度,比如90度
?
4、Regression的實際例子有哪些?
Stock Market Forecast(股票市場預測):f(過去股票市場的變動)= Dow Jones Industrial Average at tomorrow
Self-driving car(自動駕駛汽車):f(無人車上的各個傳感器)= 方向盤的角度
Recommendation(推薦):f(使用者A的種種特性 + 商品B的種種特性)= 購買可能性
Estimating the Combat Power(CP) of a pokemon after evolution(評估寶可夢的進化之后的戰斗能力):f(進化前的寶可夢的各種屬性)= CP after evolution
?
5、Regression函數是怎么建模的(變量命名規則)?
|||-begin
Estimating the Combat Power(CP) of a pokemon after evolution(評估寶可夢的進化之后的戰斗能力):f(進化前的寶可夢的各種屬性)= CP after evolution
|||-end
?
x加下標表示各種輸入:進化前的寶可夢的各種屬性:用x加下標表示,比如Xw表示重量,Xh表示高度,Xcp表示戰斗力等等
y表示輸出
?
6、機器學習中的模型是什么意思?
就是一組函數:a set of function;? 比如 【線性模型】 y=b+w*Xcp中,不同的b和w就代表了不同的函數
比如精靈寶可夢進化后戰斗力變化: y=b+w*Xcp
?
7、機器學習中的線性模型長什么樣?
y=b+求和符號WiXi
b:bias(偏移),Wi:weight(權重)
Xi:各個屬性,比如寶可夢的身高,寶可夢的體重,寶可夢進化前的戰斗力
bias
英 ['ba??s]? 美 ['ba??s]
n. 偏見;偏愛;斜紋;乖離率
vt. 使存偏見
adj. 偏斜的
adv. 偏斜地
n. (Bias)人名;(法、德、葡、喀)比亞斯;(英)拜厄斯
?
8、機器學習的第二步是衡量第一步Regression中的function好不好、有多好,那么如何衡量?
用loss function:相對于就是求 函數結果和實際結構的方差
?
9、機器學習的第二步中的Goodness of Function中的Loss functon(簡稱L)是什么?
評判函數好壞:Loss function是用來評判函數集中函數的好壞的
input:a function;output:how bad it is(這個function的好壞)
舉例:可以是求 實際結果與函數結果的方差 來判斷函數的好壞
L(f)是可以看做L(w,b)的:因為不同的函數其實就是不同的w和b在變化
?
10、判斷函數集中函數好壞的時候,可以用窮舉法來判斷么?
一般是不行的:我們需要更有效率的方法:因為Xi可能有很多個,而且w和b的變化范圍也幾乎是無限的
?
11、在求函數集中最好的函數的時候用了Gradient Descent(梯度下降法)方法,那么Gradient Descent方法是什么,【原理】又是什么,注意點是什么?
最簡單實例分析 + 畫圖:最簡單實例分析,假設只有一個因變量w,那么L(w)可以畫出來(縱軸L(w),橫軸w)
判斷w是加還是減:隨機找一個初始的位置,找這個點切線的斜率(微分),如果切線斜率是負數,那么久增加w,反之正數
learning rate:增加w的幅度為η*斜率,那么這個η就是learning rate,η越大,相當于每次跨一大步,學習的越快,不過也沒那么精確
不同起始點不一定可以找到global minimal:因為有些點出發,會走到local minima,這個時候斜率為0,w就走不動了,沒法判斷是向左還是向右
?
gradient
英 ['gre?d??nt]? 美 ['ɡred??nt]
n. [數][物] 梯度;坡度;傾斜度
adj. 傾斜的;步行的
descent
英 [d?'sent]? 美 [d?'s?nt]
n. 下降;血統;襲擊
vt. 除去…的氣味;使…失去香味
?
12、在求函數集中最好的函數的時候用了Gradient Descent(梯度下降法)方法,如果變化的參數是兩個,那么計算步驟是怎樣?
1、選初始值:(Randomly)Pick an initial value w0,b0
2、計算斜率:計算L對w和b的偏微分,這就相當于一個參數時候的斜率,這里是往等高線的法線方向走
?
13、在求函數集中最好的函數的時候用了Gradient Descent(梯度下降法)方法中,是否斜率(微分)是0的點就是所求?
不是:一條線中可以有很多斜率為0的點,但是他們不一定是極值點
?
14、在求最好函數的過程中,我們發現最好一次函數的誤差測試出來不滿意,我們應該怎么做?
增加模型次數,或者分類討論:可以換二次,三次等的模型,找到最適合的
?
15、機器學習在求最好函數的過程中,overfitting是什么?
函數模型太復雜了
增加函數次數,training data的誤差變小,但是Test data的誤差變大:雖然當我們增加函數次數時,可以使training data的Average Error越來越小,但是Test data的表現缺不盡如人意,甚至在五次方程時,大大超出了我們的預估。那么這種現象就叫做’overfitting。
?
16、機器學習選模型的時候,是選training data的誤差最小的,還是選Test data的誤差最小的?
選Test data的誤差最小的:肯定是選Test data的誤差最小的
?
17、機器學習選模型的時候,函數的次數越高越好么?
最合適的才是最好的:方程不是次數越復雜越好,所以我們要選擇一個最合適的:選Test data的誤差最小的
?
18、怎么解決overfitting的問題?
收集更多數據:用來測試:collect more data
?
19、在機器學習測試最好函數的過程中,我們發現同一個x對應多個y,可能的原因是什么?
遺漏因素:我們少考慮了因素,比如寶可夢的種族
分類討論:或者可以分類討論,不同的種族的寶可夢對應不同的 線性模型 ,這里分類討論比增加函數次數得到的test data的誤差更小(也不一定,或者有其它更好的模型)
?
?
20、在機器學習測試最好函數的過程中,如何對Loss Function來 Regularization(為什么要對Loss Function來Regularization)?
平滑化:Regularization就是Loss function 平滑化
正確函數一般是平滑的:因為一般平滑smoother的曲線才是我們需要的,那些抖動特別大的一看起來就不對
regularization
[,r?ɡj?l?r?'ze??n]
n. 規則化;調整;合法化
?
21、為什么在對Loss Function 來 Regularization(使平滑化) 的過程中,增加的參數沒有bias(偏移)?
一般沒有幫助:因為線性函數的bias對函數平滑沒有幫助
?
?
?
?
?
二、內容在總結中
?
?
?
轉載于:https://www.cnblogs.com/Renyi-Fan/p/10965524.html
總結
以上是生活随笔為你收集整理的李宏毅机器学习课程---2、Regression - Case Study的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机硬件假故障,计算机硬件故障
- 下一篇: 阳光影院