【台大李宏毅机器学习】机器学习基本概念
【臺大李宏毅機器學習】機器學習基本概念
- 機器學習簡介
- Step1 Function with unknown
- Step2 define loss from training data
機器學習簡介
Machine Learning is so simple …
本章節宏毅講機器學習的三個步驟:
- Step 1: function with unknown
- Step 2: define loss from training data
- Step 3: optimization
- (Step1 ~ Step3稱為Training,即我們說的訓練、煉丹)
Step1 Function with unknown
線性模型太簡單了,y = wx+b, w影響斜率,b影響截距,僅僅使用線性模型有很大局限性。 Model Bias
對于折線的模擬,可以設 f = constant + sum of a set of sigmoid.
Simoid Function
y=c11+e?(b+wx1)=c?sigmoid(b+wx1)y = c \frac{1}{1+{e}^{-(b+wx_1)}} = c*sigmoid(b+wx_1)y=c1+e?(b+wx1?)1?=c?sigmoid(b+wx1?)
通過修改參數,我們可以得到不同形狀的sigmoid函數,以近似不同的情況:
修改w,函數的斜率發生改變;
修改b,函數發生左移右移;
修改c,函數高度發生改變;
引入多個特征, 公式中j表示特征個數,
y=b+wx1→y=b+∑jwjxjy=b+wx_1 \rightarrow y=b+\sum\limits_{j} w_j x_jy=b+wx1?→y=b+j∑?wj?xj?
將多特征的情況引入函數中,新的sigmoid function為:
y=b+∑ici?sigmoid(b+∑jwijxj)y = b + \sum\limits_{i}c_i*sigmoid(b+\sum\limits_{j}w_{ij}x_j)y=b+i∑?ci??sigmoid(b+j∑?wij?xj?)
將上述公式經過推導后,得到矩陣形式的計算公式:
y=b+cTσ(b+wx)y = b + c^T \sigma(b+wx)y=b+cTσ(b+wx)
該公式為上述Step1中那個有未知參量的公式的一般形式。
Step2 define loss from training data
更換模型/function后,loss也是計算預測與真實值的差距。
θ?=argmin?θL\theta^* = arg \min\limits_{\theta} Lθ?=argθmin?L
- (Randomly) Pick initial values θ0\theta^0θ0
- Compute gradient以更新參數, g=?L(θ0)g = \nabla L(\theta^0)g=?L(θ0)
- update θ1?θ0?ηg\theta^1 \Leftarrow \theta^0 - \eta gθ1?θ0?ηg
- …
- continue update θi+1←θi?ηg\theta^{i+1} \leftarrow \theta^i - \eta gθi+1←θi?ηg
實際上,在訓練中隨機將訓練集分為batch,長度N的數據集按照size=B劃分[N/B]個batch,而不是拿L來計算gradient。
1 epoch = see all the batches once
hypeparameter 超參數: 人設定值的參數
Example 1
- 10000 examples(N=10000)
- Batch size is 10(B=10)
How many update in 1 epochs?
N/B = 1000 updates
ReLU
常用的也不是soft sigmoid一種,還有一種經典的激活函數是ReLU.
Rectified Linear Unit(ReLU)的公式表示:
y=c?max(0,b+wx1)y = c* max(0, b+wx_1)y=c?max(0,b+wx1?)
要使用ReLU替代Sigmoid,公式更改為:
y=b+∑2icimax(0,bi+∑jwijxj)y = b + \sum\limits_{2i} c_i max(0, b_i+ \sum\limits_{j}w_{ij}x_j)y=b+2i∑?ci?max(0,bi?+j∑?wij?xj?)
Which one is better?
輸出層常用softmax、sigmoid,隱藏層常用ReLU.
Deep Learning
神經網絡的重生之我是深度學習
Hidden Layer 代表一層中很多的 Neuron, Many layers means Deep。故Neural Network的應用被稱為Deep Learning。
Why we want “Deep” network, not “Fat” network? AlexNet 8 layers, while ResNet 152 layers.
Overfitting : Better on training data, worse on unseen data.
過擬合的主要特征,在訓練集上表現超級好,但是在沒訓練過的數據表現不太行;與之相關的還有欠擬合,欠擬合就是在訓練集上也并沒有表現特別好,還有學習的空間。
視頻傳送門
課程視頻獲取地址:
李宏毅《機器學習/深度學習》國語課程(2021)_嗶哩嗶哩_bilibili
本節筆記為視頻中機器學習基本概念。
課程ppt及其他資料獲取地址:
https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.html
總結
以上是生活随笔為你收集整理的【台大李宏毅机器学习】机器学习基本概念的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hadoop组件介绍
- 下一篇: 常用连接linux工具