机器学习笔记(4):多变量线性回归
目錄
1)Multiple Features
2)Gradient descent for multiple variables
3)Gradient descent in practice 1: Feature Scaling
4)Gradient descent in pratice2: Learning rate
5)Features and polynomial regression
6)Normal equation
前面我們探討了單變量的回歸模型,現在我們對房價預測模型增加更多的特征,構成一個多變量的模型。
1)Multiple Features
下面是我們增加后的新的特征,有面積大小,臥室數量,樓層數,房子年齡。
增加了新的特征后,我們解釋一下我們后面用到的符號,分別是:
此時,我們要重新定義我們對多個特征的預測模型:
為了方便向量表示,我們定義X0=1,此時預測模型可以寫成兩個向量相乘,這就是多變量線性回歸。
2)Gradient descent for multiple variables
與單變量線性回歸類似,我們也構建一個代價函數,這個代價函數是所有誤差的平方和,于是我們得到的梯隊下降算法如下,還是要?同時更新每個參數。
我們把之前的單變量線性回歸梯度下降和多變量梯隊下降進行比較,如下:
3)Gradient descent in practice 1:Feature Scaling
我們希望的是所有特征都具有相近的尺度,這能幫助梯度下降算法更快收斂,下面左邊這幅圖顯示了特征數值范圍不一致的時候,收斂速度很慢,而右邊這幅圖進行縮放之后,收斂速度更快。
解決辦法是嘗試使所有特征的尺度都收斂到-1到1之間,如下圖所示:
最簡單的辦法就是均值化,特征減去它的均值再除以標準差:
4)Gradient descent in pratice2:Learning rate
先回顧我們之前的梯度下降算法求參數的公式,我們要決定的是如何選擇學習率以及判斷我們的梯度下降算法是正確的:
我們可以繪制迭代次數和代價函數的圖來觀測算法何時收斂,如下圖示所示,每次迭代,代價函數都下降:
下圖顯示了,梯度下降算法是否正常工作,這和學習率有很大關系,如果學習率較大的話,很可能會越過代價函數局部最小點,變得發散:
學習率太大或太小都不合適,一般的選擇是這樣選擇的,每次遞增三倍:
5)Features and polynomial regression
再來看之前我們的房價預測的例子,預測模型與長寬有關,但其實也跟面積有關,我們可以得到一個新的預測模型,這里進行了特征的重新整合。
下面兩次圖顯示了如果我們的模型不是一次的,可以把非線性轉換成線性模型來表示:
6)Normal equation
前面我們使用梯度下降算法求參數,但我們也可以使用正規方程來求參數。下面顯示了我們可以直接令偏導數為零來求參數這類似與求極值點。
下面是正規方程的求解公式:
下面來比較一下梯度下降和正規方程之間的優缺點,這和特征數量大小有很強的的關系。
總結
以上是生活随笔為你收集整理的机器学习笔记(4):多变量线性回归的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Coursera自动驾驶课程第7讲:Ve
- 下一篇: 小米不送测手机 DXO罕见冲上微博热搜: