當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

线性回归原理和实现基本认识(转载)

發(fā)布時(shí)間：2023/12/20 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了线性回归原理和实现基本认识(转载) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

下面知識(shí)對(duì)應(yīng)<機(jī)器學(xué)習(xí)實(shí)戰(zhàn)>第八章的8.1節(jié)

一：介紹

???????定義：線性回歸在假設(shè)特證滿足線性關(guān)系，根據(jù)給定的訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)模型，并用此模型進(jìn)行預(yù)測(cè)。為了了解這個(gè)定義，我們先舉個(gè)簡單的例子；我們假設(shè)一個(gè)線性方程 Y=2x+1, x變量為商品的大小，y代表為銷售量；當(dāng)月份x =5時(shí)，我們就能根據(jù)線性模型預(yù)測(cè)出 y =11銷量；對(duì)于上面的簡單的例子來說，我們可以粗略把 y =2x+1看到回歸的模型；對(duì)于給予的每個(gè)商品大小都能預(yù)測(cè)出銷量；當(dāng)然這個(gè)模型怎么獲取到就是我們下面要考慮的線性回歸內(nèi)容；并且在現(xiàn)實(shí)中影響銷量（y）的因素好有很多，我們就拿商品大小（x?)，商品價(jià)格為例?(x?)為例:

????? 在機(jī)器學(xué)習(xí)之前，獲取數(shù)據(jù)是第一步（無米難巧婦之炊），假定我們的樣本如下：其中x1 為商品的大小，x2 為商品的價(jià)格，y 為商品的銷量；

????

二：模型推導(dǎo)

????????為了推導(dǎo)模型，在假設(shè)數(shù)據(jù)滿足線性模型條件下，可以設(shè)定線性模型為;x1特征為商品的大小，X2特征為商品的價(jià)格；

?????????

?????? 模型假定好后，我們把訓(xùn)練數(shù)據(jù)代入上面的設(shè)定模型中，可以通過模型預(yù)測(cè)一個(gè)樣本最終值；

?????????

????? 然后樣本真實(shí)值 y 和模型訓(xùn)練預(yù)測(cè)的值之間是有誤差 ε ,再假設(shè)訓(xùn)練樣本的數(shù)據(jù)量很大的時(shí)候,根據(jù)中心極限定律可以得到 ? ∑ε ? 滿足（u ,δ2）高斯分布的；由于方程有截距項(xiàng) ，故使用可以 u =0; 故滿足（0，δ2）的高斯分布；

如上面可知，對(duì)于每一個(gè)樣本 x ,代入到 p (y |x ;θ) 都會(huì)得到一個(gè)y 的概率；又因?yàn)樵O(shè)定樣本是獨(dú)立同分布的；對(duì)其求最大似然函數(shù)：

對(duì)其化簡如下：

以上就得到了回歸的損失函數(shù)最小二乘法的公式，對(duì)于好多介紹一般對(duì)線性回歸的線性損失函數(shù)就直接給出了上面的公式二乘法。下面我們就對(duì)上面做了階段性的總結(jié)：線性回歸，根據(jù)大數(shù)定律和中心極限定律假定樣本無窮大的時(shí)候，其真實(shí)值和預(yù)測(cè)值的誤差ε 的加和服從u=0,方差=δ2的高斯分布且獨(dú)立同分布，然后把ε?=y-?x 代入公式，就可以化簡得到線性回歸的損失函數(shù)；

????第二步：對(duì)損失函數(shù)進(jìn)行優(yōu)化也就是求出w,b，使的損失函數(shù)最小化；第一種方法使用矩陣（需要滿足可逆條件）

?以上就是按矩陣方法優(yōu)化損失函數(shù)，但上面方法有一定的局限性，就是要可逆；下面我們來說一說另外一個(gè)優(yōu)化方法梯度下降法；對(duì)于梯度下降法的說明和講解資料很多，深入的講解這里不進(jìn)行，可以參考：http://www.cnblogs.com/ooon/p/4947688.html這篇博客，博主對(duì)梯度下降方法進(jìn)行了講解，我們這里就簡單的最了流程解說;

總體流程就如上所示，就是求出每個(gè)變量的梯度；然后順著梯度方向按一定的步長a,進(jìn)行變量更新；下面我們就要求出每個(gè)變量的梯度，下面對(duì)每個(gè)θ進(jìn)行梯度求解公式如下：

如上我們求出變量的梯度；然后迭代代入下面公式迭代計(jì)算就可以了：

上面每次更新變量，都要把所有的樣本的加起來，數(shù)據(jù)量大的時(shí)候效率不高，下面還有一種就是按單個(gè)樣本進(jìn)行優(yōu)化，就是隨機(jī)梯度下降：

按上面優(yōu)化步驟就可以求出w,b,就可以獲得優(yōu)化的特征方程：說這么多先上個(gè)代碼：

#!/usr/bin/python# -*- coding:utf-8 -*-import numpy as npimport warningsfrom sklearn.exceptions import ConvergenceWarningfrom sklearn.pipeline import Pipelinefrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.linear_model import LinearRegression,RidgeCV,LassoCV,ElasticNetCVimport matplotlib as mplimport matplotlib.pyplot as pltif __name__ == "__main__":warnings.filterwarnings(action='ignore', category=ConvergenceWarning)np.random.seed(0)np.set_printoptions(linewidth=1000)N = 9x = np.linspace(0, 6, N) + np.random.randn(N)x = np.sort(x)y = x**2 - 4*x - 3 + np.random.randn(N)x.shape = -1, 1y.shape = -1, 1p =Pipeline([('poly', PolynomialFeatures()),('linear', LinearRegression(fit_intercept=False))])mpl.rcParams['font.sans-serif'] = [u'simHei']mpl.rcParams['axes.unicode_minus'] = Falsenp.set_printoptions(suppress=True)plt.figure(figsize=(8, 6), facecolor='w')d_pool = np.arange(1, N, 1) # 階m = d_pool.sizeclrs = [] # 顏色for c in np.linspace(16711680, 255, m):clrs.append('#%06x' % c)line_width = np.linspace(5, 2, m)plt.plot(x, y, 'ro', ms=10, zorder=N)for i, d in enumerate(d_pool):p.set_params(poly__degree=d)p.fit(x, y.ravel())lin = p.get_params('linear')['linear']output = u'%s：%d階，系數(shù)為：' % (u'線性回歸', d)print output, lin.coef_.ravel()x_hat = np.linspace(x.min(), x.max(), num=100)x_hat.shape = -1, 1y_hat = p.predict(x_hat)s = p.score(x, y)z = N - 1 if (d == 2) else 0label = u'%d階，$R^2$=%.3f' % (d, s)plt.plot(x_hat, y_hat, color=clrs[i], lw=line_width[i], alpha=0.75,label=label, zorder=z)plt.legend(loc='upper left')plt.grid(True)# plt.title('線性回歸', fontsize=18)plt.xlabel('X', fontsize=16)plt.ylabel('Y', fontsize=16)plt.show()

運(yùn)行代碼后可見打印控制臺(tái)信息如下：

圖像顯示如下：

從上面圖像可以看出，當(dāng)模型復(fù)雜度提高的時(shí)候，對(duì)訓(xùn)練集的數(shù)據(jù)擬合很好，但會(huì)出現(xiàn)過度擬合現(xiàn)象，為了防止這種過擬合現(xiàn)象的出現(xiàn)，我們?cè)趽p失函數(shù)中加入了懲罰項(xiàng)，根據(jù)懲罰項(xiàng)不同分為以下：

? ? ? ?

最后一個(gè)為Elastic Net 回歸，把 L1 正則和 L2 正則按一定的比例結(jié)合起來：

L1會(huì)趨向于產(chǎn)生少量的特征，而其他的特征都是0，而L2會(huì)選擇更多的特征，這些特征都會(huì)接近于0。Lasso在特征選擇時(shí)候非常有用，而Ridge就只是一種規(guī)則化而已。在所有特征中只有少數(shù)特征起重要作用的情況下，選擇Lasso比較合適，因?yàn)樗茏詣?dòng)選擇特征。而如果所有特征中，大部分特征都能起作用，而且起的作用很平均，那么使用Ridge也許更合適。對(duì)于各種回歸的比較可以看下圖：

總結(jié)

以上是生活随笔為你收集整理的线性回归原理和实现基本认识(转载)的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。