當前位置：首頁 > 编程语言 > python >内容正文

python

Python 机器学习实战 —— 监督学习（上）

發(fā)布時間：2023/12/14 python 21 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python 机器学习实战 —— 监督学习（上）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

前言

近年來AI人工智能成為社會發(fā)展趨勢，在IT行業(yè)引起一波熱潮，有關(guān)機器學習、深度學習、神經(jīng)網(wǎng)絡等文章多不勝數(shù)。從智能家居、自動駕駛、無人機、智能機器人到人造衛(wèi)星、安防軍備，無論是國家級軍事設備還是廣泛的民用設施，都充斥著AI應用的身影。接下來的一系列文章將會由淺入深從不同角度分別介紹機器學習、深度學習之間的關(guān)系與區(qū)別，通過一系統(tǒng)的常用案例講述它們的應用場景。
本文將會從最常見的機器學習開始介紹相關(guān)的知識應用與開發(fā)流程。

一、淺談機器學習

1.1?機器學習簡介

其實AI人工智能并非近代的產(chǎn)物，早在19世紀的50到80年代，科學家們就有著讓計算機算法代替人腦思考的想法。通過幾十年的努力，到了90年代成為了機器學習蓬勃發(fā)展期，很多科技公司在不同領域提供了相關(guān)的技術(shù)支持。在最初，機器學習只用于垃圾郵件清理，數(shù)學公式分析等簡單領域，然而后來其應用場景越來越多，無論是圖片過濾，語音分析，數(shù)據(jù)清洗等領域都能看到機器學習的身影。到如今無論是智能手機，航空運輸，智能駕駛等方方面面都可以看到 AI?的身影。

從不同領域分析，AI人工智能包含了機器學習與深度學習。

機器學習主要應用數(shù)據(jù)科學領域，它與普通程序開發(fā)的主要區(qū)別在于一般程序，數(shù)據(jù)往往來源于不同的數(shù)據(jù)庫，通過對數(shù)據(jù)進行復雜轉(zhuǎn)化，運算得到最后的結(jié)果。
而機器學習目的并不是為了得到最后的運算結(jié)果，而是對計算過程進行分析，總結(jié)出一套運算的規(guī)則。只要數(shù)據(jù)量足夠多，運算規(guī)則就越準確。最后可以根據(jù)這套規(guī)則對沒有通過驗證的數(shù)據(jù)進行預算，得到預算后的值。只要使用的規(guī)則正確，預算的結(jié)果的正確率往往可以達到95%以上。?

而深度學習開始只是機器學習的一分支領域，它更強調(diào)從連續(xù)的層中進行學習，這種層級結(jié)構(gòu)中的每一層代表不同程序的抽象，層級越高，抽象程度越大。這些層主要通過神經(jīng)網(wǎng)絡的模型學習得到的，最大的模型會有上百層之多。而最簡單的神經(jīng)網(wǎng)絡分為輸入層，中間層（中間層往往會包含多個隱藏層），輸出層。

經(jīng)過多年的發(fā)展，深度學習的應用層面越來越廣，從而誕生出 Tensorflow、Keras、Theano、CNTK?等框架的支持，逐漸發(fā)展形成獨立的技術(shù)領域。根據(jù)不同的應用場景，深度學習又分為多層感知器MLP、深度神經(jīng)網(wǎng)絡DNN、卷積神經(jīng)網(wǎng)絡CNN、遞歸神經(jīng)網(wǎng)絡RNN、生成對抗網(wǎng)絡BNN等多個方面。

由于本系統(tǒng)文章主要是對機器學習進行介紹，對深度學習有興趣有朋友可以留意后面的文章，將會對神經(jīng)網(wǎng)絡進行更深入全面的講解。

1.2? 機器學習分類

機器學習可分為監(jiān)督學習與無監(jiān)督學習兩種

1.2.1? 監(jiān)督學習

從輸入 /?輸出中總結(jié)運算規(guī)律進行機械學習的算法叫做監(jiān)督學習。在監(jiān)督學習中，每個實例都是由一個輸入對象（通常為矢量）和一個期望的輸出值（也稱為監(jiān)督信號）組成。監(jiān)督學習算法是分析該數(shù)據(jù)的輸入對象與輸出值，總結(jié)當中的運算規(guī)律并產(chǎn)生一個推斷的邏輯，并可以把此邏輯用于映射出的新實例，對沒有運算過的數(shù)據(jù)結(jié)果進行預測。
其過程就像讀小學時候的數(shù)學應用題，課堂上老師會先講解應用題的公式與計算方法，然后學生可以在做作業(yè)時根據(jù)此計算規(guī)律完成類似的題目。

常見的監(jiān)督學習包含了線性回歸、k近鄰、樸素貝葉斯分類?、決策樹、隨機森林與梯度提升決策樹、支持向量機等多種算法，在下面將用不同實例介紹其應用場景。

1.2..2? 無監(jiān)督學習

相比之下無監(jiān)督學習只有輸入數(shù)據(jù)，沒有提供輸出結(jié)果，只能通過計算評估其中的運行規(guī)律。就好比在考試中遇到作業(yè)上沒有做過的應用題，只能通過思考python教程總結(jié)才能得出答案。它的最大挑戰(zhàn)在于實例沒有包含最終結(jié)果，所以無法在學習中評估算法是否學到了有用的東西。

常見的無監(jiān)督學習分為聚類、降維兩大類，包含了PCA（主成分分析）、NMF（非負矩陣分解）、t-SNE（流形學習）、k均值聚類、DBSCAN?等多種算法，中詳細介紹，敬請留意。

?二、基本概念

在機器學習里，每一行的數(shù)據(jù)實例被看作是一個樣本，每一列的數(shù)據(jù)被看作是一個特征。學過面向?qū)ο箝_發(fā)的朋友應該好理解，這相當于一個類與其屬性的關(guān)系。而監(jiān)督學習是通過一系列樣本計算，總結(jié)出特征與計算結(jié)果之間的關(guān)系，這被稱為特征提取。

2.1?分類與回歸的區(qū)別

監(jiān)督學習分成分類與回歸兩大類：分類與回歸
分類的目標是預測類別標簽，類似于通過人臉識別分出黃種人、白種人、黑種人。
回歸的目標則是預測一個連續(xù)值，相當于數(shù)學里面的坐標圖，它可以通過已有的數(shù)據(jù)計算出坐標的走向，從而對末知值進行預測。類似于氣溫預計，GDP增速預算。
其實區(qū)分分類與回歸很簡單，只要判斷輸出值是否具備連續(xù)性，具有連續(xù)性的就是回歸，只有若干個固定值的就是分類。

2.2?數(shù)據(jù)劃分

從監(jiān)督學習的概念可以了解，其學習目標是要從已有的數(shù)據(jù)中總結(jié)出各個特征與結(jié)果之間的關(guān)系，然而這個計算模型的泛化能力如何，我們無法從已通過運算過的數(shù)據(jù)中得知。所以在運算前，一般會先對數(shù)據(jù)進行劃分，一部分是訓練數(shù)據(jù)，專門用作模型的學習，另一部分是測試數(shù)據(jù)，用作模型的測試，其比例一般是75%對25%。
為了方便數(shù)據(jù)劃分，sklearn?提供?train_test_split?函數(shù)方便日常使用，下一節(jié)將有介紹。

2.3? 過擬合與欠擬合

對于訓練數(shù)據(jù)最重要的目標是將其泛化，總結(jié)出每個特征的比重，因此并非正確率越高越好。如果在訓練過程中，得到的正確率是100%，然而在測試時候，正常率卻很低，不能泛化到測試數(shù)據(jù)當中。這往往是因為訓練過程中存在過似合，過度重視某些特征，而忽略某些關(guān)鍵因素。
相反，如果模型過分簡單，考慮的因素太少，甚至導致在訓練過程中的正確率就很低，這可能就是因為模型的欠擬合造成。

所以在選擇模型的時候，需要在過擬合與欠擬合之間作出權(quán)衡（如圖）。

2.4?損失函數(shù)

損失函數(shù)一方面跟數(shù)學計算原理的應用關(guān)系比較密切，另一個方面它也是機器學習的基層原理，此章節(jié)想做一個簡單的介紹。由于網(wǎng)上關(guān)于這方面的學習材料很多，所以此章節(jié)主要是想通過最容易理解的方式去講述計算的原理，至于復雜的計算流程可以在網(wǎng)上查找。
在寫這篇文章的時候，恰好是高考的開考日，在這里預祝師弟師妹能順利闖關(guān)，金榜題名。畢竟最近疫情有復發(fā)的情況，學習實在不容易。通過此章節(jié)想告訴理工科的學子們，辛勤學習并非一無所用。公式里所蘊藏的原理，他日參加工作時候還是有很廣的應用場景。

在日常對數(shù)據(jù)模型的測試中，預測值與真實值總會存在一定的偏差，以直線方程 y=a*x+b 為例，如下圖。在預測值 [x1,y1]? [x2,y2]? [x3,y3]? ....... [x(i),y(i)]?中,并非每個點與方程匹配，而是存在一定的誤差。所以在測試中，當誤差值最小時，可以看作這條直線的正確答案。

損失函數(shù)就是用來評價模型的預測值和真實值不一樣的程度，當損失值越小，證明預計值越接近真實值，模型的訓練程度就越好。為了讓預測值?y^ (i)? 盡量接近于真實值 y(i) ，學者提出了多個方法進行計算損失值，最常見的損失函數(shù)有均方誤差（MSE）、交叉熵誤差（CEE）等。
均方誤差（MSE）中，因為每個預測值與真實值大小不同，為了解決差值的正負值之分，所以誤差大小就用差值平方來表示，差值越小，平方值小，誤差越小。
均方誤差計算公式就是求預測值與真實值之間的方差平均值，如果均方誤差越小，那就證明預測值越接近于真實值。

交叉熵誤差（CEE）的公式如下，其中??為實際的分類結(jié)果，? 為預測的結(jié)果

把它用于分類模型時有一個很好的特性，可以真實的反應出真實分類結(jié)果和預測結(jié)果的誤差，假設?, 即真實的分類結(jié)果是?, 則交叉熵誤差可以簡化為??，那函數(shù)圖像如下?？梢钥吹?#xff0c;?越接近?，即預測結(jié)果和真實分類結(jié)果越接近，誤差越接近，即誤差越小。

關(guān)于損失函數(shù)有多種算法，下面介紹兩種最常用也是最容易理解的算法：最小二乘法（OLS）與梯度下降法（GD）

?2.4.1?最小二乘法

最小二乘法是基于 MSE?均方誤差而來，它的目標就是求出 n 個 y^ (i)?與 y(i)?誤差值平方和最小時各常量參數(shù)的值。還是以上面提到的直線方程 y=a*x+b 為例，均方誤差越小，證明預測值越接近于真實值，這時候只要求出最小均方誤差時?a，b的值，也就可以得出此直線的方程。因為 n?是個常數(shù)，所以求最小均方誤差的公式可以轉(zhuǎn)化為求預測值?y^ (i)?與真實值之?y(i)?間的最小方差，這就是最小二乘法的由來。

?代入? y=a*x+b? 后，計算公式可得到轉(zhuǎn)換成下圖，由于計算的是平方和，所以表達式必然存在最小值，通過偏導數(shù)為 0 時得極值的原理，可得到計算公式：

此時好辦，最小二乘法已經(jīng)變成高考的導數(shù)題，要了解求解過程的程序猿建議去復習一下高考時偏導數(shù)求解的方法（若怕麻煩通過幾條簡單的語法計算也可得到最終結(jié)果）。根據(jù)以下得出的公式，代入已知的數(shù)據(jù)點? [x1,y1]? [x2,y2]? [x3,y3]? ....... [x(i),y(i)]? 便可得到最后的?a、b 參數(shù)值，最后把?a、b 值代入直線方程就是最終的答案。

第四節(jié)介紹的線性回歸模型中，有部分就是使用最小二乘法來實現(xiàn)的，敬請留意。
當然，現(xiàn)實情形下數(shù)據(jù)模型是復雜的，不可能完全按照直線模型來走，所以復雜的線性模型還可以通過多次方程式，基函數(shù)，線性分割等多種方法來處理，在后面章節(jié)將會詳細講述。

2.4.2?梯度下降法

上面提到損失函數(shù)就是用來評價模型的預測值和真實值不一樣的程度，損失值越小證明參數(shù)的預測值越接近于真實值。梯度下降法就是用于求損失值最小時的參數(shù)值，相對于最小二乘法復雜的數(shù)學公式，它可以通過偏導數(shù)斜率的變化更形象地描述解決的過程。

先介紹梯度下降法用到的基本概念：
切線斜率：從數(shù)學的角度可知，一維函數(shù)在點 x 的導數(shù)叫做函數(shù)在點 x 的切線斜率，二維函數(shù)在點（x0,x1) 的偏導數(shù)稱為點（x0,x1)?的切線斜率，如此類推。
鞍點：函數(shù)的極小值（最小值）被稱為鞍點，從數(shù)學原理可知當?shù)竭_鞍點時，切線斜率接近于 0。
梯度：以常用的二元方程?f(x0,x1)=x02+x12??為例子，把全部變量的偏導數(shù)（切線斜率）匯總成的向量稱為梯度

下面以一個二次方程?f(x)=x2+1?為例，介紹一下如何通過梯度下降法求極值
首先，切線的斜率可以通過導數(shù)原理求得，例如 f(x)?分別經(jīng)過點 A(- 4,17) ，B(- 5,26)，此時會發(fā)現(xiàn)，兩點之間的距離越小，它們所組成的直線就越接近于該點的切線。兩點距離無限接近于0時，此時可認為這條直線就是該點的切線，這也是微積分的基本原理。

下面的例子就是實現(xiàn)上述的原理，畫出與點（- 4,17)? 間 x?軸的距離分別為 0.3、0.2、0.001，0.0001?的直線。調(diào)用?tangent（）可以返回該直線的斜率，當 h 使用默認值 0.0001?值，該直線斜率已經(jīng)無限接近于導數(shù)值（即切線斜率）。

1 class gradinet_drop():2 def __init__(self):3 return4 5 def f(self, x):6 return x*x+17 8 def polt_line(self):9 # 畫出 y=x*x+1 圖 10 x = np.linspace(-5, 5, 100) 11 plt.plot(x.reshape(-1, 1), self.f(x)) 12 plt.xlabel('x') 13 plt.ylabel('f(x)') 14 15 def tangent(seft,x,h=0.0001): 16 #根據(jù) y=ax+b 直線公式 17 #求導數(shù)，即切線斜率 18 a=(seft.f(x+h)-seft.f(x))/h 19 #求截距 20 b=seft.f(x+h)-a*x+h 21 #劃出切線 22 seft.polt_tangent(a,b) 23 return a 24 25 def polt_tangent(self,a,b): 26 #劃出直線 y=ax+b 27 x = np.linspace(-5, -1, 100) 28 y=a*x+b 29 plt.plot(x.reshape(-1,1),y,'--') 30 31 gradientdrop=gradinet_drop() 32 gradientdrop.polt_line() 33 # 分別以 h 等于 -0.3，-0.2，-0.001 ,0.0001求斜率 34 # 將發(fā)現(xiàn) h 越小，所得斜率越接于近切線斜率 35 for h in [-0.3,-0.2,0.001,0.0001]: 36 print('h={0}, tangent={1}'.format(h,gradientdrop.tangent(-4,h))) 37 plt.show()

運行結(jié)果

梯度下降法最終的目標是求得切線斜率接近無限于0時的數(shù)據(jù)點（鞍點），?所以函數(shù)可以使用最簡單的方法，使取值沿著當前梯度方向不斷前進，然后重復計算梯度。通過此遞歸方式，切線斜率就是無限接近于0。
用數(shù)學公式表達如下圖，η?表示學習率，學習率可以根據(jù)實際需要而改變，將學習率乘以該點的切線斜率代表學習量。

根據(jù)此公式，可以在上面的代碼中加入一個簡單的方法gradient()，以 0.01 的學習率，重復1000次進行計算。隨著梯度不斷地下降，x?坐標就會根據(jù)學習量不斷接近鞍點，在重復1000后可以看到在數(shù)據(jù)點（0，1）處的切線斜率?tangent 為 -1.0098588631990424e-08，已無限接近于 0 ，此時鞍點的函數(shù)值 f(x)=1?就是此函數(shù)的最小值。

1 class gradinet_drop():2 def __init__(self):3 return4 5 def f(self, x):6 return x*x+17 8 def polt_line(self):9 # 畫出 y=x*x+1 圖 10 x = np.linspace(-5, 5, 100) 11 plt.plot(x.reshape(-1, 1), self.f(x)) 12 plt.xlabel('x') 13 plt.ylabel('f(x)') 14 15 def tangent(seft,x,h=0.0001): 16 #根據(jù) y=ax+b 直線公式 17 #求導數(shù)（切線斜率） 18 a=(seft.f(x+h)-seft.f(x))/h 19 #求截距 20 b=seft.f(x+h)-a*x+h 21 #隨機畫出切線 22 n=np.random.randint(100) 23 if(n==5): 24 seft.polt_tangent(a,b) 25 return a 26 27 def polt_tangent(self,a,b): 28 #劃出切線 y=ax+b 29 x = np.linspace(-5, 1, 100) 30 y=a*x+b 31 plt.plot(x.reshape(-1,1),y,'--') 32 33 def gradinet(seft,x,rate=0.01,n=1000): 34 #學習率默認為0.01，默認重復1000次 35 for i in range(n): 36 x-=seft.tangent(x)*rate 37 print('x={0},f(x)={1},tangent slope={2}'.format(x,seft.f(x),seft.tangent(x))) 38 39 gradientdrop=gradinet_drop() 40 gradientdrop.polt_line() 41 #使用學習率默認0.01，默認重復1000次求出鞍點 42 gradientdrop.gradinet(-3) 43 plt.show()

運行結(jié)果

到此不防思考一下使用梯度下降法找到鞍點的目標是什么，其實只要把簡單的二次方程?f(x)?替換成為損失函數(shù)便會豁然開朗。以均方誤差 MSE 為例，當找到鞍點，意味著找到函數(shù)最小值，即在該點時均方誤差最小，在這點得到的參數(shù)值就是該函數(shù)的常量。
同樣以最小二乘法中的直線?y=a*x+b?為例，把代碼稍微修改一下。首先把方程改為均方誤差公式，通過?sympy?包中的函數(shù)?diff?分別對?a，b?求偏導數(shù)，把學習率設置為0.01，訓練1000次，a，b的默認初始值均為 1。使用 sklearn?中的測試數(shù)據(jù) make_regression 進行訓練，最后畫出該直線并輸出斜率和截距。

1 class gradinet_drop():2 def __init__(self,train_x,train_y):3 #定義測試數(shù)據(jù)4 self.x=train_x5 self.y=train_y6 return7 8 def mes(self,a,b):9 #均方誤差計算公式 10 return mean((self.y-a*self.x-b)**2) 11 12 def partial_derivative(seft): 13 #求 mes(a,b)對 a,b 的偏導數(shù) 14 partial_derivative_a=sp.diff(seft.mes(a,b), a) 15 partial_derivative_b=sp.diff(seft.mes(a,b),b) 16 return [partial_derivative_a,partial_derivative_b] 17 18 def gradinet(seft,rate=0.01,n=1000): 19 #學習率默認為0.01，默認重復1000次 20 #把 y=a*x+b 參數(shù) a,b 的初始值設為 1，1 21 a1=1 22 b1=1 23 #默認訓練1000次，找到最小均方誤差時的 a,b 值 24 for i in range(n): 25 deri=seft.partial_derivative() 26 a1-=deri[0].subs({a:a1,b:b1})*rate 27 b1-=deri[1].subs({a:a1,b:b1})*rate 28 #輸出直線參數(shù) a,b 值 29 print('y=a*x=b\n a={0},b={1}'.format(a1,b1)) 30 return [a1,b1] 31 32 def polt_line(self,param): 33 #根據(jù)a,b參數(shù)值劃出直線 y=a*x+b 34 x = np.linspace(-3, 3, 100) 35 y=param[0]*x+param[1] 36 plt.plot(x,y,20) 37 plt.legend(['train data','line']) 38 39 #輸入測試數(shù)據(jù) 40 X,y=dataset.make_regression(n_features=1,noise=5) 41 gradient_drop=gradinet_drop(np.squeeze(X),y) 42 #畫出數(shù)據(jù)點 43 plt.plot(X,y,'.') 44 #訓練數(shù)據(jù)找出最小均方誤差時的參數(shù) a,b 值 45 param=gradient_drop.gradinet() 46 #畫出訓練后的直線 47 gradient_drop.polt_line(param) 48 plt.show()

運行結(jié)果

可見計算后的直線與訓練庫中的點已相當接近，使用梯度下降法只需要牢記一點：計算目標是求出鞍點，在損失值最低時的參數(shù)值就是該函數(shù)的常量。下面介紹到的 SGD?模型正是使用梯度下降法進行計算，后面將有詳細說明。
對損失函數(shù)就介紹到這里，希望對各位的理解有所幫助。

回到目錄

三、常用方法介紹

Scikit-Learn?是目錄最常用的機器學習庫，所以在本文當中大部實例都是運用當中的方法完成。
在?sklearn.datasets?中包含了大量的數(shù)據(jù)集，可為運算提供測試案例。例如鳶尾花數(shù)據(jù)集?load_iris()、癌癥數(shù)據(jù)集 load_breast_cancer()、波士頓放假數(shù)據(jù)集?load_boston()?這些都是各大技術(shù)文章里常用的數(shù)據(jù)集，為了方便閱讀下面大部分的例子中都會用到這些數(shù)據(jù)作為例子進行解說。

3.1??train_test_split?方法

上面曾經(jīng)提起，為了方便區(qū)分訓練數(shù)據(jù)與測試數(shù)據(jù)，sklearn?提供了?train_test_split?方法去劃分訓練數(shù)據(jù)與測試數(shù)據(jù)

?train_test_split( * arrays,? test_size=None,? ?train_size=None,?random_state=None,?shuffle=True,stratify=None)

*arrays：可以是列表、numpy數(shù)組、scipy稀疏矩陣或pandas的數(shù)據(jù)框

test_size：可以為浮點、整數(shù)或None，默認為None

　　　?、偃魹楦↑c時，表示測試集占總樣本的百分比

　　　　②若為整數(shù)時，表示測試樣本樣本數(shù)

　　　　③若為None時，test size自動設置成0.25

train_size：可以為浮點、整數(shù)或None，默認為None

　　　?、偃魹楦↑c時，表示訓練集占總樣本的百分比

　　　?、谌魹檎麛?shù)時，表示訓練樣本的樣本數(shù)

　　　?、廴魹镹one時，train_size自動被設置成0.75

random_state：可以為整數(shù)、RandomState實例或None，默認為None

　　　?、偃魹镹one時，每次生成的數(shù)據(jù)都是隨機，可能不一樣

　　　?、谌魹檎麛?shù)時，每次生成的數(shù)據(jù)都相同

stratify：可以為類似數(shù)組或None

　　　?、偃魹镹one時，劃分出來的測試集或訓練集中，其類標簽的比例也是隨機的

　　　?、谌舨粸镹one時，劃分出來的測試集或訓練集中，其類標簽的比例同輸入的數(shù)組中類標簽的比例相同，用于處理不均衡數(shù)據(jù)集

常用例子：

把1000個數(shù)據(jù)集按 75% 與 25% 的比例劃分為訓練數(shù)據(jù)與測試數(shù)據(jù)

1 X,y=make_wave(1000) 2 X_train,X_test,y_train,y_test=train_test_split(X,y)

?train_size?與?test_size?默認值為75%?與 25% ，所以上面的例子與下面例子得出結(jié)果相同

1 X,y=make_wave(1000) 2 X_train,X_test,y_train,y_test=train_test_split(X,y,train_size=0.75,test_size=0.25)

為了每次測試得到相同的數(shù)據(jù)集，可以把 RandomState?設置為相同值，只要RandomState相同，則產(chǎn)生的數(shù)據(jù)集相同。
因為 RandomState 默認為空，因此在不填寫的情況下，每次產(chǎn)生的數(shù)據(jù)集都是隨機數(shù)據(jù)

1 X,y=make_wave(1000) 2 X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=0)

3.2 predict 方法與?accuracy_score?方法

在分類模型中，通常使用 predict（selt, X：any）方法預測新數(shù)據(jù)的標簽，通常在完成訓練后，就是通過此方法輸入測試數(shù)據(jù)，把計算結(jié)果與測試結(jié)果進行對比。
accuracy_score?主要用于對比預測結(jié)果的準備率
下面的代碼就是最簡單的流程，先劃分訓練數(shù)據(jù)與測試數(shù)據(jù)，然后選擇模型，輸入訓練數(shù)據(jù)進行泛化，輸入測試數(shù)據(jù)求出計算結(jié)果，最后把計算結(jié)果與已有的測試結(jié)果進行對比，查看其正確率。

1 X,y=make_blobs(n_samples=150,n_features=2)2 #劃分訓練數(shù)據(jù)與測試數(shù)據(jù)3 X_train,X_test,y_train,y_test=train_test_split(X,y)4 #綁定模型5 knn_classifier=KNeighborsClassifier(n_neighbors=7)6 #輸入訓練數(shù)據(jù)7 knn_classifier.fit(X_train,y_train)8 #運行測試數(shù)據(jù)9 y_model=knn_classifier.predict(X_test) 10 #把運行結(jié)果與測試結(jié)果進行對比 11 print(accuracy_score(y_test,y_model))

3.3?score?方法

在回歸模型當中，由于測試結(jié)果并非固定值，所以一般通過使用 score(self, X, y, sample_weight=None)?方法，通過對 R^2（判定系數(shù)）來衡量與目標均值的對比結(jié)果。
R^2=1，則表示模型與數(shù)據(jù)完成吻合，如果R^2為負值，側(cè)表示模型性能非常差。

1 X,y=make_wave(1000) 2 X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=0) 3 linearReg=LinearRegression() 4 linearReg.fit(X_train,y_train) 5 print(linearReg.score(X_train,y_train))

?3.4?numpy.meshgrid 方法

生成網(wǎng)格點矩陣坐標，往往用于對平面內(nèi)數(shù)據(jù)的預測值進行評估。生成一定范圍內(nèi)的網(wǎng)格數(shù)據(jù)，再把數(shù)據(jù)代入公式內(nèi)進行計算，得到預測結(jié)果。

1 x=np.array([1,2,3]) 2 y=np.array([4,5]) 3 #顯示網(wǎng)格矩陣坐標 4 X,Y=np.meshgrid(x,y) 5 print('X:\n '+str(X)) 6 print('Y:\n '+str(Y))

運行結(jié)果

3.5?contour 和 contourf?方法

pyplot 的 contour 和 contourf?方法都是畫三維等高線圖的，不同點在于contour 是繪制輪廓線，contourf 會填充輪廓。本文在分類模型中，將會大量地使用此方法，讓各位可以更直觀的看到模型預測值的分布。
pyplot.contour (X，Y，Z，levels , linestyles，alpha，cmap )

X、Y :? 必須是 2-D，且形狀與 Z 相同。
Z：繪制輪廓的高度值。
levels：int 數(shù)組，可選填，確定需要顯示的輪廓線區(qū)域的數(shù)量和位置。例如： levels = [-2,-1,0,1,2]?表示顯示從-2級到2級的線區(qū)輪廓。
linestyles：數(shù)組，可選填，確定線條形狀，例如：linestyles = [ '--' , '-' , '=' ] 。
alpha:?透明度
cmap：顏色

1 def f(x,y): 2 return 3*x**2+x+y**+1 3 4 x=np.linspace(-3,3,100) 5 y=np.linspace(-3,15,100) 6 X,Y=np.meshgrid(x,y) 7 plt.contourf(X,Y,f(X,Y)) 8 plt.show()

運行結(jié)果

3.6?decision_function?方法

在分類模型中，通常使用?decision_function(self, X)?方法計算預測新數(shù)據(jù)的距離值。
與 predict?方法不同的是：predict?得到的標簽值，?decision_function?得到的是與分隔超平面的距離值。

1 # 訓練數(shù)據(jù)2 X,y=dataset.make_blobs(centers=2,random_state=2,n_features=2)3 # 使用 LinearSVC 模型，設置 C=1004 linear=LinearSVC(C=100)5 linear.fit(X,y)6 # 畫出數(shù)據(jù)點7 plt.scatter(X[:,0],X[:,1],c=y,marker='^',s=50)8 # 建立網(wǎng)格數(shù)據(jù)9 xx=np.linspace(-5,6,2) 10 yy=np.linspace(-13,3,2) 11 XX,YY=np.meshgrid(xx,yy) 12 ZZ=np.c_[XX.ravel(),YY.ravel()] 13 # 根據(jù)網(wǎng)絡數(shù)據(jù)推算出預測值 14 zz=linear.decision_function(ZZ) 15 aa=linear.predict(ZZ) 16 print('predict: '+str(aa)) 17 print('decision_function:'+str(zz))

運行結(jié)果

predict?得到的最終的分類結(jié)果：0或1，而?decision_function?得到的是與分隔平面的距離，正值代表分類是 1，負值代表分類為 0，值越大代表與分隔面的距離越大。

3.7?confusion_matrix?混淆矩陣

在數(shù)據(jù)分析的過程中，往往需要觀察各分類數(shù)據(jù)的占比，準確數(shù)，錯誤數(shù)等相關(guān)信息，為此?sklearn?特意預備了混沌矩陣?confusion_matrix?函數(shù)幫助分析數(shù)據(jù)，完成分析后用?Seaborn?把圖畫出來。
下面的例子就可以通過混淆矩陣把測試中的 0，1，2，3 ..... 9 的數(shù)字分布數(shù)量很明確顯示出來。

1 (X_train, y_train), (X_test, y_test) = keras.datasets.mnist.load_data()2 # 把28*28圖像數(shù)據(jù)進行轉(zhuǎn)換3 X_train = X_train.reshape(-1, 784)4 X_test = X_test.reshape(-1, 784)5 # 使用SGDClassfier模式，使用多核計算,學習率為0.016 sgd_classifier = SGDClassifier(learning_rate='constant', early_stopping=True,7 eta0=0.001, loss='squared_hinge',8 n_jobs=-1, max_iter=10000)9 sgd_classifier.fit(X_train, y_train) 10 y_model=sgd_classifier.predict(X_test) 11 #建立混淆矩陣 12 mat=confusion_matrix(y_test,y_model) 13 #顯示分類數(shù)據(jù)的測試分布 14 heatmap(mat,square=True,annot=True,fmt='d') 15 plt.show()

運行結(jié)果

3.8 validation_curve?驗證曲線

上一節(jié)曾經(jīng)講過，要提高模型的質(zhì)量，應該在過擬合跟欠擬合當中，選擇一個平衡點。
有見及此，為了更直觀地了解模型的質(zhì)量，sklearn?特意準備了 validation_curve 方法，可以更直觀與觀察到驗證曲線的示意圖。

validation_curve(estimator, X, y, *, param_name, param_range, groups=None,?
　　? ?cv=None, scoring=None, n_jobs=None, pre_dispatch="all",
　　? ?verbose=0, error_score=np.nan, fit_params=None)

estimator：實現(xiàn)了fit 和 predict 方法的對象
X : 訓練的向量
y : 目標相對于X分類或回歸
param_name:將被改變的變量名稱
param_range:param_name對應的變量的取值
cv:如果傳入整數(shù)，測試數(shù)據(jù)將分成對應的分數(shù)，其中一份作為cv集，其余n-1作為traning（默認為3份）

只需要簡單地綁定模型，輸入數(shù)據(jù)，便可得到模型的準確率變化曲線

1 # validation_curve 綁定 SVC2 X, y = load_digits(return_X_y=True)3 param_range = np.logspace(-6, -1, 5)4 train_scores, test_scores = validation_curve(5 SVC(), X, y, param_name="gamma", param_range=param_range,6 scoring="accuracy", n_jobs=1)7 #訓練數(shù)據(jù)與測試數(shù)據(jù)的平均得分8 train_scores_mean = np.mean(train_scores, axis=1)9 test_scores_mean = np.mean(test_scores, axis=1) 10 #顯示數(shù)據(jù) 11 plt.title("Validation Curve with SVM") 12 plt.xlabel(r"$\gamma$") 13 plt.ylabel("Score") 14 plt.ylim(0.0, 1.1) 15 lw = 2 16 plt.semilogx(param_range, train_scores_mean, label="Training score", 17 color="darkorange", lw=lw) 18 plt.semilogx(param_range, test_scores_mean, label="Cross-validation score", 19 color="navy", lw=lw) 20 plt.legend(loc="best") 21 plt.show()

運行結(jié)果

下面的章節(jié)開始介紹 ?sklearn?中監(jiān)督學習的一些常用模型，可能模型的使用方法基本一致，看起來似乎千篇一律。實則不然，因為機器學習與一般的開發(fā)不一樣，主要是了解不同模型的運算規(guī)則和適用場景。從原理中理解實質(zhì)，希望讀者能夠明白。

回到目錄

四、線性模型

線性模型是實踐中應用最為廣泛的模型之一，它支持分類與回歸，最常用的線性分類算法有 LogisticRegression , LinearSVC、SGDClassifier，常用的線性回歸算法有?LinearRegression、Ridge、Lasso 、SGDRegressor 等，后面將一一講解。前幾節(jié)，將從最常用的線性回歸開始入手，介紹幾個最常用的線性模型。

從最簡單的直線函數(shù) y = w * x + k?開始介紹，這就是線性模型當中最簡單的單一特征模型，模型訓練的目標是通過數(shù)據(jù)計算出最接近數(shù)據(jù)點的模型參數(shù)?w?與?k。
其中 x?是輸入變量，也是唯一的特征;
w?為斜率，也被稱為權(quán)重被保存在 coef_ 屬性當中;
k 為載矩也稱偏移量，被保存于?intercept_?屬性當中。
線性函數(shù)的運算結(jié)果類似于下圖，是一條?斜率為?w，偏移量為?k?的直線

模型看似簡單，然而在機器學習中模型往往是由淺入深，當輸入特征由一個變?yōu)閮蓚€時，模型變會從一條直線變?yōu)橐粋€平面，當特征變?yōu)槿齻€時，模型將變成一個立體三維空間 ......

由此可得，線性模型的最終公式如下，模型會有?n+1?個特征

y = w[0] * x[0] +?w[1] * x[1] +?w[2] * x[2] +?w[3] * x[3] + ...... +?w[n] * x[n] + k

為了更好地理解線性模型，下面先由最簡單的 “線性回歸?LinearRegression” 開始講起

4.1?線性回歸?LinearRegression

LinearRegression 是最簡單的的線性模型，此模型就是通過第二節(jié)介紹的最小二乘法，找出參數(shù)?w?與?k，使得訓練集與預測集的均方誤差 MSE 最小，最終確定?w?與?k?值。
下面就是一個單一特征的數(shù)據(jù)集進行測試，用 100?條數(shù)據(jù)計算出斜率和偏移量，再劃出此直線。?

1 def linear_regression_test():2 #測試數(shù)據(jù)3 line=np.linspace(-3,3,50)4 datasets.make_regression(n_features=1,noise=35，random_state=1)5 X_train,X_test,y_train,y_test=train_test_split(X,y)6 #線性回歸模型訓練7 linear=LinearRegression()8 linear.fit(X_train,y_train)9 #準確率 10 print('train data prec:'+str(linear.score(X_train,y_train))) 11 print('test data prec:'+str(linear.score(X_test,y_test))) 12 #斜率與截距 13 print('coef:'+str(linear.coef_)) 14 print('intercept:'+str(linear.intercept_)) 15 #圖形顯示 16 plt.plot(X_train,y_train,'*','') 17 result=linear.predict(line.reshape(-1,1)) 18 plt.plot(line,result,'r') 19 plt.legend(['training data','model']) 20 plt.show()

輸出結(jié)果

線性模型

LinearRegression 模型比較簡單，不需要任何參數(shù)，但因此也無法調(diào)節(jié)模型的復雜程度，可以看到訓練數(shù)據(jù)與測試數(shù)據(jù)的準確都不高。在實際應用中，LinearRegression?模型的應用場景并不多。

4.2?Ridge?嶺回歸

為了提高準確率，sklearn?設計了?Ridge?嶺回歸模型來代替?LinearRegression。嶺回歸也是使用最小二乘法進行計算，然而與?LinearRegression?不同的是嶺回歸使用了正則化 L2，它會讓?w?的元素盡量偏向于0。
Ridge 構(gòu)造函數(shù)

1 class Ridge(MultiOutputMixin, RegressorMixin, _BaseRidge): 2 @_deprecate_positional_args 3 def __init__(self, alpha=1.0, *, fit_intercept=True, normalize=False, 4 copy_X=True, max_iter=None, tol=1e-3, solver="auto", 5 random_state=None): 6 ......

參數(shù)說明

alpha?是正則項系數(shù)，初始值為1，數(shù)值越大，則對復雜模型的懲罰力度越大。
fit_intercept：bool類型，默認為True，表示是否計算截距 ( 即 y=wx+k 中的?k?)。
normalize：bool類型，默認為False，表示是否對各個特征進行標準化(默認方法是：減去均值并除以L2范數(shù))，推薦設置為True。如果設置為False，則建議在輸入模型之前，手動進行標準化。當fit_intercept設置為False時，將忽略此參數(shù)。
copy_X：默認值為True，代表 x 將被復制，為?False?時，則?x 有可能被覆蓋。
max_iter：默認值為None，部分求解器需要通過迭代實現(xiàn)，這個參數(shù)指定了模型優(yōu)化的最大迭代次數(shù)。
tol：默認為小數(shù)點后3位，代表求解方法精度
solver：求解優(yōu)化問題的算法，默認值 auto，可以根據(jù)數(shù)據(jù)類型選擇最合適的算法?？蛇x的算法有：

1).svd:采用奇異值分解的方法來計算。

2).cholesky:采用scipy.linalg.solve函數(shù)求得閉式解。

3).sparse_cg:采用scipy.sparse.linalg.cg函數(shù)來求取最優(yōu)解。

4).lsqr:使用scipy.sparse.linalg.lsqr求解，它是最快的。

5).sag:使用隨機平均梯度下降，當n_samples和n_features都較大時，通常比其他求解器更快。

random_state：隨機數(shù)種子，推薦設置一個任意整數(shù)，同一個隨機值，模型可以復現(xiàn)。

Ridge?使用了 L2?正則化規(guī)范，對模型系數(shù) w 進行約束，使每個特征的?w?盡可能的小，避免過度擬合。?相比?LinearRegression ，可見?Ridge?使用?L2?正則化規(guī)范后，分數(shù)有進一步的提升。

1 def ridge_test():2 #測試數(shù)據(jù)3 line=np.linspace(-3,3,100)4 X,y=datasets.make_regression(n_features=1,noise=35,random_state=1)5 X_train,X_test,y_train,y_test=train_test_split(X,y)6 #嶺回歸模型7 ridge=Ridge(alpha=1)8 ridge.fit(X_train,y_train)9 #計算準確率 10 print('train data prec:'+str(ridge.score(X_train,y_train))) 11 print('test data prec:'+str(ridge.score(X_test,y_test))) 12 #斜率與截距 13 print('coef:'+str(ridge.coef_)) 14 print('intercept:'+str(ridge.intercept_)) 15 # 圖形顯示 16 plt.plot(X_train, y_train, '*', '') 17 plt.legend(['training data', 'model']) 18 result = ridge.predict(line.reshape(-1, 1)) 19 plt.plot(line, result, 'r') 20 plt.show()

運算結(jié)果

?Ridge?模型

除此以外，Ridge?模型還提供了一個參數(shù)?alpha?用于控制其泛化性能，alpha?默認值為 1。
alpha?越大，w?會更趨向于零，因此泛化性能越高，但訓練集上的性能會降低，在數(shù)據(jù)量較大的時候需要權(quán)衡利弊。
alpha?越小，w?的限制就會越小，訓練集上的性能就會越高。要注意的是如果把 alpha?調(diào)到接近于 0，那 L2 正則化基本不起作用，Ridge?的計算結(jié)果將接近于 LinearRegression。
下面試著把 alpha?值調(diào)為 0.2 ，可以看到測試集上的分數(shù)有一定提升。?

?4.3?Lasso?模型

Lasso 跟?Ridge?一樣都是線性回歸模型，兩者的主要區(qū)別在?Ridge?默認是使用 L2?正則化，而?Lasso?使用的是 L1?正則化規(guī)范。L1?會把參數(shù)控制趨向于0，從而抽取更有關(guān)鍵代表性的幾個特征。
Lasso的構(gòu)造函數(shù)

1 class Lasso(ElasticNet):2 @_deprecate_positional_args3 def __init__(self, alpha=1.0, *, fit_intercept=True, normalize=False,4 precompute=False, copy_X=True, max_iter=1000,5 tol=1e-4, warm_start=False, positive=False,6 random_state=None, selection='cyclic'): ......

參數(shù)說明

alpha?是正則項系數(shù)，初始值為1，數(shù)值越大，則對復雜模型的懲罰力度越大。
fit_intercept：bool類型，默認為True，表示是否計算截距(即y=wx+k中的k)。
normalize：bool類型，默認為False，表示是否對各個特征進行標準化(默認方法是：減去均值并除以L2范數(shù))，推薦設置為True。如果設置為False，則建議在輸入模型之前，手動進行標準化。當fit_intercept設置為False時，將忽略此參數(shù)。
precompute：默認值為 Falise，表示是否使用預計算的 Gram 矩陣來加速計算。如果設置為 auto 代表讓計算機來決定。Gram 矩陣也可以作為參數(shù)傳遞。對于稀疏輸入這個選項總是正確的，用于保持稀疏性。
copy_X：默認值為True，代表 x 將被復制，為?False?時，則?x 有可能被覆蓋。
max_iter：默認值為10000，部分求解器需要通過迭代實現(xiàn)，這個參數(shù)指定了模型優(yōu)化的最大迭代次數(shù)。
tol：默認為小數(shù)點后 4 位，代表求解方法精度。
warm_start：默認值為?False，當設置為True時，重用之前調(diào)用的解決方案作為初始化，否則，只需要刪除前面的解決方案。
positive：默認值為?False，當設置為?True?時，則系數(shù)總是為正數(shù)。
random_state：隨機數(shù)種子，推薦設置一個任意整數(shù)，同一個隨機值，模型可以復現(xiàn)。
selection：默認值為?cyclic ，如果設置為 random，則每一次迭代都會更新一個隨機系數(shù)，而不是在默認情況下按順序循環(huán)，這樣做通常會導致更快的收斂速度，尤其是當tol大于1e-4時。

Lasso?模型當中包含兩個主要參數(shù)：
alpha 默認值為 1 ，按照 L1的正則化規(guī)范，alpha?值越大，特征提取數(shù)越少，更多的權(quán)重會接近于0，alpha?越小，特征提取越多，當alpha?接近于0時，Lasso?模型與?Ridge?類似，所有特征權(quán)重都不為 0
max_iter? 默認值為10000，?它標志著運行迭代的最大次數(shù)，有需要時可以增加 max_iter 提高準確率。

下面嘗試對 100?特征的數(shù)據(jù)進行測試，把?alpha?值設置為 0.2，可以看到測試數(shù)據(jù)的準確率比較低，只有 0.82，有效的特征有72個。

1 def lasso_test():2 # 測試數(shù)據(jù)3 X,y=datasets.make_regression(n_features=100,noise=40,random_state=1)4 X_train,X_test,y_train,y_test=train_test_split(X,y,train_size=0.75,test_size=0.25)5 # 把alpha設置為306 lasso=Lasso(alpha=0.2,max_iter=10000)7 lasso.fit(X_train,y_train)8 #輸出正確率9 print('lasso\n train data:{0}'.format(lasso.score(X_train,y_train))) 10 print(' test data:{0}'.format(lasso.score(X_test,y_test))) 11 #有效特征數(shù)與總數(shù) 12 print(' used features: {0}'.format(sum(lasso.coef_!=0))) 13 print(' total features: {0}'.format(lasso.n_features_in_)) 14 plt.plot(lasso.coef_,'o',color='red') 15 plt.legend(['feature']) 16 plt.show()

運行結(jié)果

?試著把?alpha?調(diào)為2，此時有效特征下降到 45，而測試數(shù)據(jù)的分數(shù)達到 0.94

4.4?淺談正則化概念

通過 Ridge?與 Lasso?的例子，相信大家對正則化概念會有一定的了解。在這里簡單介紹一下L1、L2?正則化的區(qū)別。
正則化（Regularization）是機器學習中一種常用的技術(shù)，其主要目的是控制模型復雜度，減小過擬合。最基本的正則化方法是在原目標函數(shù) 中添加懲罰項，對復雜度高的模型進行“懲罰”。其數(shù)學表達形式為：

?、?為訓練樣本和相應標簽，??為權(quán)重系數(shù)向量；??為目標函數(shù)，??即為懲罰項，可理解為模型“規(guī)?！钡哪撤N度量；參數(shù)?控制控制正則化強弱。不同的??函數(shù)對權(quán)重??的最優(yōu)解有不同的偏好，因而會產(chǎn)生不同的正則化效果。最常用的??函數(shù)有兩種，即??范數(shù)和??范數(shù)，相應稱之為??正則化和??正則化。

由表達式可以看出，L1?正則化則是以累加絕對值來計算懲罰項，因此使用 L1 會讓 W(i) 元素產(chǎn)生不同量的偏移，使某些元素為0，從而產(chǎn)生稀疏性，提取最有效的特征進行計算。
L2 正則化則是使用累加 W 平方值計算懲罰項，使用 L2?時 W(i) 的權(quán)重都不會為0，而是對每個元素進行不同比例的放縮。?

通過 Ridge?與 Lasso?對比 L1?與 L2?的區(qū)別

1 def ridge_test():2 #測試數(shù)據(jù)3 line=np.linspace(-3,3,100)4 X,y=datasets.make_regression(n_features=100,noise=40,random_state=1)5 X_train,X_test,y_train,y_test=train_test_split(X,y)6 #嶺回歸模型7 ridge=Ridge()8 ridge.fit(X_train,y_train)9 #計算準確率 10 print('ridge\n train data:{0}'.format(ridge.score(X_train,y_train))) 11 print(' test data:'.format(ridge.score(X_test,y_test))) 12 print(' used features: {0}'.format(sum(ridge.coef_!=0))) 13 print(' total features: {0}'.format(ridge.n_features_in_)) 14 plt.plot(ridge.coef_,'^',color='g') 15 16 17 def lasso_test(): 18 # 測試數(shù)據(jù) 19 X,y=datasets.make_regression(n_features=100,noise=40,random_state=1) 20 X_train,X_test,y_train,y_test=train_test_split(X,y) 21 # 把alpha設置為2 22 lasso=Lasso(alpha=2,max_iter=10000) 23 lasso.fit(X_train,y_train) 24 #輸出正確率 25 print('lasso\n train data:{0}'.format(lasso.score(X_train,y_train))) 26 print(' test data:{0}'.format(lasso.score(X_test,y_test))) 27 #斜率與截距 28 print(' used features: {0}'.format(sum(lasso.coef_!=0))) 29 print(' total features: {0}'.format(lasso.n_features_in_)) 30 plt.plot(lasso.coef_,'o',color='red') 31 plt.legend(['feature']) 32 33 ridge_test() 34 lasso_test() 35 plt.show()

運行結(jié)果

可見?Ridge?模型中有效特征仍為100，而?Lasso?的有效特征僅為 48。在一般運算中，往往會優(yōu)先使用?Ridge?模型。但當數(shù)據(jù)的特征數(shù)太多時，Lasso?更顯出其優(yōu)勢。??

4.5 SGDRegressor 模型

前面介紹的?LinearRegression、Ridge、Lasso?等幾個模型，都是使用最小二乘法和求逆運算來計算參數(shù)的，下面介紹的 SGDRegressor 模型是使用梯度下降法進行計算的。
在第二節(jié)已經(jīng)使用基礎的?Python?代碼實現(xiàn)最簡單的梯度下降法算法，但其實在?sklearn?模型中早已準備了?SGDRegressor?模型支持梯度下降計算，運算時它比最小二乘法和求逆運算更加快節(jié)，當模型比較復雜，測試數(shù)據(jù)較大時，可以考慮使用 SGDRegressor?模型。
SGDRegressor?構(gòu)造函數(shù)

1 class SGDRegressor(BaseSGDRegressor): 2 @_deprecate_positional_args 3 def __init__(self, loss="squared_loss", *, penalty="l2", alpha=0.0001, 4 l1_ratio=0.15, fit_intercept=True, max_iter=1000, tol=1e-3, 5 shuffle=True, verbose=0, epsilon=DEFAULT_EPSILON, 6 random_state=None, learning_rate="invscaling", eta0=0.01, 7 power_t=0.25, early_stopping=False, validation_fraction=0.1, 8 n_iter_no_change=5, warm_start=False, average=False): 9 ......

loss：默認為“squared_loss”,?選擇要使用的損失函數(shù)?？捎玫幕貧w損失函數(shù)有：'squared_loss'、'huber'、epsilon_unsensitive'或'squared_epsilon_unsensitive'。
penalty：默認為 L2，用于指定懲罰項中使用的規(guī)范，可選參數(shù)為 L1 、 L2、elasticnet
alpha：默認值為 0.0001 乘以正則項的常數(shù)。值越大，正則化越強。當學習率設為“optimal”時，用于計算學習率。
l1_ratio：默認值為 0.15 彈性凈混合參數(shù)，0 <= l1_ratio <= 1. l1_ratio=0對應于L2懲罰，l1_ratio=1到 l1。僅當 penalty 為 elasticnet 時使用。
fit_intercept：bool類型，默認為True，表示是否計算截距 ( 即 y=wx+k 中的 k )。
max_iter：默認值為 1000，部分求解器需要通過迭代實現(xiàn)，這個參數(shù)指定了模型優(yōu)化的最大迭代次數(shù)。
tol：默認值為1e-3,默認為小數(shù)點后 3 位，代表求解方法精度
shuffle：默認值為 True ，是否在每個epoch之后對訓練數(shù)據(jù)進行洗牌。
verbose：默認值為 0 詳細程度。
epsilon：當 loss?選擇 “huber”?時，它決定了一個閾值，在這個閾值下，預測值將被忽略。若選擇 “epsilon-insensitive” 表示若當前預測和正確標簽之間的差異小于此閾值，將被忽略。
random_state：默認值為None?隨機數(shù)種子，推薦設置一個任意整數(shù)，同一個隨機值，模型可以復現(xiàn)。
learning_rate：學習率，默認值為 ’invscaling’ ,可選 constant、optimal、invscaling、adaptive

　　　　1）‘constant’: eta = eta0；

　　　　2）‘optimal: eta = 1.0 / (alpha * (t + t0)) ;

　　　　3）‘invscaling’: eta = eta0 / pow(t, power_t);

　　　　4）‘a(chǎn)daptive’: eta = eta0

eta0：默認值為0.01，初始學習速率。
power_t：默認值為0.25 反向縮放學習速率的指數(shù)
early_stopping：默認值為 False 驗證分數(shù)沒有提高時，是否使用提前停止終止培訓。如果設置為True，它將自動將訓練數(shù)據(jù)的分層部分作為驗證，并且當分數(shù)方法返回的驗證分數(shù)對?n_iter_no_change 連續(xù)時間段沒有至少提高tol時終止訓練。
validation_fraction：默認值為 0.1 作為早期停機驗證設置的培訓數(shù)據(jù)的比例。必須介于0和1之間。僅在“早?！睘檎鏁r使用。
n_iter_no_change：默認值為 5 在提前停止之前沒有改進的迭代次數(shù)。
warm_start：bool, 默認值為 False 當設置為True時，將上一個調(diào)用的解決方案重用為fit作為初始化，否則，只需刪除以前的解決方案。
average：默認值為 False 當設置為True時，計算所有更新的 averaged SGD權(quán)重，并將結(jié)果存儲在coef_ 屬性中。如果設置為大于1的整數(shù)，則當看到的樣本總數(shù)達到平均值時，將開始平均。所以average=10將在看到10個樣本后開始平均。

SGDRegressor 模型與?Ridge?類似，默認使用 L2?正則化，所有特征權(quán)重都不為 0 而是對每個元素進行不同比例的放縮。?
max_iter? 默認值為1000，?它標志著運行迭代的最大次數(shù)，有需要時可以增加 max_iter 提高準確率。
從第二節(jié)的例子可以理解，SGD默認使用 squared_loss?均方誤差作為損失函數(shù)，參數(shù) eta0 =0.01 是初始的學習速率，當 learning_rate?為?constant?時，學習速率則恒定為 0.01，若使用默認值 invscaling，學習速率則通過公式?eta = eta0 / pow(t, power_t)?計算。
在下面的例子，把學習率設為恒定的 0.001，然后使用二個特征的數(shù)據(jù)進行測試，最后使用三維圖形把計算出來的結(jié)果進行顯示

1 def sgd_regressor_test():2 # 測試數(shù)據(jù)3 X,y=dataset.make_regression(n_samples=100,n_features=2)4 X_train, X_test, y_train, y_test = train_test_split(X, y)5 # SGD 模型6 sgd = SGDRegressor(learning_rate='constant',eta0=0.001,average=True)7 sgd.fit(X_train,y_train)8 # 準確率9 print('SGD:\n train data:{0}\n test data:{1}' 10 .format(sgd.score(X_train,y_train),sgd.score(X_test,y_test))) 11 ax=plt.axes(projection='3d') 12 print(' coef:{0} intercept:{1}'.format(sgd.coef_,sgd.intercept_)) 13 # 生成3維圖 14 ax.scatter3D(X[:,0],X[:,1],y,color='red') 15 # 生成格網(wǎng)矩陣 16 x0, x1 = np.meshgrid(X[:,0], X[:,1]) 17 z = sgd.coef_[0] * x0 + sgd.coef_[1] * x1+sgd.intercept_ 18 # 繪制3d 19 ax.plot_surface(x0, x1, z,color='white',alpha=0.01) 20 plt.show()

運行結(jié)果

對大數(shù)據(jù)進行測試時，相比起最小二乘法，使用梯度下降法效率會更高。下面的例子就是分別使用?LinearRegrssion?與?SGDRegressor?對 100 個特征的 100000?條數(shù)據(jù)進行測試，結(jié)果 SGD?節(jié)省了大約 30%的時間。

1 def linear_regression_test():2 # 測試數(shù)據(jù)3 X, y = dataset.make_regression(n_samples=100000,n_features=100, random_state=2)4 X_train, X_test, y_train, y_test = train_test_split(X, y)5 # 線性回歸模型訓練6 linear = LinearRegression()7 linear.fit(X_train, y_train)8 # 準確率9 print('Linear:\n train data:{0}\n test data:{1}' 10 .format(linear.score(X_train,y_train),linear.score(X_test,y_test))) 11 12 def sgd_regressor_test(): 13 # 測試數(shù)據(jù) 14 X,y=dataset.make_regression(n_samples=100000,n_features=100,random_state=2) 15 X_train, X_test, y_train, y_test = train_test_split(X, y) 16 # SGD 模型 17 sgd = SGDRegressor(learning_rate='constant',eta0=0.01) 18 sgd.fit(X_train,y_train) 19 # 準確率 20 print('SGD:\n train data:{0}\n test data:{1}' 21 .format(sgd.score(X_train,y_train),sgd.score(X_test,y_test))) 22 23 print(' Utime:{0}'.format(timeit.timeit(stmt=linear_regression_test, number=1))) 24 print(' Utime:{0}'.format(timeit.timeit(stmt=sgd_regressor_test, number=1)))

運行結(jié)果

4.6 LogisticRegression 模型

上面幾個例子，都是講述線性回歸，下面將開始介紹線性分類的模型。LogisticRegression?模型雖然名稱里包含了?Regression ，但其實它是一個線性分類模型。
LogisticRegression?的構(gòu)造函數(shù)

1 class LogisticRegression(LinearClassifierMixin,2 SparseCoefMixin,3 BaseEstimator):4 　　　　 @_deprecate_positional_args 5 　　　　def __init__(self, penalty='l2', *, dual=False, tol=1e-4, C=1.0,6 fit_intercept=True, intercept_scaling=1, class_weight=None,7 random_state=None, solver='lbfgs', max_iter=100,8 multi_class='auto', verbose=0, warm_start=False, n_jobs=None,9 l1_ratio=None): 10 ......

參數(shù)說明

penalty：默認為 L2，用于指定懲罰項中使用的規(guī)范，可選參數(shù)為 L1 和 L2。
dual：默認為False，對偶或原始方法。對偶方法只用在求解線性多核(liblinear)的L2懲罰項上。當樣本數(shù)量>樣本特征的時候，dual通常設置為False。
tol：默認為小數(shù)點后 4 位，代表求解方法精度。
C：正則化系數(shù) λ 的倒數(shù)，float類型，默認為1.0，越小的數(shù)值表示越強的正則化。
fit_intercept：bool類型，默認為True，表示是否計算截距 ( 即 y=wx+k 中的 k )。
intercept_scaling：float類型，默認為1，僅在 solver 為 ”liblinear”，且 fit_intercept設置為True時有用。
class_weight：用于標示分類模型中各種類型的權(quán)重，默認值為None，即不考慮權(quán)重。也可選擇balanced 讓類庫自己計算類型權(quán)重，此時類庫會根據(jù)訓練樣本量來計算權(quán)重，某種類型樣本量越多，則權(quán)重越低，樣本量越少，則權(quán)重越高?；蛘咻斎腩愋偷臋?quán)重比，例如 class_weight={0:0.9, 1:0.1}，此時類型0的權(quán)重為90%，而類型1的權(quán)重為10%。
random_state：隨機數(shù)種子，推薦設置一個任意整數(shù)，同一個隨機值，模型可以復現(xiàn)。
solver：求解優(yōu)化算法，默認值 lbfgs，可以根據(jù)數(shù)據(jù)類型選擇最合適的算法?？蛇x的算法有：

　　　　1）liblinear：使用了開源的liblinear庫實現(xiàn)，內(nèi)部使用了坐標軸下降法來迭代優(yōu)化損失函數(shù)。

　　　　2）lbfgs：利用損失函數(shù)二階導數(shù)矩陣即海森矩陣來迭代優(yōu)化損失函數(shù)。

　　　　3）newton-cg：利用損失函數(shù)二階導數(shù)矩陣即海森矩陣來迭代優(yōu)化損失函數(shù)。

　　　　4）sag：即隨機平均梯度下降，是梯度下降法的變種，每次迭代僅僅用一部分的樣本來計算梯度，適合數(shù)據(jù)量較大時使用。

　　　　5）saga：線性收斂的隨機優(yōu)化算法的的變重。

max_iter：默認值為 100，部分求解器需要通過迭代實現(xiàn)，這個參數(shù)指定了模型優(yōu)化的最大迭代次數(shù)。
multi_class：分類方式選擇參數(shù)，str類型，可選參數(shù)為ovr和multinomial，默認為ovr。如果是二元邏輯回歸，ovr和multinomial并沒有任何區(qū)別，區(qū)別主要在多元邏輯回歸上。?
verbose：日志冗長度，int類型。默認為0。就是不輸出訓練過程，1的時候偶爾輸出結(jié)果，大于1，對于每個子模型都輸出。
warm_start：默認值為?False，當設置為True時，重用之前調(diào)用的解決方案作為初始化，否則，只需要刪除前面的解決方案。
n_jobs：CPU 并行數(shù)，默認為None，代表1。若設置為 -1 的時候，則用所有 CPU 的內(nèi)核運行程序。
l1_ratios?：?默認為None，表示彈性網(wǎng)混合參數(shù)列表。

LogisticRegression 包含兩個最常用的參數(shù)?penalty?正則化規(guī)則、C?正則化程度，由構(gòu)造函數(shù)可以看到，一般情況下?LogisticRegression?使用的是?L2?正則規(guī)范。此時決定正則化規(guī)范強度的參數(shù)是由?C?值決定，C?越大，對應的正則化越弱，數(shù)據(jù)集的擬合度會更高，C?越小，則模型的權(quán)重系統(tǒng) w 更趨向于 0。

最典型的例子就是使用?make_forge?庫里的例子進行測試

1 def logistic():2 #生成數(shù)據(jù)集3 X,y=datasets.make_forge()4 X_train,X_test,y_train,y_test=train_test_split(X,y)5 #對Logistic模型進行訓練6 logistic=LogisticRegression(C=1.0,random_state=1)7 logistic.fit(X_train,y_train)8 #輸入正確率9 print('logistic\n train data:{0}'.format(logistic.score(X_train,y_train))) 10 print(' test data:{0}'.format(logistic.score(X_test,y_test))) 11 #輸出模型點 12 plt.scatter(X[:,0], X[:,1],c=y,s=100) 13 plt.legend(['model','data']) 14 #輸出模型決策邊界 15 line = np.linspace(7, 13, 100) 16 y=(-logistic.coef_[0][0]*line-logistic.intercept_)/logistic.coef_[0][1] 17 plt.plot(line,y,'-') 18 plt.show()

運行結(jié)果

此時，雖然測試數(shù)據(jù)集比較簡單，但仍可見類型為0和1的數(shù)據(jù)仍有產(chǎn)生一定的錯位。此時，嘗試將參數(shù) C?調(diào)整為 100，得出的結(jié)果如下圖。
可見，當C值越大時，正則化規(guī)則越弱，數(shù)據(jù)集的擬合度會更高

?相反，若將 C?調(diào)整為 0.01?時，權(quán)重系數(shù) w 會越趨向于0，它會讓公式適用于更多的數(shù)據(jù)點

LogisticRegression 除了可以通過 C?控制其正則化強度外，還可以通過?penalty?參數(shù)選擇正則化規(guī)則，penalty?默認值為?L2，但是當數(shù)據(jù)集的特征較多時，可以嘗試通過設置?penalty?讓其使用 L1?正則化。但需要注意的是，當使用 L1?正則化時?solver?必須使用?liblinear?算法，否則系統(tǒng)會報錯。

1 def logistic(penalty,c):2 #生成數(shù)據(jù)集3 X,y=dataset.make_classification(n_samples=1000,n_features=100,random_state=1)4 X_train,X_test,y_train,y_test=train_test_split(X,y)5 #對Logistic模型進行訓練6 if(penalty=='l1'):7 solver='liblinear'8 else:9 solver='lbfgs' 10 logistic=LogisticRegression(penalty=penalty,C=c,solver=solver,random_state=1) 11 logistic.fit(X_train,y_train) 12 #輸入正確率 13 print('{0}\n train data:{1}'.format(penalty,logistic.score(X_train,y_train))) 14 print(' test data:{0}'.format(logistic.score(X_test,y_test))) 15 16 #輸出模型決策邊界 17 print(' total features:{0}'.format(logistic.n_features_in_)) 18 print(' used features:{0}'.format(sum(logistic.coef_[0]!=0))) 19 plt.plot(logistic.coef_[0],'^') 20 logistic('l1',0.2) 21 logistic('l2',0.2) 22 plt.show()

運行結(jié)果

可以看到當使用?L1?規(guī)則時，系統(tǒng)只使用了 4?個特征，此方法更適用于特征數(shù)量比較多的數(shù)據(jù)集。
使用 L2?時?C 值為 0.2，系統(tǒng)使用了100個特征，由特征圖形可見，其權(quán)重系數(shù) w 都接近于 0

此時可嘗試調(diào)節(jié)一下參數(shù)，對比一下運行?L2 ，輸入不同 C?值時的變化。

1 logistic("l2", 0.01) 2 logistic('l2',100) 3 plt.legend(['c=0.01','c=100']) 4 plt.show()

運行結(jié)果

?可見 C?值越小，w?就會越趨向于0，C 值越大，w 就會越分散且受正則化的約束越小

4.7 LinearSVC?線性支持向量機

上面的例子所看到的線性分類模型，大部分的例子都只二分類的，下面介紹一下可用于多分類的線性模型 LinearSVC?
LinearSVC?的構(gòu)造函數(shù)

1 class LinearSVC(LinearClassifierMixin, 2 SparseCoefMixin, 3 BaseEstimator): 4 @_deprecate_positional_args 5 def __init__(self, penalty='l2', loss='squared_hinge', *, dual=True, 6 tol=1e-4, C=1.0, multi_class='ovr', fit_intercept=True, 7 intercept_scaling=1, class_weight=None, verbose=0, 8 random_state=None, max_iter=1000): 9 ......

參數(shù)說明

penalty：默認為 L2，用于指定懲罰項中使用的規(guī)范，可選參數(shù)為 L1 和 L2。當使用?L1?準則時，參數(shù)?loss 必須為 squared_hinge , dual 必須為 False。
loss : 指定損失函數(shù)，默認值為 squared_hinge，可選擇 ‘hinge’?或?‘squared_hinge’ 。
dual：默認為False，對偶或原始方法。對偶方法只用在求解線性多核(liblinear)的L2懲罰項上。當樣本數(shù)量>樣本特征的時候，dual通常設置為False。
tol：默認為小數(shù)點后 4 位，代表求解方法精度。
C：正則化系數(shù) λ 的倒數(shù)，float類型，默認為1.0，越小的數(shù)值表示越強的正則化。
multi_class :?默認值為 ovr，可選擇 ‘ovr’?或?‘crammer_singer’ ，用于確定多類策略。 “ovr” 訓練n_classes one-vs-rest 分類器，而 “crammer_singer” 優(yōu)化所有類的聯(lián)合目標。? 如果選擇“crammer_singer”，則將忽略選項 loss，penalty 和 dual?參數(shù)。
fit_intercept：bool類型，默認為True，表示是否計算截距 ( 即 y=wx+k 中的 k )。
intercept_scaling：float類型，默認為1，僅在 fit_intercept設置為True時有用。
class_weight：用于標示分類模型中各種類型的權(quán)重，默認值為None，即不考慮權(quán)重。也可選擇balanced 讓類庫自己計算類型權(quán)重，此時類庫會根據(jù)訓練樣本量來計算權(quán)重，某種類型樣本量越多，則權(quán)重越低，樣本量越少，則權(quán)重越高?；蛘咻斎腩愋偷臋?quán)重比，例如 class_weight={0:0.9, 1:0.1}，此時類型0的權(quán)重為90%，而類型1的權(quán)重為10%。
verbose：日志冗長度，int類型。默認為0。就是不輸出訓練過程，1的時候偶爾輸出結(jié)果，大于1，對于每個子模型都輸出
random_state：隨機數(shù)種子，推薦設置一個任意整數(shù)，同一個隨機值，模型可以復現(xiàn)。
max_iter：默認值為 10000，部分求解器需要通過迭代實現(xiàn)，這個參數(shù)指定了模型優(yōu)化的最大迭代次數(shù)。

與LogisticRegression相似，LinearSVC?默認也是使用?L2 準則，同樣可以通過 C?控制其正則化強度，C?越大，對應的正則化越弱，數(shù)據(jù)集的擬合度會更高，C?越小，則模型的權(quán)重系統(tǒng) w 更趨向于 0。
還可以通過?penalty?參數(shù)選擇正則化規(guī)則，當使用?L1?準則時，參數(shù) loss 必須為 squared_hinge , dual 必須為 False。

當用于多個類別時，LinearSVC?會使用一對其余的方式，每次學習都會使用一個二分類模型，然后把余下的數(shù)據(jù)集再次進行二分類，不斷循環(huán)最后得出預測結(jié)果。

1 def linearSVC():2 #生成數(shù)據(jù)集 3 X,y=mglearn.datasets.make_blobs(n_samples=200,random_state=23,centers=3)4 X_train,X_test,y_train,y_test=train_test_split(X,y)5 #使用 LinearSVC 模型，使用 L1 準則6 linearSVC=LinearSVC(penalty='l1',loss='squared_hinge', dual=False)7 linearSVC.fit(X_train,y_train)8 #輸出準確率9 print('LinearSVC\n train data:{0}'.format(linearSVC.score(X_train,y_train))) 10 print(' test data:{0}'.format(linearSVC.score(X_test,y_test))) 11 #劃出圖形分隔線 12 plt.scatter(X[:,0], X[:,1],c=y,s=100,cmap='autumn',marker='*') 13 n=np.linspace(-8,8,100) 14 value0=(-n*linearSVC.coef_[0][0] - linearSVC.intercept_[0]) / linearSVC.coef_[0][1] 15 value1=(-n*linearSVC.coef_[1][0] - linearSVC.intercept_[1]) / linearSVC.coef_[1][1] 16 value2=(-n*linearSVC.coef_[2][0] - linearSVC.intercept_[2]) / linearSVC.coef_[2][1] 17 plt.plot(n.reshape(-1, 1), value0,'-') 18 plt.plot(n.reshape(-1, 1), value1,'--') 19 plt.plot(n.reshape(-1, 1), value2,'+') 20 plt.legend(['class0','class1','class2']) 21 plt.show()

運行結(jié)果

?4.8 SGDClassifier 分類模型

SGDClassifier?與?SGDRegressor?類似，都是使用梯度下降法進行分類計算，由于SGD是以一次一個的方式獨立處理訓練實例，所以它能夠有效處理大型的數(shù)據(jù)集。SDGClassifier?默認也是使用 L2?準則，注意與SGDRegressor不同的是它的學習率 learning_rate 默認使用 optimal，此時?eta0?無效，若要使用?eta 0?需要提前修改 learning_rate?參數(shù)。

構(gòu)造函數(shù)

1 class SGDClassifier(BaseSGDClassifier):2 @_deprecate_positional_args3 def __init__(self, loss="hinge", *, penalty='l2', alpha=0.0001,4 l1_ratio=0.15,5 fit_intercept=True, max_iter=1000, tol=1e-3, shuffle=True,6 verbose=0, epsilon=DEFAULT_EPSILON, n_jobs=None,7 random_state=None, learning_rate="optimal", eta0=0.0,8 power_t=0.5, early_stopping=False, validation_fraction=0.1,9 n_iter_no_change=5, class_weight=None, warm_start=False, 10 average=False): 11 ......

loss：默認為“hinge”,?選擇要使用的損失函數(shù)?？捎玫膿p失函數(shù)有：'hinge', 'log', 'modified_huber','squared_hinge', 'perceptron'。log 損失使邏輯回歸成為概率分類器。 'modified_huber'是另一個平滑的損失，它使異常值和概率估計具有一定的容忍度?！?squared_hinge”與hinge類似，但會受到二次懲罰?！皃erceptron”是感知器算法使用的線性損失。
penalty：默認為 L2，用于指定懲罰項中使用的規(guī)范，可選參數(shù)為 L1 、 L2、elasticnet
alpha：默認值為 0.0001 乘以正則項的常數(shù)。值越大，正則化越強。當學習率設為“optimal”時，用于計算學習率。
l1_ratio：默認值為 0.15 彈性凈混合參數(shù)，0 <= l1_ratio <= 1. l1_ratio=0對應于L2懲罰，l1_ratio=1到 l1。僅當 penalty 為 elasticnet 時使用。
fit_intercept：bool類型，默認為True，表示是否計算截距 ( 即 y=wx+k 中的 k )。
max_iter：默認值為 1000，部分求解器需要通過迭代實現(xiàn)，這個參數(shù)指定了模型優(yōu)化的最大迭代次數(shù)。
tol：默認值為1e-3,默認為小數(shù)點后 3 位，代表求解方法精度
shuffle：默認值為 True ，是否在每個epoch之后對訓練數(shù)據(jù)進行洗牌。
verbose：默認值為 0 詳細程度。
epsilon：默認值為0.1? loss?選擇 “huber”?時，它決定了一個閾值，在這個閾值下，預測值將被忽略。若選擇 “epsilon-insensitive” 表示若當前預測和正確標簽之間的差異小于此閾值，將被忽略。
n_job：CPU 并行數(shù)，默認為None，代表1。若設置為 -1 的時候，則用所有 CPU 的內(nèi)核運行程序。
random_state：默認值為None?隨機數(shù)種子，推薦設置一個任意整數(shù)，同一個隨機值，模型可以復現(xiàn)。
learning_rate：學習率，默認值為 ’optimal’ ,可選 constant、optimal、invscaling、adaptive

　　　　1）‘constant’: eta = eta0；

　　　　2）‘optimal: eta = 1.0 / (alpha * (t + t0)) ;

　　　　3）‘invscaling’: eta = eta0 / pow(t, power_t);

　　　　4）‘a(chǎn)daptive’: eta = eta0

eta0：默認值為0.0，初始學習速率。當?learning_rate?為?optimal?時，此值無效。
power_t：默認值為0.5 反向縮放學習速率的指數(shù)
early_stopping：默認值為 False 驗證分數(shù)沒有提高時，是否使用提前停止終止培訓。如果設置為True，它將自動將訓練數(shù)據(jù)的分層部分作為驗證，并且當分數(shù)方法返回的驗證分數(shù)對?n_iter_no_change 連續(xù)時間段沒有至少提高tol時終止訓練。
validation_fraction：默認值為 0.1 作為早期停機驗證設置的培訓數(shù)據(jù)的比例。必須介于0和1之間。僅在“早停”為真時使用。
n_iter_no_change：默認值為 5 在提前停止之前沒有改進的迭代次數(shù)。
class_weight:??類別關(guān)聯(lián)的權(quán)重，使用字典格式，默認值 {class_label:?None}?也可選擇balanced 讓類庫自己計算類型權(quán)重，此時類庫會根據(jù)訓練樣本量來計算權(quán)重，某種類型樣本量越多，則權(quán)重越低，樣本量越少，則權(quán)重越高?；蛘咻斎腩愋偷臋?quán)重比，例如 class_weight={0:0.9, 1:0.1}，此時類型0的權(quán)重為90%，而類型1的權(quán)重為10%。
warm_start：bool, 默認值為 False 當設置為True時，將上一個調(diào)用的解決方案重用為fit作為初始化，否則，只需刪除以前的解決方案。
average：默認值為 False 當設置為True時，計算所有更新的 averaged SGD權(quán)重，并將結(jié)果存儲在coef_ 屬性中。如果設置為大于1的整數(shù)，則當看到的樣本總數(shù)達到平均值時，將開始平均。所以average=10將在看到10個樣本后開始平均。

下面嘗試用 SDGClassifier 區(qū)分MNIST的數(shù)字圖片，由于圖片有70000張，運行可能較慢，嘗試使用多核運算，把 n_job 設置為 -1，把學習率設置為固定值 0.01，可以看到準確率可以達到將近 90%

1 def sgd_classifier_test():2 # 輸入入數(shù)據(jù)3 (X_train, y_train), (X_test, y_test)=keras.datasets.mnist.load_data()4 # 把28*28圖像數(shù)據(jù)進行轉(zhuǎn)換5 X_train=X_train.reshape(-1,784)6 X_test=X_test.reshape(-1,784)7 #使用SGDClassfier模式，使用多核計算,學習率為0.018 sgd_classifier=SGDClassifier(learning_rate='constant',eta0=0.01,n_jobs=-1)9 sgd_classifier.fit(X_train,y_train) 10 #查看準確率 11 print('SGDClassfier\n train data:{0}\n test data:{1}'.format( 12 sgd_classifier.score(X_train,y_train) 13 ,sgd_classifier.score(X_test,y_test))) 14 #查看測試數(shù)量第256幅圖 15 data=X_test[256].reshape(28,28) 16 plt.imshow(data,cmap='binary') 17 plt.show() 18 print(' test number is:{0}'.format(y_test[256]))

運行結(jié)果

4.9?多項式轉(zhuǎn)換器與管道

4.9.1 PolynomialFeatures?轉(zhuǎn)換器

到此以上所有的例子用的都是純線性的實例，然而現(xiàn)實場景中并非如此，比如說一個簡單的二元一次的方程? y = a*x*x+b*x+c 所構(gòu)成的數(shù)據(jù)（如下圖），就不可能通過直線進行連接。

為此，sklearn?準備了多項式轉(zhuǎn)換器 PolynomialFeatures 來解決此問題。前面提到普通的線性模型每個特征都是符合單次方規(guī)則：y = w[0] * x[0] +?w[1] * x[1] +?w[2] * x[2] +?w[3] * x[3] + ...... +?w[n] * x[n] + k，每個模型會有?n+1?個特征。而 PolynomialFeatures?轉(zhuǎn)換器可以把單個特征轉(zhuǎn)換成多次方關(guān)系:?當?degree=n 時，每個特征都會符合關(guān)系式?y = w[0]+w[1]*x+w[2]*x2+w[3]*x3+....+w[n]*xn。如此類推如果有 m 個特征且degree = m 時，則

構(gòu)造函數(shù)

1 class PolynomialFeatures(): 2 @_deprecate_positional_args 3 def __init__(self, degree=2, *, interaction_only=False, include_bias=True, 4 order='C'): 5 self.degree = degree 6 self.interaction_only = interaction_only 7 self.include_bias = include_bias 8 self.order = order 9 ......

degree：默認值為2，控制多項式的次數(shù)；
interaction_only：默認為 False，如果指定為 True，那么就不會有特征自己和自己結(jié)合的項，組合的特征中沒有 X12或?X1 * X23
include_bias：默認為 True 。如果為 True 的話，那么結(jié)果中就會有 0 次冪項，即全為 1 這一列。
order:? 默認為"C" ，可選擇 "F" ?！癈” 表示是在密集情況（dense case）下的輸出array的順序，“F” 可以加快操作但可能使得subsequent estimators變慢。

用一個二元一次的方程? y = a*x*x+b*x+c?作為例子，首先生成100?個點的測試數(shù)據(jù)畫在圖上，然后使用多項式轉(zhuǎn)換器 PolynomialFeatures 把 degree?設置為默認值 2，相當于使用 x 的最高次為 2 的多次項作為特征，最后使用 LinearRegression?模型根據(jù)斜率和變量畫出曲線。

1 # 測試數(shù)據(jù)，根據(jù) y=3*x*x+2*x+1 生成2 def getData():3 x=np.linspace(-3.5,3,100)4 y=3*x*x+2*x+15 d=np.random.random(100)*26 y=y-d7 plt.plot(x,y,'.')8 return [x,y]9 10 def polynomial_test(): 11 # 獲取測試數(shù)據(jù) 12 data=getData() 13 X=data[0].reshape(-1,1) 14 y=data[1] 15 # 生成多項式回歸模型 16 polynomial=PolynomialFeatures(degree=2) 17 X_poly=polynomial.fit_transform(X) 18 # 把運算過的數(shù)據(jù)放到 LinearRegression 進行運算 19 linearRegression=LinearRegression() 20 21 linearRegression.fit(X_poly,y) 22 # 打印數(shù)據(jù) 23 print('PolynomialFeature:\n coef:{0}\n intercept:{1}\n score:{2}' 24 .format(linearRegression.coef_,linearRegression.intercept_, 25 linearRegression.score(X_poly,y))) 26 # 根據(jù)斜率和截距畫出圖 27 x=np.linspace(-3.5,3,100) 28 y=linearRegression.coef_[2]*x*x+linearRegression.coef_[1]*x+linearRegression.intercept_ 29 plt.plot(x,y) 30 plt.legend(['data','model']) 31 plt.show()

運行結(jié)果

?可見使用 PolynomialFeatures?多項式轉(zhuǎn)換器可以向數(shù)據(jù)中加入非線性特征，讓線性模型變得更加強大。

4.9.2?Pipeline 管道

正如上一章節(jié)的例子，如果繁雜的模型每次都需要經(jīng)過多個步驟運算，那將是一個耗時費力的操作，有見及此，sklearn?中有一個?Pipeline?類可以按工作流程分步驟執(zhí)行模型訓練。在上一章節(jié)數(shù)據(jù)先經(jīng)過?PolynomialFeatures?模型訓練再進行?LinearRegression?訓練可寫為?pipe=Pipeline([('polynomial',PolynomialFeatures()),('linearRegression',LinearRegression())]) ，在?Pipeline?參數(shù)是以字典的形式輸入，先輸入名稱，再輸入類型。如果覺得每次都要為模型對象定義參數(shù)名稱比較麻煩，sklearn?還有一個更簡單的方法?make_pipeline ，使用此方法只需要直接把模型的類按順序輸入即可?pipe=make_pipeline(PolynomialFeatures(),LinearRegression()) ，事實上這種寫法也是管道最常用的方法。
使用 Pipeline?管道，可以把上一節(jié)的例子簡化成下面的代碼，輸出完全一樣的結(jié)果。

1 # 測試數(shù)據(jù)根據(jù) y=3*x*x+2*x+1 生成2 def getData():3 x=np.linspace(-3.5,3,100)4 y=3*x*x+2*x+15 d=np.random.random(100)*26 y=y-d7 plt.plot(x,y,'.')8 return [x,y]9 10 def polynomial_test(): 11 # 獲取測試數(shù)據(jù) 12 data=getData() 13 X=data[0].reshape(-1,1) 14 y=data[1] 15 # 生成管道先執(zhí)行 PolynomialFeatures 再執(zhí)行 LinearRegression 16 pipe=make_pipeline(PolynomialFeatures(degree=2),LinearRegression()) 17 # 訓練數(shù)據(jù) 18 pipe.fit(X,y) 19 # 獲取執(zhí)行對象 20 linearRegression=pipe.steps[1][1] 21 # 打印數(shù)據(jù) 22 print('PolynomialFeature:\n coef:{0}\n intercept:{1}\n score:{2}' 23 .format(linearRegression.coef_,linearRegression.intercept_, 24 pipe.score(X,y))) 25 # 根據(jù)斜率和截距畫出圖 26 x=np.linspace(-3.5,3,100) 27 y=linearRegression.coef_[2]*x*x+linearRegression.coef_[1]*x+linearRegression.intercept_ 28 plt.plot(x,y) 29 plt.legend(['data','model']) 30 plt.show()

本篇總結(jié)

本文主要講述了機械學習的相關(guān)概念與基礎知識，監(jiān)督學習的主要流程。對損失函數(shù)進行了基礎的介紹，并對常用的均方誤差與遞度下降法的計算過程進行演示，希望能幫助大家更好地理解。
在線性模型方法，對常用的?LogisticRegression , LinearSVC、SGDClassifier、 LinearRegression、Ridge、Lasso 、SGDRegressor? 等線性模型進行了介紹。最后對非線性的 PolynomialFeatures 多項式轉(zhuǎn)換器進行介紹，講解管道?Pipe 的基本用法。
希望本篇文章對相關(guān)的開發(fā)人員有所幫助，由于時間倉促，錯漏之處敬請點評。

總結(jié)

以上是生活随笔為你收集整理的Python 机器学习实战 —— 监督学习（上）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： GTX960M安装Anaconda+cu
下一篇：你用什么软件做笔记？