使用Scikit Learn的分类器探索Iris数据集
作者|Dehao Zhang 編譯|VK 來源|Towards Data Science
暫時,想象一下你不是一個花卉專家(如果你是專家,那對你很好!)。你能區(qū)分三種不同的鳶尾屬植物嗎?剛毛鳶尾屬,花色鳶尾屬和維吉尼亞鳶尾屬(setosa, versicolor, virginica)?
我知道我不能…
但是,如果我們有一個包含這些物種實例的數(shù)據(jù)集,以及它們的萼片和花瓣的測量結(jié)果呢?
換言之,我們能從這個數(shù)據(jù)集中學(xué)到什么來幫助我們區(qū)分這三個物種嗎?
目錄
我們?yōu)槭裁催x擇這個數(shù)據(jù)集?
我們想回答什么問題?
在這個數(shù)據(jù)集中我們能找到什么?
我們正在構(gòu)建哪些分類器?
下一步該怎么辦?
數(shù)據(jù)集
在這篇博文中,我將探索UCI機器學(xué)習(xí)庫中的Iris數(shù)據(jù)集。它摘自其網(wǎng)站,據(jù)說這可能是模式識別文獻中最著名的數(shù)據(jù)庫。此外,Jason Brownlee,機器學(xué)習(xí)社區(qū)創(chuàng)建者,他稱該數(shù)據(jù)集為機器學(xué)習(xí)的“Hello World”。
我將把這個數(shù)據(jù)集推薦給那些對數(shù)據(jù)科學(xué)感興趣并渴望構(gòu)建第一個ML模型的人。它的一些優(yōu)良特性見下文:
150個具有4個屬性的實例(相同的單位,全部為數(shù)字)
均衡的階級分布
無缺失數(shù)據(jù)
如你所見,這些特性有助于將你在數(shù)據(jù)準(zhǔn)備過程中花費的時間減至最少,這樣你就可以專注于構(gòu)建你的第一個ML模型。
并不是說準(zhǔn)備階段不重要。相反,這個過程是如此的重要,以至于對于一些初學(xué)者來說,這可能是非常耗時的,而且他們在開始模型開發(fā)之前可能會把自己壓得喘不過氣來。
例如,來自Kaggle的流行數(shù)據(jù)集House Prices:Advanced returnation Techniques有大約80個特征,其中超過20%包含某種程度的缺失數(shù)據(jù)。在這種情況下,你可能需要花費一些時間來理解屬性并填充缺失的值。
目標(biāo)
在研究了這個數(shù)據(jù)集之后,我們希望能夠回答兩個問題,這在分類問題中非常典型:
分類
分類是一類有監(jiān)督的機器學(xué)習(xí)問題,其中目標(biāo)(響應(yīng))變量是離散的。給定包含已知標(biāo)簽的訓(xùn)練數(shù)據(jù),分類器從輸入變量(X)到輸出變量(Y)近似一個映射函數(shù)(f)。
現(xiàn)在是時候?qū)懸恍┐a了!請參閱我的Github頁面以獲取完整的Python代碼(在Jupyter Notebook中編寫)。
鏈接:https://github.com/terryz1/explore-iris
導(dǎo)入庫并加載數(shù)據(jù)集
首先,我們需要導(dǎo)入庫:pandas(加載數(shù)據(jù)集)、numpy(矩陣操作)、matplotlib和seaborn(可視化)以及sklearn(構(gòu)建分類器)。在導(dǎo)入它們之前,請確保它們已經(jīng)安裝(請參閱此處的安裝程序包指南)。
import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from pandas.plotting import parallel_coordinates from sklearn.tree import DecisionTreeClassifier, plot_tree from sklearn import metrics from sklearn.naive_bayes import GaussianNB from sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysis from sklearn.neighbors import KNeighborsClassifier from sklearn.svm import SVC from sklearn.linear_model import LogisticRegression要加載數(shù)據(jù)集(也可以在我的Github頁面中找到),我們可以使用pandas的read_csv函數(shù)(我的代碼還包括通過url加載的選項)。
data = pd.read_csv('data.csv')加載數(shù)據(jù)后,我們可以通過head查看前幾行:
data.head(5)注:所有四個測量單位均為厘米。
數(shù)值摘要
首先,讓我們通過“describe”來查看每個屬性的數(shù)值摘要:
data.describe()我們還可以使用groupby和size檢查類分布:
data.groupby('species').size()我們可以看到每個類都有相同數(shù)量的實例。
訓(xùn)練集測試集拆分
現(xiàn)在,我們可以將數(shù)據(jù)集分成訓(xùn)練集和測試集。通常,我們還應(yīng)該有一個驗證集,用來評估每個分類器的性能,進行微調(diào),并確定最佳模型。測試集主要用于報告。然而,由于這個數(shù)據(jù)集的規(guī)模很小,我們可以通過使用測試集來滿足驗證集的目的來簡化它。
此外,我還使用了分層保持方法來估計模型精度。我會在以后的博客中討論減少偏差的方法。
train, test = train_test_split(data, test_size = 0.4, stratify = data[‘species’], random_state = 42)注意:我設(shè)置了40%的數(shù)據(jù)作為測試集,以確保有足夠的數(shù)據(jù)點來測試模型。
探索性數(shù)據(jù)分析
在我們分割數(shù)據(jù)集之后,我們可以繼續(xù)探索訓(xùn)練數(shù)據(jù)。matplotlib和seaborn都有很好的繪圖工具,我們可以用來可視化。
讓我們首先創(chuàng)建一些單變量圖。為每個特征創(chuàng)建直方圖:
n_bins = 10 fig, axs = plt.subplots(2, 2) axs[0,0].hist(train['sepal_length'], bins = n_bins); axs[0,0].set_title('Sepal Length'); axs[0,1].hist(train['sepal_width'], bins = n_bins); axs[0,1].set_title('Sepal Width'); axs[1,0].hist(train['petal_length'], bins = n_bins); axs[1,0].set_title('Petal Length'); axs[1,1].hist(train['petal_width'], bins = n_bins); axs[1,1].set_title('Petal Width');# 添加一些間距 fig.tight_layout(pad=1.0);請注意,對于花瓣長度和花瓣寬度,似乎有一組數(shù)據(jù)點的值比其他數(shù)據(jù)點小,這表明此數(shù)據(jù)中可能存在不同的組。
接下來,讓我們嘗試一些箱線圖:
fig, axs = plt.subplots(2, 2) fn = ["sepal_length", "sepal_width", "petal_length", "petal_width"] cn = ['setosa', 'versicolor', 'virginica'] sns.boxplot(x = 'species', y = 'sepal_length', data = train, order = cn, ax = axs[0,0]); sns.boxplot(x = 'species', y = 'sepal_width', data = train, order = cn, ax = axs[0,1]); sns.boxplot(x = 'species', y = 'petal_length', data = train, order = cn, ax = axs[1,0]); sns.boxplot(x = 'species', y = 'petal_width', data = train, order = cn, ax = axs[1,1]); # 添加一些間距 fig.tight_layout(pad=1.0);底部的兩個圖表明我們前面看到的那組數(shù)據(jù)點是setosas。它們的花瓣尺寸比其他兩個物種更小,分布也更少。與其他兩個物種相比,versicolor的平均值比virginica 低。
小提琴圖是另一種可視化方式,它結(jié)合了直方圖和方框圖的優(yōu)點:
sns.violinplot(x="species", y="petal_length", data=train, size=5, order = cn, palette = 'colorblind');現(xiàn)在我們可以使用seaborn的pairplot函數(shù)繪制所有成對屬性的散點圖:
sns.pairplot(train, hue="species", height = 2, palette = 'colorblind');請注意,有些變量似乎高度相關(guān),例如花瓣長度和花瓣寬度。另外,花瓣的測量比萼片的分離更好。
接下來,我們制作一個相關(guān)矩陣來定量檢查變量之間的關(guān)系:
corrmat = train.corr() sns.heatmap(corrmat, annot = True, square = True);主要的結(jié)論是花瓣的大小有高度的正相關(guān),而萼片的測量是不相關(guān)的。注意花瓣特征與萼片長度也有較高的相關(guān)性,但與萼片寬度無關(guān)。
另一個很酷的可視化工具是 parallel coordinate plot,它將每一行表示為一條直線。
parallel_coordinates(train, "species", color = ['blue', 'red', 'green']);正如我們之前所見,花瓣的測量比萼片的能更好地區(qū)分物種。
構(gòu)建分類器
現(xiàn)在我們準(zhǔn)備建立一些分類器
為了讓我們的生活更輕松,讓我們把類標(biāo)簽和特征分開:
X_train = train[['sepal_length','sepal_width','petal_length','petal_width']] y_train = train.species X_test = test[['sepal_length','sepal_width','petal_length','petal_width']] y_test = test.species決策樹
我想到的第一個分類器是一個稱為決策樹。原因是我們可以看到分類規(guī)則,而且很容易解釋。
讓我們使用sklearn(文檔)構(gòu)建一個,最大深度為3,我們可以在測試數(shù)據(jù)上檢查它的準(zhǔn)確性:
mod_dt = DecisionTreeClassifier(max_depth = 3, random_state = 1) mod_dt.fit(X_train,y_train) prediction=mod_dt.predict(X_test) print(‘The accuracy of the Decision Tree is’,”{:.3f}”.format(metrics.accuracy_score(prediction,y_test)))-------------------------------------------------------------------- The accuracy of the Decision Tree is 0.983.決策樹正確預(yù)測了98.3%的測試數(shù)據(jù)。該模型的一個優(yōu)點是,你可以通過每個因子的feature-importances屬性來查看其特征重要性:
mod_dt.feature_importances_-------------------------------------------------------------------- array([0. , 0. , 0.42430866, 0.57569134])從輸出結(jié)果和基于四個特征的索引,我們知道前兩個特征(萼片度量)并不重要,只有花瓣特征被用來構(gòu)建這棵樹。
決策樹的另一個優(yōu)點是我們可以通過plot_tree可視化分類規(guī)則:
plt.figure(figsize = (10,8)) plot_tree(mod_dt, feature_names = fn, class_names = cn, filled = True);此樹中的分類規(guī)則(對于每個拆分,左->是,右->否)
除了每個規(guī)則(例如,第一個標(biāo)準(zhǔn)是花瓣寬度≤0.7),我們還可以看到每個拆分、指定類別等的基尼指數(shù)。請注意,除了底部的兩個“淺紫色”框外,所有終端節(jié)點都是純的。對于這兩類情況,表示沒有信心。
為了證明對新數(shù)據(jù)點進行分類是多么容易,假設(shè)一個新實例的花瓣長度為4.5cm,花瓣寬度為1.5cm,那么我們可以根據(jù)規(guī)則預(yù)測它是versicolor。
由于只使用花瓣特征,因此我們可以可視化決策邊界并以二維形式繪制測試數(shù)據(jù):
在60個數(shù)據(jù)點中,59個被正確分類。另一種顯示預(yù)測結(jié)果的方法是通過混淆矩陣:
disp = metrics.plot_confusion_matrix(mod_dt, X_test, y_test,display_labels=cn,cmap=plt.cm.Blues,normalize=None) disp.ax_.set_title('Decision Tree Confusion matrix, without normalization');通過這個矩陣,我們看到有一種花色,我們預(yù)測是virginica。
構(gòu)建一棵樹的一個缺點是它的不穩(wěn)定性,這可以通過諸如隨機森林、boosting等集成技術(shù)來改善。現(xiàn)在,讓我們繼續(xù)下一個模型。
高斯樸素貝葉斯分類器
最流行的分類模型之一是樸素貝葉斯。它包含了“Naive”一詞,因為它有一個關(guān)鍵的類條件獨立性假設(shè),這意味著給定的類,每個特征的值都被假定獨立于任何其他特征的值(請參閱此處)。
我們知道,這里顯然不是這樣,花瓣特征之間的高度相關(guān)性證明了這一點。讓我們用這個模型來檢查測試精度,看看這個假設(shè)是否可靠:
The accuracy of the Guassian Naive Bayes Classifier on test data is 0.933如果我們只使用花瓣特征,結(jié)果如何:
The accuracy of the Guassian Naive Bayes Classifier with 2 predictors on test data is 0.950有趣的是,僅使用兩個特征會導(dǎo)致更正確的分類點,這表明在使用所有特征時可能會過度擬合。看起來我們樸素貝葉斯分類器做得不錯。
線性判別分析
如果我們使用多元高斯分布來計算類條件密度,而不是使用一元高斯分布的乘積(在樸素貝葉斯中使用),我們將得到一個LDA模型。LDA的關(guān)鍵假設(shè)是類之間的協(xié)方差相等。我們可以使用所有特征和僅花瓣特征檢查測試精度:
The accuracy of the LDA Classifier on test data is 0.983 The accuracy of the LDA Classifier with two predictors on test data is 0.933使用所有特征可以提高我們的LDA模型的測試精度。
為了在二維可視化決策邊界,我們可以僅使用花瓣的LDA模型,并繪制測試數(shù)據(jù):
四個測試點被錯誤分類-三個virginica和一個versicolor。
現(xiàn)在假設(shè)我們要用這個模型對新的數(shù)據(jù)點進行分類,我們只需在圖上畫出點,然后根據(jù)它所屬的顏色區(qū)域進行預(yù)測。
二次判別分析
LDA和QDA的區(qū)別在于QDA不假設(shè)類間的協(xié)方差相等,它被稱為“二次型”,因為決策邊界是一個二次函數(shù)。
The accuracy of the QDA Classifier is 0.983 The accuracy of the QDA Classifier with two predictors is 0.967在所有特征的情況下,它與LDA具有相同的精度,并且僅使用花瓣時,它的性能稍好一些。
類似地,讓我們繪制QDA(只有花瓣的模型)的決策邊界:
KNN分類器
現(xiàn)在,讓我們換個角度,看看一個名為KNN的非參數(shù)模型。它是一個十分流行的模型,因為它相對簡單和易于實現(xiàn)。然而,我們需要意識到當(dāng)特征的數(shù)量變大時我們會受到維度詛咒。
讓我們用K的不同選擇繪制測試精度:
我們可以看到,當(dāng)K為3或在7到10之間時,精確度最高(約為0.965)。與以前的模型相比,分類新的數(shù)據(jù)點不那么直接,因為我們需要在四維空間中觀察它的K個最近的鄰居。
其他模型
我還研究了其他模型,如logistic回歸、支持向量機分類器等。
注意SVC(帶線性內(nèi)核)的測試精度達到了100%!
我們現(xiàn)在應(yīng)該很有信心,因為我們的大多數(shù)模型的準(zhǔn)確率都超過了95%。
下一步
以下是一些未來研究的想法:
對這些模型進行交叉驗證,并比較它們之間的平均精確度。
找到其他數(shù)據(jù)源,包括其他鳶尾屬物種及其萼片/花瓣測量值(如果可能,也包括其他屬性),并檢查新的分類精度。
制作一個交互式的web應(yīng)用程序,根據(jù)用戶輸入的測量值來預(yù)測物種。
結(jié)尾
我們研究了Iris數(shù)據(jù)集,然后使用sklearn構(gòu)建了一些流行的分類器。我們發(fā)現(xiàn)花瓣的測量值比萼片的測量值更有助于分類實例。此外,大多數(shù)模型的測試精度都在95%以上。
參考文獻
- Dua, D. and Graff, C. (2019). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.
- Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. (2013). An introduction to statistical learning : with applications in R. New York :Springer.
原文鏈接:https://towardsdatascience.com/exploring-classifiers-with-python-scikit-learn-iris-dataset-2bcb490d2e1b
歡迎關(guān)注磐創(chuàng)AI博客站: http://panchuang.net/
sklearn機器學(xué)習(xí)中文官方文檔: http://sklearn123.com/
歡迎關(guān)注磐創(chuàng)博客資源匯總站: http://docs.panchuang.net/
總結(jié)
以上是生活随笔為你收集整理的使用Scikit Learn的分类器探索Iris数据集的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SQL-(增)-插入操作
- 下一篇: 第四章 第四节 per_cpu