集成学习之sklearn中的xgboost基本用法 (转载)
轉載自:https://blog.csdn.net/qq_30868235/article/details/80370060
1.數據集
????? 數據集使用sklearn自帶的手寫數字識別數據集mnist,通過函數datasets導入。mnist共1797個樣本,8*8個特征,標簽為0~9十個數字。
### 載入數據
from sklearn import datasets # 載入數據集
digits = datasets.load_digits() # 載入mnist數據集
print(digits.data.shape) # 打印輸入空間維度
print(digits.target.shape) # 打印輸出空間維度
?
"""
(1797, 64)
(1797,)
"""
2.數據集分割
????? sklearn.model_selection中train_test_split函數劃分數據集,其中參數test_size為測試集所占的比例,random_state為隨機種子(為了能夠復現實驗結果而設定)。
### 數據分割
from sklearn.model_selection import train_test_split # 載入數據分割函數train_test_split
x_train,x_test,y_train,y_test = train_test_split(digits.data, # 特征空間
digits.target, # 輸出空間
test_size = 0.3, # 測試集占30%
random_state = 33) # 為了復現實驗,設置一個隨機數
?
3.模型相關(載入模型--訓練模型--模型預測)
????? XGBClassifier.fit()函數用于訓練模型,XGBClassifier.predict()函數為使用模型做預測。
### 模型相關
from xgboost import XGBClassifier
model = XGBClassifier() # 載入模型(模型命名為model)
model.fit(x_train,y_train) # 訓練模型(訓練集)
y_pred = model.predict(x_test) # 模型預測(測試集),y_pred為預測結果
4.性能評估
????? sklearn.metrics中accuracy_score函數用來判斷模型預測的準確度。
### 性能度量
from sklearn.metrics import accuracy_score # 準確率
accuracy = accuracy_score(y_test,y_pred)
print("accuarcy: %.2f%%" % (accuracy*100.0))
5.特征重要性
??????xgboost分析了特征的重要程度,通過函數plot_importance繪制圖片。
### 特征重要性
import matplotlib.pyplot as plt
from xgboost import plot_importance
fig,ax = plt.subplots(figsize=(10,15))
plot_importance(model,height=0.5,max_num_features=64,ax=ax)
plt.show()
6.完整代碼
### load module
from sklearn import datasets
from sklearn.model_selection import train_test_split
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score
### load datasets
digits = datasets.load_digits()
### data analysis
print(digits.data.shape) # 輸入空間維度
print(digits.target.shape) # 輸出空間維度
### data split
x_train,x_test,y_train,y_test = train_test_split(digits.data,
digits.target,
test_size = 0.3,
random_state = 33)
### fit model for train data
model = XGBClassifier()
model.fit(x_train,y_train)
### make prediction for test data
y_pred = model.predict(x_test)
### model evaluate
accuracy = accuracy_score(y_test,y_pred)
print("accuarcy: %.2f%%" % (accuracy*100.0))
"""
95.0%
"""
轉載于:https://www.cnblogs.com/xitingxie/p/11323114.html
總結
以上是生活随笔為你收集整理的集成学习之sklearn中的xgboost基本用法 (转载)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Spark 系列(一)—— Spark简
- 下一篇: JSP中的日期问题