當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

集成学习之sklearn中的xgboost基本用法 (转载）

發布時間：2024/9/5 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了集成学习之sklearn中的xgboost基本用法 (转载）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載自：https://blog.csdn.net/qq_30868235/article/details/80370060

1.數據集

????? 數據集使用sklearn自帶的手寫數字識別數據集mnist，通過函數datasets導入。mnist共1797個樣本，8*8個特征，標簽為0~9十個數字。

### 載入數據
from sklearn import datasets # 載入數據集
digits = datasets.load_digits() # 載入mnist數據集
print(digits.data.shape) # 打印輸入空間維度
print(digits.target.shape) # 打印輸出空間維度

"""
(1797, 64)
(1797,)
"""

2.數據集分割

????? sklearn.model_selection中train_test_split函數劃分數據集，其中參數test_size為測試集所占的比例，random_state為隨機種子（為了能夠復現實驗結果而設定）。

### 數據分割
from sklearn.model_selection import train_test_split # 載入數據分割函數train_test_split
x_train,x_test,y_train,y_test = train_test_split(digits.data, # 特征空間
digits.target, # 輸出空間
test_size = 0.3, # 測試集占30%
random_state = 33) # 為了復現實驗，設置一個隨機數

3.模型相關（載入模型--訓練模型--模型預測）

????? XGBClassifier.fit()函數用于訓練模型，XGBClassifier.predict()函數為使用模型做預測。

### 模型相關
from xgboost import XGBClassifier
model = XGBClassifier() # 載入模型（模型命名為model)
model.fit(x_train,y_train) # 訓練模型（訓練集）
y_pred = model.predict(x_test) # 模型預測（測試集），y_pred為預測結果

4.性能評估

????? sklearn.metrics中accuracy_score函數用來判斷模型預測的準確度。

### 性能度量

from sklearn.metrics import accuracy_score # 準確率
accuracy = accuracy_score(y_test,y_pred)
print("accuarcy: %.2f%%" % (accuracy*100.0))

5.特征重要性

??????xgboost分析了特征的重要程度，通過函數plot_importance繪制圖片。

### 特征重要性
import matplotlib.pyplot as plt
from xgboost import plot_importance
fig,ax = plt.subplots(figsize=(10,15))
plot_importance(model,height=0.5,max_num_features=64,ax=ax)
plt.show()

6.完整代碼

### load module
from sklearn import datasets
from sklearn.model_selection import train_test_split
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score

### load datasets
digits = datasets.load_digits()

### data analysis
print(digits.data.shape) # 輸入空間維度
print(digits.target.shape) # 輸出空間維度

### data split
x_train,x_test,y_train,y_test = train_test_split(digits.data,
digits.target,
test_size = 0.3,
random_state = 33)

### fit model for train data
model = XGBClassifier()
model.fit(x_train,y_train)

### make prediction for test data
y_pred = model.predict(x_test)

### model evaluate
accuracy = accuracy_score(y_test,y_pred)
print("accuarcy: %.2f%%" % (accuracy*100.0))
"""
95.0%
"""

轉載于:https://www.cnblogs.com/xitingxie/p/11323114.html

總結

以上是生活随笔為你收集整理的集成学习之sklearn中的xgboost基本用法 (转载）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Spark 系列（一）—— Spark简
下一篇： JSP中的日期问题