當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【sklearn学习】决策树、分类树、剪枝策略

發布時間：2023/12/15 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了【sklearn学习】决策树、分类树、剪枝策略小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

模塊sklarn.tree

sklearn中決策樹的類都在“tree”這個模塊之下，這個模塊總共包含五個類：

tree.DecisionTreeClassifier	分類樹
tree.DecisionTreeRegressor	回歸樹
tree.export_graphviz	將生成的決策樹導出為DOT格式
tree.ExtraTreeClassifier	高隨機版本的分類樹
tree.ExtraTreeRegressor	高隨機版本的回歸樹

分類樹對應的代碼

from sklearn import treeclf = tree.DecisionTreeClassifier() clf = clf.fit(X_train, y_train) result = clf.score(X_test, y_test)

DecisionTreeClassifier

重要參數

criterion

不純度越低，決策樹對訓練集的擬合越好

樹中的每個節點都會有一個不純度，子節點的不純度一定小于父節點的不純度

entropy 信息熵

gini 基尼系數

信息熵對不純度更加敏感，對不純度的懲罰最強，但在實際應用中，兩者效果基本相同。

criterion如何影響模型？

確定不純度的計算方法，找出最佳節點和最佳分枝，不純度越低，決策樹對訓練集的擬合越好。

決策樹的基本流程：

計算全部特征的不純度指標

選取不純度指標最優的特征來分枝

在第一個特征的分枝下，計算全部特征的不純度指標

選取不純度指標最優的特征繼續分枝

導入需要的算法庫和模塊

from sklearn import tree from sklearn.datasets import load_wine from sklearn.model_selection import train_test_split import pandas as pd pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target),axis=1]) Xtrain, Xtest, ytrain, ytest = train_test_split(wine.data,wine.target,test_size=0.3)clf = tree.DecisionTreeClassifier(criterion="entropy",random_state=1,splitter="random") clf = clf.fit(Xtrain, ytrain) score = clf.score(Xtest, ytest) import graphvizdot_data = tree.export_graphviz(clf, out_file=None, feature_names=wine.feature_names, class_names=wine.target_names, filled=True, # 填充顏色，表示特定的某個類別rounded=True, # 圓角框special_characters=True) graph = graphviz.Source(dot_data) graph clf.feature_importances_ [*zip(wine.feature_name,clf.feature_importances_)]

random：高緯度時隨機性會表現更明顯，低維度的數據，隨機性幾乎不會顯現

splitter=“random"(默認best)：分枝時會更加隨機，樹會更深，對訓練集的擬合將會降低。

為了讓決策樹有更好的泛化性，需要對決策樹進行剪枝。

max_depth

限制樹的最大深度，超過設定深度的樹枝全部剪掉

min_sample_leaf

min_samples_leaf限定一個節點在分枝后的每個子節點都必須包含至少min_samples_leaf個訓練樣本，否則，分枝就不會發生，或者按照每個子節點包含min_samples_leaf個樣本去分。

min_sample_split

min_samples_splits限定一個節點必須包含至少min_samples_splits個訓練樣本，這個節點才被允許分枝，否則，分枝就不會發生。

max_features

限制分枝時考慮的特征個數，超過限制個數的特征都會被舍棄

min_impurity_decrease

限制信息增益的大小，信息增益小于設定數值的分枝不會發生

確定最優的剪枝參數

import matplotlib.pyplot as plt test = [] for i in range(10):clf = tree.DecisionTreeClassifier(max_depth = i + 1)clf = clf.fit(Xtrain, ytrain)score = clf.score(Xtest, ytest)test.append(score) plt.plot(range(1,11),test,color="red",label="max_depth") plt.legend() plt.show()

目標權重參數

class_weight

完成樣本標簽平衡的參數，給少量的標簽更多的權重，模型向偏向少數類的方向建模

min_weight_fraction_leaf

基于權重的剪枝參數，用基于權重的預修剪標準優化樹結構，確保葉節點至少包含樣本權重的總和的一小部分。

重要屬性和接口

# apply返回每個測試樣本所在的葉子節點的索引 clf.apply(Xtest)# predict返回每個測試樣本的分類/回歸結果 clf.predict(Xtest)

總結

以上是生活随笔為你收集整理的【sklearn学习】决策树、分类树、剪枝策略的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：公积金账户密码怎么查
下一篇：【sklearn学习】随机森林分类、回归