【sklearn学习】决策树、分类树、剪枝策略
模塊sklarn.tree
sklearn中決策樹的類都在“tree”這個模塊之下,這個模塊總共包含五個類:
| tree.DecisionTreeClassifier | 分類樹 |
| tree.DecisionTreeRegressor | 回歸樹 |
| tree.export_graphviz | 將生成的決策樹導出為DOT格式 |
| tree.ExtraTreeClassifier | 高隨機版本的分類樹 |
| tree.ExtraTreeRegressor | 高隨機版本的回歸樹 |
分類樹對應的代碼
from sklearn import treeclf = tree.DecisionTreeClassifier() clf = clf.fit(X_train, y_train) result = clf.score(X_test, y_test)DecisionTreeClassifier
重要參數
criterion
不純度越低,決策樹對訓練集的擬合越好
樹中的每個節點都會有一個不純度,子節點的不純度一定小于父節點的不純度
entropy 信息熵
gini 基尼系數
信息熵對不純度更加敏感,對不純度的懲罰最強,但在實際應用中,兩者效果基本相同。
criterion如何影響模型?
確定不純度的計算方法,找出最佳節點和最佳分枝,不純度越低,決策樹對訓練集的擬合越好。
決策樹的基本流程:
導入需要的算法庫和模塊
from sklearn import tree from sklearn.datasets import load_wine from sklearn.model_selection import train_test_split import pandas as pd pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target),axis=1]) Xtrain, Xtest, ytrain, ytest = train_test_split(wine.data,wine.target,test_size=0.3)clf = tree.DecisionTreeClassifier(criterion="entropy",random_state=1,splitter="random") clf = clf.fit(Xtrain, ytrain) score = clf.score(Xtest, ytest) import graphvizdot_data = tree.export_graphviz(clf, out_file=None, feature_names=wine.feature_names, class_names=wine.target_names, filled=True, # 填充顏色,表示特定的某個類別rounded=True, # 圓角框special_characters=True) graph = graphviz.Source(dot_data) graph clf.feature_importances_ [*zip(wine.feature_name,clf.feature_importances_)]random:高緯度時隨機性會表現更明顯,低維度的數據,隨機性幾乎不會顯現
splitter=“random"(默認best):分枝時會更加隨機,樹會更深,對訓練集的擬合將會降低。
為了讓決策樹有更好的泛化性,需要對決策樹進行剪枝。
- max_depth
限制樹的最大深度,超過設定深度的樹枝全部剪掉
- min_sample_leaf
min_samples_leaf限定一個節點在分枝后的每個子節點都必須包含至少min_samples_leaf個訓練樣本,否則,分枝就不會發生,或者按照每個子節點包含min_samples_leaf個樣本去分。
- min_sample_split
min_samples_splits限定一個節點必須包含至少min_samples_splits個訓練樣本,這個節點才被允許分枝,否則,分枝就不會發生。
- max_features
限制分枝時考慮的特征個數,超過限制個數的特征都會被舍棄
- min_impurity_decrease
限制信息增益的大小,信息增益小于設定數值的分枝不會發生
確定最優的剪枝參數
import matplotlib.pyplot as plt test = [] for i in range(10):clf = tree.DecisionTreeClassifier(max_depth = i + 1)clf = clf.fit(Xtrain, ytrain)score = clf.score(Xtest, ytest)test.append(score) plt.plot(range(1,11),test,color="red",label="max_depth") plt.legend() plt.show()目標權重參數
- class_weight
完成樣本標簽平衡的參數,給少量的標簽更多的權重,模型向偏向少數類的方向建模
- min_weight_fraction_leaf
基于權重的剪枝參數,用基于權重的預修剪標準優化樹結構,確保葉節點至少包含樣本權重的總和的一小部分。
重要屬性和接口
# apply返回每個測試樣本所在的葉子節點的索引 clf.apply(Xtest)# predict返回每個測試樣本的分類/回歸結果 clf.predict(Xtest)總結
以上是生活随笔為你收集整理的【sklearn学习】决策树、分类树、剪枝策略的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 公积金账户密码怎么查
- 下一篇: 【sklearn学习】随机森林分类、回归