算法模型该如何解释?
生活随笔
收集整理的這篇文章主要介紹了
算法模型该如何解释?
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
最近時晴又發現了個煉丹神器Shapash,就迫不及待的要推薦給大家.這是個python的開源庫,可以讓煉丹師們在煉丹過程中理解自己為什么能練出"好"丹.相信諸位煉丹師和我一樣,不僅追求一個好的模型,同時也追究模型的可解釋性,廢話不多說,我們看看"太陽女神"如何解釋我們的模型吧.
Shapash
shapash適用于很多模型:Catboost,Xgboost,LightGBM,Sklearn Ensemble等.可以簡單的用pip進行安裝:
$pip install shapash我們用一個實際的例子來說明shapash的用法.我們先訓練一個回歸模型,用于預測房價.數據下載鏈接:https://www.kaggle.com/c/house-prices-advanced-regression-techniques
先用shapash讀入數據:
import pandas as pd from shapash.data.data_loader import data_loading # house_dict里面是特征名到特征含義的映射house_df, house_dict = data_loading('house_prices') y_df=house_df['SalePrice'].to_frame() X_df=house_df[house_df.columns.difference(['SalePrice'])]看下數據如下:
對類別特征進行編碼:
from category_encoders import OrdinalEncodercategorical_features = [col for col in X_df.columns if X_df[col].dtype == 'object'] encoder = OrdinalEncoder(cols=categorical_features).fit(X_df) X_df=encoder.transform(X_df)我們可以看到,所有特征都變成數值了:
找個任意的回歸模型訓練,這里我用隨機森林:
from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestRegressor Xtrain, Xtest, ytrain, ytest = train_test_split(X_df, y_df, train_size=0.75) reg = RandomForestRegressor(n_estimators=200, min_samples_leaf=2).fit(Xtrain,ytrain) #預估測試集 y_pred = pd.DataFrame(reg.predict(Xtest), columns=['pred'], index=Xtest.index)這里我們不探討該模型效果,直接看看如何用"太陽女神"解釋該模型:
from shapash.explainer.smart_explainer import SmartExplainer xpl = SmartExplainer(features_dict=house_dict) # Optional parameter xpl.compile(x=Xtest,model=reg,preprocessing=encoder,# Optional: use inverse_transform methody_pred=y_pred # Optional )然后使用一行代碼,就可以解釋模型了:
app = xpl.run_app()我們可以看到特征重要性:
已經特征多大程度影響預估:
當我們選擇特征重要性最低的特征時,可以發現該特征影響的樣本較少,影響值的范圍也小了很多(-2000~2000).
此外還有一些可視化的特性等待大家探索:
總結
以上是生活随笔為你收集整理的算法模型该如何解释?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从Deepwalk到Node2vec
- 下一篇: 向量召回 MIND多兴趣双塔模型