项目一 Part 4.2 基于网格搜索的超参数优化实战
【Kaggle】Telco Customer Churn 電信用戶流失預測案例
第四部分導讀
??在案例的第二、三部分中,我們詳細介紹了關于特征工程的各項技術,特征工程技術按照大類來分可以分為數據預處理、特征衍生、特征篩選三部分,其中特征預處理的目的是為了將數據集整理、清洗到可以建模的程度,具體技術包括缺失值處理、異常值處理、數據重編碼等,是建模之前必須對數據進行的處理和操作;而特征衍生和特征篩選則更像是一類優化手段,能夠幫助模型突破當前數據集建模的效果上界。并且我們在第二部分完整詳細的介紹機器學習可解釋性模型的訓練、優化和解釋方法,也就是邏輯回歸和決策樹模型。并且此前我們也一直以這兩種算法為主,來進行各個部分的模型測試。
??而第四部分,我們將開始介紹集成學習的訓練和優化的實戰技巧,盡管從可解釋性角度來說,集成學習的可解釋性并不如邏輯回歸和決策樹,但在大多數建模場景下,集成學習都將獲得一個更好的預測結果,這也是目前效果優先的建模場景下最常使用的算法。
??總的來說,本部分內容只有一個目標,那就是借助各類優化方法,抵達每個主流集成學習的效果上界。換而言之,本部分我們將圍繞單模優化策略展開詳細的探討,涉及到的具體集成學習包括隨機森林、XGBoost、LightGBM、和CatBoost等目前最主流的集成學習算法,而具體的優化策略則包括超參數優化器的使用、特征衍生和篩選方法的使用、單模型自融合方法的使用,這些優化方法也是截至目前,提升單模效果最前沿、最有效、同時也是最復雜的方法。其中有很多較為艱深的理論,也有很多是經驗之談,但無論如何,我們希望能夠圍繞當前數據集,讓每個集成學習算法優化到極限。值得注意的是,在這個過程中,我們會將此前介紹的特征衍生和特征篩選視作是一種模型優化方法,衍生和篩選的效果,一律以模型的最終結果來進行評定。而圍繞集成學習進行海量特征衍生和篩選,也才是特征衍生和篩選技術能發揮巨大價值的主戰場。
??而在抵達了單模的極限后,我們就會進入到下一階段,也就是模型融合階段。需要知道的是,只有單模的效果到達了極限,進一步的多模型融合、甚至多層融合,才是有意義的,才是有效果的。
Part 4.集成算法的訓練與優化技巧
# 基礎數據科學運算庫 import numpy as np import pandas as pd# 可視化庫 import seaborn as sns import matplotlib.pyplot as plt# 時間模塊 import timeimport warnings warnings.filterwarnings('ignore')# sklearn庫 # 數據預處理 from sklearn import preprocessing from sklearn.compose import ColumnTransformer from sklearn.preprocessing import OrdinalEncoder from sklearn.preprocessing import OneHotEncoder# 實用函數 from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score, roc_auc_score from sklearn.model_selection import train_test_split# 常用評估器 from sklearn.pipeline import make_pipeline from sklearn.linear_model import LogisticRegression from sklearn import tree from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier# 網格搜索 from sklearn.model_selection import GridSearchCV# 自定義評估器支持模塊 from sklearn.base import BaseEstimator, TransformerMixin# 自定義模塊 from telcoFunc import * # 導入特征衍生模塊 import features_creation as fc from features_creation import *# re模塊相關 import inspect, re# 其他模塊 from tqdm import tqdm import gc??然后執行Part 1中的數據清洗相關工作:
# 讀取數據 tcc = pd.read_csv('WA_Fn-UseC_-Telco-Customer-Churn.csv')# 標注連續/離散字段 # 離散字段 category_cols = ['gender', 'SeniorCitizen', 'Partner', 'Dependents','PhoneService', 'MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling','PaymentMethod']# 連續字段 numeric_cols = ['tenure', 'MonthlyCharges', 'TotalCharges']# 標簽 target = 'Churn'# ID列 ID_col = 'customerID'# 驗證是否劃分能完全 assert len(category_cols) + len(numeric_cols) + 2 == tcc.shape[1]# 連續字段轉化 tcc['TotalCharges']= tcc['TotalCharges'].apply(lambda x: x if x!= ' ' else np.nan).astype(float) tcc['MonthlyCharges'] = tcc['MonthlyCharges'].astype(float)# 缺失值填補 tcc['TotalCharges'] = tcc['TotalCharges'].fillna(0)# 標簽值手動轉化 tcc['Churn'].replace(to_replace='Yes', value=1, inplace=True) tcc['Churn'].replace(to_replace='No', value=0, inplace=True)features = tcc.drop(columns=[ID_col, target]).copy() labels = tcc['Churn'].copy()??同時,創建自然編碼后的數據集以及經過時序特征衍生的數據集:
# 劃分訓練集和測試集 train, test = train_test_split(tcc, random_state=22)X_train = train.drop(columns=[ID_col, target]).copy() X_test = test.drop(columns=[ID_col, target]).copy()y_train = train['Churn'].copy() y_test = test['Churn'].copy()X_train_seq = pd.DataFrame() X_test_seq = pd.DataFrame()# 年份衍生 X_train_seq['tenure_year'] = ((72 - X_train['tenure']) // 12) + 2014 X_test_seq['tenure_year'] = ((72 - X_test['tenure']) // 12) + 2014# 月份衍生 X_train_seq['tenure_month'] = (72 - X_train['tenure']) % 12 + 1 X_test_seq['tenure_month'] = (72 - X_test['tenure']) % 12 + 1# 季度衍生 X_train_seq['tenure_quarter'] = ((X_train_seq['tenure_month']-1) // 3) + 1 X_test_seq['tenure_quarter'] = ((X_test_seq['tenure_month']-1) // 3) + 1# 獨熱編碼 enc = preprocessing.OneHotEncoder() enc.fit(X_train_seq)seq_new = list(X_train_seq.columns)# 創建帶有列名稱的獨熱編碼之后的df X_train_seq = pd.DataFrame(enc.transform(X_train_seq).toarray(), columns = cate_colName(enc, seq_new, drop=None))X_test_seq = pd.DataFrame(enc.transform(X_test_seq).toarray(), columns = cate_colName(enc, seq_new, drop=None))# 調整index X_train_seq.index = X_train.index X_test_seq.index = X_test.indexord_enc = OrdinalEncoder() ord_enc.fit(X_train[category_cols])X_train_OE = pd.DataFrame(ord_enc.transform(X_train[category_cols]), columns=category_cols) X_train_OE.index = X_train.index X_train_OE = pd.concat([X_train_OE, X_train[numeric_cols]], axis=1)X_test_OE = pd.DataFrame(ord_enc.transform(X_test[category_cols]), columns=category_cols) X_test_OE.index = X_test.index X_test_OE = pd.concat([X_test_OE, X_test[numeric_cols]], axis=1)Ch.2 基于網格搜索的超參數優化實戰
??在完成了特征衍生與初步篩選后,接下來就將進入到模型訓練與優化的階段了,正如此前所說,對特征的更精確的篩選其本質也可以看成是一種優化方法。不過需要注意的是,一般在特征初篩結束后,我們都將圍繞當前篩選出來的特征嘗試進行模型訓練,若模型能夠有效的挖掘出當前特征池的全部信息,且計算量在可以承受的范圍內,則無需進一步進行特征精篩;但如果模型無法有效挖掘當前海量特征的全部信息,甚至是出現了加入新特征的模型效果反而不如只帶入原始特征的模型的情況,則需要考慮進一步圍繞特征進行更加精確的搜索,以提高模型效果。
??而要如何才能測試模型能否“消化”當前海量特征池的全部信息呢?很明顯,只靠此前介紹的可解釋型模型(邏輯回歸和決策樹模型)肯定是遠遠不夠的,這里我們將采用可解釋型更弱、但更能從海量特征池中提取有效信息的集成學習進行建模。并且也將采用模型融合的策略,以進一步提升模型效果和從海量特征中提取有效信息的能力。集成學習+模型融合,這也是效果優先的機器學習建模必然會采用的策略。
??本節我們先聚焦如何訓練并優化好一個集成學習算法,再考慮帶入衍生特征后模型的優化方法。這里需要注意,少量特征和海量特征在優化策略方面也會有較大的差別,我們將逐步深入進行介紹。
- 隨機森林+網格搜索策略
??不過不同于邏輯回歸和決策樹模型,集成學習的超參數設置與優化會更加復雜。一般來說不同優化器會適用于不同集成算法的超參數空間。關于集成學習的基本原理、超參數解釋以及各類不同優化器的基本原理,在此前的課程中都有詳細介紹,本節作為實戰階段的內容,將更加注重介紹優化器的實戰使用技巧。本節我們將首先介紹一個最基礎、但同時也是效果非常好的一套集成學習建模+優化策略,即隨機森林模型+網格搜索優化器。
??隨機森林作為Bagging算法中的集大成者,一直以來都是建模效果最好、適用面最廣的集成學習之一,哪怕是在XGBoost、LightGBM和CatBoost這些后起之秀面前,RF也毫不遜色,在很多情況下,RF也是值得甚至是必須嘗試的模型。同時,在多模型融合、甚至是多層多模型融合當道的今天,學會針對第一梯隊的全部集成學習算法進行訓練和調優,就成了所有算法工作人員的必修課。因此本節我們將先從RF開始,介紹集成學習超參數搜索與優化技巧。
- 網格搜索優化器
??而具體到要使用哪種優化器對隨機森林進行超參數調優,一般來說肯定是首選網格搜索。其一是因為隨機森林的超參數幾乎全部都是離散變量,網格搜索完全能夠勝任;其二則是這套策略從建模到調優,都可以借助sklearn來完成,無需額外的數據格式轉化,同時模型評估器和超參數評估器接口一致,調用起來也會非常方便。當然,對于網格搜索評估器來說,不僅可以應用于隨機森林,同時也可以其他很多集成學習的優化,甚至在當下,不同優化器匹配不同集成學習,都成了模型融合提升效果的一種手段??偠灾?#xff0c;數量使用網格搜索進行超參數優化,也是算法工作人員的必修課。
- sklearn中網格搜索評估器
??目前來說sklearn中超參數優化器有四種,分別是GridSearchCV(網格搜索)、RandomizedSearchCV(隨機網格搜索)、HalvingSearchCV(對半網格搜索)和HalvingRandomizedSearchCV(對半隨機網格搜索)。其中網格搜索是通過枚舉搜索出一組最優超參數,枚舉的精度最高但效率最低,也就是網格搜索其實是精度最高的搜索算法,但往往伴隨著巨大的計算量;而加入了隨機網格搜索,則是隨機選取了原始參數空間的子空間,然后在這個子空間內進行枚舉,盡管還是枚舉,但由于參數空間的縮小,計算量也會隨之減少,并且伴隨著這個參數子空間不斷擴大(可人工修改參數),隨機網格搜索的計算量和精度都將逼近網格搜索,簡而言之隨機網格搜索是一種犧牲精度換效率的搜索方式;相比隨機網格搜索,對半網格搜索采用了類似錦標賽的篩選機制進行多輪的參數搜索,每一輪輸入原始數據一部分數據進行模型訓練,并且剔除一半的備選超參數。由于每一輪都只輸入了一部分數據,因此不同備選超參數組的評估可能存在一定的誤差,但由于每一輪都只剔除一半的超參數組而不是直接選出最優的超參數組,因此也擁有一定的容錯性。不難發現,這個過程也像極了RFE過程——每一輪用一個精度不是最高的模型剔除一個最不重要的特征,即保證了執行效率、同時又保證了執行精度。
??如果從一個宏觀視角來看,隨機網格搜索是通過減少備選參數組來減少計算量,而對半網格搜索則是減少帶入的數據量,來減少計算量。二者其實都能一定程度提升超參數的搜索效率,但也存在損失精度的風險。當然,如果還想更進一步提高搜索效率,則可以考慮對半搜索和隨機搜索的組合——對半隨機網格搜索,這種搜索策略實際上就是對半搜索的思路+隨機網格搜索的超參數空間,即在一個超參數子空間內進行多輪篩選,每一輪剔除一半的備選超參數組。這種方法的搜索效率是最高的,但同時精度也相對較差。
??因此,到底選擇哪種優化器,實際上還是一個效率和效果平衡的問題。一般來說,首先方案肯定是采用網格搜索進行超參數優化,但不建議設置太大的超參數搜索空間,而是配合人工經驗每次設置一個相對較小的參數空間,然后逐步調整、甚至是分參數分批進行搜索,以提高整個搜索效率;而只有當單獨一組超參數的訓練都非常耗時時,才會考慮使用其他兩種超參數搜索方法。
若要深究隨機網格搜索和對半網格搜索哪個誤差更大,則要看情況而定。簡單來說,如果超參數空間內,最優超參數組附近存在多個且效果和最優超參數組相近的次優超參數組,則隨機網格搜索效果會更好,因為在隨機抽樣時很有可能抽中次優超參數組;但如果最優超參數組的效果比次優超參數組效果好很多,則對半網格搜索效果會更好,因為此時最優超參數組因為效果拔群,所以哪怕是少量樣本,也會更容易脫穎而出。
??本節我們就將圍繞當前數據集來進行網格搜索評估器的實戰演練,并通過這個過程快速獲取參數設置與超參數搜索的經驗,如何用好網格搜索評估器進行參數調優,也是所有模型訓練進階的必修課。
- 原始數據不調參
??在進行超參數搜索調參之前,我們先簡單測試不進行調優時的模型訓練結果:
from sklearn.ensemble import RandomForestClassifier start = time.time() RF = RandomForestClassifier(n_jobs=15, random_state=12).fit(X_train_OE, y_train) print(time.time()-start) #0.12277936935424805 RF.score(X_train_OE, y_train), RF.score(X_test_OE, y_test) #(0.9977281332828474, 0.7756956274843839) RF.n_estimators #100能夠發現,在不進行超參數優化時,模型存在明顯的過擬合傾向,當然這也是很多集成算法在應對簡單數據集時會表現出的一般狀況。同時單獨模型在小量樣本下訓練速度較快,在構建100棵樹的情況下僅用時0.12s。當然,我們也可以進一步查看當前模型對特征的利用率:
RF.feature_importances_ # array([0.02812245, 0.01974651, 0.02421983, 0.01963431, 0.00603235, # 0.0223819 , 0.02811445, 0.05395741, 0.02698412, 0.02560977, # 0.04127569, 0.01718816, 0.01773947, 0.07040168, 0.02639826, # 0.05104428, 0.15185081, 0.17836349, 0.19093506]) (RF.feature_importances_ == 0).sum() #0能夠看到,此時并不存在特征重要性為0的特征,即模型在訓練過程中用到了全部19個特征,模型利用率比單獨樹模型更高。當然我們也可以從模型的其他參數觀察模型的特征利用效率,在不調參的情況下,隨機森林的max_features(每棵樹分配到的最多特征)為auto,即特征總數開二次方,即4-5個特征,而總共建了100棵樹,每棵樹又沒有剪枝,自然在極大概率情況下每個特征都會被用到:
RF.max_features #'auto' np.sqrt(19) #4.358898943540674注意這幾個參數,后面將圍繞這幾個參數來估計模型調參時的運行時間及模型對特征的利用效率。
一、網格搜索調參實戰技巧
??接下來我們嘗試進行網格搜索調參,并在這個過程中介紹網格搜索調參的實戰技巧。
1.確定調優參數
??首先肯定是要先確定調哪些參數,也就是需要確定模型的參數空間的維度。隨機森林參數眾多,但不是每個參數都對模型結果有影響,并且有些參數彼此之間是存在關聯關系的,調整其中一個或者幾個即可,帶入太多無關參數會使得參數空間過大、極大程度影響搜索效率。這里回顧隨機森林參數如下:
| n_estimators | 決策樹模型個數 |
| criterion | 規則評估指標或損失函數,默認基尼系數,可選信息熵 |
| splitter | 樹模型生長方式,默認以損失函數取值減少最快方式生長,可選隨機根據某條件進行劃分 |
| max_depth | 樹的最大生長深度,類似max_iter,即總共迭代幾次 |
| min_samples_split | 內部節點再劃分所需最小樣本數 |
| min_samples_leaf | 葉節點包含最少樣本數 |
| min_weight_fraction_leaf | 葉節點所需最小權重和 |
| max_features | 在進行切分時候最多帶入多少個特征進行劃分規則挑選 |
| random_state | 隨機數種子 |
| max_leaf_nodes | 葉節點最大個數 |
| min_impurity_decrease | 數據集再劃分至少需要降低的損失值 |
| bootstrap | 是否進行自助抽樣 |
| oob_score | 是否輸出袋外數據的測試結果 |
| min_impurity_split | 數據集再劃分所需最低不純度,將在0.25版本中移除 |
| class_weight | 各類樣本權重 |
| ccp_alpha | 決策樹限制剪枝參數,相當于風險項系數 |
| max_samples | 進行自助抽樣時每棵樹分到的樣本量 |
??隨機森林的參數整體可以分為兩個大類,其一是單獨一顆樹的剪枝參數,包括splitter、max_depth、min_samples_split、min_samples_leaf、min_weight_fraction_leaf、max_leaf_nodes、min_impurity_decrease、ccp_alpha等,從樹模型的理論上來看,這些參數統一可以由ccp_alpha一個參數代替,但隨機森林是由多棵樹構成,我們無法單獨針對每棵樹設置一個ccp_alpha,并且由于sklearn的決策樹計算流程和CART樹的原理存在一定差異,因此ccp_alpha參數實際剪枝效果并不明顯。在單獨決策樹的剪枝參數中,核心參數有以下四個,分別是min_samples_leaf、min_samples_split、max_leaf_nodes和max_depth,這四個參數的組合效果基本就能夠完全決定單獨一個決策樹的剪枝結果,若有余力,可考慮圍繞剩余參數進行搜索。
決策樹的其他參數優化效果并不顯著,另一個原因也是因為其他參數都是連續型變量,而網格搜索對連續型變量的最優值搜索效果并不好,而且通過枚舉的方法搜索連續變量也將耗費非常大的計算量。
??而第二類參數則是隨機森林的集成類參數,包括n_estimators、bootstrap、max_features、max_samples、oob_score等,對于隨機森林來說,自助抽抽樣是提升Bagging效果的重要手段,因此bootstrap需要設置為True,并且max_samples需要參與搜索,而由于網格搜索中并不會用到oob_score,因此該參數可以設置為False。而在其他參數中,n_estimators和max_features兩個參數也是影響模型效果的重要參數,需要進行搜索。
此外需要注意的是,如果樣本偏態非常明顯,并且最終模型是以Recall或者F1-Score作為評估指標,則可以考慮帶入class_weight進行搜索。
另外,關于隨機數種子random_state,一般來說對于大樣本而言,影響并不明顯,而如果是小樣本,則會有一定程度影響。Telco數據集是相對較小的數據集,但并不建議對random_state進行搜索,其一是random_state其實是一個無限的搜索空間、并且沒有任何取值規律可言,最重要的一點,在下一小節我們將介紹關于模型“自融合”的方法,通過該方法輸出的模型融合結果,也將極大程度減少random_state對最終預測結果的影響。
??總結一下,針對當前數據集,我們需要圍繞就min_samples_leaf、min_samples_split、max_leaf_nodes、max_depth、max_samples、n_estimators、max_features七個參數進行搜索調優。
2.設計參數空間時面臨的“舍罕王賞麥”問題
??“傳說國際象棋的發明者是古印度的西薩·班·達依爾。那時的國王是舍罕,世人稱為舍罕王。國王想獎勵他便問宰相需要得到什么賞賜。宰相開口說道:“請您在棋盤的第一個格子上放1粒麥子,第二個格子上放2粒,第三個格子上放4粒,第四個格子放8粒…即每一個次序在后的格子上放的麥粒必須是前一個格子麥粒數的倍數,直到最后一個格子即第64格放滿為止,這樣我就十分滿足了。”國王哈哈大笑,慷慨地答應了宰相的這個謙卑的請求。這位聰明的宰相到底要求的是多少麥粒呢?” --《舍罕王賞麥》
按照這個指數級增長的結果,宰相的要求實際上是264?12^{64}-1264?1粒大米,相當于當時全世界在2000年內所產小麥的總和。
??在確定了要調優哪些參數后,接下來就需要確定每個參數的搜索空間了,這一步也是直接關系到參數搜索效率的關鍵步驟。首先我們需要對參數搜索需要耗費的時間有基本的判斷,才好進行進一步搜索策略的制定,否則極容易出現“仿佛永遠等不到搜索停止”的情況出現。
??首先需要明確的是,參數空間內總備選參數組合的數量為各參數取值之積,且隨著參數空間內每個參數取值增加而呈現指數級上升,且隨著參數空間內參數維度增加(增加新的超參數)呈指數級上升,且二者呈現疊加效應。例如現有參數空間如下:
則備選的參數組合有2?2=42*2=42?2=4個。而此時如果調整"min_samples_leaf": range(1, 4),則備選參數組合就變成了2?3=62*3=62?3=6個,也就是說,"min_samples_leaf"參數搜索范圍增加1,造成的搜索次數增加了兩次,而非一次。
# 參數空間有6個備選參數組合 parameter_space1 = {"min_samples_leaf": range(1, 4),"min_samples_split": range(1, 3)}并且,如果我們新增一個超參數維度"max_depth": range(1, 4),則目前總共的備選參數組合就達到了2?3?3=182*3*3=182?3?3=18個,也就是說,增加"min_samples_split"3個數值,造成的搜索次數增加了18-6=12次,而非3次:
# 參數空間有18個備選參數組合 parameter_space2 = {"min_samples_leaf": range(1, 4),"min_samples_split": range(1, 3), "max_depth": range(1, 4)}??當然,這種指數級的變化在少量數據情況下可能無法看出“真正的威力”,但如果參數稍微多些或計算過程稍微復雜些,例如假設parameter_space1搜索任務耗時5分鐘,而在只增加了一個參數及3個不同取值的情況下,parameter_space2就將耗費15分鐘。而如果更復雜些,不是5*3=15分鐘,而是15*3=45分鐘呢,甚至是1小時*3=3小時呢,參數空間的略微擴大就可能造成搜索時間的指數級增加。
此外,在進行網格搜索時,每一次建模背后還存在5折交叉驗證,也就是需要訓練5次模型,而每一次隨機森林的建模,都伴隨著幾十個甚至是上百個決策樹模型訓練,背后的計算量可想而知。
??介于此,在參數空間設計時就會有這樣一個核心問題,那就是參數空間設置小了不確定最優參數是否在這個空間內,參數空間設置大了又不確定何時能算完。這也就是所謂的參數空間設計時面臨的“舍罕王賞麥”問題。
舍罕王賞麥后續:國王哪有這么多麥子呢?他的一句慷慨之言,成了他欠宰相西薩·班·達依爾的一筆永遠也無法還清的債。正當國王一籌莫展之際,王太子的數學老師知道了這件事,他笑著對國王說:“陛下,這個問題很簡單啊,就像1+1=2一樣容易,您怎么會被它難倒?”國王大怒:“難道你要我把全世界所有的小麥都給他?”年輕的教師說:“沒有必要啊,陛下,其實,您只要讓宰相大人到糧倉去,自己數出那些麥子就可以了,假如宰相大人一秒鐘數一粒,數完所有的麥子所需要的時間,大約是5800億年,就算宰相大人日夜不停地數,數到他魂歸極樂,也只是數出那些麥粒中極小的一部分,這樣的話,就不是陛下無法支付賞賜,而是宰相大人自己沒有能力取走賞賜。”國王恍然大悟,當下就召來宰相,將教師的方法告訴了他。西薩·班·達依爾沉思片刻后笑道:“陛下啊,您的智慧超過了我,那些賞賜,我也只好不要了!”
3.超參數搜索的“凸函數”假設
??如何解決這個問題,最好的解決方案是“小步迭代、快速調整”。在介紹這種方案之前,要先介紹在超參數調優時大家都會默認的一個假設,那就是超參數的取值和模型效果往往呈現嚴格“凸函數”的特性,例如假設參數"min_samples_leaf"在取值為5時模型效果最好,那么在參數取值為1、2、3、4時,模型效果是依次遞增的,而如果參數取值為6、7、8,則模型效果是依次遞減的,因此如果我們設計的該參數的搜索空間是"min_samples_leaf": range(6, 9),參數在6、7、8之間取值,則最優結果將會是min_samples_leaf=6,即預設的參數空間的下屆,此時我們就需要進一步的移動參數空間,例如改為"min_samples_leaf": range(5, 8),即讓參數在5、6、7之間取值,很明顯,最終輸出的挑選結果將會是min_samples_leaf=5,但此時仍然是搜索空間的下屆,因此我們還需要進一步移動搜索空間,即移動至"min_samples_leaf": range(4, 7),即讓參數在4、5、6之間取值,此時輸出的最優結果將會是min_samples_leaf=5,此時就無需再移動超參數空間了,因為此時的參數空間已經包括了“凸函數”的最小值點,再往左邊移動沒有任何意義,這個過程如下圖所示:
對于單個參數來說,如果呈現出搜索空間包含了最優值點(或者最優值點不在搜索空間的邊界上)時,則判斷已經找到了最優超參數。
如果超參數的取值不僅是數值,而是數值和其他類型對象混合的情況,則其他類型對象需要單獨作為一個備選項參與搜索。
??對于單個變量是如此,對于多個變量來說也是如此,若最終超參數搜索結果呈以下狀態,則說明我們已經找到了一組最優超參數組:
當然,這種“凸函數假設”其實并沒有充份嚴謹的理論依據,更多的是人們長期實踐總結出來的結論。
4.小步前進,快速調整
??接下來我們來看如何通過“小步迭代快速調整”的方法來進行超參數的搜索。在這個策略里,我們每次需要設置一個相對較小的參數搜索空間,然后快速執行一次超參數搜索,并根據超參數搜索結果來調整參數空間,并進行更進一步的超參數搜索,如此往復,直到參數空間內包含了全部參數的最優解為止。就像此前舉例的那樣,我們不會給"min_samples_leaf"一次設置一個非常大的參數搜索范圍(如[1,9]),而是每次設置一個更小的搜索范圍,通過不斷調整這個范圍來定位最優解。
??既然要反復執行搜索任務,就必然需要一定程度控制單次搜索任務所需要的時間。當然,單次搜索的時間會和CPU、數據量、參數空間大小有關,但一般來說,對于小樣本,單次搜索任務最好控制在5-30min內,而對于海量樣本,最好也控制在30min-2H內,特殊情況可以適當放寬單次搜索任務的時間。
??不過無論單次搜索任務耗時或長或短,我們都需要首先有個大概的預判,即本次搜索需要多久,方便我們確定“下次回來看結果”的時間。這里我們以Telco原始數據集為例,來簡單測試單次搜索任務需要的時間。這里我們先測試最短單次搜索需要耗費的時間,由于我們需要讓每個最優參數落在某個區間的中間,因此每個超參數的取值范圍區間至少包含三個數值,例如"min_samples_leaf": range(4, 7)、該參數本次搜索至少有三個備選值,此外,如果有些參數包含非數值型參數,則需要在數值參數區間基礎上再加上一個非數值型參數,例如"max_samples":[None, 0.6, 0.5, 0.4]。
5.首次搜索時超參數取值范圍的經驗依據
??接下來介紹首次搜索時超參數取值范圍的經驗依據,也就是在第一次設置超參數搜索空間時,隨機森林模型推薦的超參數取值范圍。我們知道,從理論上來說,每個超參數都有可能有非常多個備選的取值,例如min_samples_leaf,就可以在1到樣本總數之間取任意值,但實際上根據長期模型優化的結果來看,大多數情況下min_samples_leaf的最優取值都是在2到10之間,因此min_samples_leaf的初始三個取值可以設置為range(1, 10, 3),也就是[1, 4, 7]。
list(range(1, 10, 3)) #[1, 4, 7]并且在這次搜索過程中,如果出現最優取值為4,則說明最優取值在4附近,下一輪就可以設置為[3, 4, 5],進一步確定最優取值。類似的情況還有min_samples_split。而max_depth的取值范圍一般在5到20之間,超過20層的樹往往都是過擬合的模型,而如果本身數據量較小,max_depth的最優取值一般不會超過15,因此max_depth的初始搜索范圍可以設置為range(5, 16, 5),即[5, 10, 15]。
list(range(5, 16, 5)) #[5, 10, 15]而max_features的參數范圍設置會跟樣本特征數量有關。我們知道,在默認情況下max_features=‘auto’,假設樣本總共有m個特征,每個決策樹將分配m\sqrt{m}m?個特征,max_features備選參數為log2,即每個決策樹將分配log2mlog_2{m}log2?m個特征。一般來說max_features的最優解會落在[log2mlog_2{m}log2?m*50%,m\sqrt{m}m?*150%]范圍內,假設現在有100個特征,則max_features的最優值經驗范圍為:
np.log2(100) * 0.5 #3.321928094887362 np.sqrt(100) * 1.5 #15.0即[3, 15]之間,但需要注意的是,除了搜索具體的數值外,還需要加上sqrt和log2兩個參數,因此,對于一個包含了100個特征的數據集來說,我們可以設置如下max_features初始參數搜索范圍:
['sqrt', 'log2'] + list(range(3, 15, 3)) #['sqrt', 'log2', 3, 6, 9, 12]對于隨機森林來說,max_features參數也可以設置為0到1之間的浮點數,此時就是按比例設置帶入特征。出于更精準的角度考慮,最好是搜索到帶入多少個特征,而不是帶入百分之多少特征。另外,百分比實際上也是連續變量,正如此前所說,對連續變量進行網格搜索,也會產生較大誤差。
??接下來是n_estimators,樹模型總數,這是一個變動很大的參數,總的來說會和特征彼此之間的相似程度有關,特征彼此之間相似度越高、n_estimators取值就越小,反之n_estimators取值就越大,當然n_estimators也會一定程度受到樣本數量影響。但綜合來看,n_estimators基本是在10到200之間取值,如果樣本數量較少(例如樣本數量不足1萬條),則n_estimators會在10到150之間取值。本數據集實際上屬于樣本數量較少的數據集,因此n_estimators基本會在10到150之間取值,我們可以設置如下初步搜索范圍:
list(range(10, 160, 70)) #[10, 80, 150]對于最優值高度不確定的超參數,我們往往會設置一個較大的初始搜索超參數空間,但代價就是往往可能需要更多輪的搜索才能確定最優超參數。
??接下來是max_leaf_nodes,該參數默認情況下為None,也就是不限制葉節點個數,該參數會受到樹深度、每棵樹接受到的數據量有關,一般來說max_leaf_nodes的數值往往在20到100之間,而對于小樣本數據集,max_leaf_nodes初始范圍建議設置在20到70之間:
[None] + list(range(20, 70, 20)) #[None, 20, 40, 60]??max_samples的默認參數同樣也是None,即每棵決策樹都接受和原始樣本數量相同的樣本量,和max_features一樣,max_samples也支持輸入整數對象和浮點數對象,輸入整數對象時表示具體帶入多少條數據,而輸入浮點數對象時,則表示每棵樹接收樣本數量占總樣本比例。對于大部分模型來說,將max_samples調到0.5以下(也就是輸入50%的樣本)才會有模型提升效果,因此初始情況下建議設置如下參數組:
[None, 0.4, 0.5, 0.6] #[None, 0.4, 0.5, 0.6]先確定一個大概的最優比例,然后再搜索具體帶入多少條樣本的樣本數。例如假設總共是100條樣本,第一輪搜索結果是max_samples=0.4,則接下來可以繼續搜索[35, 40, 45],進一步縮小范圍,并最終搜索到一個更加精準的數值。
??總結一下,隨機森林需要搜索的7個參數及其第一輪搜索時建議的參數空間如下:
| min_samples_leaf | [1, 4, 7]; range(1, 10, 3) |
| min_samples_split | [1, 4, 7]; range(1, 10, 3) |
| max_depth | [5, 10, 15]; range(5, 16, 5) |
| max_leaf_nodes | [None, 20, 40, 60]; [None] + list(range(20, 70, 20)) |
| n_estimators | [10, 80, 150]; range(10, 160, 70) |
| max_features | [‘sqrt’, ‘log2’] +[log2(m)log_2{(m)}log2?(m)*50%,m\sqrt{m}m?*150%] 其中m為特征數量 |
| max_samples | [None, 0.4, 0.5, 0.6] |
??在設置了初始參數后,接下來就是一輪輪搜索與調整了,我們需要大致掌握每一次搜索任務所需要耗費的時間,然后在每次搜索任務結束時及時回到電腦前,準備設置調整參數空間并進行下一次搜索。
6.超參數之間的交叉影響
??并且需要注意的是,在進行超參數搜索時,超參數彼此之間是存在交叉影響的,因此如果某次搜索只帶入了部分參數進行搜索,那么如果后續增加了其他參數,則再次搜索時這些超參數的最優值也會發生變化。例如某次搜索超參數A在[1,2,3]中取值,找到了最優值A=2,現在如果繼續加入超參數B,同時搜索A在[1,2,3]和B在[2,3,4]中最優取值組合,則極有可能出現A的最優取值變成了A=3,此時就要移動A的取值范圍了(最優值落在了邊界上),接下來如果繼續加入超參數C、超參數D、超參數E等,每次加入一個都需要重新搜索一次,這個過程就會變得非常麻煩。當然,需要注意的是,如果只有A和B兩個超參數,那么確實可以先搜索A、再搜索B,因為在兩個超參數的情況下,二者相互影響有限,單獨圍繞A搜索出來的最優值2,在加入超參數B之后,A的最優值極有可能仍然在2附近變動,此時我們可以以2為中心設置搜索范圍,之前搜索出來的A=2的最優值結果,在同時搜索A和B時仍然具有參考價值。但如果后續加入了C、D、E等更多的超參數,由于超參數彼此之間相互影響也會呈現指數級變動,因此極有可能后續A的取值會偏離2較遠,有可能會變成10、20甚至是30,此時反觀最開始搜索出來的A=2的最優值,對后續A的搜索過程就變得毫無價值了。
??因此,受此啟發,一般來說如果超參數個數較多,則可以分兩批、甚至是分三批進行搜索,例如有A、B、C、D、E五個超參數時,可以先搜索A、B、C,在搜索出一組最優值后,再以此為中心創建搜索空間并加入新的D、E兩個參數,設置各自對應的搜索空間,并進行第二批搜索?;具^程如下:
總之,最終一定要得到一個全部超參數每個最優點都在給定區間范圍內的結果。
??此外,正如此前所說,如果算力有限或者經過嘗試發現以此搜索任務耗費時間過長,則可以將所有的參數分兩批進行搜索,對于上述這七個參數來說,我們可以先圍繞彼此關聯度較為緊密的min_samples_leaf、min_samples_split、max_depth、max_leaf_nodes和n_estimators五個參數進行搜索,然后再加入max_features和max_samples進行搜索。
二、隨機森林網格搜索調參實戰
??在有了網格搜索優化技巧的基礎知識儲備后,接下來我們圍繞Telco原生數據集來進行隨機森林網格搜索實戰。一方面測試在原始數據集情況下隨機森林模型超參數優化的最好結果,同時我們也將用過一個實例來具體觀察我們制定的“小步迭代、快速調整”的調優策略是否能真的幫助我們高效快速的確定最優超參數。
1.設置初始參數空間與第一輪搜索
- 首輪搜索
??首先,根據此前介紹,設置初始參數空間并進行搜索,同時計算本次運行的時間。原始數據集總共有19條特征,開方運算與log2計算結果如下:
np.sqrt(19) #4.358898943540674 np.sqrt(19) * 1.5 #6.538348415311011 np.log2(19) * 0.5 #2.1239637567217926此時max_features可以設置參數如下:
['sqrt', 'log2'] + list(range(2, 7, 2)) #['sqrt', 'log2', 2, 4, 6]據此可執行第一輪搜索如下:
start = time.time()# 設置超參數空間 parameter_space = {"min_samples_leaf": range(1, 10, 3), "min_samples_split": range(1, 10, 3),"max_depth": range(5, 16, 5),"max_leaf_nodes": [None] + list(range(20, 70, 20)), "n_estimators": range(10, 160, 70), "max_features":['sqrt', 'log2'] + list(range(2, 7, 2)), "max_samples":[None, 0.4, 0.5, 0.6]}# 實例化模型與評估器 RF_0 = RandomForestClassifier(random_state=12) grid_RF_0 = GridSearchCV(RF_0, parameter_space, n_jobs=15)# 模型訓練 grid_RF_0.fit(X_train_OE, y_train)print(time.time()-start) #226.55377650260925- 計算運行時間與參數空間
第一輪搜索在五折交叉驗證的條件下,總共搜索了6480組參數:
3 * 3 * 3 * 4 * 3 * 5 * 4 #6480且在n_jobs=15的情況下,本次搜索任務總耗時226.5s,約4分鐘:
226.55377650260925 / 60 #3.7758962750434875約0.035s完成一組超參數的計算。
226.55377650260925 / 6480 #0.034962002546698956需要注意的是,這里的運行時間只能作為參考,并不是一個絕對的運行時間。在很多情況下,小段代碼的運行時間會受到很多因素影響,包括硬件條件(對于機器學習來說主要是CPU和內存)、是否是首次運行代碼等,都會對代碼運行時間有較大影響。
- 查看運行結果
??然后查看當前情況下模型預測結果:
grid_RF_0.best_score_ #0.8084053639517215 grid_RF_0.score(X_train_OE, y_train), grid_RF_0.score(X_test_OE, y_test) #(0.8517606967057932, 0.7847813742191937)能夠看出,在進行第一輪超參數搜索時,模型結果的過擬合傾向已經得到了有效抑制,并且對比此前邏輯回歸最終的優化結果,目前模型已經得到了一個較好的結果了:
| Logistic+grid | 0.8045 | 0.8055 | 0.7932 |
| RF+grid_R1 | 0.8084 | 0.8517 | 0.7848 |
??最后,重點關注本輪搜索得出的超參數最優取值:
grid_RF_0.best_params_ # {'max_depth': 10, # 'max_features': 'sqrt', # 'max_leaf_nodes': None, # 'max_samples': 0.4, # 'min_samples_leaf': 1, # 'min_samples_split': 7, # 'n_estimators': 80}并據此設置下一輪搜索策略:
- max_depth本輪最優取值為10,而原定搜索空間為[5, 10, 15],因此第二輪搜索時就可以以10為中心,縮小步長,進行更精準的搜索;
- max_features本輪最優取值為sqrt,說明最優解極有可能在4附近,因此第二輪搜索時可以設置一組更加精準的在4附近的數值,搭配sqrt參數一起進行搜索;
- max_leaf_nodes本輪最優取值為None,則有可能說明上一輪給出的其他備選數值不夠激進,下一輪搜索時可以在一個更大的區間范圍內設置備選數值;
- max_samples本輪最優取值為0.4,下一輪可以以0.4為中心,設置一組跨度更小、精度更高的取值進行搜索;
- min_samples_leaf本輪最優取值為1,下一輪可以設置range(1, 4)進行搜索(參數不能取得比1更小的值);
- min_samples_split本輪最優取值為7,下一輪可以以7為中心,設置更小的范圍進行搜索;
- n_estimators本輪最優取值為80,下一輪可以以80為中心,設置更小的范圍進行搜索,但需要注意的是,上一輪n_estimators取值搜索的跨度為70,下輪搜索時可以縮減到10。
2.第二輪搜索
??根據調整策略,重新設置超參數空間,開始第二輪搜索:
start = time.time()# 設置超參數空間 parameter_space = {"min_samples_leaf": range(1, 4), "min_samples_split": range(6, 9),"max_depth": range(9, 12),"max_leaf_nodes": [None] + list(range(10, 100, 30)), "n_estimators": range(70, 100, 10), "max_features":['sqrt'] + list(range(2, 5)), "max_samples":[None, 0.35, 0.4, 0.45]}# 實例化模型與評估器 RF_0 = RandomForestClassifier(random_state=12) grid_RF_0 = GridSearchCV(RF_0, parameter_space, n_jobs=15)# 模型訓練 grid_RF_0.fit(X_train_OE, y_train)print(time.time()-start) #235.176438093185422.1 計算運行時間與參數空間
??第二輪搜索時對參數空間范圍控制的仍然很好,整體來看每個參數的數值設置都在一個比較范圍內,最終計算了5184組參數:
3 * 3 * 3 * 4 * 3 * 4 * 4 #5184實際運行時間仍然為4分鐘:
235.17643809318542/60 #3.9196073015530906 235.17643809318542 / 5184 #0.045365825249457065約0.05s完成一組超參數搜索。
2.2 查看運行結果
??接下來查看模型運行結果:
grid_RF_0.best_score_ #0.808785226914366 grid_RF_0.score(X_train_OE, y_train), grid_RF_0.score(X_test_OE, y_test) #(0.8458917076864824, 0.7921635434412265)| Logistic+grid | 0.8045 | 0.8055 | 0.7932 |
| RF+grid_R1 | 0.8084 | 0.8517 | 0.7848 |
| RF+grid_R2 | 0.8088 | 0.8459 | 0.7922 |
經過第二輪搜索,模型評分(CV_score)進一步提高,并且訓練集評分略有下降、但測試集評分有所提升,也說明模型泛化能力也得到了提高。
??接下來進一步查看本輪搜索的到的最有超參數組:
據此可以設置下一輪搜索策略:
- max_depth本輪最優取值為11,在原定搜索空間上界,下次搜索可以進一步向上拓展搜索空間;
- max_features本輪最優取值為2,是原定搜索空間的下界,下次搜索可向下拓展搜索空間,也就是將1帶入進行搜索。但需要注意的是,sqrt作為非數值型結果,仍然需要帶入進行搜索,這輪被淘汰并不代表重新調整搜索空間后仍然被淘汰;
- max_leaf_nodes本輪最優取值仍然為None,說明在一個更大的范圍內進行更激進的搜索并沒有達到預想的效果,下一輪可以反其道而行之,設置一個上一輪沒有搜索到的數值較小的空間(1-20),來進行更加精準的搜索;
- max_samples本輪最優取值仍然為0.4,基本可以確定最優取值就在0.4附近,下一輪可以進一步設置一個步長更小的區間進行搜索;
- min_samples_leaf本輪最優取值為2,恰好落在本輪搜索空間的中間,下一輪搜索時不用調整取值;
- min_samples_split本輪最優取值仍然為7,恰好落在本輪搜索空間的中間,下一輪搜索時不用調整取值;
- n_estimators本輪最優取值為90,下一輪可以以90為中心,設置更小的范圍進行搜索,但需要注意的是,上一輪n_estimators取值搜索的跨度為10,下輪搜索時可以縮減到4。
3.第三輪搜索
??根據調整策略,開始第三輪搜索:
start = time.time()# 設置超參數空間 parameter_space = {"min_samples_leaf": range(1, 4), "min_samples_split": range(6, 9),"max_depth": range(10, 15),"max_leaf_nodes": [None] + list(range(1, 20, 2)), "n_estimators": range(85, 100, 4), "max_features":['sqrt'] + list(range(1, 4)), "max_samples":[None, 0.38, 0.4, 0.42]}# 實例化模型與評估器 RF_0 = RandomForestClassifier(random_state=12) grid_RF_0 = GridSearchCV(RF_0, parameter_space, n_jobs=15)# 模型訓練 grid_RF_0.fit(X_train_OE, y_train)print(time.time()-start) #1268.04026079177863.1 計算運行時間與參數空間
??由于經過了兩輪搜索,執行第三輪時預判即將能夠搜網得到最優取值(實際并沒有),因此設置了一個相比之前更大的超參數搜索空間:
3 * 3 * 4 * 11 * 4 * 4 * 4 #25344在參數設置時,只在max_leaf_nodes參數部分增加設置了4個備選搜索取值,但參數空間就擴大成了第二輪搜索的參數空間的5倍,而本輪搜索耗時也差不多是第二輪計算用時的5倍:
1268.0402607917786/60 #21.134004346529643 1268.0402607917786 / 25344 #0.05003315422947359約0.05s完成一組超參數搜索。
3.2 查看運行結果
??接下來查看模型運行結果:
grid_RF_0.best_score_ #0.8087841518305094 grid_RF_0.score(X_train_OE, y_train), grid_RF_0.score(X_test_OE, y_test) #(0.8415372964786065, 0.7927314026121521)| Logistic+grid | 0.8045 | 0.8055 | 0.7932 |
| RF+grid_R1 | 0.8084 | 0.8517 | 0.7848 |
| RF+grid_R2 | 0.808785 | 0.8459 | 0.7922 |
| RF+grid_R3 | 0.808784 | 0.8415 | 0.7927 |
??能夠發現,第三輪搜索的結果相比第二輪,模型整體效果其實是略微下降的(根據CV.best_score_),這其實也是在超參數搜索過程是中經常會遇到的問題,也就是多輪搜索過程中模型評分可能出現波動的問題。不過不要氣餒,繼續觀察本輪輸出的最優超參數組,繼續調參。
grid_RF_0.best_params_ # {'max_depth': 10, # 'max_features': 'sqrt', # 'max_leaf_nodes': None, # 'max_samples': 0.38, # 'min_samples_leaf': 3, # 'min_samples_split': 7, # 'n_estimators': 97}- max_depth本輪最優取值為10,在原定搜索空間下界,下次搜索可以進一步向下拓展搜索空間,當然,根據第二輪第三輪max_depth在9和10反復變動的現象,估計max_depth最終的最優取值也就是9、10左右;
- max_features本輪最優取值又回到了sqrt,也就是4附近,結合第一輪sqrt的最優結果,預計max_features最終最優取值也就在4附近,接下來的搜索將是收尾階段,我們可以設計一個sqrt+log2+4附近的搜索組合;
- max_leaf_nodes本輪最優取值仍然為None,三輪搜索都沒有改變max_leaf_nodes的最優取值,并且本輪還設置了非常多的備選取值,說明max_leaf_nodes的最優取值極有可能就是None,接下來我們只需保留None+大范圍搜索的組合即可,以防其他參數變動時max_leaf_nodes的最優取值發生變化;
- max_samples本輪最優取值變成了0.38,而訓練集總樣本數為5282,5282*0.38約為2007,下輪開始我們將把比例轉化為具體的樣本數,進行更加精準的搜索,及圍繞2007附近的數值空間進行搜索;
- min_samples_leaf本輪最優取值為3,恰好落在本輪搜索空間的上屆,下一輪搜索時略微拓展搜索空間的上界;
- min_samples_split本輪最優取值仍然為7,恰好落在本輪搜索空間的中間,下一輪搜索時不用調整取值;
- n_estimators本輪最優取值為97,下一輪可以以97為中心,設置更小的范圍進行搜索;
4.第四輪搜索
??繼續進行第四輪搜索:
start = time.time()# 設置超參數空間 parameter_space = {"min_samples_leaf": range(2, 5), "min_samples_split": range(6, 9),"max_depth": range(8, 12),"max_leaf_nodes": [None] + list(range(10, 70, 20)), "n_estimators": range(95, 105, 2), "max_features":['sqrt', 'log2'] + list(range(1, 6, 2)), "max_samples":[None] + list(range(2002, 2011, 2))}# 實例化模型與評估器 RF_0 = RandomForestClassifier(random_state=12) grid_RF_0 = GridSearchCV(RF_0, parameter_space, n_jobs=15)# 模型訓練 grid_RF_0.fit(X_train_OE, y_train)print(time.time()-start) #1218.26349329948434.1 計算運行時間與參數空間
??由于很多參數都基本能確定最優值的范圍,因此本輪搜索時很多參數都略微放大的參數取值范圍,這也導致備選超參數組的數量急劇增加:
3 * 3 * 4 * 5 * 4 * 5 * 6 #21600最終計算時長和第三輪搜索時的計算時長接近。
1218.2634932994843 / 60 #20.304391554991405 1218.2634932994843 / 21600 #0.0564010876527539約0.06s執行完一組超參數搜索。
4.2 查看運行結果
??接下來查看模型運行結果:
??第相比第三輪搜索,第四輪的搜索結果有顯著提高:
| Logistic+grid | 0.8045 | 0.8055 | 0.7932 |
| RF+grid_R1 | 0.8084 | 0.8517 | 0.7848 |
| RF+grid_R2 | 0.808785 | 0.8459 | 0.7922 |
| RF+grid_R3 | 0.808784 | 0.8415 | 0.7927 |
| RF+grid_R4 | 0.809542 | 0.8406 | 0.7882 |
接下來我們查看本輪輸出的最優參數組,并制定后續搜索策略:
grid_RF_0.best_params_ #{'max_depth': 9, # 'max_features': 5, # 'max_leaf_nodes': None, # 'max_samples': 2002, # 'min_samples_leaf': 3, # 'min_samples_split': 8, # 'n_estimators': 99}- max_depth本輪最優取值為9,能夠進一步肯定max_depth最終的最優取值也就是9、10左右;
- max_features本輪最優取值變成了5,仍然在4附近變化,后續繼續保留sqrt+log2+4附近的搜索組合;
- max_leaf_nodes本輪最優取值仍然為None,并沒有發生任何變化,后續仍然保留原定搜索范圍;
- max_samples本輪最優取值為2002,這是第一次圍繞max_samples進行整數搜索,接下來可以以2002為中心,設置一個更小搜索空間;
- min_samples_leaf本輪最優取值為3,恰好落在本輪搜索空間的上屆,下一輪搜索時略微拓展搜索空間的上界;
- min_samples_split本輪最優取值變成了8,根據之前的搜索結果,該參數最優取值基本都在7和8之間變動,因此可以設置一個6-9的搜索空間,確保下次如果再出現參數在7、8之間變動時,仍然在搜索范圍內;
- n_estimators本輪最優取值為99,結合之前搜索出來的97的結果,預計該參數最終的最優取值應該就是97-99之間,可以據此設置下一輪搜索空間;
5.第五輪搜索
??接下來,繼續進行第五輪搜索。經過了前幾輪搜索,大多數參數都已經能確定最優解的大概取值范圍,因此第五輪搜索時可以將我們判斷的可能的最優解全部包括在內,進行大規模搜索,當然,為了不至于搜索時間過長,我們可以適當刪除部分我們判斷不會出現最優解的取值范圍:
start = time.time()# "min_samples_leaf":以3為中心 # "min_samples_split":重點搜索7、8兩個值 # "max_depth":重點搜索9、10兩個值 # "max_leaf_nodes":大概率為None # "n_estimators": 重點搜索97、98、99三個值 # "max_features":5附近的值+['sqrt', 'log2'] # "max_samples":2002向下搜索,重點搜索2002、2001和2000三個值# 設置超參數空間 parameter_space = {"min_samples_leaf": range(2, 5), "min_samples_split": range(6, 10),"max_depth": range(8, 12),"max_leaf_nodes": [None], "n_estimators": range(96, 101), "max_features":['sqrt', 'log2'] + list(range(3, 7)), "max_samples":[None] + list(range(2000, 2005))}# 實例化模型與評估器 RF_0 = RandomForestClassifier(random_state=12) grid_RF_0 = GridSearchCV(RF_0, parameter_space, n_jobs=15)# 模型訓練 grid_RF_0.fit(X_train_OE, y_train)print(time.time()-start) #604.74985766410835.1 計算運行時間與參數空間
??這一輪中我們刪除了max_leaf_nodes參數的數值取值,極大程度縮減了參數空間:
3 * 4 * 4 * 1 * 5 * 6 * 6 #8640 604.7498576641083 / 8640 #0.06999419648890141因此最終計算用時控制在10分鐘左右,平均0.07s執行一組超參數的計算。
5.2 查看運行結果
??接下來查看模型運行結果,相比第四輪搜索,第五輪的搜索結果繼續提升:
grid_RF_0.best_score_ #0.8104878013818411 grid_RF_0.score(X_train_OE, y_train), grid_RF_0.score(X_test_OE, y_test) #(0.8483528966300644, 0.7955706984667802)| Logistic+grid | 0.8045 | 0.8055 | 0.7932 |
| RF+grid_R1 | 0.8084 | 0.8517 | 0.7848 |
| RF+grid_R2 | 0.808785 | 0.8459 | 0.7922 |
| RF+grid_R3 | 0.808784 | 0.8415 | 0.7927 |
| RF+grid_R4 | 0.809542 | 0.8406 | 0.7882 |
| RF+grid_R5 | 0.810488 | 0.8483 | 0.7955 |
該結果也是目前的最好結果。
??接下來繼續查看超參數搜索結果:
??能夠看出,除了min_samples_leaf和max_samples各自取到了搜索范圍下界外,其他參數的最優取值都在設置的取值范圍中間。據此我們可以判斷搜索任務即將結束,下一輪搜索極有可能是最后一輪搜索,為此我們可以制定下一輪搜索策略:除了剛才的兩個參數需要調整取值范圍外,其他參數可以以本次搜索結果為中心設置更大的取值范圍,最好能包括最近三輪各參數的最優值點,同時max_leaf_nodes恢復之前的大范圍數值搜索范圍,這么做必然會導致參數空間變得非常大,但為了確保最終結果具有較高的可信度,最后一輪搜索建議放大范圍,具體原因稍后解釋。這里我們可以簡單回顧最近三輪搜索時各參數的最優值點:
| 3 | 7 | 10 | None | 97 | sqrt | 0.38 |
| 3 | 8 | 9 | None | 99 | 5 | 2002 |
| 2 | 7 | 10 | None | 97 | sqrt | 2000 |
據此,我們可以設置最后一輪搜索超參數空間如下:
parameter_space = {"min_samples_leaf": range(1, 5), "min_samples_split": range(6, 10),"max_depth": range(8, 12),"max_leaf_nodes": [None] + list(range(10, 70, 20)), "n_estimators": range(96, 101), "max_features":['sqrt', 'log2'] + list(range(1, 7)),"max_samples":[None] + list(range(1999, 2004))}如此一來,最后一輪搜索的參數空間備選參數組數量如下:
4 * 4 * 4 * 4 * 5 * 8 * 6 #61440而根據此前測算的平均計算時間,約0.06s完成一組超參數的計算,因此在總共有61440組超參數的情況下,最終估計計算時間為:
61440 * 0.06 #3686.3999999999996 61440 * 0.06 / 60 #61.43999999999999約一小時。
6.第六輪搜索
??接下來執行第六輪搜索:
start = time.time()# 設置超參數空間 parameter_space = {"min_samples_leaf": range(1, 5), "min_samples_split": range(6, 10),"max_depth": range(8, 12),"max_leaf_nodes": [None] + list(range(10, 70, 20)), "n_estimators": range(96, 101), "max_features":['sqrt', 'log2'] + list(range(1, 7)),"max_samples":[None] + list(range(1999, 2004))}# 實例化模型與評估器 RF_0 = RandomForestClassifier(random_state=12) grid_RF_0 = GridSearchCV(RF_0, parameter_space, n_jobs=15)# 模型訓練 grid_RF_0.fit(X_train_OE, y_train)print(time.time()-start) #3601.6263830661774最終計算時間和此前預估相差不大,差不多1小時完成計算。
- 查看運行結果
??接下來查看模型運行結果,能夠發現,在修改了超參數搜索空間后,最終仍然輸出了第五次搜索最終輸出的結果。盡管沒有模型效果上的提升,但兩次重復的結果也讓我們更加肯定當前輸出的超參數組就是最優超參數組。
grid_RF_0.best_score_ #0.8104878013818411 grid_RF_0.score(X_train_OE, y_train), grid_RF_0.score(X_test_OE, y_test) #(0.8483528966300644, 0.7955706984667802) grid_RF_0.best_params_ # {'max_depth': 10, # 'max_features': 'sqrt', # 'max_leaf_nodes': None, # 'max_samples': 2000, # 'min_samples_leaf': 2, # 'min_samples_split': 7, # 'n_estimators': 97}| Logistic+grid | 0.8045 | 0.8055 | 0.7932 |
| RF+grid_R1 | 0.8084 | 0.8517 | 0.7848 |
| RF+grid_R2 | 0.808785 | 0.8459 | 0.7922 |
| RF+grid_R3 | 0.808784 | 0.8415 | 0.7927 |
| RF+grid_R4 | 0.809542 | 0.8406 | 0.7882 |
| RF+grid_R5 | 0.810488 | 0.8483 | 0.7955 |
| RF+grid_final | 0.810488 | 0.8483 | 0.7955 |
最終,在當前建模流程和當前數據集情況下,隨機森林能夠達到的最好表現就是0.810488。
7.最優超參數組的可信度
??通過結果我們不難發現,第六輪搜索的結果和第五輪搜索的結果并沒有任何區別,那為何還要進行第六輪搜索?或者說,考慮到第五輪搜索時確實存在部分超參數取到了搜索區間的邊界值,那簡單拓展搜索邊界即可,為何需要加入那么多備選參數、導致計算量激增?
??這里就要介紹關于最優超參數組的可信度的問題了。其實從原理上來說,超參數和模型效果之間并沒有真正意義上的凸函數關系,如果有這種關系,超參數就不是超參數、而是一般參數了,就可以采用其他更加自動化的優化算法來確定最優值了。因此,哪怕在第五輪的時候我們幾乎可以確定超參數的最優取值,但在第六輪搜索時仍然需要擴大參數范圍進行驗證,就是擔心萬一超參數取值邊界擴大、最優取值發生變化了呢?畢竟我們不能完全相信所謂凸函數的特征。
??事實證明,這種擔心也是必要的,我們可以查看如下一組結果:
能夠看到,在這次搜索中,確實每個超參數最終取值都落在搜索區間的中間,也似乎滿足了我們之前介紹的搜索停止的條件。但是最終輸出結果并不如我們上面第六輪搜索得到的結果。對比最終輸出的超參數也能看出,其實差距就在n_estimators的取值,n_estimators在[98,99,100]中搜索時,最優取值是99,但如果稍微放寬搜索區間時,如設置為[96, 97, 98, 99, 100],也就是第六輪搜索時的參數設置,此時網格搜索會判斷n_estimators的最優取值為97。這也說明至少n_estimators的取值和模型效果并不是“凸函數”的關系(因為如果是,則模型效果會在n_estimators=97左右兩邊單調變化,在搜索[98,99,100]時將判斷98是最優取值)。但同時,97這個取值也并不陌生,在相對精準的第三輪搜索時就被選為最優超參數取值,因此,為了一定抵消超參數和模型效果之間這種不確定性關系所帶來的風險,最后一輪搜索時必須擴大搜索范圍,最好是將前幾輪精確搜索(不是大步長搜索)得出的結果一起帶入進行搜索,以期得到一個相對更加準確的結論。
??不過盡管如此,我們也不能百分之百確定目前第六輪搜索出來的結果就一定是絕對意義的最優解、就不存在比這組超參數更優的解,但我們仍然建議采用上述流程進行搜索,也是因為這是長期實踐經驗總結的產物,根據長期實踐證明,這樣的一套搜索策略能夠以非常高的效率得到一個相對來說非常好的結果(大概率是全域最優解),盡管不是100%的最優解,但這其實是我們借助有限的算力去解決無限的未知的一種手段,畢竟超參數空間取值理論上是無限的,枚舉不可能窮盡,目前也沒有理論可以通過某種公式確定最優解(貝葉斯也只是估計)。
- 借助有限的資源去解決無限的未知,這就是“人”的價值
??當然,既然討論到關于“借助有限的算力去解決無限的未知”的問題,我們也可以從這個角度出發,簡單探討關于AutoML的發展方向與當前算法工程師的可能存在的職業發展焦慮的問題。從根本上來說,機器學習模型的超參數看起來是模型的“缺陷”,因為如果沒有超參數的話,模型就可以完全自動化訓練了,模型確定參數就像y=x2y=x^2y=x2找最小值一樣簡單,但實際上,機器學習模型的超參數確是解決模型“缺陷”的手段。簡單理解,世界上并不存在絕對意義上完美的機器學習模型,影響模型的所有變量并不能夠通過一套理論完美求解,因此機器學習模型選擇將將所有的不確定性都交給了超參數,才使得參數能夠順利的被求解,這樣也才使得其基本原理得以成立。而正式因為這些超參數的優化需要人去解決,算法工程師的工作才變得有價值和有意義——能夠幫助模型達到更好的效果(“《自私的模型》”),當然,特征工程也是類似。但是,如果某一天人們創造了某個算法沒有超參數、或者超參數求解的問題能夠被一套理論或者一套計算流程完美解決,這個過程不需要人工干預,那么算法工程師的工作價值可能就會大打折扣。不過值得慶幸的是,截止目前,并沒有這種算法或者相關理論出現,甚至這都不是一個熱門的研究方向,因為大多數學者判斷,以當前基礎科學發展情況來看(主要是基礎數學和物理),這些理論突破暫時不可能做到。
??而新興的AutoML,聽名字好像是全自動化機器學習,但其實并不是完全自動化解決超參數優化的問題,而是將超參數優化問題轉化為了另一種更高層次的建模問題,但這個問題仍然需要人來解決,也就是需要算法工程人員去解決,只不過不再是一個個參數進行調節,而是使用一個更加復雜的工具來進行模型整體層面的優化,你可以將AutoML看成是一個更加高級的網格搜索工具,效果更好、理論更加復雜、操作難度更高。不過截至目前,盡管AutoML得到了一定程度的應用,但其基礎理論和實踐工具仍然有待進一步的突破,才能夠成為新的算法工程師們趁手的工具。
所以說替代算法工程師工作的不是某個工具,而是一個沒有“超參數”的世界,或者說,當模型不再需要“人”去優化時。
8.其他搜索方案
??當然,除了網格搜索外,此處也可以考慮先進行大規模隨機網格搜索或者對半搜索,鎖定的最優參數后再劃定范圍進行更加精準的網格搜索,也就是所謂的組合搜索策略,不過由于初始搜索出來的最優參數精度不夠,外加隨機搜索時抽樣過程不確定,也會對最終結果造成影響。其實從另一個角度來看,網格搜索前幾輪設置的大步長搜索策略,其實也就相當于是隨機網格搜索,只不過隨機抽樣的取值是人工固定的。
三、網格搜索流程總結
??最后,讓我們簡單總結上述介紹的網格搜索實戰流程,幫助大家從一個更加整體的角度看待網格搜索參數優化的全過程。
??至此,我們就完成了隨機森林+網格搜索在當前數據集上的全部訓練與優化工作,并借此完整詳細的介紹了網格搜索這一優化器的具體實戰操作技巧。當然,要做到活學活用,還需要在日后更多的實踐中不斷積累經驗,需要注意的是,后續課程中在進行網格搜索調優時,只會展示最后一輪的搜索結果,但實際搜索流程和本節介紹的一致,也希望同學課后多加練習,甚至提煉和總結自己的調優流程。
總結
以上是生活随笔為你收集整理的项目一 Part 4.2 基于网格搜索的超参数优化实战的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux中彻底卸载mysql_Linu
- 下一篇: 奥鹏刷分软件_【中国大学mooc刷课系统