5.3 个体条件期望(Individual Conditional Expectation, ICE)
單個條件期望 (ICE) 圖為每個實例顯示一條線,顯示當特征發生變化時實例的預測如何變化。
特征平均效果的部分依賴圖是一種全局方法,因為它不關注特定實例,而是關注整體平均值。 單個數據實例的 PDP 等效項稱為單個條件期望 (ICE) 圖(Goldstein 等人,2017)。 ICE 圖分別可視化預測對每個實例的特征的依賴性,導致每個實例一條線,而部分依賴圖中的一條線整體。 PDP 是 ICE 圖線的平均值。 一條線(和一個實例)的值可以通過保持所有其他特征相同來計算,通過用網格中的值替換特征值來創建此實例的變體,并使用黑盒模型對這些新創建的實例進行預測。 結果是具有來自網格的特征值和相應預測的實例的一組點。
著眼于個人期望而不是部分依賴有什么意義? 部分依賴圖可以掩蓋由交互作用產生的異質關系。 PDP 可以顯示特征和預測之間的平均關系是什么樣的。 這只適用于計算 PDP 的特征與其他特征之間的相互作用較弱的情況。 在交互的情況下,ICE 圖將提供更多的洞察力。
更正式的定義:在 ICE 圖中,對于每個實例{(xS(i),xC(i))}i=1N\{(x_{S}^{(i)},x_{C}^{(i)})\}_{i=1}^N{(xS(i)?,xC(i)?)}i=1N?曲線f^S(i)\hat{f}_S^{(i)}f^?S(i)?被策劃反對xS(i)x^{(i)}_{S}xS(i)?, 盡管xC(i)x^{(i)}_{C}xC(i)?保持固定。
5.3.1 例子
讓我們回到宮頸癌數據集,看看每個實例的預測如何與特征“年齡”相關聯。 我們將分析一個隨機森林,該森林在給定風險因素的情況下預測女性患癌癥的概率。 在部分依賴圖中,我們看到癌癥概率在 50 歲左右增加,但數據集中的每個女性都是這樣嗎? ICE 圖顯示,對于大多數女性而言,年齡效應遵循 50 歲時增加的平均模式,但也有一些例外:對于少數在年輕時具有高預測概率的女性,預測的癌癥概率不會改變 隨著年齡的增長。
圖 5.8:按年齡劃分的宮頸癌概率的 ICE 圖。 每條線代表一個女人。 對于大多數女性來說,隨著年齡的增長,預測的癌癥概率會增加。 對于一些預測癌癥概率高于 0.4 的女性,預測在較高年齡時不會發生太大變化。
下圖顯示了自行車租賃預測的 ICE 圖。 底層預測模型是隨機森林。
圖 5.9:按天氣條件預測的自行車租賃的 ICE 圖。 可以觀察到與部分依賴圖中相同的效果。
所有曲線似乎都遵循相同的路線,因此沒有明顯的相互作用。 這意味著 PDP 已經很好地總結了顯示的特征和預測的自行車數量之間的關系。
5.3.1.1 中心ICE圖
ICE 圖存在一個問題:有時很難判斷 ICE 曲線是否因人而異,因為它們開始于不同的預測。 一個簡單的解決方案是將曲線集中在特征中的某個點,并僅顯示與該點的預測差異。 結果圖稱為中心 ICE 圖 (c-ICE)。 將曲線錨定在特征的下端是一個不錯的選擇。 新曲線定義為:f^cent(i)=f^(i)?1f^(xa,xC(i))\hat{f}_{cent}^{(i)}=\hat{f}^{(i)}-\mathbf{1}\hat{f}(x^{a},x^{(i)}_{C})f^?cent(i)?=f^?(i)?1f^?(xa,xC(i)?)
1\mathbf{1}1是具有適當維數(通常為一或二)的 1 向量,f^\hat{f}f^?是擬合模型,xa 是錨點。
5.3.1.2 例子
例如,取年齡的宮頸癌 ICE 圖,并將線集中在觀察到的最年輕的年齡上:
圖 5.10:按年齡預測癌癥概率的中心 ICE 圖。 線在 14 歲時固定為 0。與 14 歲相比,大多數女性的預測保持不變,直到 45 歲時,預測概率增加。
居中的 ICE 圖可以更輕松地比較各個實例的曲線。 如果我們不想看到預測值的絕對變化,而是希望看到預測與特征范圍的固定點相比的差異,這會很有用。
讓我們看一下自行車租賃預測的中心 ICE 圖:
圖 5.11:按天氣條件預測的自行車數量的中心 ICE 圖。 這些線顯示了預測與各自特征值處于其觀察到的最小值的預測相比的差異。
5.3.1.3 導數 ICE 圖
另一種在視覺上更容易發現異質性的方法是查看預測函數相對于特征的各個導數。 結果圖稱為導數 ICE 圖 (d-ICE)。 函數(或曲線)的導數告訴您變化是否發生以及發生的方向。 使用導數 ICE 圖,很容易發現特征值的范圍,其中(至少一些)實例的黑盒預測會發生變化。 如果分析的特征之間沒有交互作用xSx_SxS?和其他功能xCx_CxC?,那么預測函數可以表示為:f^(x)=f^(xS,xC)=g(xS)+h(xC),withδf^(x)δxS=g′(xS)\hat{f}(x)=\hat{f}(x_S,x_C)=g(x_S)+h(x_C),\quad\text{with}\quad\frac{\delta\hat{f}(x)}{\delta{}x_S}=g'(x_S)f^?(x)=f^?(xS?,xC?)=g(xS?)+h(xC?),withδxS?δf^?(x)?=g′(xS?)
如果沒有交互作用,所有實例的各個偏導數應該是相同的。 如果它們不同,則是由于相互作用,它在 d-ICE 圖中變得可見。 除了顯示相對于 S 中特征的預測函數導數的單個曲線之外,顯示導數的標準偏差有助于突出 S 中特征中的區域以及估計導數的異質性。 導數 ICE 圖需要很長時間來計算,而且相當不切實際。
5.3.2 優勢
單個條件期望曲線比部分依賴圖更容易理解。 如果我們改變感興趣的特征,一條線代表對一個實例的預測。
與部分依賴圖不同,ICE 曲線可以揭示異質關系。
5.3.3 劣勢
ICE 曲線只能有意義地顯示一個特征,因為兩個特征需要繪制多個重疊曲面,并且您在圖中看不到任何內容。
ICE 曲線與 PDP 存在相同的問題:如果感興趣的特征與其他特征相關,那么根據聯合特征分布,線條中的某些點可能是無效數據點。
如果繪制了許多 ICE 曲線,則繪圖可能會變得過于擁擠,您將看不到任何內容。 解決方案:要么為線條添加一些透明度,要么僅繪制線條樣本。
在 ICE 圖中,查看平均值可能并不容易。 這有一個簡單的解決方案:將單個條件期望曲線與部分依賴圖相結合。
5.3.4 軟件和替代品
ICE 圖在 R 包 iml(用于這些示例)、ICEbox32 和 pdp 中實現。 另一個與 ICE 非常相似的 R 包是 condvis。 在 Python 中,從 0.24.0 版本開始,部分依賴圖被內置到 scikit-learn 中。
總結
以上是生活随笔為你收集整理的5.3 个体条件期望(Individual Conditional Expectation, ICE)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 5.2 部分依赖图 (Partial D
- 下一篇: 【Hive】一次被分区条件和笛卡尔积制裁