多篇顶会看个体因果推断(ITE)的前世今生
?PaperWeekly 原創 ·?作者 | 張一帆
學校 | 中科院自動化所博士生
研究方向 | 計算機視覺
Background
預測行動間的因果關系是一個非常重要的研究課題。例如,醫生判斷哪種藥物會對病人產生更好的效果。在這種任務中,我們的可觀測數據有過去采取的行動(吃了哪些藥),它們的結果(病情),可能還有更多的協變量 covariate information(病人信息),但我們不知道行為與結果之間的因果關系。一種簡單的估計方法是基于干預,即保證兩次實驗環境完全一致,只改變 (是否用藥),然后將得到的結果求差即用藥的收益。
但是, 不是那么容易的,根據觀測數據我們只能得到條件分布 。考慮下面得例子。設 為睡覺時是否穿襪子, 為是否喝醉。
顯然 有很強得相關性,但是我們知道二者并不具有因果關系, 之間還存在一些混雜因子(confounder)(sober or drunk)影響了我們對因果關系的判斷。要正確的估計 之間的因果關系,我們必須得到將 帶來的影響使用 ATE 公式消除。
那么我們就得到了如下的因果關系估計公式:
如果協變量包含所有混雜變量(即 treatment 和 outcome 的共因),那么因果效應稱為可確定的(identified)。因此大多數 paper 都會假設沒有不可觀測的混雜因子。
在日常生活中,對于每個個體,我們大概率只能看到他們對其中一個可能的行動的反應,即 或者 只有一個可以觀測,我們將 稱為 control,將 稱為 treatment。這種情況下我們如何來估計特定行為對個體在因果上的影響?這就是所謂的?individual treatment effect(ITE),公式化的描述有助于我們更好的理解這個問題。
給定數據空間 上的分布 ,我們有一系列樣本 ,其中 。如果 , 如果 。我們的目標是學習一個 representation 和一個分類器 ,這兩組組件組成了一個因果估計器 ,我們希望這個估計器得到的結果和真實的因果效應盡可能相似,即 。
ITE 問題可以看作是域遷移和數據集極度不均衡的結合體。首先,如上所示每個個體只能得到其中一個 的效果,而我們要預測其在另一種 treatment 下的結果。其次,相關的數據集往往分布很不均衡,比如大多數人遇到炎癥會選擇吃藥 ,因此 數據很少,這也是接下來的文章逐步解決的問題。
本文從第一篇以深度學習的工具研究 individual treatment effect 的文章開始,挑選了 6 篇頂會文章對該領域的發展做一介紹。這些文章主要集中在以下幾個要點。
CFRNet
論文標題:
Estimating individual treatment effect: generalization bounds and algorithms
收錄會議:
ICML 2017
論文鏈接:
https://arxiv.org/abs/1606.03976
代碼鏈接:
https://github.com/clinicalml/cfrnet
本文第一次提出了 ITE 的概念,并使用 DA 的一套理論對其進行 bound,依次設計了一套行而有效的算法。
在背景部分我們提到了,ITE 與域自適應有著緊密的聯系,本文的 bound 也是基于傳統 DA 的那一套 VC dim 的理論,這里直接給出結果。
可以理解為 ITE 的整體性能被兩項所 bound,第一項是在訓練數據上的 empirical loss,第二項可以理解為 source 和 target 訓練得到表示的差異,該差異越小,說明模型對 treatment 不敏感,更有可能抓住 之間的因果關系。
在這個理論基礎上,作者設計了如下的框架,輸入 ,我們先抽取的特征,然后根據 的不同訓練不同的分類器,最小化兩個分類器 empirical loss 的同時,減少 representation 分布之間的差異。
本文解決數據集不平衡的方法很簡單,即給 empirical loss 前根據樣本數目加上一項權重。
Dragonnet
論文標題:
Adapting Neural Networks for the Estimation of Treatment Effects
收錄會議:
NeurIPS 2019
論文鏈接:
https://arxiv.org/abs/1906.02120
代碼鏈接:
https://github.com/claudiashi57/dragonnet
這篇文章的核心思想是這樣的:我們沒必要使用所有的協方差變量 進行 adjustment。
中有一部分變量只與 outcome 相關,和 treatment 無關,這些部分與因果關系的估計無關,是進行 adjustment 的噪聲,因此我們應該拋棄這部分變量。就像 DA 或者 DG 一樣,我們需要找到域不變的特征這樣才能有好的泛化性能。但是背景之類的特征往往有助于模型在當前分布下提升辨別能力。同樣的,這里丟棄一部分協方差變量也會帶來預測精度和魯棒性的 tradeoff。
本文的模型結構和優化算法是這樣設計的:
1. 首先,一個三頭的網絡,和上一篇文章一樣,一個 encoder 提取特征,然后給兩個 branch 基于 treatment 和協變量預測 outcome。
2. 不同的是,這里訓練一個分類器 ,這樣做的目的是。利用神經網絡的特點,被分類器利用。即 激活的特征更有可能是與 相關的協變量。
3. 為了更好的魯棒性,在下游任務中估計因果關系時只使用 挑選出來的協變量。
所以總的 loss 也不難理解了,一個回歸損失加上一個分類損失。
CATE
論文標題:
Meta-learners for Estimating Heterogeneous Treatment Effects using Machine Learning
收錄會議:
PNAS 2019
論文鏈接:
https://arxiv.org/abs/1706.03461
本文提出了一種新的框架 X-learner,當各個 treatment 組的數據非常不均衡的時候,這種框架非常有效。
回憶一下我們的核心任務是估計如下兩個概率:
已有的算法主要分為兩類:
T-learner:即上述文章使用的模式,使用兩個不同的 branch 估計兩種后驗概率。
S-Learner:將 或者說 作為特征輸入,使用同一個 branch 對二者進行估計。但是這種方法往往需要對 進行一定的變化,因為 只是一個標量,我們將他放入高維的特征中,影響微乎其微。
核心思想如下:
1. 本文使用兩個 branch 對兩個 group 的后驗概率分別進行估計,值得注意的是 的時候, 都可以作為真實的因果估計值。
2. 最后兩個估計值根據一個權重 聯合成為一個估計, 通常選擇使得 的方差最小。最優的情況是,如果我們可以計算 那最小化它就能得到最優的 。
DRNets
論文標題:
Learning Counterfactual Representations for Estimating Individual Dose-Response Curves
收錄會議:
AAAI 2020
論文鏈接:
https://arxiv.org/abs/1902.00981
代碼鏈接:
https://github.com/d909b/drnet
本文提出了新的 metric,新的數據集,和訓練策略,允許對任意數量的 treatment 的 outcome 進行估計。
Setting:本文考慮 treatment 有多個的場景,即 ,如果是醫生-病人的場景,每個 treatment 可能對應一個用藥的劑量 。訓練目標是對每個 treatment 范圍內的任意一個 都可以給出一個估計值,因此此時對于一個個體 ,因果效應顯示為一個曲線, 為 treatment 的函數。
Metric:本文給出了衡量該場景模型效果的 metric,給定 treatment 和相應的劑量 ,模型給出一個估計值 ,那么總共的評估指標如下所示,對所有樣本,所有 treatment,在其劑量范圍內均方誤差的積分。
除了對均值進行評估,本文還提出了對最優劑量進行評估,對每個個體每個 treatment 的每個劑量我們找效果最好的那個,和預測的最好的那個進行比較,即給每個 treatment 評估其最優劑量是否正確。
更進一步,我們在所有 treatment 中取最優,即個體層面看預測的最優 treatment 是否正確。這種做法往往是有意義的,因為在藥物方面,醫生也總是想選最優的 treatment,而不關注其他次優的 treatment 的預測精度。
通過考慮多個指標,我們可以確保預測模型既能恢復整個劑量反應,又能選擇最佳治療和劑量選擇。
Model Architecture 從問題中我們可以看出現在有三層關系,一個個體,對應多個 treatment,每個 treatment 有很多的劑量。因此本文將以往的工作進行擴展,提出了分層的結構。
一個特征層提取協變量的特征,每個 treatment 對應一個 branch 將特征進一步處理,最后對于連續變量的問題,我們將區間分成? 份,每個 branch 對應 ,所以 越大,branch 越密集,我們對連續變量的近似就越好,但是參數量也越大,二者是一個 tradeoff。為了進一步提升 對網絡參數的影響,作者在 head 層每一層都會將 concatenate 進去。
Model Selection 因為在訓練過程中,我們只能得到模型在一個 treatment 上的 outcome,因此不能計算上述指標來進行模型選擇,作者轉而求其次,選擇最近鄰樣本。如下所示,雖然樣本 沒有在每個 treatment 上的結果,但是我們選其擁有該結果的最近鄰作為替代近似的選擇模型。
可以看到這篇文章實現的連續并不是真正的連續,而是一種近似。在下圖中本文提出的模型 Drnet 的弊端可以得知,其與 GT 之間的差距還是有很大的,連續性并沒有那么好。
下文是對這一情況的改進。
VCNet
論文標題:
VCNet and Functional Targeted Regularization For Learning Causal Effects of Continuous Treatments
收錄會議:
ICLR 2021 Oral
論文鏈接:
https://arxiv.org/abs/2103.07861
代碼鏈接:
https://github.com/lushleaf/varying-coefficient-net-with-functional-tr
本文基于 varying coefficient model,讓每個 treatment 對應的 branch 成為 treatment 的函數,而不需要單獨設計 branch,依次達到真正的連續性。除此之外,本文也沿用了?Adapting Neural Networks for the Estimation of Treatment Effects?一文中的思路,訓練一個分類器來抽取協變量中與 最相關的那些。
所謂的 varying coefficient model 其實就是說后面的分支:
他的參數不再是固定的,而是 t 的函數,這意味著神經網絡定義的非線性函數依賴于變化的 treatment 。
NCoRE
論文標題:
NCoRE: Neural Counterfactual Representation Learning for Combinations of Treatments
收錄會議:
Arxiv 2021
論文鏈接:
https://arxiv.org/abs/2103.11175
本文考慮更復雜的情況:多種 treatment 共同作用。作為一個具體的例子,考慮治療 HIV 患者,醫生會同時開出抗逆轉錄病毒藥物的組合,而不是只給一種藥,以防止病毒逃逸。這種場景非常具有挑戰性,考慮 15 種可能的 treatment,就有 種可能的組合,而大多數組合很少甚至不會出現在真實數據中。這時候如果我們沿用上述的做法,每種組合搞一個 branch,參數量太大,而且每個 branch 相應的數據可能很少,很難訓練。
本文提出了一種新的網絡架構,如下所示,依然維護 個 branch,如果協變量 對應的多個 treatment 分別為 ,那么這三個 branch 都會進行訓練。
那么如何建模多個 treatment 之間的相互影響呢?答案就在于上圖中的藍色部分,他們縱向是有相互連接的,顯然此時x會經過 三個 branch。最終所有 treatment 得到的 embedding 做均值得到最終的表達。
文章的 metric 是直觀的,在所有可能組合的 treatment 上評估 outcome 的回歸結果。
總結一下,現在 ITE 的發展主要集中在,主要集中在(i)放松假設,treatment 從二值變得更多,甚至連續,最后考慮 treatment 之間的相互作用。(ii)設計更簡單,效果更好的網絡結構,多頭網絡每個頭只能單獨訓練,如何減少 branch 同時保證不同 treatment 對 branch 的影響仍然是核心問題。(iii)設計更好的正則化策略,treatment group 之間的樣本數目差距很大,如何從算法的角度減小這個差距也是一個研究重點。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的多篇顶会看个体因果推断(ITE)的前世今生的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一文通俗讲解元学习(Meta-Learn
- 下一篇: 浦发审批越久额度越高