论文阅读——基于观测数据的时间序列因果推断综述
國防科大2022年3月的綜述
?1.Granger
多元Granger: VAR+條件集,P(X|Y)=>條件VAR模型,比較y與y^來判定因果關(guān)系。
(加入條件集,消除其它變量影響)
條件Granger:用矩陣表示參數(shù),簡化計算。并提出基于檢驗的因果判定方法。
檢驗方法的創(chuàng)新,或者先變換空間在創(chuàng)新都能提高Granger適用性。
Lasso-GRanger:添加Lasso進行變量篩選,降低計算復(fù)雜度。
Copular-Granger:結(jié)合Lasso-Granger和潛在因果模型,用D-分離排除混雜因素,用Granger的“非超常分布”識別因果關(guān)系。(有點意思——那可以結(jié)合反事實計算嗎?)
2.信息論
這些方法課衡量因果關(guān)系的強度,但對方向性未準確。
互信息:一個變量 X中包含的關(guān)于另一個變量Y的信息量;或者說X由于已知Y而減少的不確定性
它是一個非負量,如果MI顯著不等于 0,則認為兩個變量之間存在因果關(guān)系,反之亦然。
缺點:由于互信息具有對稱性,因此在確定因果關(guān)系后還需要其他方法進一步定向。(可以結(jié)合Granger和互信息嗎?感覺有希望)
傳遞熵:?TE是一種度量因果關(guān)系的非對稱指標。如果 X和Y的歷史信息所決定的
X的不確定度,小于單獨通過 X的歷史信息所決定的 X的不確定度,那么Y就是 X的原
因,即
缺點:TE在應(yīng)用于非平穩(wěn)序列因果推斷時精度較低,高維序列中的變量選擇也制約了其計算效率。?
(接下來的兩篇文章可以看看,比較新,分別是2020和2022的文章??梢粤私飧赐评矸椒?#xff09;
Rashidi等[28]提出了符號動態(tài)歸一化傳遞熵(Symbolic Dynamic-based Normalized Direct TE,SDNDTE)并將其應(yīng)用于復(fù)雜系統(tǒng)根源變量定位中。SDNDTE首先利用歸一化操作排除變量自信息對因果推斷造成的影響,然后將時間序列轉(zhuǎn)化為基于頻率計數(shù)的狀態(tài)轉(zhuǎn)移矩陣,通過符號發(fā)射矩陣的估計代替?zhèn)鹘y(tǒng)多維核概率密度函數(shù)擬合方法。SDNDTE能不僅能推斷多元非平穩(wěn)序列中的因果關(guān)系,還能有效降低計算復(fù)雜度、減少虛假因果的出現(xiàn)。此外,Zeng等[29]提出了歸一化有效傳遞
熵(Normalized Effective TE,NETE),NETE在保持數(shù)據(jù)概率分布不變的情況,將傳遞熵減
去隨機打亂數(shù)據(jù)后得到的隨機傳遞熵,以消除時間序列的噪聲和非平穩(wěn)性造成的影響。?
3.因果網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
Huang等[45]提出了一種用于非平穩(wěn)和異構(gòu)時間序列因果推斷的CD-NOD(Constraint-based causal Discovery from?Nonstationary/heterogeneous Data)方法。該方法利用變量代理和條件獨立性檢驗重構(gòu)因果網(wǎng)絡(luò)框架,然后利用潛在因果模型中隱含的數(shù)據(jù)分布進行定向。相比此前的方法,CO-NOD是非參數(shù)的,對數(shù)據(jù)分布沒有嚴格限制,且不依賴于時間窗口分割,還能在帶有混雜因素的異質(zhì)數(shù)據(jù)中識別因果關(guān)系。
傳統(tǒng)的因果網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法依賴于因果充分性假設(shè)[5],即假設(shè)系統(tǒng)中不存在未觀測的
共同驅(qū)動因素,但真實系統(tǒng)中往往存在未觀測變量(隱變量)。
2020年,Runge[52]又提出了PCMCI+算法,通過分離存在時延和同期的條件集,以及修改單個條件獨立性測試的條件集,可以在高召回率的前提下有效減少虛假因果,降低時間復(fù)雜度。
4.基于結(jié)構(gòu)因果模型的方法?
第一代:LiNGAM
初始條件:線性,無未觀測的共因,誤差服從非高斯分布。
因果方向判斷方法:因果機制的不對稱性和因果機制的不對稱性。
5.基于非線性狀態(tài)空間模型的方法
2012年,Sugihara等[66]提出了收斂交叉映射(Convergent Cross Mapping, CCM)方法,該
方法基于Takens定理[67],通過狀態(tài)空間重構(gòu)推斷因果關(guān)系.
什么是Takens定理?(需要補充)
如果變量 X可以通過變量Y的時延嵌入重構(gòu)系統(tǒng)來預(yù)測,那么 X和Y之間就存在因果效應(yīng)。
基于非線性狀態(tài)空間模型的時間序列因果推斷方法假設(shè)交互作用發(fā)生在一個潛在的動力系統(tǒng)中,然后基于Takens定理和非線性狀態(tài)空間重構(gòu)來推斷因果關(guān)系。Takens定理可以用于重構(gòu)時間序列中的動力學(xué)信息。它證明在滿足某些條件時,從一個吸引子到重構(gòu)空間的映射是一一對應(yīng)的,只要找到合理的嵌入維數(shù),就能實現(xiàn)相空間中軌道的重構(gòu),并保持其原來的微分結(jié)構(gòu)不變。?
方法一:NLIM?非線性相互依賴度量
?方法二:非線性相互依賴
?Krakovská和Jakubík[74]利用重構(gòu)狀態(tài)空間預(yù)測原理,提出了基于交叉預(yù)測(Cross?
Prediction,CP)和混合預(yù)測(Predictability Improvement,PI)的因果關(guān)系推斷方法。其中
CP方法通過自預(yù)測和交叉預(yù)測的平均絕對誤差判定因果關(guān)系,PI則通過兩種混合優(yōu)化預(yù)測
方法判定因果關(guān)系。CP和PI能適用于多變量系統(tǒng),還能用于因果推斷結(jié)果的敏感性分析。
(這兩篇文章可以看看,應(yīng)該與預(yù)測有關(guān))?
Liu等[81]利用條件熵檢測反饋驅(qū)動的交易和反映市場回報流的“自因果性”,并使用傳遞熵識別新聞情緒和市場回報的信息流相關(guān)的交易活動。
(這篇文章可以看看,與反饋機制有關(guān))
Li和Convertino[91]提出一種互信息和傳遞熵的最優(yōu)信息流生態(tài)系統(tǒng)模型,通過從時間序列中提取復(fù)雜生態(tài)系統(tǒng)的預(yù)測因果網(wǎng)絡(luò),提供廣泛的生態(tài)信息。Oh等[92]提出一種相對符號傳遞熵來研究南大洋的南極繞極波大規(guī)模氣候現(xiàn)象,并解釋了厄爾尼諾-南方濤動的特征。?
(一個是預(yù)測因果網(wǎng)絡(luò),什么樣的網(wǎng)絡(luò)?)
(相對符號傳遞熵,如何進行符號推理?)
Zeng等[96]利用基于歸一化修正傳遞熵和改進的因果網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法,將遙測參數(shù)因果關(guān)系與注意力機制的LSTM相結(jié)合,實現(xiàn)了低誤報率的航天器遙測數(shù)據(jù)異常檢測。
(2022年的文章,可能用處不大)
Tian等[99]提出一種基于CCM的重大工業(yè)事故主因告警和根因追蹤方法,利用CCM識別變量之間的因果方向和間接因果關(guān)系,作為后續(xù)告警根因追蹤的依據(jù)。
(用CCM進行識別,到底根因到哪個階段?)
總結(jié):
1.這篇文章總結(jié)的還不錯,比之前大連理工任偉杰等人的綜述詳細,深入些。
2.對于我想要的內(nèi)容,還是沒有太大的幫助。
3.選取的文章都比較新,想了解相關(guān)方向,值得去看看。
4.現(xiàn)有的推理還是指圖上的推理,未總結(jié)與應(yīng)用結(jié)合的推理方式。
總結(jié)
以上是生活随笔為你收集整理的论文阅读——基于观测数据的时间序列因果推断综述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。