广义典型相关分析_重复测量数据分析及结果详解(之二)——广义估计方程
二、廣義估計方程
(一)廣義估計方程的思想
廣義估計方程的計算過程很復雜,但思想卻并不難理解。該方法假定在多次測量之間存在一定的相關結構(廣義估計方程中叫做作業相關矩陣)。對于重復測量數據而言,最主要的問題就是存在各次測量之間的相關性,從而不能用常規的線性模型等方法。所以廣義估計方程思想很簡單,就是把這種相關進行校正一下,然后得到校正后的參數估計值,這樣就比較可靠了。?
(二)廣義估計方程中的作業相關矩陣
由于不同時間點觀測之間的相關大小存在各種可能性,因此作業相關矩陣也有多種,常見的包括:?
(1)獨立結構(independence structure),即不同時間點 上的測量值之間彼此獨立,無相關關系。這種結構因為數據完全獨立,實際上也無需考慮廣義估計方程,直接采用常規的廣義線性模型即可。
(2)等相關結構(exchangeable correlation structure),即 假定任意兩次觀測之間的相關性是相等的,不隨兩個時間 點之間的間隔大小而改變。不管是第1次觀測與第2次觀測,還是第3次觀測與第5次觀測,相關系數都相等。
(3)一階相關結構(one‐dependent structure),表示某時間點的測量值只與其臨近時間點的觀測存在相關性,而與其他時間點的觀測無關。例如,第2次觀測只與第1次和第3次有相關,而與第4次無關。?
(4)自相關(autocorrelation),即相關大小與間隔次數有 關,相鄰兩次觀測之間相關較強,間隔越遠,相關性越小。例如,第 2次觀測與第 1次和第 3次觀測相關性較大,與第4次觀測的相關性較小。?
(5)無結構相關(unstructured correlation),即假定不同 時間點觀測值的相關系數各不相等,不存在前面幾種相關 結構的規律。?
作業相關矩陣的選擇是廣義估計方程中很關鍵的一部分,需要一定的統計學知識來判斷。不少研究認為,作業相關矩陣的選擇對參數估計結果的影響不大。然而實際數據分析中,指定不同的作業相關矩陣有時確實會產生不同的 參數估計值和標準誤(盡管這種情況很少見)。盡管一般差別不大,但筆者仍建議, 盡量指定最為合適的作業相關矩陣,以獲得最可靠的估計結果。
如何選擇合適的作業相關矩陣,建議結合以下兩種方式綜合考慮:
(1)根據不同時間點觀測值的相關系數矩陣考慮。簡單來說,先計算各次相關系數,大致觀察一下相關系數情況,然后進行判斷。
如果任意兩次的相關系數差不多,可考慮等相關;
如果相關系 數出現隨時間間隔而規律性減小的趨勢,可考慮自相關;
如果無明顯的規律,可考慮無結構相關。
理論上,指定無結構相關最為穩妥,可以滿足任意情形的相關系數矩陣,但它需要估計的參數也最多。例如,對于 5次重復測量,如果指定等相關,只需要估計 1個參數即可(只有 1個相關系數);而無結構相關則需要估計任意兩個時間點的相關系數,即 10個參數,估計參數過多容易導致統計學效能(power)的降 低。因此,實際分析中需要綜合考慮,根據相關系數矩陣的 提示選擇較為合理的作業相關矩陣。
(2)結合QIC指標(quasi‐likelihood under the independence model criterion)選擇。QIC類似于廣義線性模型的擬合優度指標 AIC,只是最大似然值換成了準似然值。
對QIC不理解也無所謂,關鍵知道,其值越小表示選擇的作業相關矩陣越合適。與AIC指標類似,QIC 指標中也有對變量的懲罰項,即 QIC 值不一定隨著模型中 變量的增多而變小,只有模型中含有意義的變量,其值才會變小,提示模型更優;如果納入無意義的變量,其值反而會 升高,提示模型變差。實際分析時,可以分別指定不同的作業相關矩陣,然后比較各自的QIC值,選擇其中較小者。?
(三)廣義估計方程的用途廣義估計方程主要用于重復測量數據的分析,這里的重復測量不僅包括臨床試驗中較為固定、時間點較少的情形,也包括像生長發育監測、流行病學人群縱向觀察等時間點較為靈活或時間點較多的情形。在臨床試驗的重復測量數據分析中,廣義估計方程也可以用于組間比較、時間點的比較、組間趨勢變化的分析。在其他縱向觀測數據中,廣義估計方程可根據研究目的進行靈活分析。?
(四)廣義估計方程的SAS軟件實現
我們仍然采用上一篇文章的數據作為例子。為了方便,我們把上一篇文章的基本數據(表1)和圖示(圖1)放在下面,免得大家來回翻。
廣義估計方程的操作需要先進行一定的探索,確定作業相關矩陣(其實往往很多統計分析都是這樣,真正寫在文章中的結果都是精華,但其實可能前期我們已經做了非常多的工作,但不可能把所有工作都寫在文章里)。
本例中我們分別指定了各種不同的作業相關矩陣,結果均一致,因此本例可任意指定一種作業相關矩 陣,結果不受影響。簡單起見,我們指定作業相關矩陣為等相關。
對例 1數據采用基于等相關作業相關矩陣的廣義估計方程,首先不加入時間與組別的交互項,先分析時間與組別各自的主效應(主效應是基于所有人 (即不分組)的結果)。SAS程序如下:
data ex2;?input id group time y;?cards;…… ;?proc gee data=ex2;class id time/param=reference ref=first;?model y=time group;repeatedsubject=id/within=time type=exch corrw;?/*subject 指定個體變量,重復測量數據中通常為個體的id編號;within指定重復測量的變量,通常是時間點變量;type指定作業相關矩陣;corrw指定輸出作業相關矩陣*/run;表 4 顯示了組別與時間的主效應,結果提示,兩組之 間 Y 值評分差異有統計學意義(P=0.002),治療后第 3周與 治療前差異有統計學意義(P=0.005),治療后第 4周與治療 前差異有統計學意義(P<0.001)。
主效應是基于所有人 (即不分組)的結果,因此,表 4 結果對應于上一篇文章重復測量方差分析表3 結果中的總體比較(盡管結果并不完全一致,這很正常)。參數估計值顯示了差異情況,例如,group 的參數估計值顯 示組間差異為 7.8,即試驗組的均值(114.6)與對照組的均 值(106.8)相比高 7.8;time 1 vs 0 的參數估計值顯示組間差 異為 1.4,提示第 1 周均值(108.9)比治療前均值(107.5) 高 1.4。其余time 2 vs 0等的解釋以此類推。
如果分析中不加入時間與組別的交互項,相當于假定兩條線是平行的,然而實際中這一假定并不一定滿足。圖1可以看出兩條線可能不平行(雖然上一篇文章的重復測量方差分析并不認為兩條線不平行,但對于數據分析來說,我們一開始并不知道,都是通過簡單圖示探索先得到一定認識,然后基于這種認識再深入分析),因此考慮在分析中納入時間與組別的交互項,以便觀察兩組的變化趨勢是否有差異。加入交互項的SAS程序如下:
data ex2;
input id group time y;
cards;
?……
?;
proc gee data=ex2;
class id time/param=reference ref=first;
model y=time group time*group;
/*這里加入了交互項,以反映兩條線是否平行*/
repeated subject=id/within=time type=exch corrw;
run;
表5顯示了加入組別與時間交互效應的結果。一旦加入交互效應,組別與時間點反映的不再是主效應,而是單獨效應(這句話非常關鍵,一定要牢牢記住)。因此,如果想了解組別與時間點的主效應,可以先不加入交互項。單獨效應反映的不是所有人的估計結果,而是某一亞組(如對照組的觀測、第1周的觀測等)的估計結果。
下面這段結果的解釋非常重要,建議一定仔細看。對于想了解交互效應如何解釋的朋友,尤為重要。這一段不僅是對廣義估計方程的解釋,也是對常見其它模型中存在分類變量交互項的解釋。
單獨效應的結果與變量賦值有很大關系,本例中試驗組賦值為1,對照組賦值為0,時間點分別賦值為0~4。因此,表5中group反映的不是所有人兩組的差值,而是治療前這一時間點的兩組差值(4.2);同樣,time 1 vs 0反映的也不是所有人在第1周與治療前的差值,而是對照組第1周與治療前的差值(1.4)。
????交互項的結果對應于重復測量方差分析表3結果中的分組比較。例如,group*time(1 vs 0)的參數估計值為0,它反映了第1周兩組差值(4.2)與治療前兩組差值(4.2)的差值,也可以說,反映了試驗組第1周-治療前的值(1.4)與對照組第1周-治療前的值(1.4)的差值(仔細體會一下這兩種說法),兩種說法均可,取決于研究目的側重說明什么。其他交互項的解釋含義以此類推。
(五)廣義估計方程分析的注意事項
(1)盡管廣義估計方程需要考慮作業相關矩陣的設置,但絕大多數情況下,結果是一致的。建議實際分析中,首先可指定不同的作業相關矩陣,觀察分析結果是否一致,如果一致,可以任選其一,否則可根據相關矩陣和QIC綜合考慮,選擇最合適的作業相關矩陣。
(2)廣義估計方程的結果比重復測量方差分析更接近模型的形式,因此不少非統計學專業人員可能對結果的解讀存在一定困難,尤其是加入交互項的結果解讀,需要仔細體會,否則很容易出現結果的解釋錯誤。????????
(3)廣義估計方程比重復測量方差分析在分析思路上更為靈活,但這同時需要對統計學知識和軟件操作的更高要求,因為廣義估計方程的結果與自變量賦值有很大關系。例如對時間點賦值0~4,與賦值為1~5,二者給的結果會有不同。這一點其實在所有的模型類都是如此,分類資料的賦值很重要。
(4)廣義估計方程對缺失值比重復測量方差分析更為耐受。它是基于完全隨機缺失的假設(關于隨機缺失等概念參見以前文章,下一篇文章也會再次介紹),因此完全隨機缺失模式對廣義估計方程的結果影響不大,此時其參數估計值仍是穩定的,但如果是隨機缺失,仍會影響廣義估計方程的結果,這種情況下,可 考 慮 加 權 的 廣 義 估 計 方 程(Weighted Generalized Estimating Equations),該法是基于隨機缺失的假定,但僅限于失訪模式(即一個人在某個時間點缺失后,后面的時間點均無數據)。
總結
以上是生活随笔為你收集整理的广义典型相关分析_重复测量数据分析及结果详解(之二)——广义估计方程的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 藏在身体里的"不定时炸弹"!血管好不好
- 下一篇: 4499元!AGM G1S Pro三防手