相关分析与回归分析
相關分析(correlation analysis),相關分析是研究現象之間是否存在某種依存關系,并對具體有依存關系的現象探討其相關方向以及相關程度,是研究隨機變量之間的相關關系的一種統計方法。
1簡介編輯
相關關系是一種非確定性的關系,例如,以X和Y分別記一個人的身高和體重,或分別記每公頃施肥量與每公頃小麥產量,則X與Y顯然有關系,而又沒有確切到可由其中的一個去精確地決定另一個的程度,這就是相關關系。2分類編輯
1、線性相關分析:研究兩個變量間線性關系的程度。用相關系數r來描述。 (1)正相關:如果x,y變化的方向一致,如身高與體重的關系,r>0;一般地, ·|r|>0.95 存在顯著性相關; ·|r|≥0.8 高度相關; ·0.5≤|r|<0.8 中度相關; ·0.3≤|r|<0.5 低度相關; ·|r|<0.3 關系極弱,認為不相關 (2)負相關:如果x,y變化的方向相反,如吸煙與肺功能的關系,r<0; (3)無線性相關:r=0。 如果變量Y與X間是函數關系,則r=1或r=-1;如果變量Y與X間是統計關系,則-1<r<1。 (4)r的計算有三種: ①Pearson相關系數:對定距連續變量的數據進行計算。 ②Spearman和Kendall相關系數:對分類變量的數據或變量值的分布明顯非正態或分布不明時,計算時先對離散數據進行排序或對定距變量值排(求)秩。 2、偏相關分析:研究兩個變量之間的線性相關關系時,控制可能對其產生影響的變量。如控制年齡和工作經驗的影響,估計工資收入與受教育水平之間的相關關系。 3、距離分析:是對觀測量之間或變量之間相似或不相似程度的一種測度,是一種廣義的距離。分為觀測量之間距離分析和變量之間距離分析。 (1)不相似性測度: ·a、對等間隔(定距)數據的不相似性(距離)測度可以使用的統計量有Euclid歐氏距離、歐氏距離平方等。 ·b、對計數數據使用卡方。 ·c、對二值(只有兩種取值)數據,使用歐氏距離、歐氏距離平方、尺寸差異、模式差異、方差等。 (2) 相似性測度: ·a、等間隔數據使用統計量Pearson相關或余弦。 ·b、測度二元數據的相似性使用的統計量有20余種。3相關關系編輯
相關分析與回歸分析在實際應用中有密切關系。然而在回歸分析中,所關心的是一個隨機變量Y對另一個(或一組)隨機變量X的依賴關系的函數形式。而在相關分析中 ,所討論的變量的地位一樣,分析側重于隨機變量之間的種種相關特征。例如,以X、Y分別記小學生的數學與語文成績,感興趣的是二者的關系如何,而不在于由X去預測Y。4復相關編輯
研究一個變量 x0與另一組變量 (x1,x2,…,xn)之間的相關程度。例如,職業聲望同時受到一系列因素(收入、文化、權力……)的影響,那么這一系列因素的總和與職業聲望之間的關系,就是復相關。復相關系數R0.12…n的測定,可先求出 x0對一組變量x1,x2,…,xn的回歸直線,再計算x0與用回歸直線估計值憫之間的簡單直線回歸。復相關系數為 R0.12…n的取值范圍為0≤R0.12…n≤1。復相關系數值愈大,變量間的關系愈密切。5偏相關編輯
研究在多變量的情況下,當控制其他變量影響后,兩個變量間的直線相關程度。又稱凈相關或部分相關。例如,偏相關系數 r13.2表示控制變量x2的影響之后,變量 x1和變量x3之間的直線相關。偏相關系數較簡單直線相關系數更能真實反映兩變量間的聯系。 偏相關系數、復相關系數、簡單直線相關系數之間存在著一定的關系。以3個變量x1,x2,x3為例,它們有如下的關系: 公式 或 公式6定序變量編輯
討論兩個定序變量間的相關的程度與方向。又稱等級相關。例如,研究夫婦雙方文化程度的相關等。等級相關系數有R系數和γ系數。 R系數 計算方法與簡單直線相關系數相同。 式中 公式 X,Y分別為x,y的測量值的等級。 英國統計學家 C.E.斯皮爾曼從R系數中推導出簡捷式,稱斯皮爾曼等級相關系數: 公式 式中di=xi-yi,i=1,2,…,N(N為次數)。 等級相關系數 R具有與簡單直線相關相同的性質:取值范圍在〔-1,+1〕之間;R的絕對值愈大,變量間的等級相關程度愈大。 γ系數 適用于資料次數N 很大的情況。 公式 式中Ns為同序對數目,Nd為異序對數目。 同序對表示兩個個案(xi,yi)和(xj,yj)相比時,具有xi>xj,則yi>yj的性質;反之,若xi>xj,但yi<yj,則稱作一個異序對。 γ系數的取值范圍在〔-1,+1〕之間。γ的絕對值愈大,變量間的等級相關程度愈大。
目錄
1定義
2應用
3步驟
4注意問題
1定義
回歸分析是應用極其廣泛的數據分析方法之一。它基于觀測數據建立變量間適當的依賴關系,以分析數據內在規律,并可用于預報、控制等問題。 方差齊性 線性關系 效應累加 變量無測量誤差 變量服從多元正態分布 觀察獨立 模型完整(沒有包含不該進入的變量、也沒有漏掉應該進入的變量) 誤差項獨立且服從(0,1)正態分布。 現實數據常常不能完全符合上述假定。因此,統計學家研究出許多的回歸模型來解決線性回歸模型假定過程的約束。 研究一個或多個隨機變量Y1 ,Y2 ,…,Yi與另一些變量X1、X2,…,Xk之間的關系的統計方法,又稱多重回歸分析。通常稱Y1,Y2,…,Yi為因變量,X1、X2,…,Xk為自變量。回歸分析是一類數學模型,特別當因變量和自變量為線性關系時,它是一種特殊的線性模型。最簡單的情形是一個自變量和一個因變量,且它們大體上有線性關系,這叫一元線性回歸,即模型為Y=a+bX+ε,這里X是自變量,Y是因變量,ε是隨機誤差,通常假定隨機誤差的均值為0,方差為σ^2(σ^2大于0)σ^2與X的值無關。若進一步假定隨機誤差遵從正態分布,就叫做正態線性模型。一般的情形,它有k個自變量和一個因變量,因變量的值可以分解為兩部分:一部分是由于自變量的影響,即表示為自變量的函數,其中函數形式已知,但含一些未知參數;另一部分是由于其他未被考慮的因素和隨機性的影響,即隨機誤差。當函數形式為未知參數的線性函數時,稱線性回歸分析模型;當函數形式為未知參數的非線性函數時,稱為非線性回歸分析模型。當自變量的個數大于1時稱為多元回歸,當因變量個數大于1時稱為多重回歸。 回歸分析的主要內容為: ①從一組數據出發,確定某些變量之間的定量關系式,即建立數學模型并估計其中的未知參數。估計參數的常用方法是最小二乘法。 ②對這些關系式的可信程度進行檢驗。 ③在許多自變量共同影響著一個因變量的關系中,判斷哪個(或哪些)自變量的影響是顯著的,哪些自變量的影響是不顯著的,將影響顯著的自變量選入模型中,而剔除影響不顯著的變量,通常用逐步回歸、向前回歸和向后回歸等方法。 ④利用所求的關系式對某一生產過程進行預測或控制。回歸分析的應用是非常廣泛的,統計軟件包使各種回歸方法計算十分方便。 在回歸分析中,把變量分為兩類。一類是因變量,它們通常是實際問題中所關心的一類指標,通常用Y表示;而影響因變量取值的的另一類變量稱為自變量,用X來表示。 回歸分析研究的主要問題是: (1)確定Y與X間的定量關系表達式,這種表達式稱為回歸方程; (2)對求得的回歸方程的可信度進行檢驗; (3)判斷自變量X對因變量Y有無影響; (4)利用所求得的回歸方程進行預測和控制。2應用
相關分析研究的是現象之間是否相關、相關的方向和密切程度,一般不區別自變量或因變量。而回歸分析則要分析現象之間相關的具體形式,確定其因果關系,并用數學模型來表現其具體關系。比如說,從相關分析中我們可以得知“質量”和“用戶滿意度”變量密切相關,但是這兩個變量之間到底是哪個變量受哪個變量的影響,影響程度如何,則需要通過回歸分析方法來確定。 一般來說,回歸分析是通過規定因變量和自變量來確定變量之間的因果關系,建立回歸模型,并根據實測數據來求解模型的各個參數,然后評價回歸模型是否能夠很好的擬合實測數據;如果能夠很好的擬合,則可以根據自變量作進一步預測。 例如,如果要研究質量和用戶滿意度之間的因果關系,從實踐意義上講,產品質量會影響用戶的滿意情況,因此設用戶滿意度為因變量,記為Y;質量為自變量,記為X。根據圖8-3的散點圖,可以建立下面的線性關系: Y=A+BX+§ 式中:A和B為待定參數,A為回歸直線的截距;B為回歸直線的斜率,表示X變化一個單位時,Y的平均變化情況;§為依賴于用戶滿意度的隨機誤差項。 對于經驗回歸方程: y=0.857+0.836x 回歸直線在y軸上的截距為0.857、斜率0.836,即質量每提高一分,用戶滿意度平均上升0.836分;或者說質量每提高1分對用戶滿意度的貢獻是0.836分。 上面所示的例子是簡單的一個自變量的線性回歸問題,在數據分析的時候,也可以將此推廣到多個自變量的多元回歸,具體的回歸過程和意義請參考相關的統計學書籍。此外,在SPSS的結果輸出里,還可以匯報R2,F檢驗值和T檢驗值。R2又稱為方程的確定性系數(coefficient of determination),表示方程中變量X對Y的解釋程度。R2取值在0到1之間,越接近1,表明方程中X對Y的解釋能力越強。通常將R2乘以100%來表示回歸方程解釋Y變化的百分比。F檢驗是通過方差分析表輸出的,通過顯著性水平(significant level)檢驗回歸方程的線性關系是否顯著。一般來說,顯著性水平在0.05以上,均有意義。當F檢驗通過時,意味著方程中至少有一個回歸系數是顯著的,但是并不一定所有的回歸系數都是顯著的,這樣就需要通過T檢驗來驗證回歸系數的顯著性。同樣地,T檢驗可以通過顯著性水平或查表來確定。在上面所示的例子中,各參數的意義如表8-2所示。 線性回歸方程檢驗| 指標 | 顯著性水平 | 意義 | ? |
| R2 | 0.89 | ? | “質量”解釋了89%的“用戶滿意度”的變化程度 |
| F | 276.82 | 0.001 | 回歸方程的線性關系顯著 |
| T | 16.64 | 0.001 | 回歸方程的系數顯著 |
| 指標 | 顯著性水平 | 意義 | ? |
| R2 | 0.89 | ? | “質量”和“形象”解釋了89%的“用戶滿意度”的變化程度 |
| F | 248.53 | 0.001 | 回歸方程的線性關系顯著 |
| T(形象) | 0.00 | 1.000 | “形象”變量對回歸方程幾乎沒有貢獻 |
| T(質量) | 13.93 | 0.001 | “質量”對回歸方程有很大貢獻 |
| T(價格) | 5.00 | 0.001 | “價格”對回歸方程有很大貢獻 |
| 指標 | 顯著性水平 | 意義 | ? |
| R | 0.89 | ? | “質量”和“形象”解釋了89%的“用戶滿意度”的變化程度 |
| F | 374.69 | 0.001 | 回歸方程的線性關系顯著 |
| T(質量) | 15.15 | 0.001 | “質量”對回歸方程有很大貢獻 |
| T(價格) | 5.06 | 0.001 | “價格”對回歸方程有很大貢獻 |
3步驟編輯
確定變量
明確預測的具體目標,也就確定了因變量。如預測具體目標是下一年度的銷售量,那么銷售量Y就是因變量。通過市場調查和查閱資料,尋找與預測目標的相關影響因素,即自變量,并從中選出主要的影響因素。建立預測模型
依據自變量和因變量的歷史統計資料進行計算,在此基礎上建立回歸分析方程,即回歸分析預測模型。進行相關分析
回歸分析是對具有因果關系的影響因素(自變量)和預測對象(因變量)所進行的數理統計分析處理。只有當變量與因變量確實存在某種關系時,建立的回歸方程才有意義。因此,作為自變量的因素與作為因變量的預測對象是否有關,相關程度如何,以及判斷這種相關程度的把握性多大,就成為進行回歸分析必須要解決的問題。進行相關分析,一般要求出相關關系,以相關系數的大小來判斷自變量和因變量的相關的程度。計算預測誤差
回歸預測模型是否可用于實際預測,取決于對回歸預測模型的檢驗和對預測誤差的計算。回歸方程只有通過各種檢驗,且預測誤差較小,才能將回歸方程作為預測模型進行預測。確定預測值
利用回歸預測模型計算預測值,并對預測值進行綜合分析,確定最后的預測值。4注意問題編輯
應用回歸預測法時應首先確定變量之間是否存在相關關系。如果變量之間不存在相關關系,對這些變量應用回歸預測法就會得出錯誤的結果。 正確應用回歸分析預測時應注意: ①用定性分析判斷現象之間的依存關系; ②避免回歸預測的任意外推; ③應用合適的數據資料;兩者的區別為:?
???????回歸和相關都是研究兩個變量相互關系的分析方法。相關分析研究兩個變量之間相關的方向和相關的密切程度。但是相關分析不能指出兩變量相互關系的具體形式,也無法從一個變量的變化來推測另一個變量的變化關系。回歸方程則是通過一定的數學方程來反映變量之間相互關系的具體形式,以便從一個已知量來推測另一個未知量。為估算預測提供一個重要的方法。具體區別有:
???? ???①相關分析中變量之間處于平等的地位;回歸分析中,因變量處在被解釋的地位,自變量用于預測因變量的變化;
②相關分析中不必確定自變量和因變量,所涉及的變量可以都是隨機變量;而回歸分析則必須事先確定具有相關關系的變量中,哪個是因變量,哪個是因變量。一般來說,回歸分析中因變量是隨機變量,而把自變量作為研究時給定的非隨機變量;
③相關分析研究變量之間相關的方向和相關的程度,但相關分析不能根據一個變量的變化來推測另一個變量的變化情況;回歸分析是研究變量之間相互關系的具體表現形式,根據變量之間的聯系確定一個相關的數學表達式,從而可以從已知量來推測未知量。
④對兩個變量來說,相關分析中只能計算出一個相關系數;而回歸分析中有時可以根據研究目的的不同建立兩個不同的回歸方程。
兩者的聯系為:
相關分析與回歸分析是廣義相關分析的兩個階段,兩者有著密切的聯系?:
??①相關分析是回歸分析的基礎和前提,回歸分析則是相關分析的深入和繼續。相關分析需要依靠回歸分析來表現變量之間數量相關的具體形式,而回歸分析則需要依靠相關分析來表現變量之間數量變化的相關程度。只有當變量之間存在高度相關時,進行回歸分析尋求其相關的具體形式才有意義。如果在沒有對變量之間是否相關以及相關方向和程度做出正確判斷之前,就進行回歸分析,很容易造成“虛假回歸”。
②由于相關分析只研究變量之間相關的方向和程度,不能推斷變量之間相互關系的具體形式,也無法從一個變量的變化來推測另一個變量的變化情況,因此,在具體應用過程中,只有把相關分析和回歸分析結合起來,才能達到研究和分析的目的。總結
- 上一篇: SDN(软件定义网络)
- 下一篇: 大白话解析模拟退火算法