datagrid出现相同两组数据_数据分析之统计学
統計學知識
- 思維導圖
第一節 統計學基本原理
- 數據分析相關概念
一、描述統計
1.定類(nominal)
功能:分類的作用,比如性別
2.定序(ordinal)
功能:分類、排序的作用,比如最想去的國家
3.定距(scale)
功能:分類、排序、加減,比如溫度
4.定比(scale)
功能:分類、排序、加減、乘除,比如年齡
定類與定序合并成分類變量,定距與定比合并成連續變量。
分類變量的描述統計方法只能用頻次統計,對于連續變量既可以用頻次統計也可以用均值和標準差。
1.算數平均
2.幾何平均
3.調和平均
可能用在數據中較多數值集中在最小值附近,原因可能是因為調和平均相對于算數、幾何平均最小。
4.調整平均
去掉上限值或者下限值,比例一般為5%
1.中位數:
當一組序列數據之間差異較大時,導致平均值代表性較弱,可通過中位數來表示數據的集中趨勢。
平均值、中位數通常應用在連續變量中,即數值型變量;
眾數既可以應用在連續變量也可以應用在分類變量。
衡量離散趨勢,數據離散趨勢代表了數據中包含的信息量。
1.標準差
標準差計算公式中,有的除以n,有的除以n-1;
當計算總體數據標準差時,除以n,
通過樣本數據計算總體標準差時,除以n-1;
原因是人為增大標準差以提高代表性。
2.離散趨勢
如果希望比較兩組數據的離散趨勢,不能直接比較兩組數據的標準差,因為兩組數據的樣本量和均值不同。通常選用離散系數來進行比較,離散系數=標準差/平均值
二、總體推斷/假設檢驗
1.Z值轉換公式
Z=(xi-x)/s
用來將t分布轉換為(0,1)z分布,又稱為標準化,或者叫Z值標準化;用于判斷哪些數值為異常值,|Z值|>3為異常值,|Z值|>5為極端值。
2.置信度
T=1.65 對應90%的置信度
T=1.98 對應95%的置信度
T=2.58 對應99%的置信度
3.假設檢驗
步驟:
P<5%,則拒絕原假設H0,接受研究假設H1;
P>5%,則接受原假設H0,拒絕研究假設H1。
三、抽樣方法
1、分層抽樣
如何讓選擇分層變量
四、卡方檢驗
假設檢驗的結論:
p>0.05,則原假設成立,研究假設不成立;
P<0.05,則原假設不成立,研究假設成立。
1.卡方檢驗的重要性
適用于不知道總體參數的檢驗,是最常用的一種非參數檢驗。
當不適用于參數檢驗法的時候,第一個想到的就是卡方檢驗。
2.卡方檢驗的應用場景
檢驗一個變量中取值的比例分布是否相等,或者是否符合設定的比例分布
原假設:變量的取值分布與均勻分布(研究者設定的分布)沒有顯著差異
研究假設:變量的取值分布與均勻分布(研究者設定的分布)有顯著差異
SPSS操作:分析-非參數檢驗-舊對話框-卡方
檢驗一個變量取二分類兩個值的概率是否符合設定的概率
原假設:變量的第一個取值比例與設定比例沒有顯著差異。
研究假設:變量的第一個取值與設定比例有顯著差異。
SPSS操作:分析-非參數檢驗-舊對話框-二項
- 分割點:是將一個連續變量,選擇一個值作為分割點
檢驗樣本來自的總體中,一個變量的分布是否服從正態分布、均勻分布、泊松分布、指數分布
原假設:變量來自總體的分布與正態分布(均勻分布等)沒有顯著差異,即變量在總體中呈現正態分布(或均勻分布等)。
研究假設:變量來自總體的分布與正態分布(均勻分布等)有顯著差異,即變量在總體中不呈現正態分布(或均勻分布等)。
SPSS操作:分析-非參數檢驗-舊對話框-單樣本K-S
檢驗一個變量的兩個取值的出現順序是否隨機。兩個值出現比例各占50%。
檢驗場景:通常是檢驗隨著時間變化而產生的兩個數值,出現順序是否隨機。
原假設:變量的兩個值的出現順序和隨機出現沒有顯著差異。
研究假設:變量的兩個值的出現順序不是隨機的。
SPSS操作:分析-非參數檢驗-舊對話框-游程檢驗
獨立樣本:兩組不重疊的樣本,檢驗不同人群在特定變量在取值上是否有差異;
比如男性和女性在收入分布上是否有差異。
原假設:兩組來自總體的變量數據在分布上沒有顯著差異,即兩組數據在該變量的取值上沒有顯著差異。
研究假設:兩組來自總體的變量數據在分布上有顯著差異,即兩組數據在該變量的取值上有顯著差異。
注意:分組變量是分類變量,比較變量是連續變量
SPSS操作:分析-非參數檢驗-舊對話框-2個獨立樣本
配對樣本:同一組人群不同時間采集的兩組或多組數據,或者同一組人群不同身體部位所采集的兩組或多組數據。
檢驗同一組人群在不同時間、不用部位采集的數據是否有差異。
原假設:來自總體的同一組人群的兩組數據在分布上沒有顯著差異,即兩組數據在該變量的取值上沒有顯著差異。
研究假設:來自總體的同一組人群的兩組數據在分布上有顯著差異,即兩組數據在該變量的取值上有顯著差異。
注意:t1、t2,比較的變量必須是連續變量
SPSS操作:分析-非參數檢驗-舊對話框-2個相關樣本
檢驗兩個分類變量(定類和定序)是否有相關性。
如果場景中需要對連續變量進行卡方檢驗,首先需要將連續變量轉換為分類變量;如年齡分成70后、80后、90后、00后。
SPSS操作:分析-描述統計-交叉表
- 連續變量轉換成分類變量的操作:轉換-重新編碼為不同變量,收入分為0-50,51-400,401及以上
- 如果兩個變量都是定類變量,相關系數可通過卡方檢驗中“名義”里的4個相關系數;如果兩個變量都是定序變量,則選擇“有序”里的4個相關系數。
- 問:如果兩個變量中,一個為定類變量,一個為定序變量,相關系數應該選哪個?
答;應該選“名義”中的4個相關系數。原因是定序變量可以降級為定類變量,而定類變量不可以升級為定序變量。
- 卡方檢驗結果解讀:
第一步:看卡方統計結果,根據P值判斷兩個變量是否存在相關性;如p<0.05,則說明兩者存在顯著相關性。
第二步:看相關系數,判斷兩者之間相關性到底有多大。
- 0-0.2,較弱相關;
- 0.2-0.4,弱相關;
- 0.4-0.6,相關性一般;
- 0.6-0.8,弱強相關;
- 0.8-1,極強相關。
第三步:看頻次分布,具體分析兩者存在什么樣的相關。
五、t檢驗、方差檢驗
1.t檢驗
用來檢驗樣本中某個連續變量的均值與給定的總體均值是否存在差異。
用到的變量:一個連續變量。
原假設:樣本所來自總體的均值與給定的均值之間沒有顯著差異。
研究假設:樣本所來自總體的均值與給定的均值之間有顯著差異。
SPSS操作:分析-比較平均值-單樣本T檢驗
用來檢驗兩組獨立樣本在某個連續變量的均值是否有顯著差異。
用到的變量:一個連續變量和一個分類變量(也可以將連續變量進行分組得到一個分類變量)。
原假設:樣本所來自總體的均值與給定的均值之間沒有顯著差異。
研究假設:樣本所來自總體的均值與給定的均值之間有顯著差異。
SPSS操作:分析-比較平均值-獨立樣本T檢驗
方差齊性檢驗
原假設:兩組總體中的方差是相等的(沒有差異的)。
研究假設:兩組總體中的方差是不相等的(有差異的)。
當p>0.05時,原假設成立;即兩組總體中的方差是相等的,需要看第一行的t值檢驗結果。反之則看第二行的t值檢驗結果。
用來檢驗同一樣本不同時間/部位/處理條件測量得到的兩組數據均值是否存在差異。
原假設:樣本所來自總體的均值與給定的均值之間沒有顯著差異。
研究假設:樣本所來自總體的均值與給定的均值之間有顯著差異。
變量:兩個人連續變量(其實是針對同一組人群不同時間/處理部位/條件測量的兩組數據)
SPSS操作:分析-比較平均值-成對樣本t檢驗
2.方差檢驗
變量:變量既可以是分類也可以是連續變量,因變量必須是連續變量
檢驗3組人群及以上在某個連續變量均值上是否存在差異,或某個分類變量對連續變量是否存在顯著相關。
變量:自變量為一個,是分類變量;因變量是一個,且為連續變量。
原假設:不同人群之間在該連續變量的均值沒有顯著差異(自變量與因變量之間不存在顯著相關)
研究假設:不同人群之間在該連續變量的均值有顯著差異(自變量與因變量之間存在顯著相關)
SPSS操作:分析-比較平均值-單因素ANOVA檢驗
- 兩兩比較中根據方差齊性檢驗結果,來選擇方差相等的比較結果或方差不等的檢驗結果。
- 方差齊性檢驗:“選項”中-勾選“方差齊性檢驗”。當方差不齊時,則通過非參數檢驗中的K個獨立樣本檢驗法進行檢驗。
檢驗多個變量在某個連續變量均值上是否存在差異,或多個變量對連續變量是否存在顯著相關。
變量:自變量為多個,既可以是分類變量也可以是連續變量;因變量是一個,且為連續變量。
原假設:多個自變量與因變量之間不存在顯著相關
研究假設:多個自變量與因變量之間存在顯著相關
SPSS操作:分析-一般線性模型-單變量
- 全因子模型:既考慮所有自變量對于因變量的直接效應,又考慮所有分類變量的交互作用對因變量的影響。
- 構建項(定制模型):可根據研究者自身需求,定制需要考慮的對因變量的影響因素。比如只考慮自變量的直接效應,或部分自變量的交互作用。
- 當自變量特別多時,尤其是分類自變量特別多時,且樣本量不多時,應該使用定制模型。
一個因變量,在多個時刻重復測量多次,自變量可以有也可以沒有
- 因素(Factor)
因素是可能對因變量有影響的變量,一般來說,因素會不止一個水平,而分析的目的就是考察或比較各個水平對一變量的影響是否相同。
- 水平(Level)
因素的不同取值等級稱作水平,例如八性別有男、女兩個水平。
- 單元(Cell)
單元亦稱實驗水平(Experimental Unit),指各因素水平之間的每種組合。指各因素各水平的組合,例如在研究性別(二水平)、血型(四水平)對成年人身高的影響時,該設計最多可以有2*4=8個單元。注意在一些特殊的實驗設計中,可能有的單元在樣本中并不會出現,如正交設計。
- 元素(Element)
- 指用于測量因變量值的觀察單位,比如研究職業與收入之間的關系,月收入是從每一位受訪者處得到,則每位受訪者就是實驗的因素。
- 一個單元格內可以有多個元素,也可以只有一個,甚至于沒有元素。
- 注意:元素不一定等同于受訪者個體!
- 重復測量數據
- 以家庭為單位收集資料
- 均衡(Balance)
如果在一個實驗設計中任一因素各水平在所有單元格中出現的次數相同,且每個單元格內的元素數均相同,則該試驗是均衡的;否則,就被稱為不均衡。不均衡的實驗設計在分析時較為復雜,需要對方差分析模型作特別設置才能得到正確的分析結果。
- 協變量(Covariates)
指對因變量可能有影響,需要在分析時對其作用加以控制的連續變量,實際上,可以簡單的把因素和協變量分別理解為分類自變量和連續自變量。當模型中存在協變量時,一般是通過找出它與因變量的回歸關系來控制其影響。
- 交互作用(Interaction)
- 如果一個因素的效應大小在另一個因素不同水平下明顯相同,則稱為兩因素間存在交互作用。當存在交互作用時,單純研究某個因素的作用是沒有意義的,必須分另一個因素的不同水平研究該因素的作用大小。
- 如果所有單元格內都至多只有一個元素,則交互作用無法進行分析,只能不予考慮。
- 固定因素(Fixed Factor)
- 指的是該因素在樣本中所有可能的水平都出現了。從樣本的分析結果中就可以得到所有水平的狀況,無需進行外推。絕大多數情況下,研究者所真正關心的因素都是固定因素。
- 性別:只有兩種
- 療法:只有三種
- 隨機因素(Random Factor)
- 該因素所有的可能取值在樣本中沒有出現,目前在樣本中的這些水平是從總體中隨機抽樣而來,如果我們重復該研究,則可能得到的因素水平會和現在完全不同!
- 這時,研究者顯然希望得到的是一個能夠“泛化”,即對所有可能出現的水平均適用的結果。這不可避免的存在誤差,需要估計誤差的大小,因此被稱為隨機因素。
第二節 多指標統計分析
- 多變量分析方法的選擇
| 分析的目的 | 有無目標變量(因變量、外部推測) | 目標變量的數據類型 | 解釋變量 | 具有代表的多變量分析的例子 |
| 有監督分析需要用多個因素來預測、解釋、判斷某個項目(想要用數學方法描述由多個原因引起的結果) | 有 | 定量數據(量的數據) | 定量數據 | 多元回歸分析方差分析 |
| 定性數據 | 有虛擬變量的回歸分析聯合分析(conjoint analysis)方差分析 | |||
| 定性數據(質的數據) | 定量數據 | 判別分析(discriminate analysis)Logistic/probit analysis | ||
| 定性數據 | 對數線性回歸 | |||
| 無監督分析1想要歸并相似者2想要用圖表解釋變量之間的線性關系3想要概括變量之間的關系4想要知道解釋項目之間的相關關系的潛在結構 | 沒有 | —— | 定量數據 | 因子分析(factor analysis)聚類分析(cluster analysis) |
| 定性數據 | 對應分析(correspondence analysis)多維尺度法(militiamen signal scaling) | |||
| (其他的分析) | 加入潛在變量的因果關系分析模型 | 結構方程模型(協方差結構分析(covariance tructure analysis; strucural equation model-SEM))路徑模型 | ||
| 基于多個候補方案的一對一比較分析模型 | 層次分析法(analytic hierarchy process-AHP)因子分析 |
- 分析的目的有無目標變量(因變量、外部推測)目標變量的數據類型解釋變量具有代表的多變量分析的例子有監督分析需要用多個因素來預測、解釋、判斷某個項目(想要用數學方法描述由多個原因引起的結果)有定量數據(量的數據)定量數據多元回歸分析方差分析定性數據有虛擬變量的回歸分析聯合分析(conjoint analysis)方差分析定性數據(質的數據)定量數據判別分析(discriminate analysis)Logistic/probit analysis定性數據對數線性回歸無監督分析1想要歸并相似者2想要用圖表解釋變量之間的線性關系3想要概括變量之間的關系4想要知道解釋項目之間的相關關系的潛在結構沒有——定量數據因子分析(factor analysis)聚類分析(cluster analysis)定性數據對應分析(correspondence analysis)多維尺度法(militiamen signal scaling)(其他的分析)加入潛在變量的因果關系分析模型結構方程模型(協方差結構分析(covariance tructure analysis; strucural equation model-SEM))路徑模型基于多個候補方案的一對一比較分析模型層次分析法(analytic hierarchy process-AHP)因子分析
| 分析的目的 | 有無目標變量(因變量、外部推測) | 目標變量的數據類型 | 解釋變量 | 具有代表的多變量分析的例子 |
| 有監督分析需要用多個因素來預測、解釋、判斷某個項目(想要用數學方法描述由多個原因引起的結果) | 有 | 定量數據(量的數據) | 定量數據 | 多元回歸分析方差分析 |
| 定性數據 | 有虛擬變量的回歸分析聯合分析(conjoint analysis)方差分析 | |||
| 定性數據(質的數據) | 定量數據 | 判別分析(discriminate analysis)Logistic/probit analysis | ||
| 定性數據 | 對數線性回歸 | |||
| 無監督分析1想要歸并相似者2想要用圖表解釋變量之間的線性關系3想要概括變量之間的關系4想要知道解釋項目之間的相關關系的潛在結構 | 沒有 | —— | 定量數據 | 因子分析(factor analysis)聚類分析(cluster analysis) |
| 定性數據 | 對應分析(correspondence analysis)多維尺度法(militiamen signal scaling) | |||
| (其他的分析) | 加入潛在變量的因果關系分析模型 | 結構方程模型(協方差結構分析(covariance tructure analysis; strucural equation model-SEM))路徑模型 | ||
| 基于多個候補方案的一對一比較分析模型 | 層次分析法(analytic hierarchy process-AHP)因子分析 |
<table data-draft-node="block" data-draft-type="table" data-size="normal" data-row-style="normal">分析的目的有無目標變量(因變量、外部推測)目標變量的數據類型解釋變量具有代表的多變量分析的例子有監督分析需要用多個因素來預測、解釋、判斷某個項目(想要用數學方法描述由多個原因引起的結果)有定量數據(量的數據)定量數據多元回歸分析方差分析定性數據有虛擬變量的回歸分析聯合分析(conjoint analysis)方差分析定性數據(質的數據)定量數據判別分析(discriminate analysis)Logistic/probit analysis定性數據對數線性回歸無監督分析1想要歸并相似者2想要用圖表解釋變量之間的線性關系3想要概括變量之間的關系4想要知道解釋項目之間的相關關系的潛在結構沒有——定量數據因子分析(factor analysis)聚類分析(cluster analysis)定性數據對應分析(correspondence analysis)多維尺度法(militiamen signal scaling)(其他的分析)加入潛在變量的因果關系分析模型結構方程模型(協方差結構分析(covariance tructure analysis; strucural equation model-SEM))路徑模型基于多個候補方案的一對一比較分析模型層次分析法(analytic hierarchy process-AHP)因子分析分析的目的有無目標變量(因變量、外部推測)目標變量的數據類型解釋變量具有代表的多變量分析的例子有監督分析需要用多個因素來預測、解釋、判斷某個項目(想要用數學方法描述由多個原因引起的結果)有定量數據(量的數據)定量數據多元回歸分析方差分析定性數據有虛擬變量的回歸分析聯合分析(conjoint analysis)方差分析定性數據(質的數據)定量數據判別分析(discriminate analysis)Logistic/probit analysis定性數據對數線性回歸無監督分析1想要歸并相似者2想要用圖表解釋變量之間的線性關系3想要概括變量之間的關系4想要知道解釋項目之間的相關關系的潛在結構沒有——定量數據因子分析(factor analysis)聚類分析(cluster analysis)定性數據對應分析(correspondence analysis)多維尺度法(militiamen signal scaling)(其他的分析)加入潛在變量的因果關系分析模型結構方程模型(協方差結構分析(covariance tructure analysis; strucural equation model-SEM))路徑模型基于多個候補方案的一對一比較分析模型層次分析法(analytic hierarchy process-AHP)因子分析分析的目的有無目標變量(因變量、外部推測)目標變量的數據類型解釋變量具有代表的多變量分析的例子有監督分析需要用多個因素來預測、解釋、判斷某個項目(想要用數學方法描述由多個原因引起的結果)有定量數據(量的數據)定量數據多元回歸分析方差分析定性數據有虛擬變量的回歸分析聯合分析(conjoint analysis)方差分析定性數據(質的數據)定量數據判別分析(discriminate analysis)Logistic/probit analysis定性數據對數線性回歸無監督分析1想要歸并相似者2想要用圖表解釋變量之間的線性關系3想要概括變量之間的關系4想要知道解釋項目之間的相關關系的潛在結構沒有——定量數據因子分析(factor analysis)聚類分析(cluster analysis)定性數據對應分析(correspondence analysis)多維尺度法(militiamen signal scaling)(其他的分析)加入潛在變量的因果關系分析模型結構方程模型(協方差結構分析(covariance tructure analysis; strucural equation model-SEM))路徑模型基于多個候補方案的一對一比較分析模型層次分析法(analytic hierarchy process-AHP)因子分析分析的目的有無目標變量(因變量、外部推測)目標變量的數據類型解釋變量具有代表的多變量分析的例子有監督分析需要用多個因素來預測、解釋、判斷某個項目(想要用數學方法描述由多個原因引起的結果)有定量數據(量的數據)定量數據多元回歸分析方差分析定性數據有虛擬變量的回歸分析聯合分析(conjoint analysis)方差分析定性數據(質的數據)定量數據判別分析(discriminate analysis)Logistic/probit analysis定性數據對數線性回歸無監督分析1想要歸并相似者2想要用圖表解釋變量之間的線性關系3想要概括變量之間的關系4想要知道解釋項目之間的相關關系的潛在結構沒有——定量數據因子分析(factor analysis)聚類分析(cluster analysis)定性數據對應分析(correspondence analysis)多維尺度法(militiamen signal scaling)(其他的分析)加入潛在變量的因果關系分析模型結構方程模型(協方差結構分析(covariance tructure analysis; strucural equation model-SEM))路徑模型基于多個候補方案的一對一比較分析模型層次分析法(analytic hierarchy process-AHP)因子分析
- 分析的目的有無目標變量(因變量、外部推測)目標變量的數據類型解釋變量具有代表的多變量分析的例子有監督分析需要用多個因素來預測、解釋、判斷某個項目(想要用數學方法描述由多個原因引起的結果)有定量數據(量的數據)定量數據多元回歸分析方差分析定性數據有虛擬變量的回歸分析聯合分析(conjoint analysis)方差分析定性數據(質的數據)定量數據判別分析(discriminate analysis)Logistic/probit analysis定性數據對數線性回歸無監督分析1想要歸并相似者2想要用圖表解釋變量之間的線性關系3想要概括變量之間的關系4想要知道解釋項目之間的相關關系的潛在結構沒有——定量數據因子分析(factor analysis)聚類分析(cluster analysis)定性數據對應分析(correspondence analysis)多維尺度法(militiamen signal scaling)(其他的分析)加入潛在變量的因果關系分析模型結構方程模型(協方差結構分析(covariance tructure analysis; strucural equation model-SEM))路徑模型基于多個候補方案的一對一比較分析模型層次分析法(analytic hierarchy process-AHP)因子分析
| 分析的目的 | 有無目標變量(因變量、外部推測) | 目標變量的數據類型 | 解釋變量 | 具有代表的多變量分析的例子 |
| 有監督分析需要用多個因素來預測、解釋、判斷某個項目(想要用數學方法描述由多個原因引起的結果) | 有 | 定量數據(量的數據) | 定量數據 | 多元回歸分析方差分析 |
| 定性數據 | 有虛擬變量的回歸分析聯合分析(conjoint analysis)方差分析 | |||
| 定性數據(質的數據) | 定量數據 | 判別分析(discriminate analysis)Logistic/probit analysis | ||
| 定性數據 | 對數線性回歸 | |||
| 無監督分析1想要歸并相似者2想要用圖表解釋變量之間的線性關系3想要概括變量之間的關系4想要知道解釋項目之間的相關關系的潛在結構 | 沒有 | —— | 定量數據 | 因子分析(factor analysis)聚類分析(cluster analysis) |
| 定性數據 | 對應分析(correspondence analysis)多維尺度法(militiamen signal scaling) | |||
| (其他的分析) | 加入潛在變量的因果關系分析模型 | 結構方程模型(協方差結構分析(covariance tructure analysis; strucural equation model-SEM))路徑模型 | ||
| 基于多個候補方案的一對一比較分析模型 | 層次分析法(analytic hierarchy process-AHP)因子分析 |
1、有因變量,則建立監督模型
- 有監督模型具有兩大通用目的:
1)分析哪些自變量對因變量存在顯著影響作用;
2)通過選擇對因變量存在顯著影響的自變量,建立預測因變量取值的預測模型。
1)
a)因變量為連續變量(建立的模型稱為回歸預測模型),自變量為連續變量時,可選擇回歸分析、方差分析;
b)自變量為分類變量或分類+連續變量時,可選擇帶虛擬變量的回歸分析、聯合分析、方差分析。
2)因變量為分類變量(建立的模型稱為分類預測模型)
a)當自變量為分類變量(或連續+分類變量)時,可選用判別分析、Logistic、probit回歸等;
b)當自變量全部為分類變量時,可選用對數線性回歸。
2、無因變量,則建立監督模型
- 目的:
(1)對人進行分類;(2)對變量/指標進行分類;(3)分析變量與變量之間的測量關系。
1)自變量為連續變量時,選擇因子分析(對變量/指標進行分類)、聚類分析(對人分類、對變量/指標進行分類)
2)自變量為分類變量時,選擇對應分析(對人進行分類)、多維尺度分析(對人進行分析)
3、其他分析
1)當模型中需要加入潛在變量(通過多個客觀指標測量的抽象概念,例如幸福感)、或需要考慮多個變量之間的因果關系時,可選擇結構方程模型、路徑模型等。
2)綜合評價:通過多個指標對多個評價對象進行排名,可選用層次分析法、因子分析等。
第一節 相關分析
- 不同變量類型的相關系數
1)兩個變量都為連續變量,則可用pearson相關系數;
2)兩個變量都為定序變量,則可用GMMA等相關系數;
3)兩個變量都為定類變量,則可用LAMMDA相關系數;
4)一個變量為定類變量,一個變量為連續變量,則可通過ETA系數來測量相關性。
- 相關系數是衡量兩個變量之間變化趨勢的相似性。
- 相關系數的目的:計算兩個變量在樣本系數中的相關性強弱。
- 相關分析的假設檢驗
原假設:兩個變量來自的總體中不存在顯著相關性;
研究假設:兩個變量來自的總體中存在顯著相關性。
- 顯著性檢驗的目的:用來判斷兩個變量在總體中是否存在相關性。
1、雙變量相關分析
1)皮爾遜(pearson)相關系數:參數檢驗,針對兩個都是連續變量的數據進行相關性判斷。
2)斯皮爾曼(spearman)相關系數,非參數檢驗,針對兩個都是定序變量。
3)肯德爾tau-b(Kendall's tau-b)相關系數,非參數檢驗,針對兩個都是定序變量
SPSS操作:分析-相關-雙變量
2、偏相關系數
在很多現實情況,單純兩個變量之間的相關性,還會受到其他變量的干擾,因此考察兩個變量的相關性時往往需要剔除干擾變量的影響,再來計算相關性。比如,商品需求量和價格、消費者收入之間的關系,需求量與價格之間的相關關系還包含了消費者收入對商品需求量的影響。同時,收入對價格也會產生影響,并通過價格變動傳遞到對商品需求量的影響中。
注意:計算相關性的變量為連續變量,加入控制的變量同樣也是連續變量。
3.典型相關分析(又稱為規則相關分析)
用來分析兩組變量整體的相關性,而不是變量個體之間的相關性,兩組變量的個數可以不同。測量的仍然是變量之間的線性相關性。要求每組內的變量也呈現線性關系,另外組內變量間不能存在高度的復共線性。原始數據標準化之后再計算,則得到標準化的相關系數。
SPSS操作:分析-相關-典型相關性
第二節 回歸分析
1、當需要用一個數學表達式(模型)表示多個因素(原因)與另外一個因素(原因)之間的關系時,可選用回歸分析法。
- 回歸分析的目的:
1)分析哪些自變量對因變量存在顯著影響作用,R方值可以要求不大于0.8;
2)通過選擇對因變量存在顯著影響的自變量,建立預測因變量取值的預測模型;模型R方值必須要求大于等于0.8。
但是,在人文社科領域,很多回歸模型的R方值達不到0.8,也可以用來做預測。
2、回歸分析的建立步驟
1)選擇變量
因變量:根據研究需求或問題推到出來
自變量:1)前人的研究成果
2)個人經驗
2)確定自變量與因變量之間的關系
首先,挨個將自變量與因變量畫散點圖,判斷每個自變量與因變量之間是線性關系還是非線性關系。
其次,通過卡方檢驗,T檢驗、F檢驗或相關分析法,挨個分析每個備選的自變量與因變量之間是否存在顯著的相關性。將與因變量沒有顯著相關性的自變量剔除掉,不加入到后期的模型中。
3)選擇對應的線性方程或非線性方程,進行各項參數的計算
4)對模型進行全方位檢驗
- 多重共線性檢驗
檢驗多個自變量之間是否存在相關性較高的變量,如有,則保留與因變量相關性最高的一個自變量。
- 模型擬合度檢驗
- 方差檢驗:檢驗把自變量與因變量是否存在顯著影響關系;
- 判定系數(R方):0-1之間,越接近1表示自變量對因變量的解釋能力越高,模型越好;
- 殘差檢驗:常用的方法包括殘差正態性檢驗、DW檢驗、異方差檢驗;
- 自變量參數檢驗:(參數估計方法:普通最小二乘法(OLS: Ordinary Least Square)和極大似然估計(MLE: Maximum Likelihood Estimate) )
3、回歸分析的軟件操作
解決問題:分析影響人們家庭收入的因素有哪些,建立預測回收的預測模型。
因變量:家庭收入
自變量:性別,年齡,學歷,工作年限
SPSS操作:分析-回歸-線性-
統計:共線性診斷&德賓-沃森(DW)-圖-標準化殘差圖:直方圖&正態概率圖
4、虛擬變量
使用虛擬變量的原因:分類變量無法參與到回歸模型中加減乘除運算
SPSS操作:將原先的分類編碼統一轉換為0,1數值
轉換-重新編碼為不同變量-舊值和新值-定義舊值與新值的轉換關系
Ed=1 2 3 4 5
| 1 | 2 | 3(對照人群) | 4 | 5 | |
| Ed1 | 1 | 0 | 0 | 0 | 0 |
| Ed2 | 0 | 1 | 0 | 0 | 0 |
| Ed3 | 0 | 0 | 0 | 1 | 0 |
| Ed4 | 0 | 0 | 0 | 0 | 1 |
5、回歸分析的結果解讀
1)擬合優度檢驗
R方值
F值,F值對應的概率P值<0.05,研究假設成立,即至少有一個自變量對因變量存在顯著影響。
2)參數顯著性檢驗
根據每個自變量的t值對應的概率p值是否<0.05,如<0.05,則研究假設成立,即該自變量對因變量存在顯著影響。
根據下表得出:
工作年限和學歷對收入存在顯著影響,而年齡和性別沒有。通過標準化系數來判斷兩者的影響程度大小,可知工作年限的影響明顯大于學歷。
工作年限對收入影響程度:在其他變量不變的情況下,工作年限每增加一個單位(1年),則因變量家庭收入平均增加6.279個單位。
學歷對收入的影響程度:ed1=-51.042表示ed1代表的學歷(高中以下)比對照的學歷人群(大專)在因變量家庭收入上平均低51.042個單位。
3)共線性檢驗
通常根據VIF>10,自變量之間存在共線性。
4)殘差檢驗
DW=2,表示殘差不存在自相關性。
5)回歸方程
先通過逐步回歸法,將對因變量沒有顯著影響的自變量從模型中刪除,得到干凈的模型。
方程:y=34.601+6.021*工作年限-62.647*ed1-36.379*ed2。
6、非線性回歸
求解方式:
- 第一種是線性轉換,原因是非線性方程擬合方法和參數初始值設置均會導致求出的結果并非全局最優解。
- 第二種是直接建立非線性方程,求解非線性模型。
SPSS操作:先通過散點圖判斷是否存在非線性關系
自變量:Ininc
因變量:Income
Income=e^ Ininc
第三節 因子分析
目的:對多個具有相似度的目標/變量進行降維,前提是這些變量/指標之間必須存在一定的相關性/相似性
1、應用場景:
1)降維后做綜合評價
2)效度檢驗:對抽樣概念的測量工具進行有效性檢驗,判斷哪些指標需要保留或刪除,并對保留的指標進行圍堵劃分。
3)降維后做其他分析:由于變量之間存在較高相關性,不適合做回歸分析、聚類等其他分析,需要用因子分析消除變量較高的共線性。
2、因子旋轉的目的
1)使得因子可以更好的代表原來的變量
2)降低或消除提取因子之間的相關性
SPSS操作:分析-降維-因子-描述:KMO-提取:碎石圖-旋轉:最大方差法-得分:保存為變量&顯示因子得分系數矩陣-選項:按大小排序&排除小系數
3、因子分析的結果解讀
1)KMO>0.7,適合做因子分析
2)累計方差貢獻率需要達到多少才合適?
如果通過因子分析降維后做綜合評價,那么累計方差貢獻率需要>80%;
效度檢驗或其他分析,60%以上。
3)因子劃分:根據每個變量在每個因子中的取值是否>0.5。
4)效度檢驗:
第一判斷標準:每個變量有且只有一個因在載荷值>0.5,如果所有因子載荷值均<0.5,則說明該變量不具有收斂效度,需刪除;
第二判斷標準:變量在兩個或以上因子中的載荷值同時>0.5,則說明該變量不具有區分效度,需刪除;
第三個判斷標準:某變量單獨成為一個因子,則說明該變量也不存在收斂效度,需刪除。
5)因子得分計算:F1=x1*a1+x2*a2+…
第四節 Logistic回歸
應用場景:做分類預測模型,且為非參數檢驗方法。可以用于二分類、無序多分類、有序多分類。
1、二元Logistic回歸
1)結果解讀:1)根據檢驗中的p<0.05,得到自變量對因變量存在顯著影響。
2)根據瓦爾德值的大小,判斷自變量對因變量的影響程度排名。
3)優勢比(OR)值>1,表示該自變量會增加因變量取1的概率的發生;反之會降低因變量取1的概率。
4)連續變量對因變量的影響程度:在其他變量不變的情況下,當年齡增加一個單位,優勢比增加1.385倍(年齡越大,退休概率越高)。
5)分類自變量對因變量的影響程度:在其他變量不變的情況下,大專學歷的優勢比是研究生學歷優勢比的0.120倍(大專學歷的退休概率高于研究生學歷的退休概率)。
2)Logistic公式:ln(p/(1-p))=20.305-0.782*ed1-0.561*ed2-2.121*ed3+…
SPSS操作:分析-回歸-二元Logistic-分類:分類協變量-保存:概率&組成員-選項:Exp的置信區間
2、多元Logistic回歸
SPSS操作:分析-回歸-多元Logistic-保存:預測類別&預測類別概率
3、有序Logistic回歸
首先需要進行平行性檢驗,檢驗當因變量劃分不停取值時建立的多個二元Logistic回歸
,自變量對因變量的影響程度是相同的;如果該檢驗不成立,則不能選擇有序多分類模型,改用無序多分類模型。
當P>0.05時,說明原假設成立,則平行性檢驗成立,可以建立有序多分類模型。
解讀:
1)模型公式
- ln(p1/(1-p1))=-2.494-0.032*age+0.003*income (p1表示學歷取1的概率)
- ln(p2/(1-p2))=-1.110-0.032*age+0.003*income (p2表示學歷取1的概率)
- ln(p3/(1-p3))=-0.192-0.032*age+0.003*income (p3表示學歷取1的概率)
- ln(p4/(1-p4))=1.649-0.032*age+0.003*income (p4表示學歷取1的概率)
SPSS操作:分析-回歸-有序-輸出:平行線檢驗&估算響應概率&預測類別&預測類別概率
第四節 時間序列回歸
1、格蘭杰因果檢驗
因果關系成立的三個條件:
1)AB兩個事件必須存在相關性
2)原因A必須發生在結果B之前
3)排除其他干擾因素
2、平穩序列
ARIMA模型建立的前提是時間序列數據必須為平穩序列,可通過單位根檢驗(ADF)來判斷一個序列是否平穩;如果不平穩,可通過差分進行轉換。
3、周期性計算
1)通過自相關系數(ACF)圖的拐點,乘以4得到周期。
SPSS操作:
- 定義時間:數據-定義日期和時間
- 分析-時間序列預測
2)譜分析
通過頻率取值最高的點對應的頻率乘以數據量,得到周期。
SPSS操作:分析-時間序列預測-譜分析
4、解讀:
1)時間序列假設檢驗
通過Ljung-Box Q檢驗,原假設是:模型可以很好的擬合原始數據,p>0.05,表示模型可以接受,p值越大模型越好。
2)模型
Yt=8.579+0.999*Yt-1+0.633*Yt-12
3)時間序列因果模型
Y1t=a1*Y1t-1+a2*Y1t-12+a3*Y4t-2+a4*Y2t-12+a0
總結
以上是生活随笔為你收集整理的datagrid出现相同两组数据_数据分析之统计学的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CPU中三核是什么
- 下一篇: UOS升级后回滚操作和恢复出厂设置