数据的分析----分析检验
分析---描述統計-----頻率
頻率:統計 百分位值 四分位數 (如100個數中,第25 50 75 100個參數是多少)
值為組的中點:如【30,40】內的值全部編碼為35,那么選擇此選項以估計原始未分組的數據的中位數和百分位數。
多個變量:比較變量就是指多個變量的頻數表集中輸出。按變量組織輸出:每個變量單獨輸出。
偏度(skewness)和峰度(kurtosis)
偏度(Skewness)
定義
偏度與峰度類似,它也是描述數據分布形態的統計量,其描述的是某總體取值分布的對稱性的特征統計量。
公式
定義上偏度是樣本的標準三階中心矩(standardized 3rd central moment)。
偏度的具體計算公式為:
性質
這個統計量同樣需要與正態分布相比較,
偏度 =0表示其數據分布形態與正態分布的偏斜程度相同;
偏度 >0表示其數據分布形態與正態分布相比為正偏(右偏),即有一條長尾巴拖在右邊,數據右端有較多的極端值,數據均值右側的離散程度強;
偏度 <0表示其數據分布形態與正態分布相比為負偏(左偏),即有一條長尾拖在左邊,數據左端有較多的極端值,數據均值左側的離散程度強
偏度的絕對值數值越大表示其分布形態的偏斜程度越大。
當偏度值超過標準誤差2倍時認為分布不對稱
峰度(Kurtosis)
定義
峰度又稱峰態系數,表征概率密度分布曲線在平均值處峰值高低的特征數,即是描述總體中所有取值分布形態陡緩程度的統計量。直觀看來,峰度反映了峰部的尖度。這個統計量需要與正態分布相比較。
公式
定義上峰度是樣本的標準四階中心矩(standardized 4rd central moment)。
隨機變量的峰度計算方法為隨機變量的四階中心矩與方差平方的比值。
具體計算公式為:
性質
峰度 =0表示該總體數據分布與正態分布的陡緩程度相同;
峰度 >0表示該總體數據分布與正態分布相比較為陡峭,為尖頂峰;
峰度 <0表示該總體數據分布與正態分布相比較為平坦,為平頂峰。
峰度的絕對值數值越大表示其分布形態的陡緩程度與正態分布的差異程度越大。
描述性統計分析
分析--描述統計----描述
標準化:(數據-均值)/標準差
探索性分析
分析---描述統計---探索
使用探索過程的原因:數據過濾,離群值識別、描述、假設檢驗以及描述子群體之間差異的特征
因變量:你要研究的變量 ,因子列表表示分類
界外值:會輸出5個最大值和最小值
百分位數: 第5 10 25 50 75 90 95百分位的值
圖
箱圖 :當您具有一個或多個因變量時,這些選項控制箱圖的顯示。
大于箱子高度(75%:第三四分位數-25:第一四分位數)1.5 ~3倍稱為離群值,大于箱子高度3倍以上的值稱為極值
按因子級別分組 為每個因變量生成單獨的顯示。在一個顯示中,將為因子變量定義的每個組顯示箱圖。不分組為因子變量所定義的每個組生成單獨的顯示。在一個顯示中,為每個因變量并排顯示箱圖。當不同的變量代表在不同的時間度量的同一個特征時,此顯示尤其有用。無不會為因變量或組生成單獨的顯示帶檢驗的正態圖:對數據進行概率分布檢驗,顯示正態的概率分布圖和離散的正態的概率分布圖
M估計值是什么?
選擇M-estimation復選項,求出集中趨勢的穩健估計,該統計量是利用迭代方法計算出來,一般來說受異常值影響要小的多。
如果該統計量離均數和中位數較遠,則說明數據中可能存在異常值,此時宜用該估計值替代均數以反映集中趨勢。
一共會輸出Huber、Andrew、Hampel和Tukey四種M統計量,其中Huber法適用于數據接近正態分布的情況,另三種則適用于數據中有許多異常值時;
正態概率圖來用于檢查一組數據是否服從正態分布。是實數與正態分布數據之間函數關系的
散點圖。如果這源組實數服從正態分布,正態概率圖將是一條直線,變量值越接近斜線,說明變量值越接近正態分布。通常以用于確定一組數據是否百服從任一已知分布,如二項分布或泊松分度布。
反趨勢正態Q-Q圖,
常態性檢驗:顯著性<0.05 ,說明不符合正態分布,存在一些異常值。
伸展與級別levene檢驗:當選入分組變量時,該功能才被激活,主要用于比較各組之間的離散程度是否一致。在這里可以選擇“未轉換”,用于方差齊性檢
(方差齊性檢驗:顯著性<0.05,不齊性。分析-描述統計-探索-繪制)
控制分布-水平圖的數據轉換。對于所有分布-水平圖,顯示回歸線的斜率和Levene的穩健的方差齊性檢驗。如果選擇轉換,則Levene檢驗基于轉換后的數據。如果未選擇因子變量,則不生成分布-水平圖。
◎冪估計(求最佳的冪轉換值,為已轉換做鋪墊)針對所有單元的中位數的自然對數以及冪轉換的估計值生成內距的自然對數圖,以在各單元中得到相等的方差。分布-水平圖協助確定穩定(使之更相等)組之間方差所需的轉換的冪。
◎使用已變換可以選擇冪替代值之一(可能按冪估計中的推薦),并生成轉換數據圖。繪制轉換數據的內距和中位數。
◎未變換生成原始數據的圖。這等于冪為1的轉換。無是不進行檢驗,未轉換是用原始數據進行檢驗
缺失值控制對缺失值的處理。
成列排除個案從所有分析中排除任何因變量或因子變量具有缺失值的個案。這是缺省值。成對排除個案在該組的分析中包含組(單元格)中變量不具有缺失值的個案。該個案可能在其他組中使用的變量中有缺失值。報告值因子變量的缺失值被視為單獨的類別。為此附加類別生成所有輸出。頻率表包含缺失值的類別。因子變量的缺失值包含在內,但被標記為缺失。
四分位數 :與方差、標準差一樣,表示統計資料中各變量分散情形,但四分差更多為一種穩健統計
四分位數(Quartile)是統計學中分位數的一種,即把所有數值由小到大排列并分成四等份,處于三個分割點位置的數值就是四分位數。
第一四分位數(Q1),又稱“較小四分位數”,等于該樣本中所有數值由小到大排列后第25%的數字。
第二四分位數(Q2),又稱“中位數”,等于該樣本中所有數值由小到大排列后第50%的數字。
第三四分位數(Q3),又稱“較大四分位數”,等于該樣本中所有數值由小到大排列后第75%的數字。
第三四分位數與第一四分位數的差距又稱四分位距
總結
以上是生活随笔為你收集整理的数据的分析----分析检验的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: springboot2.x 与 elas
- 下一篇: Bitmap之compress图片压缩