spss基本使用
整個spss界面分為數據視圖、變量視圖和輸出文檔。
一、關于變量
1.變量名稱不可重復;變量中的英文字母不區分大小寫;變量中不能出現空格、括號、逗號等特殊字符;不可使用保留字
2.變量類型常用的有數值、日期和字符串
3.標簽是對變量名稱的解釋說明,一般變量名稱越簡潔越好,而標簽可對變量對名稱做詳細解釋
4.值一般在該變量有有限個值的情況下使用,例如性別用1表示男2表示女,滿意度用1-5不同級別的數值表示。
設置值之后,如果數據視圖的視圖->值標簽勾選,對應的值會顯示為值對應的標簽,不勾選則顯示值,例如1表示男2表示女,勾選則顯示男或女否則顯示1或2
5.設置缺失值表示在做統計時,將變量值等于該缺失值的記錄當作無效記錄處理。
6.度量標準
名義:無序分類變量,表示的變量值是離散的,一般用來代表某物的一個屬性,不具有順序和大小,例如性別
序號:有序分類變量,表示變量的值是離散的但是值之間有順序關系,一般是用來定義等級差別的,例如滿意度
度量:連續變量,表示變量的值通常是連續的,不僅可以進行排序而且還能進行加減,例如工資
二、常用操作
1.數據->選擇個案
選擇:默認選擇全部個案,還可按條件或隨機樣本數選擇
選擇后的處理:默認在未被選擇的個案序號上畫斜線,后續統計時不統計該部分,也可將選定的個案復制到新的數據集,或者直接刪除未選定個案(使用前建議保存原數據)
數據->加權個案,可選定變量作為頻率變量
2.數據->拆分文件,不會生成新的文件,只在統計結果輸出上有區別
默認是分析所有個案,結果不做拆分和分類
拆分文件并比較組:會按照分組變量一起輸出結果
拆分文件并按組組織輸出:會按照分組變量單獨輸出每個結果
例如按照性別對語文成績進行描述統計,3種方式的輸出結果如下圖所示
數據->合并文件->添加個案,即添加記錄
數據->合并文件->添加變量,即添加變量
3.轉換->替換缺失值
默認使用序列的均值進行替換,也可使用線性插值法和點處的線性趨勢進行替換
也可使用臨近點的均值和臨近點的中位數來進行替換缺失值,這兩種方法需要指定臨近點的個數
4.分類匯總,會生成新的列
分組變量:即分類依據的變量
變量摘要:即分類后對哪些變量進行匯總,匯總函數默認為均值,名稱為變量名稱_mean,可自行選擇匯總函數和匯總產生的列名稱
5.數據統計
轉換->計算變量,會生成新的列
可對多個變量進行統計,例如統計多門學科的均值、各種類型工資的總和
轉換->對個案內的值計數,會生成新的列
統計指定變量滿足條件的變量個數
6.重新編碼
轉換->重新編碼為不同變量,會生成新的列
對指定變量按照值的范圍劃分為不同的等級,例如將成績為60分以下的劃為不合格90分以上的劃為優秀
轉換->重新編碼為相同變量,與重新編碼為不同變量類似,但是不會生成新的列,而是直接替換原變量的值
轉換->自動重新編碼,系統會自動進行范圍劃分和等級設定
三、基本的統計分析
1.t檢驗
位置:分析->比較均值
作用:比較兩個平均數的差異是否顯著
使用前提:主要用于樣本含量較小(例如n < 30)、總體標準差σ未知的正態分布。當樣本較小時,要求樣本取自正態總體;做兩樣本均數比較時,要求兩樣本的總體方差相等。
單樣本t檢驗:檢驗單樣本均值與確定的總體均值是否存在顯著性差異,例如檢驗2018年的平均工資與2015年的平均工資(已知值)的差異
獨立樣本t檢驗:檢驗兩個獨立的樣本的均值是否存在顯著性差異,例如檢驗男性平均工資與女性平均工資的差異
配對樣本t檢驗:檢驗兩個配對樣本是否存在存在顯著性差異,例如檢驗本次學生成績與上次成績的差異
2.方差分析,即F檢驗
位置:分析->非參數檢驗->舊對話框
作用:檢驗自變量對觀測變量的顯著影響
使用前提:數據總體呈正態分布,多組樣本的方差要齊性,各個觀測值相互獨立
單因素方差分析:檢驗一個自變量對一個觀測變量的顯著影響,分析->比較均值->單因素ANOVA
LSD:最小顯著差法,t檢驗的簡單變形
Bonferroni:在LSD的基礎上改進,比LSD更嚴格
Tukey:
雙因素方差分析:檢驗兩個自變量對一個觀測變量的顯著影響,分析->一般線性模型->單變量(指一個因變量) (一般模型選擇默認的全因子,對比選擇簡單,兩兩比較選擇自變量組別超過3的變量,選項估計均值選擇overall、輸出選擇前3項)
多元方差分析:檢驗自變量對多個觀測變量的顯著影響,分析->一般線性模型->多變量
重復測量方差分析:例如測量飲酒在上午和下午對人的意識影響,分析->一般線性模型->重復度量
3.相關性分析
位置:分析->相關
作用:研究變量之間的相關關系
皮爾遜相關系數盡量要求樣本數量大于30,而斯皮爾曼相關系數對樣本數量無要求但精度沒有皮爾遜系數高。
雙變量:研究兩個變量之間的相關性關系,例如研究各個市的專利數量與GDP的相關關系
偏相關:研究變量的控制變量在一定情況下變量的相關性關系,例如高校數量可能影響專利數量和GDP,則在將高校數量作為控制變量的基礎上對專利和GDP進行相關性分析
距離:研究多個變量之間的距離,例如各個國家的資源的差距。
4.回歸分析
回歸分析是相關性分析更具體的分析。
步驟:1提出回歸模型假設,即獲取樣本,確定自變量和因變量
2.獲取數據建立回歸方程
3.確定回歸方程
4.回歸方程檢驗,包括回歸方程的顯著性、回歸方程的擬合度檢驗、回歸系數的顯著性檢驗
5.關聯分析
包括關聯規則挖掘和序列模式挖掘,
作用:在數據中挖掘重復出現概率很高的模式或規則。
6.非參數檢驗
適用于小樣本、或樣本分布不滿足正態分布、樣本來自不同總體的檢驗;如果樣本滿足參數檢驗的條件,應優先使用參數檢驗。
檢驗效能低,這是由于對樣本數據要求低
沒有充分利用數據的全部信息,例如符號檢驗只考慮到成對數據的正負數量情況,而不考慮數據的大小
無法處理變量之間的交互作用
正態分布檢驗
分析->非參數檢驗->舊對話框-> 1-樣本 K-S
分析->描述統計->探索,在繪制選項里勾選待檢驗的正態圖
總結
- 上一篇: 什么是行式数据库,什么是列式数据库
- 下一篇: 开放地图API的几个产品对比