变量太多太复杂该怎么得出结论?——SPSS因子分析操作的详细讲解与介绍
SPSS學習記錄day6
寫在前面:前段時間學習SPSS的時候寫了幾篇文章,沒想到僅僅一兩個星期就快漲到了一百粉,還真讓我有些受寵若驚,繼續堅持學習~~~~好,廢話不多說了,今天我們講解因子分析
分析>降維>因子分析
首先,關于因子分析(factor analysis),根據名稱我們就可以直觀推測這一操作是關于分析數據的內在因素的。因子你可以理解為公因子的感覺,所以因子分析含義差不多是分析多個變量中是哪一些變量有著共同的因素或特征。
…這個因子分析可能確實有點點不好理解,我搜查了一些相關的解釋,比如
- 因素分析是一種統計方法,針對稱為因素的潛在未觀察變量的數量來描述觀察到的相關變量之間的變異性。 例如,六個觀測變量的變化可能主要反映了兩個未觀測(基礎)變量的變化。因素分析針對未觀察到的潛在變量尋找此類共同變化,從而將觀察到的變量建模,使之成為潛在因素以及誤差項的線性組合。——維基百科
- 因子分析是指研究從變量群中提取共性因子的統計技術。因子分析可在許多變量中找出隱藏的具有代表性的因子。將相同本質的變量歸入一個因子,可減少變量的數目,還可檢驗變量間關系的假設。——百度百科
但…果然還是不如舉個例子來得跟簡單,這里是我覺得講的最通俗簡單易懂的一個【例子】我來稍微轉換一下:
現在我們要探究有學生成績的好壞與哪些因素有關,于是我們調查統計了一群學生的自覺性、平均自習時間、課外上課時間、課外輔導頻率、課外作業量、平均游戲時間等等,當我們通過一通分析之后,得到了以上每一個因素與學生成績的相關性關系,但是當我們寫結論卻發現我們無法得出一個簡潔的結論(因為要描述的內容太多了,足足有六個與學生成績有關的因素要說明)這時我們發現學生自覺性、平均自習時間、平均游戲時間似乎可以歸納為學生的內在動力;而課外上課時間、課外輔導頻率、課外作業量似乎可以歸納為學生的外在壓力。這樣我們的結論就變成了:學生成績主要與內在動力有關或是與外在壓力有關。這樣的結論簡單明了也更有價值~~
上述案例中尋找多個變量之間可能具有的共同含義的過程就是因子分析,這就好比在尋找多個變量之間的公因子,通過因子分析我們可以得出個數更少且更具代表意義的因子,這里將眾多變量聚合為少數幾個的公共因子的過程我們也稱為降維(降低了數據維度)
1. 因子分析具體操作方法
點擊分析(A),然后點擊降維(D),再選擇因子(F),打開因子分析窗口
在因子分析的窗口中,我們將所有要進行分析的變量全部選入**變量(v)框內,下面的選擇變量?是用來篩選符合其他變量要求的案例(例如之前的例子中,我們可以將性別變量選入這個框并定義值(L)**為代表男生的數值,這樣我們就只分析所有男生的學習成績的相關因素等關系)點擊確定SPSS就會自動進行因子分析了
在我們對因子分析的結果進行講解前,我再詳細補充一下因子分析的一些其他可選擇的設置操作,如果只是想了解基礎操作的話可以直接跳過去看結果分析
- 描述(D):這里主要是選擇對原數據的一些基礎統計分析。
- 如果選擇了統計-單變量描述,就會得到各個變量的平均值、標準偏差、分析個案數的表格;選擇統計-初始解,就會得到各個變量的初始公因子方差;
- 下方的相關性矩陣主要計算各個變量之間的相關性,效果和雙變量相關性的相關分析差不多SPSS中有關相關性分析的介紹(雙變量相關分析、偏相關)可以選擇得到系數矩陣、顯著性水平矩陣、決定因子矩陣等等,這里我們主要選擇KMO和巴特利特求信度檢驗(具體含義下文講解)
- 提取(E):這里主要選擇提取變量公因子的操作方法,我們一般保持默認選項就好。提取決定如何選擇公因子,后續會介紹其意思
- 旋轉(T): 當求得公共因子后,對公因子要給出具有實際意義的合理解釋。 如果公共因子難以和實際問題相對應,可對公因子進行旋轉,使得旋轉后的公因子具有實際意義。簡單說這一操作可以幫助我們了解并賦予公因子的實際含義。
- 得分(s)、選項(o)主要用來保存結果變量、對缺失值的處理以及系數的顯示格式(不重要)
2. 結果分析
上述我們選擇了多個變量進行因子分析,接下來一一介紹各個結果表格的含義
首先就是之前選擇的KMO和巴特利特檢驗,我們主要看第一行與最后一行結果數據:
KMO檢驗變量間的偏相關性是否較大,即變量是否適合歸納為幾個公因子,如果KMO值大于0.7則代表數據因子分析的效果較好,適合進行因子分析,若小于0.5則表明數據并不適合進行因子分析(本例中0.738>0.7,表明數據十分適合因子分析,故繼續);
巴特利特球形度檢驗的是各變量是否是獨立的,若變量之間均獨立則表明各變量之間沒有關系,不適合因子分析(本例中顯著性為0.000,小于0.05,故拒絕各變量獨立的原假設,適合做因子分析)
公因子方差表表明原有的每個變量有多大程度可以被提取的公因子解釋
總方差解釋體現被提取出來的各公因子對原數據的解釋程度,我們一般選擇初始特征值大于1的公因子(也可以在提取窗口選擇只提取固定數目的因子)通過右側兩列我們可以得知前七個公因子可以解釋68.246%的原數據(累積%)
成分矩陣反映各因子對各變量的影響度,例如由表可得:
成績不夠理想=0.139*F1+0.241*F2-0.405*F3-0.321*F4+0.466*F5+0.080*F6+0.022*F7+特殊因子(不準確,僅供理解使用)
旋轉后的成分矩陣 類比成分矩陣。通過改變坐標軸位置,重新分配各個因子所解釋的方差比例,使其數值(載荷系數)更接近1或0,能更好地解釋和命名變量。
3. 得出結論
在對結果進行詳細的講解之后,大家可能還不知道如何得出我們的結論。對于結果中的旋轉后的成分矩陣,我們選擇保留每一個成分(每一列)中較大的幾個數值(載荷系數),這樣我們就可以直觀感受到每一個公因子主要代表了哪一些變量,如圖為篩選并重新排列后的矩陣,這樣就可以將16個變量用7個變量表示,然后根據表格就可以很方便的得出結論了
Tips:篩選方法可以通過選項來設置(如圖,我保留了表格中所有大于0.45的數值并按大小排序,得到上圖結果)
以上就是因子分析的主要內容了,若有錯誤歡迎指正~
參考:1.因子分析有啥用?怎么使用SPSS做因子分析?、2.如何通俗地解釋因子分析?、3.【探索性因素分析】因素分析的結果解讀、4.因子分析系列文章、5.因子分析在SPSS中的操作過程及結果解讀、6.SPSS做因子分析操作步驟、7.因子分析法之因子旋轉
以上幾篇都是非常好的因子分析的相關文章,如果想要繼續深入了解的話十分值得閱讀學習
總結
以上是生活随笔為你收集整理的变量太多太复杂该怎么得出结论?——SPSS因子分析操作的详细讲解与介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Selector的一些state使用
- 下一篇: python面试题总结(7)--操作类