业务数据分析中可能用到的简单的数据挖掘方法——相关性分析、主成分分析、因子分析
業(yè)務(wù)數(shù)據(jù)分析中可能用到的簡單的數(shù)據(jù)挖掘方法——相關(guān)性分析、主成分分析、因子分析
相關(guān)性分析
相關(guān)性分析通過相關(guān)系數(shù)來描述兩個變量之間的相關(guān)性程度。
通過相關(guān)系數(shù)判斷兩者會不會相互影響,影響是正相關(guān)還是負(fù)相關(guān)。
相關(guān)系數(shù)包括皮爾森相關(guān)系數(shù)、斯皮爾曼秩相關(guān)系數(shù)、肯德爾秩相關(guān)系數(shù)。皮爾森相關(guān)系數(shù)只描述線性關(guān)系,另外兩者不限于線性關(guān)系,可以描述非曲線關(guān)系,如冪函數(shù),反相關(guān)的關(guān)系等。
- 但在現(xiàn)實中也不知道是怎么用的。。。。
相關(guān)系數(shù)不為0并不以為兩者間存在顯著的相關(guān)性。
要判斷兩者是否存在顯著的相關(guān)性,需要對相關(guān)系數(shù)r進(jìn)行假設(shè)檢驗。原假設(shè)H0 :r=0,備擇假設(shè)是不為0
使用的統(tǒng)計量t統(tǒng)計量。
主成分分析
主成分分析:通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。
在實際問題中,為了全面分析問題,一般選取的相關(guān)變量會很多。對這些變量降維,進(jìn)行正交變換,重新組合成一組新的互相無關(guān)的綜合指標(biāo)來代替原來的變量。
主成分是原始變量的線性組合。
作用:降維,且綜合指標(biāo)線性無關(guān)。
主成分分析法得到的變量可以用來構(gòu)造回歸模型,由于得到的綜合指表相互正交,所以線性回歸中不會出現(xiàn)共線性的問題。
存在的問題:主成分分析得到的指標(biāo)是原始指表的線性組合,一般很難找到其現(xiàn)實含義,所以很難對它進(jìn)行命名。
因子分析
因子分析的主要目的是用來描述隱藏在一組測量到的變量中的一些更基本的,但又無法直接測量到的隱性變量 (latent variable, latent factor),這些隱性變量就是想得到的主因子。
比如,如果要測量學(xué)生的學(xué)習(xí)積極性(motivation),課堂中的積極參與,作業(yè)完成情況,以及課外閱讀時間可以用來反應(yīng)積極性。而學(xué)習(xí)成績可以用期中,期末成績來反應(yīng)。
這里,不可觀測的學(xué)習(xí)積極性就是因子分析中想得到的因子,可測量的積極參與,作業(yè)完成情況,課外閱讀時間就是原始變量。
數(shù)理原理:從原始變量向量X的相關(guān)矩陣出發(fā),通過方差最大的正交旋轉(zhuǎn)使矩陣可逆,求出矩陣A的各列,通過因子的系數(shù)矩陣得到因子表達(dá)式,使相應(yīng)的“貢獻(xiàn)”(方差貢獻(xiàn)度)有順序。
原始變量是因子的線性組合,這些因子相互正交,因子的系數(shù)平方和就是因子的貢獻(xiàn)度,因子在哪些變量上的因子載荷越大,就是對這些變量代表的隱性變量的代表。
因子分析是社會研究的一種有力工具,但不能肯定地說一項研究中含有幾個因子,當(dāng)研究中選擇的變量變化時,因子的數(shù)量也要變化。此外對每個因子實際含意的解釋也不是絕對的。
主成分分析和因子分析的作用都是降維。與主成分分析不同的是,因子分析得到在主因子有現(xiàn)實意義,表示的是那些隱性的無法觀測的綜合指標(biāo)。
總結(jié)
以上是生活随笔為你收集整理的业务数据分析中可能用到的简单的数据挖掘方法——相关性分析、主成分分析、因子分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java 监视锁_【转载】Java锁与
- 下一篇: 2D组立图 和 AutoCAD 的使用