多元统计分析(笔记更新中...)
多元統(tǒng)計分析
是研究多個隨機變量之間相互依賴關(guān)系以及內(nèi)在統(tǒng)計規(guī)律性的統(tǒng)計學科
例1:地區(qū)經(jīng)濟發(fā)展的指標,總產(chǎn)值,利潤,效益,物價等
例2:醫(yī)學診斷,血壓脈搏,白血球,體溫等
多元統(tǒng)計分析的應(yīng)用
| 數(shù)據(jù)的結(jié)構(gòu)性化簡 | 盡可能簡單的表示研究的現(xiàn)象,但不損失很多有用的信息,并且希望這種表示能夠很容易的解釋 | 多元回歸分析,聚類分析,主成分分析,因子分析,相應(yīng)分析,多維標度法,可視化分析 |
| 分類和組合 | 基于所測量到的一些特征,給出好的分組方法,對相似的對象或者變量分組 | 判別分析,聚類分析,主成分分析,可視化分析 |
| 變量之間的相關(guān)關(guān)系 | 變量之間是否存在相關(guān)關(guān)系,相關(guān)關(guān)系又是怎樣體現(xiàn)的 | 多元回歸,典型相關(guān),主成分分析,因子分析,相應(yīng)分析,多維標度法,可視化分析 |
| 預(yù)測與決策 | 通過統(tǒng)計模型或者最優(yōu)準則,對未來進行預(yù)測或者判斷 | 多元回歸,判別分析,聚類分析,可視化分析 |
| 假設(shè)的提出以及檢驗 | 檢驗由多元總體參數(shù)表示的某種統(tǒng)計假設(shè),能夠證實某種假設(shè)條件的合理性 | 多元總體參數(shù)估計,假設(shè)檢驗 |
主要的多元統(tǒng)計分析方法
以上方法依據(jù)不同標準可以進行不同的分類
計算機統(tǒng)計分析的基本步驟
數(shù)據(jù)的組織
實際上就是數(shù)據(jù)庫的建立。第一步是編碼,用數(shù)字代表分類數(shù)據(jù)(區(qū)間數(shù)據(jù)或者比率數(shù)據(jù));第二步是給變量賦值,設(shè)置變量并根據(jù)研究結(jié)果給予其數(shù)字代碼(編碼)。
數(shù)據(jù)的錄入
將編碼數(shù)據(jù)輸入計算機,形成數(shù)據(jù)庫。關(guān)鍵在于保證錄入的正確性,避免認讀錯誤以及按鍵錯誤。
在數(shù)據(jù)錄入后還應(yīng)該進行檢驗,可以采用計算機核對以及人工核對的方法。
統(tǒng)計分析
根據(jù)研究的目的以及需要確定統(tǒng)計方法,然后確定與選定的統(tǒng)計方法相應(yīng)的運行程序。
結(jié)果輸出
經(jīng)過統(tǒng)計分析,計算結(jié)果可用計算機打印出來,輸出的形式有列表,圖形等。
介紹幾種統(tǒng)計分析工具
EXCEL
眾所周知的數(shù)據(jù)處理軟件,較為簡單,可以使用DAX等進一步提高Excel的數(shù)據(jù)處理能力
SPSS
常用的統(tǒng)計分析軟件,圖形化操作,入門簡單
EVIEWS
EViews是Econometrics Views的縮寫,通常稱為計量經(jīng)濟學軟件包。是專門為大型機構(gòu)開發(fā)的、用以處理時間序列數(shù)據(jù)的時間序列軟件包
STATA
Stata是一個用于分析和管理數(shù)據(jù)的功能強大又小巧玲瓏,速度快的實用統(tǒng)計分析軟件,Stata的統(tǒng)計功能很強,除了傳統(tǒng)的統(tǒng)計分析方法外,還收集了近20年發(fā)展起來的新方法,如Cox比例風險回歸,指數(shù)與Weibull回歸,多類結(jié)果與有序結(jié)果的logistic回歸,Poisson回歸,負二項回歸及廣義負二項回歸,隨機效應(yīng)模型等。具體說,Stata具有如下統(tǒng)計分析能力:數(shù)值變量資料的一般分析:參數(shù)估計,單因素和多因素的方差分析,協(xié)方差分析,交互效應(yīng)模型,平衡和非平衡設(shè)計,嵌套設(shè)計,隨機效應(yīng),多個均數(shù)的兩兩比較,缺項數(shù)據(jù)的處理,方差齊性檢驗,正態(tài)性檢驗等
SAS
SAS (Statistical Analysis System)是一個模塊化、集成化的大型應(yīng)用軟件系統(tǒng),它由數(shù)十個專用模塊構(gòu)成,功能包括數(shù)據(jù)訪問、數(shù)據(jù)儲存及管理、應(yīng)用開發(fā)、圖形處理、數(shù)據(jù)分析、報告編制、運籌學方法、計量經(jīng)濟學與預(yù)測等等,被譽為統(tǒng)計分析的標準軟件
R語言
R 語言是為數(shù)學研究工作者設(shè)計的一種數(shù)學編程語言,主要用于統(tǒng)計分析、繪圖、數(shù)據(jù)挖掘等領(lǐng)域
多元正態(tài)分布的參數(shù)估計
多元統(tǒng)計分析涉及到的都是:隨機變量或者多個隨機變量放在一起的隨機矩陣
例如:研究公司運營情況,公司的獲利能力,資金周轉(zhuǎn)能力,競爭能力和償還債務(wù)的能力等;
研究國家財政收入時,稅收收入,企業(yè)收入,債務(wù)收入,國家重點交通建設(shè)基金收入等。
綜上所述,我們要從整體上把握問題的實質(zhì),不能只研究一個指標或是把這些指標分裂開研究
講在前面
隨機變量:
假定一個總體包含多個個體,當每個個體都是P個需要觀測的指標,進行了N次觀測時,常用向量
X=(X1,X2,?,Xp)X=(X_{1},X_{2},\cdots,X_{p}) X=(X1?,X2?,?,Xp?)
表示對同一個體觀測的p個變量,稱這樣的總體為P維總體。、
便于人們用數(shù)學方法去研究p維總體的特性,這里“維”(或“元”)的概念,表示共有幾個分量。若觀測了n個個體,則可得到如表2.1的數(shù)據(jù),稱每一個個體的p個變量為一個樣品,而全體n個樣品組成一個樣本。
上圖中的樣本資料可用矩陣表示為:
X?=[X11X12?X1pX21X22?X2p???Xn1Xn2?Xnp]=(X?1,X?2,?,X?p)\vec{X}=\left[\begin{matrix} X_{11}&X_{12}\cdots &X_{1p}\\ X_{21}&X_{22}\cdots &X_{2p}\\ \vdots&\vdots&\vdots\\ X_{n1}&X_{n2}\cdots &X_{np}\\ \end{matrix}\right]=(\vec{X}_{1},\vec{X}_{2},\cdots,\vec{X}_{p}) X=???X11?X21??Xn1??X12??X22???Xn2???X1p?X2p??Xnp?????=(X1?,X2?,?,Xp?)
回顧一元統(tǒng)計中的分布函數(shù),分布密度函數(shù)
設(shè)X是一個隨機變量,稱 F(x)=P(X≤x)F(x)=P(X\leq x)F(x)=P(X≤x)為X的概率分布,簡稱為分布函數(shù),記作X≈F(x)X\approx F(x)X≈F(x)
如果隨機變量在有限的xk{x_{k}}xk?上取值,記P(X=xk)=pk,(k=1,2,?)P(X=x_{k})=p_{k},(k=1,2,\cdots)P(X=xk?)=pk?,(k=1,2,?)且∑kpk=1\sum_{k}{p_{k}}=1∑k?pk?=1,則稱X為離散型隨機變量,稱P(X=xk)=pk,(k=1,2,?)P(X=x_{k})=p_{k},(k=1,2,\cdots)P(X=xk?)=pk?,(k=1,2,?)為X的概率分布
分布密度函數(shù):
設(shè)X?F(x)X - F(x)X?F(x),若存在一個非負函數(shù)f(x)f(x)f(x),使得一切實數(shù)x有:F(x)=∫?∞xf(t)dtF(x)=\int_{-\infty}^{x}{f(t)}{\rm d}tF(x)=∫?∞x?f(t)dt,則稱f(x)f(x)f(x)為X的分布密度函數(shù),簡稱為密度函數(shù)。一個函數(shù)f(x)f(x)f(x)能作為某個隨機變量X的分布密度函數(shù)的重要條件是:
(1)f(x)f(x)f(x)≥0,對一切實數(shù)x都成立;
(2)∫?∞xf(x)dx=1\int_{-\infty}^{x}{f(x)}{\rm d}x=1∫?∞x?f(x)dx=1
多元分布的聯(lián)合,邊緣分布和聯(lián)合,邊緣密度函數(shù)
隨機向量的數(shù)字特征
均值向量
均值向量:
u?=E(X)=[E(X1)E(X2)?E(Xp)]=[u1?u2??up?]\vec{u}=E(X)=\left[\begin{matrix} E(X_{1})\\ E(X_{2})\\ \vdots \\ E(X_{p})\\ \end{matrix}\right]=\left[\begin{matrix} \vec{u_{1}}\\ \vec{u_{2}}\\ \vdots \\ \vec{u_{p}}\\ \end{matrix}\right] u=E(X)=???E(X1?)E(X2?)?E(Xp?)????=???u1??u2???up??????
其中,
ui?={∫?∞+∞xifi(xi)dxi若Xi是概率密度函數(shù)為fi(xi)的連續(xù)型隨機變量∑所有zixipi(xi)若Xi是概率函數(shù)為pi(xi)的離散型隨機變量\vec{u_{i}}= \begin{cases} \int_{-\infty}^{+\infty}{x_{i}f_{i}(x_{i})}{\rm d}x_{i} & 若X_{i}是概率密度函數(shù)為f_{i}(x_{i})的連續(xù)型隨機變量 \\ \sum_{所有z_{i}}{x_{i}}p_{i}(x_{i}) & 若X_{i}是概率函數(shù)為p_{i}(x_{i})的離散型隨機變量 \end{cases} ui??={∫?∞+∞?xi?fi?(xi?)dxi?∑所有zi??xi?pi?(xi?)?若Xi?是概率密度函數(shù)為fi?(xi?)的連續(xù)型隨機變量若Xi?是概率函數(shù)為pi?(xi?)的離散型隨機變量?
協(xié)差陣
正態(tài)分布的定義和有關(guān)性質(zhì)
現(xiàn)實世界中,許多實際問題的解決都是以總體服從正態(tài)分布或者近似服從正態(tài)分布為前提的。
所以在處理數(shù)據(jù)時,為了克服由于指標的量綱不同對統(tǒng)計分析結(jié)果帶來的影響,往往在使用各種統(tǒng)計分析之前,常需要將每個指標“標準化”。
聚類與SPSS應(yīng)用
總結(jié)
以上是生活随笔為你收集整理的多元统计分析(笔记更新中...)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 28款数据恢复软件分类介绍
- 下一篇: 数据恢复软件性能大比拼