几何级数 函数 matlab,matlab 实验05数据的统计分析
數據的統計分析
在日常生活中我們會在很多事件中收集到一些數據(比如:考試分數、窗口排隊人數、月用電量、燈泡壽命、測量誤差、產品質量、月降雨量等數據),這些數據的產生一般都是隨機的.這些隨機數據乍看起來并沒有什么規律,但通過數理統計的研究發現:這些隨機數還是符合著某種分布規律的,這種規律被稱為統計規律.
本實驗旨在通過對概率密度函數曲線的直觀認識、對數據分布的形態猜測、對某些概率分布的密度函數的參數估計(以正態為例)以及進行簡單的正態假設檢驗,來揭示生活中的隨機數據的一些統計規律.
1.概率密度函數pdf系列.以normpdf( )為例,調用格式:
y=normpdf(x, mu,sigma),
計算參數為mu和sigma的樣本數據x的正態概率密度函數.參數sigma必須為正.其中:mu為均值,sigma為標準差.
2.參數估計fit系列.以normfit( )為例,調用格式:
[muhat, sigmahat, muci, sigmaci] = normfit(x, alpha),
對樣本數據x進行參數估計,并計算置信度為100(1-alpha)%的置信區間.如alpha=0.01時,則給出置信度為99%的置信區間.不寫明alpha,即表示alpha取0.05.
3.load( )函數.調用格式:
S = load('數據文件')
將純數據文件(文本文件)中的數據導入Matlab,S是雙精度的數組,其行數、列數與數據文件相一致.
4. hist(x, m)函數:畫樣本數據x的直方圖,m為直方圖的條數,缺省值為10.
5. tabulate( )函數:繪制頻數表.返回table矩陣,第一列包含x的值,第二列包含該值出現次數,最后一列包含每個值的百分比.
6.ttest(x,m,alpha)函數:假設檢驗函數.此函數對樣本數據x進行顯著性水平為alpha的t假設檢驗,以檢驗正態分布樣本x(標準差未知)的均值是否為m.h=1表示拒絕零假設,h=0表示不能拒絕零假設.
7.normplot(x)或weibplot(x)函數:統計繪圖函數,進行正態分布檢驗.
研究表明:如果數據是來自一個正態分布,則該線為一直線形態;如果它是來自其他分布,則為曲線形態.
完全類似地可探索以下一系列函數的用法與作用:
8.累積分布函數cdf系列,如:normcdf( ).
9.逆累積分布函數inv系列,如:norminv( ).
10.隨機數發生函數rnd系列,如:normrnd( ).
11.均值與方差函數stat系列,如:normstat( ).
1.常見的概率分布的密度函數及其圖形
1)常見概率分布的密度函數(20個,打√的10個將在后面作介紹)
序號
中文函數名
英文函數名
英文簡寫
備注
1
Beta分布
Beta
beta
2
二項分布
Binomial
bino
√
3
卡方分布
Chisquare
chi2
√抽樣
4
指數分布
Exponential
exp
√
5
F分布
F
f
√抽樣
6
Gamma分布
Gamma
gam
7
幾何分布
Geometric
geo
√
8
超幾何分布
Hypergeometric
hyge
9
對數正態分布
Lognormal
logn
10
負二項式分布
Negative Binomial
nbin
11
非中心F分布
Noncentral F
ncf
12
非中心t分布
Noncentral t
nct
13
非中心卡方分布
Noncentral Chi-square
ncx2
14
正態分布
Normal
norm
√
15
泊松分布
Poisson
poiss
√
16
瑞利分布
Rayleigh
rayl
17
T分布
T
t
√抽樣
18
均勻分布
Uniform
unif
√
19
離散均勻分布
Discrete Uniform
unid
√
20
Weibull分布
Weibull
weib
2)常見概率分布的密度函數文字說明與圖形演示:
(A)常見連續分布的密度函數
(1)正態分布
若連續型隨機變量的密度函數為:
則稱為服從正態分布的隨機變量,記作.特別地,稱時的正態分布為標準正態分布,其概率分布的密度函數參見圖1.一個非標準正態分布的密度函數參見圖2中的虛線部分().
正態分布是概率論與數理統計中最重要的一個分布,高斯(Gauss)在研究誤差理論時首先用正態分布來刻畫誤差的分布,所以正態分布又稱高斯分布.一個變量如果是由大量微小的、獨立的隨機因素的疊加效果,那么這個變量一定是正態變量.比如測量誤差、產品質量、月降雨量等都可用正態分布描述.
x=-8:0.1:8;
y=normpdf(x, 0, 1);
y1=normpdf(x, 1, 2);
plot(x, y, x, y1, ':' );
?
圖1標準正態分布圖2標準正態與非標準正態
(2)均勻分布(連續)
若隨機變量的密度函數為
則稱服從區間上的均勻分布(連續),記作,其概率分布的密度函數見參見圖3.
均勻分布在實際中經常使用,譬如一個半徑為的汽車輪胎,因為輪胎上的任一點接觸地面的可能性是相同的,所以輪胎圓周接觸地面的位置是服從上的均勻分布,這只要看一看報廢輪胎四周磨損程度幾乎是相同的就可明白均勻分布的含義了.
x=-10:0.01:10;r=1;
y=unifpdf(x, 0, 2*pi*r);
plot(x, y);
圖3均勻分布(連續)圖4指數分布
(3)指數分布
若連續型隨機變量的密度函數為:
其中,
則稱為服從參數為的指數分布的隨機變量,記作.
在實際應用問題中,等待某特定事物發生所需要的時間往往服從指數分布.如某些元件的壽命;某人打一個電話持續的時間;隨機服務系統中的服務時間;動物的壽命等都常假定服從指數分布.
指數分布的重要性還在于它是具有無記憶性的連續型隨機變量.即:設隨機變量服從參數為的指數分布,則對任意的實數,有
其概率分布的密度函數參見見圖4.
x=0:0.1:30;
y=exppdf(x, 4);
plot(x, y)
(B)常見離散分布的密度函數
(4)幾何分布
在一個貝努里實驗中,每次試驗成功的概率為,失敗的概率為,設試驗進行到第次才出現成功,則的分布列為:
容易看到是幾何級數的一般項,于是人們稱它為幾何分布,其概率分布的密度函數參見圖5.
x=0:30;
y=geopdf(x, 0.5);
plot(x, y)
圖5幾何分布圖6二項分布
(5)二項分布
如果隨機變量的分布列為:
則這個分布稱為二項分布,記為.當時的二項分布又稱為0-1分布,分布律為
0
1
一般的二項分布的密度函數參見圖6.
x=0:50;
y=binopdf(x, 500, 0.05);
plot(x, y);
(6)泊松(Poisson)分布
泊松分布是1837年由法國數學家泊松(Poisson S.D.1781-1840)首次提出的,其概率分布列是:
記為,其概率分布的密度函數參見圖7.
泊松分布是一種常用的離散分布,它與單位時間(或單位面積、單位產品等)上的計數過程相聯系,譬如:單位時間內,電話總機接到用戶呼喚次數;1平方米內,玻璃上的氣泡數;一鑄件上的砂眼數;在單位時間內,某種放射性物質分裂到某區域的質點數等等.
x=0:50;
y=poisspdf(x, 25);
plot(x, y);
注:對比二項分布的概率密度函數圖可以發現,當二項分布的與泊松分布充分接近時,兩圖擬合程度非常高(圖6與圖7中的),直觀地驗證了泊松定理(泊松分布是二項分布的極限分布),請對比圖6與圖7.
圖7泊松分布圖8均勻分布(離散)
(7)均勻分布(離散)
如果隨機變量的分布列為:
則這個分布稱為離散均勻分布,記為,其概率分布的密度函數參見圖8.
n=20;
x=1:n;
y=unidpdf(x, n);
plot(x, y, 'o-' );
(C)三大抽樣分布的密度函數
(8)分布
設隨機變量相互獨立,且同服從正態分布,則稱隨機變量服從自由度為的分布,記作,亦稱隨機變量為變量.其概率分布的密度函數參見圖9、圖10,分布的密度函數解析式參見本章的附錄表格.
x=0:0.1:20; ????????????????????????????????????????????????? x=0:0.1:20;
y=chi2pdf(x, 4); ???????????????????????????????????????????????? y=chi2pdf(x, 10);
plot(x, y);????????????????????????????????????????????????????? plot(x, y)
圖9 分布圖10 分布
(9)分布
設隨機變量,,且與相互獨立,則稱隨機變量
服從自由度為的分布,記作,其概率分布的密度函數參見圖11,即,分布的密度函數解析式參見本章的附錄表格.
x=0.01:0.1:8.01;
y=fpdf(x, 4, 10);
plot(x, y)
圖11 分布圖12? 分布
(10)分布
設隨機變量,且與相互獨立,則稱隨機變量
服從于自由度為的分布,記作,其概率分布的密度函數參見圖12,即.分布的密度函數解析式參見本章的附錄表格.
細心的讀者可能已經發現,圖12的分布圖與圖1、圖2的正態分布十分相似.可以證明:當時,分布趨于標準正態分布.
x=-6:0.01:6;
y=tpdf(x, 4);
plot(x, y)
2.對給定數據畫頻數直方圖(Histogram)或頻數表(Frequency Table)
假定有若干個給定的數據集,它們滿足上述10種分布之一,我們現在的任務就是利用畫頻數直方圖等手段,確定它們到底服從哪一類分布.
例1:某一次書面考試的分數羅列如下,試畫頻數直方圖.
鑒于數據的數量較大(包含有120個數據),可以先在一個文本文件中輸入,保存為data1.txt.
75??? 69?? 100??? 80??? 70??? 74??? 78??? 59??? 72??? 73
63??? 79??? 69??? 81??? 62??? 87??? 80??? 66??? 86??? 75
70??? 85??? 85??? 64??? 78??? 65??? 69??? 67??? 78??? 72
60??? 50??? 57??? 83??? 77??? 79??? 78??? 74??? 67??? 83
71??? 67??? 71??? 74??? 84??? 74??? 83??? 75??? 73??? 74
60??? 91??? 65??? 69??? 80??? 63??? 86??? 67??? 73??? 80
74??? 68??? 72??? 80??? 95??? 61??? 77??? 85??? 82??? 71
80 ???76??? 83??? 69??? 87??? 76??? 72??? 69??? 66??? 86
74??? 87??? 59??? 81??? 88??? 75??? 83??? 71??? 77??? 81
88??? 67??? 67??? 76??? 71??? 76??? 79??? 79??? 90??? 62
80??? 85??? 81??? 75??? 72??? 57??? 94??? 91??? 83??? 78
66??? 74??? 79??? 74??? 82??? 79??? 87??? 76??? 81??? 68
x=load('data1.txt');
x=x(:);
hist(x)
結果參見圖13.從圖形形態上來看,圖13較為接近圖2所示的正態分布.
圖13例1的頻數直方圖圖14例2的頻數直方圖
例2:某一次上機考試的分數羅列如下(data2.txt,包含有130個數據),試畫頻數直方圖.
51??? 70??? 95??? 91??? 70??? 83??? 83??? 96??? 66??? 61
79??? 79??? 57??? 85??? 95??? 83??? 63??? 71??? 71??? 72
91??? 60??? 69?? 100??? 67??? 87??? 72??? 50??? 60??? 63
87??? 98??? 71??? 74??? 96??? 55??? 83??? 67??? 92??? 78
56??? 62??? 77??? 79??? 84??? 55??? 59??? 61??? 93??? 56
82??? 61??? 88??? 97??? 98??? 95?? ?73??? 79??? 81??? 87
56??? 92??? 53??? 57??? 93??? 89??? 77??? 89??? 56??? 92
99??? 86??? 68??? 57??? 91??? 57??? 81??? 65??? 80??? 99
79??? 95??? 79??? 86??? 74??? 56??? 70??? 61??? 72??? 81
57??? 75??? 98??? 89??? 69??? 61??? 71??? 77??? 72??? 78
70??? 73??? 67??? 59??? 62??? 86??? 84??? 93??? 82??? 80
90??? 94??? 84??? 89??? 80??? 67??? 97??? 73??? 80??? 94
69??? 64??? 51??? 51??? 92??? 62??? 52??? 86??? 67??? 97
x=load('data2.txt');
x=x(:);
hist(x)
結果參見圖14.圖14看上去很接近圖8所示的均勻分布(離散).
例3:以下給出上海1998年來的月降雨量的數據(data3.txt,包含有98個數據):
1184.4 ?1113.4 ?1203.9 ?1170.7 ?975.4 ??1462.3 ?947.8
1416.0 ?709.2 ??1147.5 ?935 ???1016.3 ?1031.6 ?1105.7
849.9 ??1233.4 ?1008.6 ?1063.8 ?1004.9 ?1086.2 ?1022.5
1330.9 ?1439.4 ?1236.5 ?1088.1 ?1288.7 ?1115.8 ?1217.5
1320.7 ?1078.1 ?1203.4 ?1480.0 ?1269.9 ?1049.2 ?1318.4
1192.0 ?1016.0 ?1508.2 ?1159.6 ?1021.3 ?986.1 ??794.7
1318.3 ?1171.2 ?1161.7 ?791.2 ??1143.8 ?1602.0 ?951.4
1003.2 ?840.4 ??1061.4 ?958.0 ??1025.2 ?1265.0 ?1196.5
1120.7 ?1659.3 ?942.7 ??1123.3 ?910.2 ??1398.5 ?1208.6
1305.5 ?1242.3 ?1572.3 ?1416.9 ?1256.1 ?1285.9 ?984.8
1390.3 ?1062.2 ?1287.3 ?1477.0 ?1011.9? 1217.7 ?1197.1
1143.0 ?1018.8 ?1243.7 ??909.3 ?1030.3 ?1124.4 ?811.4
820.9 ??1184.1 ?1107.5 ??991.4? ?901.7 ?1176.5 ?1113.5
1272.9 ?1200.3 ?1508.7? ?772.3? ?813.0 ?1392.3 ?1006.2
x=load('data3.txt');
x=x(:);
hist(x)
結果參見圖15.圖15看上去很接近圖10所示的分布.
圖15例3的頻數直方圖圖16例4的頻數直方圖
在重復數據較多的情況下,我們也可以利用Matlab自帶的函數tabulate( )產生頻數表,并以頻數表的形式來發掘數據分布的規律.
例4:給出以下數據:(data4.txt,含有46個數據)
2? 3? 6? 4? 1? 5? 1? 2? 3? 1? 4? 2? 3? 1? 3? 3? 2? 3? 1? 6? 4? 6? 4
6? 5? 4? 3? 6? 4? 3? 3? 3? 3? 4? 4? 5? 6? 2? 1? 2? 3? 4? 5? 6? 5? 4
則:
x=load('data4.txt');
x=x(:);
tabulate(x)
hist(x, 6)
Value??? Count??? Percent
1??????? 6???? 13.04%
2????? ??6???? 13.04%
3?????? 12???? 26.09%
4?????? 10???? 21.74%
5??????? 5???? 10.87%
6??????? 7???? 15.22%
結果參見圖16.圖16看上去好象沒有什么規律可循.
例5:現累積有100次刀具故障記錄,當故障出現時該批刀具完成的零件數如下:(data5.txt)
459 ?362 ?624 ?542 ?509 ?584 ?433 ?748 ??815 ?505
612 ?452 ?434 ?982 ?640 ?742 ?565 ?706 ??593 ?680
926 ?653 ?164? 487 ?734 ?608 ?428 ?1153 ?593 ?844
527 ?552 ?513 ?781 ?474 ?388 ?824 ?538 ??862 ?659
775 ?859 ?755? ?49 ?697 ?515 ?628 ?954 ??771 ?609
402 ?960 ?885 ?610 ?292 ?837 ?473 ?677 ??358 ?638
699 ?634 ?555 ?570 ??84 ?416 ?606 ?1062 ?484 ?120
447 ?654 ?564 ?339 ?280 ?246 ?687 ?539 ??790 ?581
621 ?724 ?531 ?512 ?577 ?496 ?468 ?799 ??544 ?645
764 ?558 ?378 ?765 ?666 ?763 ?217 ?715 ??310 ?851
x=load('data5.txt');
x=x(:);
hist(x)?????? %%結果參見圖17,很象圖2所示的正態分布
figure
histfit(x)???? %%結果參見圖18,加入了較接近的正態分布的密度曲線
圖17例5的hist(x)圖18例5的histfit(x)
3.參數估計
當我們可以基本確定數據集符合某種分布時,下一步我們就該確定這個分布的參數了.由于正態分布情況發生的比較多,故一般我們首先考慮的分布將是正態分布.考慮最多的也是正態分布情況.
對于未知參數的估計,可分兩種情況:點估計與區間估計.
(1)點估計:構造樣本與某個統計量有關的一個函數,作為該統計量的一個估計,稱為點估計.Matlab統計工具箱中,一般采用最大似然估計法給出參數的點估計.可以證明:
①正態分布中,最大似然估計是,的最大似然估計是;
②泊松分布的最大似然估計是;
③指數分布的最大似然估計是,等等.
例6:已知上述例1的數據服從正態分布,試求出和的值.
解:x=load('data1.txt');
x=x(:);
[mu, sigma] = normfit(x)
mu =
75.3417
sigma =
8.8768
因此,=mu=75.3412,=sigma2=8.87682=78.7982.
(2)區間估計:構造樣本與某個統計量有關的兩個函數,作為該統計量的下限估計與上限估計,下限與上限一般能夠構成一個區間.這個區間作為該統計量的估計,稱為區間估計.Matlab統計工具箱中,一般也采用最大似然估計法給出參數的區間估計.
例7:已知上述例1的數據集服從正態分布,試求出和的置信度為95%的區間估計.
解:x=load('data1.txt');
x=x(:);
[mu, sigma muci, sigmaci] = normfit(x)
mu =
75.3417
sigma =
8.8768
muci =
73.7371
76.9462
sigmaci =
7.8781
10.1678
因此,73.737176.9462,7.878110.1678.
例8:從自動機床加工的同類零件中抽取16件,測得長度值為(data6.txt):
12.15? 12.12? 12.01? 12.08? 12.09? 12.16? 12.06? 12.13
12.07? 12.11? 12.08? 12.01? 12.03? 12.01? 12.03? 12.06
已知零件長度服從正態分布,求零件長度的均值和標準差的置信度為99%的置信區間.
解:x=load('data6.txt');
x=x(:);
[mu, sigma, muci, sigmaci] = normfit(x, 0.01)
mu =
12.0750
sigma =
0.0494
muci =
12.0386
12.1114
sigmaci =
0.0334
0.0892
其中muci(1)、muci(2)分別是平均值在99%置信度下的上下限;而sigmaci(1)、sigmaci(2)分別是標準差在99%置信度下的上下限.
4.正態假設檢驗
對總體的分布律或分布參數作某種假設,根據抽取的樣本觀察值,運用數理統計的分析方法,檢驗這種假設是否正確,從而決定接受假設或拒絕假設,這就是假設檢驗問題.這里僅以正態假設檢驗為例,來說明假設檢驗的基本過程.
正態假設檢驗的一般過程是:
(1)對比正態分布的概率密度函數圖,判斷某統計量的分布可能服從正態分布;
(2)利用統計繪圖函數normplot( )或weibplot( )進行正態分布檢驗.
(3)假設檢驗:利用Matlab統計工具箱給出的常用的假設檢驗方法的函數ttest(x,m,alpha),進行顯著性水平為alpha的t假設檢驗,以檢驗正態分布樣本x(標準差未知)的均值是否為m.運行結果中,當h=1時,表示拒絕零假設;當h=0時,表示不能拒絕零假設.
例9:試說明例5所示的刀具的使用壽命服從正態分布,并且說明在方差未知的情況下其均值m取為597是否合理?
解:(1)對比正態分布的概率密度函數圖(圖17、圖18)以及對正態分布的描述(一個變量如果是由大量微小的、獨立的隨機因素的疊加效果,那么這個變量一定是正態變量.比如測量誤差、產品質量等都可用正態分布描述),可得初步結論:該批刀具的使用壽命可能服從正態分布.
(2)利用統計繪圖函數normplot(x)進行分布的正態性檢驗.由于:
x=load('data5.txt');
x=x(:);
normplot(x)
圖19刀具壽命分布正態性檢驗
結果如圖19所示,經觀察這100個離散點非常靠近傾斜直線段,圖形為線性的,因此可得出結論:該批刀具的使用壽命近似服從正態分布.
(3)利用函數ttest(x,m,alpha)進行顯著性水平為alpha的t假設檢驗.由于:
x=load('data5.txt');
x=x(:);
h=ttest(x,597,0.05)
得:h = 0
檢驗結果:h=0,表示不拒絕零假設,說明所提出的假設“壽命均值為597”是合理的.
讀者可以驗證:當執行h=ttest(x,555,0.05),將得到h = 1,表示拒絕零假設.請讀者自行解釋此結果的含義.
1.了解本實驗中雖已提及但沒有詳細介紹的其余10種概率分布的密度函數,如Beta分布、Gamma分布、Weibull分布等,寫出它們的概率分布的密度函數表達式(本實驗的附錄中已經列出一部分),并畫出相應的圖形.
2.寫出本實驗所列出的10種概率累積分布函數表達式,并畫出相應的概率累積分布函數圖形.
3.用tabulate( )函數將例1、例2的分數數據按頻數表的方式進行統計,每5分為一個分數段(可參見例4),觀察數據分布有什么規律.
4.用weibplot(x)函數進行例9的正態分布檢驗,比較與例9的差別.
5.例3給出的上海1998年來的月降雨量的數據(data3.txt)看上去很接近圖10所示的分布,但分布好象沒有直接進行參數估計的函數,試尋求對此數據進行參數估計的可能方法.
6.向例3給出的上海1998年來的月降雨量的數據(data3.txt)中“補充”一些數據,使其看上去很接近正態分布,并求此時的均值和標準差的點估計與置信度為97%的區間估計.
7.在第6題基礎上,說明在方差未知的情況下,其均值取為1150是否合理?
8.ttest( )函數的完整用法是:[h,sig,ci] = ttest(x,m,alpha,tail)
其中sig為觀察值的概率,當sig為小概率時則對零假設提出質疑(這里的零假設為:.也可以是其它形式,例如:、等);ci為真正均值μ的1-alpha置信區間;不寫tail,表示其取值為0.
說明:若h=0,表示在顯著性水平alpha下,不能拒絕零假設;若h=1,表示在顯著性水平alpha下,可以拒絕零假設.
若tail=0,表示備擇(對立)假設為:(默認,雙邊檢驗);若tail=1,表示備擇(對立)假設為:(單邊檢驗);若tail=-1,表示備擇(對立)假設為:(單邊檢驗).
試用該函數求解如下問題:某種電子元件的壽命X(以小時計)服從正態分布,、均未知.現測得16只元件的壽命如下:
159? 280? 101? 212? 224? 379? 179? 264? 222? 362? 168? 250
149? 260? 485? 170
問當取alpha=0.05時:(1)是否有理由認為元件的平均壽命不大于225(小時)?(2)是否有理由認為元件的平均壽命不大于295(小時)?
9.查看函數ttest2( )的用法,并用于處理Matlab統計工具中的數據文件gas.mat.回答問題:一月份油價price1與二月份油價price2的均值是否相同?
附錄:Matlab中的其它部分概率分布函數名及其數學意義列表:
函數名
對應分布
數學意義
batapdf
Beta分布
chi2pdf
卡方分布
fpdf
F分布
gampdf
Gamma分布
,
raylpdf
瑞利分布
,
tpdf
t分布
weibpdf
Weibull分布
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的几何级数 函数 matlab,matlab 实验05数据的统计分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: setScaledContents的看法
- 下一篇: GPUImage – 色阶 GPUIma