概率论与贝叶斯先验
文章目錄
- 概率論與貝葉斯先驗
- 概率論基礎
- 問題代碼
- 圖像
- 本福特定律
- 應用:公路堵車模型
- 代碼模型
- 初速不同:影響不大
- 減速概率:影響大
- 應用:商品推薦
- 解答
- 概率公式
- 應用
- 樣本貝葉斯公式
- 分布
- 兩點分布
- 二項分布
- 泊松分布
- 期望和方差表示強度應用
- 均勻分布
- 指數分布
- 無記憶性
- 半記憶性
- 正態分布
- EX
- DX
- 代碼
- 圖像
- Beta分布
- 期望
- 圖像
- 指數族
- 伯努利分布應用
- 參數Logistic方程
- 作用:分類需要假定模型
- 得到似然函數
- 事件獨立性
- 統計量
- 期望
- 性質
- 應用
- 答案
- 代碼
- 進一步思考
- 應用2
- 方差
- 性質
- 應用
- 切爾雪夫不等式
- 應用
- 協方差
- 意義
- 協方差上界
- 上界證明
- 協方差矩陣
- 相關系數為0不相關
- 代碼
- 一次
- 二次
- 正切
- 二次函數
- 橢圓
- 大數定律
- 意義
- 推論
- 引用
- 中心極限定理
- 意義
- 應用
概率論與貝葉斯先驗
概率論基礎
統計數字的概率
給定某正整數N,統計從1到N!的所有數中,首位數字出現1的概率。
進而,可以計算首位數字是2的概率,是3的概率,從而得到一條“九點分布”
問題代碼
def first_digital(x):while x>=10:x/=10return x if _name_=="_main_":n=1frequency=[0]*9//造一個數據for i in range(1,1000):n*=im=first_digital(n)-1frequency[m]+=1print frequencyplt.plot(frequency,'r-',linewidth=2)plt.plot(frequency,'go',makersize=8) plt.grid(True)plt.show圖像
本福特定律
應用:公路堵車模型
路面上有N輛車,以不同速度向前行駛,模擬堵車問題。有以下假設:
代碼模型
path=5000 #環形公路長度 n=100 #公路中的車輛數目 v0=5 #車輛初始速度 p=0.3 #隨機減速概率 Times=3000 np.random.send(0) x=xp.random.rand(n)*path x.sort() v=np.title([v0],n).astype(np.float)plt.figure(figize=(10,8),facecolor for t in range(Times):plt.scatter(x,[t])*n,s=1,c='k',for i in range(n):if x[(i+1)%n]>x[i]:d=x[(i+1)%n]-x[i]else:d=path-x[i]+x[(i+1)if v[i]<d:if np.random.rand()>p:v[i]+=1else:v[i]-=1else:v[i]=d-1v=v.clip(0,150)x+=vclip(x,path) plt.xlim(0,path) plt.ylim(0,path) plt.xlabel(u'車輛位置',fontsize=16) plt.ylabel(u'模擬時間',fontsize=16) plt.title(u'環形公路車輛模擬',fontsize=16) plt.tight_layout(pad=2) plt.show()
其中c,python隨機是偽隨機
初速不同:影響不大
減速概率:影響大
應用:商品推薦
解答
A=B直線上方區域即為B>A情況
概率公式
條件概率
全概率公式
貝葉斯公式
應用
樣本貝葉斯公式
分布
兩點分布
二項分布
泊松分布
推導
期望和方差
期望和方差表示強度應用
均勻分布
指數分布
分部積分法 中間減
無記憶性
半記憶性
馬爾可夫模型
正態分布
EX
DX
代碼
import... mp1.rcParams['axes.unicode_minus']=False mp1.rcParams['font.sans-serif']='SimMEI'if __name__='__main__':x1,x2=np.mgrid[-5:-5:51j,-5:-5:51j]x=np.stack((x1,x2),axis=2)plt.figure(figsize=(9,8),facecolar='w')sigma=(np.identity(2),np.diag((3,3)),np.diag((2,5)),np.array(((2,1),(2,5)))for i in np.arrange(4):ax=plt.subplot(2,2,i+1,projection='3d')norm=states.multivariate_normal((0,0),sigma[i])y=norm.pdf(x)ax.plot_surface(x1,x2,y,cmap=cm.Accent,rstride=4,cstride=4,alpha=0.9,lw=0.3)ax.set_xlabel(u'X')ax.set_ylabel(u'Y')ax.set_zlabel(u'Z')plt.suptitle(u'二元高斯分布方差比較',fontsize=18)plt.tight_layout(1.5)plt.show()圖像
方差大,半軸長
斜的
Beta分布
推導過程
期望
圖像
指數族
指數族分布:一個峰可能是指數族:高斯分布
多個峰一定不是指數族分布
伯努利分布應用
推導參數Logistic方程
參數Logistic方程
作用:分類需要假定模型
得到似然函數
事件獨立性
給定A和B事件,若有P(AB)=P(A)P(B) 則稱事件A和B相互獨立
說明
A和B獨立,則P(A|B)=P(A)
實踐中往往根據兩個事件是否互相影響而判斷獨立性,如給定M個樣品,若干次采樣等情形,往往假設他們相互獨立
思考:給出A,B相互包容的信息量的定義I(A,B)要求:如果A,B獨立,則I(A,B)=0
統計量
期望
離散型
連續型
概率加權下“平均值”
性質
無條件成立
E(kX)=kE(X)
E(X+Y)=E(x)+E(Y)
若X和Y相互獨立
E(XY)=E(X)E(Y)
反之不成立。事實上,若E(XY)=E(X)E(Y),只能說明X和Y不相關
應用
從1,2,3……98,99,2015這100個數中任意選擇若干個數(可能為0個數)求異或,是求異或期望值
答案
首先我們來分析 2015這個值,
在1,2,3,…,98,99這99個數中任意選擇若干個數的選法一共有種,
而在1,2,3,…,98,99,2015這100個數中任意選擇若干個數的選法一共有
種,
因此在全部的選法中,出現2015的概率為(2100-299)/2^100=0.5
分析1~99 和2015這些數的特點
(2015) = 111 1101 1111
(99) = 000 0110 0011
我們發現:前4位取0或1,完全是由2015這個數決定的。
因此,設,每一位的取值用Xi表示
前4位 中每一位 P(Xi = 1)= P(出現2015)= 1/2
分析除前四位的其他位
設第 i 位共有n個1,m個0
采樣取到1的個數為K
因為,一列數據求異或時,0其實不起作用的,主要還是看1的個數,偶數個1 異或記過為0,基數個1 異或為結果為1.
代碼
進一步思考
應用2
方差
性質
應用
切爾雪夫不等式
應用
協方差
獨立,協方差為0
協方差為0,不相關, 不一定獨立,線性獨立
意義
協方差是兩個隨機變量具有相同方向變化趨勢的度量
若Cov(X,Y)>0,他們變化趨勢相同
若Cov(X,Y)<0,他們變化趨勢相反
若Cov(X,Y)=0,稱x和y不相關
協方差上界
上界證明
協方差矩陣
相關系數為0不相關
代碼
def calc_pearson(x,y):std1=np.std(x)std2=np.std(x)cov=np.cov(x,y,bias=True)[0,1]return cov/(std1*std2) def pearson(x,y,tip):clrs=list('rgbmyc')plt.figure(figsize=(10,8),facecolor='w')for i,theta in enumerate(np.linspace(0,90,6)):xr,yr=rotate(x,y,theta)p=states.pearson(xr,yr)[0]print'旋轉角度:',theta,'Pearson相關系數:',pstr=u'相關系數:%.3f'%pplt.scatter(xr,yr,s=40,alpha=0.9,lineswidth=0.5,c=clr)plt.legend(loc='upper left',shadow=True)plt.xlabel(u'x') plt.ylabel(u'y')plt.title(u'Pearson相關系數與數據分布:%s'% tip,fontsize=18)plt.grid(b=True)plt.show()一次
tip=u'一次函數關系' x=np.random.rand(N) y=np.zero(N)+np.random.randn(N)*0.001二次
tip=u'二次函數關系' x=np.random.rand(N) y=x**2正切
tip=u'正切關系' x=np.random.rand(N)*1.4 y=np.tan(x)二次函數
tip=u'二次函數關系' x=np.linspace(-1,1,101) y=x**2橢圓
tip=u'橢圓' x,y=np.random.rand(2,N)*60-30 y/=5 idx=(x**2/900+y**2/36<1) x=x[idx] y=y[idx]大數定律
意義
推論
一次實驗中事件A發生概率為p;重復n次獨立實驗中
事件A發生了nA次,則p,n,nA關系滿足
引用
上述事件為我們實際應用中用頻率來估計概率提供一個理論依據
正態分布的參數估計
樸素貝葉斯做垃圾郵件分類
隱性馬爾可夫模型做有監督學習
中心極限定理
意義
實際問題中,很多隨機現象可以看作許多因素的獨立影響 綜合反應,很多近似服從正態分布
城市耗電量:大量用戶的耗電量綜合
測量誤差:許多觀察不到微小的變化
注意:多個隨機變量的和才可以,有些問題乘性誤差,則需要鑒別或者取對數后才可以使用
線性回歸中,使用該理論論證最小二乘法
應用
總結
- 上一篇: 计算机辅助翻译专业院校,2017年北大计
- 下一篇: 斗地主游戏小结