李航第一章课后习题答案
1.1
統計學習方法的三要素是模型、策略、算法。
伯努利模型是定義在取值為0與1的隨機變量上的概率分布。假設觀測到伯努利模型n次獨立的數據生成結果,
假定事件為A,
其中“有k次實驗”的數值結果為1(這里不是概率值),這時可以用極大似然估計或貝葉斯估計來估計事件A=1的概率。
注意:
這里的n和k都是常數。
并且這k次的順序也是固定的,所以不需要在后面計算的時候考慮組合數
統計學分為兩派:經典統計學派和貝葉斯統計學派。兩者的不同主要是,經典統計學派認為模型已定,參數未知,參數是固定的,只是還不知道;貝葉斯統計學派是通過觀察到的現象對概率分布中的主觀認定不斷進行修正。
極大似然估計和貝葉斯估計的模型都是伯努利模型也就是條件概率模型;極大似然估計用的是經典統計學派的策略,貝葉斯估計用的是貝葉斯統計學派的策略;為了得到使經驗風險最小的參數值,使用的算法都是對經驗風險求導,使導數為0.
定義隨機變量A為一次伯努利試驗的結果,A的取值為{0,1},概率分布為P(A):
P(A=1)=θP(A=1)=\thetaP(A=1)=θ
P(A=0)=1?θP(A=0)=1-\thetaP(A=0)=1?θ
所以上面這道題的意思就是,最后可以用極大似然估計或者貝葉斯估計來估計P(A)的大小
下面分布用極大似然估計和貝葉斯估計來估計\theta的值。
極大似然估計:
L(θ)=∏i=1nP(Ai)=θk(1?θ)n?kL(θ)=∏i=1nP(Ai)=θk(1?θ)n?kL(\theta)=\prod_{i=1}^{n}P(A_i)=\theta^k(1-\theta)^{n-k}L(\theta)=\prod_{i=1}^{n}P(A_i)=\theta^k(1-\theta)^{n-k}L(θ)=i=1∏n?P(Ai?)=θk(1?θ)n?kL(θ)=i=1∏n?P(Ai?)=θk(1?θ)n?k
AiA_iAi?代表第i次隨機試驗。
θ=argmax?θL(θ)=knθ=argmax?θL(θ)=kn\theta=arg\max \limits_\theta L(\theta)=\frac{k}{n}\theta=arg\max \limits_\theta L(\theta)=\frac{k}{n}θ=argθmax?L(θ)=nk?θ=argθmax?L(θ)=nk?
注意,第1.1小題的解答到這里就可以結束了。
貝葉斯估計:
P(θ∣A1,A2,...,An)P(\theta|A_1,A_2,...,A_n)P(θ∣A1?,A2?,...,An?)
=P(A1,A2,...An∣θ)π(θ)P(A1,A2,...,An)=\frac{P(A_1,A_2,...A_n|\theta)\pi(\theta)}{P(A_1,A_2,...,A_n)}=P(A1?,A2?,...,An?)P(A1?,A2?,...An?∣θ)π(θ)?
根據觀察到的結果修正θ\thetaθ,也就是假設θ\thetaθ是隨機變量,θ\thetaθ服從β\betaβ分布(這個的話我覺得其實就是原來解題者自己加進去的),有很多個可能的取值,我們要取的值時在已知觀察結果的條件下使θ\thetaθ出現概率最大的值。上式分母是不變的,求分子最大就可以。
θ\thetaθ
=argmax?θP(A1,A2,...An∣θ)P(θ)=arg\max \limits_\theta {P(A_1,A_2,...A_n|\theta)P(\theta)}=argθmax?P(A1?,A2?,...An?∣θ)P(θ)
=argmax?θ∏i=1nP(Ai∣θ)P(θ)= arg\max \limits_\theta {\prod_{i=1}^{n}P(A_i|\theta)P(\theta)}=argθmax?∏i=1n?P(Ai?∣θ)P(θ)
=argmax?θθk(1?θ)n?kθa?1(1?θ)b?1=arg \max \limits_\theta {\theta^k(1-\theta)^{n-k}\theta^{a-1}(1-\theta)^{b-1}}=argθmax?θk(1?θ)n?kθa?1(1?θ)b?1
=k+(a?1)n+(a?1)+(b?1)=\frac{k+(a-1)}{n+(a-1)+(b-1)}=n+(a?1)+(b?1)k+(a?1)?
其中a,b是β\betaβ分布中的參數
β(θ;a,b)=θa?1(1?θ)b?1一個常數\beta(\theta;a,b)=\frac{\theta^{a-1}(1-\theta)^{b-1}}{一個常數}β(θ;a,b)=一個常數θa?1(1?θ)b?1?,
選定a,b后就可以確定θ\thetaθ。
如選擇a=b=2,則θ=k+1n+2\theta=\frac{k+1}{n+2}θ=n+2k+1?
(a,b怎么選最合理,這里應該是缺參數的。)
如果錯誤,歡迎指正。
參考:
http://blog.csdn.net/a358463121/article/details/52562940
http://blog.csdn.net/guohecang/article/details/52313046
http://www.math.zju.edu.cn/webpagenew/UploadFiles/AttachFiles/2010421221717128.pdf
https://guangchun.wordpress.com/2011/10/13/ml-bayes-map/
http://www.guokr.com/question/547339/
http://blog.csdn.net/guohecang/article/details/52313046
下圖是β\betaβ分布:
β(θ;a,b)=θa?1(1?θ)b?1一個常數β(θ;a,b)=θa?1(1?θ)b?1一個常數\beta(\theta;a,b)=\frac{\theta^{a-1}(1-\theta)^{b-1}}{一個常數}\beta(\theta;a,b)=\frac{\theta^{a-1}(1-\theta)^{b-1}}{一個常數}β(θ;a,b)=一個常數θa?1(1?θ)b?1?β(θ;a,b)=一個常數θa?1(1?θ)b?1?
1.2
模型是條件概率分布:Pθ(Y∣X)Pθ(Y∣X)P_\theta(Y|X)P_\theta(Y|X)Pθ?(Y∣X)Pθ?(Y∣X),
損失函數是對數損失函數:L(Y,P(Y∣X))=?logP(Y∣X)L(Y,P(Y∣X))=?logP(Y∣X)L(Y,P(Y|X))=-logP(Y|X)L(Y,P(Y|X))=-logP(Y|X)L(Y,P(Y∣X))=?logP(Y∣X)L(Y,P(Y∣X))=?logP(Y∣X),
經驗風險為:
Remp(f)R_{emp}(f)Remp?(f)
=1N∑i=1NL(yi,f(xi))=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))=N1?∑i=1N?L(yi?,f(xi?))
=1N∑i=1N?logP(yi∣xi)=\frac{1}{N}\sum_{i=1}^{N}-logP(y_i|x_i)=N1?∑i=1N??logP(yi?∣xi?)
=?1N∑i=1NlogP(yi∣xi)=-\frac{1}{N}\sum_{i=1}^{N}logP(y_i|x_i)=?N1?∑i=1N?logP(yi?∣xi?)
最小化經驗風險,也就是最大化sumi=1NlogP(yi∣xi)∑i=1NlogP(yi∣xi)sum_{i=1}^{N}logP(y_i|x_i)\sum_{i=1}^{N}logP(y_i|x_i)sumi=1N?logP(yi?∣xi?)i=1∑N?logP(yi?∣xi?),
也就是最大化prodi=1NP(yi∣xi)∏i=1NP(yi∣xi)prod_{i=1}^{N}P(y_i|x_i)\prod_{i=1}^{N}P(y_i|x_i)prodi=1N?P(yi?∣xi?)i=1∏N?P(yi?∣xi?),
這個就是極大似然估計。
為什么極大似然估計可以被用來估計參數:
https://blog.csdn.net/appleyuchi/article/details/82928372
總結
以上是生活随笔為你收集整理的李航第一章课后习题答案的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SVM和感知机的区别(转载+自己笔记)
- 下一篇: 为什么“极大似然估计表达式的极值”可以用