最大似然估计法
最大似然估計的原理:
給定一個概率分布,假定其概率密度函數(連續分布)或概率聚集函數(離散分布)為,以及一個分布參數,我們可以從這個分布中抽出一個具有個值的采樣,通過利用,我們就能計算出其概率:
但是,我們可能不知道的值,盡管我們知道這些采樣數據來自于分布。那么我們如何才能估計出呢?一個自然的想法是從這個分布中抽出一個具有個值的采樣,然后用這些采樣數據來估計.
一旦我們獲得,我們就能從中找到一個關于的估計。最大似然估計會尋找關于的最可能的值(即,在所有可能的取值中,尋找一個值使這個采樣的“可能性”最大化)。這種方法正好同一些其他的估計方法不同,如的非偏估計,非偏估計未必會輸出一個最可能的值,而是會輸出一個既不高估也不低估的值。
要在數學上實現最大似然估計法,我們首先要定義似然函數:
并且在的所有取值上,使這個函數最大化。這個使可能性最大的值即被稱為的最大似然估計。
注意
- 這里的似然函數是指不變時,關于的一個函數。
- 最大似然估計函數不一定是惟一的,甚至不一定存在。
?
例子:
離散分布,離散有限參數空間
考慮一個拋硬幣的例子。假設這個硬幣正面跟反面輕重不同。我們把這個硬幣拋80次(即,我們獲取一個采樣并把正面的次數記下來,正面記為H,反面記為T)。并把拋出一個正面的概率記為,拋出一個反面的概率記為(因此,這里的即相當于上邊的)。假設我們拋出了49個正面,31個反面,即49次H,31次T。假設這個硬幣是我們從一個裝了三個硬幣的盒子里頭取出的。這三個硬幣拋出正面的概率分別為,?,?.這些硬幣沒有標記,所以我們無法知道哪個是哪個。使用最大似然估計,通過這些試驗數據(即采樣數據),我們可以計算出哪個硬幣的可能性最大。這個似然函數取以下三個值中的一個:
我們可以看到當時,似然函數取得最大值。這就是的最大似然估計。
離散分布,連續參數空間
現在假設例子1中的盒子中有無數個硬幣,對于中的任何一個, 都有一個拋出正面概率為的硬幣對應,我們來求其似然函數的最大值:
其中. 我們可以使用微分法來求最值。方程兩邊同時對取微分,并使其為零。
其解為,?,以及.使可能性最大的解顯然是(因為和這兩個解會使可能性為零)。因此我們說最大似然估計值為.
這個結果很容易一般化。只需要用一個字母代替49用以表達伯努利試驗中的被觀察數據(即樣本)的“成功”次數,用另一個字母代表伯努利試驗的次數即可。使用完全同樣的方法即可以得到最大似然估計值:
對于任何成功次數為,試驗總數為的伯努利試驗。
連續分布,連續參數空間
最常見的連續概率分布是正態分布,其概率密度函數如下:
現在有個正態隨機變量的采樣點,要求的是一個這樣的正態分布,這些采樣點分布到這個正態分布可能性最大(也就是概率密度積最大,每個點更靠近中心點),其個正態隨機變量的采樣的對應密度函數(假設其獨立并服從同一分布)為:
或:
這個分布有兩個參數:.有人可能會擔心兩個參數與上邊的討論的例子不同,上邊的例子都只是在一個參數上對可能性進行最大化。實際上,在兩個參數上的求最大值的方法也差不多:只需要分別把可能性在兩個參數上最大化即可。當然這比一個參數麻煩一些,但是一點也不復雜。使用上邊例子同樣的符號,我們有.
最大化一個似然函數同最大化它的自然對數是等價的。因為自然對數log是一個連續且在似然函數的值域內嚴格遞增的上凸函數。[注意:可能性函數(似然函數)的自然對數跟信息熵以及Fisher信息聯系緊密。]求對數通常能夠一定程度上簡化運算,比如在這個例子中可以看到:
這個方程的解是.這的確是這個函數的最大值,因為它是里頭惟一的一階導數等于零的點并且二階導數嚴格小于零。
同理,我們對求導,并使其為零。
這個方程的解是.
因此,其關于的最大似然估計為:
?
性質:
泛函不變性(Functional invariance)
如果是的一個最大似然估計,那么的最大似然估計是.函數g無需是一個一一映射。請參見George Casella與Roger L. Berger所著的Statistical Inference定理Theorem 7.2.10的證明。(中國大陸出版的大部分教材上也可以找到這個證明。)
漸近線行為
最大似然估計函數在采樣樣本總數趨于無窮的時候達到最小方差(其證明可見于Cramer-Rao lower bound)。當最大似然估計非偏時,等價的,在極限的情況下我們可以稱其有最小的均方差。 對于獨立的觀察來說,最大似然估計函數經常趨于正態分布。
偏差
最大似然估計的偏差是非常重要的。考慮這樣一個例子,標有1到n的n張票放在一個盒子中。從盒子中隨機抽取票。如果n是未知的話,那么n的最大似然估計值就是抽出的票上標有的n,盡管其期望值的只有.為了估計出最高的n值,我們能確定的只能是n值不小于抽出來的票上的值。
總結
- 上一篇: 似然函数的概念
- 下一篇: 聚类算法K-Means, K-Medoi