最小二乘、最大似然和最大后验的简单总结
在真正了解一個機器學習算法的時候,發現有許多概念還是很模糊這里整理了最小二乘法(Least Square)、最大似然估計( Maximum Likelihood Estimation)和最大后驗估計的關系。
一、最小二乘法
最小二乘法的本質就是找到一個估計值,使實際值與估計值的距離最小。而為了度量最小距離,只要使實際值與估計值之差的平方最小就好,下面就是最小二乘的表達式損失函數cost function,我們的目標就是求θ。
求解方法是通過梯度下降算法,通過訓練數據不斷迭代得到最終的值。
最小二乘的主要應用場景為回歸分析,因為回歸常用平方損失作為損失函數。
二、似然函數的引出
我們從概率的角度考慮一下最小二乘求解原理,假設目標變量y和輸入x的關系如下:
其中ε為誤差項,假設服從正態分布,均值為0,標準差為σ,可以寫成
我們帶入上面的關系方程得到y的概率方程:
這里要注意θ不是變量,不在條件中用“;”隔開。通過給定的θ和X求解Y就是我們的正常的概率思想,但是如果我們把這個方程看成是關于θ的方程時,就變成了似然方程:
似然函數與上面的概率方程的最大區別在于,關注的不再是事件發生的概率,而是已知事件發生的情況下希望知道對應的參數應該是多少,這和求概率恰恰相反。上面的式子還可以寫成:
最大化L(θ)就是最大似然估計,但一般都會最大化log likelihood:
這時可以發現,此時的最大化似然函數和最初的最小二乘損失函數本質上是一樣的。但是要注意這兩者只是恰好有著相同的表達結果,實際并沒有本質的聯系。因為當likelihood用的是Gaussian的時候,由于Gaussian kernel里有個類似于Euclidean distance的東西,一求log就變成square loss了,導致解和OLSE(就是ordinary的最小二乘)是一樣的。而碰巧剛接觸MLE的時候基本都是gaussian假設,這才導致很多人分不清楚(這句話套用知乎上的解釋)。
三、似然函數的解析
參考wiki上的定義似然函數的結果等于已知參數時的結果的概率值(這里注意L不是一個條件概率,通常用;隔開)
對于離散概率分布:
設X是參數為θ時服從離散概率分布p的隨機變量,則:
看成是θ的方程,稱為似然函數。
???對于連續概率分布則用密度函數衡量:
四、最大后驗概率
????這里就是引入了貝葉斯學派的理論了,關于貝葉斯學派和頻率學派的區別參見知乎,我們就知道,貝葉斯學派主張一切都有一個先驗概率。而且上面的似然函數推倒中頻率學派把參數θ看作是固定而未知的常數,而樣本是隨機的,有關概率的運算都是針對樣本X的分布。而貝葉斯學派把這個參數看作是隨機變量,而樣本X看作是固定的,重視的是參數θ的分布,通常是:通過參數的先驗分布結合樣本信息得到參數的后驗分布。例子參見。
?
總結
以上是生活随笔為你收集整理的最小二乘、最大似然和最大后验的简单总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 使用Java客户端操作elasticse
- 下一篇: 最小二乘与最大似然估计之间的关系