當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

最小二乘、最大似然和最大后验的简单总结

發布時間：2024/1/17 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了最小二乘、最大似然和最大后验的简单总结小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在真正了解一個機器學習算法的時候，發現有許多概念還是很模糊這里整理了最小二乘法（Least Square）、最大似然估計（ Maximum Likelihood Estimation）和最大后驗估計的關系。

一、最小二乘法

最小二乘法的本質就是找到一個估計值，使實際值與估計值的距離最小。而為了度量最小距離，只要使實際值與估計值之差的平方最小就好，下面就是最小二乘的表達式損失函數cost function，我們的目標就是求θ。

求解方法是通過梯度下降算法，通過訓練數據不斷迭代得到最終的值。

最小二乘的主要應用場景為回歸分析，因為回歸常用平方損失作為損失函數。

二、似然函數的引出

我們從概率的角度考慮一下最小二乘求解原理，假設目標變量y和輸入x的關系如下：

其中ε為誤差項，假設服從正態分布，均值為0，標準差為σ，可以寫成

我們帶入上面的關系方程得到y的概率方程：

這里要注意θ不是變量，不在條件中用“；”隔開。通過給定的θ和X求解Y就是我們的正常的概率思想，但是如果我們把這個方程看成是關于θ的方程時，就變成了似然方程：

似然函數與上面的概率方程的最大區別在于，關注的不再是事件發生的概率，而是已知事件發生的情況下希望知道對應的參數應該是多少，這和求概率恰恰相反。上面的式子還可以寫成：

最大化L(θ)就是最大似然估計，但一般都會最大化log likelihood：

這時可以發現，此時的最大化似然函數和最初的最小二乘損失函數本質上是一樣的。但是要注意這兩者只是恰好有著相同的表達結果，實際并沒有本質的聯系。因為當likelihood用的是Gaussian的時候，由于Gaussian kernel里有個類似于Euclidean distance的東西，一求log就變成square loss了，導致解和OLSE（就是ordinary的最小二乘）是一樣的。而碰巧剛接觸MLE的時候基本都是gaussian假設，這才導致很多人分不清楚（這句話套用知乎上的解釋）。

三、似然函數的解析

參考wiki上的定義似然函數的結果等于已知參數時的結果的概率值（這里注意L不是一個條件概率，通常用；隔開）

對于離散概率分布：

設X是參數為θ時服從離散概率分布p的隨機變量，則：

看成是θ的方程，稱為似然函數。

???對于連續概率分布則用密度函數衡量：

四、最大后驗概率

????這里就是引入了貝葉斯學派的理論了，關于貝葉斯學派和頻率學派的區別參見知乎，我們就知道，貝葉斯學派主張一切都有一個先驗概率。而且上面的似然函數推倒中頻率學派把參數θ看作是固定而未知的常數，而樣本是隨機的，有關概率的運算都是針對樣本X的分布。而貝葉斯學派把這個參數看作是隨機變量，而樣本X看作是固定的，重視的是參數θ的分布，通常是：通過參數的先驗分布結合樣本信息得到參數的后驗分布。例子參見。
?

總結

以上是生活随笔為你收集整理的最小二乘、最大似然和最大后验的简单总结的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：使用Java客户端操作elasticse
下一篇：最小二乘与最大似然估计之间的关系