Logistic and Softmax Regression (逻辑回归和Softmax回归)
1. 簡介
邏輯回歸和Softmax回歸是兩個基礎的分類模型,雖然聽名字以為是回歸模型,但實際我覺得他們也有一定的關系。邏輯回歸,Softmax回歸以及線性回歸都是基于線性模型,它們固定的非線性的基函數(basis function)?的線性組合,形式如下:
2.邏輯回歸談談邏輯回歸,Softmax回歸,前者主要處理二分類問題,而后者處理多分類問題,但事實上Softmax回歸就是邏輯回歸的一般形式。
?
其中,如果f(.)是非線性的激活函數(activation function),這就是一個分類模型;如果f(.)是恒等函數(identity),則是回歸模型,現在可以發現它們三者的聯系了吧。
下面主要談談邏輯回歸,Softmax回歸,前者主要處理二分類問題,而后者處理多分類問題,但事實上Softmax回歸就是邏輯回歸的一般形式。
2. 邏輯回歸
定義邏輯回歸hypothesis為
,
其中,為sigmoid函數,其性質可參考神經網絡博文。
邏輯回歸的理激活函數是sigmoid函數,可理解成一個被sigmoid函數歸一化后的線性回歸。因為sigmoid函數把實數映射到了[0,1]區間,可以認為為x屬于類別1的概率,反正1-為x屬于類別1的概率。給定有一個訓練數據,構造它的似然函數(likelihood function)為:
這里的y_n就是上面的 (由于參考了多本書,所以符號有一定的區別),一般會使用最大釋然求解參數,這時取一個負的log對數(negative logarithm),得到:
上式被稱為交叉熵(cross entropy) loss函數,因為取了一個負對數,之前的最大化就變成了最小化,所以只需求解是交叉熵loss函數最小的參數。
?
對loss函數求導得到:
?
到現在為止,我們已經得到了loss函數以及關于參數的偏導數,只需要通過梯度下降就可以得到參數的解,OK,大功告成。
?
如果需要預測一個為止數據x,屬于那個類,只需要帶入?。最簡單的決策方法,如果?大于等于0.5屬于類別1,反之屬于類別0,當然也可以屬于其他的決策方法。
3. Softmax回歸
Softmax回歸處理多分類問題,我們假設函數 ?形式如下:?
和邏輯回歸一樣,得到loss函數為:
?
其中的1{.}是一個指示性函數,即當大括號中的值為真時,該函數的結果就為1,否則其結果就為0。
然后計算損失函數的偏導函數,得到:
?
之后就可以用如果要用梯度下降法,或者L-BFGS法求得未知參數。
?
看上面的推到我們可以發現,對每一個參數減去一個參數,最后的結果沒有影響。其實softmax 回歸中對參數的最優化解不只一個,每當求得一個優化參數時,如果將這個參數的每一項都減掉同一個數,其得到的損失函數值也是一樣的,這說明解不是唯一的。
之所以會出現這樣的現象,因為損失函數不是嚴格非凸的,也就是說在局部最小值點附近是一個”平坦”的,所以在這個參數附近的值都是一樣的了。
為避免出現這樣的情況,加入正則項(比如說,用牛頓法求解時,hession矩陣如果沒有加入規則項,就有可能不是可逆的從而導致了剛才的情況,如果加入了規則項后該hession矩陣就不會不可逆了),加入正則項后的loss函數表達式為:
?
此時loss函數的偏導函數為:
?
同樣的,我們在邏輯回歸中,也可以加上正則項。
4. 邏輯回歸與Softmax回歸的聯系
我們在剛開始的時候說softmax 回歸是邏輯回歸的一般形式,現在我們看看兩者之間的聯系。當類別數k = 2 時,softmax 回歸退化為邏輯回歸,softmax 回歸的假設函數為:?
利用softmax回歸參數冗余的特點,我們令 ?,并且從兩個參數向量中都減去向量 ,得到:
?
因此,用來表示,我們就會發現 softmax 回歸器預測其中一個類別的概率為,另一個類別概率的為,這與 邏輯回歸是一致的。
5. 與神經網絡的關系
神經網絡是一個多層次的分類模型,其實logistic回歸和softmax回歸可以看出最簡單的神經網絡,結構如下圖所示:
??
一般的神經網絡有輸入層,隱含層以及輸出層構成,而上圖中只有輸入層和輸出層,而沒有隱含層。神經網絡處理二分類時,輸出層為一個節點,但處理K(K>2)分類問題時,數據節點為K個,這個logistic回歸和softmax回歸保持一致。值得注意的,在神經網絡中的最后一層隱含層和輸出層就可以看成是logistic回歸或softmax回歸模型,之前的層只是從原始輸入數據從學習特征,然后把學習得到的特征交給logistic回歸或softmax回歸處理。
因此,可以把處理分類問題的神經網絡分成兩部分,特征學習和logistic回歸或softmax回歸。
6. 參考:
《Pattern Recognition and Machine Learning》ChristopherM. Bishop?http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial
http://www.cnblogs.com/tornadomeet/archive/2013/03/22/2975978.html
總結
以上是生活随笔為你收集整理的Logistic and Softmax Regression (逻辑回归和Softmax回归)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 损失函数-经验风险最小化-结构风险最小化
- 下一篇: 矩阵乘法的四种理解方式