當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【算法】Logistic regression （逻辑回归）概述

發(fā)布時(shí)間：2025/5/22 编程问答 18 豆豆

生活随笔收集整理的這篇文章主要介紹了【算法】Logistic regression （逻辑回归）概述小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Logistic regression （邏輯回歸）是當(dāng)前業(yè)界比較常用的機(jī)器學(xué)習(xí)方法，用于估計(jì)某種事物的可能性。比如某用戶購買某商品的可能性，某病人患有某種疾病的可能性，以及某廣告被用戶點(diǎn)擊的可能性等。（注意這里是：“可能性”，而非數(shù)學(xué)上的“概率”，logisitc回歸的結(jié)果并非數(shù)學(xué)定義中的概率值，不可以直接當(dāng)做概率值來用。該結(jié)果往往用于和其他特征值加權(quán)求和，而非直接相乘）

??那么它究竟是什么樣的一個(gè)東西，又有哪些適用情況和不適用情況呢？

??一、官方定義：

，

??Figure 1. The logistic function, with?z?on the horizontal axis and??(z) on the vertical axis

???邏輯回歸是一個(gè)學(xué)習(xí)f:X? > Y 方程或者P(Y|X)的方法，這里Y是離散取值的，X= < X1,X2...,Xn > 是任意一個(gè)向量其中每個(gè)變量離散或者連續(xù)取值。

??二、我的解釋

??只看公式太痛苦了，分開說一下就好。Logistic Regression 有三個(gè)主要組成部分：回歸、線性回歸、Logsitic方程。

??1）回歸

???Logistic regression是線性回歸的一種，線性回歸是一種回歸。那么回歸是蝦米呢？

???回歸其實(shí)就是對(duì)已知公式的未知參數(shù)進(jìn)行估計(jì)。大家可以簡單的理解為，在給定訓(xùn)練樣本點(diǎn)和已知的公式后，對(duì)于一個(gè)或多個(gè)未知參數(shù)，機(jī)器會(huì)自動(dòng)枚舉參數(shù)的所有可能取值（對(duì)于多個(gè)參數(shù)要枚舉它們的不同組合），直到找到那個(gè)最符合樣本點(diǎn)分布的參數(shù)（或參數(shù)組合）。（當(dāng)然，實(shí)際運(yùn)算有一些優(yōu)化算法，肯定不會(huì)去枚舉的）

????注意，回歸的前提是公式已知，否則回歸無法進(jìn)行。而現(xiàn)實(shí)生活中哪里有已知的公式啊（G=m*g 也是牛頓被蘋果砸了腦袋之后碰巧想出來的不是？哈哈），因此回歸中的公式基本都是數(shù)據(jù)分析人員通過看大量數(shù)據(jù)后猜測(cè)的（其實(shí)大多數(shù)是拍腦袋想出來的，嗯...）。根據(jù)這些公式的不同，回歸分為線性回歸和非線性回歸。線性回歸中公式都是“一次”的（一元一次方程，二元一次方程...），而非線性則可以有各種形式（N元N次方程，log方程等等）。具體的例子在線性回歸中介紹吧。

??2）線性回歸

??直接來一個(gè)最簡單的一元變量的例子：假設(shè)要找一個(gè)y和x之間的規(guī)律，其中x是鞋子價(jià)錢，y是鞋子的銷售量。（為什么要找這個(gè)規(guī)律呢？這樣的話可以幫助定價(jià)來賺更多的錢嘛，小學(xué)的應(yīng)用題經(jīng)常做的呵呵）。已知一些往年的銷售數(shù)據(jù)（x0,y0), (x1, y1), ... (xn, yn)做樣本集,??并假設(shè)它們滿足線性關(guān)系：y = a*x + b （其中a,b的具體取值還不確定），線性回歸即根據(jù)往年數(shù)據(jù)找出最佳的a, b取值，使 y = a * x + b 在所有樣本集上誤差最小。?

???也許你會(huì)覺得---暈！這么簡單!?這需要哪門子的回歸呀！我自己在草紙上畫個(gè)xy坐標(biāo)系，點(diǎn)幾個(gè)點(diǎn)就能畫出來！（好吧，我承認(rèn)我們初中時(shí)都被這樣的畫圖題折磨過）。事實(shí)上一元變量的確很直觀，但如果是多元就難以直觀的看出來了。比如說除了鞋子的價(jià)格外，鞋子的質(zhì)量，廣告的投入，店鋪所在街區(qū)的人流量都會(huì)影響銷量，我們想得到這樣的公式：sell = a*x + b*y + c*z + d*zz + e。這個(gè)時(shí)候畫圖就畫不出來了，規(guī)律也十分難找，那么交給線性回歸去做就好。（線性回歸具體是怎么做的請(qǐng)參考相應(yīng)文獻(xiàn)，都是一些數(shù)學(xué)公式，對(duì)程序員來說，我們就把它當(dāng)成一條程序命令就好）。這就是線性回歸算法的價(jià)值。

???需要注意的是，這里線性回歸能過獲得好效果的前提是y = a*x + b 至少從總體上是有道理的（因?yàn)槲覀冋J(rèn)為鞋子越貴，賣的數(shù)量越少，越便宜賣的越多。另外鞋子質(zhì)量、廣告投入、客流量等都有類似規(guī)律）；但并不是所有類型的變量都適合用線性回歸，比如說x不是鞋子的價(jià)格，而是鞋子的尺碼），那么無論回歸出什么樣的（a,b），錯(cuò)誤率都會(huì)極高（因?yàn)槭聦?shí)上尺碼太大或尺碼太小都會(huì)減少銷量）。總之：如果我們的公式假設(shè)是錯(cuò)的，任何回歸都得不到好結(jié)果。

??3）Logistic方程

??上面我們的sell是一個(gè)具體的實(shí)數(shù)值，然而很多情況下，我們需要回歸產(chǎn)生一個(gè)類似概率值的0~1之間的數(shù)值（比如某一雙鞋子今天能否賣出去？或者某一個(gè)廣告能否被用戶點(diǎn)擊? 我們希望得到這個(gè)數(shù)值來幫助決策鞋子上不上架，以及廣告展不展示）。這個(gè)數(shù)值必須是0~1之間，但sell顯然不滿足這個(gè)區(qū)間要求。于是引入了Logistic方程，來做歸一化。這里再次說明，該數(shù)值并不是數(shù)學(xué)中定義的概率值。那么既然得到的并不是概率值，為什么我們還要費(fèi)這個(gè)勁把數(shù)值歸一化為0~1之間呢？歸一化的好處在于數(shù)值具備可比性和收斂的邊界，這樣當(dāng)你在其上繼續(xù)運(yùn)算時(shí)（比如你不僅僅是關(guān)心鞋子的銷量，而是要對(duì)鞋子賣出的可能、當(dāng)?shù)刂伟睬闆r、當(dāng)?shù)剡\(yùn)輸成本等多個(gè)要素之間加權(quán)求和，用綜合的加和結(jié)果決策是否在此地開鞋店時(shí)），歸一化能夠保證此次得到的結(jié)果不會(huì)因?yàn)檫吔?太大/太小導(dǎo)致覆蓋其他feature 或被其他feature覆蓋。（舉個(gè)極端的例子，如果鞋子銷量最低為100，但最好時(shí)能賣無限多個(gè)，而當(dāng)?shù)刂伟矤顩r是用0~1之間的數(shù)值表述的，如果兩者直接求和治安狀況就完全被忽略了）這是用logistic回歸而非直接線性回歸的主要原因。到了這里，也許你已經(jīng)開始意識(shí)到，沒錯(cuò)，Logistic Regression 就是一個(gè)被logistic方程歸一化后的線性回歸，僅此而已。

???至于所以用logistic而不用其它，是因?yàn)檫@種歸一化的方法往往比較合理（人家都說自己叫l(wèi)ogistic了嘛呵呵），能夠打壓過大和過小的結(jié)果（往往是噪音），以保證主流的結(jié)果不至于被忽視。具體的公式及圖形見本文的一、官方定義部分。其中f(X)就是我們上面例子中的sell的實(shí)數(shù)值了，而y就是得到的0~1之間的賣出可能性數(shù)值了。（本段?“可能性” 并非?“概率” ，感謝zjtchow同學(xué)在回復(fù)中指出）

三、Logistic Regression的適用性

1）可用于概率預(yù)測(cè)，也可用于分類。

???????并不是所有的機(jī)器學(xué)習(xí)方法都可以做可能性概率預(yù)測(cè)（比如SVM就不行，它只能得到1或者-1）。可能性預(yù)測(cè)的好處是結(jié)果又可比性：比如我們得到不同廣告被點(diǎn)擊的可能性后，就可以展現(xiàn)點(diǎn)擊可能性最大的N個(gè)。這樣以來，哪怕得到的可能性都很高，或者可能性都很低，我們都能取最優(yōu)的topN。當(dāng)用于分類問題時(shí)，僅需要設(shè)定一個(gè)閾值即可，可能性高于閾值是一類，低于閾值是另一類。

2）僅能用于線性問題

???????只有在feature和target是線性關(guān)系時(shí)，才能用Logistic Regression（不像SVM那樣可以應(yīng)對(duì)非線性問題）。這有兩點(diǎn)指導(dǎo)意義，一方面當(dāng)預(yù)先知道模型非線性時(shí)，果斷不使用Logistic Regression；另一方面，在使用Logistic Regression時(shí)注意選擇和target呈線性關(guān)系的feature。

3）各feature之間不需要滿足條件獨(dú)立假設(shè)，但各個(gè)feature的貢獻(xiàn)是獨(dú)立計(jì)算的。

???????邏輯回歸不像樸素貝葉斯一樣需要滿足條件獨(dú)立假設(shè)（因?yàn)樗鼪]有求后驗(yàn)概率）。但每個(gè)feature的貢獻(xiàn)是獨(dú)立計(jì)算的，即LR是不會(huì)自動(dòng)幫你combine 不同的features產(chǎn)生新feature的 (時(shí)刻不能抱有這種幻想，那是決策樹,LSA, pLSA, LDA或者你自己要干的事情)。舉個(gè)例子，如果你需要TF*IDF這樣的feature，就必須明確的給出來，若僅僅分別給出兩維 TF 和 IDF 是不夠的，那樣只會(huì)得到類似 a*TF + b*IDF 的結(jié)果，而不會(huì)有 c*TF*IDF 的效果。

參考資料：

http://blog.sina.com.cn/s/blog_74cf26810100ypzf.html

總結(jié)

以上是生活随笔為你收集整理的【算法】Logistic regression （逻辑回归）概述的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

编程问答

【算法】Logistic regression （逻辑回归） 概述

總結(jié)

【算法】Logistic regression （逻辑回归）概述