数学建模学习笔记(八)——分类模型
文章目錄
- 一、分類模型綜述
- 二、邏輯回歸
- 三、兩點分布(伯努利分布)
- 四、連接函數(shù)的取法
- 五、Logistic回歸模型
- 六、在SPSS中進(jìn)行二元Logistic回歸
- 七、預(yù)測結(jié)果較差的解決
- 八、Fisher線性判別分析
- 九、多分類問題
- 十、總結(jié)
一、分類模型綜述
通過樣本數(shù)據(jù)中的分類依據(jù)以及具體的分類類別,預(yù)測后續(xù)給出的對象屬于哪一類,這就是分類模型。
本文將采用邏輯回歸和Fisher線性判別分析這兩種分類算法來進(jìn)行對象分類。
二、邏輯回歸
| 線性回歸 | OLS、GLS(最小二乘) | 連續(xù)數(shù)值變量 | GDP、收入等 |
| 0 - 1回歸 | logistic回歸 | 二值變量(0 - 1) | 是否喜歡、是否到達(dá)等 |
| 定序回歸 | prohibit定序回歸 | 定序變量 | 等級評定,喜愛程度等 |
| 計數(shù)回歸 | 泊松回歸(泊松分布) | 計數(shù)變量 | 每分鐘車流量,次數(shù)等 |
| 生存回歸 | Cox等比例風(fēng)險回歸 | 生存變量 | 企業(yè)、產(chǎn)品的壽命等 |
邏輯回歸的因變量即為二值變量類型,可以將 yyy 看作屬于某一類的概率—— y?0.05y \geqslant 0.05y?0.05,則屬于這一類;反之,y?0.05y \leqslant 0.05y?0.05,則不屬于這一類。
三、兩點分布(伯努利分布)
| 概率 | ppp | 1?p1 - p1?p |
在給定 x\mathbf{x}x 的情況下,考慮 yyy 的兩點分布概率
{P(y=1∣x)=F(x,β)P(y=0∣x)=1?F(x,β)\left\{ \begin{aligned} &P(y = 1|\mathbf{x}) = F(\mathbf{x}, \mathbf{\beta}) \\ &P(y = 0|\mathbf{x}) = 1 - F(\mathbf{x}, \mathbf{\beta}) \end{aligned} \right.{?P(y=1∣x)=F(x,β)P(y=0∣x)=1?F(x,β)? 注:一般 F(x,β)=F(xi′β)F(\mathbf{x}, \mathbf{\beta}) = F(\mathbf{x_i'\beta})F(x,β)=F(xi′?β)
F(x,β)F(\mathbf{x}, \beta)F(x,β) 稱為連接函數(shù),它將解釋變量 xxx 和被解釋變量 yyy 連接起來。
我們只需要保證 F(x,β)F(\mathbf{x}, \beta)F(x,β) 是值域在 [0,1][0, 1][0,1] 上的函數(shù),就能保證 0?y^?10 \leqslant \hat{y} \leqslant 10?y^??1。
根據(jù)兩點分布求概率的公式:E(y∣x)=1×P(y=1∣x)+0×P(y=0∣x)=P(y=1∣x)E(y|\mathbf{x}) = 1 \times P(y = 1|\mathbf{x}) + 0 \times P(y = 0|\mathbf{x}) = P(y = 1|\mathbf{x})E(y∣x)=1×P(y=1∣x)+0×P(y=0∣x)=P(y=1∣x),因此可以將 y^\hat{y}y^? 理解為 y=1y = 1y=1 發(fā)生的概率。
四、連接函數(shù)的取法
可以看出,前者計算積分會比較困難,因此我們可以選擇使用更為方便的logistic模型。
五、Logistic回歸模型
在給定 x\mathbf{x}x 的情況下,考慮 yyy 的兩點分布概率{P(y=1∣x)=F(x,β)P(y=0∣x)=1?F(x,β)\left\{ \begin{aligned} &P(y = 1|\mathbf{x}) = F(\mathbf{x}, \beta) \\ &P(y = 0|\mathbf{x}) = 1 - F(\mathbf{x}, \beta) \end{aligned} \right.{?P(y=1∣x)=F(x,β)P(y=0∣x)=1?F(x,β)?因為 E(y∣x)=1×P(y=1∣x)+0×P(y=0∣x)=P(y=1∣x)E(y|\mathbf{x}) = 1 \times P(y = 1|\mathbf{x}) + 0 \times P(y = 0|\mathbf{x}) = P(y = 1|\mathbf{x})E(y∣x)=1×P(y=1∣x)+0×P(y=0∣x)=P(y=1∣x),因此可以將 y^\hat{y}y^? 理解為 y=1y = 1y=1 發(fā)生的概率。
yi^=P(yi=1∣x)=S(xi′β)=exp(xi′β)1+exp(xi′β)=eβ0^+β1^x1i+β2^x2i+?+βk^xki1+eβ0^+β1^x1i+β2^x2i+?+βk^xki\hat{y_i} = P(y_i = 1|\mathbf{x}) = S(\mathbf{x_i}'\beta) = \frac{exp(\mathbf{x_i}'\beta)}{1 + exp(\mathbf{x_i}'\beta)} \\= \frac{e^{\hat{\beta_0} + \hat{\beta_1}x_{1i} + \hat{\beta_2}x_{2i} + \cdots + \hat{\beta_k}x_{ki}}}{1 + e^{\hat{\beta_0} + \hat{\beta_1}x_{1i} + \hat{\beta_2}x_{2i} + \cdots + \hat{\beta_k}x_{ki}}}yi?^?=P(yi?=1∣x)=S(xi?′β)=1+exp(xi?′β)exp(xi?′β)?=1+eβ0?^?+β1?^?x1i?+β2?^?x2i?+?+βk?^?xki?eβ0?^?+β1?^?x1i?+β2?^?x2i?+?+βk?^?xki?? 如果 yi^?0.5\hat{y_i} \geqslant 0.5yi?^??0.5,則認(rèn)為其預(yù)測的 y=1y = 1y=1;否則則認(rèn)為其預(yù)測的 y=0y = 0y=0
六、在SPSS中進(jìn)行二元Logistic回歸
回歸結(jié)果:
回歸結(jié)果表示19個蘋果樣本,預(yù)測為蘋果的有14個,正確率為73.7%;同理,預(yù)測為橙子的結(jié)果有15個,預(yù)測的正確率為78.9%。
通過這樣的回歸我們便可以知道 β0,β1,?,βk\beta_0, \beta_1, \cdots, \beta_kβ0?,β1?,?,βk? 的值(表格第三列)。
將后續(xù)數(shù)據(jù)帶入方程后,若 yi^?0.5\hat{y_i} \geqslant 0.5yi?^??0.5,則說明其預(yù)測的結(jié)果是蘋果,否則則為橙子。
同時,我們還可以在表格中看到這兩列:
這里可以查看具體預(yù)測的值和具體的預(yù)測結(jié)果。
七、預(yù)測結(jié)果較差的解決
若對預(yù)測結(jié)果不滿意,可以在logistic回歸模型中加入平方項、交互項等
如果加入了平方項,那么預(yù)測的結(jié)果:
完全符合,這種現(xiàn)象叫做過擬合現(xiàn)象。其對于樣本數(shù)據(jù)預(yù)測得非常好,但是對于樣本外的數(shù)據(jù)得預(yù)測效果可能會差很多。
那么我們該如何確定合適得預(yù)測模型呢?
可以將數(shù)據(jù)分為訓(xùn)練組和測試組(一般是八二開),讓訓(xùn)練組取估計模型,然后用測試組得數(shù)據(jù)來進(jìn)行測試。可以多進(jìn)行幾次,求得每個模型的平均準(zhǔn)確率,取準(zhǔn)確率最高的那個模型。(交叉驗證)
八、Fisher線性判別分析
給定訓(xùn)練集樣例,設(shè)法將樣例投影到一維的直線上,使得同類樣例的投影點盡可能接近和密集,異類投影點盡可能遠(yuǎn)離。
結(jié)果為:
這個表格表示線性系數(shù)。
還可以從表格后面多出的列中得到具體的預(yù)測結(jié)果。
九、多分類問題
在二分類的問題上,類別不再是只有兩個類別,現(xiàn)在有多個類別。
在SPSS中進(jìn)行l(wèi)ogistic回歸分析,可以得出結(jié)果:
可以得出預(yù)測分類結(jié)果。
同樣可以使用Fisher判別分析來求解多分類問題。在定義范圍的時候?qū)⒎秶鷶U大即可。
從結(jié)果表格中同樣可以得出預(yù)測分類結(jié)果。
十、總結(jié)
解決分類模型,主要步驟可以總結(jié)為一下幾點:
總結(jié)
以上是生活随笔為你收集整理的数学建模学习笔记(八)——分类模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python基础入门(4)之布尔值
- 下一篇: ARMA模型的性质 1