值得思考,机器学习模型做出的决策是你想要的吗?
分享一篇理論知識(shí),對(duì)我們理解和應(yīng)用模型會(huì)有幫助!
區(qū)分預(yù)測(cè)模型和分類模型是很重要的一個(gè)事情。在很多決策應(yīng)用中,分類模型代表著一個(gè)“不成熟”的決定,它組合了預(yù)測(cè)模型和決策制定,但剝奪了決策者對(duì)錯(cuò)誤決定帶來的損失的控制權(quán) (如隨機(jī)森林中的服從大多數(shù)原則,51棵樹預(yù)測(cè)結(jié)果為患病49棵樹預(yù)測(cè)結(jié)果為正常與91棵樹預(yù)測(cè)結(jié)果為患病``9棵樹預(yù)測(cè)結(jié)果為正常返回的結(jié)果都是患病)。如果采樣標(biāo)準(zhǔn)或損失/收益規(guī) (在預(yù)測(cè)疾病時(shí),更看重敏感性而非假陽性)則發(fā)生改變,分類模型也需要相應(yīng)的改變。而預(yù)測(cè)模型是與決策分開的,可用于任何決策制定。
分類模型適用于頻繁發(fā)生的非隨機(jī)性(或者說確定性)的結(jié)果,而不適用于兩個(gè)個(gè)體有同樣的輸入而輸出卻不同的情況。對(duì)于后者,模型的趨勢(shì)(比如概率)則是關(guān)鍵因素。
分類模型的適用條件:
分類結(jié)果很不同
分類變量有很強(qiáng)的分類能力,可以在接近概率為1的情況下預(yù)測(cè)出其中一個(gè)分類結(jié)果
機(jī)器學(xué)習(xí)這一領(lǐng)域在某種程度上獨(dú)立于統(tǒng)計(jì)學(xué)領(lǐng)域。因此,機(jī)器學(xué)習(xí)專家往往不強(qiáng)調(diào)概率思維。概率思維和理解不確定性和波動(dòng)性 (variation)是統(tǒng)計(jì)學(xué)的重要特征。順便說一下,關(guān)于概率思維最好的書之一是Nate Silver的The Signal and The Noise: Why So Many Predictions Fail But Some Don’t。在醫(yī)學(xué)領(lǐng)域,David Spiegelhalter的《患者管理和臨床試驗(yàn)中的概率預(yù)測(cè)》(Probability Prediction In Patient Management and Clinical Trials)是一篇經(jīng)典論文。
摒除概率思維后,機(jī)器學(xué)習(xí)提倡頻繁使用分類器,而不是使用風(fēng)險(xiǎn)預(yù)測(cè)模型。情況已經(jīng)變得有些極端:許多機(jī)器學(xué)習(xí)專家實(shí)際上把邏輯回歸 (logistic regression)列為一種分類方法(其實(shí)不是)。我們現(xiàn)在需要認(rèn)真思考:分類真正意味著什么。分類實(shí)際上是一種決策。最佳決策需要充分利用現(xiàn)有數(shù)據(jù)來進(jìn)行預(yù)測(cè),并通過最小化損失函數(shù)/最大化效用函數(shù)來做出決策。不同的終端用戶有不同的損失函數(shù)/效用函數(shù) (在預(yù)測(cè)疾病時(shí),如更看重敏感性,還是假陽性),進(jìn)而有不同的決策風(fēng)險(xiǎn)閾值。分類模型則假設(shè)每個(gè)用戶都有相同的效用函數(shù),就是分類系統(tǒng)所用的效用函數(shù)。
分類通常是一種被迫的選擇。比如在市場(chǎng)營(yíng)銷中,廣告預(yù)算是固定的,分析師通常還沒有笨到直接使用模型把潛在客戶歸類為需要忽略的人或需要花費(fèi)資源進(jìn)行投放的人。相反,他們對(duì)概率進(jìn)行建模,根據(jù)潛在客戶購(gòu)買產(chǎn)品的估計(jì)概率對(duì)其進(jìn)行排序繪制一個(gè)Lift曲線。為了獲得“最大的效果”,營(yíng)銷人員會(huì)選擇n個(gè)可能性最高的客戶作為目標(biāo)進(jìn)行廣告投放。這是合理的,而且不需要分類。
模型使用者(如醫(yī)生)經(jīng)常提出的一個(gè)觀點(diǎn)是,最終他們需要做出二元決策 (binary decision),因此需要進(jìn)行二元分類。而事實(shí)并非如此。首先,通常情況下,當(dāng)預(yù)測(cè)出患病的概率是中等時(shí),最好的決定是不做決定;去收集更多數(shù)據(jù)。在許多其他情況下,決定是可撤銷的,例如,醫(yī)生開始給病人低劑量的藥物,然后決定是否改變劑量或更換藥物。在外科治療中,動(dòng)手術(shù)的決定是不可改變的,但何時(shí)動(dòng)手術(shù)取決于外科醫(yī)生和病人,并取決于疾病的嚴(yán)重程度和癥狀。無論如何,如果需要進(jìn)行二元分類,必須在所有情況都考慮到時(shí),而非在數(shù)據(jù)建模時(shí)。
什么時(shí)候強(qiáng)制做出選擇是合適的?我認(rèn)為需要考慮這個(gè)問題是機(jī)械的 (確定性的)還是隨機(jī)/概率的。機(jī)器學(xué)習(xí)的提倡者經(jīng)常想把為前者 (機(jī)械性問題)所做的方法應(yīng)用到存在生物變異、抽樣變化和測(cè)量誤差的問題上。而實(shí)際上最好是將分類模型僅僅應(yīng)用于高信噪比的情況下,比如有一個(gè)已知的黃金標(biāo)準(zhǔn),可以重復(fù)實(shí)驗(yàn),每次得到幾乎相同的結(jié)果。模式識(shí)別就是一個(gè)例子:
視覺、聲音、化學(xué)成分等。
如果創(chuàng)建一個(gè)光學(xué)字符識(shí)別算法 (OCR),該算法可以被任意數(shù)量的樣品進(jìn)行訓(xùn)練并嘗試把圖像分類為字母A, B,……等。
這樣一個(gè)分類器的用戶可能沒有時(shí)間來考慮每個(gè)分類是否足夠可信。
但這種分類器信噪比是極高的。
此外,每個(gè)字母都有一個(gè)“正確”答案。
這種情況主要是機(jī)械性或非隨機(jī)性的結(jié)果。
而預(yù)測(cè)死亡或疾病時(shí),兩個(gè)癥狀相同的患者卻很容易有不同的疾病發(fā)展方向。
當(dāng)預(yù)測(cè)概率居中時(shí),或者當(dāng)結(jié)果有固有的隨機(jī)性時(shí),就需要進(jìn)行概率估計(jì)。概率的一個(gè)優(yōu)點(diǎn)是,它們是自己的錯(cuò)誤的度量。如果預(yù)測(cè)疾病發(fā)生的概率是0.1,而當(dāng)前的決定是不進(jìn)行治療;這個(gè)決定犯錯(cuò)的概率也是0.1。而如果發(fā)病概率是0.4,這會(huì)促使醫(yī)生進(jìn)行另一次實(shí)驗(yàn)檢測(cè)或或采用活檢等其它檢測(cè)方式。當(dāng)信噪比較小時(shí),分類模型通常不是一個(gè)好的應(yīng)用方式; 而是需要對(duì)趨勢(shì)也就是概率進(jìn)行建模。
美國(guó)氣象局一直用概率來預(yù)測(cè)降雨。我不想得到一個(gè)分類結(jié)論“今天要下雨”。而是想著是否帶傘應(yīng)該由我來根據(jù)下雨的概率權(quán)衡后作出決定。
無論是從事信用風(fēng)險(xiǎn)評(píng)分、天氣預(yù)報(bào)、氣候預(yù)測(cè)、市場(chǎng)營(yíng)銷、病人疾病的診斷,還是評(píng)估病人的預(yù)后,我都不想使用分類的方法。而是希望獲得帶有可信區(qū)間或置信區(qū)間的風(fēng)險(xiǎn)估計(jì)得分。我的觀點(diǎn)是,機(jī)器學(xué)習(xí)分類器最好用于機(jī)械的/確定性的高信噪比的數(shù)據(jù)或應(yīng)用場(chǎng)景中,而概率模型應(yīng)該用于大多數(shù)其他情況。
這與許多分析師忽略的一個(gè)微妙問題有關(guān)。復(fù)雜的機(jī)器學(xué)習(xí)算法可以通過進(jìn)行高階交互等處理問題的復(fù)雜性,但在信噪比較低時(shí)需要大量的數(shù)據(jù)。基于可加性假設(shè)的回歸模型(當(dāng)它們是正確的時(shí),它們?cè)诮^大多數(shù)情況都是正確的)可以在沒有大量數(shù)據(jù)集的情況下產(chǎn)生準(zhǔn)確的概率模型。當(dāng)被預(yù)測(cè)的結(jié)果變量有兩個(gè)以上的水平時(shí),一個(gè)回歸模型可以獲得各種感興趣的量,如預(yù)測(cè)均值、分位數(shù)、超標(biāo)概率 (exceedance probabilities)、瞬時(shí)危險(xiǎn)率 (instantaneous hazard rates)等。
分類模型的一個(gè)特殊問題也反映了這樣一個(gè)重要概念。使用機(jī)器學(xué)習(xí)分類模型的用戶都知道,一個(gè)高度不平衡的樣本訓(xùn)練集會(huì)獲得一個(gè)奇怪的二元分類器。例如,如果訓(xùn)練集中有1000名患者和100萬名非患者,那么最佳分類器可能將每個(gè)人都劃分為非患者;這樣獲得的正確率是0.999。出于這個(gè)原因,對(duì)數(shù)據(jù)進(jìn)行子集抽樣的奇怪做法被用來平衡訓(xùn)練集中樣本的頻率,從而產(chǎn)生看起來合理的分類器 (回歸模型的用戶永遠(yuǎn)不會(huì)為了得到答案而排除好的數(shù)據(jù))。然后,他們必須以某種不明確的方式構(gòu)造分類器,以彌補(bǔ)訓(xùn)練集中樣本組成的偏差。很簡(jiǎn)單,一個(gè)基于發(fā)病率為1/2的情況訓(xùn)練的模型將不能應(yīng)用于發(fā)病率為1/1000的新數(shù)據(jù)的預(yù)測(cè)。分類器必須在新的樣本上重新訓(xùn)練,檢測(cè)到的模式可能會(huì)發(fā)生很大的變化。另一方面,Logistic回歸巧妙地處理了這種情況,要么(1)將導(dǎo)致患病率如此之低的變量作為預(yù)測(cè)變量,要么(2)只需要重新校準(zhǔn)另一個(gè)發(fā)病率高的數(shù)據(jù)集的截距。分類器對(duì)發(fā)病率的極端依賴可能足以使一些研究人員總是使用概率估計(jì),如logistic回歸進(jìn)行代替。人們甚至可以說,當(dāng)結(jié)果變量的變化很小時(shí),根本不應(yīng)該使用分類器,而應(yīng)該只對(duì)概率建模。
選擇一種方法的關(guān)鍵因素之一是它應(yīng)該具有正確統(tǒng)計(jì)屬性的敏感的準(zhǔn)確性評(píng)分規(guī)則。機(jī)器分類的專家很少有了解這一極其重要問題的背景,選擇一個(gè)不正確的準(zhǔn)確性得分,如正確分類的比例,將導(dǎo)致一個(gè)虛假的模型。這里對(duì)此進(jìn)行了詳細(xì)討論。
References
https://www.fharrell.com/post/classification/
機(jī)器學(xué)習(xí)系列教程
從隨機(jī)森林開始,一步步理解決策樹、隨機(jī)森林、ROC/AUC、數(shù)據(jù)集、交叉驗(yàn)證的概念和實(shí)踐。
文字能說清的用文字、圖片能展示的用、描述不清的用公式、公式還不清楚的寫個(gè)簡(jiǎn)單代碼,一步步理清各個(gè)環(huán)節(jié)和概念。
再到成熟代碼應(yīng)用、模型調(diào)參、模型比較、模型評(píng)估,學(xué)習(xí)整個(gè)機(jī)器學(xué)習(xí)需要用到的知識(shí)和技能。
一圖感受各種機(jī)器學(xué)習(xí)算法
機(jī)器學(xué)習(xí)算法 - 隨機(jī)森林之決策樹初探(1)
機(jī)器學(xué)習(xí)算法-隨機(jī)森林之決策樹R 代碼從頭暴力實(shí)現(xiàn)(2)
機(jī)器學(xué)習(xí)算法-隨機(jī)森林之決策樹R 代碼從頭暴力實(shí)現(xiàn)(3)
機(jī)器學(xué)習(xí)算法-隨機(jī)森林之理論概述
機(jī)器學(xué)習(xí)算法-隨機(jī)森林初探(1)
機(jī)器學(xué)習(xí) - 隨機(jī)森林手動(dòng)10 折交叉驗(yàn)證
機(jī)器學(xué)習(xí) 模型評(píng)估指標(biāo) - ROC曲線和AUC值
機(jī)器學(xué)習(xí) - 訓(xùn)練集、驗(yàn)證集、測(cè)試集
一個(gè)函數(shù)統(tǒng)一238個(gè)機(jī)器學(xué)習(xí)R包,這也太贊了吧
基于Caret和RandomForest包進(jìn)行隨機(jī)森林分析的一般步驟 (1)
Caret模型訓(xùn)練和調(diào)參更多參數(shù)解讀(2)
基于Caret進(jìn)行隨機(jī)森林隨機(jī)調(diào)參的4種方式
機(jī)器學(xué)習(xí)第17篇 - 特征變量篩選(1)
機(jī)器學(xué)習(xí)第18篇 - Boruta特征變量篩選(2)
機(jī)器學(xué)習(xí)第19篇 - 機(jī)器學(xué)習(xí)系列補(bǔ)充:數(shù)據(jù)集準(zhǔn)備和更正YSX包
機(jī)器學(xué)習(xí)第20篇 - 基于Boruta選擇的特征變量構(gòu)建隨機(jī)森林
機(jī)器學(xué)習(xí)第21篇 - 特征遞歸消除RFE算法 理論
機(jī)器學(xué)習(xí)第22篇 - RFE篩選出的特征變量竟然是Boruta的4倍之多
機(jī)器學(xué)習(xí)第23篇 - 更多特征變量卻未能帶來隨機(jī)森林分類效果的提升
機(jī)器學(xué)習(xí)相關(guān)書籍分享
UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集
送你一個(gè)在線機(jī)器學(xué)習(xí)網(wǎng)站,真香!
多套用于機(jī)器學(xué)習(xí)的多種癌癥表達(dá)數(shù)據(jù)集
這個(gè)統(tǒng)一了238個(gè)機(jī)器學(xué)習(xí)模型R包的參考手冊(cè)推薦給你
莫煩Python機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)與人工智能、深度學(xué)習(xí)有什么關(guān)系?終于有人講明白了
一套完整的基于隨機(jī)森林的機(jī)器學(xué)習(xí)流程(特征選擇、交叉驗(yàn)證、模型評(píng)估))
隨機(jī)森林預(yù)測(cè)發(fā)現(xiàn)這幾個(gè)指標(biāo)對(duì)公眾號(hào)文章吸粉最重要
樣本分布不平衡,機(jī)器學(xué)習(xí)準(zhǔn)確率高又有什么用?
總結(jié)
以上是生活随笔為你收集整理的值得思考,机器学习模型做出的决策是你想要的吗?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: RNA-seq最强综述名词解释思维导图|
- 下一篇: 结束十年科学争论,张辰宇团队阐明食物mi