机器学习和统计里面的auc怎么理解?
生活随笔
收集整理的這篇文章主要介紹了
机器学习和统计里面的auc怎么理解?
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
轉(zhuǎn)自: https://www.zhihu.com/question/39840928
鏈接:https://www.zhihu.com/question/39840928/answer/84906286
來(lái)源:知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。
看到前面答主的答案,我表示很激動(dòng)的想來(lái)一個(gè)簡(jiǎn)化的版本。
曾經(jīng)面試的時(shí)候被問(wèn)到過(guò)這么一個(gè)問(wèn)題,怎么向一個(gè)沒(méi)有任何計(jì)算機(jī)、數(shù)學(xué)、統(tǒng)計(jì)等基礎(chǔ)的人介紹下什么是AUC,當(dāng)時(shí)我敗北了。不過(guò)后來(lái)我有一天頓悟了,為了檢驗(yàn)我的頓悟是否有效,特此一答。
我給出的答案是 AUC是指 從一堆樣本中隨機(jī)抽一個(gè),抽到正樣本的概率 比 抽到負(fù)樣本的概率 大的可能性。 其實(shí)這個(gè)解釋百度下到處都是,我是看別人說(shuō)的然后理解了。 (這里列出無(wú)數(shù)參考文獻(xiàn),請(qǐng)自行百度)
詳細(xì)解釋如下: 隨機(jī)抽取一個(gè)樣本, 對(duì)應(yīng)每一潛在可能值X都對(duì)應(yīng)有一個(gè)抽中的概率P。
按概率從高到矮排個(gè)降序, 對(duì)于正樣本中概率最高的,排序?yàn)閞ank_1, 比它概率小的有M-1個(gè)正樣本(M為正樣本個(gè)數(shù)), (rank_1 - M) 個(gè)負(fù)樣本。
正樣本概率第二高的, 排序?yàn)閞ank_2, 比它概率小的有M-2個(gè)正樣本,(rank_2 - M + 1) 個(gè) 負(fù)樣本。
以此類推
正樣本中概率最小的, 排序?yàn)閞ank_M,比它概率小的有0個(gè)正樣本,rank_M - 1 個(gè)負(fù)樣本。
總共有MxN個(gè)正負(fù)樣本對(duì)(N為負(fù)樣本個(gè)數(shù))。把所有比較中 正樣本概率大于負(fù)樣本概率 的例子都算上, 得到公式(rank_1 - M + rank_2 - M + 1 .... + rank_M - 1) / (MxN) 就是正樣本概率大于負(fù)樣本概率的可能性了。 化簡(jiǎn)后(因?yàn)楹竺媸莻€(gè)等差數(shù)列)得:
<img src="https://pic3.zhimg.com/a84974778b7d3c1387971c181876c4e2_b.png" data-rawwidth="571" data-rawheight="113" class="origin_image zh-lightbox-thumb" width="571" data-original="https://pic3.zhimg.com/a84974778b7d3c1387971c181876c4e2_r.png">這就是傳說(shuō)中的AUC公式。這只是用于理解,具體計(jì)算時(shí)候需要考慮rank平列的情況這就是傳說(shuō)中的AUC公式。這只是用于理解,具體計(jì)算時(shí)候需要考慮rank平列的情況
總結(jié)
以上是生活随笔為你收集整理的机器学习和统计里面的auc怎么理解?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: offer复习日志
- 下一篇: 回归模型和分类模型的区别