机器学习()PR曲线绘制
目錄
P-R 曲線繪制
Ground Truth
P-R 曲線繪制
Precision-查準(zhǔn)率-預(yù)測(cè)出來(lái)的正例中正確的比例---找得對(duì)-(查準(zhǔn)率高-寧缺毋濫
Recall-查全率-衡量正例被預(yù)測(cè)出來(lái)的比例---找得全-(查全率高-寧可錯(cuò)殺一百不能放過(guò)一個(gè)
? ? 在機(jī)器學(xué)習(xí)中分類(lèi)器往往輸出的不是類(lèi)別標(biāo)號(hào),而是屬于某個(gè)類(lèi)別的概率值,根據(jù)分類(lèi)器的預(yù)測(cè)結(jié)果從大到小對(duì)樣例進(jìn)行排序,逐個(gè)把樣例加入正例進(jìn)行預(yù)測(cè),算出此時(shí)的P、R值。
?
如下圖:?
Inst#是樣本序號(hào),圖中有20個(gè)樣本,真實(shí)情況正例反例各有10個(gè)。
Class是ground truth(ground truth是什么?見(jiàn)文末!) 標(biāo)簽,p是positive樣本(正例),n當(dāng)然就是negative(負(fù)例)
score是我的分類(lèi)器對(duì)于該樣本屬于正例的可能性的打分。因?yàn)橐话隳P洼敵龅牟皇?,1的標(biāo)注,而是小數(shù),相當(dāng)于置信度。
?
然后設(shè)置一個(gè)從高到低的閾值y,大于等于閾值y的被我正式標(biāo)注為正例,小于閾值y的被我正式標(biāo)注為負(fù)例。
顯然,我設(shè)置n個(gè)閾值,我就能得到n種標(biāo)注結(jié)果,評(píng)判我的模型好不好使,也就可能得到n個(gè)PR值對(duì)用來(lái)畫(huà)PR曲線。
?
?
先用分?jǐn)?shù)(score):0.9作為閾值(大于等于1為正例,小于1為反例),此時(shí)TP=1,FP=0,FN=9,故P=1,R=0.1。?
用0.8作為閾值,P=1,R=0.2。?
用0.7作為閾值,P=0.67,R=0.2。?
用0.6作為閾值,P=0.75,R=0.3。?
以此類(lèi)推。。。?
最后得到一系列P、R值序列,就畫(huà)出P-R曲線(示意圖,不對(duì)應(yīng)上面數(shù)據(jù)):?
?
Ground Truth
在看英文文獻(xiàn)的時(shí)候,經(jīng)常會(huì)看到Ground Truth這個(gè)詞匯,翻譯的意思是地面實(shí)況,放到機(jī)器學(xué)習(xí)里面,再抽象點(diǎn)可以把它理解為真值、真實(shí)的有效值或者是標(biāo)準(zhǔn)的答案。
維基百科對(duì)Ground Truth在機(jī)器學(xué)習(xí)領(lǐng)域的解釋是:
在機(jī)器學(xué)習(xí)中,“ground truth”一詞指的是訓(xùn)練集對(duì)監(jiān)督學(xué)習(xí)技術(shù)的分類(lèi)的準(zhǔn)確性。這在統(tǒng)計(jì)模型中被用來(lái)證明或否定研究假設(shè)?!癵round truth”這個(gè)術(shù)語(yǔ)指的是為這個(gè)測(cè)試收集適當(dāng)?shù)哪繕?biāo)(可證明的)數(shù)據(jù)的過(guò)程。
?
今天在看《Outlier Analysis》時(shí),有句話: However, it is generally much harder to reduce bias in outlier ensembles because of the absence of ground truth.
放到對(duì)異常點(diǎn)的檢測(cè)方面來(lái)理解這個(gè)ground truth就好理解了。在對(duì)異常點(diǎn)進(jìn)行檢測(cè)的時(shí)候,通過(guò)一些ensemble methods可以在一定程度上提高準(zhǔn)確性,從而減少bias,但是由于對(duì)于異常點(diǎn)的定義本身就是一個(gè)問(wèn)題,所以在對(duì)這些數(shù)據(jù)進(jìn)行l(wèi)abel的過(guò)程中,保證labeled data是正確的異常點(diǎn)也是個(gè)問(wèn)題。
再舉個(gè)例子,在圖像識(shí)別中,一張圖片是貓還是狗這個(gè)沒(méi)有什么爭(zhēng)議性,但是如果在時(shí)間序列中讓你指出什么樣的數(shù)據(jù)是 normal,什么樣的數(shù)據(jù)是 abnormal,100個(gè)人可能會(huì)有100種回答,因?yàn)?normal 和 abnormal 之間沒(méi)有什么明確的界限,所以在研究時(shí)間序列中的 outlier analysis 時(shí),Ground Truth 也是一個(gè)不可避免的問(wèn)題。
————————————————
版權(quán)聲明:本文為CSDN博主「敲代碼的quant」的原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/FrankieHello/article/details/80486167
?
P-R曲線
原文鏈接:https://blog.csdn.net/teminusign/article/details/51982877
原文鏈接:https://blog.csdn.net/u013249853/article/details/96132766
總結(jié)
以上是生活随笔為你收集整理的机器学习()PR曲线绘制的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 深信服上网行为管理开启snmp_深信服上
- 下一篇: Cell Reports : 人脑中的湍