1.3 单一数字评估指标-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授
| 1.2 正交化 | 回到目錄 | 1.4 滿足和優(yōu)化指標(biāo) |
單一數(shù)字評(píng)估指標(biāo) (Single Number Evaluation Metric)
無(wú)論你是調(diào)整超參數(shù),或者是嘗試不同的學(xué)習(xí)算法,或者在搭建機(jī)器學(xué)習(xí)系統(tǒng)時(shí)嘗試不同手段,你會(huì)發(fā)現(xiàn),如果你有一個(gè)單實(shí)數(shù)評(píng)估指標(biāo),你的進(jìn)展會(huì)快得多,它可以快速告訴你,新嘗試的手段比之前的手段好還是差。所以當(dāng)團(tuán)隊(duì)開始進(jìn)行機(jī)器學(xué)習(xí)項(xiàng)目時(shí),我經(jīng)常推薦他們?yōu)閱?wèn)題設(shè)置一個(gè)單實(shí)數(shù)評(píng)估指標(biāo)。
我們來(lái)看一個(gè)例子,你之前聽過(guò)我說(shuō)過(guò),應(yīng)用機(jī)器學(xué)習(xí)是一個(gè)非常經(jīng)驗(yàn)性的過(guò)程,我們通常有一個(gè)想法,編程序,跑實(shí)驗(yàn),看看效果如何,然后使用這些實(shí)驗(yàn)結(jié)果來(lái)改善你的想法,然后繼續(xù)走這個(gè)循環(huán),不斷改進(jìn)你的算法。
比如說(shuō)對(duì)于你的貓分類器,之前你搭建了某個(gè)分類器 AAA ,通過(guò)改變超參數(shù),還有改變訓(xùn)練集等手段,你現(xiàn)在訓(xùn)練出來(lái)了一個(gè)新的分類器B,所以評(píng)估你的分類器的一個(gè)合理方式是觀察它的查準(zhǔn)率(precision)和查全率(recall)。
查準(zhǔn)率和查全率的確切細(xì)節(jié)對(duì)于這個(gè)例子來(lái)說(shuō)不太重要。但簡(jiǎn)而言之,查準(zhǔn)率的定義是在你的分類器標(biāo)記為貓的例子中,有多少真的是貓。所以如果分類器 AAA 有95%的查準(zhǔn)率,這意味著你的分類器說(shuō)這圖有貓的時(shí)候,有95%的機(jī)會(huì)真的是貓。
查全率就是,對(duì)于所有真貓的圖片,你的分類器正確識(shí)別出了多少百分比。實(shí)際為貓的圖片中,有多少被系統(tǒng)識(shí)別出來(lái)?如果分類器 AAA 查全率是90%,這意味著對(duì)于所有的圖像,比如說(shuō)你的開發(fā)集都是真的貓圖,分類器 AAA 準(zhǔn)確地分辨出了其中的90%。
所以關(guān)于查準(zhǔn)率和查全率的定義,不用想太多。事實(shí)證明,查準(zhǔn)率和查全率之間往往需要折衷,兩個(gè)指標(biāo)都要顧及到。你希望得到的效果是,當(dāng)你的分類器說(shuō)某個(gè)東西是貓的時(shí)候,有很大的機(jī)會(huì)它真的是一只貓,但對(duì)于所有是貓的圖片,你也希望系統(tǒng)能夠?qū)⒋蟛糠址诸悶樨?#xff0c;所以用查準(zhǔn)率和查全率來(lái)評(píng)估分類器是比較合理的。
但使用查準(zhǔn)率和查全率作為評(píng)估指標(biāo)的時(shí)候,有個(gè)問(wèn)題,如果分類器 AAA 在查全率上表現(xiàn)更好,分類器 BBB 在查準(zhǔn)率上表現(xiàn)更好,你就無(wú)法判斷哪個(gè)分類器更好。如果你嘗試了很多不同想法,很多不同的超參數(shù),你希望能夠快速試驗(yàn)不僅僅是兩個(gè)分類器,也許是十幾個(gè)分類器,快速選出“最好的”那個(gè),這樣你可以從那里出發(fā)再迭代。如果有兩個(gè)評(píng)估指標(biāo),就很難去快速地二中選一或者十中選一,所以我并不推薦使用兩個(gè)評(píng)估指標(biāo),查準(zhǔn)率和查全率來(lái)選擇一個(gè)分類器。你只需要找到一個(gè)新的評(píng)估指標(biāo),能夠結(jié)合查準(zhǔn)率和查全率。
在機(jī)器學(xué)習(xí)文獻(xiàn)中,結(jié)合查準(zhǔn)率和查全率的標(biāo)準(zhǔn)方法是所謂的 F1F_1F1? 分?jǐn)?shù), F1F_1F1? 分?jǐn)?shù)的細(xì)節(jié)并不重要。但非正式的,你可以認(rèn)為這是查準(zhǔn)率 PPP 和查全率 RRR 的平均值。正式來(lái)看, F1F_1F1? 分?jǐn)?shù)的定義是這個(gè)公式: 21P+1R\frac2{\frac1P+\frac1R}P1?+R1?2?
在數(shù)學(xué)中,這個(gè)函數(shù)叫做查準(zhǔn)率 PPP 和查全率 RRR 的調(diào)和平均數(shù)。但非正式來(lái)說(shuō),你可以將它看成是某種查準(zhǔn)率和查全率的平均值,只不過(guò)你算的不是直接的算術(shù)平均,而是用這個(gè)公式定義的調(diào)和平均。這個(gè)指標(biāo)在權(quán)衡查準(zhǔn)率和查全率時(shí)有一些優(yōu)勢(shì)。
但在這個(gè)例子中,你可以馬上看出,分類器 AAA 的 F1F_1F1? 分?jǐn)?shù)更高。假設(shè)分?jǐn)?shù)是結(jié)合查準(zhǔn)率和查全率的合理方式,你可以快速選出分類器 AAA ,淘汰分類器 BBB 。
我發(fā)現(xiàn)很多機(jī)器學(xué)習(xí)團(tuán)隊(duì)就是這樣,有一個(gè)定義明確的開發(fā)集用來(lái)測(cè)量查準(zhǔn)率和查全率,再加上這樣一個(gè)單一數(shù)值評(píng)估指標(biāo),有時(shí)我叫單實(shí)數(shù)評(píng)估指標(biāo),能讓你快速判斷分類器 AAA 或者分類器 BBB 更好。所以有這樣一個(gè)開發(fā)集,加上單實(shí)數(shù)評(píng)估指標(biāo),你的迭代速度肯定會(huì)很快,它可以加速改進(jìn)您的機(jī)器學(xué)習(xí)算法的迭代過(guò)程。
我們來(lái)看另一個(gè)例子,假設(shè)你在開發(fā)一個(gè)貓應(yīng)用來(lái)服務(wù)四個(gè)地理大區(qū)的愛貓人士,美國(guó)、中國(guó)、印度還有世界其他地區(qū)。我們假設(shè)你的兩個(gè)分類器在來(lái)自四個(gè)地理大區(qū)的數(shù)據(jù)中得到了不同的錯(cuò)誤率,比如算法 AAA 在美國(guó)用戶上傳的圖片中達(dá)到了3%錯(cuò)誤率,等等。
所以跟蹤一下,你的分類器在不同市場(chǎng)和地理大區(qū)中的表現(xiàn)應(yīng)該是有用的,但是通過(guò)跟蹤四個(gè)數(shù)字,很難掃一眼這些數(shù)值就快速判斷算法 AAA 或算法 BBB 哪個(gè)更好。如果你測(cè)試很多不同的分類器,那么看著那么多數(shù)字,然后快速選一個(gè)最優(yōu)是很難的。所以在這個(gè)例子中,我建議,除了跟蹤分類器在四個(gè)不同的地理大區(qū)的表現(xiàn),也要算算平均值。假設(shè)平均表現(xiàn)是一個(gè)合理的單實(shí)數(shù)評(píng)估指標(biāo),通過(guò)計(jì)算平均值,你就可以快速判斷。
看起來(lái)算法 CCC 的平均錯(cuò)誤率最低,然后你可以繼續(xù)用那個(gè)算法。你必須選擇一個(gè)算法,然后不斷迭代,所以你的機(jī)器學(xué)習(xí)的工作流程往往是你有一個(gè)想法,你嘗試實(shí)現(xiàn)它,看看這個(gè)想法好不好。
所以本視頻介紹的是,有一個(gè)單實(shí)數(shù)評(píng)估指標(biāo)真的可以提高你的效率,或者提高你的團(tuán)隊(duì)做出這些決策的效率。現(xiàn)在我們還沒(méi)有完整討論如何有效地建立評(píng)估指標(biāo)。在下一個(gè)視頻中,我會(huì)教你們?nèi)绾卧O(shè)置優(yōu)化以及滿足指標(biāo),我們來(lái)看下一段視頻。
課程PPT
| 1.2 正交化 | 回到目錄 | 1.4 滿足和優(yōu)化指標(biāo) |
總結(jié)
以上是生活随笔為你收集整理的1.3 单一数字评估指标-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 1.2 正交化-深度学习第三课《结构化机
- 下一篇: 1.4 满足和优化指标-深度学习第三课《