1.4 满足和优化指标-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授
| 1.3 單一數字評估指標 | 回到目錄 | 1.5 訓練/開發/測試集劃分 |
滿足和優化指標 (Satisficing and Optimizing Metrics)
要把你顧及到的所有事情組合成單實數評估指標有時并不容易,在那些情況里,我發現有時候設立滿足和優化指標是很重要的,讓我告訴你是什么意思吧。
假設你已經決定你很看重貓分類器的分類準確度,這可以是 F1F_1F1? 分數或者用其他衡量準確度的指標。但除了準確度之外,我們還需要考慮運行時間,就是需要多長時間來分類一張圖。分類器 AAA 需要80毫秒, BBB 需要95毫秒, CCC 需要1500毫秒,就是說需要1.5秒來分類圖像。
你可以這么做,將準確度和運行時間組合成一個整體評估指標。所以成本,比如說,總體成本是 cost=accuracy?0.5?runningTimecost=accuracy-0.5*runningTimecost=accuracy?0.5?runningTime ,這種組合方式可能太刻意,只用這樣的公式來組合準確度和運行時間,兩個數值的線性加權求和。
你還可以做其他事情,就是你可能選擇一個分類器,能夠最大限度提高準確度,但必須滿足運行時間要求,就是對圖像進行分類所需的時間必須小于等于100毫秒。所以在這種情況下,我們就說準確度是一個優化指標,因為你想要準確度最大化,你想做的盡可能準確,但是運行時間就是我們所說的滿足指標,意思是它必須足夠好,它只需要小于100毫秒,達到之后,你不在乎這指標有多好,或者至少你不會那么在乎。所以這是一個相當合理的權衡方式,或者說將準確度和運行時間結合起來的方式。實際情況可能是,只要運行時間少于100毫秒,你的用戶就不會在乎運行時間是100毫秒還是50毫秒,甚至更快。
通過定義優化和滿足指標,就可以給你提供一個明確的方式,去選擇“最好的”分類器。在這種情況下分類器B最好,因為在所有的運行時間都小于100毫秒的分類器中,它的準確度最好。
所以更一般地說,如果你要考慮 NNN 個指標,有時候選擇其中一個指標做為優化指標是合理的。所以你想盡量優化那個指標,然后剩下 N?1N-1N?1 個指標都是滿足指標,意味著只要它們達到一定閾值,例如運行時間快于100毫秒,但只要達到一定的閾值,你不在乎它超過那個門檻之后的表現,但它們必須達到這個門檻。
這里是另一個例子,假設你正在構建一個系統來檢測喚醒語,也叫觸發詞,這指的是語音控制設備。比如亞馬遜Echo,你會說“Alexa”,或者用“Okay Google”來喚醒谷歌設備,或者對于蘋果設備,你會說“Hey Siri”,或者對于某些百度設備,我們用“你好百度”喚醒。
對的,這些就是喚醒詞,可以喚醒這些語音控制設備,然后監聽你想說的話。所以你可能會在乎觸發字檢測系統的準確性,所以當有人說出其中一個觸發詞時,有多大概率可以喚醒你的設備。
你可能也需要顧及假陽性(false positive)的數量,就是沒有人在說這個觸發詞時,它被隨機喚醒的概率有多大?所以這種情況下,組合這兩種評估指標的合理方式可能是最大化精確度。所以當某人說出喚醒詞時,你的設備被喚醒的概率最大化,然后必須滿足24小時內最多只能有1次假陽性,對吧?所以你的設備平均每天只會沒有人真的在說話時隨機喚醒一次。所以在這種情況下,準確度是優化指標,然后每24小時發生一次假陽性是滿足指標,你只要每24小時最多有一次假陽性就滿足了。
總結一下,如果你需要顧及多個指標,比如說,有一個優化指標,你想盡可能優化的,然后還有一個或多個滿足指標,需要滿足的,需要達到一定的門檻。現在你就有一個全自動的方法,在觀察多個成本大小時,選出"最好的"那個。現在這些評估指標必須是在訓練集或開發集或測試集上計算或求出來的。所以你還需要做一件事,就是設立訓練集、開發集,還有測試集。在下一個視頻里,我想和大家分享一些如何設置訓練、開發和測試集的指導方針,我們下一個視頻繼續。
課程PPT
| 1.3 單一數字評估指標 | 回到目錄 | 1.5 訓練/開發/測試集劃分 |
總結
以上是生活随笔為你收集整理的1.4 满足和优化指标-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 1.3 单一数字评估指标-深度学习第三课
- 下一篇: 1.5 训练/开发/测试集划分-深度学习