机器学习工程师 - Udacity 癌症检测深度学习
1.如果你是態(tài)度認真的機器學習工程師,你會花很長時間清洗數(shù)據(jù)。
2.對網(wǎng)絡提前訓練完全不同的事物,比從來沒有訓練過的網(wǎng)絡可以得到更好的結(jié)果。從某種角度講,神經(jīng)網(wǎng)絡內(nèi)部形成的特征,與你訓練的圖片類型無關(guān)。
3.敏感性與特異性
敏感性和特異性雖然與查準率和查全率相似,但并不相同。在癌癥示例中,敏感性和特異性指:
敏感性:在患有癌癥的所有人中,診斷正確的人有多少?
特異性:在未患癌癥的所有人中,診斷正確的人有多少?
查準率和查全率的定義如下:
查準率:在被診斷患有癌癥的所有人中,多少人確實得了癌癥?
查全率:在患有癌癥的所有人中,多少人被診斷患有癌癥?
從這里可以看出,敏感性就是查全率,但特異性并不是查準率。
4.假設(shè)我們有一個能夠輸出黑色素瘤概率的神經(jīng)網(wǎng)絡。要將它分類為黑色素瘤或者非黑色素瘤,你會選擇哪個值作為閾值?
下圖是我們的模型對一組病變圖像所做的預測直方圖,如下所述:
- 水平軸上的每個點是從 0 到 1 的值?p。
- 在所有值?p?中,我們定位了被分類器預測概率 p 為惡性的所有病變。
在圖中,我們將 0.2、0.5 和 0.8 作為閾值。請注意:
- 在 0.2 下,我們正確分類了每個惡性病變,但也對許多良性病變進行了進一步檢查。
- 在 0.5 下,我們未診斷出一些惡性病變(嚴重),對少許良性病變進行了進一步檢查。
- 在 0.8 下,我們對大部分良性病變進行了正確分類,但未診斷出許多惡性病變(非常嚴重)。
在該模型中,可能會有更好的閾值。這個閾值是0.4。
5.ROC曲線
我們將真陽性率作為水平軸,將假陽性率作為垂直軸。
但是,這里,我們使用不同的 ROC 曲線,好像是把這個曲線側(cè)翻了一樣,如圖所示:
我們把敏感性作為水平軸、特異性作為垂直軸,就得到了這個曲線!
回想一下,水平軸上的值都是可能閾值。對于 0 和 1 之間的任何閾值?p,模型的結(jié)論如下:“該閾值左邊的所有病變都被視為良性,其右邊的所有病變都被視為惡性,并會接受進一步檢查?!?/span>
對于這個模型,我們對敏感性和特異性進行以下計算:
- 敏感性:在所有惡性病變中,位于閾值右側(cè)的病變(正確分類)的百分比是多少?
- 特異性:在所有良性病變中,位于閾值左側(cè)的病變(正確分類)的百分比是多少?
我們將(敏感性,特異性)作為坐標系,繪制出這個點。如果繪制出與 0% 和 100% 之間的每個可能閾值對應的所有點,則會得到上面繪制的 ROC 曲線。因此,也可以將 ROC 曲線稱為敏感性-特異性曲線。
假設(shè)我們建立了一個神經(jīng)網(wǎng)絡,它能對每個圖像隨機返回一個 0 至 1 的數(shù)字。ROC 曲線會是什么樣?
答案是B。
6.發(fā)表在《自然》上的相關(guān)論文。
轉(zhuǎn)載于:https://www.cnblogs.com/paulonetwo/p/10066463.html
總結(jié)
以上是生活随笔為你收集整理的机器学习工程师 - Udacity 癌症检测深度学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 设置Table单元格颜色(Table篇三
- 下一篇: Scala 元组(tuple)