Nature论文解读 | 基于深度学习和心脏影像预测生存概率
作者丨Peter??
單位丨某基因科技公司生物信息工程師
研究方向丨生物信息
本文解讀的文章來自今年 2 月份的 Nature 雜志新子刊 Machine Intelligence,標題為:Deep-learning cardiac motion analysis for human survival prediction。
實驗設計
文章的實驗設計如下:
1. 采集 302 位病人的心臟三維 MRI 影響數據,并對其由認證醫師標注出其血管流量等和診斷有關的特征和區域,同時對其進行了 12 年的跟蹤并記錄其醫療相關的事件;
2. 對比手動標記的圖像分割和自動的標記和運動追蹤;
3. 對手動的模型使用常規參數,對自動化標記的數據通過深度學習模型及超參數優化分別進行模型內部的驗證;
4. 比較不同的模型在預測患者死亡率上的表現。
從上述流程可以看出,這篇文章的要點有三個,一是怎么去做圖像分割,二是做預測模型,三是如何評價模型的表現。
圖像分割
對于圖像分割,首先是訓練一個能夠在單個影像中確定血流量的和圖像分隔的模型,之后通過不同截面下的高分辨率數據,去訓練一個更加平滑的分隔模型。
通過將血液流量和圖像分割變成一個多任務的預測問題,通過全卷積網絡,先分別提取單張圖片的特征,之后再將不同截面的圖片的特征整合(即上圖的左半部分),而通過不同尺度的反卷積,可以將特征返還成圖像,最終將預測的標簽和實際標簽的差作為損失函數,最終完成了圖像的分割。通過不同時間段的數據,還可以對心臟的運動情況進行跟蹤。
預測死亡率的模型
不同的病人各自有自己做過的 N 次心臟 MRI,通過二層的降噪自編碼器,能夠訓練出一個能夠魯棒的用低維數據表達心臟 MRI 數據的模型。
該文的創新點在于將要預測的死亡風險也加入了待優化的損失函數,這里的重構誤差是不同 n 次數據間 MSE 的平均值,而死亡風險使用了 Cox’s proportional hazards regression model。
這里等式的左邊是該個體存活的概率與群體存活概率的比值,右側是 DAE 提取的特征的加權之和,通過將損失函數定義為重構誤差和包含待預測指標的形式,DAE 需要學到既能夠再現原始的 3D 結構,又和待預測目標有關的特征。
對于每一個待優化的權重 beta 來說,求導數后得出下面的等式:
考慮到數據是不同時間段的,而一個人只會死一次,因此對不同的時間進行了加權,最終得出要優化的與死亡率有關的損失函數。
而在超參數的優化中,使用了 PSO(粒子群算法),待優化的參數如下表所列:
模型的效果
相比人工標記的數據 + 傳統的預測模型,全卷積網絡做的圖像分割 + DAE做的預測,效果如何了?
在該問題中,對每個患者的存活率的預測是一個連續值,而是否存活是一個 0 或1的問題。為此,按照預估存活率在人群的前 50% 或后 50%,將人群分成了高風險與低風險,下圖的 A 是人工標記數據的模型,b 是全部用深度學習做的模型,藍色的代表低風險,紅色代表高風險,線旁邊的框代表了 95% 的置信區間。
圖中展示的是醫學中常用的 Kaplan–Meier 曲線,反映的是病人在患病不同年份之間的死亡率,其中的 P 值代表了統計上紅色和藍色的差距。B 圖相比 A 圖,不止 P 值更低,而且在不同的年份間始終預測的更準,而手動的模型至少在最初幾年,效果是差一些的。
模型的可解釋性
醫學與深度學習的結合,模型的可解釋性始終會受到格外的關注。不止是由于醫學樣本的樣本量小,人們對涉及生死的事情,需要最終能歸結到生物本身的機理上。
該模型對 4D 的數據用 Laplacian eigenmaps 降維到 2D 后,按照存活的年份,進行了聚類,可以看到顏色相近的點也在一起,而 b 圖暫時了游離壁和間隔對模型預測的顯著性,從而給出了模型的預測的可視化解釋。
總結
該文的亮點在于首先做到了 4D 影像數據的全自動處理(之后的新數據不需要人工標注),以及改變自編碼器的損失函數做回歸問題。由于該文只用了一家醫療機構的 302 位患者的數據,因此只對該模型利用 70% 訓練集,30% 驗證集的方式進行了內部的調優,最后在全部 302 名患者中得出了對比圖,因此該模型有過擬合的可能性。
并且該模型預測的存活率,難以指導醫療,如果能夠根據更大規模的數據,結合生活習慣的問卷,預測不同的生活習慣,例如持續的運動,低鹽低脂的飲食,是否對不同的人患者有不同的存活率影響,即對于堅持運動的人和不堅持運動的人(低鹽低脂飲食與否),分別做一個模型來預測,再去看對于一個即不運動,也不健康的患者,上述模型能夠告訴患者指導過改變那一種生活習慣,能夠更好的提高自己的長期存活率,從而助力精準醫學。
點擊以下標題查看更多往期內容:?
Airbnb實時搜索排序中的Embedding技巧
圖神經網絡綜述:模型與應用
近期值得讀的10篇GAN進展論文
F-Principle:初探理解深度學習不能做什么
自然語言處理中的語言模型預訓練方法
深度思考 | 從BERT看大規模數據的無監督利用
AI Challenger 2018 機器翻譯參賽總結
Google BERT應用之紅樓夢對話人物提取
深度長文:NLP的巨人肩膀(上)
NLP的巨人肩膀(下):從CoVe到BERT
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢??答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
總結
以上是生活随笔為你收集整理的Nature论文解读 | 基于深度学习和心脏影像预测生存概率的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 初级数据分析师需要哪些必备技能?
- 下一篇: arXiv热文解读 | 不懂Photos