深度学习,提高前列腺癌诊断正确率
文 / Google AI 醫療保健技術負責人 Martin Stumpe 和產品經理 Craig Mermel?
在美國,大約有九分之一的男性一生中會患上前列腺癌,這使其成為男性中最常見的癌癥。前列腺癌雖然常見,但往往不具侵蝕性,因此醫生很難確定癌癥是否對患者構成足夠大的風險,以致于需要進行治療,例如通過手術切除前列腺(前列腺切除術)或放療。Gleason 分級是幫助我們對前列腺癌患者進行 “風險分級” 的重要方法,其使用顯微鏡觀察載玻片,并根據樣本與正常前列腺之間的相似程度對癌細胞進行分級。
然而,雖然前列腺癌 Gleason 分級的臨床意義已得到廣泛認可,但過程非常復雜,并且具有主觀性。研究表明,病理學家對分級結果存在分歧的概率是 30% 到 53% [1][2]。此外,接受過專業培訓的病理學家還遠遠不足,無法滿足全球的前列腺癌病理診斷需求,在美國以外的國家和地區尤其如此。最近提出的指導原則也建議病理學家在最終診斷報告中寫明不同 Gleason 分級下的腫瘤預后良好概率,這不僅加大了病理學家的工作量,還為其帶來另一個主觀性挑戰 [3]。總體來看,這些問題表明,我們可以利用基于深度學習的模型來改進前列腺癌的診斷和臨床管理。這類似于?Google?及其他機構利用此類技術證明提高轉移性乳腺癌檢測準確率的方法。
在《用于改進前列腺癌 Gleason 評分的深度學習算法的開發與驗證》(Development and Validation of a Deep Learning Algorithm for Improving Gleason Scoring of Prostate Cancer) 一文中,我們探討了深度學習能否提升對前列腺切除術樣本進行前列腺癌 Gleason 分級的準確度和客觀性。我們開發了一個深度學習系統 (DLS),首先將載玻片中的每個區域對應至 Gleason 模式,與正常前列腺相似程度越高的腫瘤,對應的模式就越低,以此反映病理學家的工作流程。然后,DLS 根據所呈現的兩種最常見 Gleason 模式總結整體 Gleason 分級組別。分級組別越高,癌癥進一步惡化的風險就越大,而患者從治療中獲益的可能性也越大。?
Gleason 模式的直觀示例,該模式用于對前列腺癌進行分級的 Gleason 系統。系統根據癌細胞與正常前列腺組織的相似程度,為單個癌細胞圖塊分配 Gleason 模式。模式編號越小,對應的腫瘤分化程度就越好。圖像來源:美國國立衛生研究院
為了開發和驗證 DLS,我們收集了已去除個人信息的前列腺切除術樣本圖像,其中包含的前列腺癌細胞數量和種類比通過針刺活檢獲得的要多,雖然后者是更常用的臨床過程。在訓練數據方面,有 32 位病理學家針對 Gleason 模式提供了詳細注釋(最終得到超過 1.12 億個經過注釋的圖塊)和每張圖像的整體 Gleason 分級組別。為了克服前文提及的 Gleason 分級可變性問題,驗證數據集中的每個載玻片都分別由 3 至 5 位一般病理學家(從 29 位病理學家中選出)獨立分級,并由一位泌尿生殖專業病理學家作出最終的 Gleason 分級,從而獲得該載玻片的真實標記。?
在論文中,我們展示了 DLS 的整體準確率達到 70%,而在我們的研究中通過美國執業資格認證的普通病理學家的平均準確率為 61%。我們選出 10 位在為驗證數據集中每個載玻片分級中表現出色的一般病理學家,而 DLS 的準確率超過了其中 8 位。在 Gleason 模式定量分析中,DLS 的準確率也高于一般病理學家。我們可以將這些對 Gleason 分級的改進解讀為更好的臨床風險分級:在識別術后疾病復發風險更高的患者方面,DLS 的表現優于水平一般的病理學家,這可能會使醫生能夠根據這些信息選擇更適合患者的療法。
DLS 與病理學家的評分表現比較。a:DLS 的準確率(以紅色表示)與 29 位病理學家平均準確率(以綠色表示)的比較。誤差線表示 95% 的置信區間。b:DLS、29 位病理學家,以及泌尿生殖專業病理學家提供的風險分級比較。我們根據患者的 Gleason 分級組別,將他們分為高風險和低風險組。這些風險組生存曲線(Kaplan-Meier 曲線)之間的較大分離區域表示更準確的分級
我們還發現 DLS 能夠描繪組織形態特征,這些特征似乎位于兩種 Gleason 模式的相交位置,這是病理學家進行 Gleason 分級時出現分歧的一個原因,也表明我們或許可以更加細分前列腺癌的 “精確分級”。雖然這些中間模式(例如 Gleason 模式 3.3 或 3.7)的臨床意義尚不明確,但 DLS 提升的精確度將會推動對這一有趣問題的進一步研究。?
評估 DLS 的區域級別分類。a:3 位病理學家的注釋與 DLS 預測的比較。病理學家對腫瘤區域位置和范圍的判斷展現出普遍一致性,但在對 Gleason 模式進行分類方面有較大分歧。系統通過在 Gleason 模式 3(綠色)、4(黃色)和 5(紅色)的 DLS 預測模式間進行插值,來展示每個區域的 DLS 精確 Gleason 模式。b:DLS 預測?
模式與病理學家對測試數據集中 4100 萬已注釋圖塊作出的 Gleason 模式分類之分布情況的比較。病理學家存在分歧的圖塊中的組織更有可能位于兩種模式的相交位置,DLS 在其預測分數中反映出這種不明確性
雖然這些初步成果很振奮人心,但在將類似 DLS 的系統應用于改進對前列腺癌患者的治療之前,我們還有很多工作要做。首先,我們可以利用更多訓練數據進一步提高模型的準確度,并基于包含更多和更多樣患者的獨立群體進行驗證。此外,我們正在積極完善 DLS 系統,以將其用于診斷性針刺活檢,此類活檢會在患者決定接受手術前進行,也是 Gleason 分級在臨床決策方面具有更重大影響的原因。我們還需要進行更深入的研究來評估如何以最佳方式將 DLS 整合到病理學家的診斷工作流程中,以及評估這種基于人工智能的輔助方法在臨床實踐中對 Gleason 分級整體效率、準確率和預后判斷能力的影響。盡管如此,我們仍然為這類技術顯著改進癌癥診斷和患者治療的潛力感到振奮。
致謝
此項研究是多學科團隊的努力成果,其中包括軟件工程師、研究人員、臨床醫生和后勤支持人員。此項目的主要貢獻者包括 Kunal Nagpal、Davis Foote、Yun Liu、Po-Hsuan (Cameron) Chen、Ellery Wulczyn、Fraser Tan、Niels Olson、Jenny L. Smith、Arash Mohtashamian、James H. Wren、Greg S. Corrado、Robert MacDonald、Lily H. Peng、Mahul B. Amin、Andrew J. Evans、Ankur R. Sangoi、Craig H. Mermel、Jason D. Hipp 和 Martin C. Stumpe。我們還要感謝 Tim Hesterberg、Michael Howell、David Miller、Alvin Rajkomar、Benny Ayalew、Robert Nagle、Melissa Moran、Krishna Gadepalli、Aleksey Boyko 和 Christopher Gammage。最后,如果沒有為此項研究注釋數據的病理學家的幫助,這個項目也不會成功。
參考文獻
中樞和局部病理學家在根治性前列腺切除術組織學評估中的觀察者間差異:TAX 3501 多國臨床試驗發現 (Interobserver Variability in Histologic Evaluation of Radical Prostatectomy Between Central and Local Pathologists: Findings of TAX 3501 Multinational Clinical Tria).?Netto, G. J.,Eisenberger, M.,Epstein, J. I. 和 TAX 3501 試驗研究者.《泌尿學》(Urology)?77,1155–1160 (2011)
pT3 期前列腺癌輔助性放療與等待觀望的第 3 階段對比研究:病理回顧對分析的影響?(Phase 3 Study of Adjuvant Radiotherapy Versus Wait and See in pT3 Prostate Cancer: Impact of Pathology Review on Analysis).?Bottke, D.,Golz, R.,St?rkel, S., Hinke, A.,Siegmann, A.,Hertle, L.,Miller, K.,Hinkelbein, W.,Wiegel, T.《歐洲泌尿外科雜志》(Eur.Urol)?64,193–198 (2013)
前列腺活檢和前列腺切除術樣本中定量 Gleason 分級的應用?(Utility of Quantitative Gleason Grading in Prostate Biopsies and Prostatectomy Specimens). Sauter, G.,Steurer, S.,Clauditz, T. S.,Krech, T.,Wittmer, C.,Lutz, F.,Lennartz, M.,Janssen, T.,Hakimi, N.,Simon, R.,von Petersdorff-Campen, M.,Jacobsen, F.,von Loga, K.,Wilczak, W.,Minner, S.,Tsourlakis, M. C.,Chirico, V.,Haese, A.,Heinzer, H.,Beyer, B.,Graefen, M.,Michl, U.,Salomon, G.,Steuber, T.,Bud?us, L. H.,Hekeler, E.,Malsy-Mink, J.,Kutzera, S.,Fraune, C.,G?bel, C.,Huland, H.,Schlomm, T.《歐洲泌尿外科雜志》(Eur.Urol) 69,592–598 (2016)
更多 AI 相關閱讀:
利用切換選項和模式擴展您的智能家居操作
單目視頻無監督深度學習的結構化方法
“夜視”(Night Sight) 模式:Pixel 手機可在夜間視物
總結
以上是生活随笔為你收集整理的深度学习,提高前列腺癌诊断正确率的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: jitter单位_时间抖动(jitter
- 下一篇: 解决git cherry-pick xx