深度學習識別皮膚癌媲美醫生,智能手機檢測癌癥將不再遙遠
研究人員希望在不久的將來將這項技術投入實用,讓更多人獲得更好的醫療服務。試想一下吧:一臺皮膚癌檢測儀,就在你智能手機里。
【導讀】斯坦福大學的研究人員開發深度學習算法,識別皮膚癌的準確率與專業的人類醫生相當,相關研究論文被選為封面論文在本期 Nature 發表。研究人員訓練系統觀看了近13萬張痣、皮疹和其他皮膚病變的圖像,然后讓系統與21位皮膚科醫生對比測試,結果系統的精確度與人類醫生相當(“至少”91%)。使用這一技術,有望制造出家用便攜皮膚癌掃描儀,造福廣大患者。
“我們制作了一個非常強大的機器學習算法,能夠從數據中學習,”論文的其中一位主要作者、斯坦福博士生 Andre Esteva 在新聞發布稿中表示,“不是通過編寫代碼,而是讓算法自己發現該去尋找的東西。”
Esteva 提到的強大的算法也就是我們所說的“深度學習”,或者說神經網絡。
當斯坦福的這項合作研究開始時,神經網絡已經能夠從大約1000個不同類別中識別128萬幅圖像。但是,與分辨不同種類的狗的圖片不同,將一塊不規則的皮膚色斑識別為良性脂溢性角化病還是惡性腫瘤會影響患者的生活乃至生命。因此,算法需要極高的準確率與可靠性。
與分辨不同種類的狗的圖片不同,將一塊不規則的皮膚色斑識別為良性脂溢性角化病還是惡性腫瘤會影響患者的生活乃至生命。因此,算法需要極高的準確率與可靠性。來源:Fig. 1b, Esteva, Kuprelet. al,2017
“我們沒有用來訓練算法的皮膚癌數據庫,因此只能動手自己做。”論文的另一位主要作者、斯坦福博士生 Brett Kuprel 表示。“我們從互聯網上收集數據,與醫學院合作,從十分雜亂的數據中整理出了很好的分類——光是標簽就使用了好幾種語言,包括德語、阿拉伯語和拉丁語。”Kuprel 說。
不僅如此,在正式進行圖像處理前,他們還需要進行數據清洗。皮膚科醫生經常使用一種稱為皮膚鏡的儀器仔細檢查患者的皮膚。因此,醫療人員使用的皮膚病圖像,它們的放大率和透視角度都是大體一致的。但是,從互聯網上收集的許多圖像都不是在這樣受控的環境中拍攝的,因此在角度、焦距和照明方面各不相同。
研究人員最終累積了將近13萬張可用的皮膚病變圖像,覆蓋了2000多種不同的疾病類型。他們使用這一數據集創建了圖像庫,并將其作為原始像素提供給算法,每個像素都帶有標簽,描述了相關疾病的附加數據。研究人員訓練算法總結出圖像里的模式,也即發現疾病經由組織傳播在外觀上所遵循的規則。
過程示意圖:研究人員訓練算法總結圖像里的模式,也即發現疾病經由組織傳播在外觀上所遵循的規則。來源:Fig. 1b, Esteva, Kuprelet. al,2017
為了測試算法的性能,研究人員找來斯坦福醫學院的21名皮膚科醫生。實驗中,算法和人類醫生需要完成三項任務:①角質細胞癌分類、②黑素瘤分類,以及③使用皮膚鏡檢查的結果對黑色素瘤進行分類。
在最后一項測試中,研究人員僅使用了高質量、經活檢證實的惡性黑色素瘤和惡性癌的圖片。研究人員讓參與測試的人類醫生觀看這些圖片,并詢問他們是“進行活檢、治療,還是安慰病人”。算法在發現所有癌性病變和不得到假陽性結果兩方面都表現良好,綜合準確率為91%,與人類醫生表現相當。
斯坦福大學的研究人員希望在不久的將來將他們的這項技術投入實用,讓更多人獲得更好的醫療服務。試想一臺就在你智能手機里的皮膚癌檢測儀,隨時隨地方便使用。
論文:用深度神經網絡分類皮膚癌,達到皮膚科醫生水平
摘要
皮膚癌是最常見的人類惡性腫瘤,主要通過視覺方式診斷,從臨床篩查開始,之后可能跟進皮膚鏡分析檢查、活體細胞檢測和組織病理學檢查。由于皮膚病變外觀的細粒度變化,讓系統自動對皮膚病變圖像進行分類十分困難。深度卷積神經網絡(CNN)常被用于分類各種不同細粒度的對象,并且在多項任務中表現良好。
在這里,我們展示了使用單一CNN 對皮膚病變進行分類的過程,這一神經網絡僅以像素和疾病標簽作為輸入,直接使用圖像進行端到端的訓練。我們使用了含有 129450 幅臨床圖像的數據集——比以前的數據集大了兩個數量級——包含 2032 種不同的疾病類型,訓練了一個CNN。我們使用活檢證實的臨床醫學圖像,測試了該網絡在兩大案例中的性能,結果與 21 位認證皮膚科醫生的表現做對比。
這兩大案例分別是:角質細胞癌與良性脂溢性角化病,以及惡性黑色素瘤和普通的痣。第一例代表最常見的癌癥識別,第二例代表了最致命的皮膚癌識別。深度卷積神經網絡在這兩個任務上的表現都達到了所有接受測試的專家的水平,證明了這一人工智能系統的皮膚癌鑒定水平與皮膚科醫生相當。
配備這一深度神經網絡的移動設備可以讓皮膚科醫生的診斷得到臨床以外的使用。預測到 2021 年,全球將有 63 億智能手機用戶,這為實現低成本的重要診斷鋪平了道路。
深度學習改變癌癥診療,仍有很大提升空間
斯坦福的這項研究發表后,兩位皮膚病學研究者——俄勒岡健康和科學大學的 Sancy A. Leachman 和美國國家癌癥研究所 Glenn Merlino 在 Nature 撰寫了評論文章《癌癥診斷的最后前沿》(The Final Frontier in Cancer Diagnosis)。
Leachman 和 Merlino 肯定了斯坦福大學研究者的貢獻。但他們也指出,Esteva 等人所使用的訓練數據集比此前公布的任何同類方法都要大100倍左右,這或許能很好地介紹他們的機器為什么能成功。當然,這種方法也還存在提升的空間。隨著越來越多的數據被填入到這類系統當中,機器可以在自己的錯誤被改正的過程中進行學習,從而讓其性能得到顯著的提升。Esteva和他同事的工作代表了提升曲線上的第一點,而不是峰值。作者使用的模型算法名叫 Inception v3,現在,也有一些新的程序和算法可用,這些新的東西能縮減訓練時間、提升精度。
但是,算法參考信息的準確度決定了算法的準確度。如果機器診斷出病變是惡性的,但是一個病理學家對病變的活組織檢查分類的結果診斷為良性(non-malignant),那么這可能是一個“錯誤”的機器診斷。但是,如果在一個例子中,機器是正確的,而人是錯誤的呢?機器和人診斷的相對準確率可以通過病變的發展進程進行不斷地追蹤。
人工智能用于診斷技術的一個顯要的潛在社會好處在于,能讓更多的人可以獲得高質量的醫療。比起既有的醫療系統,一個包含了這一技術的智能手機應用程序可以讓更多的人享受高效的、簡便且低成本的醫療檢查。以皮膚癌的檢測為例,其他依賴醫生來進行以圖像為基礎的癌癥診斷,比如放射檢查,可能會被改變。
如果醫學檢查開始依賴患者對可疑病變的自我識別,那么皮膚癌高風險的個體更有可能在醫生的手術中選擇不進行正常的全面皮膚篩查,這樣可以挽救他們的生命。
但是,人工智能驅動的醫療診斷可能會帶來意想不到的負面結果。醫務人員是否會變成技術人員,只是對機器的診斷結果做出一定的反應?當然他們可能偶爾也會有凌駕于計算機之上的權力。并且,如果醫療的檢查都依賴于病人對可疑病癥的自我診斷,個人會不會更可能選擇不做全面的皮膚檢測,但是,這在醫生的診斷中是必須的,這是可以拯救生命的。
在疾病的早期階段,精確和有效的癌癥診斷,從而獲得最好的治療時機,長久以來,這樣的事其實很多都只是發生在科幻小說而不是現實生活中。但是,也許用不了多久,我們就能擁有能診斷癌癥的智能手機,就像《星際迷航》中出現的那些一樣。我們應該提前做好準備,或者是說轉變自己的觀念,大膽地把人工智能技術應用在更多的領域。
本文轉載自新智元,編譯:文強、胡祥杰
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
