研究皮膚癌的圖像數據庫遭吐槽：膚色太白了！

2021-11-10 16:50:05 前瞻網

評論

近日，根據一項新的研究，在一個公共皮膚圖像數據集（用于訓練算法以檢測皮膚問題）中，沒有包含足夠多膚色的信息。在提供膚色信息的數據集中，只有極少數圖像的膚色較深。因此使用這些數據集構建的算法，對于非白人來說可能不那么準確。

研究檢查了21個可免費訪問的皮膚狀況圖像數據集。結合起來，它們包括了超過100000張圖像。這些圖像中只有1400多張附加了有關患者種族的信息，只有2236張附加了有關膚色的信息。

利用這些數據訓練算法很可能存在偏差：在具有膚色信息的圖像中，只有11個屬于“最暗膚色”類別。沒有來自具有非洲、非洲裔加勒比或南亞背景的患者圖像。

斯坦福大學皮膚病學臨床學者表示，從少數報告膚色分布的論文中看到，這些論文確實顯示出較深膚色的代表性不足。

當數據集中的圖像公開可用時，研究人員可以查看相關膚色。但這可能也很困難，因為照片可能與現實生活中的膚色不完全匹配。最理想的情況是在臨床訪問時注意患者膚色，然后可以在該患者皮膚問題的圖像進入數據庫之前對其進行標記。

仔細檢查這些圖像集很重要，因為它們經常被用來構建算法來幫助醫(yī)生診斷患有皮膚病的患者，其中一些皮膚病（如皮膚癌），如果不及早發(fā)現就會更加危險。

如果算法只在淺色皮膚上進行過訓練或測試，那么它們對其他人來說就不會那么準確。研究也表明，僅對膚色較淺的人拍攝圖像，進行訓練的程序可能對膚色較深的人來說不那么準確，反之亦然。

研究人員希望看到更多深色皮膚狀況的例子。提高數據集的透明度和清晰度，將幫助研究人員跟蹤更多樣化的圖像集進展，有望出現更公平的人工智能工具。

題為Characteristics of publicly available skin cancer image datasets: a systematic review的相關研究論文發(fā)表在《柳葉刀-數字醫(yī)療》上。

前瞻經濟學人APP資訊組

論文原文：

https://www.thelancet.com/journals/landig/article/PIIS2589-7500(21)00252-1/fulltext