關注 >   >  正文

研究皮膚癌的圖像數據庫遭吐槽:膚色太白了!

評論

近日,根據一項新的研究,在一個公共皮膚圖像數據集(用于訓練算法以檢測皮膚問題)中,沒有包含足夠多膚色的信息。在提供膚色信息的數據集中,只有極少數圖像的膚色較深。因此使用這些數據集構建的算法,對于非白人來說可能不那么準確。

研究檢查了21個可免費訪問的皮膚狀況圖像數據集。結合起來,它們包括了超過100000張圖像。這些圖像中只有1400多張附加了有關患者種族的信息,只有2236張附加了有關膚色的信息。

利用這些數據訓練算法很可能存在偏差:在具有膚色信息的圖像中,只有11個屬于“最暗膚色”類別。沒有來自具有非洲、非洲裔加勒比或南亞背景的患者圖像。

斯坦福大學皮膚病學臨床學者表示,從少數報告膚色分布的論文中看到,這些論文確實顯示出較深膚色的代表性不足。

當數據集中的圖像公開可用時,研究人員可以查看相關膚色。但這可能也很困難,因為照片可能與現實生活中的膚色不完全匹配。最理想的情況是在臨床訪問時注意患者膚色,然后可以在該患者皮膚問題的圖像進入數據庫之前對其進行標記。

仔細檢查這些圖像集很重要,因為它們經常被用來構建算法來幫助醫(yī)生診斷患有皮膚病的患者,其中一些皮膚病(如皮膚癌),如果不及早發(fā)現就會更加危險。

如果算法只在淺色皮膚上進行過訓練或測試,那么它們對其他人來說就不會那么準確。研究也表明,僅對膚色較淺的人拍攝圖像,進行訓練的程序可能對膚色較深的人來說不那么準確,反之亦然。

研究人員希望看到更多深色皮膚狀況的例子。提高數據集的透明度和清晰度,將幫助研究人員跟蹤更多樣化的圖像集進展,有望出現更公平的人工智能工具。

題為Characteristics of publicly available skin cancer image datasets: a systematic review的相關研究論文發(fā)表在《柳葉刀-數字醫(yī)療》上。

前瞻經濟學人APP資訊組

論文原文:

https://www.thelancet.com/journals/landig/article/PIIS2589-7500(21)00252-1/fulltext

標簽: 皮膚癌 膚色

今日熱點

熱點排行

最近更新

所刊載信息部分轉載自互聯網,并不代表本網贊同其觀點和對其真實性負責。郵箱:5855973@qq.com

聯系我們| 中國品牌網 | 滬ICP備2022005074號-18 營業(yè)執(zhí)照  Copyright © 2018@. All Rights Reserved.