神经网络诊断皮肤癌超越人类专家?来自医疗界的这篇论文给出了证明
2018-05-29
今日,一篇关于皮肤癌诊断的文章发表在医疗期刊《肿瘤学年鉴》(Annals of Oncology)上,这篇出自医疗界高级管理医师的研究首次表明:深度学习卷积神经网络(CNN)在检测皮肤癌方面的表现优于有经验的皮肤科医生。对比对象是来自 17 个国家的 58 位皮肤科医生,其中包括 30 位专家。
这是人工智能又一次在医疗图像识别上实现「超越人类」的水平。尽管如吴恩达这样的著名机器学习学者领导的 AI 医疗影像研究也正在受到质疑,但随着技术的发展,越来越多基于人工智能的医疗成果正在出现,此类技术或许很快就可以帮助我们更好地应对疾病。
研究人员首次表明,深度学习卷积神经网络(CNN)在检测皮肤癌方面的表现优于有经验的皮肤科医生。
今天发表在国际著名癌症期刊《肿瘤学年鉴》(Annals of Oncology)上的一项研究中,德国、美国和法国的研究人员使用 10 万多幅恶性黑色素瘤(最致命的皮肤癌)和良性痣的图像训练了一个 CNN 来识别皮肤癌。他们将其诊断与 58 位国际皮肤科医生的诊断进行了比较,发现 CNN 比皮肤科医生漏诊的黑色素瘤更少,误诊良性痣的几率更低。
CNN 是一种人工神经网络,受到大脑中神经细胞(神经元)相互连接并对眼睛看到的东西做出反应时的生物过程的启发。CNN 能够从它「看到」的图像中快速学习,并根据所学知识自学来提高其性能(这一过程被称为机器学习)。
这项研究的第一作者,德国海德堡大学皮肤科高级管理医师 Holger Haenssle 教授解释说:「CNN 的工作原理就像一个孩子的大脑。为了训练它,我们向 CNN 展示了 10 万多幅恶性皮肤癌和良性痣的图像,并标出每幅图像的诊断结果。我们仅用了皮肤镜图像,即以 10 倍放大倍率成像的病变图像。CNN 通过学习每幅训练图像提高了区分良性和恶性病变的能力。
「训练结束后,我们借用海德堡大学图书馆的数据创建了两套从未用于训练的测试图像,因此 CNN 对此一无所知。一组 300 幅图像的数据集专门用来单独测试 CNN 的性能。在此之前,我们选择了 100 种最难判断的病变来测试真正的皮肤科医生,并与 CNN 的结果进行比较。」
来自世界各地的皮肤科医生受邀参加,17 个国家的 58 位专家同意参加会议。其中 17 人(29%)表示他们在皮肤镜检查方面的经验不足两年,11 人(19%)表示他们拥有 2 至 5 年的经验,30 人(52%)表示他们拥有 5 年以上的经验。
开始时,这些医生被要求仅根据皮肤镜图像(I 级)诊断恶性黑色素瘤或良性痣,并决定如何处理该状况(手术、短期随访或不需要采取行动)。四周后,他们拿到了患者的临床信息(包括年龄、性别和病变位置)和相同的 100 例特写图像(II 级),并被要求再次诊断并作出决定。
在 I 级中,皮肤科医生准确地检测到平均 86.6% 的黑色素瘤,正确地识别出平均 71.3% 的非恶性病变。然而,当 CNN 与医生水平持平,即正确识别出 71.3% 的良性痣时,它检测到 95% 的黑色素瘤。在 II 级中,皮肤科医生的表现有所提高,准确诊断出了 88.9% 的恶性黑色素瘤和 75.7% 的非恶性病变。
「CNN 漏诊的黑色素瘤更少,表明它比皮肤科医生有更高的敏感度,并且它将良性痣误诊为恶性黑色素瘤的次数也更少,这意味着它的专业性更强;这将帮我们省去更多不必要的手术。」Haenssle 教授说。
「当皮肤科医生接收更多 II 级的临床信息和图像时,他们的诊断结果得到提升。然而,CNN 仅使用皮肤镜图像,并且没有接收额外的临床信息,仍然超越了医生的诊断能力。」
专业的皮肤科医生在 I 级中能超越经验较少的皮肤科医生,在检测恶性黑色素瘤中表现得更好。然而,他们做出准确诊断的平均水平在两个等级中仍然低于 CNN。
「这些发现表明深度学习卷积神经网络在检测黑色素瘤的任务中有能力超越皮肤科医生,包括那些受过大量训练的专家。」他说。
恶性黑色素瘤的发病率越来越高,全世界每年估计有 232000 名新病例和大约 55500 名死亡病例。如果能在早期检测出来是可以被治愈的,但很多病例仅在癌症进一步恶化和更难治疗的时候才被诊断出来。
Haenssle 教授说:「我曾经参加一个研究项目将近 20 年,它旨在改善黑色素瘤在可治愈阶段的早期检测。我的团队和我聚焦于非侵入式技术,希望帮助医生在执行皮肤癌检查时不漏诊黑色素瘤。当发现近期关于深度学习算法在特定任务上超越人类的报告时,我立刻意识到可以在诊断黑色素瘤上探索这些人工智能算法。」
研究者并没有设想用 CNN 取代皮肤科医生诊断皮肤癌,但可以将其作为一项额外辅助技术。
「这种 CNN 技术有望在皮肤癌检查中辅助帮助医生决定是否要做活检病变。大多数皮肤科医生已经使用数字皮肤镜系统来对病变进行拍照、归档和跟进。然后 CNN 可以轻易和快速地评估已保存的影像,得到黑色素瘤概率的『专家意见』。我们目前正计划前瞻性研究来评估 CNN 对医生和病患的现实影响。」
该研究有一定的局限性,包括:皮肤科医生是在一个人工环境中,他们知道自己没有作出「生死」攸关的决定;测试集没有涵盖所有类型的皮肤损伤;非白种人皮肤类型和遗传背景的有效图像较少;事实上,医生可能不会一直遵循他们不信任的 CNN 的建议。
在随后的社论 [4] 中,Victoria Mar 博士(澳大利亚墨尔本莫纳什大学)和 H. Peter Soyer 教授(澳大利亚布里斯班昆士兰大学)写道:「目前,黑色素瘤的诊断准确性取决于治疗医生的经验和培训。……Haenssle 等人……已经表明使用卷积神经网络的计算机算法优于所测试的 58 名皮肤科医生中的大多数……这表明人工智能保证了更标准化的诊断准确性水平,使得所有人,无论他们住在哪里或看哪个医生,都能够获得可靠的诊断评估。」
他们强调了 AI 在成为临床标准之前需要解决的一些问题,包括在手指、脚趾和头皮等部位的黑色素瘤难以成像,以及如何训练 AI 充分识别非典型和患者没有发现的黑色素瘤。
他们的结论是:「目前,没有什么技术可以替代彻底的临床检查。然而,2D 和 3D 全身摄影能够捕获大约 90%~95% 的皮肤表面。鉴于成像技术的指数发展,我们设想自动诊断迟早将改变皮肤病学的诊断模式。但是,要将这一激动人心的技术安全地应用到常规临床护理中,还有很多工作要做。」
论文:Man against machine: diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists
论文链接:https://academic.oup.com/annonc/advance-article/doi/10.1093/annonc/mdy166/5004443
摘要
背景
深度学习卷积神经网络(CNN)可能促进黑色素瘤检测,但是仍缺乏 CNN 与大量皮肤科医生诊断表现的对比数据。
方法
研究者使用皮肤镜图像和对应诊断结果训练谷歌的 Inception v4 CNN 架构。在对比横断面研究中,研究者使用了包含 100 张图像的测试集(I 级:只有皮肤镜图像;II 级:皮肤镜图像和临床信息)。研究中主要的衡量指标包括:敏感度、特异性和 CNN 对病灶进行诊断分类(二分类)的 ROC 曲线下面积(AUC),以及 58 名国际皮肤科医生。次要指标包括皮肤科医生管理决策的诊断效果,以及他们的不同诊断表现。此外,CNN 的表现还与 2016 生物医学成像国际会议(ISBI)挑战赛中的 top-five 算法进行了对比。
结果
在 I 级诊断中,皮肤科医生对病变分类的敏感性和特异性的平均得分(±标准差)分别为 86.6% (±9.3%) 和 71.3% (±11.2%)。获得更多临床信息后(level-II),得分分别提升到了 88.9% (±9.6%, P = 0.19) 和 75.7% (±11.7%, P < 0.05)。相比于皮肤科医生在 I 级、 II 级的特异性与敏感性得分,CNN 的 ROC 曲线显示出更好的特异性(82.5%)。CNN 的 ROC 曲线下面积要比皮肤科医生的平均 ROC 面积(0.86 vs 0.79, P < 0.01)大。CNN 的得分接近 ISBI 2016 挑战赛的 3 大顶级算法结果。
结论
我们首次对 CNN 与国际皮肤科医生团队(共 58 位,其中包括 30 位专家)的诊断表现进行了对比。大部分皮肤科医生的表现都不如 CNN。有了 CNN 图像分类辅助,任何内科医生(无论经验多么丰富)都有可能从中受益。