这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。gydF4y2B一个
深度神经网络在不同的医学图像分类任务中显示出令人印象深刻的结果。然而,对于现实世界的应用,有必要估计网络的不确定性及其预测。gydF4y2B一个
在这篇综述中,我们探讨了不确定度估计以何种形式应用于医学图像分类任务。我们还研究了使用哪些度量来描述应用的不确定性估计的有效性gydF4y2B一个
Google Scholar、PubMed、IEEE Xplore和ScienceDirect在2016年至2021年间发表的同行评审研究中进行了筛选,这些研究涉及医学图像分类中的不确定性估计。搜索词“不确定度”、“不确定度估计”、“网络校准”和“分布外检测”与术语“医学图像”、“医学图像分析”和“医学图像分类”结合使用。gydF4y2B一个
通过系统评价过程,共选择22篇论文进行详细分析。本文提供了一个表,以系统地比较所包括的关于估计不确定度的应用方法的工作。gydF4y2B一个
不确定性估计的方法多种多样,但最常用的是基于采样的蒙特卡罗Dropout和深度集成方法。我们的结论是,未来的工作可以研究不确定性估计在人工智能系统和人类专家协作设置中的好处。gydF4y2B一个
rr2 - 10.2196/11936gydF4y2B一个
数字图像分析是一个有用的工具,支持医生在他们的临床决策。最初,数字图像分析是通过从输入图像中提取手工特征来完成的。这些特征可以调整到基础数据,这意味着对于特定的疾病,只能在观察到的图像中寻找特定的特征。然而,随着深度学习的出现,已经建立了一个“黑盒子”,可以在监督学习的设置下,从本质上从标记数据中学习这些特征。近年来,基于深度学习的方法大大优于依赖手工特征的传统方法。使用基于学习的方法,重点已经从手动定义图像特征转移到为学习系统提供干净和正确注释的数据。然而,对于以数据为中心的方法,出现了新的挑战。gydF4y2Ba
在临床环境中,当这些算法被用作诊断辅助工具时,用户必须能够理解人工智能(AI)系统是如何得出诊断的。这方面的一个关键组成部分是衡量人工智能系统对其预测的信心。这种措施对于增加对人工智能系统的信任非常重要,并且可能会改善临床决策[gydF4y2B一个
在结果部分,我们通过它们应用的不确定性估计方法对评审作品进行分类。我们提供了一个表格,作为所有纳入研究的概述。在最后一节中,我们讨论了评估不确定性评估收益的最常用指标,并展望了未来可能的研究方向,重点是人机协作。gydF4y2B一个
在分类任务中,神经网络应该预测给定输入的可能性gydF4y2B一个
在公式中,预测分布可表示为:gydF4y2B一个
给定输入的预测分布gydF4y2B一个
根据模型的不确定性,预测不确定性可分为任意不确定性和认知不确定性。任意不确定性描述了数据中固有的不确定性,而认知不确定性捕获了模型的不确定性。典型分类网络的softmax输出只能捕获任意不确定性[gydF4y2B一个
Ovadia等[gydF4y2B一个
基于抽样的方法很容易实现,因为它们利用了现有的网络架构。最流行的两种方法是蒙特卡罗退出法(MCDO) [gydF4y2B一个
直接修改网络结构以改进不确定性估计的领域是相当多样化的。在MCDO的推导中,作者将他们的方法与高斯过程(GPs)进行了比较。GP是一种估计函数分布的方法[gydF4y2B一个
被Ovadia等人纳入比较的方法[gydF4y2B一个
与采样多个模型相比,也可以通过在输入数据的不同增量上运行网络来计算预测的分布。艾汉和贝伦斯[gydF4y2B一个
在系统综述中,我们通过Google Scholar、PubMed、IEEE Xplore和ScienceDirect进行检索,找出将不确定度估计方法应用于医学图像分类的相关作品。我们将搜索范围限制在2016年1月至2021年10月之间出现的作品。作为搜索词,我们使用了“不确定性”、“不确定性估计”、“网络校准”和“分布外检测”,并将它们与术语“医学图像”、“医学图像分析”和“医学图像分类”结合起来。gydF4y2B一个
甄选过程是根据“系统评审及综合分析首选报告项目”指引[gydF4y2B一个
PRISMA(系统评价和荟萃分析的首选报告项目)流程图。gydF4y2B一个
应用各自不确定性估计方法的出版物数量。EDL:证据深度学习;GP:高斯过程;MCDO:蒙特卡洛辍学生;SVI:随机变分推理;TS:温度结垢;TTA:测试时数据增强。gydF4y2Ba
所包括的大多数工作通过计算不确定性度量(主要是预测方差或预测熵)来评估应用的方法。这种不确定度度量通常用于生成保留数据和准确性评估。gydF4y2B一个
保留数据与Filos等人的准确度图[gydF4y2B一个
其中一些研究着重于网络校准,并试图在实验中降低预期校准误差(ECE)。其他一些工作使用计算的不确定度测量来检测偏离分布(OOD)的样本。gydF4y2B一个
所选研究的概述。gydF4y2B一个
方法gydF4y2B一个 | 器官或疾病gydF4y2B一个 | 传感器gydF4y2B一个 | 网络体系结构gydF4y2B一个 | 报告的度量标准gydF4y2B一个 | 数据访问gydF4y2B一个 | 代码gydF4y2B一个 | 参考gydF4y2B一个 |
MCDOgydF4y2B一个一个gydF4y2B一个,医生gydF4y2B一个bgydF4y2B一个 | 眼底图像显示的糖尿病视网膜病变gydF4y2B一个 | 相机gydF4y2B一个 | 自定义有线电视新闻网gydF4y2B一个cgydF4y2B一个 | 保留数据或准确性,不确定性或密度gydF4y2B一个 | 公众(Kaggle比赛)gydF4y2B一个 | 是的gydF4y2B一个 | Leibig等[gydF4y2B一个 |
MCDO, SVIgydF4y2B一个dgydF4y2B一个 | 视网膜gydF4y2B一个 | 光学相干层析成像gydF4y2B一个 | ResNet-18gydF4y2B一个 | 预测方差gydF4y2B一个 | 公共gydF4y2B一个 | 是的gydF4y2B一个 | Laves等人[gydF4y2B一个 |
MCDOgydF4y2B一个 | 皮肤癌gydF4y2B一个 | 相机gydF4y2B一个 | VGG-16, ResNet-50, DenseNet-169gydF4y2B一个 | 不确定度或密度,保留数据或准确性,不确定度,混淆矩阵gydF4y2B一个 | 公共gydF4y2B一个 | 是的gydF4y2B一个 | Mobiny等[gydF4y2B一个 |
MCDOgydF4y2B一个 | 大脑gydF4y2B一个 | 核磁共振成像gydF4y2B一个egydF4y2B一个 | 修改VGGNetgydF4y2B一个 | 可靠性图,AUROCgydF4y2B一个fgydF4y2B一个 | 私人gydF4y2B一个 | 是的gydF4y2B一个 | Herzog等[gydF4y2B一个 |
MCDOgydF4y2B一个 | 乳腺癌gydF4y2B一个 | 乳房x光检查gydF4y2B一个 | VGG-19gydF4y2B一个 | 不确定性,混淆矩阵gydF4y2B一个 | 公共gydF4y2B一个 | 没有gydF4y2B一个 | Caldéron-Ramírez等[gydF4y2B一个 |
MCDO, DUQgydF4y2B一个ggydF4y2B一个 | 新型冠状病毒肺炎gydF4y2B一个 | x射线gydF4y2B一个 | WideResNetgydF4y2B一个 | Jensen-Shannon散度gydF4y2B一个 | 公共gydF4y2B一个 | 没有gydF4y2B一个 | Caldéron-Ramírez等[gydF4y2B一个 |
MCDO,合奏,MFVIgydF4y2B一个hgydF4y2B一个 | 眼底图像显示的糖尿病视网膜病变gydF4y2B一个 | 相机gydF4y2B一个 | VGG变体gydF4y2B一个 | 保留数据或准确性,保留数据或AUROC, ROCgydF4y2B一个我gydF4y2B一个 | 公众(Kaggle比赛)gydF4y2B一个 | 是的gydF4y2B一个 | Filos等[gydF4y2B一个 |
MCDO,集合,m头gydF4y2B一个 | 组织病理学的幻灯片gydF4y2B一个 | 显微镜gydF4y2B一个 | DenseNetgydF4y2B一个 | 保留数据或AUROCgydF4y2B一个 | 公共gydF4y2B一个 | 没有gydF4y2B一个 | Linmans等[gydF4y2B一个 |
MCDO,合奏,混乱gydF4y2B一个 | 组织病理学的幻灯片gydF4y2B一个 | 显微镜gydF4y2B一个 | ResNet-50gydF4y2B一个 | ECEgydF4y2B一个jgydF4y2B一个auroc, auprcgydF4y2B一个kgydF4y2B一个 | 私人gydF4y2B一个 | 没有gydF4y2B一个 | Thagaard等[gydF4y2B一个 |
MCDO,乐团gydF4y2B一个 | COVID-19,组织病理学载玻片(乳腺癌)gydF4y2B一个 | CTgydF4y2B一个lgydF4y2B一个,显微镜gydF4y2B一个 | ResNet-152-V2、Inception-V3、Inception-ResNet-V2gydF4y2B一个 | 预测熵,保留的数据或准确性gydF4y2B一个 | 公共gydF4y2B一个 | 没有gydF4y2B一个 | 杨氏和冯氏[gydF4y2B一个 |
MCDO,合奏,TWDgydF4y2B一个米gydF4y2B一个 | 皮肤癌gydF4y2B一个 | 相机gydF4y2B一个 | ResNet-152, Inception- ResNet-V2, DenseNet-201, MobileNet-V2gydF4y2B一个 | 熵,AUROCgydF4y2B一个 | 公众(Kaggle竞赛,ISIC数据集)gydF4y2B一个 | 没有gydF4y2B一个 | Abdar等[gydF4y2B一个 |
MCDO,合奏,其他gydF4y2B一个 | 肺gydF4y2B一个 | x射线gydF4y2B一个 | WideResNetgydF4y2B一个 | AUROC, AUPRCgydF4y2B一个 | 公共gydF4y2B一个 | 没有gydF4y2B一个 | Berger等[gydF4y2B一个 |
全科医生gydF4y2B一个 | 眼底图像显示的糖尿病视网膜病变gydF4y2B一个 | 相机gydF4y2B一个 | Inception-V3gydF4y2B一个 | AUROCgydF4y2B一个 | 公众(Kaggle比赛)gydF4y2B一个 | 是的gydF4y2B一个 | 托莱多-科特斯等[gydF4y2B一个 |
联盟gydF4y2B一个ngydF4y2B一个+集合体gydF4y2B一个 | 胸部gydF4y2B一个 | x射线gydF4y2B一个 | densenet - 121gydF4y2B一个 | AUROCgydF4y2B一个 | 公共gydF4y2B一个 | 没有gydF4y2B一个 | 盖苏等[gydF4y2B一个 |
Edl + MCDOgydF4y2B一个 | 乳腺癌gydF4y2B一个 | 乳房x光检查gydF4y2B一个 | VGGNetgydF4y2B一个 | AUROCgydF4y2B一个 | 公共+私有gydF4y2B一个 | 没有gydF4y2B一个 | Tardy等[gydF4y2B一个 |
联盟gydF4y2B一个 | 胸部,腹部和脑部gydF4y2B一个 | x光,超声波,核磁共振gydF4y2B一个 | densenet - 121gydF4y2B一个 | AUROC,覆盖面或F1得分,覆盖面或AUROCgydF4y2B一个 | 公共gydF4y2B一个 | 没有gydF4y2B一个 | 盖苏等[gydF4y2B一个 |
TSgydF4y2B一个ogydF4y2B一个, MCDOgydF4y2B一个 | 息肉gydF4y2B一个 | 结肠镜检查(相机)gydF4y2B一个 | densenet resnet - 101 - 121gydF4y2B一个 | ECE,预测熵,预测方差gydF4y2B一个 | 公共+私有gydF4y2B一个 | 没有gydF4y2B一个 | Carneiro等[gydF4y2B一个 |
TS, DCAgydF4y2B一个pgydF4y2B一个 | 头部CT,乳房x光,胸部x光,组织学gydF4y2B一个 | 多通道gydF4y2B一个 | AlexNet,gydF4y2B一个 |
ECEgydF4y2B一个 | 公共gydF4y2B一个 | 没有gydF4y2B一个 | Liang等[gydF4y2B一个 |
TTAgydF4y2B一个问gydF4y2B一个 | 眼底图像显示的糖尿病视网膜病变gydF4y2B一个 | 相机gydF4y2B一个 | ResNet-50gydF4y2B一个 | 不确定度或密度,保留数据或AUROCgydF4y2B一个 | 公众(Kaggle比赛)gydF4y2B一个 | 是的gydF4y2B一个 | 艾汉和贝伦斯[gydF4y2B一个 |
TTA,gydF4y2B一个 |
皮肤癌gydF4y2B一个 | 相机gydF4y2B一个 | ResNet-50gydF4y2B一个 | ECEgydF4y2B一个 | 私人(31,000张注释图像)gydF4y2B一个 | 没有gydF4y2B一个 | Jensen等[gydF4y2B一个 |
Tta + MCDOgydF4y2B一个 | 皮肤癌gydF4y2B一个 | 相机gydF4y2B一个 | Efficient-Net-B0gydF4y2B一个 | 预测熵,预测方差,巴塔查里亚系数,保留数据或准确性gydF4y2B一个 | 公共(ISIC数据集)gydF4y2B一个 | 没有gydF4y2B一个 | Combalia等[gydF4y2B一个 |
TTA, TS,合奏gydF4y2B一个 | 眼底图像显示的糖尿病视网膜病变gydF4y2B一个 | 相机gydF4y2B一个 | 修改ResNetgydF4y2B一个 | 可靠性图,AECEgydF4y2B一个年代gydF4y2B一个,保留数据或AUROCgydF4y2B一个 | 公众(Kaggle比赛)gydF4y2B一个 | 是的gydF4y2B一个 | Ayhan等[gydF4y2B一个 |
一个gydF4y2B一个蒙特卡洛辍学生。gydF4y2B一个
bgydF4y2B一个GP:高斯过程。gydF4y2B一个
cgydF4y2B一个CNN:卷积神经网络。gydF4y2B一个
dgydF4y2B一个SVI:随机变分推理。gydF4y2B一个
egydF4y2B一个MRI:磁共振成像。gydF4y2B一个
fgydF4y2B一个AUROC:受者工作曲线下的面积。gydF4y2B一个
ggydF4y2B一个DUQ:确定性不确定性量化。gydF4y2B一个
hgydF4y2B一个平均场变分推理。gydF4y2B一个
我gydF4y2B一个ROC:接受者工作曲线。gydF4y2B一个
jgydF4y2B一个ECE:预期校准误差。gydF4y2B一个
kgydF4y2B一个AUPRC:精确召回曲线下面积。gydF4y2B一个
lgydF4y2B一个CT:计算机断层扫描。gydF4y2B一个
米gydF4y2B一个三向决策理论。gydF4y2B一个
ngydF4y2B一个EDL:证据深度学习。gydF4y2B一个
ogydF4y2B一个TS:温标。gydF4y2B一个
pgydF4y2B一个DCA:置信度与准确度之差。gydF4y2B一个
问gydF4y2B一个TTA:测试时数据增强。gydF4y2B一个
rgydF4y2B一个MCBN:蒙特卡罗批规范。gydF4y2B一个
年代gydF4y2B一个AECE:自适应预期校准误差。gydF4y2B一个
我们纳入的第一个工作是Leibig等人的研究[gydF4y2B一个
Laves等人[gydF4y2B一个
Mobiny等[gydF4y2B一个
Herzog等人的另一项研究[gydF4y2B一个
在另外两篇已发表的著作中,Caldéron-Ramírez等[gydF4y2B一个
另一组研究将MCDO与Deep Ensembles(进一步简称为Ensembles)进行了比较,并部分与其他方法进行了比较。Filos等[gydF4y2B一个
Linmans等[gydF4y2B一个
Thagaard等[gydF4y2B一个
在另一部作品中,杨和芬斯[gydF4y2B一个
Abdar等[gydF4y2B一个
在另一项研究中,Berger等[gydF4y2B一个
在介绍了几个专注于基于抽样的不确定性估计方法的工作之后,我们现在将研究直接应用于网络分类输出来估计不确定性的工作。托莱多-科特萨斯等人的研究就是一个例子[gydF4y2B一个
一系列其他工作应用EDL来估计不确定性。在他们的第一部作品中,盖苏等人[gydF4y2B一个
相比之下,Tardy等[gydF4y2B一个
我们纳入的两个作品将TS应用于医学图像分类任务。Carneiro等[gydF4y2B一个
Liang等[gydF4y2B一个
TTA的概念是由Ayhan和Behrens [gydF4y2B一个
Jensen等人的另一项研究[gydF4y2B一个
Combalia等[gydF4y2B一个
在他们最初工作的后续研究中,Ayhan等人[gydF4y2B一个
通过对文献的回顾,我们对医学图像分类领域中最常用的不确定度估计方法进行了综述。我们发现基于采样的方法MCDO和Deep Ensembles是最常用的方法。使用基于抽样的方法,可以计算预测的分布,并从那里确定不确定性度量,通常以预测熵或预测方差的形式。这些措施有助于识别神经网络对其预测不确定的样本。gydF4y2B一个
除了基于采样的不确定度评估外,我们还观察到分析神经网络校准的评估。根据可靠性图和ECE进行校准评估,以确定神经网络的输出概率是否代表预测正确的实际可能性。在关于神经网络标定的原论文[gydF4y2B一个
我们还观察到,结合不确定性估计方法可以改善结果。这适用于组合Ensembles和MCDO [gydF4y2B一个
通过呈现保留数据与精度曲线,一些工作[gydF4y2B一个
人工智能gydF4y2B一个
精确召回曲线下面积gydF4y2B一个
接收器工作曲线下的面积gydF4y2B一个
卷积神经网络gydF4y2B一个
信心和准确性的区别gydF4y2B一个
预期校准误差gydF4y2B一个
证据深度学习gydF4y2B一个
高斯过程gydF4y2B一个
蒙特卡洛辍学gydF4y2B一个
平均场变分推理gydF4y2B一个
磁共振成像gydF4y2B一个
out-of-distributiongydF4y2B一个
系统评价和荟萃分析的首选报告项目gydF4y2B一个
随机变分推理gydF4y2B一个
温度定标gydF4y2B一个
测试时数据增强gydF4y2B一个
这项研究由德国巴登州
AK, AH和TJB负责概念和设计。AK和KH负责研究选择。HM, EKH, JNK, SF和CvK对稿件进行了严格的修改,并提供了宝贵的反馈。gydF4y2B一个
TJB是海德堡智能健康有限公司(Handschuhsheimer Landstr. 9/1, 69120 Heidelberg, Germany, https://smarthealth.de)的所有者,该公司开发远程医疗移动应用程序(如AppDoc;https://online-hautarzt.net和Intimarzt;https://intimarzt.de),在提交的作品之外。gydF4y2B一个