发表在9卷,第9号(2021): 9月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/28776,首次出版
在临床放射学实践中开发和部署机器学习模型的关键技术考虑

在临床放射学实践中开发和部署机器学习模型的关键技术考虑

在临床放射学实践中开发和部署机器学习模型的关键技术考虑

的观点

1印度浦那的DeepTek公司

2帕蒂尔大学,印度浦那

*所有作者贡献均等

通讯作者:

Manish Gawali, BE

DeepTek公司

怡达创新中心二楼

班纳市帕洛德农场班纳路3号

浦那(411045

印度

电话:91 72760 60080

电子邮件:manish.gawali@deeptek.ai


近年来,利用机器学习开发智能软件工具来解释放射学图像已经引起了广泛的关注。然而,这些模型在临床实践中的发展、部署和最终采用仍然充满挑战。在本文中,我们提出了机器学习研究人员必须认识和解决的关键考虑因素列表,以使他们的模型在实践中准确、健壮和可用。我们讨论了训练数据不足、分散的数据集、注释的高成本、模糊的基础真理、类表示的不平衡、不对称的错误分类成本、相关的性能指标、模型到未见数据集的泛化、模型衰减、对抗性攻击、可解释性、公平性和偏见以及临床验证。我们将描述每个考虑因素,并确定用于解决这些问题的技术。虽然这些技术已经在之前的研究中讨论过,但通过在医学成像的背景下对它们进行新的检查,并以清单的形式将它们汇编起来,我们希望使研究人员、软件开发人员、放射科医生和其他利益相关者更容易使用它们。

中国生物医学工程学报;2011;9(9):888 - 888

doi: 10.2196/28776

关键字



尽管放射成像已成为诊断医学中不可或缺的工具,但全世界仍缺乏合格的放射科医生来阅读、解释和报告这些图像[12]。图像量的增长速度超过了放射科医生的数量。由于人的疲劳、不可接受的报告延迟以及放射科医生的压力和倦怠,导致高工作量导致诊断错误。另一方面,人工智能(AI)和机器学习模型在医学图像的自动评估中表现出色[3.-5]。在这种情况下,医院越来越倾向于采用计算机辅助检测技术来处理扫描。这些技术在提高诊断准确性、缩短报告时间和提高放射科医生的工作效率方面显示出相当大的希望。

监督式机器学习是机器学习最常见的形式,它分为两个阶段。在第一阶段,算法以软件的形式实现,读取由图像及其相应标签组成的训练数据集。它处理这些数据,从中提取模式,并学习一个将输入图像映射到相应标签的函数。将学习到的映射函数与提取的模式一起以训练模型的形式进行数学表示。这叫做培训阶段。在第二阶段,称为推理阶段,训练后的模型用于读取输入图像并进行预测。人工神经网络是一类机器学习算法;具有多层的人工神经网络称为深度神经网络。在文献中,深度学习、人工智能和人工神经网络这三个术语往往可以互换使用。在本文中,我们使用机器学习除了传统的机器学习算法,如线性回归、支持向量机、决策树和随机森林,广义地指前面提到的所有术语。

放射学机器学习模型的开发涉及许多挑战。高质量的训练数据对于良好的模型性能至关重要[6但很难获得。可用的数据可能缺乏数量或多样性。可能分散在多家医院。即使图像数据是可用的,它们也可能没有被标记。放射学扫描存在高度的解读差异,即2个或更多的放射科医生对数据的标记不一致[78];这可能导致地面真值标签中的噪音或不确定性。目标类别的分布可能严重偏斜,特别是对于罕见的病理。这种班级代表性的不平衡往往伴随着班级之间不平等的错误分类成本。在处理不平衡的数据集时必须小心,这有时需要使用特殊的性能度量[9]。在一家医院的数据上运行良好的模型可能在另一家医院的数据上表现不佳[10]。类似地,在医院实践中部署的模型在同一家医院的性能可能会逐渐衰减[11]。机器学习模型已被证明容易受到恶意利用和攻击[12-14]。为了支持放射科医生的采用,部署的模型应该能够解释他们的决定[15],他们不应该基于性别、种族、年龄、收入等歧视病人[16]。

本研究结构简单。在关键考虑因素部分,我们列举了机器学习研究人员应该承认和解决的关键考虑因素。对于每一项考虑,我们都描述了共同的挑战及其重要性,然后提出克服这些挑战的解决方案。在结论部分,我们讨论了阻碍在临床放射学实践中采用机器学习的其他主要限制。


训练数据不足

机器学习模型需要大量数据,它们的性能在很大程度上取决于用于训练它们的数据的特征[6]。训练集的大小对模型的性能有直接而显著的影响。然而,训练数据的异质性和多样性影响了模型推广到未知数据源的能力[17]。为了开发强大的机器学习模型,研究人员需要访问大型医疗数据集,这些数据集可以充分代表人口特征(如年龄、性别、种族和医疗条件)和成像特征(如设备制造商、图像捕获设置和患者姿势)方面的数据多样性。医学成像中大多数可用的数据集不符合这些要求[18-20.]。由于许多危急情况的发生率很低,因此可获得的数据很少。使用这些稀少的数据来诊断罕见疾病的机器学习模型在实践中表现不佳,即使它们在回顾性评估中表现良好。

已经提出了几种方法来处理训练模型的数据不足。包括几何变换和色彩空间变换在内的数据增强技术可以增加训练数据的数量和种类[21]。生成对抗网络在生成罕见疾病的合成图像方面取得了成功,这可以进一步用于模型训练[22]。尽管这些技术允许通过人为地增加数据集中的变化来在稀缺数据上训练模型,但它们不能替代高质量的数据。

分散的数据集

许多医疗数据集自然分布在连接到不同机构拥有的网络的多个存储设备上。在传统的机器学习设置中,这些数据集需要在训练模型之前整合到单个存储库中。跨网络移动大量数据带来了一些后勤和法律挑战[23]。政府的政策,例如《一般保障资料规例》[24]、《健康保险流通与责任法案》[25],以及《新加坡个人资料保护法》[26也规定了对数据跨境共享和移动的限制。

保护隐私的分布式学习技术,如联邦学习[27]和分步学习[28使机器学习模型能够在多个客户端站点的分散数据集上进行训练,而不会移动数据并损害隐私。然而,实施这些技术需要额外的管理费用,这可能使练习变得不可行。这些开销包括开发支持这些技术的软件的高成本,所需的高网络通信带宽,在多个站点部署它的编排工作,以及可能降低的预测模型的性能[29]。联邦学习为所有客户机生成一个全局共享模型,从而导致这样一种情况:对于某些客户机,在其私有数据上训练的本地模型比全局共享模型表现得更好。在这种情况下,可能需要额外的个性化技术来为每个客户单独微调全局模型[30.]。

注释的高成本

监督式机器学习需要对放射学图像进行注释,然后才能用于训练模型。图像级注释将每个图像分类为一个或多个类,而区域级注释突出显示图像中的区域并将每个区域分类为一个或多个类。由于模型的预测性能直接受到注释质量的影响,因此数据必须由合格的放射科医生或医疗从业人员进行注释[31]。在许多情况下,这使得注释过程的成本过高。

使用自然语言处理(NLP)技术通过从放射学文本报告中提取标签来自动注释图像已经做了一些努力[32-34]。半监督方法可用于少量标记数据和大量未标记数据的情况[3536]。由于手工标注成本高,可以考虑采用基于人工智能的自动图像标注技术[37]。

模棱两可的基础真理

由于医院数据集通常包含带有文本报告的图像,因此许多项目都是通过使用NLP技术自动使用报告对图像进行注释来启动的。然而,放射学报告在其综合性、风格、语言和格式上差异很大[38]。即使最先进的NLP能够准确地从文本报告中提取所有的发现,报告本身也可能不会提到所有的发现。Olatunji等[39显示放射科医生在图像中看到的与他们在报告中提到的存在很大差异;报告放射科医生通常只记录那些与直接临床背景相关的发现,很可能错过报告不可操作或边缘性的发现。

放射学图像存在显著的解读差异,2个或更多的专家可能对扫描结果持不同意见[7840-43]。Sakurada等[44例如,在胸片上评估不同病理时,报告的解读器κ值较低,范围从0.24到0.63。在实践中,注释工作流程通常使用单个阅读器来为图像分配地面真值标签。在此基础上的改进包括吸引多个独立读者,并将他们的多数投票视为基本事实标签。然而,单一读者或多数投票方法可能会错过标记具有挑战性但重要的发现。

采用多阶段评审可减低这种风险[45]或专家裁决[46来创造高质量的标签。Majkowska等[46]显示,在评估胸片时,首次独立阅读后,放射科医生的共识提高到96.8%,而评估后的共识为41.8%。Raykar等[47提出了一种概率方法来确定隐藏的从多个放射科医生分配的标签中获得基本事实,并证明这种方法优于多数投票。在一些临床环境中,放射学成像在进行后续确认测试之前用于初始筛查。例如,在随后进行计算机断层扫描、实验室检查或活检之前,胸部x射线扫描可作为一线检查。这些后续试验的数据,如果可用,应用于验证和纠正分配给筛选试验图像的标签。在人为标记的真实情况是嘈杂或模糊的情况下,开发一个过程来减少可变性和提高标签质量可能会产生比试图通过其他方式提高原始标签上的模型性能更好的模型。

班级代表性失衡

当所有的标签类在训练数据集中没有被平等地表示时,就会出现类不平衡[48]。在为医疗数据集构建二元分类器时,这是一种常见的情况正常的目标异常不存在的例子比目标异常不存在的例子多出许多倍不正常的它存在的例子。由于机器学习模型通常是通过优化所有训练样本的损失函数来训练的,因此训练后的模型倾向于支持多数类而不是少数类。研究者在一些研究中实证地评估了类别不平衡对分类绩效的不利影响[949-53]。

类不平衡可以在数据级别或算法级别处理。重采样策略可以通过对多数类过采样或对少数类过采样来解决训练数据中的不平衡问题。存在许多对这些方法的比较评价,有时得出相互矛盾的结论。Drummond等[54,例如,认为欠采样比过采样效果更好,而巴蒂斯塔等人[55]报告了使用过采样的优越性能。然而,我们提醒读者不要草率地归纳,并注意到这些比较高度依赖于数据集、机器学习算法、使用的抽样技术和实验参数。Chawla等[56]提出了合成少数派过采样技术,这是一种生成合成样例来平衡数据集的技术,并表明合成少数派过采样技术与欠采样相结合的效果优于单纯的欠采样或过采样。类似地,过采样也可以使用几何增强、色彩空间增强或生成模型来生成合成图像。示例数量的不平衡也可以在算法层面上使用诸如单类分类、离群值或异常检测、正则化集成和自定义损失函数等方法来解决[957-60]。

不对称错误分类成本

标准的机器学习设置假设类之间的所有错误分类是相等的,并且会产生相同的惩罚。这一假设并不适用于许多医学成像问题。例如,分类a的成本正常的扫描的不正常的可能与分类成本有很大不同不正常的扫描的正常的

分类问题的这种不对称性质可以在部署时或开发期间处理。训练后的模型可以根据部署时的要求进行调整,以获得更高的灵敏度或特异性。或者,错误分类惩罚的变化可以表示为代价矩阵,其中每个元素C(i,j)表示将类i的示例错误分类为类j的惩罚。然后可以通过最小化由不对称损失函数定义的总代价来训练模型。有关详情,请参阅有关成本敏感型学习的文献[96162]。

有关服务表现措施

机器学习研究人员和实践者往往忽略了在不平衡数据集和不对称错误分类成本的情况下如何评估模型性能的问题。大多数二元分类模型产生连续值输出分数。使用截止阈值将该分数转换为离散的二进制标签。由于其简单性,很容易使用准确度(定义为预测正确的百分比)作为性能度量。然而,在不平衡数据集的情况下,准确性是无效的,并且提供了分类器区分两类的能力的不完整且经常具有误导性的图像[6364]。

使用两种或两种以上的度量,如灵敏度、特异性和精度,可以更好地描述分类器的判别性能[65]。然而,这些措施依赖于前面提到的截止阈值。此外,设置阈值的决定通常不是由技术决定的,而是由业务或领域关注决定的。通过考虑跨不同操作阈值的多个性能度量来比较两种模型是具有挑战性的。另一方面,接收器工作特性曲线捕获了所有阈值工作点的模型性能。因此,接收者工作特征曲线(AUROC)下的面积作为一个单一的数值分数,表示模型在所有工作阈值点上的性能。这使得AUROC成为报告机器学习模型分类性能的选择指标。不幸的是,在处理不平衡的数据集时,AUROC也可能具有欺骗性,并且可能提供对性能过于乐观的看法[9]。当数据集不平衡时,精确召回率曲线及其下的面积更适合描述分类性能[6667]。Drummond和Holte提出的成本曲线描述了不对称错误分类成本和类别分布的分类性能[6869]。表1显示了由于不平衡的数据集,准确性是如何被误导的。

表1。举例说明在不平衡数据集的情况下,准确性是如何被误导的。

预测为负 预测是积极的 总计
实际负 80 10 90
实际积极 5 5 10
总计 85 15 One hundred.

在前面提到的混淆矩阵中,100个测试示例中,90个为负,10个为正。分类器预测其中85个为负,15个为正。该方法的准确度为0.85,特异性为0.89。然而,当我们考虑0.50的低灵敏度和0.33的精度时,就可以看到完整的画面。

模型对未知数据集的泛化

机器学习模型通常在与训练集相同来源的保留集上进行评估[70]。可用的数据分为两部分。一部分用于训练和验证模型。第二部分称为测试集或保留集,用于估计部署时训练模型的最终性能。基本前提是,用于训练模型的数据代表了模型在临床使用过程中会遇到的数据。这一假设在实践中经常被违背,这使得保留集的性能成为临床部署中未来性能的不可靠指标。

对不同患者群体的模型泛化能力差是在医疗保健中采用人工智能和机器学习的最大障碍之一。泛化差的一个原因是来自训练站点和部署站点的图像之间的图像特征的差异。这种变化,也称为数据集移位,可能由于医院程序、设备制造商、图像采集参数、疾病表现、患者群体等方面的差异而发生。由于数据集的变化,使用一家医院的数据训练的模型在使用另一家医院的数据时可能表现不佳[71]。我们在这里注意到,这种无法推广到来自未知来源的数据集的问题与过拟合的问题不同,在过拟合问题中,模型即使在来自相同来源的测试集上也表现出较差的性能。学习不相关的混杂因素而不是相关的特征是模型无法推广到未知来源数据的另一个原因。机器学习模型因利用训练数据中的混杂因素而臭名昭著。例如,Zech等[72[]表明,根据来自两家医院的数据训练的肺炎分类模型学会了利用两家医院患病率之间的差异,而不是相关的视觉特征。

数据增强可以通过增加训练集的变化来提高模型的泛化[73]。图像处理技术,包括标准化、规范化、重定向、配准和直方图匹配,可用于协调来自不同来源的图像并消除域偏差。然而,Glocker等人[74表明,即使使用最先进的图像预处理管道,这些协调技术也无法消除扫描仪特定的偏见,机器学习模型很容易区分不同来源的数据。

领域自适应技术可以通过缩小域不变特征空间中源域和目标域之间的差距来将模型微调到新的目标域。75-79]。另一方面,领域泛化技术试图训练只对与分类任务相关的特征敏感,而对区分领域的混淆特征不敏感的模型[80-85]。

衰变模型

模型衰减是指已部署的机器学习模型的性能随着时间的推移而恶化的现象[11]。监督机器学习算法从训练数据中提取模式,以学习独立输入变量和依赖目标变量之间的映射。这个过程包含了一个隐含的假设,即部署中遇到的数据是固定的,不会随着时间的推移而改变;由于医院工作流程、成像设备、患者群体、不断发展的人工智能解决方案的采用等方面的变化,这一假设在实践中经常被违反。

模型衰减是由于基础数据的变化而发生的。这些变化大致可分为三种类型:(1)协变量转变当独立输入变量的分布发生变化时(例如,人口的平均年龄随着时间的推移而增加);(2)先验概率偏移当相关目标变量的分布发生变化时(例如,目标人群中特定疾病的流行可能因季节性或流行病而发生变化);和(3)概念漂移当自变量和因变量之间的关系发生变化时(例如,医院诊断方案的变化或放射科医生对哪些视觉表现应该或不应该被认为是病理指示的解释发生变化)。这些变化可以是突然的、渐进的或循环的。

检测模型衰减需要针对人工标记的数据子样本连续监视部署时性能。如果性能低于预定的阈值,则会触发警报,并使用最新的数据重新训练或微调模型。这种再培训也可以作为例行维护活动定期进行。要了解更多细节,包括理解模型衰减的理论框架或实际解决方案,读者可以参考其他评论[1186-89]。

对手的攻击

通过故意在原始图像中注入扰动来构造一个对抗性示例,以欺骗模型对该图像的标签进行错误分类[12]。机器学习模型很容易受到使用这种对抗性例子的操纵[9091]。数据投毒攻击[13]在训练数据中引入对抗示例来操纵正在开发的模型的诊断。另一方面,逃避攻击[14在部署过程中使用对抗性示例来影响预测。医疗保健是一个巨大的经济体,在不久的将来,许多关于诊断、报销和保险的决定可能会由算法管理或辅助。因此,这些漏洞的发现引起了人们对机器学习模型在临床实践中的安全性和可用性的迫切关注。

Qayyum等[92]提供了针对对抗性攻击的防御技术的详细分类,将它们分为三大类:(1)重构训练或测试数据,使其更难以操纵[9093-96[2]修改模型,使其对对抗性示例更具弹性[97-101],以及(3)使用辅助模型或集成来检测和中和对抗性示例[102-106]。对抗性攻击及其对策是一个不断发展的研究领域,在这方面也有很好的综述。107-109]。

Explainability

神经网络发现变量之间隐藏关系并利用它们进行预测的能力受到一个缺点的制约:神经网络做出决定的确切过程对人类来说是不清楚的。这就是为什么神经网络有时被称为黑匣子,其内部工作原理无法观察到。在我们不知道机器如何做出决策的情况下,我们能在多大程度上把决策委托给机器?这是一个阻碍许多行业采用算法的关键问题,包括自动驾驶汽车、法律、金融等行业。

算法的可解释性在医疗领域尤为重要,因为该领域的风险很高,而且容易引发诉讼。在放射学的背景下,可以通过使用定位模型来提高可解释性,该模型突出了扫描中怀疑包含异常的感兴趣区域,而不是仅指示异常存在或不存在的分类模型。然而,本地化模型的开发还需要训练数据具有边界框或自由格式蒙版形式的基于区域的注释。如果基于区域的注释不可用,显著性地图[110]和可解释性框架[111可以用来识别图像中最有助于特定决策的区域。提高用户对模型信任的另一种方法是在预测之外预测置信度分数。例如,与其仅仅陈述预测“结核病的概率:75%”,系统还应该陈述模型的置信度“结核病的概率:75%,对该预测的置信度:低”。使用预测模型来自主做出决策的部署设置比使用模型来指导做出最终决策的人的设置需要更严格的可解释性条件。Buhrmester等人对计算机视觉领域的解释器进行了全面分析[112]。

有人呼吁将人工智能和机器学习的使用限制在算法决策影响人类生活的领域中基于规则的系统中[113]。这些系统是透明的,可以将输入和输出之间的关系作为人类可以理解的一系列规则进行跟踪。我们发现这种方法存在两个问题。首先,使用神经网络的主要优点之一是它们可以模拟复杂的关系人类无法理解这正是它们如此有效的原因。其次,使决策系统透明和可解释也使它们容易受到恶意攻击。透明的基于规则的决策方法可以是黑客攻击游戏舞台,或者比黑盒系统更容易被利用[114115]。

公平与偏见

算法系统在指导影响向患者提供医疗保健的决策方面发挥着关键作用。因此,希望这些系统不存在社会偏见,其决定是公平和公正的。不幸的是,许多现有的数据集[1843反映了它们所代表的社会的偏见[116],很难检测和消除训练数据中固有的偏见。Obermeyer等[16例如,一个广泛使用的算法系统显示出对黑人患者的种族偏见,这使有资格获得额外护理的黑人患者数量减少了一半以上。

原则上,如果一个预测模型没有基于性别、种族、残疾和收入等敏感变量对患者进行歧视,那么它就被认为是公平的。然而,将这个看似简单的原则转化为实践是一个具有挑战性的问题。研究人员已经开发了许多公平的数学定义和实现它们的技术[117]。例如,一种技术在训练模型时从输入中排除敏感变量。另一种技术是调整模型,以便在敏感变量定义的所有组中显示与通过灵敏度、特异性等衡量的性能水平相同的性能水平。科贝特-迪维斯和高尔[118[]表明,尽管这些技术很有吸引力,但它们在统计上存在显著的局限性,可能对它们原本要保护的群体产生不利影响。请等人[119]显示了公平的不同定义是如何互不相容的,一个遵循一个定义的模型可能会违反另一个同样有效的定义。

算法偏见和公平是机器学习、公共政策、法律和伦理交叉领域不断发展的研究领域。我们相信公平本身不是一个技术问题,而是一个社会问题。强迫技术解决这个问题可能会导致自动化系统在某些武断的公平定义中打对了正确的标签,但最终会在技术中立的表象下加剧社会不平等和歧视。120]。

临床验证

在应用于临床实践之前,必须对模型的预测性能和临床效用进行全面评估。当一个模型在一个保留集上进行评估时,该保留集是从收集训练数据的相同来源收集的,该评估称为一个内部验证。当一个数据集从看不见的源代码是用来评估模型的,称为评估外部验证。如本节前面所述模型对未知数据集的泛化,缺乏对未知数据源的泛化是在实践中采用机器学习的最大挑战之一。尽管如此,只有一小部分已发表的研究报告了外部验证的结果[121]。Mahajan等[122]提供了一些例子来提倡在部署之前对模型进行独立的外部验证,并描述了一个框架。Park等[31]提出了一种评估模型临床表现的方法和清单。TRIPOD声明[123为透明地报告预后和诊断模型的预测模型的开发和验证提供了指南。虽然回顾性评估允许机器学习开发人员在大型和多样化的数据集上测试他们的模型,但前瞻性评估允许在现实环境中进行测试;这两种评价同样重要,应在全面采用之前认真进行。


我们确定了研究人员在开发准确、稳健和可用的机器学习模型方面面临的关键挑战,这些模型可以在临床放射学实践中创造价值。这些挑战和克服它们的技术已经在先前的研究文献中以零碎的方式进行了讨论。在这项研究中,我们在医学影像的背景下重新检查了它们。通过将它们汇编成一份清单,我们希望使这项研究更容易获得。

医院的工作流程和做法因医院而异,即使在同一地区也是如此。这增加了将预测模型无缝集成到医院工作流程中的难度。工作流程的不一致性也提出了一个问题,即在不同的临床环境中,报告的模型性能是否可重复。这是一项正在进行的研究,尚未找到令人满意的解决办法。

诊断机器学习模型的最终目标是改善患者的治疗效果。然而,诊断能力的提高本身并不会导致患者预后的改善[31]。放射诊断只是最终导致治疗的众多步骤之一。因此,必须在工作流程中适当地放置计算机化诊断系统。系统如何将结果呈现给报告的放射科医生以及放射科医生在收到结果后采取的行动是影响系统在实践中有用性的重要因素。

一方面,医学成像是一个广泛而复杂的领域,包括许多成像方式,病理条件和诊断方案。另一方面,机器学习是一个活跃的研究领域,每年都有成千上万的新技术发表。这两个领域的综合多样性以及不统一的医院实践、对数据共享的监管限制以及缺乏标准化的结果报告,使得很难清楚地评估机器学习应用在医学成像中的作用和潜力。我们相信机器学习在提高诊断准确性、缩短报告时间、减少放射科医生工作量并最终改善医疗保健服务方面具有巨大潜力。然而,要实现这一潜力,需要医生、放射科医生、患者、医院管理人员、数据科学家、软件开发人员和其他利益相关者共同努力。

作者的贡献

VK是论文的第一作者,负责构思课题、查阅研究文献、撰写稿件。MG协助调查研究文献和撰写手稿的一些部分。AK是一位资深放射科医生,他从临床放射学的角度验证了手稿,并协助编辑了手稿。

利益冲突

没有宣布。

  1. 皇家学院警告说,放射科医生短缺使病人护理面临风险。中国生物医学工程学报,2017;33(2):563 - 563。[CrossRef] [Medline]
  2. Nakajima Y, Yamada K, Imamura K, Kobayashi K.放射科医生供应和工作量:国际比较——日本放射学院工作组。放射医学杂志,2008;26(8):455-465。[CrossRef] [Medline]
  3. 刘建军,刘建军,刘建军,刘建军。放射学中的人工智能。癌症学报;2018;18(8):500-510 [j]免费全文] [CrossRef] [Medline]
  4. Maretíc裸体刺毛虫:一种新的流行病学和临床实体。Dermatologica 1986; 172(2): 123 - 125。[Medline]
  5. 沈东,吴刚,石辉。深度学习在医学图像分析中的应用。生物医学学报,2017,21 (1):221-248 [j]免费全文] [CrossRef] [Medline]
  6. Foody G, McCulloch MB, Yates WB。训练集大小和组成对人工神经网络分类的影响。[J] .遥感学报,2007,23(9):1707-1723。[CrossRef]
  7. Kerlikowske K, Grady D, Barclay J, Frankel SD, Ominsky SH, Sickles EA等。使用美国放射学会乳房成像报告和数据系统的乳房x线摄影解释的可变性和准确性。中华癌症杂志1998年12月2日;90(23):1801-1809。[CrossRef] [Medline]
  8. Moifo B, Pefura-Yone EW, Nguefack-Tsague G, Gharingam ML, Tapouh JR, Kengne A,等。地方性肺结核地区成人胸部x线异常检测和解释的观察者间差异。中华医学影像杂志2015;05(03):143-149。[CrossRef]
  9. 从不平衡数据中学习。IEEE Trans knowledge Data engineering 2009;21(9):1263-1284。[CrossRef]
  10. Pooch E, Ballester P, Barros R.我们能相信深度学习模型的诊断吗?区域移位对胸片分型的影响。arXiv.org。2020.URL:http://arxiv.org/abs/1909.01940[2021-08-16]访问
  11. 韦德默,库巴特。概念漂移和隐藏语境下的学习。Mach Learn 1996 Apr;23(1):69-101。[CrossRef]
  12. Szegedy C, Zaremba W, Sutskever I, Bruna J, Erhan D, Goodfellow I,等。神经网络有趣的特性。arXiv.org。2014.URL:https://arxiv.org/abs/1312.6199[2021-08-16]访问
  13. Steinhardt J, Koh P, Liang P.数据中毒攻击的认证防御。arXiv.org。2017.URL:https://arxiv.org/abs/1706.03691[2021-08-16]访问
  14. Biggio B, Corona I, Maiorca D.测试时对机器学习的逃避攻击。In:数据库中的机器学习和知识发现。柏林,海德堡:施普林格;2013.
  15. 刘建军,刘建军,刘建军,等。基于深度学习的新型冠状病毒肺炎x射线检测方法。计算机工程学报,2011 (11):559 - 564 [j]免费全文] [CrossRef] [Medline]
  16. Obermeyer Z, Powers B, Vogeli C, Mullainathan S.分析用于管理人口健康的算法中的种族偏见。Science 2019 Oct 25;366(6464):447-453。[CrossRef] [Medline]
  17. 刘建军,刘建军,刘建军,刘建军。基于卷积神经网络的影像图像处理方法研究。中华放射学杂志,2019;29(3):590-606。[CrossRef] [Medline]
  18. 王鑫,彭宇,卢磊,卢忠,Bagheri M, Summers R.胸部X线数据库:医院规模胸片数据库及常见胸腔疾病的弱监督分类和定位基准。见:IEEE计算机视觉与模式识别会议论文集。2017年发表于:IEEE计算机视觉与模式识别会议(CVPR);2017年7月21日至26日;檀香山,嗨,美国。[CrossRef]
  19. Bustos A, Pertusa A, Salinas J, de la iglesia - vay M. PadChest:一个带有多标签注释报告的大型胸部x射线图像数据集。医学影像杂志2020年12月;66:101797。[CrossRef] [Medline]
  20. 彭勇,邓超,彭勇,刘建平,等。MIMIC-CXR-JPG,一个大型的公开的胸片数据库。arXiv.org。2019.URL:http://arxiv.org/abs/1901.07042[2021-08-16]访问
  21. 肖顿C,霍什戈塔尔TM。面向深度学习的图像数据增强研究综述。大数据学报2019年7月6日;6(1):60。[CrossRef]
  22. 李建军,李建军,李建军,等。基于生成对抗网络的医学影像研究进展。医学影像肛门2019年12月58:101552。[CrossRef] [Medline]
  23. 范潘辉,王志强,王志强,等。对公共卫生数据共享障碍的系统审查。中华医学会公共卫生2014年11月05日;14:11 14 [j]免费全文] [CrossRef] [Medline]
  24. 王晓明,王晓明。欧盟数据保护条例(GDPR)。瑞士:施普林格;2017.
  25. 亚那GJ。HIPAA法规——医疗记录隐私的新时代?中华医学杂志,2003,30(5):391 - 391。[CrossRef] [Medline]
  26. 小鸡WB。《新加坡个人数据保护法》和对数据隐私改革未来趋势的评估。计算机法律与安全,2013;29(5):554-575。[CrossRef]
  27. McMahan H, Moore E, Ramage D, Hampson S, Arcas B.基于分散数据的深度网络高效学习。2017年第20届国际人工智能与统计会议论文集,发表于第20届国际人工智能与统计会议;美国佛罗里达州劳德代尔堡;2017年5月9-11日http://proceedings.mlr.press/v54/mcmahan17a.html
  28. Vepakomma P, Gupta O, Swedish T, Raskar R.健康分割学习:不共享原始患者数据的分布式深度学习。arXiv.org。2018.URL:http://arxiv.org/abs/1812.00564[2021-08-16]访问
  29. Gawali M, Suryavanshi S, CS A, Madaan H, Gaikwad A, Bhanu Prakash KN等。医疗保健中保护隐私的分布式深度学习方法比较。在:医学图像理解与分析年会上发表于:医学图像理解与分析年会上;2021年7月12日至14日;牛津,英国。[CrossRef]
  30. 库尔卡尼V,库尔卡尼M,潘特A.联邦学习的个性化技术综述。见:第四届系统、安全和可持续性智能趋势世界会议论文集(world4)。2020年发表于:第四届系统、安全和可持续性智能趋势世界会议(WorldS4);2020年7月27-28日;伦敦,英国。[CrossRef]
  31. 朴诗诗,韩凯。人工智能技术在医学诊断和预测中的临床表现和效果评估方法指南。中华放射学杂志,2018;26(3):800-809。[CrossRef] [Medline]
  32. Zech J, Pain M, Titano J, Badgeley M, Schefflein J, Su A,等。基于自然语言的机器学习模型,用于临床放射学报告的注释。中华放射学杂志,2018;28(2):570-580。[CrossRef] [Medline]
  33. 李建军,张建军,张建军,张建军,等。基于自动标记机和专家注释的放射学报告自动标记。见:自然语言处理(EMNLP)经验方法会议论文集。2020年发表于:自然语言处理(EMNLP)经验方法会议;2020年11月16日至20日;蓬塔卡纳网址:https://aclanthology.org/2020.emnlp-main.117.pdfCrossRef]
  34. 刘建军,刘建军,刘建军,刘建军。放射学中的自然语言处理:系统回顾。中华放射学杂志;2016;29(2):329-343。[CrossRef] [Medline]
  35. Cheplygina V, de Bruijne M, Pluim JP。无监督:医学图像分析中半监督、多实例和迁移学习的调查。医学影像肛门2019年5月;54:280-296。[CrossRef] [Medline]
  36. 李建军,李建军,李建军,李建军。基于图像分割的医学图像分割算法。arXiv.org。2020.URL:http://arxiv.org/abs/2003.08462[2021-08-16]访问
  37. 程强,张强,付鹏,涂晨,李松。图像自动标注技术综述与分析。模式识别2018;07;79:242-259。[CrossRef]
  38. 放射学报道——从海明威到哈尔?《透视影像》2018;9(2):237-246 [j]免费全文] [CrossRef] [Medline]
  39. Olatunji T, Yao L, Covington B, Rhodes A, Upton A.从放射学报告生成医学成像标签的注意事项。arXiv.org。2019.URL:http://arxiv.org/abs/1905.02283[2021-08-16]访问
  40. 引用本文:Rosenkrantz AB, Duszak R, Babb JS, Glover M, Kang SK.影像学二次解释的差异率和临床影响:系统回顾和荟萃分析。中国医学杂志,2018;15(9):1222-1231。[CrossRef] [Medline]
  41. 张建军,张建军,张建军,等。头颈部肿瘤的三维特征分析。[au:] 2011年3月13日;7:32 [免费全文] [CrossRef] [Medline]
  42. 肿瘤描绘:寻求放射治疗准确性的最薄弱环节。中华医学杂志;2008;33(4):136-140 [J]免费全文] [CrossRef] [Medline]
  43. Irvin J, Rajpurkar P, Ko M, Yu Y, Ciurea-Ilcus S, Chute C,等。CheXpert:一个大型胸片数据集,具有不确定度标签和专家比较。中国生物医学工程学报,2019;33(1):590-597。[CrossRef]
  44. 张建平,张建平,张建平,等。两个亚洲国家在评估异常胸部x线检查结果的一致性。中国生物医学工程学报(英文版);2012;12:31 [j]免费全文] [CrossRef] [Medline]
  45. 杨建军,李建军,李建军,等。肺图像数据库联盟(LIDC)和图像数据库资源倡议(IDRI):一个完整的CT扫描肺结节参考数据库。中国医学杂志2011;38(2):915-931 [j]免费全文] [CrossRef] [Medline]
  46. Majkowska A, Mittal S, Steiner DF, Reicher JJ, McKinney SM, Duggan GE,等。用深度学习模型解释胸片:用放射科医师评审的参考标准和人口调整评估进行评估。中华放射学杂志(英文版);2009;29(2):421-431。[CrossRef] [Medline]
  47. 赵丽丽,于绍平,李建平,等。多名专家的监督学习:当每个人都撒一点谎时,谁是值得信任的。第26届国际机器学习会议论文集。2009年发表于:ICML '09:第26届国际机器学习会议;2009年6月14-18日;加拿大魁北克省蒙特利尔。[CrossRef]
  48. 约翰逊JM,霍什戈塔TM。基于班级不平衡的深度学习研究。大数据学报2019年3月19日;6(1):27。[CrossRef]
  49. 刘勇,于鑫,黄建新,安安。基于集成采样和SVM集成的不平衡数据学习。信息学报,2011;47(4):617-631。[CrossRef]
  50. Kim J, Kim J.不平衡训练数据对作者姓名消歧机器学习的影响。科学计量学2018;17(3-4):511-526。[CrossRef]
  51. 陈红,熊峰,吴丹,郑丽,彭安,洪鑫,等。评估数据量和数据集平衡对使用深度学习方法进行人类活动识别的影响。摘自:IEEE生物信息学与生物医学国际会议论文集。2017年发表于:IEEE生物信息学与生物医学国际会议(BIBM);2017年11月13-16日;美国密苏里州堪萨斯城[CrossRef]
  52. 不平衡数据集的数据挖掘:综述。见:数据挖掘和知识发现手册。马萨诸塞州波士顿:b施普林格;2005:853 - 867。
  53. 卢克,卡拉斯科,马丁,de las Heras A类不平衡的影响,基于二进制混淆矩阵的分类性能指标。模式识别2019七月91:216-231。[CrossRef]
  54. C .霍尔特。5、类不平衡和成本敏感性:为什么欠采样胜过过采样。参见:国际机器学习会议论文集(ICML 2003):从不平衡数据集中学习研讨会II。2003年在国际机器学习会议(ICML 2003)上发表:从不平衡数据集学习研讨会II;2003年7月21日;美国华盛顿特区https://www.site.uottawa.ca/~nat/Workshop2003/drummondc.pdf
  55. Batista G, Prati RC, Monard MC.平衡机器学习训练数据的几种方法的行为研究。地球物理学报,2004,6(1):20-29。[CrossRef]
  56. Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP。SMOTE:合成少数派过采样技术。[J]人工智能研究,2002;01;16:31 -357。[CrossRef]
  57. 张建军,张建军,张建军,等。一种基于多重采样的非平衡数据学习方法。计算机学报,2004;20(1):18-36。[CrossRef]
  58. 袁鑫,谢磊,Abouelenien M.基于深度学习的多类不平衡训练数据癌症检测。模式识别2018年5月;77:160-172。[CrossRef]
  59. 魏强,石波,罗军,卡林,任勇,侯荣。基于一类分类的医学图像异常检测。在:2018年医学成像会议:计算机辅助诊断;2018年2月27日;休斯顿,德克萨斯州,美国。[CrossRef]
  60. 李建军,李建军,李建军,等。深度单类分类。2018年第35届国际机器学习会议论文集,发表于:第35届国际机器学习会议;2018年7月10日至15日;瑞典斯德哥尔摩网址:http://proceedings.mlr.press/v80/ruff18a.html
  61. 成本敏感型学习的基础。见:第17届国际人工智能联合会议论文集。2001发表于:IJCAI'01:第17届国际人工智能联合会议;2001年8月4日;美国华盛顿州西雅图。[CrossRef]
  62. 孙勇,黄爱康,王勇。基于代价敏感的不平衡数据分类增强算法。模式识别2007;40(12):3358-3378。[CrossRef]
  63. 当数据集不平衡,成本不相等且未知时的学习。参见:ICML 2003年研讨会论文集:从不平衡数据集中学习II。2003年发表于:ICML 2003研讨会:从不平衡数据集中学习II;二零零三年八月二十一日;华盛顿特区https://www.site.uottawa.ca/~nat/Workshop2003/maloof-icml03-wids.pdf
  64. Joshi M, Kumar V, Agarwal R.稀有类分类的提升算法:比较和改进。2001年发表于:IEEE数据挖掘国际会议;2001年11月29日至12月2日;圣何塞,加州,美国。[CrossRef]
  65. 李建军,李建军。基于分类任务的绩效评价方法研究。信息学报,2009;45(4):427-437。[CrossRef]
  66. 李建军,李建军,李建军,等。准确度召回率与ROC曲线的关系。参见:第23届机器学习国际会议论文集。2006年6月出席:ICML '06:第23届国际机器学习会议;2006年6月25日至29日;美国宾夕法尼亚州匹兹堡。[CrossRef]
  67. Saito T, Rehmsmeier M.在不平衡数据集上评估二元分类器时,精确召回率图比ROC图更具信息性。PLoS One 2015 Mar 4;10(3):e0118432 [j]免费全文] [CrossRef] [Medline]
  68. ROC曲线不能做什么(而成本曲线能做什么)。URL:https://www.site.uottawa.ca/~nat/Courses/csi5388/Presentations/cost_curves.pdf[2021-08-16]访问
  69. 德拉蒙德C,霍尔特RC。成本曲线:一种可视化分类器性能的改进方法。马赫学习2006年5月8日;65(1):95-130。[CrossRef]
  70. 杨建军,杨建军,李建军,等。基于深度学习的x线胸片分类方法研究。科学通报2019年4月23日;9(1):6381 [j]免费全文] [CrossRef] [Medline]
  71. Rajpurkar P, Joshi A, Pareek A, Chen P, Kiani A, Irvin J,等。CheXpedition:研究将胸部x线算法转化为临床环境的泛化挑战。arXiv.org。2020.URL:http://arxiv.org/abs/2002.11379[2021-08-16]访问
  72. Zech JR, Badgeley MA, Liu M, Costa AB, Titano JJ, Oermann EK。深度学习模型检测胸片肺炎的变量泛化性能:一项横断面研究。PLoS Med 2018 Nov 6;15(11):e1002683 [j]免费全文] [CrossRef] [Medline]
  73. Elgendi M, Nasir MU, Tang Q, Smith D, Grenier J, Batte C,等。深度学习网络图像增强检测COVID-19的有效性:几何变换视角。前沿医学(洛桑)2021年3月1日;8:629134 [免费全文] [CrossRef] [Medline]
  74. Glocker B, Robinson R, Castro D, Dou Q, Konukoglu E.基于多点成像数据的机器学习:扫描仪效应影响的实证研究。arXiv.org。2019.URL:http://arxiv.org/abs/1910.04597[2021-08-16]访问
  75. Ben-David S, Blitzer J, Crammer K, Kulesza A, Pereira F, Vaughan JW。从不同领域学习的理论。Mach Learn 2009 Oct 23;79:151-175。[CrossRef]
  76. 王明,邓伟。深度视觉域自适应研究进展。神经网络学报(英文版);2018;31(1):135-153。[CrossRef]
  77. Ganin Y, Ustinova E, Ajakan H, Germain P, Larochelle H, Laviolette F,等。神经网络的域对抗训练。见:计算机视觉应用中的领域自适应。瑞士巴塞尔:b施普林格;9月13日。
  78. 龙明,朱华,王军,Jordan M.残差转移网络的无监督域自适应。arXiv.org。2017.URL:http://arxiv.org/abs/1602.04433[2021-08-16]访问
  79. 李建军,李建军,李建军,等。见:IEEE计算机视觉与模式识别会议论文集。2017年发表于:IEEE计算机视觉与模式识别会议(CVPR);2017年7月21日至26日;檀香山,嗨,美国。[CrossRef]
  80. 窦琦,陈建平,郭建平。基于模型不可知的语义特征学习的领域泛化。arXiv.org。2019.URL:https://arxiv.org/abs/1910.13580[2021-08-16]访问
  81. 李建军,李建军,李建军,李建军。区域分离网络。arXiv.org。2016.URL:http://arxiv.org/abs/1608.06019[2021-08-16]访问
  82. 李宏,潘松,王松,柯安。基于对抗性特征学习的领域泛化。2018年IEEE/CVF计算机视觉与模式识别会议论文集;美国犹他州盐湖城;2018年6月18-23日。[CrossRef]
  83. 王志强,王志强,Schölkopf .基于特征表示的区域泛化方法。2013年第30届国际机器学习会议论文集;2013年6月16-21日;亚特兰大,乔治亚州http://proceedings.mlr.press/v28/muandet13.html
  84. 李建军,吴建军,吴建军,李建军,等。基于数据增强的非可见域泛化算法。参见:第32届神经信息处理系统会议论文集(NeurIPS 2018)。2018年发表于:第32届神经信息处理系统会议(NeurIPS 2018);2018年12月2-8日;加拿大montracimalhttps://papers.nips.cc/paper/2018/file/1d94108e907bb8311d8802b48fd54b4a-Paper.pdf
  85. 彭翔,黄忠,孙翔。基于解纠缠表征的领域不可知论学习。arXiv.org。2019.URL:http://arxiv.org/abs/1904.12347[2021-08-16]访问
  86. Žliobaitė 1 .概念漂移下的学习:概述。arXiv.org。2010.URL:http://arxiv.org/abs/1010.4784[2021-08-16]访问
  87. 王松,闵立林,姚霞。基于概念漂移的网络课堂失衡学习系统研究。神经网络学习系统,2018;29(10):4802-4821。[CrossRef]
  88. Gama J, Žliobaitė I, biet A, Pechenizkiy M, Bouchachia A.概念漂移适应的研究进展。ACM computer survey, 2014;46(4):1-37。[CrossRef]
  89. Žliobaitė I, Pechenizkiy M, Gama J.概念漂移应用综述。见:大数据分析:新社会的新算法。纽约:施普林格International;2016.
  90. Goodfellow I, Shlens J, Szegedy C.对抗性例子的解释和利用。arXiv.org。URL:http://arxiv.org/abs/1412.6572[2021-08-16]访问
  91. Moosavi-Dezfooli S, Fawzi A, Frossard P. DeepFool:一种简单而准确的欺骗深度神经网络的方法。见:IEEE计算机视觉与模式识别会议论文集。2016年发表于:IEEE计算机视觉与模式识别会议(CVPR);2016年6月27-30日;拉斯维加斯,内华达州,美国[CrossRef]
  92. 刘建军,刘建军,刘建军,等。基于机器学习的医疗保健系统研究进展。生物医学工程学报,2016,28 (2):564 - 564 [j]免费全文] [CrossRef]
  93. 黄锐,徐斌,Schuurmans D, Szepesvari C.强对手学习。arXiv.org。2016.URL:http://arxiv.org/abs/1511.03034[2021-08-16]访问
  94. 顾绍平,李建平。一种深度神经网络结构对对抗实例的鲁棒性。arXiv.org。2015.URL:http://arxiv.org/abs/1412.5068[2021-08-16]访问
  95. 徐伟,埃文斯D,齐勇。特征压缩:深度神经网络中对抗样本的检测。摘自:网络与分布式系统安全研讨会论文集(NDSS)。2018网络与分布式系统安全研讨会(NDSS);2018年2月18-21日;圣地亚哥,加州。[CrossRef]
  96. 高军,王斌,林志,徐伟,齐勇。DeepCloak:基于掩蔽的深度神经网络模型对对抗样本的鲁棒性。arXiv.org。2017.URL:http://arxiv.org/abs/1702.06763[2021-08-16]访问
  97. 论文N, McDaniel P, Wu X, Jha S, Swami a .深度神经网络对抗性扰动的防御。摘自:IEEE安全与隐私研讨会论文集。2016年IEEE安全与隐私研讨会(SP);2016年5月22日至26日;圣何塞,加州,美国。[CrossRef]
  98. 卡茨G,巴雷特C, Dill D, Julian K, Kochenderfer M. Reluplex:一种有效的SMT解算器验证深度神经网络。在:计算机辅助验证。瑞士巴塞尔:b施普林格;2017.
  99. 王志强,王志强。基于深度神经网络的可解释性和鲁棒性分析。arXiv.org。2017.URL:http://arxiv.org/abs/1711.09404[2021-08-16]访问
  100. 张建军,张建军,张建军,等。高斯过程混合深度网络的鲁棒性分析。arXiv.org。2017.URL:http://arxiv.org/abs/1707.02476[2021-08-16]访问
  101. 阮丽丽,王思,辛哈。基于学习和掩蔽的安全学习方法。见:安全决策与博弈论。瑞士巴塞尔:施普林格International;2018.
  102. 李建军,李建军,李建军,等。arXiv.org。2017.URL:http://arxiv.org/abs/1702.04267[2021-08-16]访问
  103. 陆俊,李建军,李建军,等。基于安全网络的对抗样本检测与拒绝。参见:IEEE计算机视觉国际会议论文集(ICCV)。2017 IEEE计算机视觉国际会议(ICCV);2017年10月22-29日;意大利威尼斯。[CrossRef]
  104. Gopinath D, Katz G, Pasareanu C, Barrett C. DeepSafe:一种数据驱动的神经网络对抗鲁棒性检测方法。arXiv.org。2020.URL:http://arxiv.org/abs/1710.00486[2021-08-16]访问
  105. tramtror F, Kurakin A, Papernot N, Goodfellow I, Boneh D, McDaniel P.集合对抗训练:攻击与防御。arXiv.org。2020.URL:http://arxiv.org/abs/1705.07204[2021-08-16]访问
  106. Song Y, Kim T, Nowozin S, Ermon S, Kushman N. PixelDefend:利用生成模型来理解和防御对抗性示例。arXiv.org。2018.URL:http://arxiv.org/abs/1710.10766[2021-08-16]访问
  107. Finlayson SG, Bowers JD, Ito J, Zittrain JL, Beam AL, Kohane IS。对医疗机器学习的对抗性攻击。Science 2019 march 22;363(6433):1287-1289 [免费全文] [CrossRef] [Medline]
  108. Chakraborty A, Alam M, Dey V, Chattopadhyay A, Mukhopadhyay D.对抗性攻击和防御:调查。arXiv.org。2018.URL:http://arxiv.org/abs/1810.00069[2021-08-16]访问
  109. Akhtar N, Mian a .计算机视觉中深度学习对抗性攻击的威胁:一项调查。IEEE Access 2018年2月19日;6:14410-14430。[CrossRef]
  110. Selvaraju R, Cogswell M, Das A, Vedantam R, Parikh D, Batra D.基于梯度定位的深度网络视觉解释。参见:IEEE计算机视觉国际会议论文集(ICCV)。2017 IEEE计算机视觉国际会议(ICCV);2017年10月22-29日;意大利威尼斯。[CrossRef]
  111. 李建军,李建军,李建军。“我为什么要相信你?”:解释任何分类器的预测。第22届ACM SIGKDD知识发现与数据挖掘国际会议论文集。2016年8月发表于:KDD '16:第22届ACM SIGKDD知识发现与数据挖掘国际会议;2016年8月13-17日;美国加州旧金山。[CrossRef]
  112. Buhrmester V, m nch D, Arens M.计算机视觉黑箱深度神经网络解释器分析综述。arXiv.org。2019.URL:http://arxiv.org/abs/1911.12116[2021-08-16]访问
  113. Campolo A, Sanfilippo M, Whittaker M, Crawford K. AI, now 2017报告。AI Now, 2017。URL:https://ainowinstitute.org/AI_Now_2017_Report.pdf[2021-08-16]访问
  114. 米莉S,施密特L,德拉甘A,哈特M.基于模型解释的模型重构。提交于:FAT* '19:公平、问责和透明度会议;2019年1月29-31日;美国亚特兰大。[CrossRef]
  115. Shokri R, Strobel M, Zick Y.模型解释的隐私风险。arXiv.org。2021.URL:http://arxiv.org/abs/1907.00164[2021-08-16]访问
  116. Larrazabal AJ, Nieto N, Peterson V, Milone DH, Ferrante E.医学影像数据集性别失衡导致计算机辅助诊断分类器偏差。中国科学d辑[j]; 2009 (6):12592-12594 [j]免费全文] [CrossRef] [Medline]
  117. Verma S, Rubin J.公平定义解释。发表于:FairWare '18:国际软件公平研讨会;2018年5月29日;瑞典哥德堡。[CrossRef]
  118. Corbett-Davies S, Goel S.公平的衡量与错误衡量:对公平机器学习的批判性回顾。arXiv.org。2018.URL:http://arxiv.org/abs/1808.00023[2021-08-16]访问
  119. Pleiss G, Raghavan M, Wu F, Kleinberg J, Weinberger k。第31届国际神经信息处理系统会议论文集。2017年12月发表于:NIPS'17:第31届国际神经信息处理系统会议;2017年12月4日- 9日;美国加州长滩第5684-5693页。[CrossRef]
  120. 本杰明·r,评估风险,自动化种族主义。Science 2019 Oct 25;366(6464):421-422。[CrossRef] [Medline]
  121. Kim DW, Jang HY, Kim KW, Shin Y, Park SH.用于医学图像诊断分析的人工智能算法性能研究的设计特征:来自最近发表论文的结果。中华放射学杂志,2019;20(3):405-410 [J]免费全文] [CrossRef] [Medline]
  122. Mahajan V, Venugopal VK, Murugavel M, Mahajan H.算法审计:与供应商合作验证放射学-人工智能算法-我们是如何做到的。放射学报,2020,27(1):132-135。[CrossRef] [Medline]
  123. Collins GS, Reitsma JB, Altman DG, Moons K.透明报告个体预后或诊断的多变量预测模型(TRIPOD): TRIPOD声明。中国生物医学工程杂志,2015,01;35:551。[CrossRef] [Medline]


人工智能:人工智能
AUROC:接收机工作特性曲线下的面积
NLP:自然语言处理


C·洛维斯编辑;提交15.03.21;V Gupta, G Liu同行评审;对作者的评论17.06.21;收到订正版29.06.21;接受10.07.21;发表09.09.21

版权

©Viraj Kulkarni, Manish Gawali, Amit Kharat。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 2021年9月9日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map