JMIR医学信息学-基于深度学习的人工智能和人类专家在临床诊断中的差异偏差和可变性:回顾性队列和调查研究

原始论文

¹韩国首尔延世大学医学院耳鼻咽喉科

²韩国首尔延世大学医学院人类复杂性与系统科学研究所系统与转化脑科学中心

^3.韩国首尔延世大学医学院核医学系，脑韩国21项目医学研究生院

⁴延世大学医学院急诊医学系，韩国首尔

这些作者的贡献相同

通讯作者:

Hae-Jeong Park博士

系统和转化脑科学中心

人类复杂性与系统科学研究所

延世大学医学院

博彩Yonsei-ro

首尔,03722

大韩民国

电话:82 2 2228 2363

电子邮件:parkhj@yuhs.ac

背景:基于深度学习(DL)的人工智能在医学诊断方面可能与人类专家具有不同的诊断特征。作为一个数据驱动的知识系统，临床世界中的异质人群发病率被认为比临床医生更容易对DL产生偏见。相反，通过经历有限数量的病例，人类专家可能会表现出很大的个体间差异。因此，了解两组如何对给定数据进行不同的分类是在临床应用中合作使用深度学习的必要步骤。

摘要目的:本研究旨在评估和比较计算机和医生在耳内窥镜图像诊断中的临床经验差异，以班级失衡问题为例，指导临床医生使用决策支持系统。

方法:我们使用了2013年1月至2019年6月在韩国首尔Severance医院耳鼻喉科门诊就诊的患者的数字耳内窥镜图像，共获取了22,707张耳内窥镜图像。我们排除了相似的图像，选择7500张耳内窥镜图像进行标记。我们建立了一个基于dl的图像分类模型，将给定的图像分为6类疾病。填充了300个图像的两个测试集:平衡和不平衡测试集。我们纳入了14名临床医生(耳鼻喉科医生和非耳鼻喉科专家，包括全科医生)和13个基于dl的模型。我们使用准确性(总体和每个类别)和kappa统计来比较个体医生和ML模型的结果。

结果:我们的ML模型具有一贯的高准确度(平衡测试集:平均值77.14%，标准差1.83%;不平衡测试集:平均82.03%，SD 3.06%)，与耳鼻喉科相当(平衡测试集:平均71.17%，SD 3.37%;不平衡:平均72.84%，SD 6.41%)，远优于非耳鼻喉科医师(平衡:平均45.63%，SD 7.89%;不平衡:平均44.08%，标准差15.83%)。然而，ML模型存在类不平衡问题(平衡测试集:均值77.14%，标准差1.83%;不平衡测试集:平均值82.03%，标准差3.06%)。数据的增加减轻了这种情况，特别是对于低发病率的疾病类别，但罕见疾病类别的每类别准确率仍然很低。人类医生，尽管受患病率的影响较小，但显示出很高的医生间变异性(ML模型:kappa=0.83, SD 0.02;耳鼻喉科:kappa=0.60, SD 0.07)。

结论:尽管ML模型在耳部疾病分类方面表现出色，但医生和ML模型都有各自的优势。ML模型在只考虑给定的图像并显示对患病率的偏见时具有一致和高的准确性，而人类医生的表现不同，但不会显示对患病率的偏见，并且还可能考虑非图像的额外信息。为了在耳鼻喉科医生短缺的情况下提供最好的患者护理，我们的ML模型可以为具有不同专业知识的临床医生提供合作，只要记住模型只考虑图像，即使在数据增强后也可能偏向于流行疾病。

中国生物医学工程学报;2011;39 (12):33049

doi: 10.2196/33049

关键字

人机合作; 卷积神经网络; 深度学习，班级失衡问题; 耳镜检查; 耳膜; 人工智能; 耳科; 计算机辅助诊断

医学成像中基于深度学习(DL)的机器学习(ML)正在快速发展，以填补专家解释图像的能力与解释图像的需求之间的差距。许多研究[1-6显示了图像分类的性能在准确性方面与医学专家相当或更好的可能性。尽管这些研究取得了令人鼓舞的结果，但DL的特征还没有得到彻底的评估，也没有与人类专家进行比较，特别是在临床实践领域。在医学图像诊断等任务中，问责制是一个重要问题，人类专家和ML模型之间的合作是必要的[1]。为了促进人与机器之间的合作，应该在个人和系统层面明确人类智能(HI)和基于dl的人工智能(AI)的特征。

现实世界诊所中的类别不平衡是数据驱动ML的一大挑战。由于人口固有的不平衡发生率，不同类别的样本数量不同，预计会在训练过程中导致对高事件类别的偏见。

相反，人类医学专家通过经历有限数量的病例进行深入学习，因此对不同规模的类别的偏见较小[7]。然而，临床医生的临床经验不同，每个临床医生都有自己的分类偏见，即对某些疾病进行分类的优势和劣势[8]。由于个人经验引起的偏见，医生可能有很大的个体差异。同时，ML模型在数据量上存在统计偏差，但在不同模型之间表现一致[9]。尽管有一般的推测，但在临床诊断环境中尚未直接评估每一类数据大小的这两种偏差以及由于差异(小样本偏差)经验而导致的个体间差异。

在这项研究中，我们研究了机器学习模型和人类专家在类别不平衡偏差和解释器变异方面的差异特征。为此，我们使用耳内窥镜图像作为耳部和乳突疾病分类的例子。耳部和乳突疾病常见于但不限于东南亚、西太平洋地区和非洲的发展中国家[10]。然而，在许多发展中国家，耳鼻喉科医生短缺，在64%的非洲国家，每百万人中只有不到1名耳鼻喉科医生[11]。因此，初级保健的非耳鼻喉科医生很可能在诊所看到患有这些疾病的患者，他们必须在管理耳部疾病方面发挥作用，特别是在耳鼻喉科医生有限的地区。然而，耳鼻喉科医生容易误诊中耳炎，而中耳炎是耳部疾病的主要组成部分[11-13]。评估耳部疾病包括使用常规耳镜或耳内窥镜进行仔细的病史和体格检查。耳镜检查的初步印象是诊断和治疗的重要途径。

与其他医学领域一样，耳部疾病分类的领域特有挑战之一是前面讨论的类别不平衡问题。这个问题可能影响临床医生和ML模型，但可能对ML模型影响更大。由于耳部诊断是由具有不同专业水平的临床医生进行的，因此在这一领域，个人表现的可变性是显而易见的[14，15]。

为了研究和比较人类医生和ML模型之间的类别不平衡问题的影响以及个体间的变异性，我们评估了三组耳镜图像的诊出率和相互间的可靠性:耳鼻喉科医生(2名专科医生和4名住院医生)、非耳鼻喉科医生(2名家庭医学专家、2名急诊医学专家和5名全科医生)和13个基于卷积神经网络(CNN)的分类模型在平衡和不平衡测试集中，每个测试集包含300张耳镜图像。我们还检查了与人类专家相比，机器中每个类别的流行程度对准确性的依赖关系。为了克服上述类不平衡问题，对基于cnn的分类模型可推广的多种数据增强策略进行了评估。我们还根据疾病的发病率评估了增强策略在提高分类准确性方面的效果。所有这些评估都是通过优化我们以前的自动诊断系统进行的[9]。此外，我们寻求使用我们的分类系统作为虚拟耳鼻喉科医生的可能性，通过比较我们的分类系统和耳鼻喉科医生之间诊断的准确性和可能性来帮助医生。

患者数据的选择和获取

使用了2013年1月至2019年6月在韩国首尔Severance医院耳鼻喉科门诊就诊的患者的数字耳内窥镜图像。共有22,707张耳鼻喉科住院医师、教师或经验丰富的护士使用不同的耳腔内窥镜相机常规拍摄的耳腔内窥镜图像进行了回顾和标记。图像分辨率为640 x 480像素，采用DICOM格式。我们排除了术后状态照片，重复的图像，明显失焦或模糊的图像，以及来自同一患者的随访数据而没有诊断变化的耳内窥镜图像。如果一张图片以稍微不同的角度多次拍摄，我们会积极地排除相似的图像;我们只选择了其中一张图片。结果，选取7500张耳内窥镜图像进行标记。本研究已获得Severance医院机构审查委员会(IRB No . 2019-0467-001)的批准。获得医师参与者的书面知情同意。所有方法都符合《赫尔辛基宣言》。

耳内窥镜图像的分析与标记

耳镜下包含鼓膜和外耳道(EAC)的照片分为6类，以覆盖所有疾病耳内窥镜彩色图谱［16[1]正常鼓膜和EAC，包括愈合的穿孔和鼓膜硬化;(2)肿瘤状况，中耳、耳塞或耳垢嵌塞有肿瘤;(3)中耳炎伴积液;(4)耳膜炎、外耳炎;(5)耳膜穿孔;(6)上阁楼缩回或中耳不张。在内部，有更多的子类，但我们因此将这些子类合并到前面提到的6个类中，因为我们无法获得足够数量的较小子类的样本量。由于诊断系统的目标是在现实世界的诊所中提供适当的治疗策略，因此该标签的构建考虑了所需的治疗和物理发现的相似性。

通常，在一张耳镜图像中可能存在多种病因。例如，顶楼内收伴中耳积液。在这种情况下，根据我们的标记优先级，图像被标记为阁楼收缩。这种优先顺序是由疾病的确定性和可能需要手术决定的。

为了确保基本事实标签的正确性，我们在标签中应用了额外的步骤，因为单个医生的耳镜检查的准确性可能只有75% [17]。首先，所有的图像都由当时的主治医生在三级转诊中心至少有10年的临床经验，通过检查患者电子病历中的诊断来进行双重检查。第二，如果耳内窥镜图像不是微不足道的，即使在审查了医疗记录之后，也会考虑其他测试结果(听力学测试，包括纯音听力学和阻抗听力学，放射学测试，包括计算机断层扫描，磁共振成像)来标记基本事实。最后，如果第一作者在结合医疗记录和附加检查后仍不能同意或对耳内窥镜图像留下适当的印象，则丢弃该图像。使用使用MATLAB2019a (MathWorks Inc .， Natick, MA)构建的内部图形用户界面软件进行手动标记。

基于迁移学习的EAC数据CNN模型的监督训练

使用ImageNet数据库对公共CNN模型进行预训练[18]对1000个自然物体进行分类，作为耳内窥镜图像迁移学习的基础模型。选择帕累托有效模型转移到这一研究领域。他们是ResNets [19[ResNet101, ResNet152]， InceptionV3 [20.]， InceptionV4 [21]、Inception-ResNet-V2 [21]， VGG-19批量规范化[22]， SENet [23]， DenseNet [24]和NASNet [25，26]。通过将每个模型的最后一个完全连接层替换为6个完全连接输出节点的层，对这些模型进行修改，将耳内镜图像分类为6类。对于模型优化，自适应矩估计(ADAM) [27]，批次大小为32。根据一项报告较小批量的优势的研究，没有使用较大的批量[28]。我们用不同的学习率总共训练了20个epoch。最后一层5次的初始学习率为0.01。5个epoch后，进行微调:所有层都训练了7个epoch，具有判别学习率，范围为1x10^－４在最后一层设置为1x10⁶在第一层。之后，我们训练了7个epoch，学习率为1x10⁹在最后一层和3.3 × 10^-10年在其他层。为了防止过拟合，对图像进行了仿射变换。水平翻转，高达20度的旋转，0.8和1.2之间的随机尺度，高达20%的照明变化，以及-0.2和0.2之间的随机对称扭曲，随机应用于每个epoch的概率为75%。使用Pytorch实现模型构建、训练、验证和测试[29]与法泰图书馆[30.]。

不同训练设置下模型准确率的比较

基于训练样本量的模型构建与性能比较

在总计7500张耳内窥镜图像中，在平衡和不平衡两种场景下，遗漏了7200张图像(其中300张互斥图像)进行测试;表1)，分20个时期进行训练。为了最大化训练可用数据，我们将其他测试集的数据纳入训练集;即在平衡测试环境下进行评估时，我们将不平衡测试数据集放入训练集，在不平衡测试环境下进行评估时，我们将不平衡测试数据集放入训练集。

表1。组成训练集和测试集以及标签，按标签优先级排序。

分类	图像数量
分类	培训(n=6900)， n (%)	Test-balanced^一个(n=300)， n (%)	Test-imbalanced^b(n=300)， n (%)
(1)鼓室穿孔	1793 (26.99)	50 (16.77)	51 (17.00)
(2)阁楼收缩/不张	521 (7.56)	50 (16.77)	20 (6.67)
(3)耳膜炎/外耳炎	256 (3.71)	50 (16.77)	15 (5.00)
(4)中耳炎伴积液	506 (7.33)	50 (16.77)	29 (9.67)
(5)肿瘤	285 (4.13)	50 (16.77)	18 (6.00)
(6)正常	3539 (51.29)	50 (16.77)	167 (55.67)

^一个所有的阶级都是平均分配的。

^b类与训练集成比例分布。

我们使用不同的随机种子选择随机图像样本5次，以平抑精度波动。根据训练样本量对性能进行评估，验证较大训练样本量的显著性:10%(720张)、25%(1800张)、50%(3600张)、90%(6480张)、100%(7200张)。

克服标签之间阶级不平衡的策略

由于各种耳部疾病的发病率不同，班级不平衡是不可避免的。为了缓解这一问题，在训练中采用了3种策略:过采样，混合[31]方法，焦损[32]作为损失函数(γ = 1的焦损失)。过采样是通过将较小类别中的图像复制到相当于最大类别的水平，并结合图像的仿射变换来完成的。对正常鼓膜以外的疾病图像进行过采样，以达到当前数据库中正常鼓膜图像的数量。中耳炎伴积液和顶楼内收的图像增加了约6倍。myringitis和肿瘤的图像需要近10倍的过采样。混淆和焦损详细描述在多媒体附录1．

我们测试了8种不同配置(基线，有和没有过采样，焦点损失和混合)的12个模型，总共产生12 x 2 x 2 x 2 = 96个基于cnn的ML模型变体。

平衡和不平衡测试集中机器学习模型的准确度和预测趋势相似性的评价

在对各种基于cnn的ML模型进行微调后，在平衡和不平衡测试场景下评估所有模型的准确性(表1)。第一个，平衡的300个图像集由每个标签的50个图像组成，这与临床设置的发病率不同，但更适合测量准确性。第二个是不平衡的300张图像集，每个标签包含不同数量的图像，这些图像基于其在数据库中的流行程度，这可能代表现实世界诊所，特别是三级转诊医院的疾病比例。此外，使用Fleiss kappa方法评估不同ML模型之间的诊断可能性[33]。kappa (κ)评分解释如下:κ<0为差，0.01-0.20为轻微，0.21-0.40为一般，0.41-0.60为中等，0.61-0.80为相当，0.81-1为几乎完全一致[34]。

人类医生诊断的评估:准确性和可变性

一个由2组300个问题组成的计算机在线问卷，与ML模型的平衡和不平衡测试集(总共600个图像)相同，表1)，将14名参与者分为3组:6名耳鼻喉科医生(2名耳鼻喉科医生，4名耳鼻喉科住院医师)，8名以前接触过耳鼻喉镜的非耳鼻喉科医生(2名急诊医学专家，2名家庭医学专家)和4名全科医生)。获得了所有参与者的知情书面同意。

所有的参与者以同样的顺序回答问卷。如果给定图像中存在不止一种病理，则要求参与者根据与ML模型相同的标记优先级回答。在诊断的同时，参与者被要求对他们的诊断的信心进行评分，从1(不自信)到10(非常自信)。参与者没有被告知该集合是平衡的还是不平衡的，因为它可能提供了对不太常见疾病实体的额外临床怀疑。

使用上述Fleiss kappa方法计算个体群体间的相互一致性[33]。还进行了Spearman相关分析，以检查置信度与诊断准确性之间可能存在的关系，以确定置信度越高，诊断准确性是否越好。

医师与ML模型诊断效能及倾向之比较

所有的答案，以相同的顺序提供，从人类医生和机器学习模型排在一起，比较准确性。我们评估了分类模式的差异，这取决于平衡和不平衡测试集中医生和ML模型之间的类别患病率。我们通过比较kappa值来测量ML模型与人类医生诊断的可能性。我们还比较了医生和ML模型之间的每类准确率、精度、召回率和F1分数。然后，我们使用线性回归分析分析了类别患病率在准确性和预测计数中的差异效应。

训练和测试集

我们使用了来自6个班级的6900张耳内窥镜图像进行训练(表1)。训练数据集不平衡，反映了耳部疾病的患病率。虽然数据集是基于三级转诊中心获得的，因此有丰富的病理病例，但正常类别基本上是常见的。测试环境由两种不同的设置组成:(1)平衡测试集(300张样本图像)，由6个类别组成，每个类别50张图像，不考虑耳部疾病的患病率;(2)不平衡测试集(300张样本)，每个类别与训练数据集成比例分布。图1显示具有代表性的类及其激活热图。分类系统可以集中在鼓膜和eac的重要区域。对于顶楼内收，DL模型聚焦于病理的鼓膜顶楼区域。当eac因中耳或外耳炎症而湿润时，在热图中可见。正常耳积液和中耳积液有相同的感兴趣区域，主要是鼓膜和中耳腔，分类系统正确地描述了这一点。热图显示鼓膜穿孔，以及鼓膜内的中耳肿瘤(图1)。

图1所示。典型类别及其激活热图(grade - cam):(A)顶楼后缩，(B)耳膜炎或外耳炎，(C)正常，(D)中耳炎伴积液，(E)鼓室穿孔，(F)中耳或外耳道肿瘤。

机器学习模型在不同数量训练样本上的性能，类不平衡问题和修改

当使用基线模型(不考虑训练中类别不平衡的调整)进行测试时，不平衡(根据疾病患病率)测试集的总体平均准确率为82.78%。然而，在平衡测试集中，总体准确率为68.69%(机会水平:16.7%)，大大低于不平衡测试数据的82.78%的准确率。为了缓解类不平衡问题，我们使用过采样、混合和焦点丢失重新训练了一个分类模型。我们在平衡测试环境下测试了这些策略的每种组合。在训练阶段应用所有3种策略具有协同效应，在平衡测试集中平均获得8.41%的增益(平均准确率:77.14% vs 68.69%)，而在不平衡测试集中牺牲0.75%。特别是，过采样是普遍有益的(多媒体附录2)。与基线模型相比，增强分类器在样本较少的类别(如阁楼缩回)中获得了更高的每类精度，从而在平衡测试集中获得了更好的整体精度(n=7200;图2;使用基于resnet101的分类器的两个测试集的附加示例结果多媒体附录3)。

图2。根据训练样本和增强的数量，用12种不同的卷积神经网络模型进行训练，并在平衡测试集上进行测试，得到类的每类召回率和总体分类准确率(条形图= 95% CI)。Acc:整体精度;Ar:阁楼缩回、破坏;没有:正常;4:耳膜炎或急性外耳炎;Om:中耳炎伴积液;Tp:鼓室穿孔;屠:中耳道或外耳道肿瘤或耵聍嵌塞。

为了详细探讨分类偏差与训练数据集大小之间的关系，我们比较了在平衡测试环境中测试不同数量训练样本时的分类性能。总体精度随着样本数量的增加而增加。在训练步骤中对类不平衡的调整提高了性能，特别是对于训练样本较少的类(图2)。对于高发生率的类别，通过增强没有显著的收益，因为它们已经达到了精度的平台，更不用说过采样方法为较小的类别合成了更多的图像，以匹配最常见的“正常”类别。然而，随着总训练样本数量的增加，对稀有类别的增强图像(仿射变换)尚未达到饱和精度。

AI与HI在等级准确度和等级间可变性方面的对比

分别评估两组测试的诊断准确性(表S2)多媒体附录4;其他指标包括精度、召回率和F1分数多媒体附录4)。所有参与者，包括预测模型，以相同的顺序评估相同的图像集合，以排除不同问卷布局造成的偏差。耳鼻喉科医生(n=6)在两项平衡上的表现均显著优于非耳鼻喉科医生(n=8)(平均71.17%，SD 3.37% vs平均45.63%，SD 7.90%;Mann-Whitney U = 0;P<.001)和不平衡(平均72.84%，SD 6.41% vs平均44.08%，SD 15.84%;Mann-Whitney U = 0.5;P=.001)测试集。我们微调的基于cnn的ML模型(n=12)在两种不平衡(平均82.03%，SD 3.06% vs平均72.84,SD 6.41%;Mann-Whitney U = 10.50;P= 0.014)和平衡(平均77.14%，SD 1.84% vs平均71.17%，SD 3.37%;Mann-Whitney U = 3;P<.001)，并且在两组测试中都优于非耳鼻喉科医生(图3一个)。

图3。平均(A)总体诊断准确性和(B)间信度的Fleiss广义kappa(误差条= 95% CI);基于resnet152的深度学习模型的预测被假设为人类评分。ENT:耳鼻喉科专家;ENT+ML’:机器学习模型加耳鼻喉科医生;ML:基线机器学习模型;ML’:增强机器学习模型;Non-ENT: nonotolaryngologists;“非耳鼻喉科+ML”:机器学习模型加非耳鼻喉科医生;NS:没有统计学意义。 *P<措施(曼-惠特尼检验:耳鼻喉科与非耳鼻喉科;Wilcoxon匹配对带符号秩检验:ML vs ML’)。

与非耳鼻喉科医生相比，ML模型在所有类别中都具有更好的准确性。与耳鼻喉科医生相比，ML模型在预测正常耳朵、鼓室穿孔和阁楼收缩方面做得更好，这些在训练数据集中更为普遍。预测模型和耳鼻喉科医师对中耳炎伴积液和耳膜炎的诊断率相似。对于肿瘤情况的分类，耳鼻喉科医生在平衡测试集中优于预测模型(表S2)多媒体附录4)。所有医生的总体准确性在平衡和不平衡测试集之间没有显著差异，而两者都增加了(n=12;中位数5.3;P=措施;Wilcoxon配对对带符号秩检验)和基线(n=12;中位数13.3;P<措施;Wilcoxon配对对带符号秩检验)ML模型在不平衡测试集(图3A)。值得注意的是，增强ML模型在平衡测试集中获得了显著的准确性(n=12;中位数8.3;P<措施;Wilcoxon配对对有符号秩检验)在不平衡检验集中没有准确性损失(n=12;中位数0.8;P=陈霞;Wilcoxon配对对有符号秩检验)与未增强的ML模型比较。

在准确率方差方面，ML模型在不同模型之间的预测结果相似，导致SD值较低(1.76%)，远低于耳鼻喉科专家(5.86%)和非耳鼻喉科专家(14.82%)。Fleiss广义kappa作为互译器可靠性度量的结果在图3B.在ML模型之间，评分范围在0.77和0.85之间，表明ML模型之间具有实质性的诊断相似性。2名耳鼻喉科专家的评分为>0.60，所有耳鼻喉科专家和住院医师的评分大多为>0.50，他们之间的评分中等一致。然而，非耳鼻喉科医生之间的差异大多<0.30，这可以解释为这些医生之间的公平一致。ML模型的预测结果更接近耳鼻喉科医生的预测结果，而非耳鼻喉科医生的预测结果，这与耳鼻喉科医生的预测结果相似(图3B; =0.5947, SD 0.05, n=12 vs =0.2966, SD 0.13, n=16;P<措施;曼-惠特尼检验)。

使用4个表现最好的模型(ResNet152、DPN92、InceptionV4和Densenet201)，我们通过在每个分类器中添加和取softmax激活函数之后的最大参数来构建一个集成分类器。使用这种方法，我们能够在平衡数据集中平均获得1.83%，在不平衡数据集中平均获得3.5%，总体精度分别达到80.33%和86.67%(表S2)多媒体附录4)。不同模型的集成分类器在整体精度上优于任何其他单独基于cnn的分类器，并且被证明是一个稳定的最终预测模型。事实上，由于诊断的相似性，合奏在提高整体准确性方面有积极的作用，但同时有限的作用，正如模型之间的高分所表明的那样。

AI与HI在类别流行率和训练数据集大小上的比较

在耳鼻喉科，无论样本量大小，准确率往往是稳定的，而ML模型显示出对流行类别的偏见(图4)。此外，增强方法在小类别(阁楼收放:n=12，中位数15.0，P<措施;中耳炎伴积液:n=12，中位数13.0;P= .005;中耳道或外耳道肿瘤或耵聍嵌塞:n=12，中位数6.0;P= 0.01;耳膜炎或急性外耳炎:n=12，中位数13.0;P<措施;Wilcoxon配对对有符号秩检验)。与增强ML模型相比，耳鼻喉科医生在常见类别(正常，鼓室穿孔)和总体准确性方面的准确性差异较大。我们还分析了预测样本的数量，对应于平衡测试集的每一类的真阳性和假阴性预测。每个分类在集合中有50次出现，所以理想情况下，预测样本的数量(真阳性和假阴性)应该是50，如图中的虚线所示图4B。

图4。在平衡测试集中，(A)每个类别的召回率和总体准确性(条形图表示95% CI)和(B)单个类别的预测计数(50处的虚线表示每个类别的平衡测试集的样本量;X轴在对数尺度上)。类按训练样本数量降序从左到右排列。每个类在平衡测试集中有50个样本(6个类总共300个样本)。耳鼻喉科医师的差异太大，准确性低，没有绘制。ENT: Y截距=42.14 (95% CI 39.14-45.24)，斜率=0.006836 (95% CI 0.004805-0.008939)，伪r方=0.3262;ML′:Y截距=37.89 (95% CI 35.77 ~ 40.07)，斜率=0.01053 (95% CI 0.008981 ~ 0.01211)，伪r²=0.8665;ML: Y截距=26.68 (95% CI 24.73 ~ 28.69)，斜率=0.02028 (95% CI 0。0.1861 -0.02198)，伪r方=0.9167。 Acc: overall accuracy; Ar: attic retraction; ENT: otolaryngologist; FN: false negative; ML: baseline machine learning models; ML': augmented machine learning models; No: normal; Oe: myringitis or acute otitis externa; Om: otitis media with effusion; Tp: tympanic perforation; TP: true positive; Tu: middle or external ear canal tumors or cerumen impaction. *P< . 01(Wilcoxon配对对符号秩检验)。

ML模型对训练数据的数量表现出更大的偏见，因为更普遍的类别往往有超过50个计数(虚线以上;正常类别高于线，因此被过度诊断)，而罕见类别如myringitis或急性中耳炎的计数较低(虚线以下;诊断)。评估了人类和机器的不同分类倾向对分类流行度的依赖程度。泊松回归分析显示，耳鼻喉科医师、增强ML模型和基线ML模型(图4B;斜率:ML为0.021,ML '为0.011，耳鼻喉科为0.007)。零假设的似然比检验对所有数据集都有一条曲线，备用假设对每个数据集都有不同的曲线。基线ML模型与增强ML模型的似然比为76.36 (P<.001)，增强ML模型与人的似然比为7.958 (P= .019)。不同的斜率表明，基于训练样本的数量，ML模型倾向于产生更可能的预测。

值得注意的是，由于预测的个体差异，耳鼻喉科医生的预测不能很好地线性拟合(伪r平方=0.3262)。虽然增强的ML模型减轻了类别不平衡问题，但它仍然倾向于流行类别，这在耳鼻喉科医生中并不明显。

主要研究结果

本研究的主要意义有三个方面:(1)高智商和人工智能的工作表现出不同的行为(流行依赖和相互变异性);(2)数据扩充减少了类不平衡问题，但每个类的样本量不同，结果也不同，稀有类需要一定的数据样本量才能达到可靠水平;(3)考虑到与耳科医生相比的高准确性和现场临床医生诊断性能的高差异，只要临床医生认为该ML模型仅考虑图像，并且ML模型对患病率存在潜在偏差，我们的ML模型可以作为虚拟耳内窥镜图像分析顾问。

首先，我们展示了机器以不同于人类知识的方式工作，这在阶级不平衡的影响中得到了典型的反映。正如预期的那样，ML模型显示出对训练集中较高流行样本的偏见，但对较低的解释器(或ML模型)变化的偏见。相比之下，人类专家在他们的分类中显示出很高的解释器差异，但没有流行依赖的偏见。例如，当排除所有其他病理时，诊断为正常类别;因此，尽管其广泛流行，但本质上难以诊断。与此同时，耳垢嵌塞和鼓室穿孔在数据集中的发生率较低，但由于其发现明显，因此被人类评分者正确分类的次数高于正常类别。在许多病例中，阁楼内缩和中耳炎伴积液是很微妙的;因此，他们被诊断的准确性较低(图4A).因此，对于医生来说，困难主要在于特定于类的抽象规则，这是数据驱动的ML模型无法检测到的。

其次，尽管通过训练阶段的组合策略(过采样、混合和局部丢失)缓解了类不平衡问题，但它对流行疾病的影响较小，而对罕见疾病的影响较大(图2)。对于使用ML的数据驱动方法，找到涵盖类内多样性的特征的超空间，与其他类不同，这不是微不足道的。机器学习尝试使用基于统计的成像特征来发现类内多样性，这需要大样本量来捕获类内变异性。事实上，在机器学习模型中，训练中的样本数量越多，准确率就越高，模型的可变性就越低(图2)，这与先前一项研究的结果一致[9]。实际上，由于发病率低，我们缺乏足够数量的数据样本来研究不太流行的疾病。数据增强提高了单个类的总体准确性和召回率，特别是对于不太流行的类。然而，通过操纵给定的数据集来进行数据增强，这限制了罕见类与流行类在图像中的多样性。因此，拥有更多用于训练的实际数据对于提高性能仍然是必不可少的，特别是对于稀有类。通常，数据集包含大量的正常和常见疾病类别，而缺乏罕见疾病。这是医学成像领域的一个普遍问题，特别是在疾病罕见且难以获得足够样本的情况下[35]。

第三，我们的机器学习模型显示了在现实世界的诊所中充当医生助理的可能性。与ML模型( =0.83, 95% CI 0.81-0.84)相比，人类的表现明显不一致，特别是在非耳鼻喉科医生组( =0.24, 95% CI 0.21-0.26)。尽管医生的诊断能力存在差异，但他们往往高估了自己的技能，导致向患者提供错误和不一致的临床信息。与此同时，机器有时会在一些微不足道的情况下出现错误，即使它们的总体准确率被期望与耳鼻喉科医生持平或更好。在提出诊断建议时，应考虑到医生的决定，以补偿错误的ML建议，更不用说决定的最终责任应由护理提供者承担。在先前的一项研究中，据报道，在一项针对初级保健培训生的研究中，非专科医生诊断中耳疾病的比例仅为30% [36在完成持续医学检查课程后与儿科医生进行的研究中，这一比例为50% [37]。即使对于耳鼻喉科医生来说，使用气动耳镜诊断中耳炎的准确率为73% [37]，这意味着使用耳镜进行准确诊断是具有挑战性的[13，14，17]。计算机辅助诊断可能对专家和非耳鼻喉科医生都有益，例如，我们提出的ML模型。

值得一提的是，我们的ML模型扮演了耳鼻喉科医生的角色，因为ML模型与耳鼻喉科医生之间的互变率(kappa)评分与耳鼻喉科医生之间的kappa评分相似(图3B, ENT和ENT+ML ')。因此，让我们的ML模型解释耳内窥镜图像可能类似于有一个按需耳鼻喉科顾问。考虑到专家的短缺，非耳鼻喉科医生可能会结合我们的图像解释结果和临床表现，而我们的ML没有考虑到这一点，从而为患者提供准确的诊断和护理。

限制

最后指出了本研究的局限性和未来的研究方向。由于隐私问题，我们无法在机构外执行我们的模型，也无法执行外部验证。然而，我们的耳内窥镜图像是从不同类型的成像设备中获得的，这可能会模拟外部验证。此外，正如我们在方法部分所指出的，一张图像可能有多种病理，但根据标记优先级进行标记。未来应该进行多标签分类，以及考虑患者临床信息的多模式模型。最后但并非最不重要的是，尽管我们的ML模型在分析图像时显示出良好的准确性，但目前的模型没有考虑大多数临床医生在诊断时考虑的额外临床信息。因此，我们的机器学习模型在图像翻译方面的更高准确性可能不一定与现实世界中医生更好的诊断专业知识相关。

与前期工作比较

在我们之前的研究中[9]，我们也将耳部疾病分为6个实体，但以5倍交叉验证的方式测试了我们的模型。因此，总体准确性受低患病率类别的影响较小，在实际诊所中应用该模型时表现较差。Byun等人最近的一项研究[38]评估了耳鼻喉科住院医师使用诊断辅助系统的效果。然而，疾病的多样性有限(只有4种疾病)，并没有涵盖所有耳部疾病，特别是外耳疾病和肿瘤。另外，测试集的大小较小，没有测试各种情况，即平衡和不平衡测试集。我们的工作通过更大的测试集和更重要的是非耳鼻喉科医生解决了这些影响和测试，他们可能从使用诊断辅助中获益最多。我们还使用kappa统计量测量了交互器的可靠性，证明我们提出的ML模型类似于耳鼻喉科医生而不是全科医生。

结论

在许多潜在的差异中，我们关注的是由于现实世界诊所中数据的类别不平衡而导致的人工智能数据驱动的分类偏差。机器学习是为了从大量的训练数据中找到统计上最优的特征，从而提高整体的分类精度。由于人口中固有的不平衡发生率，不同类别的样本数量不同，导致难以建立可靠的ML模型。根据类别不平衡、样本量和准确性(图2)，我们仍然更喜欢一个大但不平衡的数据集，而不是一个小但平衡的数据集。因此，我们未来的系统应该分析人类专家的优缺点，并根据情况对ML结果进行权衡，提出建议:当ML优势时提供强建议，当ML脆弱时提供弱建议。除了建议之外，系统可能对其诊断能力表现出相对的信心。特别是在非典型和罕见疾病中，这种方法可能提供更可靠的诊断，使预测系统类似于咨询在不同机构受过培训的同行专家的第二意见。

考虑到临床领域缺乏耳鼻喉科专家的实际情况，临床医生可以利用我们的诊断辅助系统来提供可靠的患者护理，同时记住ML模型不考虑额外的临床信息，可能会偏向于流行疾病。

致谢

这项工作由韩国国家研究基金会(NFR)资助，由韩国政府(MSIP;2020 r1a2c3005787)。感谢延世大学医学院耳鼻咽喉科Young Min Moon医生;仁济大学医学院白一山医院内科张密医生;家庭医学科教授金善姬顺春香大学医学院;李周亨博士;李东旭博士;文中阴博士;以及参与耳内窥镜图像评估的Jae-Min Choi医生(所有私人诊所)。 In addition, this research was supported by the Brain Research Program through the National Research Foundation of Korea funded by the Ministry of Science and ICT (NRF-2017M3C7A1030750).

利益冲突

没有宣布。

‎

多媒体附录1

过采样的混合策略和损失函数的焦点损失。

DOCX文件，14kb

‎

多媒体附录2

增强技术在分类模型中的应用效果。

DOCX文件，40kb

‎

多媒体附录3

不平衡和平衡测试集中的混淆矩阵。

DOCX文件，198 KB

‎

多媒体附录4

补充表。

DOCX文件，67kb

李建军，李建军，李建军，等。皮肤癌识别的人机协作。中华医学杂志，2016,26(8):1229-1234。［CrossRef] [Medline]
Tschandl P, Codella N, Akay BN, Argenziano G, Braun RP, Cabo H等。人类读者与机器学习算法对色素皮肤病变分类准确性的比较:一项开放的、基于网络的、国际的诊断研究。柳叶刀-癌症2019年7月;20(7):938-947 [免费全文] [CrossRef] [Medline]
Topol EJ。高性能医学:人类与人工智能的融合。中华医学杂志2019年1月7日;25(1):44-56。［CrossRef] [Medline]
马志军，张建军，张建军，等。基于迁移学习的心血管组织分类方法。计算机工程学报，2018(10):369 - 376。［CrossRef] [Medline]
Gulshan V, Peng L, Coram M, Stumpe MC, Wu D, Narayanaswamy A，等。开发和验证一种深度学习算法，用于检测视网膜眼底照片中的糖尿病视网膜病变。美国医学杂志2016年12月13日;316(22):2402-2410。［CrossRef] [Medline]
李建军，李建军，李建军，等。膝关节磁共振成像的深度学习辅助诊断:MRNet的发展和回顾性验证。PLoS Med 2018 Nov 27;15(11):e1002699 [j]免费全文] [CrossRef] [Medline]
斯劳尼克HB。医生如何学习:医生的自主学习情节。中华医学杂志，1999,34(10):1106- 1107。［CrossRef] [Medline]
人类学习潜力的个体差异。科学学报2017年1月12日;2(1):2 [j]免费全文] [CrossRef] [Medline]
车东，裴超，成生，崔健，朴海军。使用集成深度学习与大型耳内窥镜图像数据库的耳疾病自动诊断。中国生物医学工程学报(英文版);45 (5):663 - 668 [j]免费全文] [CrossRef] [Medline]
慢性化脓性中耳炎:疾病负担和管理选择。世界卫生组织，2004。URL:https://apps.who.int/iris/handle/10665/42941[2021-11-09]访问
对国家提供听力保健能力的多国评估。世界卫生组织，2013。URL:https://www.who.int/publications/i/item/9789241506571[2021-11-09]访问
Fagan J, Jacobs M.非洲耳鼻喉科服务调查:综合干预的必要性。全球卫生行动2009年3月19日;2(1):1932 [免费全文] [CrossRef] [Medline]
Myburgh HC, van Zijl WH, Swanepoel D, Hellström S, Laurent C.利用鼓膜图像分析诊断发展中国家中耳炎。中国生物医学杂志2016;5:156-160 [j]免费全文] [CrossRef] [Medline]
Moberly AC, Zhang M, Yu L, Gurcan M, Senaras C, Teknos TN，等。数字耳镜检查与显微镜检查:耳科专家的诊断有多正确和自信?[J]中国电信，2017,08;24(7):453-459。［CrossRef]
Niermeyer WL, Philips RHW, Essig GF, Moberly AC。耳镜诊断的准确性和信心:医学生是否接受了足够的培训?喉镜[j]; 2019; 29(8):1891-1897。［CrossRef] [Medline]
张建军，刘建军，李建军，等。超声内镜下耳镜彩色图谱的研究进展。纽约，纽约州:theeme;2017.
Pichichero M, Poole M.耳鼻喉科医生、儿科医生和全科医生在耳内窥镜诊断视频检查中的表现比较。中华儿科耳鼻咽喉杂志2005;39 (3):361-366 [J]免费全文] [CrossRef] [Medline]
ImageNet。URL:http://www.image-net.org[2021-11-09]访问
何凯，张翔，任松，孙杰。基于深度残差学习的图像识别。2016年发表于:IEEE计算机视觉与模式识别会议(CVPR);2016年6月27日至30日;拉斯维加斯，内华达州[CrossRef]
陈建军，陈建军，陈建军，刘建军。计算机视觉的初始化体系结构。2016年发表于:IEEE计算机视觉与模式识别会议(CVPR);2016年6月27日至30日;拉斯维加斯，内华达州[CrossRef]
刘建军，刘建军，刘建军，等。残差连接对学习的影响。2017年发表于:第三十一届AAAI人工智能会议;2017年2月4日至9日;旧金山，加州。
张建军，张建军。基于深度卷积神经网络的图像识别。康奈尔大学，2015。URL:https://arxiv.org/abs/1409.1556[2021-11-09]访问
胡军，沈磊，孙刚。挤压-激励网络。2018年发表于:IEEE/CVF计算机视觉与模式识别会议;2018年6月18日至23日;盐湖城，犹他州。［CrossRef]
黄刚，刘志，Van Der Maaten L, Weinberger KQ。密集连接的卷积网络。2017年发表于:IEEE计算机视觉与模式识别会议(CVPR);2017年7月21日至26日;火奴鲁鲁,嗨。［CrossRef]
刘超，Zoph B, Neumann M, Shlens J，华伟，李立军，等。渐进式神经结构搜索。In: Ferrari V, Hebert M, Sminchisescu C, Weiss Y，编辑。计算机视觉- ECCV 2018。2018年大会。计算机科学课堂讲稿，第11205卷。瑞士Cham:施普林格;2018:19-35。
李建军，李建军，李建军。学习可转移的可扩展的图像识别架构。2018年发表于:IEEE/CVF计算机视觉与模式识别会议;2018年6月18日至23日;盐湖城，犹他州。［CrossRef]
金玛D, Ba J. Adam:一种随机优化方法。康奈尔大学，2014。URL:https://arxiv.org/abs/1412.6980[2021-11-09]访问
D大师，Luschi c。深度神经网络的小批量训练。康奈尔大学，2018年。URL:https://arxiv.org/abs/1804.07612[2021-11-09]访问
Paszke A, Gross S, Massa F, Lerer A, Bradbury J, Chanan G. Pytorch:一个命令式的高性能深度学习库。神经信息处理系统进展32 (NeurIPS 2019)。2019.URL:https://papers.nips.cc/paper/2019/hash/bdbca288fee7f92f2bfa9f7012727740-Abstract.html[2021-11-09]访问
Howard J, Gugger S. Fastai:深度学习的分层API。信息2020年2月16日;11(2):108。［CrossRef]
张宏，Cisse M, dauphyn, Lopez-Paz D.混淆:经验风险最小化。康奈尔大学，2018年。URL:https://arxiv.org/abs/1710.09412[2021-11-09]访问
林天宇，郭玉平，何凯，等。基于焦损失的密集目标检测方法。IEEE跨模式肛门马赫英特尔2020年2月;42(2):318-327。［CrossRef] [Medline]
李建军，李建军。基于加权kappa和类内相关系数的信度度量。教育与心理测量2016年07月02日;33(3):613-619。［CrossRef]
Viera AJ, Garrett JM。理解观察者之间的一致:kappa统计。中华医学杂志2005;37(5):360-363 [j]免费全文] [Medline]
李丹，刘超，胡珊。医疗数据集类不平衡问题的一种学习方法。中国生物医学工程学报;2010;40(5):509-518 [j]免费全文] [CrossRef] [Medline]
Oyewumi M, Brandt MG, Carrillo B, Atkinson A, Iglar K, Forte V，等。目的评价家庭和社区医学、儿科和耳鼻喉科住院医师的耳镜检查技能。中华外科杂志，2016;33(1):1 - 7。［CrossRef] [Medline]
Pichichero ME, Poole MD.评估中耳炎的诊断准确性和鼓膜穿刺技巧。中华儿科与青少年医学杂志(英文版);2001;32(3):357 - 357。［CrossRef] [Medline]
卞海，俞松，吴杰，裴杰，尹美生，李世等。机器学习网络在中耳疾病诊断中的辅助作用。中华临床医学杂志[J]; 2011;10(3): 398 [J]免费全文] [CrossRef] [Medline]

‎

亚当:自适应矩估计

人工智能:人工智能

有线电视新闻网:卷积神经网络

DL:深度学习

EAC:外耳道

你好:人类的智慧

ML:机器学习

G·艾森巴赫编辑;提交22.08.21;由J Bernal同行评审;对作者的评论24.09.21;收到订正版29.09.21;接受12.10.21;发表08.12.21

©车东哲，pachongwon, Lee Se A, Gina Na, Young Kyun Hur, Ho Young Young Lee, A Ra Cho, Young Joon Cho, Sang Gil Han, Sung Huhn Kim, Jae Young Choi, Hae-Jeong Park。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com)， 08.12.2021。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到https://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

基于深度学习的人工智能和人类专家在临床诊断中的差异偏差和可变性:回顾性队列和调查研究