JMIR医学信息学-专家和未经训练的人群之间的协议，使用游戏化应用程序识别皮肤镜特征:阅读器可行性研究

原始论文

¹英国伦敦切尔西和威斯敏斯特医院皮肤科

²美国纽约纪念斯隆凯特琳癌症中心皮肤科

^3.雅典大学Andreas Syggros皮肤病和性病医院皮肤科，雅典，希腊

⁴瑞士苏黎世苏黎世大学医院皮肤科

⁵美国德克萨斯州休斯顿，德克萨斯大学安德森癌症中心皮肤科

⁶半人马实验室，波士顿，马萨诸塞州，美国

*这些作者贡献相同

通讯作者:

Veronica Rotemberg，医学博士

皮肤部分

纪念斯隆凯特琳癌症中心

74街东530号

纽约，纽约，10021

美国

电话:1 8336854126

电子邮件:rotembev@mskcc.org

背景:皮肤镜通常用于色素病变的评估，但专家之间的一致意见，以确定皮肤镜结构是已知的相对较差。医学数据的专家标记是机器学习(ML)工具发展的瓶颈，众包已被证明是一种成本和时间效率高的医学图像注释方法。

摘要目的:这项研究的目的是证明众包可以用于从色素病变的图像中标记基本的皮肤镜结构，其可靠性与一组专家相似。

方法:首先，我们获得了由20名皮肤镜专家标记的248张含有31个皮肤镜“亚特征”的黑素细胞病变图像的标签。基于结构相似性(IRR)，这些特征被分解为6个皮肤镜“超级特征”:点、球、线、网络结构、回归结构和血管。这些图像随后被用作人群研究的黄金标准。商业平台DiagnosUs用于从非专业人群中获取注释，以判断248张图像中是否存在6个超级特征。我们在一组7名皮肤科医生中复制了这种方法，以便与非专家人群进行直接比较。科恩κ值用于衡量评分者之间的一致性。

结果:我们总共从人群中获得了6个皮肤镜超级特征的139731个评分。点和球的识别一致性相对较低(中位κ值分别为0.526和0.395)，而网络结构和血管的识别一致性最高(中位κ值分别为0.581和0.798)。这种模式也出现在专家评分者中，点和球的中位κ值分别为0.483和0.517，网络结构和血管的中位κ值分别为0.758和0.790。非专家和阈值平均专家读者之间的中位κ值为:点0.709，球团0.719，线0.714，网络结构0.838，回归结构0.818，血管0.728。

结论:这项研究证实，在一组专家中，不同皮肤镜特征的IRR是不同的;在非专家人群中也观察到了类似的模式。在人群和专家之间的6个超级特征中，每一个都有很好的或极好的一致性，突出了人群在标记皮肤镜图像方面的相似可靠性。这证实了使用众包作为一种可扩展的解决方案来注释大量皮肤镜图像的可行性和可靠性，具有几个潜在的临床和教育应用，包括开发新颖的、可解释的ML工具。

JMIR Med Inform 2023;11:e38412

doi: 10.2196/38412

关键字

皮肤病学；皮肤科医生；诊断；诊断；标签；分类；深度学习； dermoscopy； dermatoscopy；皮肤；色素沉着；显微镜； dermascopic；人工智能；机器学习；众包；众包；黑素瘤；癌症；病变；医学图像；成像；发展；可行性

皮肤镜是一种低成本、非侵入性的诊断技术，基于带有光源和放大镜的手持设备，是评估色素性皮肤病变的常规做法，已被证明可以提高早期黑色素瘤检测的敏感性[1，2]。皮肤镜可以检查角质层以下的形态特征，这些特征仅靠肉眼检查是看不到的[3.]。使用皮肤镜诊断黑色素瘤依赖于病变形态的评估和皮肤镜特征的识别。为此目的开发了许多诊断标准和算法，包括模式分析[4]、ABCD(不对称、边界、颜色、直径)规则[5]， Menzies方法[6]、7点清单[7]，以及CASH(颜色、建筑、对称性、同质性)得分[8]。

随着皮肤镜的使用越来越广泛，皮肤镜的词汇也越来越多，导致了大量已发表的特征定义和两个相互竞争的术语:隐喻性和描述性。近年来，人们一直在努力协调命名法，2016年国际皮肤镜学会术语共识提出了31个特定的黑素细胞病变“亚特征”，根据结构相似性分为9个“超特征”(文本框1) [9]。

然而，用于识别黑色素瘤特异性皮肤镜结构的评分者间可靠性(IRR)已被证明较差[10]。我们的研究小组最近进行了EASY(关于皮肤镜中黑色素细胞特征的存在和空间位置的专家协议)研究，该研究发现，当20名皮肤镜专家被要求在专门为此目的设计的图像集中识别31个皮肤镜子特征时，协议是高度可变的。除7个特征外，248张图像的IRR均为较差或中等。我们证明，当单个子特征被分解为9个超特征时，观察到的一致性增加，从检测点的成对Fleiss κ为0.14到检测色素网络结构的1.0。

机器学习(ML)方法最近在皮肤病学领域得到了研究，大多数开发的算法都是诊断二进制分类器[11，12]。许多研究评估了用于检测特定皮肤镜特征的算法的性能，包括色素网络结构、血管和蓝白色面纱;然而，许多算法都是在相对较小的数据集上进行训练和测试的，只能达到中等精度[13-21]。

由于医学图像的巨大维度，分类器算法通常具有不可解释的“黑箱”性质，该术语描述了将输入像素数据连接到输出标签的函数无法被人脑理解的现象。医疗监管机构和人工智能社区一直在推动开发可解释的算法;然而，人们已认识到，这可能以准确性下降为代价[22]。将皮肤镜特征的检测纳入黑色素瘤分类器算法中可能会有更好的解释性，因此临床医生和监管机构更容易接受临床实践[23，24]。

国际皮肤成像合作组织(ISIC)档案提供了一个开放获取的数据集，其中包括近70000张公开的皮肤镜图像，包括5598个黑色素瘤和27878个痣。除了举办定期的ISIC大挑战以促进黑色素瘤检测ML的发展外，该档案还被广泛用于训练独立的ML算法，并通过Dermoscopedia平台作为皮肤科医生的综合教育资源[25，26]。档案中的大多数公共图像都有标签，作为监督学习的诊断基础真相。然而，目前还缺乏准确的特征注释。作为2018年ISIC挑战赛的一部分，2595张图像被注释为5种皮肤镜模式(色素网络结构、负网络结构、条纹、粟状囊肿和点/球)[27]。然而，只有1名临床医生提供了基本真相标签，23个提交的算法的性能被公认为异常低，可能是由于这个原因[27]。

随着医疗数据集的持续快速扩展和计算能力的提高，人们普遍认识到，在皮肤病学中发展健壮的、可推广的ML的主要限制因素之一是需要大型的、全面标记的数据集[28，29]。医学专家获取医学图像注释既耗时又昂贵，这在开发管道中造成了瓶颈，使得大规模获取注释具有挑战性[30.]。

众包为这些问题提供了一个潜在的解决方案。“众包”指的是招募知识水平、异质性和数量各不相同、自愿完成在线任务的群体，通常会有经济激励[31，32]。每个注释的货币报酬通常低于0.10美元，并且任务可以并行分配给大量的工作人员，聚集人群的知识以成本和时间有效的方式完成任务[33，34]。一项研究报告称，从2名放射科医生撰写的放射学报告中获得包含340句话的专家标签需要6个月的时间，而作者在2天内获得了717句话的众包注释，成本不到600美元。使用这些众包注释训练的分类算法优于使用专家标记数据训练的算法，这是可用训练示例数量增加的结果[32]。

鉴于生物医学数据的异质性，众包的效用可能会随着任务的复杂性而降低。例如，ImageNet档案中包含的1400万张图像很容易被未经训练的公众注释，而分类和分割放射图像的能力可能需要多年的专业培训[28，30.，35]。然而，众包已被证明在生物医学成像的广泛应用中是有效的，最常见的是组织病理学或视网膜成像[34]。

冯等[36]报道说，一群韩国学生仅经过3小时的训练，就能达到与专家诊断疟疾感染红细胞相似的诊断准确性，这使得作者能够建立一个疟疾感染红细胞标签的金标准库。作者使用了一个基于游戏的工具，通过在平台上添加积分和排行榜，让任务很容易完成。这种所谓的游戏化方法经常被众包平台使用，并已被证明可以增加人群的参与度，提高众包工作的质量。37]。Bittel等[38]使用混合群体- ml方法创建了最大的公开可获得的注释内镜图像数据集。海姆等[28他们发现，一群人能够在计算机断层扫描(CT)图像中分割出腹部器官，其质量与放射科医生相当，但速度要快350倍。

迄今为止，很少有发表的研究评估皮肤病学领域的众包，据作者所知，还没有发表关于众包在皮肤镜图像特征注释方面的效用的研究[39，40]。

本研究的目的是证明众包可以用于标记黑素细胞病变的皮肤镜亚特征，并具有与一小群皮肤科医生相当的可靠性。这将允许对皮肤镜图像的大型存储库进行有效注释，以帮助开发新的ML算法[32]。将皮肤镜特征检测纳入诊断算法将产生可解释的输出，因此可能提高这些输出对医学界的可接受性。

黑素细胞病变的超特征(粗体)及相应亚特征列表[9]。

点

不规则,定期

小球

鹅卵石图案，不规则，规则，边缘有棕色小球

行

分支条纹，伪足，放射状流，星爆

网络结构

非典型色素网络、增宽色素网络、细腻色素网络、阴性色素网络、典型色素网络

回归结构

辣椒/颗粒状，疤痕状脱色

闪亮的白色结构

模式

有棱角的线，多边形，之字形

无定形的地区

不规则斑点，规则斑点，蓝白色面纱，奶红色区域，无结构的棕色区域，均质(未另行说明)

船只

逗号，螺旋形，点状容器，线形不规则容器，多形容器，乳红色球状体

文本框1。黑素细胞病变[9]中所见的超特征(粗体)和相应的亚特征列表。

伦理批准

该研究作为ISIC研究方案的一部分进行，并获得了纪念斯隆凯特琳癌症中心机构审查委员会(16-974)的批准。根据ISIC档案的使用条款协议，所有图像都已被识别，且不包含任何受保护的健康信息。

材料

这项研究分为3个独立的实验，每个实验都使用了EASY研究中使用的同一组248张病变图像。简而言之，临床专家提供了964张病变图像，显示了Kittler等人所描述的31个预选亚特征中的1个[9]。临床医生被要求提交“高质量的图像，显示样本特征的焦点”。三位专家从这些图像中选择了248张，大致平衡了良恶性病变，并保证了图像质量。31个特征中的每一个都是提交的病变图像中的8个样本。然而，每张图像都可以，而且通常都显示了多个特征。

子特性和超特性

如前所述，对大多数子特征观察到低到中等的IRR。因此，我们在可伸缩性研究中只使用了超级特性术语。虽然每个子特征都有8个样本图像，但将标签折叠成超特征会产生一些不平衡。子特性的完整列表显示在文本框1。9个超特征(点、球、线、网络结构、图案、回归结构、闪亮的白色结构、无结构区域和血管;所示多媒体附件1(表S1)，在“诊断”智能手机应用程序教程中向参与者展示，该应用程序改编自Marghoob和Braun [41]。

协议标准

为了衡量评分者之间的一致性，我们使用了Cohen κ [42]，对于完全随机的选择，它的值为0，随着IRR的提高，它的最大值为1.0。一致性度量被解释为差(0-0.4)、一般到好(≥0.4-0.75)和优秀(≥0.75-1.0)[43]。选择这一措施主要是为了适应3个独立研究的性质(见下文)，允许使用“特征存在”或“特征不存在”的二元选择的对评分者之间的部分数据。在本文中，我们使用术语“中值κ”来指代成对比较集中值的中值作为集中倾向的度量，给定κ值的非正态分布。

初步专家批注(研究1)

对于第一项研究，我们使用了为ISIC存档构建的自定义编程注释平台。我们共要求20名皮肤镜专家在4个非重叠图像集的子研究中每人注释62张图像(每个样本特征2张)。研究1的专家是具有≥10年皮肤镜工作经验的临床医生，在皮肤镜研究或色素病变皮肤镜教学中做出了重要贡献。对于每张图像，5名专家被要求提供良性/恶性状态，然后从31个可用的子特征中自我选择他们认为存在于图像中的哪个。EASY研究的完整数据和结果将另行发表。

人群研究的黄金标准

在将子特征分解为上面提到的9个超特征后，我们发现其中3个特征的一致性非常差，而且样本太少，无法让人群进行可靠的评估:模式、闪亮的白色结构和无结构区域。对于剩下的6个超特征(点、球、线、网络结构、回归结构和血管)，在研究1中，5个专家中至少有3个在当前的同一超特征中选择了≥1个子特征的图像被用作“存在超特征”的金标准。如果5位专家都没有识别出同一超级特征中的任何子特征，那么这些图像就被用作“没有超级特征”的黄金标准。

非专家人群注释(研究2)

为了收集非专家图像注释，我们使用了商用平台DiagnosUs (Centaur Labs) [44通过合作协议。用户可以注册应用程序并参加比赛，这提高了用户粘性并提高了准确性。37]。用户是通过推荐系统或社交媒体上的广告招募的。为了确保只有对某项任务有一定技能的用户才能计算平均检测值，训练和验证都使用了金标准图像。这使得剩下的图像，其中一个或两个专家评分者注释了同一超级特征中的子特征，作为真实的测试图像。如果用户对验证项没有达到至少83%的正确性，则该用户的选择不会用于后续的分析。这6个超级特性中的每一个都是作为一个单独的任务提出的。除了存在或不存在超级特征的二元选择之外，我们还收集了反应时间来评估决策难度[45]。

专家人群注释(研究3)

由于研究1允许专家从31个子特征中进行选择，我们复制了研究2的方法，以便与非专家人群进行直接比较。研究2的专家是具有5年以上经验的皮肤科医生。我们招募了7名专家使用diagnostic sus平台，并对来自研究1和2的248张图像进行了注释，以确定6种超级特征的存在。对于每个特征，我们选择了前5位完成图像集注释的皮肤科医生。

反应时间

对于研究2和研究3中的每个任务，我们将每个项目的平均记录反应时间计算为(1 +反应时间)的对数，以近似测量误差的正态分布。然后将这些平均记录的反应时间与平均反应和一个二次项进行回归，从而得到一个倒u型响应函数，该函数大约在(跨读者)犹豫不决的点处达到峰值。

初步专家批注(研究1)

在研究1中，我们发现dots的一致性较差(中位κ=0.298)，而血管的一致性极好(中位κ=0.768)。所有其他的超级特征都表现得相当一致(表1)。成对Cohen κ值的结果分布如图所示图1A. 6个超特征的每个生成的黄金标准图像的数量如下(分别为0个读者/至少3个读者):点(93/61)、球(57/92)、线(129/60)、网络结构(63/140)、回归结构(113/59)和血管(152/66)。

表1。科恩κ值的中位数成对读者。在研究2中，只有当两个读者都看到至少62张相同的图片时，才会考虑成对的读者。

功能	研究1(专家)，中位κ	研究2(非专家人群)，中值κ	研究3(专家人群)，中位κ
点	0.2977	0.5264	0.4829
小球	0.4075	0.3945	0.5166
行	0.5205	0.3983	0.4433
网络结构	0.6175	0.5810	0.7575
回归结构	0.4643	0.5066	0.4730
船只	0.7683	0.7977	0.7903

图1所示。研究1 (A)，研究2 (B)和研究3 (C)的成对Cohen κ值。

非专家人群注释(研究2)

提供与用户的工作有关的人口统计数据以及他们使用diagnostic sus平台的原因是可选的;这些数据来自190个用户。其中，23人(12.1%)为医生(2名皮肤科医生，21名其他专业)，72人(37.9%)为医学生，11人(5.8%)为执业护士，8人(4.2%)为医生助理，76人(40%)为“其他”或“其他保健专业学生”。使用diagnostic sus最常见的原因是“提高我的技能”(134/ 190,70.5%)，其次是“赚钱”(37/ 190,19.5%)和“与他人竞争”(19/ 190,10%)。

参与每个特征的用户数量因点(92个用户)、球(111个用户)、线(82个用户)、网络结构(97个用户)、回归结构(79个用户)和血管(95个用户)而不同。同样，每个用户每次任务对点(每个用户评价160张图像)、小球(131张图像)、线条(177张图像)、网络结构(91张图像)、回归结构(124张图像)和血管(104张图像)的评分中位数也有所不同。本研究获得的人群基础评分总数为139,731，其中点评分25,466，球球评分40,853，线评分21074，网络结构评分17,114，回归结构评分17,020，血管评分18,204。

我们在研究1中发现的模式在很大程度上被非专家所复制。为了确保两组读者之间的图像有足够的和可比的重叠，只有两组读者都看到至少62张相同的图像才会被评估。点和球的一致性相对较低(中位κ值分别为0.526和0.395)，而网络结构和血管的一致性最高(中位κ值分别为0.581和0.798)。为了直接比较研究1和研究2，我们将6个超级特征汇编成一个面板图(图1A和1B)。

专家人群注释(研究3)

再次，研究1和2中发现的模式被复制，如点和球的一致性相对较低(中位κ值分别为0.483和0.517)，而网络结构和血管的一致性最高(中位κ值分别为0.758和0.790;图1C)。

我们计算了研究2中每个非专家读者的κ值，并将研究3中5个专家中的3个的反应设定为一个二进制变量。非专家与阈值平均专家读者之间的中位κ值如下:对于dots, 0.709;小球为0.719;对于直线，0.714;对于网络结构，0.838;对于回归结构，0.818;对于血管，是0.728。

反应时间

无论任务如何，反应时间因用户而异(用户反应时间的IQR中值为2.5秒至4.3秒)，也因图像而异(每个用户反应时间差异的IQR中值为-0.93秒至+1.5秒)，这表明用户内部的变异性略大于用户之间的变异性。

对于非专家和专家来说，在所有任务中，平均记录反应时间中反映倒u型反应的二次项都达到了统计显著性。在非专家中t值(用双尾计算t测试)范围从t₂₄₄= -14.3(对于点)到t₂₄₄= -20.09(用于船只)。在专家中，可能是由于较高的噪音t取值范围从t₂₄₄= -7.63(对于回归结构)到t₂₄₄= -10.62(船舶)。所有t数值非常显著(P<措施)。在所有的任务中，对于两组读者来说，线性项都有一个负号，而且也很显著(在较低的水平上)，这意味着在所有情况下，当一个特征存在时，读者的反应比不存在时更快(图2)。

图2。对于非专家的金标图像(红点显示)和非金标图像(蓝点显示)，对数反应时间对他们的平均反应进行回归，并显示每个超级特征的估计二次项。RT:反应时间;金本位制。

主要研究结果

本研究的主要发现证实了专家之间在识别黑素细胞病变图像上的皮肤镜超特征时的可变的，有时很低的IRR。重复性模式在所有3项研究中都得到了反映，突出表明无论经验水平如何，一些特征都更难以识别。我们发现，对于所有的超级特征，未经训练的人群和专家人群之间的IRR都很好，这表明众包标签可以可靠地用于未来的研究。在两个队列中，反应时间较慢的病变被认为是更具挑战性的，因此可以用作决策困难的代理。

初步专家批注(研究1)

在研究1中，点和球的一致性最低，网络结构和血管的一致性最高。这与先前的研究结果一致，这些研究评估了一组经验丰富的皮肤镜医生的皮肤镜模式识别的IRR [10，46]。有人认为，对无结构区域、条纹、斑点或小球等标准的不一致可能是皮肤镜检查教育缺乏标准化的结果[46，47]。

此外，皮肤镜结构的定义可能会随着时间的推移而变化。尽管血管结构和色素网络结构很容易识别，它们的定义在迄今为止的文献中是一致的，但点和球可能不太容易分类。微小的、数量众多的灰点可以被归类为回归结构，红点可以被定义为血管结构[48-50]。球状物的定义是测量>0.1 mm，在没有测量单位作为参考点的情况下，在皮肤镜图像中识别球状物可能具有挑战性。展望未来，将点和球作为一个单一的标准来考虑，以消除在尝试根据大小区分它们时遇到的挑战，可能更加可行。

非专家人群注释(研究2)

在研究2中看到了类似的结果模式，这表明色素网络结构的网格状模式和血管结构的独特红色可能更容易被未经训练的人群识别出来。与研究1的结果一致，斑点和小球的识别重复性较差。同样，这可能是由于根据它们的直径来区分两者的模糊性造成的。

先前的研究表明，新手临床医生的皮肤镜检查并不比单纯的视觉检查更准确，因此未经训练的人群不可能识别复杂的皮肤镜模式，特别是当一组世界专家之间的共识很低时，例如在我们的EASY研究中。为了为复杂的医学图像获得可靠的众包标签，可以使用一组更简单的图像，或者参与者可以接受扩展培训;研究的设计还必须容纳大量的冗余标签[28]。在一项评估众包作为CT结肠镜检查图像中结肠息肉识别方法的研究中，McKenna等[51他们发现，随着难度的增加，以及反应时间的增加，人群的表现也在恶化。通过将31个子特征分解为6个超级特征，我们为之前没有皮肤镜检查经验的人群创造了一个更容易完成的任务。

专家人群注释(研究3)

研究3的结果表明，与研究1相比，专家之间对点、球和网络结构的一致性更高，其中子特征的注释被聚合到超特征类别中。众所周知，随着类别数量的增加，出现分歧的可能性更大，在这种情况下，科恩κ通常被观察到更低[52]。因此，如果专家被要求从6个超级特征而不是31个子特征中进行选择，分歧的可能性就会更小。

当比较所有3项研究的中位κ时，我们发现专家和非专家识别所有6个超级特征的可重复性相似。当比较研究2中的中位数非专家注释和研究3中的阈值专家注释时，我们看到，在相同的任务中，网络结构和回归结构的一致性非常好，其余4个超特征也很好。这表明人群能够重复和可靠地识别皮肤镜下的超级特征。有趣的是，对血管的一致性在组内高于组间;因此，尽管人群注释可重复，但其准确性低于专家注释，这表明人群在注释容器时可能不太可靠。血管具有最多数量的具有不同形态的子特征(6个)，其中有几个在DiagnosUs平台上的训练中没有呈现给人群。重新设计教程可能会使容器的人群注释更加准确。

反应时间

对于专家和非专家来说，有两种常见的反应时间模式(即，参与者感到有足够信心记录反应所需的时间是估计难度的函数)。对于人群表现出低一致性的图像(平均反应约为0.5秒)，响应时间明显慢于人群表现出高一致性的图像。对于黄金标准图像(研究1中5名专家中有3名以上同意存在或不存在特征的图像)，反应时间比只有1或2名专家同意的病变图像更快，突出了这些图像的挑战性。此外，无论认同程度如何，有特征的图像比没有特征的图像反应时间更快。总体而言，专家对图像的反应时间比非专家长，这表明他们会付出更多努力来确保正确的反应。此外，本研究对专家没有经济奖励;因此，他们没有动力在指定的时间内注释尽可能多的病变。

限制

这项研究的一个基本限制和可以从中得出的未来影响是众包注释的潜在低可靠性。尽管我们在研究3中发现了标签的高重复性和可靠性，但这是针对相对较小的图像集，这些图像经过精心策划，具有有限数量的超特征的高质量示例。

有许多建议的方法可以提高众包数据的质量。研究表明，随着训练时间的增加，人群的表现会有所改善，完成更多阅读的参与者也会表现得更好。36，53]。因此，我们可以通过提供额外的培训，以及通过增加参与者的参与度(例如提供更大的经济奖励)来提高人群的表现。然而，这可能以增加时间和减少参与者数量为代价。尽管众包注释可能略低于专家提供的注释，但用于训练ML算法的可用标签数量的增加已被证明使它们对噪声数据更具鲁棒性[54]。

在这项研究中，我们根据黄金标准图像验证了参与者的表现，以确保标签的质量，表现不佳的参与者不包括在内。在没有专家标记的图像的情况下，DiagnosUs允许使用无标记的竞争设计来显示基本事实，在这种设计中，显示评分者内部一致性的图像成为最初的黄金标准。个人筛选也可以通过基于以前执行的任务或提供任务前测试来评估参与者来实现[34]。通过多数投票聚合结果是另一种常用的预处理方法，以提高注释质量。注释也可以通过使用它们来训练ML模型，并使用模型的性能作为人群性能的代理来评估[34]。

至关重要的是，在没有专家标签进行比较的情况下，对众包注释进行一定程度的质量保证，这将在未来的研究中出现。虽然一致性历来被视为数据可靠性的指标，但有人建议应考虑参与者的能力和信心[55]。这可以通过在黄金标准图像上过滤准确性较差的参与者，聚合注释，并使用反应时间作为决策信心的代理来实现。引起长时间反应和低水平一致的图像可以转移给专家进行注释。

档案中的许多病变都很复杂，有多种皮肤镜模式，我们观察到这为专家可靠地识别带来了挑战，更不用说未经训练的人群了。仅为6个超特征获取注释可能会限制ML工具的诊断价值。ISIC档案的众包标签可能会受到其大小的限制;在进行这项研究时，每天大约收集了10,000个超级特征注释。然而，使用diagnostic sus平台的用户持续呈指数级增长，目前每天收到超过100万条关于多个任务的意见。因此，在几周到几个月的时间内用众包标签注释ISIC存档是完全可以实现的。

虽然这项研究中的图像是经过人工质量保证的，但它们并不是标准化的。例如，一些图像包含一个度量单位，这可能会在区分点和小球时引入偏差，正如前面讨论中提到的那样。

DiagnosUs平台收集的人口统计数据不足，无法进行有意义的子分析;然而，用户之间的经验水平差异突出。重要的是，有2名皮肤科医生参与了这一人群，因此不能真正被认为是未经训练的。由于该平台的性质，它吸引了医疗专业人员作为一种学习工具，旨在推动医疗人工智能的创新，并且无论用户的背景如何，该平台都大规模地提供了有意义的标签。

未来的工作

考虑到ISIC档案的庞大规模，要获得专家皮肤镜医师对所有图像的注释是不可能的。我们已经证明了获得众包注释的可行性;这种方法可以通过几种方式使用。首先，它将允许档案的分层组织，允许用户根据皮肤镜模式过滤病变。其次，它可以作为一种教学工具，让新手皮肤镜医生学习模式和相应的诊断。第三，这些带注释的数据可能被用于开发新的ML工具。即使只有一小部分图像被人群标记，模式分类或分割算法也可以通过弱监督技术来注释档案中的其他图像[56]。几个小组已经成功地开发了一种混合群体算法方法，用于分割大型医学图像数据库[28，38，54，57]。

关于“黑盒”算法的问题已被提出，作为在临床实践中实施这些工具的障碍。考虑到医学影像数据的复杂性，完全可解释的算法不太可能有足够的性能;然而，使用可解释的输出可能在某种程度上缓解在理解方面的犹豫。一种分类工具还能够检测影响其决策的皮肤镜模式，这将使皮肤科医生在评估算法输出时做出更明智的决定[22]。此外，与仅训练诊断的算法相比，同时训练诊断和皮肤镜特征的多维算法可能具有更高的准确性。

探索众包数据应用的下一步是将标签扩展到更大的图像样本，并采用稳健的质量保证流程，并将标签纳入模式检测算法，以便在读者研究中进行评估。如果该算法显示出可接受的性能指标，则可以部署它来标记进一步的图像，并将其纳入分类算法以提高其可解释性。

利益冲突

JK已为Skin Analytics, Ltd和IQVIA, Inc.提供服务。ACH为Canfield Scientific、Lloyd Charitable Trust和SciBase提供服务;拥有HCW Health, LLC的所有权和股权权益;并在SKIP Derm, LLC拥有受托人角色、知识产权、所有权和股权权益。VR为栖息品牌有限公司提供服务。AAM已收到UpToDate的版税。KN是Centaur实验室的员工。KP是半人马实验室的员工。ED是半人马实验室的首席执行官。

‎

多媒体附件1

选择在diagnostic智能手机应用程序教程中向参与者展示的皮肤镜特征。

DOCX文件，2640 KB

Murzaku EC, Hayan S, Rao BK.皮肤镜的使用方法和使用率:美国皮肤科医生按执业年限分层的横断面调查。中国皮肤科杂志2014年8月;71(2):393-395。(CrossRef] [Medline]
Dinnes J, Deeks JJ, Chuchu N, Ferrante di Ruffano L, Matin RN, Thomson DR, Cochrane皮肤癌诊断试验准确性组。皮肤镜，有或没有视觉检查，用于诊断成人黑色素瘤。Cochrane Database Syst Rev 2018 Dec 04;12(12):CD011902 [免费全文] [CrossRef] [Medline]
Celebi ME, Codella N, Halpern A.皮肤镜图像分析:概述和未来发展方向。IEEE生物医学健康信息2019年3月23日(2):474-478。(CrossRef] [Medline]
Carli P, Quercioli E, Sestini S, Stante M, Ricci L, Brunasso G，等。模式分析，而不是简化的算法，是最可靠的方法教授皮肤镜黑色素瘤诊断皮肤科的居民。中华皮肤病学杂志，2003年5月;23(5):981-984。(CrossRef] [Medline]
Nachbar F, Stolz W, Merkle T, Cognetta AB, Vogt T, Landthaler M，等。皮肤科检查的ABCD规则。在可疑黑素细胞性皮肤病变的诊断中具有较高的前瞻性价值。中华皮肤医学杂志1994年4月30日(4):551-559。(CrossRef] [Medline]
Menzies SW, Ingvar C, Crotty KA, McCarthy WH。侵袭性黑素瘤缺乏特异性表面显微特征的频率和形态特征。Arch Dermatol 1996 10月;132(10):1178-1182。(Medline]
Argenziano G, Fabbrocini G, Carli P, De Giorgi V, Sammarco E, Delfino M.脱毛显微镜诊断可疑黑素细胞皮损。皮肤科检查的ABCD规则与基于模式分析的新7点检查表的比较。中国皮肤科杂志1998年12月27日(12):1563-1570。(CrossRef] [Medline]
杨志刚，杨志刚，杨志刚，杨志刚，等。皮肤镜的CASH算法再认识。中国皮肤科杂志，2008年4月;44(4):554-555。(CrossRef] [Medline]
Kittler H, Marghoob AA, Argenziano G, Carrera C, curier - lewandrowski C, Hofmann-Wellenhof R，等。皮肤镜/皮肤镜术语标准化:第三届国际皮肤镜学会共识会议结果。J Am Acad Dermatol 2016年6月;74(6):1093-1106 [免费全文] [CrossRef] [Medline]
Carrera C, Marchetti MA, Dusza SW, Argenziano G, Braun RP, Halpern AC，等。用于区分痣和黑色素瘤的皮肤镜标准的有效性和可靠性:一项基于网络的国际皮肤镜学会研究。JAMA Dermatol 2016 july 01;152(7):798-806 [免费全文] [CrossRef] [Medline]
Esteva A, Kuprel B, Novoa RA, Ko J, Swetter SM, Blau HM，等。利用深度神经网络对皮肤癌进行皮肤科医生级别的分类。自然杂志2017 Feb 02;542(7639):115-118 [免费全文] [CrossRef] [Medline]
郭晓明，李志强，李志强，等。机器学习在皮肤科诊断和预后中的应用研究。《皮肤科杂志》2020年8月31日(5):496-510。(CrossRef] [Medline]
皮肤镜彩色图像中血管结构分割的深度学习方法。Biomed Res Int 2018;2018:5049390 [免费全文] [CrossRef] [Medline]
郑杰，刘华，王珍，李志明。基于深度特征学习的皮肤镜图像中皮肤血管系统检测与定位计算机辅助决策支持系统。中华医学杂志2018年1月9日;42(2):33。(CrossRef] [Medline]
Demyanov S, Chakravorty R, Abedini M.基于深度卷积神经网络的皮肤镜模式分类。2016年发表于:2016 IEEE第13届生物医学成像国际研讨会(ISBI);2016年4月13-16日;捷克共和国布拉格，第364页。(CrossRef]
García Arroyo JL, García Zapirain B.使用监督机器学习和结构分析检测皮肤镜图像中的色素网络。Comput bio Med 2014 1月;44:144-157 [免费全文] [CrossRef] [Medline]
Anantha M, Moss RH, Stoecker WV。基于纹理分析的皮肤镜图像色素网络检测。Comput Med Imaging Graph 2004 july;28(5):225-234 [免费全文] [CrossRef] [Medline]
Sadeghi M, Razmara M, Wighton P, Lee TK, Atkins MS.使用临床启发的特征集建模皮肤镜结构色素网络。见:廖华，Edwards PJ，潘X，范勇，杨广志，编辑。医学成像和增强现实。MIAR 2010。计算机科学课堂讲稿，第6326卷。德国柏林:施普林格;2010.
莫瑞雅，史丹利，拉玛，贾格纳森，萨伊德，史温法德，等。一种深度学习方法检测基底细胞癌血管。皮肤修复技术2022年7月;28(4):571-576。(CrossRef] [Medline]
Madooei A, Drew MS, Sadeghi M, Atkins MS.皮肤镜图像中蓝白面纱的离散配色自动检测。入:森K，佐久间I，佐藤Y，巴利洛C，纳瓦布N，编辑。医学图像计算与计算机辅助干预- MICCAI 2013。MICCAI 2013。计算机科学课堂讲稿，卷8151。德国柏林:施普林格;2013.
Celebi ME, Iyatomi H, Stoecker WV, Moss RH, Rabinovitz HS, Argenziano G，等。皮肤镜图像中蓝白面纱及其相关结构的自动检测。Comput Med Imaging Graph 2008 Dec;32(8):670-677 [免费全文] [CrossRef] [Medline]
巴比奇B，格克S，叶夫根尼欧T，科恩IG。注意医疗保健领域人工智能的解释。科学2021年7月16日;373(6552):284-286。(CrossRef] [Medline]
马泰西奇，塔萨沃，斯威特，格兰特-克尔斯JM。我是如何学会停止担忧，爱上机器学习的。中国临床皮肤科杂志，2018;36(6):777-778。(CrossRef] [Medline]
普赖斯WN，格克S，科恩IG。医生使用人工智能的潜在责任。美国医学会2019年11月12日;322(18):1765-1766。(CrossRef] [Medline]
Rotemberg V, Halpern A, Dusza S, Codella NCF。公开挑战和数据集对算法开发、信任和临床实践中的使用的作用。Semin Cutan Med外科2019年3月1日;38(1):E38-E42。(CrossRef] [Medline]
罗腾伯格V, Kurtansky N, Betz-Stablein B, Caffery L, Chousakos E, Codella N，等。一个以患者为中心的图像和元数据集，用于使用临床背景识别黑素瘤。科学数据2021 1月28日;8(1):34 [免费全文] [CrossRef] [Medline]
Codella N, Gutman D, Emre Celebi M.皮肤损伤分析对黑色素瘤的检测:2017年国际生物医学成像研讨会(ISBI)上的挑战，由国际皮肤成像合作组织(ISIC)主办。出席:2018 IEEE第15届生物医学成像国际研讨会(ISBI 2018);2018年4月4日至7日;华盛顿特区，第3368页。(CrossRef]
海姆E，罗斯T, Seitel A, März K, Stieltjes B, Eisenmann M，等。大规模医学图像标注与众筹算法。医学影像杂志(贝灵汉)2018 july;5(3):034002 [免费全文] [CrossRef] [Medline]
Park AJ, Ko JM, Swerlick RA。众包皮肤病学:DataDerm、大数据分析和机器学习技术。中国皮肤科杂志2018年3月;78(3):643-644。(CrossRef] [Medline]
van der Wal D, Jhun I, Laklouk I, Nirschl J, Richer L, Rojansky R，等。通过人工智能标签系统进行生物数据注释。NPJ数字医学2021年10月07;4(1):145 [免费全文] [CrossRef] [Medline]
Estellés-Arolas E, González-Ladrón-de-Guevara F.走向整合众包的定义。科学通报2012 3月25日;29(2):489 - 489。(CrossRef]
柯科斯A，钱T, callson - burch C，马西诺AJ。人群控制:有效利用未筛选的人群工作者进行生物医学数据注释。J Biomed Inform 2017 5月;69:86-92 [免费全文] [CrossRef] [Medline]
王聪，韩林，斯坦因，戴世杰，卞刚，马修斯，等。健康和医学研究中的众包:系统回顾。2020年1月20日;9(1):8 [免费全文] [CrossRef] [Medline]
Ørting SN, Doyle A, Van Hilten A, Hirth M, Inel O, Madan CR，等。医学图像分析中的众包研究。Hum Comp 2020年12月1日;7:1-26。(CrossRef]
邓杰，董伟，苏彻。ImageNet:一种大规模分层图像数据库。2009年发表于:IEEE计算机视觉与模式识别会议;2009年6月20-25日;佛罗里达州迈阿密[CrossRef]
Feng S, Woo MJ, Kim H.一个基于游戏的众包平台，用于快速训练初高中学生进行生物医学图像分析。在:论文集卷9699，光学和生物光子学在低资源设置II。2016年发表于:SPIE BiOS;2016年2月13-18日;旧金山，加利福尼亚州，2016年。(CrossRef]
Morschheuser B, Hamari J, Koivisto J, Maedche A.游戏化众包:概念、文献回顾和未来议程Int J Hum计算Stud 2017 10月;106:26-43。(CrossRef]
Bittel S, Roethlingshoefer V, Kenngott H, Wagner M, Bodenstedt S, Speidel S，等。如何创建最大的体内内窥镜数据集。发表于:第六届联合国际研讨会，CVII-STENT 2017和第二届国际研讨会，LABELS 2017，与MICCAI联合举办;2017年9月10-14日;魁北克市，QC。
King AJ, Gehl RW, Grossman D, Jensen JD。皮肤自检和非典型痣的视觉识别:个人和众包方法的比较。癌症流行病学2013 Dec;37(6):979-984 [免费全文] [CrossRef] [Medline]
陈峰，叶晨，王杰，等。众包来描绘受慢性移植物抗宿主病影响的皮肤。皮肤测量技术2019 7月;25(4):572-577 [免费全文] [CrossRef] [Medline]
Marghoob A, Braun R.皮肤镜图集，第2版，伦敦，英国:CRC出版社;2012.
评价者间信度:kappa统计量。生物化学医学(萨格勒布)2012;22(3):276-282 [免费全文] [Medline]
兰迪丝，柯氏。分类数据中观察者一致性的测量。生物计量学1977 Mar;33(1):159-174。(CrossRef] [Medline]
DiagnosUs。苹果应用商店。URL:https://apps.apple.com/us/app/diagnosus/id1369759559[2022-12-19]访问
齐亚尼，柯尔特尔，夏德伦。选择确定性是由证据和决策时间共同决定的。神经元2014 12月17日;84(6):1329-1342 [免费全文] [CrossRef] [Medline]
杨晓明，王晓明，王晓明，等。色素性皮损的皮肤镜检查:通过互联网的共识会议的结果。中华皮肤医学杂志2003年5月;48(5):679-693。(CrossRef] [Medline]
Patel P, Khanna S, McLellan B, Krishnamurthy K.住院医生需要改进皮肤镜培训:美国皮肤科住院医生和项目主任的调查。Dermatol practice Concept 2017 april;7(2):17-22 [免费全文] [CrossRef] [Medline]
Soyer HP, Kenet RO, Wolf IH, Kenet BJ, Cerroni L.皮肤镜下色素皮损的临床病理相关性。中华皮肤病学杂志2000;10(1):22-28。(Medline]
Braun R, Gaide O, Oliviero M, Kopf A, French L, Saurat J，等。多个蓝灰点(粒度)对皮肤镜诊断黑色素瘤的意义。中华皮肤杂志2007年11月;17(5):97 -913。(CrossRef] [Medline]
阿金齐亚诺G, Zalaudek I, Corona R, Sera F, Cicale L, Petrillo G，等。皮肤肿瘤血管结构:皮肤镜研究。《皮肤科学》2004年12月;140(12):1485-1489。(CrossRef] [Medline]
麦肯纳，王珊珊，阮涛，裴志强，萨默斯RM。利用分布式人类智能改进CT结肠镜计算机辅助检测解释的策略。Med Image Anal 2012 Aug;16(6):1280-1292 [免费全文] [CrossRef] [Medline]
信度研究中的kappa统计量:使用、解释和样本量要求。物理学报2005 3月;85(3):257-268 [免费全文] [CrossRef] [Medline]
Candido Dos Reis FJ, Lynn S, Ali HR, Eccles D, Hanby A, Provenzano E，等。众包大众进行大规模的癌症分子病理学研究。EBioMedicine 2015 july;2(7):681-689 [免费全文] [CrossRef] [Medline]
Albarqouni S, Baur C, Achilles F, Belagiannis V, Demirci S, Navab N. AggNet:基于群体的深度学习在乳腺癌组织学图像中的有丝分裂检测。IEEE跨医学影像2016年5月;35(5):1313-1321。(CrossRef] [Medline]
Cabitza F, Campagner A, Albano D, Aliprandi A, Bruno A, Chianca V，等。机器中的大象:提出一种新的数据可靠性度量标准，并将其应用于医疗案例，以评估分类可靠性。应用科学2020年6月10日;10(11):4014 [免费全文] [CrossRef]
藤泽Y, Inoue S, Nakamura Y.基于深度学习的计算机辅助皮肤肿瘤分类器的可能性。Front Med(洛桑)2019;6:191 [免费全文] [CrossRef] [Medline]
Maier-Hein L. crowd -算法合作，有信心进行大规模内镜图像注释。入:Ourselin S, Joskowicz L, Sabuncu M, Unal G, Wells W，编辑。医学图像计算与计算机辅助干预- MICCAI 2016。MICCAI 2016。计算机科学讲义()，卷9901。瑞士占姆:施普林格;2016.

‎

CT:计算机断层扫描

容易:皮肤镜检查中黑色素细胞特征的存在和空间位置的专家协议

IRR:评分者间信度

ISIC:国际皮肤成像合作组织

ML:机器学习

C·洛维斯编辑;提交04.04.22;作者:Z Li, W Yu Jen, W Van Stoecker;对作者15.08.22的评论;修订版本收到28.09.22;接受16.10.22;发表18.01.23

©Jonathan Kentley, Jochen Weber, Konstantinos Liopyris, Ralph P Braun, Ashfaq A Marghoob, Elizabeth A Quigley, Kelly Nelson, Kira Prentice, Erik Duhaime, Allan C Halpern, Veronica Rotemberg。最初发表在JMIR医学信息学(https://medinform.www.mybigtv.com)， 18.01.2023。

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息，https://medinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

专家和未经训练的人群使用游戏化应用程序识别皮肤镜特征的协议:阅读器可行性研究

专家和未经训练的人群使用游戏化应用程序识别皮肤镜特征的协议:阅读器可行性研究

原始论文

通讯作者:

摘要

关键字

介绍

黑素细胞病变的超特征(粗体)及相应亚特征列表[9]。

方法

伦理批准

材料

子特性和超特性

协议标准

初步专家批注(研究1)

人群研究的黄金标准

非专家人群注释(研究2)

专家人群注释(研究3)

反应时间

结果

初步专家批注(研究1)

非专家人群注释(研究2)

专家人群注释(研究3)

反应时间

讨论

主要研究结果

初步专家批注(研究1)

非专家人群注释(研究2)

专家人群注释(研究3)

反应时间

限制

未来的工作

利益冲突

参考文献

缩写