医学互联网研究杂志-标准化患者与虚拟患者的诊断能力评估:历史记录背景下的实验研究

原始论文

¹慕尼黑大学附属医院医学教育研究所，慕尼黑，德国

²心理学系，Ludwig-Maximilians-Universität m nchen，德国慕尼黑

^3.慕尼黑学习科学中心，Ludwig-Maximilians-Universität m nchen，德国慕尼黑

通讯作者:

马克西米利安C芬克理学硕士

医学教育研究所

慕尼黑大学附属医院

Pettenkoferstraß8 e

慕尼黑,80336年

德国

电话:49 089 4400 57428

电子邮件:maximilian.fink@yahoo.com

背景:标准化病人(SPs)是几十年来临床教学中流行的评估方法之一，尽管它需要大量的资源。如今，模拟虚拟患者(vp)的使用越来越多，因为它们是永久可用的，并且完全可扩展到大量受众。然而，比较这些评估方法的差异效果的实证研究缺乏。同样，这些评估方法中与诊断能力相关的关键变量(即诊断准确性和证据生成)之间的关系仍需要进一步研究。

摘要目的:本研究的目的是比较在基于绩效的评估中使用sp和vp的感知真实性、认知负荷和诊断能力。本研究亦旨在探讨认知真实性、认知负荷和证据生成质量与诊断准确性的关系。

方法:我们对86名医学生(平均26.03岁，SD 4.71)进行了一项实验研究，重点研究了呼吸困难病例的病史。在这个重复测量研究中，参与者解决了三个SPs病例和三个VPs病例。在每个病例之后，学生提供诊断并评估感知真实性和认知负荷。根据诊断的准确性对所提供的诊断进行评分;对医学生提出的问题根据其证据生成的质量进行评分。除了常规的零假设检验外，本研究还使用等效检验来调查有无意义效应。

结果:感知真实性(单尾t₈₁= 11.12;Pp < 0.001)高于VPs。诊断准确性与感知真实性之间的相关性很小(r=0.05)，两者均不相等(P=.09)无统计学意义(P=收)。两种评估方法的认知负荷相等(t₈₂= 2.81;P= .003)。内在认知负荷(单尾r=−0.30;P= 0.003)和外来负荷(单尾)r=−0.29;P= 0.003)与诊断准确性的综合评分负相关。证据生成的质量与VPs(单尾)的诊断准确性呈正相关r= 0.38;P<措施);这一发现并不适用于SPs(单尾)r= 0.05;P=收)。比较两种评估方法，sp的诊断准确率高于vp(双尾)t₈₅= 2.49;P= . 01)。

结论:感知真实性的结果表明，学习者对sp的体验比副总裁更真实。由于大量的内在和外在认知负荷对表现有害，因此在评估中必须系统地监测和操纵这两种类型的认知负荷。sp的诊断准确性高于vp，这可能会对vp学生的成绩产生潜在的负面影响。我们确定并讨论了两种评估方法之间性能差异的可能原因。

[J] .中国医学信息学报，2013;23(3):591 - 591

doi: 10.2196/21196

关键字

临床推理；医学教育；绩效评估；模拟；标准化病人；虚拟病人

标准化患者和虚拟患者的绩效评估

自世纪之交以来，绩效考核已成为许多国家医师执照考试的强制性组成部分[1]，用标准化患者(SPs)和模拟虚拟患者(vp)等方法补充传统的评估格式，如文本小片段。自20世纪60年代以来，SPs一直用于基于绩效的卫生保健评估[2]。然而，副总裁直到最近才在这一领域得到更广泛的应用[3.]。

SPs一词指的是(受过训练的)演员或真正的前病人，他们表现得好像他们表现出某种疾病的症状[4]。通常，学生在评估设置中遇到几个SPs以可靠地测量临床变化[5]。然后由训练有素的教师或SPs自己使用评级方案对其表现进行评分。虽然我们稍后会详细介绍这种评估方法的具体特点，但在此必须指出的是，组织使用SPs进行评估是一项相对资源密集的工作[6]。

虚拟模拟是一种计算机模拟，通常包括一个真实世界的模型，可以由参与者操纵[7]。副总裁可以使用虚拟形象或带有SPs的逼真视频作为刺激，并提供不同程度的互动[8]。此外，通过副总裁进行的评估可以自动进行，最近的一项研究表明，这种自动评估与临床医生-教育工作者的评级非常吻合[9]。制作正版副总裁的成本通常在1万美元以上[10]。虽然副总裁的初始制作通常比组织副总裁需要更多的资源，但这种评估方法可以永久使用，并且可以完全扩展到大量受众。

接下来，我们总结一个概念框架。这个框架一方面提供了诊断能力的精确操作化。另一方面，该框架包括一个研究议程，该议程总结了在基于模拟的评估研究中应该系统检查的基本绩效调节因素。

模拟诊断能力评估的框架

Heitzmann等人开发的框架[10]通过模拟来促进诊断能力，将评估设置中的诊断能力作为一种处置。这种处置包括诊断知识、诊断质量和诊断活动的组成部分。诊断性知识包括概念性知识和战略性知识[11]。概念性知识包括概念及其关系。战略知识包括可能的诊断途径和启发式。诊断质量由组件的诊断准确性和效率组成，可以作为实证研究的主要结果指标。诊断活动需要在诊断过程中被评估的人员的行动，例如通过在历史记录中询问问题来产生证据。该框架提出，背景是评估的重要调节因素。因此，对评估方法SPs和VPs的影响进行更多的研究似乎是必要的。基于模拟的复杂技能学习meta分析[j]12]在这一框架中补充说，真实性也应该作为评估和学习的重要调节因素加以探索。同样，一项关于基于模拟的学习的教学设计特征的荟萃分析表明，某些类型的认知负荷可能对表现有害[13]。因此，在SP和VP评估中探讨认知负荷与诊断能力之间的关系可能是有益的。

知觉真实性与sp和vp的诊断能力

真实性有很多概念。在我们的学习中，我们专注于感知到的真实性(14因为这个概念可以完全由学习者的内部判断来评估。其他相关概念，如厚的真实性(15),忠诚(16至少在某种程度上，也可以由外部决定。

根据Schubert等人的因子分析[14]，感知真实性——有时也被称为存在——包括真实性、参与性和空间存在三个方面。真实性是指一个人相信某种情况及其特征与现实生活环境相似的程度[14]。涉入被定义为一种认知沉浸感和对情境与个人相关的判断[17]。Spatial presence指身体沉浸在某一情境中的感觉[14]。SPs被认为是高度真实的，因为他们经过精心训练，能够真实地描绘症状，并允许自然的相互作用[18]。实证研究支持这一说法，报告了SPs的高感知真实性价值[19，20.]。在实证研究中，副总裁也获得了相当高的感知真实性得分[21但缺乏一些可能使SPs特别真实的特征，例如口头对话中的高度互动性。因此，副总裁可能会比sp唤起更低的感知真实性。关于真实性对诊断能力影响的研究结果好坏参半。一方面，有人认为更高的真实性与更高的参与度和更好的绩效有关[22]。另一方面，文献综述[23，24比较了基于模拟的学习中感知真实性和临床表现之间的关系，只报告了真实性的最小影响。此外，一项实证研究[25研究表明，在一定阈值以上，感知真实性的进一步增加并不能提高诊断的准确性。

sp和vp的认知负荷与诊断能力

认知负荷理论认为，通过强调工作记忆和注意力的高情境要求可以抑制表现[26]。认知负荷包括以下三个不同的方面[27]：内在负荷来自某些主题和材料与被评估人的专业知识之间的相互作用。外部负载是完全由评估环境的特点所创造的，它会紧张记忆和注意力，而不是表现所必需的。恰当的负荷指被评估者在认知过程中产生的认知负荷，包括图式建构和抽象。内在和外在的认知负荷被认为是附加的，可以抑制复杂任务的表现[27]。然而，从理论上讲，Germane负载可以提高性能[27]。一些来自医学教育的初步研究已经对比了不同评估方法的认知负荷，并报告了它们与诊断能力的关系。Dankbaar等人[28研究表明，通过模拟游戏学习应急技能的小组比通过基于文本的模拟学习小组的内在和相关认知负荷更高。这些组之间的外部负荷没有差异，并且在性能上没有任何组的差异。Haji等[29比较了外科技能训练与较不复杂和较复杂的模拟任务。在较复杂的模拟情境中，总认知负荷高于较不复杂的模拟情境，认知负荷与表现呈负相关。综上所述，如果评估方法具有相同的复杂性，那么在认知负荷的不同方面，高智商者和低智商者通常没有差异，并且与这些方面相关的主要特征相似。先前总结的文献也表明，内在和外在的认知负荷与诊断能力呈负相关。

评估方法和诊断能力

在我们讨论诊断准确性和证据生成(诊断能力的两个重要方面)之前，应该注意到诊断能力只是更广泛的临床推理概念的一部分。临床推理强调诊断的过程，包括做出临床决策的整个过程，包括选定干预措施的选择、计划和重新评估[30.]。根据Heitzmann等人的概念框架[10]以促进诊断能力;诊断准确性表示学习者的诊断结果与专家在相同情况下给出的解决方案之间的对应关系。根据这个框架，证据一代(即，与以目标导向的方式收集数据有关的行动)也是诊断过程的重要质量标准，也是诊断能力的一个关键方面。

诊断准确性

目前，在医疗保健领域，只有少数研究在一个实验中直接使用vp和SPs进行对比评估。Edelstein等[1使用重复测量设计对高级医科学生的SPs评估和基于计算机的案例模拟进行了调查。在使用不同病例的两种评估格式中，发现诊断准确性之间存在中度正相关。Guagnano等[31]在一次医学执照考试中考察了SPs和基于计算机的案例模拟。参与者首先完成基于计算机的案例模拟，然后完成SPs。两种评价方法呈正相关。Hawkins等人[32在一项随机对照试验中，将患者管理技能和临床技能的评估与SPs和基于计算机的病例模拟进行了比较。参与的医生完成了两种评估方法，并报告了两种评估方法的诊断准确性正相关。在医疗保健领域之外，来自不同领域的研究荟萃分析报告了学生在解决问题任务中的强大模态效应。以图文并举的形式解决问题的学生比仅以文本形式解决问题的学生更成功[33]。同样，似乎有理由假设一种评估方法由于其不同的特征而导致比另一种评估方法更高的诊断准确性。所描述的发现从医疗保健领域暂时表明，SPs和vp可能导致相对相当的诊断准确性。这一发现将与其他领域报道的模态效应相矛盾。

证据一代

关于sp和vp的证据生成的可比实证研究是缺乏的。尽管如此，我们可以假设sp的证据生成量应该高于vp。这样做的主要原因是，与从副总裁的选项菜单中选择问题相比，学生可以更快地口头向副总裁提问。除了两种评估方法在证据生成方面的差异之外，证据生成与诊断准确性之间的关系也很有趣。证据生成量与诊断准确性之间的关系相对复杂。证据生成的理想量可能在很大程度上取决于案例难度、证据中包含的诊断线索和学习者的特征。基于这些原因，Heitzmann等人的框架[10为促进诊断能力而进行的一项研究认为，证据生成的绝对数量并不是诊断过程的可靠质量标准。然而，证据生成的质量是Heitzmann等人假设的[10是诊断过程中相当可靠的质量标准。这与文献一致，正如我们从使用观察性检查表的SPs研究中所知，证据生成的质量与诊断准确性呈正相关[34]。此外，一项针对内科专家和真实患者的研究表明，在病史调查中提出具体问题与临床问题解决呈正相关[35]。

研究目标、研究问题和假设

我们的目的是比较知觉真实性，认知负荷和诊断能力的副总裁和副总裁。我们还旨在研究感知真实性、认知负荷和证据生成质量与诊断准确性之间的关系。因此，我们解决了以下3个研究问题:感知真实性在两种评估方法之间的差异程度，以及它与诊断准确性(RQ1)的关系如何?我们假设SPs比vp诱导更高的感知真实性(H1.1)。此外，我们期望能够用相关性的等价检验来证明(在统计分析章节)感知真实性与诊断准确性没有意义的关联(H1.2)。接下来，sp和vp的认知负荷是否相等，它与诊断准确性(RQ2)有何关系?我们假设sp和vp的认知负荷相等(H2.1)。此外，我们预计内在和外部负荷与诊断准确性呈负相关(H2.2-H2.3)。sp和vp的诊断能力组成部分诊断准确性、证据生成数量和证据生成质量在多大程度上是等同或不同的，它们之间是如何相互关联的(RQ3)?我们假设SPs和VPs具有相同的诊断准确性(H3.1)。此外，我们假设sp的证据生成量高于vp (H3.2)。我们还期望证据生成的质量与诊断准确性呈正相关(H3.3)。

参与者特征和抽样程序

86名德国医学生(平均年龄26.03岁，标准差4.71)组成了最终的数据集。该样本由63%(54/86)的女性和37%(32/86)的男性组成。6年制课程3-6年级的医学生，德语水平良好。3-5年级的医学生(44/ 86,51 %)被认为是新手，因为他们仍在完成医学院的临床部分。6年级的医科学生(42/ 86,49%)被视为中级学生，因为他们通过了第二次国家考试，并在诊所或诊所全职实习。我们提供了所有条件下参与者特征的详细概述和CONSORT(综合报告试验标准)风格的参与者流图多媒体附录1。

我们收集了2018年10月20日至2019年2月20日在慕尼黑大学医院医学模拟中心的数据。我们通过校园和网络广告招募参与者。第一作者通过绘制pin码来登录电子学习环境，参与者被随机分配到不同的条件下，而不知道分配给pin的条件。在最后的数据收集环节中，由第一作者从特定的专业小组(新手和中级)中随机挑选参与者来填写条件。采用这一程序是为了在所有条件下取得相当水平的专门知识。正如预期的那样，来自不同专业小组的参与者比例在不同的条件下没有差异(χ²_3.= 0.2;P= 0)。

研究设计

本研究采用重复测量设计，以评估方法(SPs vs VPs)为关键因素。此外，我们还改变了受试者间因素病例组(CG)顺序和评估方法顺序。学生们总共遇到了6个不同的案例。我们提供了实验的概述表1。案例继承的详细情况和实验条件下的医学内容见表2。我们试图通过举办专家研讨会和根据专家的反馈调整案例来确保两个cg的主题和难度相似，作为创建实验材料的一部分。

表1。实验的总体概况。

实验的一部分	活动或测试	持续时间(分钟)
预备考试	简报	10
	概念知识测验	40
	策略知识测验	40
打破	- - - - - -^一个	10
评估第一阶段(个案1-3)	VPs^b或SPs^c	70
打破和改变情态	- - - - - -	5
评估第II阶段(个案4-6)	vp或sp	70
后测和汇报	工作记忆测验	15
	End-debriefing	5

^一个没有活动或测试发生。

^bVP:虚拟病人。

^cSP:标准化患者。

表2。通过病例和医学内容在实验条件下的接续^a、b。

情况下	条件1	条件1 b	条件2	条件2 b
1 - 3	CG^c(SPs^d）	副总裁^e）	首席秘书(SPs)	首席会计师(副总裁)
4 - 6	首席文书主任(副总裁)	总会计师(SPs)	首席会计师(副总裁)	首席秘书(SPs)

^一个病例组A:(1)肺栓塞合并淋巴瘤，(2)充血性心力衰竭合并心房颤动，(3)惊恐发作引起的过度通气性抽搐。

^b病例组B:(1)肺栓塞合并凝血功能障碍;(2)社区获得性肺炎;(3)肥厚性阻塞性心肌病。

^cCG:案例组。

^dSP:标准化患者。

^eVP:虚拟病人。

程序和材料

参与者在实验开始时完成了概念知识和策略知识的预测。之后，参与者参加评估阶段，用sp解决前3个案例，用vp解决后3个案例，反之亦然。所有病例均由全科医生起草，并由专家小组进行积极评估。这些病例并非改编自真实的临床病例，而是基于教科书中的病例和指南中报告的症状。在每个评估阶段之前有一个短暂的熟悉阶段，包括一个动机量表。对于两种评估方法中的所有病例，评估时间保持不变，记录病史的时间为8分30秒，在电子患者档案中记录病例诊断的时间为5分钟。在实验结束时，参与者听取了情况汇报。有关该过程的更详细概述，请参见多媒体附录2。

在模拟急诊室中与SPs进行评估。所有sp都是(半)专业演员，他们获得了经济补偿;大多数人之前都有过SP项目的工作经验。所有SPs都接受了表演教练和医生的广泛培训，记住了他们的症状和剧本，并且不知道病人的诊断。参与者首先收到每个病例的先验信息(如心电图和实验室结果)和主诉的介绍。接下来，参与者独立地提出问题，由SPs回答。这段互动被录了下来。在每个病例之后，参与者完成了一份患者档案，包括诊断准确性和其他量表的测量。此评估方法的截图见图1。

与副总裁的评估是在电脑室的模拟评估环境中进行的。首先，参与者收到了事先的信息和一段视频，视频中有每个病例的主诉。然后，参与者从多达69个历史问题的菜单中独立选择问题。副总统的回答以视频形式播放，其中包括一名演员录制的回答。在每个病例之后，参与者完成了一份患者档案，包括诊断准确性和其他量表。此评估方法的截图见图1。

在电子评估环境CASUS中实施了副总裁、患者档案和其他措施[36]。为副总裁提供的问题是基于Bornemann对历史呈现形式的结构和主题分析[37]，显示在多媒体附录3。根据这一分析，医生在取病史时的问题可分为主要症状、既往史、过敏和药物、社会和家族史、系统回顾5类。在熟悉阶段，患有SPs的参与者收到了所有病例的空白记录表格，并有时间制定可能的记录问题，在这一阶段，副总裁组的参与者只阅读菜单上的所有问题。如果SP条件中没有这种额外的结构化支持，那么VP条件中的参与者将以菜单中的问题列表的形式获得额外的支持。

测量和协变量

感知到的真实性

感知真实性被操作为一个具有真实、参与和空间存在三个维度的结构[14]。所有3个真实性量表都使用了5分制，范围从(1)不同意(5)同意都是从多个有效问卷中抽取的14，38-40]。这些项目稍微适应了基于模拟的评估，并包含在多媒体附录4。通过计算平均值，建立了所有三个维度的综合得分。量表的信度为Cronbach α= 0.88。

认知负荷

Opfermann的认知负荷量表[41]以3个项目评估外在认知负荷，以各1个项目评估相关和内在认知负荷。从(1)开始的5分量表非常容易, (2)相当简单的, (3)中性(4)而努力，至(5)非常困难的是使用。磅秤包含在多媒体附录4。通过计算平均值，得出所有三个方面的综合得分。量表的信度为Cronbach α= 0.88。

动机、诊断知识和其他控制变量

我们将动机作为一个控制变量进行评估，因为它可能在评估方法之间有所不同，并可能影响绩效。动机的期望成分是用一个由Rheinberg等人改编的4项7分制量表来评估的[42]。动机期望量表范围从(1)非常不同意到(7)非常同意。动机的价值成分是根据Wigfield [43]。动机价值量表从(1)非常不同意到(5)非常同意。全比例尺见多媒体附录4。本研究也测量了诊断知识，但后来在分析中没有考虑到诊断知识，因为重复测量设计导致副总裁和SPs的诊断知识相似。我们使用概念和策略知识测试来测量诊断知识。这两种类型的知识都被认为是临床推理的预测因素[44]。每个测试的最大测试时间设置为40分钟。关于这两种诊断知识测试的更多详细信息，请参见多媒体附录4。除此之外，还收集了人口统计数据，包括参与者的性别、年龄和专业知识(医学院年份)。

诊断能力

诊断准确性

诊断的准确性是根据对提示“请在记录病史后选择您的最终诊断”的回答来评估的，该提示来自一个包含239种可选诊断的长菜单。两位医生创建了一种编码方案，用于对所有病例的诊断准确性进行评分(多媒体附录4）.为了做到这一点，医生们对所有病例的239种替代诊断进行了评分，并解决了分歧，直到他们达成完全一致。其中一名医生是全科医生，他也起草了这些病例。另一位医生通过她的论文对医学评估很熟悉。后一名医生，也是本文的第二作者，然后根据编码方案对诊断准确性进行评分:指定正确答案为1分，部分正确答案为0.5分，错误答案为0分。由于综合编码方案的诊断准确性评分只有1个，因此无法报告可靠性估计。然而，这也不是必要的，因为电子评估环境中包含的所有可选诊断的确切诊断准确性评分在编码方案中预先确定。

证据一代

第二作者通过确定与每个VP病例的正确诊断相关的基本问题对证据生成的质量进行分类(编码方案见多媒体附录4）.这个过程是在观察实验数据之前进行的。所有的解决方案都与全科医生进行了讨论，所有的分歧都得到了解决。学生助理转录了SP会面视频中记录的所有话语，电子评估环境存储了副总裁会面期间的所有选定问题。的R脚本使用编码方案自动对vp的日志数据进行分类。学生助理没有医学背景，并接受了第二提交人的培训，以便对SP遭遇的记录进行编码。这项任务主要意味着识别历史问题的意图，并在可能的情况下将它们与编码方案中最相似的问题联系起来。在对评价者进行训练后，将这些复杂而广泛的SP数据的20%由2名评价者进行编码，以检查评价者之间的一致性。该数据集包含了86名参与者中18名的SP数据，其中参与者参与了所有三个SP病例。Fleiss κ=0.74表明一致性是实质性的，其余数据由相同的评分者单独编码。证据生成数量的得分与每个案例提出的问题总数相对应。为了计算每个案例的证据生成质量得分，我们计算了提出的相关问题的数量，并将该得分除以可能提出的相关问题的数量。

建设规模

通过计算纳入病例的平均值，建立每种评估方法及两种方法联合的诊断准确率和证据生成量表。病例1因诊断难度高(平均诊断准确率0.05，标准差0.18)被排除在所有分析之外。

统计分析

本研究使用传统的零假设显著性检验(NHST)和等价检验来回答所提出的研究问题。与NHST相反，等效检验可用于调查“假设在人群中存在有意义的效应，所观察到的效应是否小得惊人”[45]。对于这类检验，首先，根据文献规定感兴趣的最小效应大小，即有意义效应的阈值。然后研究了效应比最小效应更极端的零假设。为此，需要进行2个单独的单侧测试(TOST;例如,t测试)进行[46]。这些检验检验观察到的效应是否比指定的最小效应值更极端。如果两个单侧检验都是显著的，则存在比感兴趣的最小效应更极端的有意义效应的原假设被拒绝。因此，支持等价。为了更方便地报告，只有t有较高P值的检验报告。在不支持等效性的情况下，进行NHST进行后续分析。

所有统计分析均采用R版本3.6.1 [47]。TOST程序和相应的包45]进行等效性试验。在所有统计分析中，alpha水平设为5%;适用时采用单尾试验。Bonferroni-Holm方法[48]用于校正事后检验和探索性检验中多重比较的P值。

对于所有等效检验，根据所讨论的文献确定感兴趣的最小效应量。对于H1.2和相关的事后检验，感兴趣的最小效应大小被设置为比r=±0.20，这与社会科学中通常遇到的小但有意义的相关性的效应大小相对应[49]。对于H2.1和相关的事后检验，确定有意义的效应为Cohen效应d= 0.35。这种效应大小介于小效应之间(科恩)d=0.20)和中等效应(Cohend= 0.50) (49并且经常出现在社会科学中。对于H3.1，我们确定在诊断准确度相差±0.125点的情况下存在有意义的影响。这是基于假设诊断准确性的及格截止为0.50(范围从0到1)，并为假设的及格等级a - d设置4个相等的间隔。

动力分析

我们对相关样本进行了先验功率分析t测试(H1.1和H3.2)。这个功效分析是基于Cohen的小到中等效应d=0.30，双尾检验，误差概率为5%，功率为80%，结果为90名参与者的目标样本。此外，我们对单尾相关性进行了先验功率分析r=±0.25，误差概率为5%，功率为80% (H2.2-H2.3和H3.3)。这种能力分析的结果是计划的95名参与者的样本量。对86名受试者进行主等效性检验(H3.1)的事后功效分析，观察到Cohen的效应d=0.26，当误差概率为5%时，幂为78%。所有功率分析均使用G* power软件进行[50]。

控制变量的描述性统计和分析

描述性统计资料载于表3。感知真实性变量被评为非常高的sp和相对较高的副总裁。两种评估方法的认知负荷变量均为中等。平均诊断准确率为中等。sp的证据生成量高于vp。两种评估方法的证据生成质量均为中等。sp和vp对动机变量的评价都很高。事后比较显示，SPs的动机价值方面高于vp(双尾t)₈₃= 2.89;P= . 01;科恩d=0.31)，而期望方面在评估方法之间没有差异(双尾t₈₃= 0.44;P=点;科恩d= 0.05)。参与者在概念和策略知识测试中的表现略高于中等水平。多媒体附录5使用箱形图和蜂群图提供结果的额外可视化。

表3。描述性统计。

变量		两种方法的均值(SD)	SPs^一个，均值(SD)	VPs^b，均值(SD)
感知到的真实性^c		3.62 (0.67)	4.02 (0.67)	3.23 (0.84)
	真实性^c	3.71 (0.79)	4.13 (0.74)	3.28 (1.07)
	参与^c	3.82 (0.66)	4.03 (0.73)	3.61 (0.83)
	空间的存在^c	3.35 (0.80)	3.89 (0.83)	2.80 (1.05)
认知负荷^c		2.88 (0.61)	2.88 (0.74)	2.90 (0.69)
	内在的负载^c	3.18 (0.68)	3.20 (0.78)	3.14 (0.80)
	外部负载^c	2.84 (0.65)	2.82 (0.79)	2.87 (0.76)
	恰当的负荷^c	2.74 (0.76)	2.73 (0.88)	2.76 (0.84)
诊断能力
	诊断准确性^d	0.46 (0.18)	0.51 (0.28)	0.41 (0.24)
	证据生成量	22.26 (4.88)	29.01 (8.03)	17.34 (4.21)
	证据生成的质量^d	0.40 (0.11)	0.37 (0.18)	0.43 (0.13)
控制变量
	动机期望方面^e	5.07 (0.91)	5.10 (0.88)	5.05 (1.08)
	激励价值方面^c	4.44 (0.51)	4.54 (0.54)	4.34 (0.67)
	概念性知识^d	0.65 (0.14)	- - - - - -^f	- - - - - -
	战略知识^d	0.66 (0.15)	- - - - - -	- - - - - -

^一个SP:标准化患者。

^bVP:虚拟病人。

^c量表范围:1-5。

^d范围:0-1。

^e量表范围:1-7。

^f在参加SPs和vp之前对知识进行了评估。

感知真实性和诊断准确性(RQ1)

配对样本t检验表明，与假设H1.1一致，就综合得分而言，sp的感知真实性被认为高于vp(1尾t)₈₁= 11.12;P<措施;科恩d= 1.23)。事后测试表明，真实性(t)也是如此₈₀= 8.83;P<措施;科恩d=0.98)，介入(t₈₁= 4.60;P<措施;科恩d=0.51)，空间存在(t₇₉= 10.65;P<措施;科恩d= 1.19)。我们在H1.2中的期望是感知真实性与诊断准确性没有意义的关联。TOST相关程序显示，诊断准确性与综合感知真实性得分(r =0.05;P=.09)超出了有意义效应的等效范围r=±0.20。事后等效性测试表明，这也适用于诊断准确性与真实性的关系(r =0.03;P=.06)，参与程度(r =0.07;P=.11)和空间存在(r =0.05;P=。08)。用常规的单尾NHST测试重新分析这些相关性，也得出了综合得分的不显著结果(P=.32)，真实度(P=.39)，参与程度(P=.28)，空间存在(P= .33)。这些结果意味着既没有证据表明不存在有意义的相关性，也没有证据表明存在显著相关性。这些不确定的发现可能是由于样本量相对较小而缺乏统计效力[45]。

认知负荷与诊断准确性(RQ2)

我们在H2.1中假设，我们会发现sp和vp的认知负荷得分相等。对配对样本进行TOST程序的等效性检验表明，对于两种评估方法，综合认知负荷(t₈₂= 2.81;P= 0.003)均在Cohen效应的等效范围内d= 0.35。调整后的事后等效检验表明，内在负荷(t)也是如此₈₂=−2.47;P= 0.008)，无关负载(t₈₂= 2.55;P= 0.01)，相关性负荷(t₈₂= 2.64;P= . 01)。我们期望在H2.2-H2.3中揭示诊断准确性与内在认知负荷和外在负荷之间的负相关。假设，内在认知负荷(单尾)r =−0.30;P= 0.003)和外来负荷(单尾)r =−0.29;P= 0.003)与诊断准确性的综合评分负相关。调整后的探索性随访分析显示，相关性负荷(r =−0.25;P= 0.010)，认知负荷总分(r =−0.31;P= 0.004)也与诊断准确性的综合评分负相关。

评估方法与诊断能力(RQ3)

诊断准确性

在H3.1中，我们假设发现sp和vp的诊断准确性评分相等。H3.1首先通过应用配对样本TOST程序进行检查。根据我们的数据，我们不能拒绝假设H3.1，即两种评估方法(t)之间存在至少±0.125分(1级)的诊断准确性差异₈₅=−0.60;P=陈霞)。后续的3-way混合设计方差分析表明，无论是CG顺序还是评估方法顺序(F_{3, 82}= 2.49;P=点;η²分别为= 0.03,F_{3, 82}= 0.02;P= .88点;η²=0.01)对诊断正确率有显著影响。然而，评估方法本身产生了显著的主要影响(F_{3, 82}= 6.30;P= . 01;η²=0.07)，表明sp的诊断准确性高于VPs。SPs的诊断准确性高于vp的发现也与配对样本的结果相对应t检验(双尾t₈₅= 2.49;P= . 01;科恩d= 0.27)。

证据一代

H3.2支持学生使用SPs比使用vp表现出更多的证据生成量(单尾t)₆₉= 12.26;P<措施;科恩d= 1.47)。然而，在一项探索性的后续分析中，我们没有发现证据表明数量证据生成与诊断准确性相关(单尾)r =0.11;P=酒精含量)。这一发现同样适用于SPs (r =−0.09;P= 0.76)和vp (r =−0.10;P= .82)。此外，H3.3表示质量证据生成与诊断准确性正相关的两种评估方法均未得到支持(单尾)r =0.18;P= . 05)。然而，校正后的事后分析显示，证据生成的质量与副总裁的诊断准确性呈正相关(r =0.38;P<措施);这一发现并不适用于SPs (r =0.05;P=收)。额外的事后探索性分析显示，副总裁的证据生成质量高于SPs(双尾t)₇₄= -2.47;P= .02点;科恩d= 0.29)。

主要研究结果

关于感知真实性，我们的研究结果表明，sp和vp在真实性、参与和空间存在的所有三个维度上都取得了高分。尽管两种评估方法的感知真实性水平都很高，但在所有3个维度上，sp的感知真实性都高于vp。这一发现与文献一致，长期以来，文献一直声称SPs达到了非常高的感知真实性[18-20.]。到目前为止，其他关于感知真实性的研究主要集中在比较SPs、视频演示和文本小插图等格式以及副总裁的不同真实性水平[21]。我们的研究通过直接比较sp和vp关于3个常用的感知真实性变量来扩展这一文献。这种比较似乎特别相关，因为这两种评估形式正变得越来越流行。我们的发现感知真实性和诊断准确性之间的关系是混合的。相关性的等价性检验不显著;因此，我们无法证实感知真实性与诊断准确性没有意义相关的假设。然而，随后计算的感知真实性和诊断准确性之间的常规相关性接近于0。综上所述，这些非等效性和不显著性的发现表明我们没有足够的能力得出结论[45]。然而，我们发现一些迹象表明，感知真实性和诊断能力之间的相关性相当小。这一发现与文献综述[23，24]，该研究报告了感知真实性与表现之间的微小相关性。

关于认知负荷，我们发现使用相同临床病例的sp和vp的综合得分是相等的。这一发现证实了有关认知负荷主要取决于任务复杂性的文献[29]。此外，对于sp和vp来说，额外的负荷是相等的，这一事实表明，用户通过软件菜单进行交互并不会显著增加认知负荷。这一发现很重要，因为通过允许用户使用自然语言处理输入来减少认知负荷[21)仍然非常昂贵。我们的研究还补充到，如果在设计过程中系统地控制不同类型的认知负荷，作为评估方法，sp和vp的认知负荷水平是相似的。此外，我们证明了内在和外在的认知负荷与诊断准确性负相关。内在认知负荷的发现证实了材料和被评估者的专业知识之间的相互作用与表现有关。对外来认知负荷的研究表明，评估环境中不必要的特征会使记忆和注意力紧张，不利于评估环境中的表现。总之，这些发现与文献相吻合，文献反复报道了内在和外在认知负荷对医学教育中解决复杂问题的负面影响[27]和其他领域[51]。我们的研究表明，在基于模拟的诊断能力测量中，当总体认知负荷平均为中等时，内在和外在认知负荷与表现之间的负相关关系已经显示出来。

我们的研究没有发现证据表明SPs和vp的诊断准确性是相等的。相比之下，SPs的诊断准确性高于vp。迄今为止比较两种评估方法的研究较少[1，31，32]报告了中等相关性，没有考虑到不同的案例内容或测试时间。使用TOST程序作为一种新颖的方法学方法，我们的研究通过发现评分不相等来为文献做出贡献，因为参与者在基于模拟的评估中使用sp比使用vp获得更好的假设评分。一方面，我们不能排除这一发现可能是由SP评估中参与者的额外支持来解释的。为了避免和减轻这种影响，演员们接受了表演教练和医生的训练，记住了他们的症状和剧本，并且不知道他们的病例诊断。此外，学生助理筛选了所有的SP评估，并没有发现演员额外的系统支持。另一方面，这一发现可以用较低的动机价值评价和较低的证据生成量来解释。因此，解决副总裁病例的参与者可能参与度较低，并且可能收集到的支持其诊断过程的重要诊断线索较少。

与我们的预期相反，证据生成的质量与研究结果并没有正相关结合诊断准确性评分。对数据的仔细检查显示，证据生成的质量与诊断准确性正相关VPs。这种被证实的关系符合Heitzmann等人的理论假设[10]。在SPs然而，证据的质量与诊断的准确性无关。这一发现与Heitzmann等人的理论假设相矛盾[10]和使用SPs观察清单进行研究的实证结果[34]和真正的病人[36]。对于这些相互矛盾的发现，有两种解释。首先，作为一项探索性随访，证据生成的质量较差t试验表明，VPs高于SPs。这种更高质量的证据生成可能是由两种评估方法采用的历史过程略有不同造成的。与副总裁一起工作的参与者从菜单中选择问题。相比之下，与SPs一起工作的参与者在历史学习中自由地提出问题。其次，SPs本可以向证据生成质量较低的被评估人员提供额外支持，而副总裁则以完全标准化的方式对所有被评估人员作出反应。

限制

本研究的一个方法学限制可能是假设H1.2的分析和相关的事后分析的统计效力较低，这些分析处理了感知真实性变量与诊断准确性之间的关系。这种统计能力的缺乏主要归因于我们对相关性的调查r=±0.20或更极端存在。根据Lakens的建议[46]，根据文献中的发现选择最小的效应值。将感兴趣的最小效应大小指定为更大可能会增加效力，但不会为文献提供有价值的等效检验的结果。这是因为文献已经假设了一个很小的效应量[23，24]。

本研究的一个理论局限性是，感知真实性的结果可能不能不受限制地推广到其他相关的真实性概念。Shaffer等[15认为厚的真实性包括四个不同的方面。一个真实的任务、情境或材料应该:(1)存在于现实生活中;(2)有意义;(3)允许学习者从事该学科的专业活动;(4)在指导和评估方面进行相当相似。作者认为，只有当真实性的所有方面都足够充分时，才能实现厚真实性，并且副总裁可能实现与sp相似的真实性。Hamstra等[16提出使用术语物理相似性和功能任务一致性来区分保真度。作者报告了身体相似性和表现之间关系的弱证据，以及功能性任务一致性和表现之间关系的强证据。在我们的研究中，由于两个原因，没有测量厚真实性和保真度的概念。首先，在某种程度上，这些概念只能由外部专家来判断。其次，研究的重复测量设计迫使我们在sp和vp中保持诸如厚真实性、物理相似性和功能任务一致性等方面尽可能相似。然而，我们认为不同真实性概念与诊断能力之间的关系仍需要进一步研究。未来的研究应尝试通过系统地测量不同的真实性概念与诊断能力之间的关系。

结论

我们关于感知真实性和诊断准确性之间关系的研究结果有助于在基于绩效的评估中关于感知真实性的成本和收益的辩论。这些结果相对化了感知真实性在评估中的重要性。将评估方法的真实性提高到一定的必要门槛以上，从而提高评估方法的成本[23似乎并没有多大的好处。这样的开支可能会浪费很大一部分医学教育预算[52可以用于更有价值的用途。我们对认知负荷的研究结果强调了它在评估设置中作为过程变量的重要性。因此，基于绩效的评估应试图减少外部负荷，控制内在负荷，以标准化的方式衡量绩效，但仍接近临床实践[53]。

最后，关于诊断能力的研究结果有一些实际意义，如果在评估中使用副总裁作为sp的替代方案。特别是，我们发现副总裁可能导致诊断准确性得分低于SPs，这反过来会对学生的成绩产生负面影响。有两种不同的机制可以解释这一发现:sp评估可能高估真实表现，而vp评估可能低估真实表现。根据SPs高估的表现，我们不能排除演员的额外支持。事实上，sp中证据生成质量与诊断准确性之间的低且不显著的相关性，以及sp中较高的诊断准确性，可能表明行为者提供了一些额外的支持(例如，向证据生成质量较低的参与者)。细心训练[54因此，筛选似乎非常重要，以避免在SP评估过程中来自参与者的额外支持，以匹配副总裁提供的高水平标准化。可能低估副总裁绩效的机制可以通过发现副总裁较低的动机值和证据生成量来证实。我们建议采取以下措施:通过更多的互动环境(例如使用自然语言处理)或在评估后直接提供自动化的详细反馈来激励学生进行VP评估。此外，在实践中使用基于菜单的vp时，可以延长评估时间。这样，证据生成的数量可以提高到与SP评估相似的水平。

致谢

作者们要感谢Hannah Gerstenkorn，她开发了这些案例。此外，作者要感谢Ana Maria Semm, Renke Biallas, Jessica Feichtmayr和Johannes Kissel协助进行研究和分析数据，以及Keri Hartman的校对。最后，第一作者(M Fink)要感谢Larissa Kaltefleiter的建议。这项工作是由德国研究协会(Deutsche Forschungsgemeinschaft;项目编号FOR2385)。

作者的贡献

M Fink撰写了手稿的初稿，参与了研究的进行，并进行了数据分析和可视化。VR参与了研究的进行，并提供了反馈和编辑。M Stadler进行数据分析和可视化，并提供反馈和协助编辑。M Siebeck构思和设计了这项研究，提供了反馈和编辑，并获得了资金。FF对研究进行概念化和设计，提供反馈和编辑，并获得资金。Fischer构思和设计了这项研究，提供了反馈和编辑，并获得了资金。所有作者都同意提交最终稿件。

利益冲突

没有宣布。

‎

多媒体附录1

所有条件下的参与者特征和CONSORT(综合报告试验标准)风格的参与者流程图。

DOCX文件，55kb

‎

多媒体附录2

概述实验程序和模拟阶段。

DOCX文件，22 KB

‎

多媒体附录3

表格中包含所有虚拟患者提供的问题。这些问题被划分为主要症状、既往史、过敏和药物、社会和家族史、系统回顾等5个问诊类别。

DOCX文件，27kb

‎

多媒体附录4

真实性量表、认知负荷量表、诊断准确性编码方案、证据生成质量编码方案、动机量表和诊断知识测试的细节。

DOCX文件，33 KB

‎

多媒体附录5

标准化患者和虚拟患者的真实性、认知负荷和临床推理变量的箱形图和蜂群图。

DOCX文件，73 KB

Edelstein RA, Reid HM, Usatine R, Wilkes MS.医学生绩效评价指标的比较研究。中国生物医学工程学报，2009,31(8):825-833。(CrossRef] [Medline]
程序化病人:临床神经学学生表现评估技术。中华医学杂志(英文版);2004;9(3):391 - 391。(Medline]
M, Hult H, Tessma MK, Fors UGH。用于学习和评估的虚拟患者模拟:与常规课程考试相比，效果更好。医学教学;2010;32(10):845-850。(CrossRef] [Medline]
Vu NV, Barrows HS。在临床评估中使用标准化患者:最近的发展和测量结果。教育研究者2016年7月;23(3):23-30。(CrossRef]
张建军，张建军，张建军。临床能力评价方法的研究进展。中国生物医学工程学报，2003;22 (3):447-451 [J]免费全文] [CrossRef] [Medline]
模拟器和基于模拟的医学教育。医学教师实用指南。卷。2。第3版。阿姆斯特丹:Elsevier;2009.
德特里。基于计算机模拟的教学。见:《学习与教学研究手册》。纽约:劳特利奇出版社;2011:446 - 466。
Villaume WA, Berger BA, Barker BN。学习动机访谈:编写一个虚拟病人的脚本。中华医学杂志2006;47 (2):33 [J]免费全文] [CrossRef] [Medline]
Setrakian J, Gauthier G, Bergeron L, Chamberland M, St-Onge C.虚拟患者和临床教育者对医学生历史记录技能评估的比较:探索性描述性研究。中华医学杂志，2020;6(1):14428 [j]免费全文] [CrossRef] [Medline]
Heitzmann N, Seidel T, Hetmanek A, Wecker C, Fischer MR, Ufer S，等。促进高等教育模拟诊断能力的框架和研究议程。前沿学习研究2019 12月3:1-24。(CrossRef]
通过计算机支持的、基于案例的工作实例培养诊断知识:错误实例和反馈的影响。医学教育，2008;42(8):823-829。(CrossRef] [Medline]
刘建军，刘建军，刘建军，刘建军。基于模拟的学习模式在高等教育中的应用。教育研究导报，2015,30(4):559 - 561。(CrossRef]
Cook DA, Brydges R, Hamstra SJ, Zendejas B, Szostek JH, Wang AT，等。技术增强模拟与其他教学方法的比较效果:系统回顾和元分析。电子医学学报，2012;7(5):308-320。(CrossRef] [Medline]
李建军，李建军，李建军，等。存在体验的因素分析。远程操作与虚拟环境;2001;10(3):266-281。(CrossRef]
[j]，王志强，王志强。新媒体与真实学习。[J] .中文信息学报，1999;10(2):195- 196 [J]免费全文]
刘建军，刘建军，刘建军，刘建军。重新考虑仿真训练中的保真度。中华医学杂志，2014,31 (3):387-392 [j]免费全文] [CrossRef] [Medline]
Hofer M.存在和参与。第1版。Baden-Baden: Nomos;2016:978 - 973。
巴罗斯海关。使用标准化患者教学和评估临床技能的概述。对象。中华医学杂志，1993,32(6):563 - 568。(CrossRef] [Medline]
luctka - fluude M, wilsonkeates B, Larocque M.高保真人体模拟器和标准化患者在本科护理健康评估课程中的评价。护理教育，2012年5月;32(4):448-452。(CrossRef] [Medline]
Rethans JJ, Sturmans F, Drop R, van der Vleuten C.通过使用标准化(模拟)患者来评估全科医生的表现。[J]中华医学杂志;2001;31 (3):97-99 [免费全文] [Medline]
Friedman CP, France CL, Drossman DD.临床模拟的随机比较。医学诊断1991;11(4):265-272。(CrossRef] [Medline]
Padgett J, Cristancho S, Lingard L, Cherry R, Haji F.订婚:对什么有好处?医疗保健模拟情境中学习者参与的角色。健康科学教育理论与实践2019;10;24(4):811-825。(CrossRef] [Medline]
李建军，李建军。模拟逼真度与学习迁移的关系研究。医学教育，2012;46(7):636-647。(CrossRef] [Medline]
Schoenherr JR, Hamstra SJ。超越保真度:解构卫生保健专业中基于模拟器的教育中保真度的诱人简单性。中国生物医学工程学报，2017;12(2):117-123。(CrossRef] [Medline]
La Rochelle JS, Durning SJ, Pangaro LN, Artino AR, van der Vleuten CPM, Schuwirth L.教学真实性与学生表现的前瞻性随机试验。医学教育，2011;45(8):807-817。(CrossRef] [Medline]
Sweller J, van Merrienboer jjj, Paas FGWC。认知架构与教学设计。教育心理学评论1998;10(3):251-296。(CrossRef]
杨建军，范梅里恩布尔，邓宁。认知负荷理论:对医学教育的启示:中国医学教育学会导刊第86期。医学教学2014;36(5):371-384。(CrossRef] [Medline]
Dankbaar MEW, Alsma J, Jansen EEH, van Merrienboer jjj, van Saase JLCM, Schuit SCE。模拟游戏对学生临床认知技能及动机影响的实验研究。健康科学教育理论与实践2016;21(3):505-521 [j]免费全文] [CrossRef] [Medline]
Haji FA，张JJH, Woods N, Regehr G, de Ribaupierre S, Dubrowski A.繁荣还是过度?任务复杂度对新手模拟学习的影响。医学教育，2016;50(9):955-968。(CrossRef] [Medline]
杨M, Thomas A, Lubarsky S, Ballard T, Gordon D, Gruppen LD，等。划定界限:界定临床推理的困难。中华医学杂志，2018;33(7):990-995。(CrossRef] [Medline]
Guagnano MT, Merlitti D, Manigrasso MR, Pace-Palitti V, Sensi S.使用基于计算机的病例模拟和标准化患者的新医疗执照考试。中华医学杂志，2002,31(1):87-90。(CrossRef] [Medline]
Hawkins R, MacKrell Gaglione M, LaDuca T, Leung C, Sample L, Gliva-McConvey G，等。使用基于计算机的病例模拟和标准化患者评估执业医生的患者管理技能和临床技能。医学教育2004;38(9):958-968。(CrossRef] [Medline]
胡丽，陈刚，李鹏，黄娟。论文撤稿:多媒体效应在问题解决中的meta分析。心理教育学报，2019;32(3):901。(CrossRef]
Stillman PL, Swanson DB, Smee S, Stillman AE, Ebert TH, Emmel VS，等。住院医师与标准化患者临床技能评估。中华医学杂志，2001,11(5):762-771。(CrossRef] [Medline]
伍利斯克夫特乔，Calhoun JG, Billiu GA, Stross JK, MacDonald M, Templeton B.医院官员访谈技术:数据获取和患者感知的影响。中华临床医学杂志1989;4(2):108-114。(CrossRef] [Medline]
因为电脑软件。2018.URL:https://www.instruct.eu/en/[2021-01-30]访问
Bornemann BM。德国学生医学培训中记录病史和体格检查的内外科文件形式:内容和结构分析。迪斯。深圳:深圳医学发展与发展研究所Ludwig-Maximilians-Universität深圳医学研究所;2016.URL:https://edoc.ub.uni-muenchen.de/19166/1/Bornemann_Barbara.pdf[2021-02-16]访问
Seidel T, st rmer K, Blomberg G, Kobarg M, Schwindt K.教师从课堂录像情景分析中学习:教师观察自己的教学与观察他人的教学有区别吗?教学与教师教育2011年2月;27(2):259-267。(CrossRef]
冯德华，王晓华，王晓华，王晓华，王晓华，等。MEC空间存在问卷(MEC- spq):简短的文件和应用说明。向欧洲共同体报告，项目存在:MEC (IST- 37661)。2001.URL:http://www.ijk.hmt-hannover.de/presence[2021-01-30]访问
B.验证。基于Microworlds的实验室研究存在感测量2014:51-61。(CrossRef]
除了教学设计之外，还有更多的问题:个体学习者特征在超媒体学习中的作用。柏林:Logos Verlag;2008:1 - 295。
李建军，李建军，李建军，等。大学生学习动机的研究进展与展望。中华诊断学杂志2001;47(2):57-66。(CrossRef]
魏德华。成就动机的期望价值理论:一个发展的视角。心理教育，1994;6(1):49-78。(CrossRef]
Schmidmaier R, Eiber S, Ebersbach R, Schiller M, Hege I, Holzer M，等。在医学院学习的事实是不够的:哪些因素预示着程序性知识在实验室环境中的成功应用?中华医学杂志2013年3月22日;13(1):28 [j]免费全文] [CrossRef] [Medline]
Lakens D, Scheel AM, Isager PM。心理学研究的等效测试:教程。心理科学方法与实践进展[j]; 2018;1(2):259-269。(CrossRef]
等效测试:一个实用的入门测试，相关性，和元分析。社会心理与个人科学2017;8(4):355-362 [j]免费全文] [CrossRef] [Medline]
R统计计算基础。[计算机软件]。维也纳，奥地利:R统计计算基金会;2019.URL:https://www.r-project.org/[2021-02-16]访问
一个简单的顺序拒绝多重测试程序。斯堪的纳维亚J Stat. 1979。URL:https://www.jstor.org/stable/4615733?seq=1[2021-02-16]访问
科恩。行为科学的统计能力分析。第二版。希尔斯代尔:劳伦斯·厄尔鲍姆;1988.
G*电源计算机软件。2014.URL:https://www.psychologie.hhu.de/arbeitsgruppen/allgemeine-psychologie-und-arbeitspsychologie/gpower.html[2021-01-30]访问
Sweller J, van Merriënboer JJG, Paas F.认知架构与教学设计:20年后。心理教育学报，2019,1(2):261-292。(CrossRef]
中高保真度人体病人模拟模型在护理教育中的成本效用分析。临床护理杂志，2011;20(23):3543-3552。(CrossRef] [Medline]
米勒通用电气。临床技能/能力/表现的评估。中华医学杂志1990年9月;65(增刊):S63-S67。(CrossRef] [Medline]
Lewis KL, Bohnert CA, Gammon WL, Hölzer H, Lyman L, Smith C，等。标准化患者教育者协会(ASPE)最佳实践标准(SOBP)。模拟模拟(视频)2017;2:10 [免费全文] [CrossRef] [Medline]

‎

重心:病例组

NHST:零假设显著性检验

SP:标准化病人

烤面包:2个单独的单侧检验

副总裁:虚拟病人

G·艾森巴赫、R·库卡夫卡编辑;提交25.06.20;J b张，P Bergl, A Kononowicz, S Edelbring的同行评审;对作者08.08.20的评论;收到01.10.20修订版本;接受27.12.20;发表04.03.21

©Maximilian C Fink, Victoria Reitmeier, Matthias Stadler, Matthias Siebeck, Frank Fischer, Martin R Fischer。原载于医学互联网研究杂志(//www.mybigtv.com)， 2021年3月4日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

标准化患者与虚拟患者的诊断能力评估:病史采集背景下的实验研究

标准化患者与虚拟患者的诊断能力评估:病史采集背景下的实验研究

原始论文

通讯作者:

摘要

关键字

介绍

标准化患者和虚拟患者的绩效评估

模拟诊断能力评估的框架

知觉真实性与sp和vp的诊断能力

sp和vp的认知负荷与诊断能力

评估方法和诊断能力

诊断准确性

证据一代

研究目标、研究问题和假设

方法

参与者特征和抽样程序

研究设计

程序和材料

测量和协变量

感知到的真实性

认知负荷

动机、诊断知识和其他控制变量

诊断能力

诊断准确性

证据一代

建设规模

统计分析

动力分析

结果

控制变量的描述性统计和分析

感知真实性和诊断准确性(RQ1)

认知负荷与诊断准确性(RQ2)

评估方法与诊断能力(RQ3)

诊断准确性

证据一代

讨论

主要研究结果

限制

结论

致谢

作者的贡献

利益冲突

参考文献

缩写