这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在JMIR医学教育上,并适当引用。必须包括完整的书目信息,到http://mededu.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。
虚拟病人(VP)是一个有用的工具,可以促进病史记录技能的发展,而不受床边环境的固有限制。虽然副校长有希望为学生技能的发展做出贡献,但记录和评估通过副校长获得的技能是一项挑战。
我们提出了一个在VP软件中自动评估病史的框架,然后通过将VP分数与10名临床医生-教育工作者(ce)的判断进行比较来测试该框架。
我们建立了4个要评估的病史领域(广度、深度、逻辑顺序和访谈技术),并将其应用到特定的副总裁环境中。共有10名ce观看了3名学生的屏幕录音,首先评估他们在全球范围内的表现,然后评估他们在4个领域的表现。
副总裁给出的分数略高,但与首席执行官在整体表现、深度、逻辑顺序和采访技巧方面给出的分数相当。在广度方面,3名学生中有2名的VP得分高于CE得分。
研究结果表明,副总裁评估的结果类似于ce产生的结果。开发一个在特定环境中构成良好历史记录性能的模型,可以让我们深入了解ce通常是如何看待评估的。
虚拟病人(VPs)越来越多地用于卫生专业教育(HPE) [
开发和衡量具体的学习成果是具有挑战性的,原因有很多,包括HPE中解决复杂问题的方法的内在可变性[
与教师的判断相一致的评估可以成为VP软件使用的一个组成部分(1)由学习者进行个人练习,由VP对表现进行反馈,(2)由教师作为说明和评估的工具。副总裁可用于评估推理和面试技巧[
我们的目标是开发并在VP中实现医学生历史记录技能的自动评估,并记录该评估如何与临床医生-教育工作者(ce)的观点相一致。
病史是做出正确诊断的核心,无论是真实的还是模拟的患者[
在这些工具中评估的项目是广泛的,需要人类的判断来评估。例如,“拾取线索”是剑桥-卡尔加里模型中“收集信息”部分的一个项目。“收集信息”所涵盖的项目对于ce来说可能是不言而喻的,但是将它们转换为自动评估是很复杂的。例如,VP软件可以用来评估学生是否掌握了语言线索。要做到这一点,必须首先使用模拟中的特定实例对副总裁进行编程,在此过程中,患者给出了必须拾取的口头线索。然后,该软件可以记录学生的信息
在副总裁开发自动评估的过程中,需要一个框架,以ce评估历史的方式为模型。然后,从这个框架中,可以将具体的实现规则编程到VP中,以向学习者提供有关表现的反馈(形成性评估)。这种框架一旦确立,最终可能导致开发更多的评价工具(总结性评价)。
我们开发了一个框架,通过将其广泛的组成部分分解为可操作的目标度量,来精确地表达在历史中评估的技能。为了探索这些措施是否可以以前面概述的方式使用,我们测试了它们是否与ce的评估具有可比性。阐明我们如何评估这些技能,进一步加深了我们如何通过卡尔加里-剑桥模型等工具评估床边病史的知识。
本研究的目的如下:(1)提出一个通过VP软件评估病史记录技能的框架;(2)利用该框架检验VP评估与ce评估的一致性。
我们的目标首先是澄清对病史采集技能的期望和假设,探索在病史采集背景下可接受的表现范围[
基于多年来评估学生床边技能的经验,如HTRS、MAAS、BIC和卡尔加里-剑桥模型所描述的技能,并通过与加拿大大学同事的反复磋商,首席研究员(JS)开始将这些技能分解成一个框架,其中包括可自动化的特定实例和行为,从而可编程为VP。这些被分为4个领域:数据收集的广度、数据收集的深度、问题的逻辑顺序和访谈技巧。然后调整这些域以实现到特定的VP环境中。看到
病历记录技能的虚拟病人评估框架。
域 | 描述 | 实施规则 | |
|
|
|
|
|
数据收集的广度 | 探索的程度,以找到所有相关的问题领域,在病人的情况 | 确定的症状:占相关症状总数的百分比 |
|
|
|
|
|
数据收集深度 | 探索的程度,以找到有关每个问题领域的所有相关细节 | 询问有关症状的详细信息:在VP中编程的详细信息总数中所占的百分比一个 |
|
|
|
|
|
问题顺序 | 通过相关诊断可能性反映思维的逻辑序列 | 鉴别症状的总体顺序和可选序列的差异评分(见 |
|
|
|
|
|
组成部分(a):适当使用一般性问题 | 询问适用于每个症状的一般细节,如持续时间、严重程度、病程和诱发因素 | 一般问题:占总问题的百分比-按行政长官制定的范围评分b |
组件(b):适当使用转换语句 | 适当使用过渡语句,如“是”、“不是”、“让我问你几个问题”和“这很正常”。理想的数量因情况而异 | 开场白和后续问题、打断、是或否的回答、安慰和过渡陈述;- >按行政长官制定的评分范围评分 | |
组件(c):适当的流程 | 避免在没有明显理由的情况下从一个主题跳到下一个主题,或者在转移到另一个主题之前没有充分探索某些领域 | 学生从一类问题(如GI)到另一类问题(如心脏)的通过次数-根据CE设定的可接受数字得分为> | |
组件(d):成功处理KIEc | 需要理解隐性交流规则的一系列事件或实例的组合(线索、误解、切题的答案、不完整的答案、模糊的答案、不精确的答案) | 如果在任何给定的KIE中遇到事件,则对事件的成功或失败进行二进制评分 |
一个VP:虚拟病人。
bCE: clinician-educator。
cKIE:面试的关键要素。
前两个领域(即广度和深度)涉及数据收集的完整性。是否获得了患者的所有症状,是否获得了足够的细节?在床边教学过程中,尽管ce不知道患者的所有症状及其细节,但他们通常会对学生的彻底程度做出判断。对于副总统,我们将广度定义为学生确定的副总统症状(如头晕、苍白、疲劳、小便)的百分比,深度定义为确定的程序化症状细节的百分比(例如,头晕持续3周,站立时更糟,第一次,没有失去意识)。
第三个领域,问题的逻辑顺序,反映了ce对学生通过鉴别诊断导航的判断。虽然诊断推理不能直接评估,但通过对症状的一系列质疑,可以对学生的推理进行推断。例如,在发现咳嗽后立即询问发烧,这被视为间接证据,表明学生考虑到咳嗽的传染性原因的可能性。在不将“正确”序列完全限制为专家路径的情况下,VP评估将不同的分数附加到探索2、3、4或5个症状的各种可选序列中,以反映这种诊断推理评估。
第四个领域是访谈技术,它由四个部分组成。前三个组成部分,即通用问题与系统特定问题的组合使用、转换语句和主题之间的跳跃次数,见
前面描述的4个领域中的每一个都被实现到VP中,以提供4个不同的评分和一个全局评分:虚拟患者广度评分(VP - bs),虚拟患者深度评分(VP - ds),虚拟患者逻辑序列评分(VP - lss),虚拟患者访谈技术评分(VP - its),以及虚拟患者全局评分(VP - gs)。虽然VP被编程为从其数据中提供领域分数,但是分数组成部分的相对重要性和特定错误的阈值被留下来适应使用的教育背景。
在这项探索性描述性研究中,我们阐述并测试了一个评估副总裁病史记录技能的框架。首先,我们将这个框架实现到一个特定的副总裁中,然后将副总裁分配的全局和领域分数与10个经验丰富的CE参与者分配的分数进行比较。这项研究得到了我们机构伦理委员会的批准。
采用方便抽样的方法,共招募了10名来自加拿大医学部的普通内科医生。样本包括6男4女,平均(SD)为16.5年(9.2年)的医学专业实践,平均(SD)为14.3年(8.3年)的评价医学生的历史。没有一个与会者参与导致副主席方案拟订的拟订或协商工作。所有参与者都同意参加这项研究。
以3名医三学生采访某结肠癌临床病例副总裁的截屏视频作为刺激。采用方便抽样的方式招收学生。这些截图视频是用Camtasia Studio 7制作的,以保护学生的匿名性。共有2名学生在四年制医学课程的前三个月,1名学生在最后三个月。每个学生都单独会见,并签署了一份同意书,授权在研究项目中使用记录的数据。
每个学生首先被介绍给这个软件。对屏幕界面的每个部分以及导航框进行了解释。学生有10分钟的时间自由浏览并熟悉软件。然后,这名学生被邀请从副校长那里获得一份病史,就像他或她在入院时对真正的病人所做的那样。在30分钟的时间限制内,学生被要求按照自己的节奏走,而不是“与时间赛跑”。学生们很容易地使用了软件的所有组件,没有要求进一步的解释。虽然软件允许学生在最后输入他们最可能的诊断,但在他们输入诊断之前,截图记录被中断,因为这不是CE评估的重点。
两个团队成员(JS和CS)为CE开发了一个评级工具。评分量表反映了VP中实现的评估方案,具有全局表现分数和每个领域的分数(广度、深度、逻辑顺序和访谈技巧)。每个分数用一个问题来描述。CE参与者必须在描述性10厘米视觉模拟量表上提供3个描述符:两端各1个标记为“低于平均水平”和“高于平均水平”,中间1个标记为“平均”(见
作者进行了一项调查,收集行政会议参与者的集体评估做法。更具体地说,调查记录了(a)全球得分的相对领域权重(广度、深度、逻辑顺序、访谈技巧),(b)访谈技巧元素的权重(具体实例、陈述句的使用、一般性问题的使用、主题之间的跳跃次数),以及(c)在(1)陈述句的使用、(2)一般性问题的使用、(3)主题之间的跳跃次数等方面的可接受和理想范围。
为协助行政长官参加者更好地理解所使用的一些术语(例如“具体例子”),以及如何表达上限和下限,调查包括定义、例子和视觉辅助工具(见
开发VP是为了在病史采集过程中为学生提供诊断推理和访谈技巧方面的反馈。
该软件由作者(JS)开发,涉及三个临床病例,包括一个结肠癌病例,他是一名CE,提供教学设计和内容(例如,问题/回答,小组组成部分)。2002年至2006年期间,蒙特利尔麦吉尔大学教学交流中心提供教学设计、平面设计支持以及Java编程。该软件使用一组预先确定的问题用于面试。视频答案被创建为一组默认答案,由一位女演员提供,用于向医疗采访者提供所有问题。一些烦恼、恼怒或焦虑的反应也被记录下来,使访谈更加真实。对3个临床病例的具体回答被记录下来,根据每个临床情况替换为默认问题。
屏幕界面由各种面板组成(参见
软件中可用的问题(大约500个)分为3个主要类别(由前面显示的不同面板说明)和回复和评论面板。第一类(背景)包括病史、药物、过敏、免疫、家族史、习惯、近期旅行和社会史等问题。第二类列出
当病人透露她的症状或她的病史项目时,它们出现在“活动问题”列表中。项目可以随时在“活动问题”和“非活动问题”列表之间移动(拖拽)。当学生准备好了,他或她可以点击“做出诊断”,并在诊断列表中选择一个或多个项目。
虚拟病人屏幕界面。
一名研究助理与行政会议参加者会面2小时。在对模拟和项目进行简要介绍后,CE参与者有5分钟的时间自行浏览模拟软件,以熟悉界面和问题的选择。
然后,向CE参与者提供了关于广度、深度、逻辑顺序和访谈技巧的简明和非定量定义,而没有透露相应的VP操作定义。在看完每个学生的屏幕录音后,他们被要求使用
的数据
每个参与者在视觉模拟量表上的反应被转换成满分100分,用尺子测量被调查者的笔标记的位置,10厘米代表100%。10名CE参与者在评估网格上提供的总体表现、广度、深度、逻辑序列和访谈技术得分的平均值构成CE得分(分别为临床医生-教育者整体得分[CE - gs]、临床医生-教育者广度得分[CE - bs]、临床医生-教育者深度得分[CE - ds]、临床医生-教育者逻辑序列得分[CE - lss]、临床医生-教育者访谈技术得分[CE - its])。
学生的成绩,从VP和CE,呈现在
总体而言,副总裁提供的分数略高,但与CE分配的整体表现和深度,逻辑顺序和访谈技巧领域的分数相当。在广度方面,VP得分较高,不属于学生A和C的CE分数范围。在面试技巧方面,包括4个组成部分,只有学生C的VP得分不在CE分数范围内。
箱形图显示每个学生和每个分数的虚拟患者和临床医生-教育者分数。
我们在一个特定的副总裁中实现了一个框架,通过将广泛的技能分解为小的评估点来评估病史,然后根据10个ce的判断对框架进行测试。我们的研究结果表明,通过这样一个框架,VP的评估可以产生类似于CE产生的分数。我们讨论了我们的结果,并就拟议的评估方案及其实施反映了每个领域的相关性。
使用VP内嵌的评估框架来评估病史记录技能的一个优点是评估的可靠性[
VP-GS是从4个领域得分计算出来的,尽管根据CE参与者的调查校准了相对权重(见
3名学生中有2名的副总统广度得分,即对副总统各种症状的全范围识别,高于CE给出的广度得分。VP分数仅仅是学生识别的症状占被编程的症状总数的百分比。与副总裁不同的是,CE不知道所编制的症状总数,并对这类患者可能出现的其他症状做出判断。VP - bss和CE - bss之间的差异可能有两个主要原因:(1)VP可能没有被编入足够多的症状,无法真实地代表这类患者;(2)CE可能期望对一般症状提出更广泛的问题,即所谓的“系统审查”。在学生反复使用该病例并咨询了CE后,我们没有发现遗漏的细节,这些细节本应被编入副总裁的程序,这表明,与其副总裁症状太少,CE更希望将系统审查作为任何病史的一部分。值得注意的是,所有10名CE参与者都是全科内科医生,他们可能在自己的实践中采用这种全科方法。副总裁评价系统没有考虑到对制度的审查。
VP的深度分数,即每个VP症状的详细程度,在ce给出的分数范围内。同样,VP分数只是学生识别的症状细节占编程的症状细节总数的百分比。行政长官的判断与这个简单比率一致的事实表明,行政长官能够估计学生错过或没有错过的症状细节。
逻辑序列的VP分数反映了通过相关诊断可能性进行的系统思维,与CE给出的分数范围很好地一致。副总裁的实现比广度或深度的实现要复杂得多,因为它涉及到为与副总裁症状相关的许多潜在问题序列分配不同的分数。事实上,这个领域需要一套规则,这些规则反映了所有复杂问题解决的存在,不仅仅是一个所谓的专家路径,而是几个可接受的路径来达到诊断。此外,与前两个不同,这个领域的分数不能通过学生简单地点击尽可能多的问题来提高,因为分数取决于问题的顺序,而不是问题的数量。
面试技巧的VP分数是4个组成部分的组合(适当使用一般性问题、过渡、流程和对问题的处理),在学生a和B的CE分数范围内,学生c的分数略低。这是另一个复杂的衡量标准,它已经使用CE建议的范围进行了校正,以确定主题之间的跳跃次数、过渡语句的使用、以及通用问题和特定问题的使用,似乎提供了低于相应CE分数的VP分数。VP分数是二元的,在CE建议的理想和可接受范围的应用中可能过于限制。
10位消费者对研究调查的回答记录了他们对总体得分的相对领域权重(广度、深度、逻辑顺序和访谈技术),他们对访谈技术要素的权重(具体实例、陈述句的使用、一般性问题的使用和主题之间的跳跃次数),以及他们对陈述句的使用、一般性问题的使用和主题之间的跳跃次数的可接受和理想范围(参见
开发一个评估历史记录技能的框架,将其编程为VP,并将VP分数与ce的判断进行比较,使我们能够反映所建议的框架及其在特定VP中的实现。例如,当我们反思副总裁如何低估广度分数时,我们知道我们可能错过了由ce定义的广度元素,可能是对系统的更广泛的审查,如前所述。因此,我们正在考虑将学生通过特定问题探索的系统数量的额外组成部分(例如,心血管,肾脏)整合到副校长的领域分数中。类似地,当我们在考虑框架的实现时,我们希望检查如何计算可接受的通用问题或转换语句的数量范围。我们可能需要尝试使用增量截止值来更好地反映CE的判断和结果分数,而不是使用离散截止值(例如,根据CE调查的平均值,小于26.4%的截止值为零)。
许多与副总裁相关的研究都集中在他们对知识获取和技能的影响上[
该研究的CE和VP比较结果是初步的,因为它们包括使用单一案例和有限数量的学生表现。我们的结果需要在其他案例和更多的受众中进行测试。实习级别的医学生是这个处理诊断推理和面试技巧的特定VP软件的目标受众,结果可能不适用于不同级别的学生和其他评估,如沟通技巧和肢体语言。除了学生人数少之外,他们的小范围也代表了另一个限制。这3名学生没有出现高质量和低质量的极端表现。使用更大的学生池并有目的地选择特定的表演来验证广泛的表演范围将使我们能够更好地测试VP分数的区分能力。此外,这个副总裁软件并不是为了评估病历记录技能中固有的非语言沟通技巧,而是更多地关注收集信息的其他方面,作为医疗面试的一部分。
我们开发了一个评估病史记录技能的框架,并将其编程到VP软件中,该软件与我们小型观察性研究中ce的评估相一致。通过迭代过程,我们的研究还提供了ce如何评估特定的病史领域的见解,使我们能够进一步完善编程到VP的方案。我们的研究结果表明,一些通常在床边进行评估的技能可以通过软件进行评估,前提是通过一系列逻辑序列而不是“专家路径”来灵活判断推理,并且“获取线索”等广泛的描述性术语可以转化为可操作的,学生和副校长可观察到的行为,然后专门编程,包括要求学生通过参与特定行为来展示这些技能的情况(如澄清,跟踪线索,提出合乎逻辑的问题顺序,使用开放式问题)。随着越来越多的副校长和持续不断的咨询与交流,可以期望产生一代副校长,他们可以向学习者提供反馈,并协助教师评估他们的表现。
对症状识别的总体顺序和替代顺序进行差异评分。
评级工具。
评估实践调查。
每个领域和组成部分的平均权重,以及临床医生-教育者参与者给出的领域和组成部分的可接受和最佳范围的平均限制。
布朗面试清单
clinician-educator
clinician-educator-breadth得分
clinician-educator-depth得分
clinician-educator-global得分
临床医生-教育者-访谈技术评分
临床医生-教育者-逻辑序列评分
卫生专业教育
历史评定量表
关键面试要素
马斯特里赫特历史记录和建议清单
虚拟病人
虚拟病人广度评分
虚拟病人深度评分
虚拟患者整体评分
虚拟病人访谈技术评分
虚拟患者逻辑序列评分
这个项目是由
没有宣布。