发表在10卷,第8号(2022): 8月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/38155,首次出版
全髋关节置换术中常用数据元素检测的自然语言处理算法的多中心验证:算法开发和验证

全髋关节置换术中常用数据元素检测的自然语言处理算法的多中心验证:算法开发和验证

全髋关节置换术中常用数据元素检测的自然语言处理算法的多中心验证:算法开发和验证

原始论文

1美国密西根大学计算医学与生物信息系,密西根州安娜堡

2人工智能与信息部,梅奥诊所,罗切斯特,MN,美国

3.美国密歇根州安娜堡市密歇根大学骨科

4美国爱荷华州爱荷华市爱荷华大学内科与流行病学学系

5骨科,梅奥诊所,罗切斯特,MN,美国

6美国密歇根州安娜堡市密歇根大学医学院学习健康科学系

7美国密歇根州安娜堡市密歇根大学信息学院

通讯作者:

VG Vinod Vydiswaran博士

学习健康科学系

医学院

密歇根大学

英格尔斯街300号NIB 1161F

密歇根州安娜堡,48109

美国

电话:1 734 647 1207

传真:1 734 647 3914

电子邮件:vgvinodv@umich.edu


背景:自然语言处理(NLP)方法是从自由文本数据中提取和分析关键信息的有力工具。MedTaggerIE是一个基于文本模式的信息提取的开源NLP管道,已广泛应用于临床笔记的注释。基于MedTaggerIE开发的基于规则的系统,medtagger -全髋关节置换术(THA),先前已被证明可以正确识别手术方法固定,轴承表面梅奥诊所的THA手术记录

摘要目的:本研究旨在评估MedTagger-THA在密歇根医学院和爱荷华大学两家外部机构的可实施性、可用性和可移植性,并为最佳实践提供经验教训。

方法:我们使用三个相关站点执行了迭代的测试-应用-细化过程——开发站点(Mayo Clinic)和两个部署站点(Michigan Medicine和University of Iowa)。梅奥诊所是主要的NLP开发地点,以THA注册为黄金标准。两个部署地点的活动包括摘录执行部分说明、制订金标准(密歇根:登记数据;爱荷华州:手工图表审查),NLP算法对训练数据的改进,以及测试数据的评估。进行了错误分析,以了解不同地点的语言差异。进一步评估模型的特异性方法固定我们将改良的MedTagger-THA应用于关节镜下髋关节手术和髋臼周围截骨手术,因为这两种手术记录都不应包含任何内容方法固定关键词。

结果:MedTagger-THA算法在两个站点独立实现和改进。在密歇根大学,这项研究包括2569对患者日期的tha相关笔记。在模型细化之前,MedTagger-THA算法对方法(96.6%, 95% CI 94.6%-97.9%)和固定(95.7%, 95% ci 92.4%-97.6%)。这些结果与开发现场的内部准确度(99.2%)相当方法90.7%的人固定)。模型改进略微提高了两者的精度方法(99%, 95% CI 97.6%-99.6%)和固定(98%, 95% ci 95.3%-99.3%)。的特异性方法关节镜病例的鉴别率为88.9%,特异性为固定髋臼周围截骨术和关节镜检查病例的识别率均为100%。在爱荷华州,研究包括100个操作笔记(50个训练笔记和50个测试笔记)的总体数据集。MedTagger-THA算法在训练数据上取得了中高的性能。经过模型细化,该模型达到了较高的性能方法(100%, 95% ci 91.3%-100%);固定(98%, 95% CI 88.3%-100%)轴承表面(92%, 95% ci 80.5%-97.3%)。

结论:MedTagger-THA算法实现了跨中心的高性能,证明它们具有足够的可实现性、可用性和可移植性,可移植到不同的部署站点。本研究为模型部署和验证过程提供了重要的经验教训,可为基于规则的电子病历模型的转移提供参考。

中国生物医学工程学报;2010;31 (8):888 - 888

doi: 10.2196/38155

关键字



背景

自然语言处理(NLP)方法是一种从文本数据中提取信息的强大工具,在医学信息学研究中得到了广泛应用[j]。1]。NLP方法将非结构化的自由文本临床笔记转换为结构化和规范化的格式,从而减少了在大型人群研究中进行图表审查的人力[2-5]。以往的研究表明,在许多应用中,NLP可以替代人工抽象,包括去识别、分类和提取医学概念(如临床症状、诊断和药物)、语义修饰语(如否定和严重程度)和时间性信息(如现在与过去;(67])。此外,应用于真实世界数据的高质量NLP方法可以促进临床注册参与和分析[8]进一步推进临床研究、政策和监测工作[6910]。

在之前的研究中,Wyles等[11]开发了一个NLP系统,从电子健康记录(EHRs)的手术记录中提取与全髋关节置换术(THA)相关的公共数据元素。这个NLP系统包含3个独立的算法,目的是捕获操作人员方法固定方法,轴承表面类别(1112]。NLP系统的基础设施是一个开源的NLP管道,MedTaggerIE [13],它是使用基于开源非结构化信息管理体系结构的信息提取框架[14]。MedTaggerIE包含以下三个组成部分:关键字列表(即基于域的关键字和短语,包括通配符正则表达式)、分类规则(即基于正则表达式的模式,以派生预测标签)和规范化(例如,任何与tha相关的临床概念的标准化形式)。分类规则以≥1个正则表达式作为输入值,提取相关信息。提取的概念作为输出值被归一化为预期的目标。由于包含临床信息的关键字和短语可以由主题专家(例如骨科医生)直接定义,该管道将特定任务的NLP知识工程与通用领域的NLP分离开来。最终系统(称为MedTagger-THA)在梅奥诊所进行的250例THA手术中进行了评估,并证明在识别上述3个数据元素方面具有很高的准确性[11]。作者发现MedTagger-THA是一种很有前途的替代方案,可以替代目前手工图表审查的黄金标准,用于识别骨科手术记录中的常见数据元素[11]。

虽然通常情况下,跨站点的信息学工具的可移植性很差[15]除非明确设计,否则这个数据元素提取任务本质上是跨不同站点可移植的。这是因为开发站点和部署站点(1)共享公共关键字方法固定与(2)有共同的分类规则方法固定。这些共同规则的一些例子包括将“水泥股骨”和“未胶结壳”标记为“混合”,并且没有提及“水泥”来表示“未胶结”。然而,先前的研究并没有广泛评估现有系统在跨多个具有异构电子病历系统的机构应用时是否具有足够的可实施性(即系统是否可以部署在不同的站点)、可用性(即系统是否可以被本地用户轻松修改和完善)和可移植性(即系统是否可以在改进后获得足够相似的结果)。先前的研究表明,用户要应用现有的自然语言处理系统需要付出很大的努力[16]。在多机构合作的背景下,研究表明了各种管理和实施挑战,如数据隐私;员工的专业知识;位置提取、变换和加载(ETL)过程的成熟度[17]。例如,临床NLP算法通常难以在不同的医院环境中进行评估,因为患者保密和技术转让方面的困难[18]。此外,临床NLP系统的性能,以及临床实践和工作流程,往往因机构和源数据而异[1920.],这导致了电子病历文档风格的不同[21]。由于文本中的句法和语义变化,不同机构的临床笔记结构和笔记中使用的语言可能非常不同[21],强调正确识别各部分的重要性[2122]和语义词典构建,用于从电子病历中提取和编码临床信息,以实现开发NLP系统的语义互操作性[23]。因此,为了实现更好的可移植性,在将一个机构开发的NLP算法应用到另一个机构时,必须考虑所有这些因素。在大多数情况下,定制对于实现理想的性能和进一步提高可移植性是必要的。

目标

为了评估和提高MedTagger-THA的可实施性、可移植性和可用性,我们进行了一项试点研究,以建立将MedTagger-THA转移到两家外部机构(密歇根医学院和爱荷华大学)的有效管道,为最佳实践提供经验教训。本研究包括常见的一般过程(例如,任务定义、交换NLP资源、培训和评估)和特定地点的过程。具体来说,我们建立了运行MedTagger- tha的基础设施,包括访问电子手术记录,实现MedTagger软件工具包的安全许可,以及运行和完善MedTagger- tha。MedTagger-THA算法在两个站点独立实现和改进。在密歇根,我们评估了MedTagger-THA是否能准确提取手术信息方法固定使用密歇根关节成形术注册中心协作质量倡议(MARCQI)注册中心作为金标准的手术记录。我们评估了提取的开箱(预精炼)验证性能和后精炼性能方法固定。最后,我们通过髋臼周围截骨术(PAO)和髋关节镜病例评估这2个数据元素提取的特异性。由于在爱荷华基地没有现有的关节置换术登记,人工图表审查被用作金标准。我们执行了一个标准化的金标准开发过程,其中包括检索操作注释、开发注释指南和执行语料库注释。然后,我们使用金标准来完善和评估MedTagger-THA系统的所有三个数据元素-外科方法固定,轴承表面


MedTagger系统部署

MedTagger部署是一个迭代的测试-应用-改进过程,涉及站点之间的密切协作(图1)。有三个相关的站点:一个开发站点(开发最初的MedTagger-THA系统的站点,梅奥诊所,用蓝框表示)和两个部署站点(密歇根医学院和爱荷华大学,用橙色框表示)。最初的步骤是组建一个跨学科的研究团队,在骨科、信息技术、信息学和流行病学方面具有不同的背景和专业知识。一旦团队成立,这个过程就开始了几个重要的管理活动,包括机构审查委员会(IRB)的批准和系统安全许可。

图1所示。概述NLP的部署和评估过程。IRB:院校审查委员会;NLP:自然语言处理。
查看此图

除了行政程序之外,还同时开展了研究活动。系统准备和包装是开发现场的最初步骤。这些步骤集中于确定系统在部署站点上是否可用和可互操作。NLP系统包含两个组成部分:(1)通用的MedTagger框架(如句子注释器、标记器和词性标注器)和(2)MedTagger- tha算法(关键字列表和分类规则),这些算法与主程序分开开发和分发。这种架构设计使得THA算法可以很容易地插入到主程序中,以获得更好的可定制性。因此,最初的过程是将MedTagger- tha算法从MedTagger中的主程序中分离出来,以便分发。接下来的步骤是准备部署站点说明,包括指定输入文本格式(例如,rtf、xml或纯文本)、预处理说明、系统目录以及系统级说明和要求:(1)操作系统兼容性(PC、MAC和Linux),(2)软件和软件包(Java 1.8),以及(3)许可证(Apache 2.0版本)。最后,对于代码交换,我们使用了软件开发和版本控制平台Git。

密歇根选址流程

概述

MARCQI是一个由骨科医生和医疗专业人员组成的团体,致力于提高密歇根医学院髋关节和膝关节置换术患者的护理质量。该联盟通过解决与髋关节和膝关节置换术相关的患者预后变化来提高护理质量[24]。在密歇根医学中心提取THA病例并输入MARCQI数据库,包括手术日期;横向(左或右);和手术方法固定,轴承表面。在本研究中,MARCQI注册表被认为是评估自动化算法的金标准。手术方法MARCQI中记录的包括“前”、“前外侧”、“后”和“经转子”。的固定方法包括“胶结”、“非胶结”、“混合”和“反向混合”。的轴承表面材料包括“陶瓷-聚乙烯”、“金属-聚乙烯”和“双流动性”。

我们从基于epic的密歇根医学电子病历系统中提取了2014年1月1日至2019年4月30日期间进行的选择性和转换性初级THA的手术记录。随着轴承表面是通过所使用的植入物的目录编号而不是通过注释抽象来捕获的,我们只评估了准确性、精确度、召回率和F1-算法的分数方法固定。95% ci均采用Agresti和Coull [25]。

除了THA, PAO和关节镜手术也在密歇根医学院进行,有时也应用于THA患者。由于这些外科手术有一些共同的特点(如方法),我们认为有必要评估算法的特异性,以评估其是否过于一般化。评估…的特异性固定,我们将算法应用于PAO和髋关节镜病例,因为我们评估的这两种病例都不应该有任何固定。髋关节镜病例也被用来评估算法识别的特异性方法作为关节镜下的髋关节手术不应该有一个确定的方法,因为它们是通过门户进行的。

note-processing管道我们建立了几个步骤(图2)。

图2。密歇根站点的笔记处理管道的工作流程。矩形表示数据,圆角矩形表示过程。PAO:髋臼周围截骨术;THA:全髋关节置换术。
查看此图
识别与集成

我们首先从THA记录中识别出不同的患者日期对,这代表了在特定日期对特定个体进行的手术。对于每位患者,我们按病历记录时间对病历进行排序,并收集15天间隔内的所有病历,作为1次手术的病历集。对于1个病历集,我们用第一个记录时间来表示患者的手术日期。然后我们将患者-日期对映射到MARCQI数据集。对于PAO合并关节镜检查的患者,我们使用相同的15天窗口来整合独特患者-日期对的记录。

音符分割

对于每个唯一的患者-日期对,我们首先按部分标题分割笔记集。从THA注释解析的节头列在表S1中多媒体附录1,其中包括术前诊断、手术、结果和植入物的概念。在这些头中,最有可能在语义上与“过程”相关的section头(表S2)多媒体附录1)是在密歇根数据中预先定义的。为了使用密歇根数据完善MedTagger-THA模型,我们首先根据独特的患者将数据集随机分为训练集(80%)和测试集(20%)。由于MARCQI刚刚开始收集固定2017年之前的THA笔记被排除在这些分析之外。

头节注释

对于每个唯一的患者-日期对方法固定从所有相关章节中提取关键词。最初的方法固定使用先前发布的关键字列表预定义关键字[11]。如Wyles等人在研究中所定义的[11),“每个概念的断言包括确定性(即,积极的,消极的和可能的)以及经历事件的人(即,病人或其他人,如丈夫,孩子等),而时间性确定事件的时间(即,历史的或现在的)。”概念具有“积极的”确定性、“现在的”时间性,而经历事件的“病人”是感兴趣的概念。

标签预测与规范化

应用正则表达式组成的分类规则派生预测标签。初步分类规则已于先前公布[11]。为方法,标签包括“前”、“前外侧”、“后”和“经转子”。为固定标签包括“胶结”、“混合”、“非胶结”和“反向混合”。预测标签还包括两个特殊条件——如果任何部分都没有给出注释,那么最终的预测将是“缺失的”;如果给出了多个注释,但注释不相同,那么最终的预测将是“模糊的”。对于训练集和测试集,我们使用MedTagger-THA [11来提取方法固定并评估了它们的开箱即用性能。

误差分析

然后,我们与MARCQI抽象专业人员一起解决训练数据集中的错误分类、缺失预测和模糊预测。我们迭代地调整了MedTagger-THA模型[26]中添加关键字方法固定关键字列表和修改分类规则,直到模型性能在训练数据集上无法提高。在精炼过程中不使用测试数据集。在精炼过程之后,我们得到了更新后的关键字列表和分类规则(表S3)多媒体附录1)。因此,在下文中,将得到的改进后的MedTagger-THA称为MedTagger-THA- michigan。

评估THA测试笔记

我们在测试数据集上评估了MedTagger-THA-Michigan的性能。我们进一步对测试数据集进行误差分析,以分析模型的局限性。最后,我们评估了方法固定从PAO和髋关节镜病例中提取。图2显示了密歇根标识管道的工作流程。

爱荷华网站流程

我们同时在爱荷华大学部署了这个系统。通过标准语料库标注过程,建立了评价NLP系统的金标准语料库[27]。一名训练有素的护士抽查了2009年1月1日至2016年12月31日期间从爱荷华州epic电子病历中随机抽取的100例THA手术报告。有关抽象数据的问题在咨询具有内容专业知识的医生后得到解决。使用与全关节置换术登记相同的概念定义进行图表回顾;除了…之外方法固定,包括数据收集轴承表面分为四类:金属对聚乙烯,陶瓷对聚乙烯,金属对金属,陶瓷对陶瓷。黄金标准数据集被平均分成两个子集,其中50个训练实例和50个测试实例。我们遵循了反复训练和改进的过程[26来评估和改进NLP算法。简而言之,将原型系统MedTagger-THA应用于训练数据。错误案例由爱荷华州的一组具有信息学和临床文档经验的研究人员手动审查,以确定导致丢失或错误分类结果的关键错误或主题。这些关键字是通过一个迭代的精炼过程手动整理出来的,直到所有主要问题都得到解决。

伦理批准

该研究得到了密歇根大学(HUM00143841)和爱荷华大学(201903205)的irb批准。


密歇根网站结果

对于THA记录,2304例具有2569例患者-日期对的独特患者被映射到MARCQI注册数据集。从PAO记录和关节镜检查记录中,分别提取了398对和523对患者日期。为方法固定, MedTagger-THA算法的开箱即用外部验证证明了出色的准确性(外科手术)方法: 96.6%, 95% ci 94.6%-97.9%;固定: 95.7%, 95% ci 92.4%-97.6%;表12)。

表1。medtagger -全髋关节置换术(THA)手术入路的开箱性能:金标准(注册数据)与MedTagger-THA在训练和测试数据中分类的注释的比较一个
黄金标准 n (%)

前外侧的 模棱两可的 失踪的推理
训练数据(n=2062)

261 (12.7) 0 (0) 2 (0.1) 1 (0) 0 (0)

前外侧的 0 (0) 1 (0) 2 (0.1) 0 (0) 1 (0)

4 (0.2) 2 (0.1) 1737 (84.2) 1 (0) 50 (2.4)
试验数据(n=507)

68 (13.4) 0 (0) 0 (0) 0 (0) 0 (0)

前外侧的 0 (0) 1 (0.2) 0 (0) 0 (0) 0 (0)

0 (0) 1 (0.2) 421 (83) 0 (0) 15 (3)

Transtrochanteric 0 (0) 0 (0) 0 (0) 0 (0) 1 (0.2)

一个准确率:96.6% (95% CI 94.6%-97.9%);精密度:99.8% (95% CI 98.7%-100%);召回率:96.6% (95% CI 94.6%-97.9%);F1-score: 98.2% (95% CI 96.5%-99.1%)。

表2。medtagger -全髋关节置换术(THA)用于固定的开箱性能:金标准(注册数据)与MedTagger-THA在训练和测试数据中分类的注释的比较。一个
黄金标准 n (%)

巩固了 混合动力 未胶结的 模棱两可的
训练数据(n=1053)

巩固了 0 (0) 1 (0.1) 0 (0) 0 (0)

混合动力 1 (0.1) 76 (7.2) 3 (0.3) 17 (1.6)

未胶结的 0 (0) 29 (2.8) 925 (87.8) 1 (0.1)
测试数据(n=256)

巩固了 0 (0) 0 (0) 0 (0) 0 (0)

混合动力 0 (0) 23日(9) 2 (0.8) 5 (2)

未胶结的 0 (0) 4 (1.6) 222 (86.7) 0 (0)

一个准确率:95.7% (95% CI 92.4%-97.6%);精密度:95.7% (95% CI 92.4%-97.6%);召回率:95.7% (95% CI 92.4%-97.6%);F1-score: 95.7% (95% CI 92.4%-97.6%)。

分类错误、模棱两可的情况和缺失的推论列在表3。的分类误差方法发生在(1)某一节的注释中提到了另一节方法,而提到正确的方法人失踪;(2)提法不同方法摘自“程序和结果”以外的部分;(3)在“程序和调查结果”一节中多次提到方法。当提到正确时,会出现歧义情况方法摘录的笔记是否与“程序和发现”相关,有何不同方法在一次手术中,也从其他部分提取了提及。遗漏的推论发生在提到方法是在笔记中遗漏的,或者是在提到的地方拼错了。常见的分类错误固定当错误地评估推理的确定性时发生。例如,对于“未胶结的阀杆”,确定性评估为“正”而不是“负”,这导致“未胶结”。固定被错误地归类为"混血儿"如果笔记中提到的茎不包括在预定义的关键字列表中(例如,“股骨”),则“Hybrid”实例被错误地分类为“uncement”,或者“cement”实例被错误地分类为“Hybrid”。“混合”实例也可能被错误地归类为“胶结”,当“胶结”在注释和a中明确说明时干细胞的概念注意到,因为算法将“水泥”视为直接提到的巩固了固定。在模棱两可的情况下也观察到类似的情况,其中一些部分将“Hybrid”实例错误地分类为“cement”,而其他部分给出了正确的分类。“未粘合”实例被推断为默认值固定标签时没有提及“水泥概念”。因此,如果没有明确提及“骨水泥概念”,即使手术是“骨水泥”或“混合”,也被归类为“未骨水泥”。

表3。密歇根数据集的入路和固定的分类错误和模糊病例。
关键字 分类错误 模棱两可的情况下 失踪
方法
  • 提到正确的方法虽然提到了其他方法,但没有提到。
  • “并发症”一节的注释中提到了另一种方法方法,而提到正确的方法人失踪。
  • 多个不同的方法提到的内容是从同一节中提取的方法出现次数更多的提及被优先考虑。
  • 与诊断部分相关的注释,但不包含不同提及的程序方法;例如,“左髋关节骨关节炎,外展肌缺陷(大转子硬化伴慢性臀中肌撕脱)”被标注为“前外侧”,但金标准标签是“后外侧”。
  • 与“指征”有关的注释包含假设条件;例如,“我们给她提供了前面或后面的选择方法她决定做一个手术方法是更可取的。被标注为“后”而不是“前”。
  • 直接提到方法未包含在关键字列表中;例如,“后路THA”一个注意事项”、“入路:后部”和“后外侧”。
  • 没有提到表明方法笔记中提到了之前的切口。
  • 拼写错误导致无法识别(例如,“shortrotators”)。
固定
  • “非水泥”被误分类为“混合”,注释中提到了“非水泥茎”,但推断的确定性是积极的水泥的概念b
  • “混合”被错误地归类为“未胶结”;例如,“股骨”没有出现在stem关键字列表中,没有水泥的概念讲义里提到了。手术是“计算机导航全髋关节置换术”。
  • 由于“股骨”不包括在关键词列表中,“骨水泥”被错误地分类为“混合”。壳的概念b也被排除在外。只有水泥的概念导致了“Hybrid”;例如,“使用小梁金属髋臼修复系统将聚乙烯髋臼内垫进行骨水泥固定,寿命长,0度面角,36毫米内径VerSys髋关节假体标准颈偏移尺寸11被骨水泥固定到股骨中。”
  • “Hybrid”被错误地归类为“硬质合金”,因为“硬质合金”是直接提到的,优先于其他“硬质合金”;例如:“全髋关节置换术,骨水泥,右髋关节”被错误地分类为“骨水泥”。在注释中,只有股骨管被骨水泥。
  • 对于一个单一的手术记录,一些章节错误地将“Hybrid”分类为“硬质合金”,因为“硬质合金”是直接提到的水泥的概念并且比其他人拥有最高的优先权;例如,“全髋关节置换术,骨水泥股骨干”被错误地分类为“骨水泥”,而不是“混合”。
  • Missingness在固定设置为“未固化”。

一个THA:全髋关节置换术。

b概念的名字。

模型细化后(表45),两种手术的验证准确性都得到了提高方法固定方法: 99%, 95% CI 97.6%-99.6% vs 96.6%;固定: 98%, 95% CI 95.3%-99.3% vs 95.7%)。优先考虑与“程序”有关的部分,减少了对固定(从5到2)。为了特异性评估,我们确定了方法在11.1%(58/523)的关节镜数据对中提到(特异性:465/523,88.9%)。这些假阳性主要是因为笔记中提到的入路关键词,如“Hana台”、“髂前上棘”或“阔筋膜张肌”,尽管这些关键词描述的是定位和门静脉放置。有时,关节镜与PAO在手术过程中结合,并提到方法可能与PAO有关。我们没有确认固定在PAO队列或关节镜队列中被提及(特异性100%)。

表4。方法精化后:金标准与密西根试验数据集(N=507)中精化MedTagger-total髋关节成形术(THA)分类注释的比较。一个
黄金标准 MedTagger-THA-Michigan, n (%)

前外侧的 模棱两可的 失踪的推理
68 (13.4) 0 (0) 0 (0) 0 (0) 0 (0)
前外侧的 0 (0) 1 (0.2) 0 (0) 0 (0) 0 (0)
0 (0) 0 (0) 434 (85.6) 0 (0) 3 (0.6)
Transtrochanteric 0 (0) 0 (0) 1 (0.2) 0 (0) 0 (0)

一个准确率:99% (95% CI 97.6%-99.6%);精密度:99.6% (95% CI 98.4%-100%);召回率:99% (95% CI 97.6%-99.6%);F1-score: 99.3% (95% CI 98%-99.8%)。

表5所示。固定精化后:金标准与密西根试验数据集(N=256)中精化MedTagger-total髋关节成形术(THA)分类注释的比较。一个
黄金标准 MedTagger-THA-Michigan, n (%)

巩固了 混合动力 未胶结的 模棱两可的
巩固了 0 (0) 0 (0) 0 (0) 0 (0)
混合动力 1 (0.4) 26日(10.2) 1 (0.4) 2 (0.8)
未胶结的 0 (0) 1 (0.4) 225 (87.9) 0 (0)

一个准确率:98% (95% CI 95.3%-99.3%);精密度:98% (95% CI 95.3%-99.3%);召回率:98% (95% CI 95.3%-99.3%);F1-score: 98% (95% CI 95.3%-99.3%)。

爱荷华网站结果

爱荷华大学没有登记数据。因此,我们对总共100份手术报告(50份培训报告和50份测试报告)进行了手工图表回顾,并测试了MedTagger-THA在该数据集上的性能方法表6),固定表7),轴承表面表8)。总体而言,该模型在训练数据上实现了中高性能,而在训练数据上观察到的性能最低轴承表面的概念。的默认输出轴承表面来匹配爱荷华州数据的案例分布,并添加额外的衬管相关概念(如a级内胆)提高灵敏度固定类别。经过模型细化后,该模型对所有三个数据元素都实现了高性能:方法(100%, 95% ci 91.3%-100%);固定(98%, 95% CI 88.3%-100%)轴承表面(92%, 95% ci 80.5%-97.3%)。

表6所示。方法:爱荷华大学数据集中(N=100) MedTagger-total髋关节成形术(THA)分类的金标准与注释的比较。一个
黄金标准 MedTagger-THA-Iowa, n (%) 总数,n (%)

前外侧的
训练数据(n=50)

12 (24) 1 (2) 0 (0) 13 (26)

前外侧的 0 (0) 0 (0) 0 (0) 0 (0)

0 (0) 0 (0) 37 (74) 37 (74)
试验数据(n=50)

14 (28) 0 (0) 0 (0) 14 (28)

前外侧的 0 (0) 0 (0) 0 (0) 0 (0)

0 (0) 0 (0) 36 (72) 36 (72)

一个准确度:100% (95% CI 91.3%-100%);精密度100% (95% CI 91.3%-100%);召回率:100% (95% CI 91.3%-100%);F1-score: 100% (95% CI 91.3%-100%)。

表7所示。固定:爱荷华大学数据集中(N=100) MedTagger-total髋关节成形术(THA)分类的金标准与注释的比较。一个
黄金标准 MedTagger-THA-Iowa, n (%) 总数,n (%)

巩固了 混合动力 未胶结的
训练数据(n=50)

巩固了 0 (0) 0 (0) 0 (0) 0 (0)

混合动力 0 (0) 1 (2) 0 (0) 1 (2)

未胶结的 0 (0) 0 (0) 49 (98) 49 (98)
试验数据(n=50)

巩固了 0 (0) 0 (0) 0 (0) 0 (0)

混合动力 1 (2) 0 (0) 0 (0) 1 (2)

未胶结的 0 (0) 0 (0) 49 (98) 49 (98)

一个准确率:98% (95% CI 88.3%-100%);精密度:98% (95% CI 88.3%-100%);召回率:98% (95% CI 88.3%-100%);F1-score: 98% (95% CI 88.3%-100%)。

表8所示。轴承表面:爱荷华大学数据集中(N=100) MedTagger-total髋关节成形术(THA)分类的金标准与注释的比较。一个
黄金标准 MedTagger-THA-Iowa, n (%) 总数,n (%)

拖把b 警察c 妈妈d CoCe
训练数据(n=50)

拖把 25 (50) 1 (2) 1 (2) 0 (0) 27 (54)

警察 0 (0) 17 (34) 0 (0) 0 (0) 17 (34)

妈妈 0 (0) 0 (0) 0 (0) 0 (0) 0 (0)

CoC 0 (0) 6 (12) 0 (0) 0 (0) 6 (12)
试验数据(n=50)

拖把 20 (40) 2 (4) 0 (0) 0 (0) 22 (44)

警察 0 (0) 26 (52) 0 (0) 0 (0) 26 (52)

妈妈 0 (0) 0 (0) 0 (0) 1 (2) 1 (2)

CoC 0 (0) 1 (2) 0 (0) 0 (0) 1 (2)

一个准确率:92% (95% CI: 80.5%-97.3%);精密度:92% (95% CI 80.5%-97.3%);召回率:92% (95% CI 80.5%-97.3%);F1-score: 92% (95% CI 80.5%-97.3%)。

b拖把:metal-on-polyethylene

c警察:ceramic-on-polyethylene。

d妈妈:金属对金属介面人工髋关节。

eCoC: ceramic-on-ceramic。


主要研究结果

在这项研究中,我们将梅奥诊所开发的MedTagger-THA算法应用于密歇根医学院和爱荷华大学的THA手术记录。这些算法是可实现的、可用的和可移植的,在两个部署站点都具有高性能。对主要错误或重复错误的模型改进进一步提高了准确性。在NLP再实施研究中,改进原始模型以“适应”当地卫生保健系统对于电子病历模型的可移植性非常重要。我们计划在不同的医院环境和电子病历中验证MedTagger-THA,并将这些调整后的模型整合回原始模型中。我们期望持续的模型改进将进一步增强可移植性。

我们从不同机构的NLP部署和评估中学到了许多重要的经验教训。在评估可实施性时,我们遇到了几个与劳动力、制度政策和数据基础设施相关的挑战和差距。首先,成功的部署和评估需要至少三种类型的专业知识:全关节置换术的骨科领域知识、ETL技能以及NLP和模型评估方面的专业知识。我们观察到不同地点的专业知识各不相同,并且强烈需要多学科团队科学合作。其次,制度政策对与信息资源交换相关的时间和精力有显著影响。例如,根据机构政策,获得共享NLP系统到本地安全环境的安全许可的过程可能从几天到几个月不等。我们还发现机构之间在共享NLP结果以进行误差分析和改进方面的严格程度存在差异,这表明除了多机构IRB之外,还需要对多站点NLP研究进行早期规划和沟通。第三个方面是ETL和数据基础设施的成熟度。由于数据基础设施不同,机构ETL流程和人员培训存在很大差异。数据基础设施成熟度较低的机构将涉及手动抽象过程作为替代方案,这可能是高吞吐量NLP解决方案的巨大障碍。 Specifically, the data infrastructure at Mayo Clinic is a centralized unified data platform, a duplication of the Epic Clarity table for handling various data retrieval requests in a central location. In contrast, Iowa has several decentralized enterprise data warehouses that require multiple ETL processes for data retrieval. Michigan maintains a separate research data warehouse for clinical and translational research, with a separate ETL pipeline to populate the warehouse with structured and free-text data. The aforementioned findings indicate the high complexity and dynamics of the multi-institutional EHR environment and suggest the need for a situated contextual understanding of multisite clinical NLP research.

在评估可用性和可移植性时,在NLP模型细化过程中有一些注意事项。我们注意到,优先考虑与“程序”相关的部分减少了模棱两可的情况。这些部分的标题可能因站点而异,需要医学专家进行管理以保证语义互操作性。在关键字列表中添加精心策划的关键字始终是可能的;但是,这些关键字可能与原始设置不兼容。例如,取反算法采用上下文(28]。在最初的MedTagger-THA算法中,“后置THA预防措施”和“后置THA”被认为是“否定的”,因为“预防措施”是“可能的”而不是“积极的”确定性的指标上下文(28]。然而,这些提到的是后路的迹象方法密歇根的数据。我们还改变了识别规则固定密歇根州的数据更好;然而,我们不确定这些变化是否会损害模型在梅奥诊所的性能。这些观察结果表明,需要将模型的可移植组件与不能很好地在各个机构中推广的特定机构组件区分开来。因此,在未来对MedTagger-THA的改进中,我们建议由来自开发站点、验证和部署站点的医学专家和抽象专家组成的小组决定哪些更改可以纳入原始模型以进一步分发和更好的可移植性,哪些更改应该保留在本地验证站点以提高机构特定的性能。

我们还注意到方法固定并不是THA笔记中唯一提到的。THA入路的关键词可以在其他手术中提到,如全膝关节置换术、PAO和关节镜检查,尽管这些描述与THA无关。由于MedTagger-THA基于关键词提及和一系列正则表达式定义的规则提取信息,因此我们应该承认该模型只适用于THA注释。因此,在应用MedTagger-THA模型之前,有必要过滤掉非tha手术笔记。使用基于文本的搜索和过滤,这个过程相对简单,因为过程名通常在“过程”部分显式地提到。

MedTagger-THA算法对于识别tha相关的数据元素非常有用;然而,它们有几个重要的限制。MedTagger-THA是基于关键词和分类规则开发的。虽然我们能够提取在管理和培训期间发现拼写错误的关键字时提到的关键字,但MedTagger-THA的未来版本应该包含一个经过验证的拼写检查和纠正模型。此外,MedTagger-THA不能识别假设的替代治疗方案,例如该程序是否实际执行或仅仅记录为差异讨论。MedTagger-THA按文本中的位置链接概念(例如,水泥的概念接近干细胞的概念意思是主干被巩固了,但不能处理上下文化的信息(例如,两个概念彼此不相关)。为了解决这些问题,我们计划开展未来的研究,重点是在执行命名实体识别任务时,使用更先进的NLP技术(如基于机器学习的方法,包括深度学习模型)来理解上下文化信息。最后,对于爱荷华州站点,由于样本量小(n=100)且仅涉及一个注释者,因此用于算法验证和改进的数据可能与爱荷华州THA患者群体存在偏差。在临床实践可变性低的中心,使用小样本量的验证和改进可能是有效的,因此,在数据基础设施资源有限或正在开发的情况下,可能会增加对基于nlp的工具的可访问性。

结论

总之,MedTagger-THA算法具有足够的可实现性、可用性和可移植性,可以用于不同的部署站点方法固定从THA笔记中识别。轴承表面鉴定可能受到临床实践模式和手术器械的较大差异的影响。正如预期的那样,在独特的机构电子病历中进行模型细化有助于提高准确性。这项研究强调了在机构环境中进行这种模式改进的重要性,并为未来的实施工作提供了信息,以加强机构间的可转移性。

致谢

这项工作由Hilal Maradit Kremers的国家卫生研究院资助(R01 AR73147),密歇根医学院和爱荷华大学作为次级资助地点。本研究的内容完全是作者的责任,并不一定代表密歇根大学或爱荷华大学的官方观点。

作者要感谢何金涛,MS,在爱荷华站点为编写自然语言处理模块所做的贡献。

作者的贡献

VGVV, SS, HMK, MC和RH构思和设计了本研究。SF和PH开发了模型。PH撰写了初稿,所有作者都帮助解释了结果并对手稿进行了最终审查。

利益冲突

BRH的雇主因其作为MARCQI联合主任的工作而获得密歇根蓝十字蓝盾的部分工资支持。

多媒体附录1

手术记录的章节标题,与“手术”相关的标题和更新的关键字列表,以及全髋关节置换术入路和固定物分类的分类规则(Michigan)。

DOCX文件,28kb

  1. 柯立克,德雷斯巴赫,伯恩P,巴肯S.电子健康记录自由文本叙述中记录的症状的自然语言处理:系统回顾。中华医学杂志,2019;26(4):364-379 [J]免费全文] [CrossRef] [Medline
  2. 李建军,李建军,李建军,等。自然语言处理算法在哮喘诊断中的应用。自动图表审查。[J]中华呼吸与急救医学杂志,2017,18 (4):437 -437 [J]免费全文] [CrossRef] [Medline
  3. 刘建军,张建军,张建军,等。电子健康档案(EHR)的数据提取。展望健康信息管理2021年3月15日;18日(春季):1g [免费全文] [Medline
  4. Murff HJ, FitzHenry F, Matheny ME, Gentry N, Kotter KL, Crimin K,等。使用自然语言处理在电子病历中自动识别术后并发症。中华医学杂志,2011;36(8):848-855。(CrossRef] [Medline
  5. Melton GB, Hripcsak G.使用自然语言处理出院摘要的不良事件自动检测。中华医学杂志,2005;12(4):448-457 [J]免费全文] [CrossRef] [Medline
  6. 刘建军,刘建军,刘建军,等。慢性疾病临床记录的自然语言处理研究进展。中华医学杂志2019年4月27日;7(2):e12239 [j]免费全文] [CrossRef] [Medline
  7. Velupillai S, Suominen H, Liakata M, Roberts A, Shah AD, Morley K,等。将临床自然语言处理用于健康结果研究:概述和对未来进展的可操作建议。[J]中国生物医学工程学报,2018;33 (2):391 - 391 [J]免费全文] [CrossRef] [Medline
  8. Shah RF, Bini S, Vail T.使用自然语言处理从关节置换术患者的非结构化图表中回顾性收集登记和质量审查的数据。骨关节[J]; 2020; 32(1): 1 - 4。(CrossRef
  9. 机器学习中的临床文本数据:系统回顾。中华医学杂志;2020年3月31日;8(3):e17984 [j]免费全文] [CrossRef] [Medline
  10. Meystre SM, Heider PM, Kim Y, Aruch DB, Britten CD.基于非结构化临床数据的试验资格自动监测。国际医学杂志2019年9月;129:13-19 [J]免费全文] [CrossRef] [Medline
  11. 王勇,王勇,孙树生,王志强,等。使用自然语言处理算法来识别全髋关节置换术中常见的数据元素。中华骨外科杂志[J]; 2009; 31(2): 391 - 391。(CrossRef
  12. 傅松,梁丽丽,王勇,Raulli A, Kallmes DF, Kinsman KA,等。从神经影像学报告中识别无症状脑梗死的自然语言处理。中华医学杂志2019年4月21日;7(2):e12109 [j]免费全文] [CrossRef] [Medline
  13. 刘宏,Bielinski SJ, Sohn S, Murphy S, Wagholikar KB, Jonnalagadda SR,等。使用电子健康记录进行队列识别的信息提取框架。[j]中国科学:自然科学进展,2013;33(3):449 - 453。免费全文] [Medline
  14. UIMA:企业研究环境中非结构化信息处理的体系结构方法。生物工程学报,1999;10(3):327-348。(CrossRef
  15. Sutton RT, Pincock D, Baumgart DC, Sadowski DC, Fedorak RN, Kroeker KI。临床决策支持系统的概述:益处、风险和成功策略。中华医学杂志2020年2月6日;3:17 [j]免费全文] [CrossRef] [Medline
  16. 郑坤,Vydiswaran VG,刘毅,王毅,Stubbs A, Uzuner O,等。临床自然语言处理软件的易用性:对五个系统的评价。生物医学通报2015年12月;58增刊:S189-S196 [J]免费全文] [CrossRef] [Medline
  17. 刘帅,文安,王磊,何红,付松,Miller R .国家COVID队列协同,自然语言处理,子群,国家COVID队列协同(N3C)。基于ehr临床研究的开放式自然语言处理开发框架:使用国家COVID队列协作(N3C)的案例演示。arXiv 2021 Oct 20 [免费全文
  18. 刘辉,刘辉。基于自然语言处理的人工智能技术在电子病历临床研究中的应用。中华变态反应病临床杂志[J]; 2010; 31 (2):463-469 [J]免费全文] [CrossRef] [Medline
  19. 樊杰,Prasad R, Yabut RM, Loomis RM, Zisook DS, Mattison JE,等。临床文本的词性标注:机构之间的墙还是桥梁?中国生物医学工程学报(英文版);2011:382-391 [j]免费全文] [Medline
  20. 刘宏,刘辉,刘辉,王志刚,王志刚。基于语义标注的临床概念提取方法。中国生物医学工程学报,2013;33 (1):1 - 3 [J]免费全文] [CrossRef] [Medline
  21. 孙松,王勇,魏晨,krusmark EA, Ryu E, Ali MH,等。临床文献差异和NLP系统可移植性:跨机构哮喘出生队列的案例研究。中国医学信息学报,2018;25(3):353-359 [J]免费全文] [CrossRef] [Medline
  22. Edinger T, Demner-Fushman D, Cohen AM, Bedrick S, Hersh W.评价临床文本分割促进队列检索。中国生物医学工程学报(英文版);2017;37 (6):669 -669 [j]免费全文] [Medline
  23. 刘辉,吴世涛,李东,Jonnalagadda S, Sohn S, Wagholikar K,等。面向临床自然语言处理的语义词典。中国生物医学工程学报(英文版);2012;568-576 [j]免费全文] [Medline
  24. 密歇根关节成形术注册中心协作质量倡议。URL:https://marcqi.org/[2022-03-21]访问
  25. 格雷斯蒂·A,库尔·BA。对于二项比例的区间估计,近似优于精确。美国医学杂志1998;52(2):119-126。(CrossRef
  26. 傅松,陈东,何红,刘生,Moon S, Peterson KJ,等。临床概念提取:方法学综述。[J]中国生物医学工程学报,2010;29 (1):391 - 391 [J]免费全文] [CrossRef] [Medline
  27. 傅绍林,梁丽丽,Raulli A, Kallmes DF, Kinsman KA, Nelson KB,等。通过无症状性脑梗死病例研究评估EHR异质性对临床研究的影响。BMC Med Inform Decis, 2020年3月30日;20(1):60 [j]免费全文] [CrossRef] [Medline
  28. 王志强,王志强,王志强。上下文:一种从临床报告中确定否定、体验者和时间状态的算法。中华生物医学杂志;2009;42(5):839-851 [J]免费全文] [CrossRef] [Medline


电子健康档案:电子健康记录
ETL:提取、转换和加载
IRB:院校审查委员会
MARCQI:密歇根关节成形术注册中心协作质量倡议
NLP:自然语言处理
PAO:periacetabular截骨术
那:全髋关节置换术


郝编辑;提交21.03.22;J Shi, M Torii同行评议;对作者04.05.22的评论;修订版本收到30.05.22;接受12.07.22;发表31.08.22

版权

©韩培金,傅孙阳,Julie Kolis, Richard Hughes, Brian R Hallstrom, Martha Carvour, Hilal Maradit-Kremers, Sunghwan Sohn, VG Vinod Vydiswaran。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 2022年8月31日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map