发表在第三卷第1号(2022):1 - 12月

本文的预印本(早期版本)可在以下网站获得https://preprints.www.mybigtv.com/preprint/36877,首次出版
探索使用自然语言处理支持全国静脉血栓栓塞监测的适用性:模型评估研究

探索使用自然语言处理支持全国静脉血栓栓塞监测的适用性:模型评估研究

探索使用自然语言处理支持全国静脉血栓栓塞监测的适用性:模型评估研究

原始论文

1美国俄克拉荷马城俄克拉荷马大学健康科学中心哈德逊公共卫生学院生物统计和流行病学

2美国北卡罗来纳州达勒姆市杜克大学医学系血液学研究室

3.美国佐治亚州亚特兰大市疾病控制和预防中心国家出生缺陷和发育障碍中心血液疾病司

通讯作者:

Aaron Wendelboe博士

生物统计与流行病学学系

哈德逊公共卫生学院

俄克拉荷马大学健康科学中心

CHB 301室

13街NE号801号

俄克拉荷马城,73104

美国

电话:1 405 271 2229转57897

电子邮件:Aaron-Wendelboe@ouhsc.edu


背景:静脉血栓栓塞(VTE)是一种可预防的常见血管疾病,据估计,每年影响多达90万人。它与近期手术、癌症和住院等风险因素有关。通过自然语言处理(NLP)可以改善静脉血栓栓塞监测对患者管理和安全性的影响。NLP工具能够访问电子医疗记录,识别符合VTE病例定义的患者,并随后将相关信息输入数据库以供医院审查。

摘要目的:我们的目标是评估一个VTE识别模型的性能的理想- x(信息和数据提取使用自适应学习;这是一种NLP工具,通过“阅读”2012年至2014年收集的诊断影像记录中的非结构化文本,自动对静脉血栓栓塞病例进行分类。

方法:在访问了杜克大学和俄克拉荷马大学健康科学中心(OUHSC)静脉血栓形成试点监测系统的成像记录后,我们使用了IDEAL-X的静脉血栓形成识别模型来对以前手工分类的静脉血栓形成病例进行分类。专家们回顾了每个记录中技术人员的评论,以确定是否发生了静脉血栓栓塞事件。计算的绩效指标(95% ci)为准确性、敏感性、特异性、阳性和阴性预测值。采用同质性卡方检验评估各站点的绩效措施差异,显著性水平为.05。

结果:IDEAL-X的VTE模型“读取”了来自杜克大学的1591条记录和来自OUHSC的1487条记录,共3078条记录。综合指标的准确性为93.7% (95% CI 93.7% ~ 93.8%),敏感性为96.3% (95% CI 96.2% ~ 96.4%),特异性为92% (95% CI 91.9% ~ 92%),阳性预测值为89.1% (95% CI 89% ~ 89.2%),阴性预测值为97.3% (95% CI 97.3% ~ 97.4%)。杜克大学的敏感性(97.9%,95% CI 97.8% ~ 98%)高于OUHSC (93.3%, 95% CI 93.1% ~ 93.4%;P<.001),但在OUHSC的特异性(95.9%,95% CI 95.8%-96%)高于杜克大学(86.5%,95% CI 86.4%-86.7%;P<措施)。

结论:IDEAL-X的静脉血栓形成模型从北卡罗来纳州达勒姆和俄克拉荷马州俄克拉荷马城两个独立卫生系统的试点监测系统准确地分类了静脉血栓形成病例。NLP是设计和实施VTE自动化、高成本效益的国家监测系统的一个有前途的工具。在全国范围内开展公共卫生监测对于衡量疾病负担和预防措施的影响非常重要。我们建议进行更多的研究,以确定如何将IDEAL-X集成到医疗记录系统中,可以进一步自动化监测过程。

JMIR Bioinform Biotech 2022;3(1):e36877

doi: 10.2196/36877

关键字



静脉血栓栓塞(VTE)包括深静脉血栓(DVT)和肺栓塞,是一种常见但可预防的血管疾病。静脉血栓栓塞的疾病负担可通过对风险评估、预防和治疗采取协调一致的方法来减轻[1].在美国,36%至50%的静脉血栓栓塞与近期住院或手术有关,被认为是医院相关性静脉血栓栓塞[2-5];因此,医院系统有潜力促进静脉血栓栓塞的有效监测。

使用主动或被动方法进行传统静脉血栓栓塞监测具有挑战性,因为用于识别静脉血栓栓塞的《国际疾病分类》代码已被证明具有中等敏感性和阳性预测价值[6-8],手动审查医疗记录是劳动密集型的,数据输入容易出现人为错误。在美国,大多数新产生的临床数据以数字方式存储和分析,通常采用电子病历(EMR)的形式。截至2017年,96%的非联邦急症护理医院正在使用电子病历[9], EMR的使用自2008年以来增加了一倍以上[10].

尽管在为医疗记录保存开发新的数据库和文件格式方面已取得多年进展,但大多数医疗数据仍以非结构化文本的形式存储[3.].非结构化文本是临床和转化研究的丰富数据来源[4].自然语言处理(NLP)工具可用于克服传统VTE监测的挑战,因为它们可以访问诊断成像报告(如超声和计算机断层扫描[CT]血管造影报告)中的关键非结构化文本[11],识别符合静脉血栓栓塞病例定义的患者,并在有效时间内将相关信息输入监测数据库[11-14].

使用自然语言处理涉及的一些关键特性包括预处理[7,句法处理,概念和命名实体识别[6].预处理允许算法删除格式化(包括回车和其他空白字符),然后输出一个“干净的”文本字符串(不包含与原始源代码相关的标记或控制字符)以供后续步骤使用。句法处理指的是理解词序(如主谓宾关系)和对模糊名词和代词的引用,如。因此,该算法能够连接复杂或协调短语的元素。例如,在句子中右肺动脉没有充盈缺损的迹象,算法需要检测的关键字为没有充盈缺损,肺动脉。最后,概念和命名实体识别指的是识别与单个概念相关的拼写或措辞变化的能力,如临床医生可能引用、拼写或错误拼写的不同方式静脉血栓栓塞。连接不同的文本表面实现(例如,血栓栓塞,肺栓塞)归为一个概念实体(静脉血栓栓塞)便于分类,减少模型训练阶段需要估计的参数总数。

尽管NLP的研究领域非常广阔,其特点和能力也在不断增长,但在静脉血栓监测中的应用却非常有限。一个特定的软件——ideal - x(使用自适应学习的信息和数据提取;埃默里大学)-在之前的一项研究中使用,通过使用成像记录中的非结构化文本来识别静脉血栓栓塞[14].IDEAL-X利用基于机器学习的方法为各种用例定制微调的NLP模型。它分析特定于领域的术语和相关的语言特征,以确定一个医疗事件。IDEAL-X NLP工具已经被应用到不同的用例中,埃默里大学的一项试点研究已经证明了它对VTE事件识别的适用性[14].当IDEAL-X VTE识别模型在其原生临床环境中对VTE记录预过滤的性能进行测试时,其灵敏度≥97.2%,特异性≥99.3% [14].然而,由于NLP模型是基于来自单个站点的记录进行训练的,预过滤(例如,基于患者类型和严重程度的病例识别)和某些外部因素(例如,特定诊所或地理区域常见的语音模式和词汇选择)可能会影响NLP工具的性能。因此,需要独立验证。

为了评估VTE识别模型的稳健性和适应性,我们基于基于机器学习的NLP工具IDEAL-X开发了该模型,并确定临床环境之间的差异如何影响其性能(作为将NLP应用于全国VTE监测的概念证明),我们在两个独立的卫生保健环境中评估了VTE模型的准确性——一个在北卡罗来纳州达勒姆,另一个在俄克拉荷马州俄克拉荷马城。


研究设计

杜克大学和俄克拉荷马大学健康科学中心(OUHSC)与美国疾病控制和预防中心合作,建立静脉血栓形成的试点监测系统[1516].两个系统的监测周期(即数据收集)从2012年4月1日至2014年3月31日(24个月)。我们使用了来自两个监测系统的数据进行研究和评估。每个监测小组的成员都是金标准,他们手工审阅成像记录,并根据病例状态进行分类。来自杜克大学研究小组的两名研究人员(IS和TO)和来自OUHSC研究小组的三名研究人员(AW、NF和GR)审查了每一份记录,并将它们分为DVT或肺栓塞的阳性或阴性影像学报告。随后,这些记录被IDEAL-X“读取”,并根据病例状态独立分类。我们通过比较病例状态结果和金标准(手工评审)结果来评估VTE模型的性能。站点特定的细节在参与者和程序部分,并对数据收集和病例分类方法进行了总结图1

图1。杜克大学和俄克拉荷马州健康科学中心的信息收集和分析流程图。CTA: ct血管造影;DVT:深静脉血栓形成;IDEAL-X:基于自适应学习的信息和数据提取女士:微软;PE:肺栓塞;PHI:个人健康信息;我们:超声波;V / Q:通气/灌注。
查看此图

道德的考虑

该研究由杜克大学机构审查委员会和OUHSC机构审查委员会审查。这两个实体都确定该研究不包括人体研究,因此免除了机构审查委员会的批准。

参与者和程序

杜克大学

杜克大学的研究人员使用了北卡罗来纳州达勒姆县三家医院(杜克大学医院、杜克地区医院和达勒姆退伍军人事务医疗中心)VTE监测项目生成的数据集。数据集包括所有818个独立诊断为急性深静脉血栓、肺栓塞或两者均阳性(符合监测系统的病例定义)的独特记录。为了确定总共773个独特的阴性成像记录,研究人员回顾了(1)来自同一队列中成像研究呈阳性的患者的阴性成像记录(例如,CT血管造影呈阳性的患者的下肢超声呈阴性)和(2)通过VTE监测项目确定但通过手动评估记录确定没有DVT或肺栓塞的患者的阴性成像记录。杜克大学团队手动提取了这些发现和结论印象从每个成像报告的部分到Microsoft Excel,不管术语或上下文信息。研究小组排除了描述患者特异性信息、影像学研究适应症、所使用的影像学研究类型以及签名线的附加文本。

杜克大学数据集中的放射成像记录包括(1)上肢超声图像,(2)下肢超声图像,(3)胸部CT血管造影扫描,(4)通气-灌注扫描。

的OUHSC

OUHSC的调查人员要求INTEGRIS浸礼会医疗中心和INTEGRIS西南医疗中心提供CT血管造影和压缩超声的所有成像记录,无论适应症如何。据我们所知,这些记录是随机选择的,具有代表性的患者群体。这产生了一个包含1487个不同患者的数据集。OUHSC团队将PDF成像记录(超声和CT记录)转换为纯文本格式。然后,我们使用一个根据记录的格式约定定制的搜索算法来自动定位和划分印象而且发现部分。对于每个患者,这些切片被提取;清除各种标点符号、空格和格式化字符;并转换为文本字段以输入到IDEAL-X包中。根据成像类型对记录进行额外的文本处理。OUHSC研究站点的所有自动文本处理都是使用Python v3.7执行的。

理想x工具

我们在本分析中使用的IDEAL-X的VTE识别模型已经在埃默里大学之前的一项研究中使用过[14].在这项研究中,IDEAL-X被用于分析埃默里大学骨科和脊柱医院从2009年2月1日到2014年12月9日的放射学报告。影像学报告包括下肢和上肢超声图像的解释、胸部对比CT扫描和胸部磁共振图像[14].我们将Emory项目开发的VTE识别模型应用于我们的数据集,作为本研究的一部分,无需对模型进行进一步校准或再训练。

两个研究网站(杜克大学和OUHSC)都将他们的数据转换为理想x所要求的格式,它包括一个包含以下四列数据输入的微软Excel电子表格ID文本手册,系统列。的ID列包含一个已识别的记录ID,该ID是通过使用加密安全的哈希函数从PDF图像文件名计算出来的。的文本列包含预处理后从成像报告中提取的非结构化文本。的手册列为金标准诊断,用于与IDEAL-X结果进行比较。的系统列(根据IDEAL-X规范)被留空,然后在处理后填充自动分类。

IDEAL-X的其他合计产出包括记录总数、敏感性、特异性、真阳性和假阳性的数目以及真阴性和假阴性的数目。此外,对二项分布数据使用Clopper-Pearson方法计算95% ci [17].采用同质性卡方检验评估各站点的绩效措施差异,显著性水平为.05。我们对假阳性结果进行了事后分析,其中每个共同作者回顾了每个假阳性和假阴性结果的文本,并将其划分为以下类别之一:无血栓形成证据,浅静脉血栓形成,慢性或残留静脉血栓形成,以及不确定。


杜克大学共收集了1591个影像学记录(上肢超声图像:n=223;下肢超声图像:n=729例;胸部CT血管造影:n=527例;通气灌注扫描:n=112)。OUHSC共收集了1487个成像记录(压缩超声图像:n=1333;胸部CT血管造影:n=149;通气灌注扫描:n=5)。这为我们的团队提供了总共3078条记录供IDEAL-X评估。IDEAL-X包含或排除的成像记录的数量(根据VTE的病例定义)和手工检查的记录的数量显示在表1(综合数字和按地点分层的数字显示)。当两个位点聚合时,有1204个真阳性病例,147个假阳性记录,1681个真阴性记录,46个假阴性病例。系统的性能指标总结在表2。总体而言,IDEAL-X的VTE模型达到了90%以上的准确性(93.7%),灵敏度(96.3%)和特异性(92%)。

当按地点分层时,我们发现杜克大学和OUHSC在绩效衡量方面有统计学上的显著差异。杜克大学的敏感性明显更高(P<.001),而在OUHSC特异性明显更高(P<措施)。为了进一步研究特异性的差异,我们确定了假阳性结果的总数(147/1351,10.9%)。假阳性结果的原因总结在表3。两个位点之间的分布不同,杜克大学假阳性结果的分类原因与“没有血栓形成的证据”的文本有关(104/ 104,100%)。此外,杜克大学的104个假阳性结果中有38个(36.5%)来自于通气灌注扫描的报告,这是一种未被包括在IDEAL-X VTE识别模型的机器学习阶段的成像方式。其余的错误发生在模型之前使用的诊断成像模式(压缩超声和CT血管造影),而相应的成像报告中的许多错误是由于原始文本中的错误换行,这导致算法无法正确地解释文本。相比之下,在OUHSC,假阳性结果最常见的原因是“浅静脉血栓”(25/ 44,58.1%)。杜克大学通气灌注扫描的38个假阳性结果占所有人工解释的通气灌注扫描的79.2% (38/48)杜克大学。相比之下,杜克大学的104个假阳性结果中有20个(19.2%)来自CT血管造影,但这只占所有人工解释的CT血管造影的8.1% (20/248)杜克大学。

表1。IDEAL-X(使用自适应学习的信息和数据提取)系统识别的符合静脉血栓栓塞病例定义的成像记录的分布,与通过人工复查(金标准)识别的图像记录的分布相比。综合分布和按监测点分层分布均有显示。
情况分类 通过人工评审进行分类

结合 杜克大学 的OUHSC一个

情况下,n Noncase n 总分类数N 情况下,n Noncase n 总分类数N 情况下,n Noncase n 总分类数N
总体分类b

病例经IDEAL-X鉴定 1204 147 1351 801 104 905 403 43 446

由IDEAL-X识别的非病例 46 1681 1727 17 669 686 29 1012 1041

根据IDEAL-X的总分类 1250 1828 3078 818 773 1591 432 1055 1487
从压缩超声记录进行分类

病例经IDEAL-X鉴定 736 85 821 465 46 511 271 39 310

由IDEAL-X识别的非病例 28 1436 1464 10 431 441 18 1005 1023

根据IDEAL-X的总分类 764 1521 2285 475 477 952 289 1044 1333
胸部计算机断层摄影血管造影记录的分类

病例经IDEAL-X鉴定 403 24 427 274 20. 294 129 4 133

由IDEAL-X识别的非病例 15 234 249 5 228 233 10 6 16

根据IDEAL-X的总分类 418 258 676 279 248 527 139 10 149
根据通气灌注扫描记录进行分类

病例经IDEAL-X鉴定 65 38 103 62 38 One hundred. 3. 0 3.

由IDEAL-X识别的非病例 3. 11 14 2 10 12 1 1 2

根据IDEAL-X的总分类 68 49 117 64 48 112 4 1 5

一个俄克拉荷马大学健康科学中心。

b包括来自杜克大学的112个通气灌注扫描和来自俄克拉荷马大学健康科学中心的5个通气灌注扫描。

表2。IDEAL-X(自适应学习信息和数据提取)系统在监测点的性能。
性能测量 综合性能,% (95% CI) 在杜克大学的表现,% (95% CI) 在公学高等教育中心的表现一个, % (95% ci)
总体分类

精度 93.7 (93.7 - -93.8) 92.4 (92.3 - -92.5) 95.2 (95.1 - -95.2)

灵敏度 96.3 (96.2 - -96.4) 97.9 (97.8 -98) 93.3 (93.1 - -93.4)

特异性 92 (91.9 -92) 86.5 (86.4 - -86.7) 95.9 (95.8 -96)

PPVb 89.1 (89 - 89.2) 88.5 (88.4 - -88.6) 90.4 (90.1 - -90.5)

净现值c 97.3 (97.3 - -97.4) 97.5 (97.4 - -97.6) 97.2 (97.1 - -97.3)
从压缩超声记录进行分类

精度 95.1 (95 - 95.1) 94.1 (94 - 94.2) 95.7 (95.6 - -95.8)

灵敏度 96.3 (96.2 - -96.4) 97.9 (97.7 -98) 93.8 (93.5 -94)

特异性 94.4 (94.3 - -94.5) 90.4 (90.1 - -90.5) 96.3 (96.2 - -96.3)

PPV 89.7 (89.5 - -89.8) 91 (90.8 - -91.1) 87.4 (87.1 - -87.7)

净现值 98.1 (98 - 98.1) 97.7 (97.5 - -97.9) 98.2 (98.1 - -98.3)
胸部计算机断层摄影血管造影记录的分类

精度 94.2 (94.1 - -94.3) 95.3 (95.1 - -95.4) 90.6 (90 - 91)

灵敏度 96.4 (96.2 - -96.5) 98.2 (97.9 - -98.4) 92.8 (92.2 - -93.2)

特异性 90.7 (90.3 -91) 91.9 (91.6 - -92.2) 60岁(53.9 - -65.4)

PPV 94.4 (94.2 - -94.5) 93.2 (92.9 - -93.4) 97 (96.4 - -97.3)

净现值 94 (93.6 - -94.2) 97.9 (97.5 - -98.1) 37.5 (34 - 41.6)
根据通气灌注扫描记录进行分类

精度 65 (64.2 - -65.6) 64.3 (63.5 -65) 80 (67.4 - -87.9)

灵敏度 95.6 (94.5 - -96.2) 96.9 (95.7 - -97.5) 75 (60 - 85.1)

特异性 22.5 (21.3 -24) 20.8 (19.7 - -22.4) 100 (47.5 -100)

PPV 63.1 (62.3 - -63.8) 62 (61.2 - -62.8) 100年(78 - 100)

净现值 78.6 (73.7 -82) 83.3 (77.6 -87) 50 (27.5 - -72.5)

一个俄克拉荷马大学健康科学中心。

bPPV:阳性预测值。

cNPV:阴性预测值。

我们还回顾了假阴性的结果,并在表3。造成IDEAL-X错误分类记录的一些潜在原因可能是:(1)我们的人工审查员在调查可能的病例时具有较低的阈值,如将指示慢性静脉血栓栓塞的成像记录、部分闭塞的血管或血栓性静脉炎的诊断作为静脉血栓栓塞的初步病例进行进一步调查,并在进一步检查时可能被排除;(2)如果文本显示一个部分存在血栓的证据,而另一个部分没有证据,则IDEAL-X采用没有证据的部分;(3) IDEAL-X无法识别某些拼写错误或符号。然而,46例假阴性病例中有18例(39.1%),尚不清楚IDEAL-X错误分类的原因。杜克大学6个分类错误的结果中,2个(33%)来自通气灌注扫描。

表3。记录不一致的原因。
文本中的原因

杜克大学记录,n (%) OUHSC一个记录,n (%)
假阳性的记录

没有血栓形成的证据 104 (100) 4 (9.3)

浅静脉血栓形成 0 (0) 25 (58.1)

慢性或残余深静脉血栓形成 0 (0) 13 (30.2)

不确定的 0 (0) 1 (2.3)

小计 104 (100) 43 (100)
假阴性的记录

将有问题的个案列为“正面”个案 2 (11.8) 9 (31)

阳性和阴性结果在同一报告中 2 (11.8) 6 (20.7)

无法识别的文字或符号,拼写错误 7 (41.2) 2 (6.9)

阳性报告被错误分类 6 (35.3) 12 (41.4)

小计 17 (100) 29日(100)

一个俄克拉荷马大学健康科学中心。


主要研究结果

本研究表明IDEAL-X是一种准确的NLP工具,可用于诊断静脉血栓栓塞病例。该系统通过访问影像记录(VTE诊断最可靠的数据源)中的信息,实现VTE病例的自动识别,从而可能提高VTE监测的效率。我们的研究结果对Dantes等人发表的研究结果有贡献。14通过扩大专业骨科医院的使用范围,并与在解释影像学研究时使用不同语言、单词和短语模式的放射科医生在两个不同州的普通医院环境中演示IDEAL-X的实用性和准确性。为了检验IDEAL-X VTE模型的鲁棒性,埃默里大学(Emory University)的研究人员在配置它之后没有进行额外的训练[14].因此,本研究更充分地探讨了医院系统的差异如何影响VTE模型的性能。

这种NLP模型的性能受到所使用的成像方式的影响。通气灌注扫描的特异性和阳性预测值较低,其中95.7%(112/117)来自杜克大学系统。OUHSC胸部CT血管造影的特异性和阴性预测值较低。这些值可能会受到影响,因为我们没有收到所请求的样本(从非案例中只有10条记录可以证明)。这导致病例患病率为93.2%(139/149),这并不能代表参与的卫生系统中肺栓塞的患病率。

使用NLP对案例进行分类的一个特别优点是IDEAL-X根据案例状态对记录进行分类所需的时间。N=1487的OUHSC记录的预处理时间约为5分钟,后处理时间<1分钟。相比之下,监视人员阅读文本并根据病例状态进行分类每次成像研究大约需要1分钟,这意味着对本研究中使用的记录进行分类可能需要52.5个人小时。当考虑在连续的时间范围内跨多个设施实施监视时,节省的时间变得越来越有意义。

与之前工作的比较

与其他常用的NLP工具(包括cTAKES(临床文本分析知识提取系统)、MetaMap、MedLEE(医学语言提取和编码系统)、GATE(文本工程通用体系结构)、NLTK(自然语言工具包)和OpenNLP相比,IDEAL-X相对简单。考虑到使用NLP的VTE监控系统处于设计和实现的初级阶段,我们还没有包括高级功能,如共同引用解析、关系提取和语义处理。然而,如果需要额外的细节来确定医生所属机构和组织的位置,或理解长达一段的文本(而不是1-2句话),则可能需要这些功能。

除了用于VTE病例识别,IDEAL-X还被用于提取正在接受放疗的非小细胞癌患者的治疗和预后信息[18];心导管检查报告;冠状动脉造影报告;以及包含来自病史、体检和出院摘要的非结构化文本的报告[19].这些研究报告了有希望的初步结果,显示精度值,灵敏度值和F得分83%或更高。

其他的NLP算法已经被开发出来并用于识别静脉血栓栓塞的病例。Hinz等人[20.]开发了一种算法,报告了84.7%的阳性预测值,95.3%的敏感性,和一个F得分0.897。Gálvez等[21开发了一种NLP工具——reveal NLP,用于识别儿科人群中的静脉血栓栓塞病例。报道的敏感性为97.2%,特异性为92.5%。尽管这些先前的研究使用了他们已经开发的工具,但我们的研究在与软件开发无关的机构中实现了IDEAL-X,为NLP工具的有用性和准确性提供了额外的洞察。

限制

IDEAL-X的一个主要限制是缺乏与EMR系统的集成;IDEAL-X需要人工提取成像记录,这是一个限制速度的步骤。的强制二元选项是另一个限制情况下而且不是个案,以致于不确定的不是一个选择。观察到的不同站点假阳性结果类别的不同分布,归因于每个站点请求或提取记录的方式的差异。杜克大学的数据集中不包括来自浅静脉血栓和慢性或残留深静脉血栓患者的影像学研究。如果需要在全国范围内部署,那么启用快速方便的定制以支持各种事件确定标准将是NLP工具的先决条件。此外,还需要进一步的训练,以使IDEAL-X能够准确地对记录进行分类,以解释假阳性和假阴性记录中检测到的模式。另一方面,为了监测目的,静脉血栓栓塞病例识别标准也需要标准化,以确保不同设施之间病例报告的一致性。

未来将致力于VTE监测的完全自动化。如何更好地集成NLP程序(如IDEAL-X)的一个例子是将其包含在医疗机构的临床数据处理过程中,这样在成像报告完成并发送计费后,它也会通过IDEAL-X(以及相关的预处理例程)运行。除了实时对静脉血栓栓塞病例进行分类外,实现该过程完全自动化的下一步还需要收集人口统计学、临床和风险因素数据,以促进对发病率数据的解释。其他未来的努力包括实现机器学习来微调IDEAL-X算法,以便它能够“学习”如何更准确地区分案例和非案例。可以从产生假阳性结果的记录中添加示例文本,以进一步训练IDEAL-X并提高其准确性。尽管使用这些信息提取软件工具有预期的好处,但在实现过程中仍然存在一定的障碍。这些障碍包括定制部署和本地化的成本,软件的专有性质,以及有负责操作和维护系统的人员,确保医疗保健管理员接受好处,保持遵守《医疗保险可携性和问责法》和其他法规。

结论和公共卫生影响

在疾病监测中使用机器学习和自然语言处理提高了访问和分析电子病历中非结构化文本的能力。它们的进一步和广泛使用有望减少资源需求(即时间和金钱),同时提高跨站点数据收集标准化的能力。通过对静脉血栓栓塞进行监测,我们将有更好的数据来了解临床实践的变化(例如,直接口服抗凝剂使用的增加)是否正在减轻静脉血栓栓塞的负担。增强静脉血栓栓塞监测可以改善患者管理、护理和安全性。同样,随着COVID-19大流行的出现,一个强有力的国家监测系统将有助于迅速了解COVID-19与静脉血栓栓塞之间的关系[22].在静脉血栓栓塞疾病监测中使用NLP的经验教训可以扩展到改进其他医院相关疾病的监测,对这些疾病,从医疗记录中提取的非结构化文本在检测和分类中发挥关键作用。

致谢

我们非常感谢疾病控制和预防中心健康质量和促进司的郑帅博士,他在这项研究中使用了IDEAL-X(使用自适应学习的信息和数据提取),并对这篇稿件进行了准确性审查。我们也感谢希瑟·霍伦对手稿的编辑评论。我们真诚地感谢埃默里大学允许我们在这个项目中使用IDEAL-X。此外,我们感谢INTEGRIS健康系统的Lisa Hunter和Lori Black在本研究中进行监测的合作。本研究得到美国疾病控制与预防中心(合作协议号:#5U36OE000002-01)的支持。本报告中的调查结果和结论仅为作者本人,并不代表美国疾病控制和预防中心的官方立场。

利益冲突

没有宣布。

  1. 疾病控制和预防中心(CDC)。成人住院治疗中的静脉血栓栓塞——美国,2007-2009年。MMWR Morb Mortal Wkly Rep 2012年6月08;61(22):401-404 [免费全文] [Medline
  2. Spencer FA, Emery C, Joffe SW, Pacifico L, Lessard D, Reed G,等。静脉血栓栓塞患者的发病率、临床特征和预后。伍斯特静脉血栓栓塞研究。J Thromb血栓溶解2009 11月;28(4):401-409 [免费全文] [CrossRef] [Medline
  3. Maynard G.预防医院相关静脉血栓栓塞:有效质量改进指南,第2版,医疗保健研究和质量机构,2016年8月URL:https://www.ahrq.gov/sites/default/files/publications/files/vteguide.pdf[2021-02-18]访问
  4. Serhal M, Barnes GD。静脉血栓栓塞:临床医师更新。Vasc Med 2019 4月24日(2):122-131。[CrossRef] [Medline
  5. 温德尔博,坎贝尔J,丁K, Bratzler DW,贝克曼MG,雷耶斯NL,等。俄克拉荷马州俄克拉荷马县不同种族人群中静脉血栓栓塞的发生率。Thromb Haemost 2021 Jun;121(6):816-825 [免费全文] [CrossRef] [Medline
  6. Kaafarani HMA, Borzecki AM, Itani KMF, Loveland S, Mull HJ, Hickson K,等。所选患者安全指标的有效性:机会和关注。中华外科杂志2011年6月;212(6):924-934。[CrossRef] [Medline
  7. 詹超,Battles J,蒋毅平,Hunt D. ICD-9-CM编码在诊断术后深静脉血栓和肺栓塞中的有效性。中华医学会医学检验杂志2007年6月;33(6):326-331。[CrossRef] [Medline
  8. 方MC,范D,宋SH, Witt DM, Schmelzer JR, Steinhubl SR等。使用住院和门诊管理代码识别急性静脉血栓栓塞的有效性:CVRN VTE研究。医疗护理2017年12月;55(12):e137-e143 [免费全文] [CrossRef] [Medline
  9. 按类型分列的拥有认证医疗信息技术的医院百分比。国家卫生信息技术协调员办公室。URL:https://dashboard.healthit.gov/quickstats/pages/certified-electronic-health-record-technology-in-hospitals.php[2021-05-25]访问
  10. 采用基于办公室的医生电子健康记录。国家卫生信息技术协调员办公室。URL:https://www.healthit.gov/data/quickstats/office-based-physician-electronic-health-record-adoption[2021-02-18]访问
  11. Murff HJ, FitzHenry F, Matheny ME, Gentry N, Kotter KL, Crimin K,等。利用自然语言处理自动识别电子病历中的术后并发症。JAMA 2011 Aug 24;306(8):848-855。[CrossRef] [Medline
  12. Rochefort CM, Verma AD, Eguale T, Lee TC, Buckeridge DL。一种新的不良事件检测方法可以从记叙性电子健康记录数据中准确识别静脉血栓栓塞(VTEs)。J Am Med Inform Assoc 2015年1月;22(1):155-165 [免费全文] [CrossRef] [Medline
  13. 田铮,孙申,eequale T, Rochefort CM。从电子健康记录中的叙事放射学报告中自动提取静脉血栓栓塞事件:一项验证研究医疗护理2017年10月;55(10):e73-e80 [免费全文] [CrossRef] [Medline
  14. Dantes RB, Zheng S, Lu JJ, Beckman MG, Krishnaswamy A, Richardson LC,等。利用一种新的信息提取软件平台改进了电子病历中静脉血栓栓塞的识别。2018年9月56日(9):e54-e60 [免费全文] [CrossRef] [Medline
  15. Wendelboe AM, Campbell J, McCumber M, Bratzler D, Ding K, Beckman M,等。设计和实现一种新的静脉血栓栓塞监测系统,采用主动和被动相结合的方法。Am Heart J 2015 09;170(3):447-454。e18 [免费全文] [CrossRef] [Medline
  16. Ortel TL, Arnold K, Beckman M, Brown A, Reyes N, Saber I,等。设计和实施一个综合监测系统的静脉血栓栓塞在一个确定的区域使用电子和人工方法。application Clin Inform 2019 5月;10(3):552-562 [免费全文] [CrossRef] [Medline
  17. 法格兰MW, Lydersen S, Laake P.成对二项比例的推荐检验和置信区间。Stat Med 2014 7月20日;33(16):2850-2875。[CrossRef] [Medline
  18. 郑硕,Jabbour SK, O'Reilly SE,陆俊杰,董磊,丁磊,等。非小细胞肺癌放疗患者治疗和预后信息的自动提取:临床研究。JMIR Med Inform 2018 Feb 01;6(1):e8 [免费全文] [CrossRef] [Medline
  19. 郑思,陆俊杰,Ghasemzadeh N, Hayek SS, quyumi AA,王峰。基于在线机器学习和可控词汇的异构临床报告信息提取框架。JMIR Med Inform 2017 May 09;5(2):e12 [免费全文] [CrossRef] [Medline
  20. Hinz ERM, Bastarache L, Denny JC。一种定义静脉血栓栓塞表型的自然语言处理算法。AMIA Annu Symp Proc 2013年11月16日;2013:975-983 [免费全文] [Medline
  21. Gálvez JA, Pappas JM, Ahumada L, Martin JN, Simpao AF, Rehman MA,等。在电子健康记录中使用自然语言处理儿科放射诊断报告来识别儿童深静脉血栓。2017年10月;44(3):281-290。[CrossRef] [Medline
  22. Di Micco P, Russo V, Lodigiani C.静脉血栓栓塞及其与COVID-19的关系:仍在公开辩论。Medicina (Kaunas) 2020年9月27日;56(10):506 [免费全文] [CrossRef] [Medline


CT:计算机断层扫描
cTAKES:临床文本分析知识提取系统
深静脉血栓形成:深静脉血栓形成
EMR:电子病历
门:文本工程通用架构
理想x:使用自适应学习的信息和数据提取
MedLEE:医学语言提取与编码系统
NLP:自然语言处理
NLTK:自然语言工具包
OUHSC:俄克拉荷马大学健康科学中心
静脉血栓栓塞:静脉血栓栓塞


A Mavragani编辑;提交31.01.22;由S Doan、DW Waqar Ali同行评议;评论作者02.05.22;修订版收到13.06.22;接受21.07.22;发表05.08.22

版权

©Aaron Wendelboe, Ibrahim Saber, Justin Dvorak, Alys Adamski, Natalie Feland, Nimia Reyes, Karon Abe, Thomas Ortel, Gary Raskob。最初发表于JMIR生物信息学和生物技术(https://bioinform.www.mybigtv.com), 05.08.2022。

这是一篇开放获取的文章,根据创作共用署名许可协议(http://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是必须正确引用最初发表在《JMIR生物信息学和生物技术》上的原始作品。必须包括完整的书目信息,https://bioinform.www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。


Baidu
map