发表在9卷, 5号(2021): 5月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/24381,首次出版
使用自然语言处理从自由文本放射学报告中自动提取中风数据:仪器验证研究

使用自然语言处理从自由文本放射学报告中自动提取中风数据:仪器验证研究

使用自然语言处理从自由文本放射学报告中自动提取中风数据:仪器验证研究

原始论文

1多伦多大学医学(神经内科)- Sunnybrook健康科学中心,加拿大多伦多

2统一健康多伦多,多伦多,ON,加拿大

3.医学(普通内科),多伦多大学-大学健康网络,多伦多,安大略省,加拿大

4加拿大渥太华大学神经放射学系放射学系

5加拿大安大略省多伦多大学多伦多统一健康中心医学部

通讯作者:

Amy yx Yu, MD

内科(神经内科)

多伦多大学桑尼布鲁克健康科学中心

湾景大道2075号

多伦多,安大略省,m4n3m5

加拿大

电话:1 416 480 6100转4866

传真:1 416 480 5753

电子邮件:amyyx.yu@utoronto.ca


背景:诊断神经血管成像数据在卒中研究中是重要的,但获得这些数据通常需要费力的手工图表审查。

摘要目的:我们的目的是确定自然语言处理(NLP)方法的准确性,以提取血管闭塞的存在和位置以及其他基于自由文本报告的卒中相关属性的信息。

方法:从2017年10月至2019年1月在三级卒中中心进行的1320例连续计算机断层扫描(CT)、CT血管造影和CT灌注扫描的完整报告中,我们手动提取了近端大血管闭塞(主要结果)、远端血管闭塞、缺血、出血、阿尔伯塔卒中项目早期CT评分(ASPECTS)和侧支状态(次要结果)的数据。报告随机分为训练集(n=921)和验证集(n=399),并使用基于规则的NLP提取属性。我们报告了NLP方法相对于人工提取数据的敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)和总体准确性。

结果:大血管闭塞的总体患病率为12.2%。在训练样本中,NLP方法识别该属性的总体准确率为97.3%(灵敏度95.5%,特异性98.1%,PPV 84.1%, NPV 99.4%)。在验证集中,总体准确率为95.2%(灵敏度90.0%,特异性97.4%,PPV 76.3%, NPV 98.5%)。识别远端或基底动脉闭塞以及出血的准确性也很高,但在识别脑缺血,方面和侧支状态方面存在局限性。

结论:NLP可以提高脑卒中监测和研究中大规模成像数据收集的效率。

中国生物医学工程学报;2011;31 (5):563 - 567

doi: 10.2196/24381

关键字



中风是导致死亡和残疾的主要原因[1]。神经影像学研究结果提示治疗和预后。例如,最近的临床试验已经证明了血管内取栓(一种机械凝块回收程序)在改善急性缺血性卒中和近端大血管闭塞患者的功能预后方面的有效性[2-5]。对于远端或更小血管闭塞的患者,目前缺乏该手术的疗效数据。尽管大型卫生管理数据库有关于中风是缺血性还是出血性的信息,但详细的神经影像学结果通常是在叙述性诊断影像学报告中发现的,并通过资源密集的手工图表抽象获得[67]。

缺乏基于人群的神经影像学数据限制了描述大血管闭塞患病率的能力。最近一项对缺血性卒中患者队列研究的荟萃分析发现,大血管闭塞的患病率范围很广,从13%到52%不等[8这表明较小的队列研究可能容易受到选择偏差的影响。因此,基于人群的疾病监测和临床研究需要从诊断成像报告中自动提取血管闭塞信息。

自然语言处理(NLP)可以将大量自由文本数据转换为结构化数据,并已用于从诊断成像报告中提取有关中风类型和位置的信息[9-11]。然而,其表征血管闭塞的能力尚不清楚。我们的目标是确定NLP工具的准确性[12从计算机断层扫描(CT)、CT血管造影(CTA)和CT灌注扫描(CTP)的神经影像学报告中识别血管闭塞的存在和位置以及其他与中风相关的属性。我们假设NLP工具可以高精度地识别大血管闭塞。


手工图表抽象

我们获得了2017年10月至2019年1月期间在大学附属综合卒中中心进行的1320项连续卒中方案成像研究的完整自由文本报告,包括头部和颈部的CT、CTA和CTP成像,该中心为250万人的集水区提供血管内血栓切除术咨询。一名中风专家和一名训练有素的研究助理手动从报告中提取与中风相关的属性。主要结果是存在大血管闭塞,定义为大脑中动脉M1段(MCA-M1)或大脑前动脉A1段(ACA-A1)的闭塞,伴或不伴颈动脉末梢,因为这些部位的闭塞可通过血管内血栓切除术治疗。我们选择这个作为主要结局,因为这种闭塞的患者可以通过血管内取栓来治疗。孤立性颅内颈内动脉闭塞在本研究中未被归类为大血管闭塞,因为在该人群中尚未显示血管内取栓的有效性[13]。

次要结局包括(1)脑缺血的存在;(2)Alberta卒中项目早期CT评分(ASPECTS) [14[3]颅内出血的存在;(4)远端前循环闭塞,定义为M2或A2段或更远的大脑中动脉或前动脉闭塞;(5)基底动脉闭塞;(6)侧支状态的定性测量(即良好、中等或较差)。人工提取的数据作为参考标准。在200张图表上重复的图表抽象表明,除了脑缺血的存在外,所有属性的评分间信度为bb0 96%。我们随机将报告分成训练集(n=921)和验证集(n 399)。

chartext NLP工具

从自由文本诊断成像报告中提取笔划属性的NLP规则集使用chartext 0.3.2版本创建,该版本可免费在线获取[12]。chartext是一种基于规则的信息提取工具,它依赖正则表达式,在句子级别识别单词模式。我们选择使用基于规则的方法,因为样本量小,而且领域专家可以开发和改进规则。

我们通过使用迭代过程创建信息提取管道,其中每个规则由训练集中的最终用户分配权重。例如,如果报告中包含“存在大脑中动脉闭塞……”的文本,则系统对大血管闭塞概率的估计会增加;然而,如果一个报告包含“no evidence of…”的文本,它将降低系统对概率的估计。如图所示图1,该工具显示图表抽象器标签和工具预测之间的差异,从而允许最终用户对规则进行快速迭代细化。最终用户(ZL、AY和CP)使用在验证集中验证的训练集,通过迭代过程为每个属性开发规则。对于存在大血管闭塞(我们的主要结果),我们还记录了图表抽象器和NLP工具之间的差异是由于抽象器还是工具错误。由此形成的规则见多媒体附录1

图1所示。图表抽象器和chartext工具输出之间的差异的例子1。(A)计算机断层血管造影扫描显示左侧大脑中动脉浑浊消失,累及左侧M1段并延伸至M2段。(B) CHARTextract工具输出:图表抽象器标记存在大血管闭塞,但CHARTextract工具确定该属性不存在。该规则被修订,以反映即使没有“MCA”或“大脑中动脉”这一术语,也应将涉及“M1段”的闭塞视为大血管闭塞。
查看此图

统计方法

将NLP工具chartext version 0.3.2识别出的笔画相关属性与参考标准进行比较。使用该工具计算敏感性、特异性、阳性预测值(PPV)和阴性预测值(NPV)。

伦理批准

该研究得到了Sunnybrook健康科学中心和Unity Health多伦多研究伦理委员会的批准,并在数据收集之前放弃了个人患者的同意。


在人工审阅的1320例连续诊断影像报告中,图表提取者确定了184例大血管闭塞(MCA-M1, n=157;ACA-A1, n=27), 161例(12.2%)报告。远端前循环闭塞188例(14.2%),基底动脉闭塞26例(2.0%),缺血391例(29.6%),颅内出血139例(10.5%)。仅384例(29.1%)报道了ASPECTS (ASPECTS <5, n=40;≥5,n=344), 216份(16.4%)报告描述了侧枝状态(良好,n=141;中间,n = 26;穷,n = 49)。

与参考标准相比,NLP工具识别大血管闭塞的总体准确率为97.3%(敏感性95.5%,特异性98.1%,PPV 84.1%, NPV 99.4%)。尽管有一个改进规则的迭代过程,但将一些场景转化为规则仍然具有挑战性。图2举例说明了一个例子,其中chartext工具确定存在大血管闭塞,因为“闭塞”和“M1段”这两个词在同一个句子中被检测到,但报告显示闭塞在颈内动脉的海绵状部分,血流在M1段重建。的另一个例子中图3, chartext工具确定没有大血管阻塞,因为报告显示存在从颈内动脉延伸到M2段的阻塞。在这里,该工具只检测到“颈内动脉”和“M2”作为关键词,无法解释报告中描述的血管解剖。尽管如此,在验证集中,大血管闭塞的总体准确率仍然很高,达到95.2%(90.0%敏感性,97.4%特异性,76.3% PPV和98.5% NPV)。我们还发现,在抽象者和NLP工具之间的25个差异中,有两个是由于图表抽象者错误造成的。

图2。图表抽象器和chartext工具输出之间的差异的例子2。(A)计算机断层血管造影扫描显示海绵状颈内动脉近闭塞伴大脑中动脉重建。(B) chartext输出:抽象者标记不存在大血管闭塞,但chartext工具确定存在该属性,因为在同一句中检测到单词“闭塞”和“M1段”。
查看此图
图3。图表抽象器和chartext工具输出之间的差异的例子3。提取者标记存在大血管闭塞,因为提取者能够解释从颈内动脉延伸到大脑中动脉M2段的闭塞涉及到M1段,但chartext工具确定该属性不存在,因为该工具在没有血管解剖学知识的情况下检测关键词。
查看此图

chartext工具对其他笔画属性的准确性给出表1。除了存在已建立的缺血外,该工具以中等高的准确率识别了这些其他属性,其敏感性和PPV较低,在衍生队列中分别为82.2%和80.5%,在验证队列中分别为80.8%和64.1%。另一个例外是基底动脉闭塞,仅占2.0%(26/1320)的报告。虽然衍生队列对基底动脉闭塞的敏感性和PPV分别为100%和95.0%,但验证队列的相应值较低(分别为71.4%和41.7%)。

表1。自然语言处理工具chartext在诊断成像报告中识别卒中相关属性的准确性。
队列和卒中相关属性 属性流行度,n (%) 灵敏度(%) 特异性(%) PPV一个(%) 净现值b(%) 总体精度(%)
派生队列(n=921)

前近端咬合

111 (12.1) 95.5 98.1 84.1 99.4 97.3

前远端咬合

127 (13.8) 92.9 98.0 88.1 98.9 97.3

基底动脉闭塞

19日(2.1) One hundred. 99.9 95.0 One hundred. 99.9

存在已建立的缺血 287 (31.2) 82.2 91.7 80.5 91.9 88.3

有无出血 114 (12.4) 93.0 98.2 87.6 99.0 97.5
验证队列(n=399)

前近端咬合

50 (12.5) 90.0 97.4 76.3 98.5 95.2

前远端咬合

61 (15.3) 83.6 97.7 86.4 97.1 95.5

基底动脉闭塞

7 (1.8) 71.4 98.2 41.7 99.5 97.7

存在已建立的缺血 104 (26.1) 80.8 85.1 64.1 92.5 83.2

有无出血

25 (6.3) 88.0 96.0 59.5 99.2 95.5

一个PPV:阳性预测值。

bNPV:负的预测值。

由于数据不完整,aspect和附属状态的度量是分开显示的(表2).重要的是,我们发现NLP工具能够以很高的准确性识别丢失数据的报告。例如,衍生队列中71.8%(661/921)的报告和验证队列中68.99%(275/399)的报告缺少关于ASPECTS的信息。该工具准确识别出该属性缺失,衍生队列的灵敏度和PPV分别为99.7%和99.7%,验证队列的灵敏度和PPV分别为99.3%和98.6%。

表2。自然语言处理工具chartext识别Alberta卒中项目早期CT评分(ASPECTS)和基于诊断成像报告的侧支血管状态的准确性。
队列和卒中相关属性 属性流行度,n (%) 灵敏度(%) 特异性(%) PPV一个(%) 净现值b(%) 总体精度(%)
派生队列(n=921)

方面 98.8


没有报告 661 (71.8) 99.7 99.2 99.7 99.2


< 5 30 (3.3) 96.7 99.2 80.6 99.9


≥5 230 (25.0) 96.5 99.7 99.1 98.9

抵押状态 98.4


没有报告 774 (84.0) 99.2 96.6 99.4 95.9


可怜的 34 (3.7) 94.1 One hundred. One hundred. 99.8


中间 19日(2.1) 78.9 One hundred. One hundred. 99.6


94 (10.2) 96.8 98.8 90.1 99.6
验证队列(n=399)

方面 98.5


没有报告 275 (68.9) 99.3 96.8 98.6 98.4


< 5 10 (2.5) 70.0 One hundred. 100.0 99.2


≥5 114 (28.6) 99.1 99.3 98.3 99.6

抵押状态 98.2


没有报告 330 (82.7) 99.7 91.3 98.2 98.4


可怜的 15 (3.8) 93.3 99.7 93.3 99.7


中间 7 (1.8) 71.4 One hundred. One hundred. 99.5


47 (11.8) 93.6 One hundred. One hundred. 99.2

一个PPV:阳性预测值。

bNPV:负的预测值。


主要研究结果

我们发现,NLP方法可以以中等高的准确性自动从神经影像学报告中提取数据,支持其在卒中监测、卫生系统规划和基于人群的临床研究中的潜在应用。chartext鉴别大血管闭塞的PPV为76.3%,即100例鉴定为大血管闭塞的报告中,有24例假阳性,但敏感性、特异性和NPV均大于90%,说明假阴性病例的发生率较低。因此,当使用大型数据集时,NLP可能是一个有用的筛选工具。

虽然我们没有正式记录数据抽象所需的时间,但是抽象人员估计每个图表的平均审查时间为5分钟,这增加了110小时的持续关注,总共审查了1320个图表。另一方面,一旦开发了规则集,NLP工具可以在几秒钟内提取所请求的变量。

限制

NLP有几个限制值得讨论。首先,NLP方法只能从放射科医生报告的诊断图像解释中提取信息,而不是直接用于成像解释[4]。虽然该工具在确定哪些报告缺少关于aspect和附属状态的数据方面是准确的,但是如果没有对图像的直接评估,就无法获得这些属性的信息。其次,每个规则都在句子级别上应用,因此,如果关键字出现在不同的句子中,工具将无法捕获属性。第三,该工具不区分英语中的同音异义词。例如,我们遇到了用“ASPECT”这个词来描述分数和用“ASPECT”来描述大脑的一个方面或血管的一个组成部分的挑战。最后,NLP方法受到描述影像学发现的报告实践变化的影响。这在脑缺血的评估中最为明显。用于描述这一特性的术语难以预测,并且经常包含模棱两可的语言,如“可能的轻微低密度”或“不能排除早期缺血”。有趣的是,与被评估的其他属性相比,脑缺血属性在图表抽象者之间的可信度也较低。我们注意到,在脑卒中研究中具有丰富图表抽象经验的非临床研究助理在记录缺血时更为自由,而脑卒中专家在记录缺血时则更有选择性,这取决于放射科医生使用的语言。 In this situation, the application of NLP rule sets may improve the standardization of data collection. Finally, the current proof-of-concept study has a small sample size. External validation of our methods with a larger sample of radiology reports is needed to address the limitations arising from variation in reporting practices.

结论

NLP方法可以高精度地识别大血管闭塞的存在,并有可能提高从成像报告中大规模数据收集的效率。需要对我们的方法进行外部验证。

致谢

本研究由Sunnybrook替代资助计划协会通过来自加拿大安大略省学术健康科学中心的替代资助计划创新基金提供支持。AY得到了加拿大心脏和中风基金会的国家新研究者奖的支持。MKK得到了加拿大心脏和中风基金会的中期职业研究者奖的支持,并在大学健康网络担任妇女健康的Lillian Love主席。

利益冲突

没有宣布。

多媒体附录1

文本工具规则。

PDF文件(adobepdf文件),1217kb

  1. 郭志强,郭志强,刘志强,等。中国老年人脑卒中患病率的研究进展。中风2015年8月;46(8):2226-2231。[CrossRef] [Medline
  2. Goyal M, Menon BK, van Zwam WH, Dippel DWJ, Mitchell PJ, Demchuk AM, HERMES合作者。大血管缺血性脑卒中后血管内血栓切除术:来自五项随机试验的个体患者数据的荟萃分析。柳叶刀2016年4月23日;387(10029):1723-1731。[CrossRef] [Medline
  3. Nogueira RG, Jadhav AP, Haussen DC, Bonafe A, Budzik RF, Bhuva P, DAWN试验调查员。中风后6 - 24小时取栓,缺血与梗死不匹配。中华医学杂志,2018,31(1):11-21。[CrossRef] [Medline
  4. Albers GW, Marks MP, Kemp S, Christensen S, Tsai JP, Ortega-Gutierrez S,奈特3名调查员。6 ~ 16小时脑卒中取栓,灌注显像选择。中华检验医学杂志2018年2月22日;37 (8):718 -718 [J]免费全文] [CrossRef] [Medline
  5. 汤玛拉,陈建军,陈建军,陈建军,陈建军。mri引导溶栓治疗发病时间未知的脑卒中。中华检验医学杂志,2018,31(7):611-622。[CrossRef] [Medline
  6. 吴丹,金J, Thrift AG, Cadilhac DA, Andrew NE, Sundararajan V,等。大数据有望提高脑卒中结果研究的效率和全面性。2019年5月卒中;50(5):1302-1309。[CrossRef] [Medline
  7. 余毅,Holodinsky JK, Zerna C, Svenson LW, jett N,全浩,等。卒中研究和监测中行政健康数据的使用和效用。中风2016年7月;47(7):1946-1952。[CrossRef
  8. Waqas M, Rai AT, Vakharia K, Chin F, Siddiqui AH。定义和方法对急性缺血性卒中大血管闭塞患病率估计的影响:一项系统回顾和荟萃分析。[J]中华外科杂志;2010;31(3):369 - 369。[CrossRef] [Medline
  9. Pons E, Braun LMM, Hunink MGM, Kors JA。放射学中的自然语言处理:系统回顾。中华放射学杂志;2016;29(2):329-343。[CrossRef] [Medline
  10. 李建军,刘建军,刘建军,等。基于自然语言处理的脑MRI诊断方法。PLoS One 2019;14(2):e0212778 [j]免费全文] [CrossRef] [Medline
  11. 王俊杰,张锐,王志强,王志强,王志强。机器学习和自然语言处理方法从放射报告中识别缺血性中风,急性度和位置。PLoS One 2020;15(6):e0234908 [j]免费全文] [CrossRef] [Medline
  12. 图表摘要-李嘉诚医疗保健分析研究与培训中心(LKS-CHART)。2019.URL:https://lks-chart.github.io/CHARTextract-docs/[2019-08-02]访问
  13. 李建军,刘建军,李建军,李建军,等。急性缺血性卒中患者大血管闭塞的患病率:一项10年系统文献综述。中华神经外科杂志,2019;11(3):241-245。[CrossRef] [Medline
  14. Barber PA, Demchuk AM, Zhang J, Buchan AM。定量计算机断层扫描评分在溶栓治疗前预测超急性卒中预后的有效性和可靠性。方面研究小组。艾伯塔省中风项目早期CT评分。柳叶刀2000年5月13日;355(9216):1670-1674。[CrossRef] [Medline


ACA-A1:大脑前动脉A1段
方面:阿尔伯塔中风项目早期CT评分
CT:计算机断层扫描
CTA:计算机断层血管造影
CTP:计算机断层扫描灌注
MCA-M1:大脑中动脉的M1段
NLP:自然语言处理
净现值:负预测值
PPV:阳性预测值


G·艾森巴赫编辑;提交16.09.20;R·杜威、M·阿克索伊的同行评议;对作者的评论28.10.20;修订版本收到10.11.20;接受16.04.21;发表04.05.21

版权

©Amy Y X Yu, Zhongyu A Liu, Chloe poup - prom, Kaitlyn Lopes, Moira K Kapral, Richard I Aviv, Muhammad Mamdani。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 2021年5月4日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map