这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。
心脏磁共振成像(CMR)是一种强大的诊断方式,可提供详细的心脏解剖和功能定量评估。临床报告通常以非结构化文本形式存储在电子健康记录系统中,从临床报告中自动提取CMR测量值将有助于其在研究中的使用。现有的机器学习方法要么依赖于大量的专家注释,要么需要开发耗时且特定于开发环境的工程规则。
我们假设使用预训练的基于转换器的语言模型可以从临床文本中实现标签高效的数字提取,而不需要启发式或大量的专家注释。在这里,我们在少量CMR注释上微调预训练的基于变压器的语言模型,以提取21个CMR测量值。我们评估了临床预训练的效果,以减少标记需求,并探索了数字输入的替代表示以提高性能。
我们的研究样本包括99,252名在多机构卫生保健系统中接受纵向心脏病学护理的患者。来自9280名患者的12720份可用CMR报告。我们采用临床文本注释工具PRAnCER (Platform Enabling Rapid Annotation for Clinical Entity Recognition)来收集临床医生对370份报告的注释。我们尝试了5种不同的数值量表示和几种模型权重初始化。我们使用宏观平均来评估提取性能
权重初始化和数值表示的所有组合在金标准测试集上都获得了出色的性能,这表明在一小组注释上进行微调的变压器模型可以有效地提取数值量。我们的结果进一步表明,自定义数字表示似乎对提取性能没有显著影响。性能最好的模型实现了宏观平均
这项研究表明,一个领域不可知的预训练变压器模型能够有效地从诊断报告中提取定量的临床测量数据,并且具有相对较少的金标准注释。建议的工作流可以作为其他定量实体提取的路线图。
心脏磁共振成像(CMR)有助于许多重要心脏疾病的表征,包括左、右心室衰竭、左心室肥厚和主动脉根动脉瘤。左心室射血分数(LVEF)的量化以及将心力衰竭患者分为射血分数降低、中度降低或保持的患者是为特定患者选择适当治疗的基础[
从临床文本中提取测量值的现有方法通常基于人工开发的启发式方法或机器学习方法,这些方法从标记数据中学习,但不利用预训练的语言表示。基于规则的方法[
基于变压器的双向编码器表示(BERT)神经网络[
在这项研究中,我们假设预训练的转换器在一小组注释上进行微调,可以有效地从诊断文本中提取数值量。我们对一系列预训练的变压器进行了微调,包括临床导向的变压器,以开发一种NLP工作流程,同时从基于心脏病学的EHR队列的CMR报告中提取21种特定的心脏结构和功能测量。这一组代表了CMR报告中所有有临床意义的定量成像结果。我们还探讨了与报告中出现的默认表示相比,替代数字表示是否会影响提取质量。在选择了表现最好的模型后,我们应用我们的工作流程从研究队列中所有可用的CMR报告中提取测量值。为了证明这些提取的准确性,我们评估了提取的心脏解剖和功能指标与事件临床结果之间的预期关联。
个体从多机构学术卫生保健系统(麻省总医院布里格姆)的回顾性社区流动心脏病学样本(心脏病学企业仓库[EWOC])中选择。EWOC包括99,252名18岁或以上的成年人,在2000年至2019年期间的1至3年内就诊两次以上心脏病学门诊。队列中每个个体的EHR数据范围广泛,包括人口统计学、人体测量学、生命体征、叙述笔记、实验室结果、药物清单、放射学和心脏病学诊断测试结果、病理报告以及程序和诊断管理账单代码[
研究样本的CONSORT(综合试验报告标准)图表。CMR:心脏磁共振成像;EWOC:心脏病企业仓库。
本研究已获得马萨诸塞州布里格姆机构审查委员会(2017P001650)批准。
基线特征是根据先前公布的《国际疾病分类》第9和第10版诊断代码的分组来定义的[
训练集、测试集和CMR结果集的基线特征。
训练集 |
测试集 |
CMR一个结果集b
|
||||
年龄(年),中位数(Q1, Q3) | 54 (46,64) | 58 (45,66) | 57 (46,67) | |||
女性,n (%) | 95 (34.2) | 33 (33) | 3666 (39.5) | |||
糖尿病,n (%) | 23日(8.3) | 10 (10) | 1216 (13.1) | |||
冠状动脉疾病,n (%) | 69 (24.8) | 31 (31) | 3406 (36.7) | |||
心肌梗死,n (%) | 42 (15.1) | 15 (15) | 1791 (19.3) | |||
心房颤动,n (%) | 104 (37.4) | 24 (24) | 3164 (34.1) | |||
肥胖,n (%) | 12 (4.3) | 7 (7) | 631 (6.8) | |||
慢性肾脏疾病,n (%) | 26日(9.4) | 7 (7) | 1123 (12.1) | |||
高血压,n (%) | 130 (46.8) | 55 (55) | 5563 (59.9) | |||
|
||||||
|
白色 | 237 (85.3) | 93 (93) | 7814 (84.2) | ||
|
亚洲 | 14 (5.0) | 1 (1) | 251 (2.7) | ||
|
黑色的 | 13 (4.7) | 2 (2) | 520 (5.6) | ||
|
其他 | 7 (2.5) | 1 (1) | 195 (2.1) | ||
|
拉美裔 | 4 (1.4) | 0 (0) | 111 (1.2) | ||
|
未知的 | 3 (1.1) | 3 (3) | 390 (4.2) |
一个CMR:心脏磁共振成像。
b包括所有在心脏病企业仓库有CMR报告的个人。
与其他电子病历类似,定量CMR测量结果包含在麻省总医院布莱根电子病历的自由文本诊断报告中[
在所有可获得的报告中,370份是由研究临床医生(JSH)从独特的个体中随机选择的。从这些报告中,270个被随机划分为训练集,其余100个被保留用于模型测试(
最后,为了解决临床注释的质量问题,我们使用了一个二级注释器(PB)来标记仅为模型测试保留的100份报告。我们计算注释者间的一致性作为注释者之间匹配提取的比例,与临床实体提取文献一致[
左室舒张末期容积
左室舒张末期容积指数
左室舒张末期直径
左心室收缩末期容积
左心室收缩末期容积指数
左心室收缩末期直径
左心室射血分数
左室每搏量
左心室质量
左心室质量指数
心输出量
心脏指数
右心室舒张末期容积
右心室舒张末期容积指数
右心室收缩末期容积
右心室收缩末期容积指数
右心室每搏量
右心室每搏量
左心房前后位
肺动脉径
主动脉根部尺寸
3份心脏磁共振成像报告(A,B,C)量化右心室功能的示例文本。等效测量的呈现方式缺乏一致性使得准确提取测量具有挑战性。黄色突出的特征表示右心室舒张末期容积(RVEDV),而蓝色突出的特征表示右心室舒张末期容积指数(RVEDVI)。例C不包含RVEDVI特性。EDV:舒张末期容积;EF:喷射分数;ESV;收缩期终容积;RVEF:右心室射血分数;RVESV:右心室收缩末容积; RVESVI: right ventricular end systolic volume index; RVSV: right ventricular stroke volume.
先前的研究表明,使用替代表示法代替默认的表面数字表示法对转换器模型在文本中执行定量操作的能力有重大影响,例如简单的算术[
文本示例片段的数值转换。
转换的名字 | 转换代码片段 | 笔记 |
原始 | RVESV一个: 51.01 ml | 没有转换;供参考 |
取代了小数 | RVESV: 51桶100毫升 | 小数点被特殊分隔符替换;支持作为单个令牌进行解析,而不是将其分解 |
一致的数字 | RVESV: 051010毫升 | 所有数字转换为6位长度 |
科学记数法 | RVESV: 5.10100 e + 01 | 所有数字转换为科学记数法,有5位有效数字 |
单词 | RVESV: 51.01毫升 | 将数字转换为相应的单词表示 |
一个RVESV:右心室收缩末期容积。
我们的建模方法包括使用HuggingFace变压器库对基于变压器的模型进行微调[
每个模型都在由布里格姆总医院托管的临床数据科学中心计算集群上进行了微调。在配备图形处理单元的机器上,每个模型以每epoch约2分钟的速度训练。权重初始化和数值表示策略的每种组合都进行了20次微调,平均需要40分钟。为了模型评估的目的,如果一个标记的预测分数大于0.5,我们就给这个标记分配一个标签。使用宏观平均来评估性能
根据我们的建模实验分配的标签结果,进行了最小的后处理。这包括合并额外的有效数字,这些数字显然应该作为度量的一部分包括在内,并将模型预测的令牌合并为结构化格式(
用于微调预训练变压器架构的架构,具有金标准的心脏磁共振成像注释和每个标记的预测标签。BERT:来自变压器的双向编码器表示ESV:收缩期末期容积。
用于收集临床注释、建模和从心脏磁共振成像报告中提取测量值的自然语言处理工作流。BERT:来自变压器的双向编码器表示ESV:收缩期末容积;CMR:心脏磁共振成像;PRAnCER:用于临床实体识别的快速注释平台RVEDV:右心室舒张末期容积;RVESV:右心室收缩末期容积。
最后,为了评估模型提取的临床有效性,我们评估了所选择的提取特征是否与临床结果(包括死亡率、心房颤动和心力衰竭)有已知的关系[
然后,我们评估死亡率、心房颤动和心力衰竭的发生率,按提取的左心室质量的四分位数计算。我们还测量了异常和正常LVEF和RVEF的死亡率,分别定义为LVEF <50%和RVEF <45% [
训练集包括来自270名CMR时中位年龄为65岁(IQR 54-74)的个体的报告,其中34.2% (n=92)为女性(
所有预训练权值和数值表示的组合都获得了优异的宏观平均
最大macroaveraged
体系结构 | 数值表示,最大宏观平均 |
||||
原始 | 取代了小数 | 一致的数字 | 科学 | 单词 | |
PubMedBERT一个 | 0.954 |
0.952 |
0.950 |
0.955b
|
0.953 |
SapBERT | 0.955 |
0.954 |
0.955 |
0.955 |
0.956b
|
生物+放电 |
0.950 |
0.953b
|
0.953 |
0.952 |
0.946 |
伯特大 | 0.951 |
0.957b(0.951 - -0.962) | 0.951 |
0.944 |
0.952 |
一个BERT:来自变形金刚的双向编码器表示。
b每个预训练权值初始化的最佳表现数值表示。
通过心脏磁共振成像测量对测试集进行模型预测的接受者工作特性曲线。AUC:接收机工作特性曲线下的面积。
调整伯特大使用替换的十进制数字表示的性能,作为训练集中注释报告数量的函数。
在EWOC中,来自9280名个体的12,720份CMR报告组成了CMR结果集(
CMR结果组个体的中位随访时间为5.3 (IQR为2.8-9.2)。在随访期间,我们观察到1520例心力衰竭事件,1488例房颤事件和909例死亡。从9280例个体中提取LVMI 5015例(54.04%)。在结果集中,LVMI的增加与死亡率、房颤和心力衰竭的发生率增加相关,最低和最高四分位数之间的发病率有统计学差异(
提取的左心室质量指数、左心室射血分数和右心室射血分数与临床结果的关系。
9280例患者中提取LVEF 7389例(79.62%),其中2297例符合左室收缩功能异常(LVEF <50%)标准。从9280例患者中提取RVEF 6324例(68.15%),其中1626例符合右室收缩功能异常标准(RVEF <45%;
我们还进行了敏感性分析,其中最后一次CMR报告用于LVMI, LVEF和RVEF的特征提取。5015个个体中有687个(13.70%)具有1个以上的LVMI, 7389个个体中有1268个(17.16%)具有1个以上的LVEF, 6324个个体中有1038个(16.41%)具有1个以上的RVEF。LVMI首次和最后报告的平均时差为2.4 (SD 2.2)年,LVEF为2.9 (SD 2.9)年,RVEF为2.7 (SD 2.6)年。与初步分析相似,我们观察到随着LVMI的增加,死亡率、房颤和心力衰竭的发生率增加;与LVEF或RVEF正常的个体相比,LVEF或RVEF异常的个体死亡率明显更高(图S3)。
在这项研究中,我们报告了一种准确实用的基于nlp的方法,可以同时从CMR报告中提取21个定量测量值。我们最后的模型,产生了宏观平均
我们发现BERT大与基于临床预训练的模型初始化相比,表现出优异的性能,说明临床预训练对临床数值提取没有显著影响(
我们的模型提取的测量值可能有助于一系列重要心脏病的自动表征,我们将其留给未来的工作。我们期望我们提出的工作流程可以很容易地被其他人从临床文本中提取任意测量值。PRAnCER平台是开源的,可以很容易地适应标记感兴趣的临床测量。我们用于微调和评估NLP模型的软件也是开源的[
误差模式的表征可以对模型预测的信心和未来研究人员寻找改进模型的方法具有指导意义。尽管我们的最佳模型在我们考虑的所有类型的测量中总体上具有很高的准确性,但最常见的错误模式涉及到模型将应该标记为测量值的值分配为“0”标签。在我们研究的许多情况下,尽管要标记的值周围有类似的标记序列,但像“主动脉根部尺寸”这样的测量值在一个报告中会被正确标记,而在另一个报告中不会被标记。通过检查两个报告中要标记的令牌的注意权重,我们发现正确标记的值对前面的“主动脉根部尺寸”短语中的“尺寸”一词的权重最大。对于错误标记的值,4个最常使用的标记中有3个是单词“dimension”的单独实例,其中一个是正确短语的一部分,其他实例出现在文本的其余部分。所有的注意权重都远远低于正确标记的例子对“维度”一词的注意权重。这可能表明进一步改进的机会可能涉及提供更多的训练示例,其中包含我们数据集中大多数报告中缺失的文本部分,或者通过使用包含关键标记的合成文本来增加现有的标记文本。
此外,我们认识到,虽然我们的模型表现良好,但提取错误是不可避免的。这些错误的临床后果取决于具体的特征。例如,不正确的LVEF提取可能会将心力衰竭患者错误地分类为射血分数降低或射血分数保留,从而影响治疗选择。同样,不正确的RVEF可能会对右侧心力衰竭患者进行错误分类。不正确的主动脉根部大小可能会对主动脉根部动脉瘤进行错误的分类。假阳性误差可能特别难以检测,因为生理滤波的最后后处理停止意味着假阳性仍将在预期范围内。因此,仔细评估模型的性能是必要的,特别是在将这样的模型应用于新数据集时。
据我们所知,这是第一个使用基于变压器的模型(没有从头开始预训练)对临床医生标签进行微调以从诊断文本中提取数值测量的例子。我们之前演示了基于使用基于规则的方法生成的大量弱标签从临床文本中提取4个生命体征测量值的价值[
最近的工作[
从临床文本中提取数值测量的其他方法也达到了合理的准确性,但我们认为我们的方法最大限度地减少了标记工作,更健壮,并且足够的计算效率,可以作为加速基于ehr的临床研究的实用解决方案。基于规则的方法虽然可能准确,但通常需要多次开发和验证,以确保临床文本的广泛可变性的准确性[
我们的研究必须在其局限性的背景下加以解释。我们的测试集由100个报告的相对较小的样本组成,但是对相同大小的测试集随机重新抽样的分析产生了具有显着接近宏观范围的模型
与其他具有医疗保健应用的人工智能模型类似,我们的模型的临床实施受到几个障碍的阻碍[
我们提出了一个强大的自然语言工作流,用于同时从CMR自由文本报告中提取21种类型的数值测量。我们发现,一般预训练的基于变压器的语言模型需要相对较少的金标准注释,需要最少的数据处理,并且对数值测量的上下文和表示中的显著变化具有鲁棒性。我们观察到提取的CMR测量值与已知的临床结果(如心力衰竭、心房颤动和死亡率)之间的预期关联。我们的工作流程是可重复的,很可能适用于许多其他类型的临床数据。
补充材料。
来自变压器的双向编码器表示
心脏磁共振成像
电子健康记录
心脏病企业仓库
左心室射血分数
左心室质量指数
美国国立卫生研究院
自然语言处理
为临床实体识别提供快速注释的平台
人每年
右心室射血分数
我们要感谢Monica Agrawal和David Sontag的协助,使临床实体识别快速注释平台(PRAnCER)平台能够标记心脏磁共振成像(CMR)报告。
截至2022年7月18日,SAL是诺华的全职员工。SAL此前获得了NIH拨款R01HL139731和R01HL157635以及美国心脏协会18SFRN34250007的支持。SAL获得了Bristol Myers Squibb, Pfizer, Boehringer Ingelheim, Fitbit, Medtronic, Premier和IBM的赞助研究支持,并为Bristol Myers Squibb, Pfizer, Blackstone Life Sciences和Invitae提供咨询。JEH获得了拜耳公司的赞助研究支持。他接受拜耳公司和IBM公司的赞助研究支持,并为诺华公司和普罗米修斯生物科学公司提供咨询。CDA获得拜耳公司赞助的研究支持,并为ApoPharma提供咨询。其他作者报告没有潜在的利益冲突。