发表在11卷(2023)

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/37805,首次出版
发展人口健康管理和测量临床自然语言处理系统的实际考虑

发展人口健康管理和测量临床自然语言处理系统的实际考虑

发展人口健康管理和测量临床自然语言处理系统的实际考虑

的观点

1斯坦福大学医学院免疫与风湿病学系,美国加州斯坦福

2退伍军人事务部,心理健康和自杀预防办公室,项目评估资源中心,帕洛阿尔托,加利福尼亚州,美国世界杯时间比赛时间

3.美国加州大学旧金山分校风湿病学部

通讯作者:

Jinoos Yazdany博士

风湿病科

加州大学旧金山分校

韩国路10号K-219室

旧金山,加州,94143

美国

电话:1 415 576 1000

电子邮件:jinoos.yazdany@ucsf.edu


专家们注意到临床自然语言处理(NLP)研究与现实世界应用(如临床决策支持)之间存在令人担忧的差距。为了帮助解决这一差距,在这个观点中,我们列举了一套开发NLP系统的实际考虑因素,以支持现实世界的临床需求并改善健康结果。它们包括确定(1)NLP数据和计算资源的准备情况,(2)使用和维护NLP系统的组织激励,以及(3)实施和持续监测的可行性。这些考虑旨在有利于未来临床NLP项目的设计,并可应用于各种环境,包括在美国和全球采用电子医疗记录的大型卫生系统或小型临床实践。

中华医学杂志,2013;11(1):379 - 379

doi: 10.2196/37805

关键字



自然语言处理(NLP)有潜力改善医疗保健的交付、质量和安全性[1-7]。已经有许多研究应用,包括提取疾病,药物和程序。此外,NLP方法可以自动提取患者记录中可能未编码或未编码的信息,例如疾病的严重程度、功能状态或健康的社会决定因素[46-8]。然而,卫生系统将临床NLP工具用于实际临床决策以及人口健康管理和质量测量的例子有限。错失了将丰富的非结构化数据转化为结构化信息的机会,这些信息可用于卫生系统或专业领域内的质量和绩效倡议,或用于国家一级的比较[29-12]。

为了解决将研究工具转化为临床实践的挑战,我们为NLP系统利益相关者提出了实际考虑,这些考虑可用于定位早期研究项目,以用于现实世界的决策,并最终证明制度价值。我们的实际考虑是根据先前的文献和报告,这些文献和报告描述了临床NLP研究和临床实践之间的交叉而不是协同作用。例如,Wen等[13分享梅奥诊所实施NLP开发交付平台的愿望,该平台源自20年来在其卫生系统中实施临床NLP的经验。Lederman等[14描述了现有的临床NLP系统如何“提供了边际实用价值,很少被部署到医疗保健环境中”,并呼吁为现实世界的决策支持建立临床NLP研究的新范式。同样,Newman-Griffis等[15呼吁临床NLP研究的新范式和一般原则,这些研究集中在应用需求带来的挑战上,并描述这些挑战如何推动基础科学和技术设计的创新。更广泛地提到医学中的人工智能系统,Topol等[16)还观察到,“在常规临床护理中部署医疗人工智能系统提供了一个重要但基本上尚未实现的机会”。我们也从我们自己的集体经验,开发临床NLP系统的研究和业务能力。

我们的实际考虑可以用来支持应用程序的开发,这些应用程序可以推动临床医学的进步。我们还在毗邻的公共GitHub网站上评估临床NLP工具和技术的现状,随着临床NLP技术的发展,研究社区可以对其进行更新[17]。


“垃圾输入,垃圾输出”指的是可能导致错误信息的低质量数据或“垃圾”。它最初是由美国陆军科学家使用,以提供计算机不能独立思考的直觉,以及“编程草率”的输入不可避免地导致错误的输出。虽然这句话已经有半个多世纪的历史了,但它在今天更加适用,因为强大的计算机可以在短时间内记录大量不适合预期用途的数据。

有助于确定新临床语料库的NLP准备情况的关键问题包括以下内容:(1)笔记和笔记元数据报告是否及时且质量合理?(2)非结构化的自由文本数据是否可以用于NLP技术(例如,数据是否可以用于提取临床概念,其准确性适合缩进使用)?(3) NLP算法在生产环境中是否可行?

评估文本数据的质量——或“数据准备”——通过提供临床语料库的句法和语义方面的经验发现,以及相关的笔记元数据(如患者标识符、笔记的日期和时间以及笔记的类型),来面对数据质量问题。我们在Kahn等人定义的背景下定义“质量”[18其中考虑了三个维度,包括合理性、一致性和完整性。数据准备评估的结果有助于预测为这些数据构建NLP系统的难度。自由文本数据的质量在相同或不同电子医疗记录(EMR)系统中的不同笔记类型之间可能有很大差异。例如,出院摘要通常包含完整的句子和明确划分的部分。相比之下,重症监护病房(ICU)的病程记录通常包含大量数字,但没有明确标明它们是生命体征、呼吸机设置还是危重患者监测的许多其他定量指标中的任何一项。ICU的进度记录也经常在一两个语法上没有结构的句子中包含大量的信息。动态进度报告可以是几句话,也可以是标准格式的较长文档。

在某些情况下,在预期的任务上,最初看起来不适合NLP的数据集可以进一步处理或采样,以便数据更适合其预期用途。例如,可以对数据源进行预处理,以删除不符合预定合理性标准(例如已知的系统可用性范围)的注释,以识别具有合理日期的注释或没有指明日期的注释。然而,这可能并不总是导致数据为NLP做好准备;在这些情况下,调查人员应该与组织领导合作,在开展NLP项目之前改进数据收集。

EMR临床文档流程的机构差异要求在其他机构开发的临床NLP系统根据新的本地数据集进行定制。这使用了与源数据的来源和结构相关的特定预处理步骤。在先前由医疗保健研究和质量机构资助的基于风湿病有效性信息系统(RISE)注册的工作中,我们发现对字符和单词(“标记”)的笔记长度进行简单的汇总统计有助于评估美国风湿病临床记录的质量。12]。RISE注册表于2014年开始运行,自由文本提取涵盖了2014年至2018年期间。它结合了来自260多个门诊风湿病实践的数据,这些实践总共使用了20多种不同的电子病历产品。为了评估RISE用于卫生服务研究的数据准备情况,并更好地了解慢性风湿性疾病的流行病学,我们首先使用了笔记元数据。例如,我们计算了按年记录的唯一临床记录的数量,由患者记录的时间戳表示。唯一注释由RISE数据库中文本文档的每个条目确定。我们发现许多笔记的时间戳是无效的,最早的日期是1800年,最远的日期是8018年。这表明有机会提高这些数据的质量。我们还发现,描述文本数据的简单汇总统计有助于确定RISE在科学和实际应用中的潜在信息量。表1表明RISE包含许多相对较短的患者笔记(2018年平均34.57代币)以及一些较长,更传统的患者笔记和信件(SD 203.01代币)。这些类型的汇总统计是NLP数据准备评估中重要的第一步。

表1。平均,标准差,最小,模式和最大音符长度一个字数统计b提交给美国风湿病学会数据登记处的自由文本患者风湿病笔记,按年计算。
一年 请注意数量 音符长度 字数


意思是(SD) 最小值c 模式 马克斯d 意思是(SD) 最小值 模式 马克斯
2010 891837年 96 (353) 1 17 18774年 16 (54) - - - - - -e 2 2549
2011 1238711年 128 (554) 4 17 40295年 20 (80) 1 2 5713
2012 2412737年 118 (559) 3. 19 23370年 18 (81) 1 2 3496
2013 3409806年 120 (597) 3. 19 23921年 18 (87) 1 2 3567
2014 5394083年 209 (1069) 1 19 614356年 31 (160) - - - - - - 2 107498年
2015 7715894年 211 (1547) 1 19 2179227年 31 (224) - - - - - - 2 375620年
2016 9812735年 233 (1356) 1 19 425503年 34 (186) - - - - - - 2 75844年
2017 11685000年 242 (1468) 1 19 570721年 35 (204) - - - - - - 2 100311年
2018 5301039年 239 (1415) 1 19 192570年 35 (203) - - - - - - 2 31852年
总计 50222840年 205 (1271) 1 19 2179227年 30 (180) - - - - - - 2 375620年

一个请注意,2018年是局部年。音符长度由非空白字符和符号表示。

b在去识别风湿病信息系统有效性语料库后估计字数。

c分钟:最小值。

d马克斯:最大。

e不可用。

为了评估数据是否准备好进行特定的语言分析任务,如词性标记或命名实体识别,还有各种其他基于语料库语言学的描述性统计,可用于评估文本数据的质量。其中一些侧重于数据的总体特征,例如文件具有明确可识别部分的程度以及这些部分中数据的性质。例如,诊断和药物等清单通常有相对明确的界限,而家庭和个人病史可能没有。句子边界的存在与否,以及句子的长度,也是构建高性能语言处理工具所需努力的重要预测因素。其他描述性统计在单个单词的水平上评估文本数据。例如,高水平重复使用单词的文本类型(如发烧和疼痛)比高水平只出现一次的单词类型(如拼写错误和排版错误)更容易处理。

除了为NLP准备好的数据外,自动信息提取算法还需要能够有效处理大量新患者记录的基础设施。在项目的设计阶段必须进行讨论,以确保任何研究产品都可以进行操作测试,并且如果有必要,可以转换为操作基础设施。如果与常规笔记更新一起纵向使用,更新和维护产品也很重要。

如果一个项目没有可行的途径来将NLP系统用于现实世界的决策支持,那么可能会推荐和获得新的资源,包括机构计算基础设施。


决定是否有适当的激励措施来支持临床NLP系统的关键问题如下:(1)NLP是否有助于解决现有的临床需要?(2)临床领导是否支持继续使用NLP系统?及(三)采用自然语言处理系统有何经济诱因?

几十年来,结构化数据报告一直是医疗保健实践的支柱。医疗产品哨兵主动监测系统和观察性医疗成果伙伴关系(OMOP)倡议帮助率先使用通用数据模型来支持监管倡议[1920.]。基于OMOP的公共数据模型,观察健康数据科学计划的扩展扩展了OMOP模式,将非结构化数据与“NOTE”和“NOTE_NLP”表合并在一起。当EMR数据库可以联合利用各种数据模式(如患者记录或图像)来改善患者护理时,它们可能会变得更加强大,从而有利于监管举措。然而,在缺乏特定临床需求的情况下,如果没有适当的激励措施来使用该系统,那么无论在研究任务中的表现如何,该系统都不太可能被用于决策支持等临床用途。一个成功的人口和精准健康系统必须是创新的,足够务实,能够在生产环境中部署,并直接与组织激励和临床领导的优先事项相一致。它应支持互操作性,但也允许根据不同卫生系统的细微差别进行定制。我们将在下一节中讨论其中的一些挑战。

在很少或没有组织动机采用临床NLP系统的情况下,它不太可能在研究阶段成功。因此,与领导层合作,确定卫生系统的潜在价值,并找到采用这种系统的可能激励措施,是重要的第一步。


有助于确定实施和评估临床NLP系统的可行性的关键问题包括:(1)该系统寻求解决的任务(即临床需求)是什么?(2)结构化数据中是否捕获了感兴趣的临床概念?如果有,可以提取的内容是否有限制?(3)如果NLP是合理的,那么简单的NLP技术是否足够,或者更复杂的算法是否有必要?(4)临床NLP工具能否在合理的时间内开发和实施,以满足利益相关者的需求?(5)考虑到诸如NLP方法、用于训练NLP工具的数据以及它所应用的人群等因素,哪些是潜在的偏差来源?

一个重要的早期考虑是关于目标人群。在随机折叠的交叉验证中,模型在相同的人群中进行训练和测试。然而,在实践中,模型通常是在训练数据集中开发的,但应用于可能来自不同的潜在患者或临床医生群体的新数据。临床实践和工作流程模式的差异,以及临床语言的缺乏同质性(如上所述),会对模型的可移植性产生很大的影响,影响模型从开发地到给定目标人群的可移植性。这对于训练评估(例如,意识到过拟合)和模型开发都很重要。如果存在表示目标人群的可用外部测试集,则应该将其作为模型开发过程的一部分进行测试,以确保NLP工具可移植且外部有效。理想情况下,所有工具都需要性能度量报告,以便在其训练语料库之外进行迁移。

有多种策略可以减轻偏见并提高NLP工具的可移植性。偏差的一个来源可能来自用于开发模型的特定类型的注释;例如,仅针对ICU笔记、病理报告或特定专业的笔记开发的NLP工具可能无法推广到其他笔记类型或临床设置。因此,如果目标语料库实际上打算涉及多种类型,则应将不同的注释类型纳入训练语料库。此外,如前所述,除了用于训练的主要数据集外,合并代表测试目标人群的辅助数据集可以帮助确保模型可移植,并在医疗保健环境、电子病历和患者群体中表现良好。

为了评估模型的性能,必须决定在哪个级别进行评估,即在提及、文档或患者级别进行评估。NLP模型可以通过其精度(阳性预测值)、召回率(敏感性)、特异性、F1-分数(准确率和查全率的调和平均值)和与已审阅文本的“金标准”测试集相比的整体准确率[59]。但是,特定于文本的评估可能不如文档甚至患者级别的性能那么重要,特别是如果每个患者多次被提及,或者结构化数据字段与NLP注释一起被合并到评估中。因此,尽管在提及水平上,NLP模型可以正确地识别患者为阳性,但可能只有当与附加信息(其他提及,实验室结果等)相结合时,输出和模型性能才具有临床重要性。

与开发时的模型性能一样重要的是,随着时间推移的模型性能可能更为关键。随着数据的纵向变化,NLP模型的验证在回顾性和前瞻性上都是关键。对模型进行持续评估,以确定它们是否应该进行微调和更新,以及是否存在任何偏差,这一点很重要。例如,这可能涉及更新基于规则的代码以反映语言表示的变化,或者重新评估或重新开发基于深度学习的NLP模型。

如果临床NLP系统不能解决已知的和理想的高优先级的临床需求,它就不太可能被采用到实践中。但是,也有可能调整该系统以满足组织领导确定的需求。如果它最初没有表现出良好的性能,继续开发可能有助于提高临床系统的准确性,特别是如果可以生成语言注释数据并可用于训练更好的模型。最后,在某些情况下,可以为项目使用额外的专业知识,这可能会满足项目的最后期限,否则是不可能的。重要的是,拥有维护已部署模型的策略(包括业务计划)对于确保其临床应用的可持续性非常重要。


NLP具有改善美国人口健康结果的潜力。例如,在住院护理环境中,NLP系统可以可靠地识别病程记录中报告的腹泻症状的个体,并将这些数据输入到算法中Clostridioides固执的测试。住院病人的跌倒记录在临床记录中,可能会触发警报,停止使用镇静剂或麻醉剂。在门诊,NLP可用于评估疾病的严重程度或术后并发症。自由文本患者病历的NLP还为国家常规质量和绩效衡量创造了机会,这可以支持提高向预后不良风险最高的患者提供的保健服务的价值[9-1221-23]。随着美国卫生系统向全人护理范式的转变,NLP系统也可用于识别重要的临床决策支持因素,这些因素在患者记录的结构化数据源中未被编码或完全缺失,例如行为、社会心理和经济风险因素的存在。

预测分析是另一个纳入临床文本有可能改善人口健康的领域[5-724]。大多数使用卫生保健数据的人口水平风险分层模型完全依赖于结构化数据,但一些研究小组已经证明,在某些领域,添加来自临床文本的信息可以提高性能。这一领域的研究反映了从预测医院再入院到识别有自杀风险的患者的广泛任务[2-131721222425]。这种模型可以在操作上更准确地针对人群的一个子集进行特定干预,以解决可改变的风险因素。

此外,亦有应用NLP简化及方便质素及安全报告[9-12]。质量和安全措施的联邦报告通常给临床医生带来相当大的负担,有时需要在临床记录的文本中重复输入类似的概念,以及可以查询以计算性能的结构化字段。从临床记录中可靠地提取相关信息不仅可以减轻繁重的数据输入,还可以大大扩展报告程序中包含的概念类型。例如,风湿病学指南支持常规收集类风湿性关节炎患者的疾病活动评分,但并非所有电子病历都有结构化的字段来输入这些评分。从结构化字段中自动提取这些信息的电子质量测量可能会遗漏仅记录在临床记录中的分数。NLP可以用来提取这些分数,提高这些质量指标的效度和信度[9-12]。

虽然自然语言处理的这些和其他应用具有改善保健和人口健康的潜力,但这些应用的成功部署和传播是有限的。考虑到这些障碍,该领域应该如何向前发展?除了我们的三个考虑之外,我们认为从NLP项目开始,多个利益相关者提供输入是至关重要的。执业临床医生可以确保工作重点与临床相关,满足未满足的需求,并与当前的临床工作流程保持一致;临床信息学家可以深入了解数据系统是否可用于扩展有效的NLP算法,医疗保健管理员可以深入了解所需的IT资源以及扩展和维持系统的可行性。在项目中有利益相关者和投资之前,影响和可扩展性可能是有限的。与医学中的许多新技术类似,一致性通常需要将NLP计划作为一种价值主张来开发,这种价值主张要么明显影响运营效率、收入、质量和安全,要么影响患者的治疗结果。此外,涉众需要被集成到软件开发生命周期中,以确保产品的持续实现是成功的。


对非结构化的自由文本患者数据的分析为研究科学问题和提供医疗保健提供了新的途径。尽管这些用途很有前景,但利用电子病历中收集的临床文本数据并在医疗保健操作中使用这些数据并非没有实质性的警告。有机会更好地协调研究人员开发的最先进的系统,以支持对患者报告的结果进行测量,并支持高质量的卫生保健服务,可能会改善结果。重点是设计与临床需求和组织激励相一致的实际应用程序,这里列出的注意事项可用于为各种利益相关者设计特定于项目的清单。我们还总结了考虑在健康中适当使用NLP的程序,并调查了临床NLP工具的现状。为了支持这一领域的未来工作,我们在毗邻的GitHub网站上提供了软件和数据集摘要、许可和其他访问要求,我们希望随着技术的发展,该网站将成为研究社区不断更新的资源。

利益冲突

没有宣布。

  1. Esteva A, Robicquet A, Ramsundar B, Kuleshov V, DePristo M, Chou K,等。医疗保健领域深度学习指南。中华医学杂志2019年1月7日;25(1):24-29。(CrossRef] [Medline
  2. 李建军,李建军,李建军,等。基于自然语言处理的临床文献自动编码。中华医学杂志,2004;11(5):392-402。(CrossRef
  3. Masanz J, Pakhomov S,徐辉,吴松,Chute C,刘辉。临床NLP的开源研究。[j]中国生物医学工程学报,2014;44 (2):559 - 559 [j]免费全文] [Medline
  4. 王军,邓辉,刘波,胡安,梁军,范磊,等。20年来医学领域自然语言处理研究进展的系统评价:PubMed文献计量学研究。[J]中国医学信息学报,2016;22(1):368 - 368 [J]免费全文] [CrossRef] [Medline
  5. 刘峰,翁超,于宏。基于自然语言处理的电子病历临床研究:传统机器学习与深度学习的结合。所属:临床研究信息学。瑞士Cham:施普林格国际出版公司;2019:357 - 378。
  6. 吴松,Roberts K, Datta S,杜军,季志,司勇,等。临床自然语言处理中的深度学习:系统综述。中华医学杂志,2020;27(3):457-470 [J]免费全文] [CrossRef] [Medline
  7. 张杨,刘建军,刘建军。基于深度学习和标记选择的电子病历患者表型分析。科学通报2020;1 (1):1432 [j]免费全文] [CrossRef] [Medline
  8. 郝涛,黄志,梁磊,翁宏,唐斌。健康自然语言处理:方法论发展与应用。中国医学信息学报(英文版);2009;9(10):888 [j]免费全文] [CrossRef] [Medline
  9. Murff HJ, FitzHenry F, Matheny ME, Gentry N, Kotter KL, Crimin K,等。使用自然语言处理在电子病历中自动识别术后并发症。中华医学杂志,2011;36(8):848-855。(CrossRef] [Medline
  10. 叶蒂根M, Klassen P, tarchy - hornoch P.外科和介入手术质量改进平台的数据自动提取。EGEMS (Wash DC) 2014 Nov 26;2(1):1114 [j]免费全文] [CrossRef] [Medline
  11. 李建军,张建军,张建军,张建军。基于事件检测的医疗报告质量检测方法研究进展。EGEMS (Wash DC) 2017 5月30日;5(1):5 [免费全文] [CrossRef] [Medline
  12. Humbert-Droz M, Izadi Z, Schmajuk G, Gianfrancesco M, Baker MC, Yazdany J,等。从临床记录中提取类风湿关节炎结果的自然语言处理系统的开发,使用国家风湿病信息系统进行有效性注册。关节炎护理中心(霍博肯)。预印本于2022年3月14日在线发布。(CrossRef] [Medline
  13. Wen A, Fu S, Moon S, El Wazir M, Rosenbaum A, Kaggal VC,等。需要提供NLP以加速医疗保健AI的进步和梅奥诊所NLP即服务的实施。中华医学杂志2019;2:130 [j]免费全文] [CrossRef] [Medline
  14. 李建军,李建军,李建军,等。任务作为需求:临床自然语言处理研究范式的重构。[J]中国医学信息学报,2018;29(10):1810-1817 [J]免费全文] [CrossRef] [Medline
  15. Newman-Griffis D, Lehman JF, rosise C, Hochheiser H.翻译NLP:自然语言处理研究的新范式和一般原则。[j] .中国科学d辑;2010;21 (1):425 - 438 [j]免费全文] [Medline
  16. 陈毅,刘建军,刘建军,刘建军。健康和医学领域的人工智能。中华医学杂志(英文版);28(1):31-38 [j]免费全文] [CrossRef] [Medline
  17. Tamang S.临床自然语言处理的实际考虑。GitHub。URL:https://github.com/suzytamang/practicalConsiderationsCNLP/wiki/Practical-Considerations-for-Healthcare-Natural-Language-Processing-Systems[2022-11-29]访问
  18. Kahn MG, Callahan TJ, Barnard J, Bauck AE, Brown J, Davidson BN,等。电子病历数据二次使用的统一数据质量评估术语和框架。EGEMS (Wash DC); 2016;4(1):1244 [j]免费全文] [CrossRef] [Medline
  19. 观察性医疗结果伙伴关系(OMOP)。FNIH。URL:https://fnih.org/what-we-do/major-completed-programs/observational-medical-outcomes-partnership-omop[2022-11-29]访问
  20. 关于美国食品和药物管理局(FDA)哨兵倡议。哨兵倡议,2016年。URL:https://www.sentinelinitiative.org/about[2022-11-29]访问
  21. Meystre SM, Savova GK, Kipper-Schuler KC,跨栏JF。从电子健康记录文本文件中提取信息:近期研究综述。医学年鉴2018年3月07日;17(01):128-144。(CrossRef
  22. [j] m . m . m . m . Gentry N . m . Fielstein EM . Brown SH .等。探索电子病历监测的前沿:术后并发症病例。中华医学杂志;2013;31 (6):591 - 591 [j]免费全文] [CrossRef] [Medline
  23. 张建军,张建军,李建军,等。临床数据在临床疗效研究中的应用。EGEMS (Wash DC) 2014 7月11日;2(1):1079 [免费全文] [CrossRef] [Medline
  24. 刘建军,刘建军,刘建军,等。慢性疾病临床记录的自然语言处理研究进展。中华医学杂志2019年4月27日;7(2):e12239 [j]免费全文] [CrossRef] [Medline
  25. 曾军,刘建平,李建平,等。电子病历中可解释的潜在混杂因素。自然科学学报(英文版);2023 (3):1014 [j]免费全文] [CrossRef] [Medline


EMR:电子病历
加护病房:加护病房
NLP:自然语言处理
OMOP:观察性医疗成果伙伴关系
上升:风湿病信息学有效性系统


郝编辑;提交08.03.22;H Mehdizadeh, JD Posada Aguilar的同行评审;对作者08.07.22的评论;收到修订版本02.09.22;接受09.11.22;发表03.01.23

版权

©Suzanne Tamang, Marie Humbert-Droz, Milena Gianfrancesco, Zara Izadi, Gabriela Schmajuk, Jinoos Yazdany。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 03.01.2023。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map