发表在第八卷, 3号(2020): 3月

机器学习中的临床文本数据:系统回顾

机器学习中的临床文本数据:系统回顾

机器学习中的临床文本数据:系统回顾

审查

1卡迪夫大学计算机科学与信息学院,英国卡迪夫

2曼彻斯特大学计算机科学系,英国曼彻斯特

通讯作者:

Irena Spasic博士

计算机科学与信息学院

卡迪夫大学

5游行

卡迪夫,CF24 3AA

联合王国

电话:44 02920870320

电子邮件:spasici@cardiff.ac.uk


背景:临床叙述是医疗保健中沟通的主要形式,提供了对患者病史和评估的个性化描述,并为临床决策提供了丰富的信息。自然语言处理(NLP)已经多次证明了它在解开埋藏在临床叙述中的证据方面的可行性。机器学习可以通过利用大量文本数据来促进NLP工具的快速开发。

摘要目的:本研究的主要目的是提供用于训练临床NLP机器学习方法的文本数据属性的系统证据。我们还研究了机器学习支持的NLP任务类型,以及它们如何应用于临床实践。

方法:我们的方法是基于执行系统评价的指导方针。2018年8月,我们使用PubMed(一个多面界面)对MEDLINE进行文献检索。我们确定了110项相关研究,并提取了用于支持机器学习、支持NLP任务及其临床应用的文本数据信息。考虑的数据属性包括它们的大小、来源、收集方法、注释和任何相关的统计信息。

结果:大多数用于训练机器学习模型的数据集只包含数百或数千个文档。只有10项研究使用了数万份文件,少数研究使用了更多。即使有更大的数据集,也会使用相对较小的数据集进行训练。造成这种数据利用率低下的主要原因是监督式机器学习算法面临的标注瓶颈。探索了主动学习,以迭代地采样数据子集进行手动注释,作为最小化注释工作量同时最大化模型预测性能的策略。在临床代码与自由文本笔记集成到电子健康记录中作为分类标签的地方,成功地使用了监督学习。类似地,远程监督用于利用现有知识库自动注释原始文本。在手工注释不可避免的情况下,我们探索了众包,但由于所考虑的数据的敏感性,它仍然不适合。除了量小之外,训练数据通常来自少数机构,因此没有提供关于机器学习模型可转移性的确凿证据。大多数研究集中在文本分类上。 Most commonly, the classification results were used to support phenotyping, prognosis, care improvement, resource management, and surveillance.

结论:我们认为数据注释瓶颈是临床NLP中机器学习方法的主要障碍之一。主动学习和远程监督是一种节省标注工作的方法。该领域的未来研究将受益于替代方案,如数据增强和迁移学习,或不需要数据注释的无监督学习。

中华医学杂志,2020;8(3):117984

doi: 10.2196/17984

关键字



临床叙述是卫生保健领域的主要交流形式。与电子健康记录(EHRs)的一般编码元素相比,记叙文提供了更详细和个性化的患者病史和评估记录,为临床决策提供了更好的背景[1]。自然语言处理(NLP)是人工智能的一个子领域,研究以自然语言表达的信息的分析和合成可以自动化的方法。它已经多次证明了它的可行性,可以解开埋藏在临床叙述中的证据,使其可用于下游的大规模分析[2]。传统上,基于规则的方法通常用于解锁特定类型的证据[3.]。他们的发展需要与临床专家进行某种形式的直接互动,将他们的知识(通常是隐性的)转化为一套明确的模式匹配规则。

长期以来,机器学习一直被誉为解决知识获取瓶颈的灵丹妙药,主要论点是手动注释数据的任务比获取知识的任务更容易[4]。尽管如此,训练机器学习模型所需的数据量可能需要与知识获取本身一样多的时间来注释[5]。就像能量守恒定律一样,创建精确计算模型所需的知识似乎只是从一种形式转移到另一种形式。机器学习不是基于规则形式的显式知识,而是基于注释及其分布形式的隐式知识,并且获取它们所涉及的时间几乎保持不变。

与机器学习方法相关的另一个问题是,鉴于健康数据的敏感性和隐私问题,临床叙述的可用性[6]。这些问题(即人工标注数据不可用)可能导致训练数据缺乏代表性,从而导致相应机器学习模型的性能不合格。由于这些原因,本综述的主要目的是提供用于训练临床NLP机器学习方法的数据属性的系统证据。此外,我们还研究了机器学习支持的NLP任务类型以及如何将其应用于临床实践。

本文的其余部分组织如下。我们首先详细解释这一系统综述的方法。然后讨论综述的主要发现。最后,对该领域未来的研究方向进行了展望。


概述

根据Kitchenham所描述的进行系统检讨的指引[7],我们的方法是围绕以下步骤构建的。首先,研究问题(RQs)用于定义综述的范围、深度和总体目标。接下来,设计了一个搜索策略,以有效和可重复的方式识别与rq相关的所有研究。此外,还定义了纳入和排除标准,以细化研究范围。对纳入的研究进行了严格的评估,以确保审查结果的有效性。在数据提取过程中,从纳入的研究中识别相关信息并进行半结构化,以促进证据的合成并支持综述的发现。

研究问题

本综述的主要主题是关于用于临床NLP的机器学习方法的文本数据的属性。审查的主要目的是回答所提出的rq表1。RQ1旨在描述与解释机器学习性能相关的数据属性。这些属性包括大小、来源、异构性、注释等。这里,异质性指的是内容、结构和临床领域。RQ2将机器学习在NLP背景下解决的问题分类为不同类型的计算任务。最后,RQ3重点介绍了如何将基于机器学习的NLP应用于解决临床实践中遇到的实际问题。

表1。研究的问题。
ID 中移动一个
RQ1 用于训练和评估机器学习模型的数据的关键属性是什么?
RQ2 什么类型的NLPb机器学习支持的任务?
RQ3 基于机器学习的NLP如何应用于临床实践?

一个RQ:研究问题。

bNLP:自然语言处理。

搜索策略

我们使用PubMed作为搜索引擎,从MEDLINE数据库中检索相关文献,该数据库有2800万条引用,来自生命科学和生物医学文献,这些文献由医学主题标题(MeSH)索引。MeSH是一种分层组织的受控词汇表,用于以统一和一致的方式手动索引MEDLINE中的文章,以方便检索。我们得到了一个搜索词列表来描述这篇综述的主题:机器学习,深度学习,文本,自然语言,临床,健康,医疗保健,病人。在这里,机器学习和深度学习被用来检索采用这种方法的文章。请注意,MeSH包含术语机器学习,因此不需要包含特定的机器学习技术,例如支持向量机条件随机场输入搜索查询。以下两个搜索词,文本自然语言,参考相关类型的输入进入学习方法。最后4个术语用于指临床应用。由于后6个术语的广泛性质和普遍使用,它们的提及仅限于标题和摘要。为了防止非原创性研究的检索和为支持系统评价而开发的NLP应用程序,我们否定了这些术语文学文献计量学,系统综述。最后,为了关注机器学习的新兴应用,我们将搜索限制在2015年1月1日之后。搜索于2018年8月8日进行。将搜索词组合成PubMed查询如下:

(“机器学习”[所有领域]或“深度学习”[所有领域])和(文本[标题/摘要]或“自然语言”[标题/摘要])和(临床[标题/摘要]或健康[标题/摘要]或医疗保健[标题/摘要]或患者[标题/摘要])不(文献[标题/摘要]或文献计量学[标题/摘要]或“系统评价”[标题/摘要])和(“2015/01/01”[PDat]:“2018/08/08”[PDat])

根据所描述的搜索策略,我们确定了389篇候选文章。根据选择标准对结果进行进一步筛选。

选择标准

本系统评价的范围由文献中给出的纳入和排除标准正式确定文本框12,分别。在根据纳入和排除标准筛选检索到的文章后,共有149篇文章被保留以作进一步处理。

入选标准。
  1. 这项研究必须使用自然语言处理。
  2. 必须使用机器学习来支持这种处理。
  3. 输入文本必须在卫生保健范围内定期收集。
  4. 输入文本必须是手写或口述的。
  5. 这篇文章必须经过同行评审。
  6. 全文必须在网上免费提供,供学术使用。
文本框1。入选标准。
排除标准。
  1. 用英语以外的语言写的文章。
  2. 英语以外的一种语言的自然语言处理。
  3. 口语的自然语言处理。
文本框2。排除标准。

鉴于本综述所考虑的文章的跨学科性质,我们遇到了各种各样的发表地点。不足为奇的是,一些研究强调临床方面,但忽视了足够详细地描述研究的计算方面,以支持其可重复性。要纳入本综述,文章需要提供足够的信息来支持回答中定义的rq表1。换句话说,他们需要描述所使用的数据集;明确界定NLP问题;描述用于支持自然语言处理的特征;说明所使用的机器学习方法,并在适当的情况下说明其参数;并提供对结果的正式评估。总共有39项研究被发现不符合这些标准。这进一步减少所选条文的数目至110条[8-117]。图1总结系统文献综述的4个主要阶段的结果。

图1所示。文献综述流程流程图。
查看此图

数据提取

我们探索了选定的研究,以提取有助于回答给出的rq的数据表1。数据从文章全文中提取,标题如下:数据、任务、临床领域和临床应用。考虑的数据属性包括它们的大小、来源、收集方法、注释和任何相关的统计信息。该任务被定义为NLP的一个子领域(如文本分类、信息提取(IE)、命名实体识别(NER)和词义消歧[WSD])。此外,还补充了特定任务的信息;例如,对于NER,我们还指定了所考虑的命名实体的类型。提取临床相关信息以确定实际应用的潜力。然后,提取的数据被用来促进对主要发现的叙述综合。


开发机器学习模型的第一步是收集与手头问题相关的数据。最终,模型的性能将取决于这样一个数据集的属性。我们总结了这些属性,包括数据大小、关键数据源、训练注释和所考虑的临床文档类型。

大小

除其他因素外,机器学习模型的性能和测试结果的重要性分别取决于用于训练和测试的数据集的大小。在本节中,我们检查了本综述中研究中使用的数据集的大小。由于数据大小变化很大,我们使用对数尺度将这些信息拟合到图中所示的图表中图2,它根据数据集的数量级对数据集进行分层。有些研究只使用了40份文献[48]和少至15名病人[28]。绝大多数数据集的基数在数百或数千的范围内。只有10项研究使用了数以万计的文档,少数研究使用了更多的文档,尽管机器学习方法需要大量数据,因为它们的性能与可用的训练数据量密切相关。

即使有更大的数据集,也使用了相对较小的数据集。图3以对数尺度展示数据利用率,有些研究仅利用了0.002%的可用数据[44],高达11.88% [11]。具体的例子说明了这个问题:500从188,843 [32], 300源自4025 [59], 62源自6343 [25], 323源自16000 [24], 1188源自10,000 [11], 1610源自52,746 [39], 1004源自96,303 [112], 1058源自376,487 [34], 10,000从103,564句[36],少于137,522+28,159中的12,000 [101], 562从250万[44], 8288源自2,977,739 [13], 6174从260万[113], 3467源自8,168,330 [68]和2159从2400万[19]。

图2。数据大小在对数尺度上的分布。
查看此图
图3。对数尺度上的数据利用。
查看此图

注释

造成这种数据利用率差的主要原因是监督式机器学习算法面临的标注瓶颈,它需要对训练数据进行标注,以便将其推广到预测数学模型中。编译手动标注的语料库既费力又容易出错。注释是特定于任务的,这意味着训练数据很少被回收。对单个研究施加的劳动和时间限制自然会与人工注释的训练数据的数量相关。主动学习旨在通过让人类专家参与机器学习过程来解决标注瓶颈,试图以相对较小的标注工作量来提高性能[20.54One hundred.]。主动学习算法可以根据当前的预测性能,迭代地对数据子集进行人工标注。抽样策略可以基于不同预测模型之间的分歧,或者单个预测模型的不确定性、密度和期望的不同度量。这样的抽样取决于预测模型的质量,当重新训练模型持续时间相对较长时,可能效率不高。另外,可以使用多样性度量来确定注释的优先级。例如,两两余弦相似度用于比较句子,并优先考虑与注释句子最不相似的句子进行注释[20.]。然而,这可能会导致异常值的选择,异常值在训练数据中的存在会导致预测模型的退化。通过考虑代表性和信息性,异常值不太可能被选择,从而更好地覆盖数据特征,从而更好地预测模型。在这里,一个句子与所有其他句子之间的平均相似度表示它的代表性[54]。相似度越高,句子越具有代表性。

原则上,当标签随时可用时,监督学习方法是方便的。例如,电子病历结合了不同类型的数据元素,从非结构化数据(如自由文本和图像)到受控医学术语中的结构化数据(即离散元素,如数字、日期和代码)[118]。在本系统综述中包含的研究中,更大的数据集(即从数万到数百万的数据集)见图2),主要用于使用现有结构化数据作为标签的情况。例如,在住院方面,关于住院死亡等事件的现成资料[102],放电[90],再入院[9]和急诊科就诊[37]被用来训练模型,以便提前很好地预测这类事件的未来,从而为采取适当的行动提供信息。同样,在诊断方面,无论是先前的(例如,成像方案)[1794])及后验(如测试结果[69])信息被用于监管。国际疾病分类(ICD)诊断代码用于从历史数据训练预测模型,以识别有风险的患者[162250]或促进疾病监测[76]。同样,用ICD程序代码训练的监督模型,可以用于成本优化,也可以提高护理质量[81]。事实上,所有这些例子在护理改善和资源管理方面都有明确的应用。在其他一些情况下(例如,将临床记录分类为医学子域[103]),这些信息的效用尚不清楚。

某些类型的学习问题(如WSD)适合基于贪婪匹配的半自动标记。毫不奇怪,相应的方法在大型数据集上进行了测试[33105]。同样,使用远程监管的概念,利用现有知识库自动注释原始文本,多达950万份临床记录被注释为药物不良事件[99]。在手工注释不可避免的地方,我们探索了众包。这种方法适用于病人面对的问题,例如医疗文件的可读性[116],其中非专业注释器确实非常适合于注释任务。对于需要医疗专业知识的问题,探索了众包的概念[24]。尽管发现众包工作者之间的注释者一致性远低于医学专家,Krippendorff alpha系数超过0.7,但仍然发现这是一个超越偶然的良好一致性。然而,在临床叙述的背景下,隐私限制确实削弱了众包的可行性。

出处

除了训练数据量小之外,另一个可能影响在这些数据上训练的机器学习方法性能的问题是它们的来源。不同机构的临床叙述的结构和风格可能差别很大[119]。因此,当数据的来源仅限于少数贡献机构时,数据可能不具有代表性。反过来,这可能会导致过拟合,当复杂模型适应训练数据的特性而无法概括问题的潜在属性时,就会出现建模错误。不幸的是,这里回顾的大多数研究都局限于作者所在的机构[8101215172224252830.-33354041446670767984-868990949599105106111113]。这样的数据集很少免费提供给社区。一个值得注意的例外是重症监护医疗信息市场(MIMIC) [120],一个免费访问的重症监护数据库,存储了广泛的临床叙述,包括放射学报告[87]、临床记录[102]及出院摘要[1639]。虽然这是一个单站点的数据集,但从庞大的数据量中可能会发现一些安慰。更重要的是,它的公开可用性允许对竞争方法进行严格和详细的直接比较,这是临床NLP中罕见的商品。

只有9项研究使用了来自2个机构的数据[3647505661One hundred.103109112]。三项研究使用了来自三家机构的数据[457187]。少数研究设法从多个来源获得数据:5 [38], 6 [73], 18 [19]和28 [37]。退伍军人健康管理局[121122],作为美国最大的综合医疗保健系统,提供了对多个机构数据的集中访问,提高了这些数据所取得结果的可信度[131429345568727797]。

可用性

纳入的研究中使用的大多数数据集来自少数机构,因此没有提供关于机器学习模型可转移性的确凿证据。知道不同机构的临床记录的格式和风格可能有很大差异[119],当在一个机构训练一个模型并在另一个机构测试它时,观察到性能显著下降的情况并不罕见[336175105109]。这仍然是临床NLP社区持续关注的问题,其中涉及的数据保密性需要在可访问性和隐私保护之间取得谨慎的平衡。在本节中,我们将讨论更广泛的数据可用性,为包括研究在内的二次使用提供机会。在这种背景下,NLP社区挑战在为更广泛的研究人员提供临床数据访问和为未来比较建立基准方面发挥着重要作用。毫不奇怪,这里回顾的许多研究都是由社区挑战中共享的数据集实现的,这些数据集在表2

表2。数据集在临床自然语言处理中的应用挑战。
数据集 出处 文档 大小一个 注释 研究
2010 i2b2/VA [123 过去重要b, BIDMCc, UPMCd 出院总结,进度报告 871 医疗问题、治疗、检查以及它们之间的关系 20.49646796104
2011 i2b2/VA [124 PHC, BIDMC, UPMC, Mayoe 出院总结,进展报告,放射报告,病理报告,其他报告 978 + 164 问题、人、测试、结果、治疗、解剖部位、疾病或综合征、体征或症状等的共参链 63
2012 i2b2 [125 过去,BIDMC 放电总结 310 临床事件,时间表达,时间关系 64
2013 ShARe/CLEF eHealth [126 BIDMC 出院总结,心电图报告,超声心动图报告,放射学报告 300 紊乱,首字母缩略词和缩写 54578898114
2014 i2b2/UTHealth [127128 过去重要 纵向医疗记录 1304 受保护的健康信息;心脏病的危险因素 182126526264808291107108
2015 SemEval/百里香[129 梅奥 临床记录,病理报告 600 时间,事件,以及它们之间的时间关系 60
2016年ceg n-grid [130131 过去重要 精神科摄入记录 1000 受保护的健康信息;症状严重程度 232742535865788392

一个大小表示为文档的数量。

b伙伴医疗(PHC)是一个非营利性的医院和医生网络,包括布里格姆妇女医院和马萨诸塞州总医院。

c贝斯以色列女执事医疗中心(BIDMC)是哈佛医学院的教学医院。这两个组织都设在美国马萨诸塞州的波士顿。

d匹兹堡大学医学中心(UPMC)是一家全球性的非营利性医疗企业,整合了35家医院,600个临床地点和一个健康保险部门。

e梅奥诊所是一家非营利性学术医疗中心,位于明尼苏达州罗切斯特市,专注于综合临床实践、教育和研究。这家诊所专门通过三级保健治疗疑难病例。

类似地,MIMIC数据集代表了临床NLP开放研究的关键驱动因素。值得注意的是,它是同类数据库中唯一可免费访问的重症监护数据库[120]。一旦数据使用协议被接受,数据分析就不受限制,从而使临床研究和教育国际化。数据的开放性支持了研究结果的可重复性,并使研究不断取得进展。MIMIC是一个大型单中心数据库,存储了美国马萨诸塞州波士顿贝斯以色列女执事医疗中心(一家大型三级保健医院)重症监护病房收治患者的未识别的综合临床信息。它的内容跨越了十多年,整合了不同类型的数据(见表3)。本系统综述感兴趣的是自由文本数据,其中包括各种类型的注释和报告。它们与编码数据的集成提供了规避人工标注数据的机会,以用于监督学习和评估目的。例如,Berndorfer和Henriksson [16]使用59,531个出院摘要的大型数据集,至少有一个指定的ICD诊断代码,以实现诊断编码过程的自动化。然而,在许多情况下,医疗条件的准确分类只存在于临床叙述中。因此,可能需要在自由文本中标注相关短语来训练分类模型。例如,Gehrmann等人[39]手动注释来自MIMIC的1610份出院摘要,以自动学习哪些短语与所考虑的10种患者表型相关。同样,Tahmasebi等[87手动注释来自MIMIC和其他2个机构的860份放射学报告,以评估检测和规范化解剖短语的无监督方法。

表3。重症监护医疗信息集市中临床数据类型的描述。
类型 描述
计费 主要为帐单和管理目的而记录的编码数据。
描述性信息 人口统计信息,入院和出院时间,以及死亡日期。
字典 查找具有相关定义的交叉引用标识符(如代码)的表。
干预措施 透析、影像学检查和置管等程序。
实验室测量 血液化学,血液学,尿液分析和微生物测试结果。
药物 静脉用药记录及用药单。
笔记 自由文本记录,如提供者进度记录和医院出院摘要。
生理信息 护士确认的生命体征,大约每小时一次(例如,心率、血压和呼吸频率)。
报告 心电图和影像学研究(x射线、计算机断层扫描、超声和磁共振成像)的自由文本报告。

除了开放性之外,推动临床NLP技术进步的一个重要因素是能够访问广泛的数据源,其中许多数据源可能与国家或组织范围的标准不兼容。作为美国最大的综合医疗保健系统,VHA为1243家医疗机构提供医疗服务,其中包括172个医疗中心和1062个不同复杂程度的门诊点。121122有潜力应对这一挑战。VHA为退伍军人(即在现役陆军、海军或空军服役的退伍军人,以及在除不光彩以外的情况下出院或释放的退伍军人)提供广泛的住院、门诊、心理健康、康复和长期护理服务,这些服务都通过电子病历平台联系起来。VHA的信息基础设施——退伍军人信息系统技术架构(VistA)的建设始于1982年,并于1985年投入使用。VistA无缝集成了多个应用程序,可通过图形用户界面访问,即1997年首次推出的计算机化患者记录系统。该系统主要用于支持临床护理提供而不是计费,自2004年以来一直用于记录所有常规临床活动,目前存储了超过160亿个临床条目。

平均每天有100万份自由文本记录(例如,病程记录和出院摘要),120万份供应商输入的电子订单,280万张图像(放射学检查、心电图和照片)和100万生命体征存储在VistA中。数据的激增迅速超出了存储容量、网络带宽、支持人员和信息技术预算的原始计划,导致2006年建立了企业数据仓库(Corporate data Warehouse, CDW)。从整个VHA的国家卫生服务系统汇总的患者级数据的新存储库还包含来自遗留系统的数据,每个系统都具有自己的数据规则、定义和结构。考虑到将这些特性标准化为通用标准的缓慢过程和数据量的快速增长,CDW允许从VistA中选择数据流,并以一种将冗余最小化的方式实用地构建它们。CDW存储了全面的患者级数据,这些数据主要用于支持医疗保健服务,但其前所未有的丰富性和数量为质量改进和研究等次要用途提供了巨大的机会。为了促进此类使用,VHA划分了CDW的一部分,供卫生服务和信息学调查人员使用,他们可以在VHA防火墙内的安全工作空间访问这些数据。VHA正在开发完全去标识数据提取的机制,以便在VHA之外共享它们。

与MIMIC类似,结构化(编码)和非结构化(自由文本)数据的集成提供了规避人工标注数据的机会,以用于监督学习和评估目的。通过这种方式,Ben-Ari等[14]利用32,636例患者的术后记录与处方数据交叉对照。然而,大多数研究仍然依赖于没有很好地记录在结构化数据中的信息的手动注释。例如Bates等人[13]将8288份放射报告手工标注为秋天不是秋天在文档级别。同样,Maguen等[68随机选择了3467份关于循证心理治疗使用的心理治疗记录。Patterson等[77手工注释了2000个结肠镜检查过程记录,其中包括筛查、非筛查、非结肠镜检查和未知适应症。Walsh等[97在从5亿份临床记录和1.2亿份放射学记录中取样的语库中,注释了3900个关于轴性脊柱炎的文本片段。Divita等[29]从164个预选文档类型中抽样了948条记录,并对其进行了手动注释,以识别文档中5819个积极断言的症状。Kim等人[55注释了1465份超声心动图报告、放射学报告和来自多个医疗中心的其他笔记类型的语料,随机抽样以提及和评估左心室射血分数。Fodeh等人[34研究人员对101种类型的1058份临床记录进行了采样,并对疼痛评估的细粒度信息进行了手工注释,这些信息不仅包括疼痛的提及,还包括疼痛的强度、质量、部位和病因等特征。Meystre等[72]对1083名患者进行了抽样研究,并对10多种预先选择的充血性心力衰竭治疗表现指标的临床记录进行了注释。这些文献注释在临床笔记和患者水平上进行总结,以对患者进行二分类,以满足治疗绩效指标或不满足治疗绩效指标。这些研究说明了开发临床NLP的机器学习方法所涉及的手动注释工作的程度。不幸的是,手工注释仍然没有得到充分利用,因为这种劳动的成果很少在原始的研究团队之外共享。

叙事类型

绝大多数研究都集中在单一类型的临床叙述上。这可能是由特定的临床应用驱动的。例如,Mai和Krauthammer [69]专注于自由文本测试命令,以预测患者是否会对特定病毒检测呈阳性,以寻求减少病毒检测量。为支援服务改善,Elmessiry等[30.只关注病人的抱怨。同样,与病人安全有关的申请亦集中于有关文件,例如不良事件报告[15]、病人安全事件报告[35],以及事故报告[101]。

毫不奇怪,大多数临床应用的NLP集中在诊断和预后,因为它们是医学的核心。临床医生和卫生政策制定者需要对诊断和疾病预后进行预测,以支持他们的决策。这两个应用程序主要关注各种类型的报告。例如,脑电图报告被用于研究癫痫[4170],而超声心动图报告则用于提取心血管医学相关信息[55]。大多数研究探讨放射学报告[132443458587110111]。他们通常专注于单一的成像方式,如计算机断层扫描[114871106112]或核磁共振成像(MRI) [174794]。这种分门别类的做法可能是有必要的,因为所制作的图像类型存在内在差异,这可能反映在相应报告中讨论的资料类型中。例如,核磁共振成像比x射线成像能更好地区分软组织。因此,他们各自的报道可能侧重于不同类型的解剖结构及其病理。这意味着在一种类型的报告上训练的机器学习模型可能无法转移到另一种类型的报告。

然而,综合多种成像方式的发现[194673和其他类型的检查可以提高诊断的准确性,特别是在计划手术治疗时。特别是,病理学和放射学构成了癌症诊断的核心,导致了将病理学和放射学研究结合起来的倡议,以支持做出正确的诊断和适当的患者管理和治疗决策[132]。在此背景下,Bahl等[10结合乳房x线摄影报告、图像引导核心穿刺活检报告和手术病理报告,以避免不必要的手术切除。支持这种集成的一个重要数据源是RadBank连接放射学和病理学报告的数据库[133]。它包含超过200万的报告,并允许全文搜索病人的历史,发现和诊断放射学和病理学。然而,大多数研究只关注病理报告[82238667576]。不同报告类型的组合主要用于专注于NLP任务而不考虑特定临床应用的研究(例如,经心电图、超声心动图和放射学报告训练的NER方法)[54578898114]。

不同类型报告的异质性,包括心导管手术报告、冠状动脉造影报告以及结合病史和体检报告的综合报告、出院总结、门诊记录、门诊信函和从Emory心血管生物银行检索的住院出院用药报告[134]被用来训练鲁棒的机器学习模型[115]。从临床记录、住院记录、出院摘要、进度报告、放射学报告、过敏条目和自由文本药物订单中提取的不同子集通常用于支持基本的NLP应用程序,如拼写检查[56];共参分辨率[63];WSD [One hundred.],包括缩写词[105];和NER [20.64]。最后,结肠镜检查报告用于探讨NLP在临床环境中的可行性[7793]。

出院摘要被用作医院和初级保健之间的主要沟通手段,因此对于确保患者安全和护理的连续性至关重要。它们的内容和结构可能因机构和临床医生而大不相同[135]。典型的组成部分包括入院和出院日期、住院原因、病史和检查的重要发现、重要的实验室发现、重要的放射学发现、其他检查的重要发现、执行的程序清单、程序报告发现、压力测试报告发现、病理报告发现、出院诊断、出院情况、出院药物、随访问题、待检查结果、向病人和家属提供信息。实际上,出院总结可以看作是不同类型的临床叙述的合并,其中一些我们之前讨论过。尽管这可能使他们的处理更具挑战性,但任何在出院摘要上训练的算法都更有可能适用于更广泛的临床叙述。出院摘要倾向于提供患者表型的最翔实的描述,并已用于自动化队列选择[39]。这也使得它们非常适合训练和测试NER方法[5996104],提取它们之间的关系[4967],或预测诊断[16]。

其他类型的临床叙述包括医生笔记[84],进度记录[254090],电子健康档案记录[7481116]、手术笔记[1479]和急诊科的记录[50109]。未指明的临床记录类别[102]主要用于分类[91231618695103113]、水务署[33],消歧义和IE [365199]。

精神病学记录主要用于NLP社区挑战,以提取受保护的健康信息和症状严重程度[232742535865788392]。这些叙述是心理健康信息学的关键促成因素,因为可操作信息的细粒度上下文不容易使其本身成为预定义的编码方案。其他用于支持心理健康应用的文件类型包括心理治疗笔记[68]、活动及函件[32],进度记录[40],以及一般临床资料,包括入院记录及出院摘要[117]。

纵向电子病历主要用于NLP社区挑战[1821265262808291107108]。在实际应用中,累积患者资料用于预测急诊科的频繁访问[37]。由遭遇和临床记录组成的纵向记录被用来确定候选问题是否真实[28]。同样,遭遇记录被用来确定特定的皮肤问题是确定的、可能的还是阴性的[44]。

临床应用

本节重点介绍基于机器学习的NLP方法的临床应用。我们针对7个NLP任务绘制了21个临床应用(见图4)。值得注意的是,我们总共排除了39项研究,这些研究没有提供足够的信息来支持中定义的rq表1。这些研究可能已经描述了它们自己的临床应用,这在本节中不讨论。

图4。基于自然语言处理任务的临床应用。
查看此图

毫不奇怪,绝大多数研究都集中在文本分类任务上,这自然适合监督机器学习。最常见的是,分类结果用于支持表型、预后、护理改善、资源管理和监测。

基于ehr的表型方法利用在医疗服务过程中常规收集的数据来识别具有某些临床特征、事件和服务模式的个体队列[136]。然后,他们的数据可用于观察性和干预性研究、临床试验的前瞻性招募、卫生服务研究、公共卫生监测和比较有效性研究等次要目的。标准化的可计算表型可以实现大规模研究,同时确保可靠性和可重复性。例如,历史试验患者入组决策被用来证明NLP的潜力,它可以将试验筛选效率提高450%,并将与患者队列识别相关的工作量减少90% [137]。从电子病历中确定的不同类型的事件包括跌倒[13]和长骨骨折[43]。大多数情况下,EHR表型集中在单一的医疗状况,例如,轴性脊柱炎[97],高血压[89]、系统性红斑狼疮[95]、皮炎[44],肥胖[61,乳糜泻[22],癫痫[41],自闭症[84],或一般的精神问题[40]。两项研究对多种疾病进行了区分。Tran和Kavuluru [92研究了11种精神障碍,包括注意力缺陷多动障碍、焦虑、双相情感障碍、痴呆、抑郁、饮食失调、悲伤、强迫谱系障碍、精神病和创伤后应激障碍。Gehrmann等[39]重点研究了一份不太均匀的10种疾病清单,包括晚期癌症、晚期心脏病、晚期肺病、慢性神经营养不良、慢性疼痛、酗酒、药物滥用、肥胖、精神疾病和抑郁症。

在预后方面,采用文本分类结果预测3个月生存率[12颅内出血的可能性[11和冠状动脉疾病的发展[18265262808291107108]或基于癌症分期的预后[75]。

在文本分类的另一端是较低级别的任务,如共同参考解析[63110]及水务署[33One hundred.105],这与任何特定的临床应用无关。然而,它们的重要性在于实现其他更高层次的NLP任务。类似地,作为IE的一个子任务,NER可用于支持将文本结构化为预定义的模板,这些模板的槽需要用相关类型的命名实体填充。大多数NER研究与NLP社区挑战有关,如Uzuner等人的研究中所描述的[123], Suominen等[126], Stubbs等人[131]。他们关注的是医疗问题、测试和治疗等实体[20.496796104];障碍(54578898114];受保护的健康信息[275865]。

与NER不同,IE更复杂的任务有更广泛的临床应用,其中最突出的包括预后和护理改善。例如,癌症分期是癌症最重要的预后参数之一,但这些信息通常记录在临床叙述中,这意味着医学文摘人员必须通读大量文本才能提取这些信息。考虑到这项任务的重要性和费力性,所有的IE方法都将预后作为最明显的临床应用重点放在癌症分期上,这并非巧合[838111]。另一种与癌症相关的IE方法侧重于提取患者在化疗期间经历的症状[36]。这些信息可用于通过修改治疗方法、识别和管理症状来改善患者护理,而不是预后。同样,提取有关评估和药物的信息可用于改善慢性心力衰竭患者的管理和门诊治疗[72]。

分诊是一个根据病人的需要或可能从医疗中获益的情况将他们分类的过程。聚类是一种对对象进行分组的任务,使一个集群中的对象彼此之间比其他集群中的对象更相似,因此可以自然地应用于对患者进行分类。采用聚类法从淋巴瘤患者的病理报告中确定潜伏组[66]。另一项研究证实,自动生成的放射学报告簇与放射学调查的主要主题一致[46]。令人惊讶的是,分诊并不是NLP的常见临床应用,而且在很大程度上与单一作者有关[45-48]。

总结

在这篇综述中,我们研究了用于训练和评估机器学习模型的数据的关键属性。我们发现,训练数据集的规模往往相对较小。例如,绝大多数研究只包括数百或数千份文件。即使有更大的数据集,用于训练的比例也相对较小。除了数量小之外,培训数据通常来自少数机构。除了i2b2、ShARe/CLEF eHealth和CEGS N-GRID等NLP社区挑战之外,最常用的数据源是MIMIC和VHA。绝大多数研究集中在单一类型的临床叙述上,从影像学报告到出院摘要。大多数情况下,训练数据用于支持文本分类、IE和NER任务。只有少数研究关注聚类、排序、共同参考解析和WSD等任务。最常见的是,分类结果用于支持临床应用,如表型、预后、护理改善、资源管理和监测。 The remaining NLP tasks did not have clear clinical applications. In fact, the majority were used to enable other higher-level NLP tasks.


文本数据在健康信息学应用中的使用面临着许多挑战,主要是患者隐私的保护和注释瓶颈。因此,训练数据集受到通常与非代表性样本相关的问题的影响。换句话说,它们可能不能反映目标问题的特征分布。在机器学习中,这种偏差可能会导致过拟合,这是一种建模错误,当一个复杂的模型适应训练数据的特性,无法概括问题的潜在属性时,就会发生这种错误。

不幸的是,纳入的研究中使用的大多数数据集来自少数机构,因此没有提供关于机器学习模型的泛化性和可转移性的确凿证据。不同机构的临床记录格式和风格大不相同[119],当一个模型在一个机构进行培训,然后在另一个机构进行测试时,可以观察到其表现的显著下降[336175105109]。在这种情况下,NLP社区挑战在为更广泛的研究人员提供临床数据访问和为未来比较建立基准方面发挥着重要作用。毫不奇怪,本系统综述中包括的许多研究都是由NLP社区挑战中共享的数据集实现的。不幸的是,依靠这些挑战来为NLP研究人员提供临床文本数据,似乎就像在众所周知的枪伤上贴了一块创可贴。另一种机会是以合成健康数据的形式出现的,这些数据包含现实患者(尽管不是真实患者)的健康记录。例如,原始的开源合成健康数据软件Synthea可以用来模拟疾病进展和相应的医疗护理,以大规模生成无风险的医疗记录[138]。由于合成数据与任何隐私问题无关,众包仍然是他们注释的一个选择,尽管它可能仍然需要医疗专业知识,这仍然是一种昂贵的商品。

在数据注释方面,可以从计算机视觉和语音处理等其他领域吸取教训,这些领域同样受到缺乏注释数据的困扰。他们使用数据增强技术来多样化可用于训练机器学习模型的数据,而无需实际收集任何新数据[139]。类似的技术现在越来越多地用于增强文本数据,以提高相应机器学习模型的泛化性能[140-143]。或者,迁移学习可以应用于利用在一个领域和/或具有足够训练数据的任务中获得的知识(特征、参数等)来支持另一个领域和/或任务的学习,从而获得更少的训练数据,从而减少昂贵的数据注释工作[144145]。在某些情况下,通过应用远程监督的概念,可以完全避免手动数据注释,远程监督依赖于现有知识库自动注释文本数据[146]。

有些问题(如院内死亡)[102],放电[90],再入院[9]和急诊科就诊[37]),其中标签很容易获得,自然适合监督学习方法。例如,电子病历将自由文本数据与受控医学术语的代码结合起来,这些代码可以用作类标签[118]。这些代码用于根据历史数据训练预测模型,以识别有风险的患者[162250],促进疾病监测[76],或优化护理成本和质量[81]。对于其他问题,数据必须从头开始手动注释,坚持监督学习就像试图在圆孔中安装方形钉子,使主题建模等无监督方法在很大程度上未得到充分开发,尽管它们可能更适合临床应用,如EHR显型,患者分诊,护理和服务改进。

总之,我们认为数据注释瓶颈是临床NLP中机器学习方法的主要障碍之一。主动学习作为一种以更具战略性的方式使用注释的方法已经被探索过。然而,临床NLP社区可以从使用替代方案中获益,如数据增强、迁移学习和远程监督。最终,无监督学习完全避免了对数据注释的需要,因此,应该更频繁地用于支持临床NLP。

致谢

作者感谢工程和物理科学研究委员会对HealTex-UK医疗文本分析研究网络(授权号EP/N027280/1)的支持。

利益冲突

没有宣布。

  1. 李建军,李建军,李建军,李建军。来自临床记录的数据:关于结构和灵活文件之间紧张关系的观点。中华医学杂志,2011;18(2):181-186 [J]免费全文] [CrossRef] [Medline
  2. 周磊。文本分析在临床研究中的应用。《中华医学杂志》;2009;39(4):391 - 391。[CrossRef] [Medline
  3. 李建军,李建军,李建军,等。肿瘤相关信息文本挖掘的研究现状及发展趋势。中华医学杂志,2014;43 (9):618 -623 [J]免费全文] [CrossRef] [Medline
  4. 数据挖掘:实用的机器学习工具和技术。第二版(Morgan Kaufmann数据管理系统系列)。美国马萨诸塞州伯灵顿:摩根·考夫曼;2008.
  5. Halevy A, Norvig P, Pereira F.数据的不合理有效性。IEEE intel system 2009;24(2):8-12。[CrossRef
  6. 伯曼JJ。医疗数据挖掘者的保密问题。中华医学杂志2002;26(1):25-36。[CrossRef] [Medline
  7. Kitchenham B.计算机科学系:基尔大学。2004。进行系统审查的程序http://www.inf.ufsc.br/~aldo.vw/kitchenham.pdf[2020-03-24]访问
  8. [8]刘建军,李建军,李建军,李建军,等。一种基于中文文本的肿瘤分类方法。中国生物工程学报,2018;17 (5):557 - 557 [j]免费全文] [Medline
  9. 刘建军,刘建军,刘建军,等。基于自然语言处理的慢性阻塞性肺病患者再入院评估。生物医学学报,2018;22(2):588-596。[CrossRef] [Medline
  10. 李建军,李建军,李建军,李建军,等。基于机器学习模型的乳腺病变诊断与预后分析。中华放射学杂志,2018;26(3):810-818。[CrossRef] [Medline
  11. Banerjee I, Madhavan S, Goldman R, Rubin D.自由文本放射学报告的智能词嵌入。中国生物医学工程学报(英文版);2017;37 (4):559 - 559 [j]免费全文] [Medline
  12. Banerjee I, Gensheimer MF, Wood DJ, Henry S, Aggarwal S, Chang DT,等。利用自由文本临床叙述的转移性癌症患者生存的概率预后估计(pes - met)。科学通报2018;7 (1):10037 [j]免费全文] [CrossRef] [Medline
  13. Bates J, Fodeh SJ, Brandt CA, Womack JA。HIV研究队列中跌倒的放射学报告分类。中华医学杂志,2016;23(1):893 - 897 [J]免费全文] [CrossRef] [Medline
  14. Ben-Ari A, Chansky H, Rozet I.术前阿片类药物使用与全膝关节置换术后早期翻修相关:退伍军人事务系统男性患者的研究。骨关节外科杂志,2017;39(1):1-9。[CrossRef] [Medline
  15. Benin AL, Fodeh SJ, Lee K, Koss M, Miller P, Brandt C.不良事件报告系统中文本理解的电子方法。健康风险管理[J]; 2016;36(2):10-20。[CrossRef] [Medline
  16. 李建军,李建军。基于文本表示的自动诊断编码。畜禽卫生技术通报2017;35:201-205。[CrossRef] [Medline
  17. Brown A, Marotta T.在神经放射学中使用机器学习进行序列级自动MRI方案选择。中华医学杂志,2018,25(5):568-571。[CrossRef] [Medline
  18. 王晓明,王晓明,王晓明,等。冠状动脉疾病的临床预测。[J]中国生物医学工程学报,2017;32 (2):391 - 391 [J]免费全文] [CrossRef] [Medline
  19. Castro SM, Tseytlin E, Medvedeva O, Mitchell K, Visweswaran S, Bekhuis T,等。从放射学报告中自动注释和分类BI-RADS评估。[J]中国生物医学工程学报,2017;29 (1):391 - 391 [J]免费全文] [CrossRef] [Medline
  20. 陈颖,Lasko TA,梅强,Denny JC,徐华。临床文本命名实体识别的主动学习方法研究。[J]中国生物医学杂志2015;58:11-18 [J]免费全文] [CrossRef] [Medline
  21. 陈强,李宏,唐斌,王霞,刘霞,刘忠,等。一个自动系统,以确定心脏疾病的危险因素,在临床文本随着时间的推移。生物医学通报,2015;58(增刊):S158-S163 [J]免费全文] [CrossRef] [Medline
  22. 陈伟,黄颖,Boyle B,林森。纳入病理报告在提高患者计算识别中的效用。中华病毒学杂志2016;7:46 [J]免费全文] [CrossRef] [Medline
  23. 张建军,张建军,李建军,等。基于神经网络的RDoC阳性反应程度自动分类。[J]中国生物医学工程学报,2017;30 (5):591 - 591 [J]免费全文] [CrossRef] [Medline
  24. 刘建军,刘建军,刘建军。人群控制:有效利用未筛选的人群工作者进行生物医学数据标注。[J]中国生物医学杂志,2017;39 (1):86-92 [J]免费全文] [CrossRef] [Medline
  25. 陈建军,陈建军,陈建军,等。通过自然语言处理和机器学习预测小儿癫痫手术候选人的方法学问题。生物医学学报,2016;8:11-18 [j]免费全文] [CrossRef] [Medline
  26. 刘建军,刘建军,刘建军。基于数据驱动的临床叙事去识别方法研究进展。生物医学通报2015;12(增刊):553 - s59 [J]免费全文] [CrossRef] [Medline
  27. 张建军,张建军,李建军,等。基于数据驱动算法的健康信息识别研究——以精神病学评估记录为例。[J]中国生物医学杂志,2017年11月;45 (5):528 - 533 [J]免费全文] [CrossRef] [Medline
  28. Devarakonda MV, Mehta N, Tsou C, Liang JJ, Nowacki AS, Jelovsek JE。从试点研究中自动生成问题列表和医生的观点。中华医学杂志,2017;25 (5):591 - 591 [J]免费全文] [CrossRef] [Medline
  29. Divita G, Luo G, Tran LT, Workman TE, Gundlapalli AV, Samore MH. VA电子病历的一般症状提取。猪健康技术通报2017;245:356-360。[Medline
  30. 张志强,张志强,张志强,张志强。病人投诉分类:六个机器学习分类器的蒙特卡罗交叉验证。中华医学杂志2017年7月31日;5(3):e19 [j]免费全文] [CrossRef] [Medline
  31. 范颖,张睿。基于自然语言处理的临床记录中膳食补充剂使用状况分类。BMC Med Inform Decis ma2018年7月23日;18(增刊2):51 [免费全文] [CrossRef] [Medline
  32. 刘建军,刘建军,刘建军,刘建军。基于自然语言处理的精神病学临床研究数据库中自杀意念和自杀企图的识别。科学通报2018;8(1):7426 [j]免费全文] [CrossRef] [Medline
  33. 杨建军,杨建军,杨建军,等。基于机器标记的临床缩写消歧方法研究。安徽农业大学学报(自然科学版);2016;56 -56 [j]免费全文] [Medline
  34. 傅德杰,张志强,张志强,等。使用机器学习对临床记录和疼痛评估进行分类。生物医学工程学报,2018;56(7):1285-1292 [j]免费全文] [CrossRef] [Medline
  35. 方A,郝略特N, Walters DM, Foley H, Morrissey R, Ratwani RR。整合自然语言处理专业知识与患者安全事件审查委员会,以改善药物事件的分析。中华医学杂志,2017,28(4):391 - 391。[CrossRef] [Medline
  36. Forsyth AW, Barzilay R, Hughes KS, Lui D, Lorenz KA, Enzinger A,等。从电子健康记录中提取乳腺癌症状文档的机器学习方法。[J]疼痛症状管理,2018;55(6):1492-1499。[CrossRef] [Medline
  37. 王军,王健,杜坤,李建军,李建军。使用电子病历来识别频繁急诊科就诊的高风险患者和高系统成本。中华医学杂志,2017,30(5):661 - 661。[CrossRef] [Medline
  38. 高松,杨梅,邱军,尹华,Christian J, Fearn P,等。从癌症病理报告中提取信息的分层注意网络。中华医学杂志,2018,25(3):321-330。[CrossRef] [Medline
  39. Gehrmann S, Dernoncourt F, Li Y, Carlson ET, Wu JT, Welt J,等。比较基于深度学习和概念提取的方法从临床叙述中进行患者表型分析。科学通报,2018;13(2):e0192360 [j]免费全文] [CrossRef] [Medline
  40. 陈建军,陈建军,陈建军,陈建军。基于深度神经网络的青少年抑郁症研究进展。基于证据的心理健康2017年8月;20(3):83-87 [j]免费全文] [CrossRef] [Medline
  41. Goodwin T, Harabagiu S.基于脑电图报告和信号数据的多模态患者队列识别。中国生物医学工程学报(英文版);2016;17 -18 [j]免费全文] [Medline
  42. Goodwin TR, Maldonado R, Harabagiu SM。从精神评估记录中自动识别症状严重程度。[J]中国生物医学工程学报,2017;27 (5):591 - 591 [J]免费全文] [CrossRef] [Medline
  43. 葛德梅,李建军,李建军,李建军,儿科急诊应用研究网络。使用自然语言处理在放射学报告中识别长骨骨折,以支持医疗保健质量的提高。应用临床通报2016年11月9日;7(4):1051-1068 [j]免费全文] [CrossRef] [Medline
  44. 古塔夫森,帕切科J, Wehbe F, Silverberg J, Thompson W.一种从电子健康记录中识别成人特应性皮炎的机器学习算法。IEEE Int Conf health通报2017 Aug;2017:83-90 [j]免费全文] [CrossRef] [Medline
  45. 王志强,王志强。多机构放射学报告的信息提取。[j]中华医学杂志2016年1月;66:29-39 [免费全文] [CrossRef] [Medline
  46. 在大型自由文本放射学报告库中的无监督主题建模。数字影像学报,2016;29(1):59-62 [J]免费全文] [CrossRef] [Medline
  47. Hassanpour S, Langlotz CP, Amrhein TJ, Befera NT, Lungren MP。膝关节mri机器学习分类器的性能报告在两个大型学术放射学实践:一个估计诊断率的工具。刘建军,刘建军,刘建军,等。生物质化学工程学报,2017,32(4):557 - 557。[CrossRef] [Medline
  48. 张建军,张建军。基于自然语言处理的放射学报告临床表现变化特征及其意义。数字影像学报,2017;30(3):314-322 [J]免费全文] [CrossRef] [Medline
  49. 何斌,关勇,戴荣。基于卷积神经网络的临床文本医学关系分类。中华医学杂志2019年1月3日:43-49。[CrossRef] [Medline
  50. hong S, Sontag DA, Halpern Y, Jernite Y, Shapiro NI, Nathanson LA。使用机器学习在急诊科分类中创建脓毒症临床决策支持的自动触发器。科学通报,2017;12(4):e0174708 [j]免费全文] [CrossRef] [Medline
  51. 于洪。基于双向RNN的电子病历医疗事件检测。Proc Conf 2016 Jun;2016:473-482 [j]免费全文] [CrossRef] [Medline
  52. 刘建军,刘树华,刘建军,戴慧。糖尿病患者心脏疾病危险因素的研究进展。生物医学工程学报,2015;39 (5):563 - 567 [j]免费全文] [CrossRef] [Medline
  53. 张建军,张建军,张建军,张建军。基于神经网络的精神疾病症状严重程度自动挖掘。精神病学杂志,2018;27(1)[J]免费全文] [CrossRef] [Medline
  54. 李建军,李建军,李建军,等。一种基于深度学习的医学概念提取方法。中华医学杂志,2016;23(2):289-296。[CrossRef] [Medline
  55. 金宇,加文J, Goldstein M, Meystre S.左室射血分数评价的语境应用分类。畜禽卫生技术通报2015;21:599-603 [j]。免费全文] [CrossRef] [Medline
  56. 赖克洪,黄玉M, Goss FR,周磊。临床自由文本记录的自动拼写错误检测与纠错。[J]中国生物医学工程学报,2015;33 (5):391 - 391 [J]免费全文] [CrossRef] [Medline
  57. 李建军,刘振华,李建军,等。临床自然语言处理在障碍自动归一化中的应用。[J]生物医学通报,2015;57:28-37 [J]免费全文] [CrossRef] [Medline
  58. 李慧,吴勇,张勇,徐军,徐宏,罗伯茨。一种基于神经网络的精神病学记录自动去识别方法。[J]中国生物医学杂志,2017年11月;45 (5):519 - 527 [J]免费全文] [CrossRef] [Medline
  59. 李强,史普纳,凯泽M,林仁N,罗宾斯J,林仁T,等。一种端到端混合药物差异自动检测算法。BMC Med Inform Decis ma2015年05月6日15:37 [免费全文] [CrossRef] [Medline
  60. 林C, Dligach D, Miller TA, Bethard S, Savova GK。临床领域的多层时间模型。中华医学杂志,2016;23(2):387-395 [J]免费全文] [CrossRef] [Medline
  61. 林仁杰,刘建军,刘建军,等。在两个三级儿科医疗中心开发一种检测早期儿童肥胖的算法。苹果临床通报2016年7月20日;7(3):693-706 [j]免费全文] [CrossRef] [Medline
  62. 刘忠,陈勇,唐斌,王鑫,陈强,李宏,等。使用令牌级和字符级条件随机场的电子病历自动去识别。生物医学通报2015;58(增刊):S47-S52 [J]免费全文] [CrossRef] [Medline
  63. 刘松,刘宏,李东。临床记录中共参解的无限混合模型。[j]中国科学:自然科学进展(英文版);2016;33 (6):428-437 [j]免费全文] [Medline
  64. 刘忠,杨敏,王旭,陈强,唐斌,王忠,等。基于递归神经网络的临床文本实体识别。BMC Med Inform Decis ma2017 7月5日;17(增刊2):67 [免费全文] [CrossRef] [Medline
  65. 刘忠,唐斌,王鑫,陈强。基于递归神经网络和条件随机场的临床记录去识别。[J]中国生物医学杂志2017;35 (3):334 - 342 [J]免费全文] [CrossRef] [Medline
  66. 罗勇,辛颖,Hochberg E, Joshi R, Uzuner O, Szolovits P.基于子图增强非负张量分解(SANTF)的临床叙事文本建模。医学信息学报,2015,22(5):1009-1019 [J]免费全文] [CrossRef] [Medline
  67. 罗勇,程毅,吴志强,程毅。基于分段卷积神经网络(seg - cnn)的临床病历分类。中华医学杂志,2018,25(1):93-98 [J]免费全文] [CrossRef] [Medline
  68. Maguen S, Madden E, Patterson OV, DuVall SL, Goldstein LA, Burkman K,等。测量在大型国家医疗保健系统中创伤后应激障碍的循证心理治疗的使用情况。行政政策与卫生,2018;45(4):519-529。[CrossRef] [Medline
  69. Mai M, Krauthammer M.利用机器学习和文本挖掘控制呼吸道病毒测试量。安徽农业大学学报(自然科学版);2016;19 -19 [j]免费全文] [Medline
  70. 刘建军,刘建军,张建军,等。深度学习与生物医学本体的融合:癫痫的知识嵌入。中国生物医学工程学报(英文版);2017;33- 39 [j]免费全文] [Medline
  71. 马丁内斯D, Ananda-Rajah MR, Suominen H, Slavin MA, Thursky KA, Cavedon L.自由文本计算机断层扫描(CT)自动检测侵袭性真菌病患者。[J]中国生物医学工程学报,2015;33 (3):591 - 591 [J]免费全文] [CrossRef] [Medline
  72. 刘建军,刘建军,刘建军,等。充血性心力衰竭信息提取框架的自动化治疗绩效措施评估。中国医学信息学报,2017,24(1):940 - 946。[CrossRef] [Medline
  73. Meystre S, Gouripeddi R, Tieder J, Simmons J, Srivastava R, Shah S.加强多机构临床存储库中儿童肺炎自动检测的比较有效性研究:公共卫生信息系统+试点研究。[J]医学互联网研究,2017,15;19(5):e162 [J]免费全文] [CrossRef] [Medline
  74. 孟克达莱,刘峰,余华。基于电子病历叙述的药物安全监测临床关系提取:经典学习与深度学习。JMIR公共卫生监测2018年4月25日;4(2):e29 [j]免费全文] [CrossRef] [Medline
  75. 马绍尔,马绍尔,马绍尔,加文。机器学习分类外科病理报告和块识别信息提取降噪。[j] .中华医学杂志,2016;70:77-83。[CrossRef] [Medline
  76. 王志强,王志强,王志强,王志强。基于自然语言处理和机器学习的癌症病例识别方法。医学信息学报,2016,23(6):1077-1084 [J]免费全文] [CrossRef] [Medline
  77. Patterson O, Forbush T, Saini S, Moser SE, du Vall SL.结肠镜检查的适应症分类:不同国家卫生保健系统中NLP方法的比较。种猪卫生技术通报2015;216:614-618。[Medline
  78. Posada JD, Barda AJ, Shi L, Xue D, Ruiz V, Kuan P,等。基于初始精神病评估记录的阳性效价系统症状严重程度分类预测模型。[J]中国生物医学工程学报,2017;30 (5):591 - 591 [J]免费全文] [CrossRef] [Medline
  79. Rastegar-Mojarad M, Sohn S, Wang L, Shen F, Bleeker TC, Cliby WA,等。设计可互操作临床注册的信息学需求。中华医学杂志,2017;18 (8):591 - 591 [J]免费全文] [CrossRef] [Medline
  80. robert K, shoshan SE, Rodriguez L, Abhyankar S, Kilicoglu H, Demner-Fushman D.细颗粒注释在电子病历中监督识别心脏病危险因素的作用。生物医学通报2015;58(增刊):S111-S119 [J]免费全文] [CrossRef] [Medline
  81. 使用自然语言处理和机器学习预测行为健康转诊后的医疗保健利用。安徽农业大学学报(自然科学版);2015;01 - 01 [j]免费全文] [Medline
  82. 马立德,马立克,马立克。基于语义和情感分析的临床叙事预测静脉血栓栓塞。中国生物医学工程学报,2018 (3);39 (4):391 - 391 [j]免费全文] [CrossRef] [Medline
  83. 刘建军,刘建军,刘建军,等。随机森林数树:对精神科患者症状严重程度的预测。[J]中国生物医学杂志,2017年11月;45 (5):591 - 591 [J]免费全文] [CrossRef] [Medline
  84. 刘伟,王杰,刘伟,王晓明,王晓明,等。使用广义低秩模型发现患者表型。中国生物医学工程学报,2016;21 (1):559 - 564 [j]免费全文] [CrossRef] [Medline
  85. 刘鹏,刘鹏,张平。基于自然语言处理的放射学报告测量值提取与分类。应用临床通报2015;6(3):600-610 [j]免费全文] [CrossRef] [Medline
  86. Sohn S, Larson DW, Habermann EB, Naessens JM, Alabbad JY, Liu H.基于贝叶斯网络的临床重要结直肠手术部位感染检测。中华外科杂志(英文版);2017;29 (3):391 - 391 [J]免费全文] [CrossRef] [Medline
  87. Tahmasebi AM, Zhu H, Mankovich G, Prinsen P, Klassen P, Pilato S,等。使用无监督学习的放射学报告中解剖短语的自动规范化。数字影像学报,2019;32(1):6-18 [J]免费全文] [CrossRef] [Medline
  88. 唐斌,陈强,王旭,吴勇,张勇,姜敏,等。使用基于机器学习的方法识别临床文本中不一致的临床概念。安徽农业大学学报(自然科学版);2015;33 (5):1184-1193 [j]免费全文] [CrossRef] [Medline
  89. Teixeira PL, Wei W, Cronin RM, Mo H, van Houten JP, Carroll RJ,等。评估电子健康记录数据源和识别高血压个体的算法方法。中华医学杂志,2017,24(1):162-171 [J]免费全文] [CrossRef] [Medline
  90. 李建军,李建军,李建军,等。自然语言处理在新生儿重症监护病房出院预测模型中的应用。应用临床学报,2016;7(1):101-115 [j]免费全文] [CrossRef] [Medline
  91. Torii M,樊军,杨伟,Lee T, Wiley MT, Zisook DS,等。在电子病历中应用文本分析来检测心脏病的危险因素。生物医学通报2015;58(增刊):S164-S170 [J]免费全文] [CrossRef] [Medline
  92. 基于深度神经网络的精神病学记录中的“当前病史”预测精神状况。[J]中国生物医学杂志,2017年11月;35 (5):368 - 368 [J]免费全文] [CrossRef] [Medline
  93. 李建军,李建军,李建军,李建军。基于自然语言的临床文本处理方法研究。中华医学杂志,2018,25(1):81-87 [J]免费全文] [CrossRef] [Medline
  94. 李建军,李建军,李建军,李建军。使用IBM Watson的自然语言处理算法自动确定肌肉骨骼MRI检查中静脉造影剂的需要。数字影像学报,2018;31(2):245-251 [J]免费全文] [CrossRef] [Medline
  95. 陈国强,陈国强,陈国强,陈国强,陈国强,等。Word2Vec反转和传统文本分类器用于狼疮表型分析。中国医学杂志2017年8月22日;17(1):126 [j]免费全文] [CrossRef] [Medline
  96. 李建军,李建军,李建军,等。基于神经网络的健康域名实体识别。[J]中国生物医学工程学报,2017;26 (1):391 - 391 [J]免费全文] [CrossRef] [Medline
  97. Walsh JA,邵勇,冷军,何涛,滕超,Redd D,等。在美国退伍军人电子病历中识别轴型脊柱炎。关节炎护理研究,2017 Sep;69(9):1414-1420 [j]免费全文] [CrossRef] [Medline
  98. 王超,阿克拉。一种从临床记录中提取疾病提及的混合方法。[j]中国科学:自然科学进展,2015;33 (5):391 - 391 [j]免费全文] [Medline
  99. 王刚,荣坤,王宁。一种从临床记录中系统发现药物不良事件的方法。医学信息学报,2015,22(6):1196-1204 [J]免费全文] [CrossRef] [Medline
  100. 王勇,郑凯,徐宏,梅强。基于交互搜索和分类的临床词义消歧。安徽农业大学学报(自然科学版);2016;32 - 39 [j]免费全文] [Medline
  101. 王勇,Coiera E, Runciman W, Magrabi F.基于多类别分类的患者安全事件报告自动识别。中国医学杂志2017年6月12日;17(1):84 [j]免费全文] [CrossRef] [Medline
  102. Weissman GE, Hubbard RA, Ungar LH, Harhay MO, Greene CS, Himes BE等。纳入非结构化临床文献可提高死亡或延长ICU住院时间的早期预测。中华医学杂志,2018;46(7):1125-1132 [j]免费全文] [CrossRef] [Medline
  103. wwh, Wagholikar KB, McCray AT, Szolovits P, Chueh HC。使用基于机器学习的自然语言处理方法对临床记录进行医学子域分类。中国医学杂志2017 12月1日;17(1):155 [j]免费全文] [CrossRef] [Medline
  104. 吴艳,姜敏,徐军,支东,徐华。基于深度学习模型的临床命名实体识别。中国生物医学工程学报(英文版);2017;17 - 19 [j]免费全文] [Medline
  105. 吴勇,Denny JC, Rosenbloom ST, Miller RA, Giuse DA, Wang L,等。短缩写的漫长旅程:开发临床缩写识别和消歧(CARD)的开源框架。中华医学杂志,2017,24(1):779 - 786。[CrossRef] [Medline
  106. Yadav K, Sarioglu E, Choi H, Cartwright WB, Hinds PS, Chamberlain JM。儿童外伤性脑损伤计算机断层成像报告的自动结果分类。中华医学杂志,2016;23(2):171-178 [j]免费全文] [CrossRef] [Medline
  107. 杨辉,加里波第JM。一种自动识别心脏病危险因素的混合模型。生物医学通报,2015;58(增刊):S171-S182 [J]免费全文] [CrossRef] [Medline
  108. 杨辉,加里波第JM。从诊所叙述中自动检测受保护的健康信息。生物医学通报2015;58(增刊):S30-S38 [J]免费全文] [CrossRef] [Medline
  109. 叶燕,Wagner MM, Cooper GF, Ferraro JP, Su H, Gesteland PH,等。两个大型卫生保健系统之间流感病例检测系统可转移性的研究。科学通报,2017;12(4):e0174970 [j]免费全文] [CrossRef] [Medline
  110. 杨文华,王文华,王晓华,等。肝癌分期预测的影像学报告中肿瘤参考分辨率和特征提取。中国生物医学工程学报(英文版);2016;44 (4):591 - 591 [J]免费全文] [CrossRef] [Medline
  111. 李建军,李建军,李建军,等。肝癌患者放射学报告中肿瘤信息提取的研究进展。[j]中南大学学报(自然科学版),2016;[CrossRef] [Medline
  112. Zech J, Pain M, Titano J, Badgeley M, Schefflein J, Su A,等。基于自然语言的机器学习模型,用于临床放射学报告的注释。中华放射学杂志,2018;28(2):570-580。[CrossRef] [Medline
  113. 张瑞荣,马绍华,肖晓华,张晓华。基于电子病历的纽约心脏协会分类研究。BMC Med Inform Decis ma2018年7月23日;18(增刊2):48 [免费全文] [CrossRef] [Medline
  114. 张恩,张国强,张国强。基于迁移学习的临床命名实体识别研究。猪健康技术通报2018;252:182-187。[CrossRef] [Medline
  115. 郑松,陆建军,Ghasemzadeh N, Hayek SS, quyumi AA,王峰。基于在线机器学习和控制词汇的异构临床报告信息提取框架。中华医学杂志2017年5月9日;5(2):e12 [j]免费全文] [CrossRef] [Medline
  116. 郑洁,余华。评价医学文献的可读性:一种排序方法。中华医学杂志2018年3月23日;6(1):e17 [j]免费全文] [CrossRef] [Medline
  117. 周磊,Baughman AW,雷文杰,赖克洪,navatthe AS,常峰,等。使用自由文本临床文件识别抑郁症患者。畜禽卫生技术通报2015;16:629-633。[CrossRef] [Medline
  118. Knake LA, Ahuja M, McDonald EL, Ryckman KK, Weathers N, Burstain T,等。三级保健中心早产儿研究的电子病历数据提取质量:获得可靠数据的指南。BMC儿科2016年4月29日;16:59 [免费全文] [CrossRef] [Medline
  119. 孙松,王勇,魏超,krusmark E, Ryu E, Ali M,等。临床文献差异和NLP系统可移植性:跨机构哮喘出生队列的案例研究。医学信息学报,2018,25(3):353-359。[CrossRef] [Medline
  120. Johnson AE, Pollard TJ, Shen L, Lehman LH, Feng M, Ghassemi M,等。MIMIC-III,一个免费访问的重症监护数据库。Sci Data 2016 5月24日;3:160035 [j]免费全文] [CrossRef] [Medline
  121. 刘建军,刘建军,刘建军,刘建军。VistA——美国退伍军人事务部全国规模的HIS。国际医学杂志2003年3月;69(2-3):135-156。[CrossRef] [Medline
  122. 费恩SD,弗朗西斯J,克兰西C,尼尔森C,尼尔森K,拉姆斯菲尔德J,等。来自退伍军人健康管理局高级分析的见解。中国卫生杂志,2014,07,33(7):1203-1211。[CrossRef] [Medline
  123. 张建军,张建军,张建军,等。2010(2)临床文本概念、语义关系的研究进展。中华医学杂志,2011;18(5):552-556 [J]免费全文] [CrossRef] [Medline
  124. 刘建军,李建军,李建军,李建军,等。评估电子医疗记录的互参解析技术的现状。中华医学杂志,2012;19(5):786-791 [J]免费全文] [CrossRef] [Medline
  125. 孙伟,刘建军,张建军,等。临床文献中颞叶关系的研究进展[j]。中华医学杂志,2013;20(5):806-813 [J]免费全文] [CrossRef] [Medline
  126. 王晓明,王晓明,王晓明,王晓明,王晓明,王晓明,王晓明,王晓明,王晓明,王晓明。《欧洲语言跨语言评估论坛国际会议论文集》,2013,发表于:CLEF'13;2013年9月23-36日;西班牙瓦伦西亚,第212-231页。[CrossRef
  127. 张建军,张建军,张建军,等。纵向临床叙事的去身份化:2014 i2b2/UTHealth语库。生物医学通报2015;58(增刊):S20-S29 [J]免费全文] [CrossRef] [Medline
  128. 王志强,王志强。糖尿病患者心脏病危险因素的临床分析。生物医学通报,2015;58(增刊):S78-S91 [J]免费全文] [CrossRef] [Medline
  129. 张建军,张建军,张建军,等。临床临床试验研究进展[J]。收录于:第九届语义评价国际研讨会论文集。2015提交于:SemEval'15;2015年6月;科罗拉多州丹佛806-814页。[CrossRef
  130. 张建军,张建军,张建军,等。基于神经精神病学临床记录的症状严重程度预测:2016年脑电图研究N-GRID共享任务综述。[J]中国生物医学杂志,2017年11月;31 (5):662 - 670 [J]免费全文] [CrossRef] [Medline
  131. 张建军,张建军,张建军,等。精神科患者入院记录的去识别:2016年精神科患者入院记录的N-GRID共享任务综述。[J]中国生物医学杂志,2017年11月;45 (5):591 - 591 [J]免费全文] [CrossRef] [Medline
  132. Sorace J, Aberle DR, Elimam D, Lawvere S, Tawfik O, Wallace WD。整合病理学和放射学学科:一个新兴的机会?中国医学杂志2012年9月5日;10:100 [j]免费全文] [CrossRef] [Medline
  133. Rubin DL, Desser TS.一个整合放射和病理数据的数据仓库。[J] .中国生物医学工程学报,2008;5(3):210-217。[CrossRef] [Medline
  134. 刘建军,刘建军,李建军,等。基于EmCAB的心血管生物信息库研究进展。英国医学杂志2017年12月29日;7(12):e018753 [j]免费全文] [CrossRef] [Medline
  135. O'Leary KJ, Liebovitz DM, Feinglass J, Liss DT, Evans DB, Kulkarni N,等。创建更好的离职总结:使用电子离职总结提高质量和及时性。中华医院医学杂志,2009;4(4):219-225。[CrossRef] [Medline
  136. Richesson RL, Hammond WE, Nahm M, Wixted D, Simon GE, Robinson JG,等。下一代临床试验中基于表型的电子健康记录:来自NIH卫生保健系统合作实验室的观点。中华医学杂志,2013,32 (2):526 - 531 [J]免费全文] [CrossRef] [Medline
  137. 倪颖,陈建军,陈建军,李建军,等。自动临床试验资格预筛选:提高急诊科临床试验患者识别的效率。中华医学杂志,2015,22(1):166-178 [J]免费全文] [CrossRef] [Medline
  138. Walonoski J, Kramer M, Nichols J, Quina A, Moesel C, Hall D,等。合成:一种生成合成患者和合成电子医疗记录的方法、方法和软件机制。中华医学杂志,2018,25(3):230-238。[CrossRef] [Medline
  139. 何东,梁娥,陈旭,Stoica I, Abbeel P.基于种群的扩张策略学习。参见:国际机器学习会议论文集。2019提交于:CML'19;2019年6月10日至15日;长滩,美国,第2731-2741页http://proceedings.mlr.press/v97/ho19b/ho19b.pdf
  140. 李勇,Cohn T. Baldwin T.语言逆境下的稳健训练。参见:计算语言学协会欧洲分会第15届会议论文集。2017提交于:ACL'17;2017年4月3日至7日;瓦伦西亚,西班牙,第21-27页https://www.aclweb.org/anthology/E17-2004/CrossRef
  141. 谢志,王思,李军,Levy D,聂安,Jurafsky D,等。神经网络语言模型中的数据噪声平滑。参见:第五届国际学习表征会议论文集。2017提交于:CLR'17;2017年4月24日至26日;法国土伦https://nlp.stanford.edu/pubs/xie2017noising.pdf
  142. 林小林。语境扩充:具有聚合关系的词的数据扩充。参见:计算语言学协会北美分会2018年会议论文集:人类语言技术。2018提交于:ACL'18;2018;新奥尔良,路易斯安那州,美国,第452-457页https://www.aclweb.org/anthology/N18-2072/CrossRef
  143. 魏军,邹凯。EDA:提高文本分类任务性能的简易数据增强技术。参见:2019年自然语言处理经验方法会议论文集和第九届自然语言处理国际联合会议。2019年提交于:EMNLP-IJCNLP;2019;中国香港邮编:6382-6388https://www.aclweb.org/anthology/D19-1670/CrossRef
  144. 潘世杰,杨强。迁移学习研究综述。IEEE Trans knowledge Data engineering 2010;22(10):1345-1359 [j]免费全文] [CrossRef
  145. 王志强,吴志强。基于迁移学习的文本分类方法。神经网络信息系统学报,2006;18 (6):391 - 391 [j]免费全文
  146. 张建军,张建军,张建军,等。一种基于数据的关系提取方法。第47届ACL年会联合会议论文集和第四届AFNLP自然语言处理国际联合会议:第2卷。2009年发表于:ACL'09;2009;新达,新加坡,1003-1011https://www.aclweb.org/anthology/P09-1113/CrossRef


CDW:企业数据仓库
电子健康档案:电子健康记录
ICD:国际疾病分类
即:信息提取
网:医学主题词
模拟:重症监护医疗信息集市
核磁共振成像:磁共振成像
尼珥:命名实体识别
NLP:自然语言处理
中移动:研究问题
VHA:退伍军人健康管理局
VistA:退伍军人信息系统技术架构
WSD:词义消歧


编辑:M Focsa, G Eysenbach;提交28.01.20;R Stewart, K Chen, C Lovis同行评议;对作者的评论21.02.20;收到修订版本24.02.20;接受24.02.20;发表31.03.20

版权

©Irena Spasic, Goran Nenadic。原发表于JMIR医学信息学(http://medinform.www.mybigtv.com), 2020年3月31日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到http://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map