发表在第4卷第4期(2016):10 - 12月

基于web的糖尿病患者人群健康管理的实时病例查找:基于自然语言处理的算法与全州电子病历的前瞻性验证

基于web的糖尿病患者人群健康管理的实时病例查找:基于自然语言处理的算法与全州电子病历的前瞻性验证

基于web的糖尿病患者人群健康管理的实时病例查找:基于自然语言处理的算法与全州电子病历的前瞻性验证

原始论文

1清华大学,北京,中国

2美国加州斯坦福大学

3.浙江大学,中国杭州

4HBI解决方案公司,帕洛阿尔托,加州,美国

5天津市心血管重塑与靶器官损伤重点实验室,天津市平津医院心脏中心

6浙江大学医学院,中国杭州

7健康信息网,波特兰,缅因州,美国

*这些作者贡献相同

通讯作者:

凌雪峰,博士

斯坦福大学

格兰特大厦S370号

斯坦福大学、钙、

美国

电话:1 650 427 9198

传真:1 650 723 1154

电子邮件:bxling@stanford.edu


背景:基于结构化病历的糖尿病病例查找并不能完全识别与糖尿病相关的病史以自由文本形式提供的糖尿病患者。已经使用了人工图表审查,但涉及高人工成本和长延迟。

摘要目的:本研究开发并测试了一种基于web的糖尿病病例查找算法,使用结构化和非结构化电子病历(EMRs)。

方法:这项研究基于健康信息交换(HIE) EMR数据库,该数据库涵盖了美国缅因州几乎所有的卫生设施。使用叙述性临床记录,回顾性地(2012年7月1日至2013年6月30日)开发了基于web的自然语言处理(NLP)病例查找算法,并使用hie相关设施的随机子集进行盲法测试。基于nlp的算法随后被整合到HIE数据库中并进行前瞻性验证(2013年7月1日至2014年6月30日)。

结果:在前瞻性队列的935891例患者中,仅使用诊断代码就确定了64168例糖尿病病例。我们基于nlp的病例查找算法前瞻性地发现了另外5756个未编纂的病例(5756/ 64168,增加8.97%),阳性预测值为0.90。在两种方法识别的21,720例糖尿病患者中,6616例(6616/21,720,30.46%)是在结构化EMR中记录糖尿病诊断之前由基于nlp的算法识别出来的(平均时差= 48天)。

结论:在线NLP算法可有效实时识别非编码糖尿病病例,显著提高糖尿病病例发现。基于nlp的病例发现算法成功集成到缅因州HIE数据库,表明这种新方法的应用具有强大的潜力,可以实现更完整的糖尿病诊断。

JMIR Med Inform 2016;4(4):e37

doi: 10.2196 / medinform.6328

关键字



糖尿病(DM)是导致死亡率和发病率的主要原因,在世界范围内是一项重要的疾病负担[12].在美国,2013年有9.3%的人口(2910万人)被报告患有糖尿病,另外估计还有810万人患有未确诊的糖尿病[3.4].糖尿病是一种由血液中高浓度葡萄糖引起的代谢紊乱。如果不及时治疗,糖尿病患者最终会出现一系列并发症。糖尿病患者可及时采取改变生活方式、控制血糖和血压等措施,预防糖尿病并发症[3.5-8].

在电子病历(EMRs)中识别糖尿病患者对于公共卫生部门使用的质量改进措施、临床决策支持系统和区域疾病流行率估计至关重要。虽然糖尿病诊断通常由国际疾病分类(ICD)代码捕获并存储在emr中,但先前的研究发现,仅诊断代码并不能充分代表人群中的糖尿病诊断,导致低估了疾病流行率,并对临床管理电子方法的发展提出了挑战[910].2014年缅因州的糖尿病患病率为7.8%,而我们数据库中编纂的患病率为6.8%。这表明在患者的结构化EMRs中存在由非编码DM引起的差异。很少接受糖尿病治疗或没有接受糖尿病治疗的糖尿病患者不太可能与糖尿病特定诊断代码相关联,在多个无关联的医疗保健系统之间转移护理但一段时间内没有接受糖尿病治疗的患者也是如此。为了克服这一缺点,对非结构化临床记录的手工图表回顾已被用于识别非编码糖尿病病例。然而,这种方法涉及较高的人工成本和较长的延迟,这限制了大规模数据集的使用[11-13].

这个问题的一个可能的解决方案是使用自然语言处理(NLP),这是一种基于web的技术,也是一种完全自动化的、可接受的替代方法,可以提供具有成本效益的病例查找。通过分析emr中的叙述文本,NLP已越来越多地用于提高一些高影响慢性疾病的病例发现,如心力衰竭和癌症[14-16].基于nlp的自动病例查找算法的优点是,它允许从大型数据集中快速实时识别未编码的诊断。此外,在选择诊断前,可快速预处理不同疾病和临床情况的非结构化临床记录[1416].然而,现有的NLP应用主要基于少量患者样本和有限的临床记录。目前,NLP在公共卫生和医学领域的应用面临以下挑战[17-21]:(1)缺乏一个全面的知识库来生成从目标患者群体中积累的领域知识;(2)缺乏一个全面的数据模型来封装不同医疗机构的各种格式的非结构化临床记录;(3)以及缺乏一个强大的和可扩展的分析管道来处理全州医疗机构的大量EMR记录。

因此,本研究的目的是开发并集成一种基于nlp的在线实时DM病例查找算法到美国缅因州的健康信息交换(HIE)护理流程中(图1).我们假设我们开发的算法可以发现在结构化EMRs中未被编码诊断的其他糖尿病患者。该算法建立在一个知识库上,该知识库结合了分类法和编码领域知识的受控词汇表,以及临床病历的面向任务的特点。它还使用了emr中可用的结构化和非结构化信息和数据,这些信息和数据被视为识别非编码糖尿病诊断的统计学习变量。

图1。基于自然语言处理(NLP)的算法集成到全州糖尿病病例发现和监测的示意图。对临床记录进行预处理和识别以生成决策。知识库、统计模型和金标准数据集构成了NLP引擎的基础。国际疾病分类;NLM:美国国家医学图书馆;MeSH:医学学科标题;EMR:电子病历;卫生信息交换:卫生信息交换;PPV:阳性预测值。 SNOMED CT: Systematized Nomenclature of Medicine – Clinical Terms.
查看此图

伦理语句

出于本研究的目的,已删除受保护的个人健康信息。由于本研究分析的是去识别数据,因此免除了斯坦福大学机构审查委员会的伦理审查(2014年10月16日)。

数据源

本研究的数据从独立的非营利组织healthinfonet管理的HIE数据集中提取。该数据集包含了缅因州近95%人口的记录。有35家hie相关医院,34家联邦合格的医疗中心,400多家门诊诊所[2223].为了确定糖尿病队列,分析了缅因州HIE EMR数据库中所有类别的临床记录。临床记录也被称为病程记录,是医疗记录的一部分,卫生保健专业人员在住院治疗或门诊治疗期间记录患者临床状态或成就的细节。本研究中的临床记录是基于偶遇的。这些笔记被分为2个亚队列。回顾性队列研究包含了2012年7月1日至2013年6月30日期间1,385,280份病历,代表1,129,952名患者;前瞻性队列研究包含了2013年7月1日至2014年6月30日期间记录的982,211份临床病历,代表935,891名患者(图2).临床记录来源于100多种不同类型的临床报告,包括病史或身体报告、出院总结和急诊报告。

图2。本研究的队列构建。ICD9:《国际疾病分类》第九版;DM:糖尿病;MDS:多维缩放。
查看此图

算法概述

糖尿病患者被定义为原发性或继发性诊断(国际疾病分类,第九版,临床修改,ICD-9-CM,代码:249,249)。x, 249。Xx, 250, 250。X,及250.xx)的医疗记录[24].病例查找算法由基于结构化和非结构化EMR信息的三个连续步骤组成(图1).第一步是对非结构化的临床记录进行预处理,去除表明患者没有糖尿病的信息,如糖尿病家族史和阴性(即患者否认糖尿病)。该步骤删除了误导性信息,以避免出现假阳性错误,从而提高了后续步骤的性能。第二步需要进行特征提取,以映射之前研究中识别的糖尿病危险因素[25-29],从统一医学语言系统中提取的药物,以及NLP术语到结构化元数据中。在第三步中,基于回顾性队列的决策树模型被开发出来,以确定患者是否患有糖尿病。开发过程将在后面的章节中详细介绍。为了支持整个算法管道,创建了NLP引擎,包括知识库、统计模型和作为功能模块的金标准数据集。下面介绍它们的构造和使用。

知识库

知识库由3个核心组成:(1)dm相关临床术语作为控制词汇;(2)降糖药;(3)从临床笔记中提取规则。

我们的NLP知识库中的临床术语来源于以下来源:(1)ICD-9-CM代码在249,249下的描述和同义词。x, 249。Xx, 250, 250。X和250.xx;(2) SNOMED CT (systemized Nomenclature of Medicine - clinical Terms)中的综合临床术语[30.];(3)美国国家医学图书馆(NLM)提出的用SNOMED CT绘制ICD-9-CM的方法[31],基于映射到ICD代码249,249的概念和同义词。x, 249。Xx, 250, 250。X和250.xx;(4)使用NLM检索“糖尿病”查询返回的标题[32]在受控词汇同义词典中,即医学主题词(MeSH)。这些知识库中的临床术语被进一步标记化、组合和过滤,以获得我们的单标记和双标记控制词汇。如果这些受控词汇表包含停止词,例如,文本挖掘(tm)包(R Development Core Team)提供的“the”、“a”、“of”[33,它们被移走了。最终确定的NLP术语共有742个(多媒体附件1);其中72例被发现与糖尿病诊断显著相关(Mann-Whitney检验)P值<.05)。这里,患者被分配了ICD-9-CM编码249 249。x, 249。Xx, 250, 250。x, 250。xx例被诊断为糖尿病。

抗糖尿病药物是从统一医学语言系统数据库中确定的。在分析的36种药物中,发现22种与糖尿病诊断显著相关(Mann-Whitney检验)P值<.05)。

由于DM风险因素的信息(如体重指数或BMI、高血压、肥胖、吸烟史和酒精使用障碍)可能在emr中以多种非结构化格式呈现,我们开发了一系列正则表达式和规则来统一非结构化信息,并随后标准化特征类别。例如,BMI可以从临床记录中获得,但在许多情况下只提供身高和体重。根据世界卫生组织的分类,BMI被分为4类:体重不足、正常、超重和肥胖。34].此外,为了使知识库更符合临床病历的表达,知识库随着回顾性模型的开发进行了迭代更新。

预处理与特征提取

直观地,笔记中的DM相关词汇可以用来对DM案例进行分类。然而,这种简单的笔记处理方法忽略了消极的表达,例如,“病人否认糖尿病”在笔记中。显然,这种否定会误导算法将患者错误地归类为DM病例。为了避免这种错误,应该在将否定值输入管道之前首先进行处理。去除家族糖尿病史的预处理是出于类似的考虑:“他的母亲患有糖尿病”的注释并没有将相应的患者“他”归类为糖尿病患者。为了保证NLP的特异性,在预处理过程中,根据知识库中的条目,删除了上述与DM否定和家族史相关的片段。否定词汇采用NegEX提出的词汇[35].与家庭有关的词语[36都是用来开创家族史词汇的。

为了将临床病历中的叙述性文本分解成更小的片段,我们应用了文本语义。笔记被分解成段落、句子和行作为基本单元,内容不重叠。定义基本单位的标准是根据文本长度和换行符的统计数据制定的。如果一段(或一句话、一行)满足一个基本单元的标准,就认为它是一个片段,不需要进一步分解。使用openNLP (R开发核心团队)对词性进行注释和引用,以检测句点和小数点之间的混淆[33].当一个片段中含有一个与否定和家族史相关的单词或短语时,该片段将从笔记中删除。

为了将非结构化文本映射为结构化元数据,该知识库经过预处理后应用于标准化临床病历。当文本与知识库中的NLP术语和药物匹配成功时,笔记的结构化数据被编码为“1”,否则为“0”。然后利用知识库中存储的规则和正则表达式提取糖尿病危险因素,进一步丰富临床病历元数据。

金标准数据集工作流

金标准数据集是为模型开发和验证目的而创建的(图2).数据集包含有或没有糖尿病的患者的子集。患者的糖尿病状态是由2名医生馆长对临床记录进行手工图表回顾来确定的。如果患者有任何显示糖尿病诊断的笔记,则将其编码为糖尿病。2名医生分别审阅每张笔记,并评估该笔记是否显示存在糖尿病。在单独审阅后,对每张笔记的2个评估进行比较。如有任何分歧,由两名医生讨论并达成协议[37].当两个策展人在诊断上存在分歧,无法通过讨论解决时,患者被排除在外。通过这个过程创建的数据集被用作定义截断点、运行盲测或验证我们基于nlp的案例查找算法的金标准。金标准数据集的队列构建如图所示图2

模型开发

在回顾性队列中建立了一个模型(图2).获得临床记录的诊所设施被随机分配到两个子集中的一个:一个用于培训和寻找截止点(n=17个设施),另一个用于盲测(n=18个设施)。在用于训练和寻找截断点的子集中,选择所有编码DM诊断的可用笔记(n=44,368)和同等数量的未编码笔记(n=44,368)构建用于模型开发的训练子队列。在剩余的未编码子集中,通过随机选择100例阳性(DM)患者和500例阴性(非DM)患者作为子队列来寻找截断点,构建金标准数据集。进一步随机抽取100例阳性患者和500例阴性患者,分别从盲检测亚组中未编码记录中确定,以构建盲检测亚组。

通过对训练子队列进行预处理和特征提取,每个音符都有一个特征向量,记为f.DM的识别被表述为最大后验概率(MAP)估计图3(一),DM为二进制随机变量,表示样本是否患有糖尿病诊断(DM= 1)。考虑到诊断代码,一个二进制变量ICD引入,以指示音符是否已编码(ICD= 1)。通过插入ICD进入后验,然后应用贝叶斯规则,我们得到了分解图3(b)。

由于诊断代码的赋值与提取的特征无关,因此将模型简化为方程图3(c)。

右边的第一项决定了编码票据的DM概率,而右边的第二项决定了非编码票据的DM概率。由于编码信息已知,我们有2个分支来获得后验a,如图3(d)。

绝大多数未编码的记录不包括糖尿病诊断,而大多数DM编码记录是ICD-9-CM糖尿病诊断。这导致我们开发了以下类标记方法:

1.如果一个笔记是编纂的,这个笔记应该有糖尿病的诊断(图3(e));

2.如果一个音符没有被编码,则应该建立一个模型来估计概率(图3(f))。

因此,对于编码笔记,DM诊断的推断仅依赖于结构化数据中标注的ICD代码,而对于非编码笔记,我们训练了随机森林模型[3338T(f) (图3(g)),在那里tnn随机森林中的决策树。

从层次树的角度来看,该模型可以看作是基于预定树的模型和基于随机森林的模型的结合。以糖尿病相关的ICD-9-CM诊断代码为基础,以人类先验知识为表征,构建了糖尿病诊断树。基于随机森林的模型通过从临床记录中提取信息来建立,这些信息代表了机器学习知识。

首先用编码笔记(dm阳性样本)和非编码笔记(dm阴性样本)训练模型。训练样本中的假阳性是未经编码的记录,有或没有糖尿病诊断。前者作为下一轮培训的积极样本。通过迭代应用这2个步骤,对模型以及与家族史和否定表达相关的知识库进行了微调。对所有假阳性病例进行人工检查,以了解这些情况是如何发生的。

这种编码笔记驱动的迭代训练方案是基于这样一个假设,即在发现糖尿病诊断的编码笔记和非编码笔记之间,笔记的特征应该是相似的。为了验证这一假设并验证该方法,从训练子队列中随机选择1000个样本构建多维标度(MDS)图来说明注释的分布。

图3。描述基于自然语言处理(NLP)算法建模过程的方程。
查看此图

患者分类截止点的确定

由于该算法是为了找出未编码的DM病例而开发的,识别样本中真阳性的比例,阳性预测值(positive predictive value, PPV)是最重要的性能指标。PPV≥90%时,假阳性比例小于10%。另一方面,考虑到该方法是在编码病例之外识别未编码病例,以牺牲敏感性为代价维持高水平的PPV是可以接受的。我们通过考虑PPV和灵敏度之间的权衡来确定最佳截止点的方法也在之前的NLP研究中提出了[39].考虑到我们的算法为每个主题分配了分类概率,我们的目标是找到一个最佳截断点,以实现预定义的PPV为90%的最大分类灵敏度。为了达到90%的PPV,可以通过线性公式计算分类特异性,从而形成一条重叠在受试者工作特征(ROC)曲线上的直线。线以上区域的敏感性和特异性的组合允许>90% PPV的表现。因此,截断点设置在直线与ROC曲线的第一个交点。

在回顾性模型开发的最后阶段,病例发现算法在不包括在训练子集中的医疗保健机构的患者上进行了盲测。

前瞻性案例发现和验证

然后,我们基于nlp的DM病例查找算法通过集成到HIE实时人口探索仪表板系统进行在线部署。收集了2013年7月1日至2014年6月30日期间的临床记录(N=982,211),以对该算法进行前瞻性验证。基于从前瞻性队列中随机选取的200例糖尿病患者和1000例非糖尿病患者的临床记录的图表回顾,构建了一个独立的金标准数据集(图2).使用以下参数评估金标准数据集上的前瞻性分类性能:PPV、敏感性、特异性、阴性预测值(NPV)和ROC曲线下面积。进一步从该算法识别的未编码糖尿病病例中随机抽取200例样本,以评估整个前瞻性队列的病例发现准确性。根据HIE EMR数据库中每个患者的临床记录和诊断代码的纵向记录,分析了两种来源的时间比较。


案例查找算法性能

构建MDS图来可视化分类性能。如图4500例无编码记录中,2例诊断为糖尿病。仔细检查发现,这些“假阳性”病例的笔记诊断为真正的糖尿病。这个MDS图表明:(1)我们的模型有效地区分了诊断为糖尿病的患者和未诊断为糖尿病的患者的笔记;(2)我们基于nlp的临床笔记分析可以识别诊断为糖尿病的无编码笔记。

图4显示超过99%的非编码记录与未诊断糖尿病的患者相关,超过99%的编码记录与诊断糖尿病的患者相关。在训练数据集中只有1%的样本是错误标记的,这并不会改变模型的性能[40].

图4。训练结果的多维标度图。该分析的目的是发现有意义的潜在维度,例如,1和2,可以解释被调查对象之间观察到的相似性(距离)。MDS图的轴不表示实际大小,因此被标记为没有单位的维1和维2。红色圆点和蓝色三角形表示阳性和阴性样本,被清晰地分开。“假阳性”在图中圈出来。图表回顾显示,这些都是真正诊断为糖尿病的记录。
查看此图

糖尿病鉴别变量

在最终模型中总共保留了100个DM鉴别特征,包括人口统计学(n=2)、危险因素(n=5)、临床病史(n=1)、药物(n=20)和nlp提取的临床术语(n=72;多媒体附件1).图5显示在模型中按重要性排序的前30个特征。每个特征的重要性是根据随机排列变量值后算法精度下降的平均标准偏差来评定的。更高的平均精度降低(变量分裂产生的节点杂质;具体来说,节点杂质是通过基尼指数来衡量的)对应的特征的重要性更大[40].在前30个特征中,“糖尿病”和“2型”是前2个特征,直接表明糖尿病,其次是年龄,这是糖尿病的重要预测因素[4142,然后是一线抗糖尿病药物“二甲双胍”。其余重要的鉴别特征是高血压、吸烟、饮酒史、BMI和“肥胖”。

图5。基于糖尿病自然语言处理(NLP)模型的前30个临床变量列表。BMI:身体质量指数。
查看此图

患者分类截止点的确定

评估基于决策树的分类评分,以确定允许最大敏感性≥90% PPV的截止点(多媒体附件2).有了这个截止值(设置为。618),连续分类评分输出被转换为二元决策,以识别真正的DM病例。

回顾性盲测

图6在回顾性盲测中,我们基于nlp的分析获得了95.4%(62/65)的PPV, 62.0%(62/100)的敏感性,99.4%(497/500)的特异性和92.9%(497/535)的NPV。盲测结果表明,可以利用从某些医院设施获得的知识来进行其他医院设施的预测(例如,学习迁移)[43].

图6。所提出的案例查找算法的性能评估。上图:盲测和准金标准数据集的列联表。中:基于回顾性盲检子队列和前瞻性队列验证的阳性预测值(PPV)、阴性预测值(NPV)、敏感性和特异性。下:在总人群中的前瞻性病例发现结果。DM:糖尿病;GS:金本位;ICD-9-CM:国际疾病分类,第九次修订,临床修订;NLP:自然语言处理。
查看此图

未来的验证

通过对金标准数据集的图表回顾,探索了该算法的预期性能,该数据集由随机选择的200名糖尿病患者和1000名非糖尿病患者组成的非编码亚队列(图2).PPV为90.1%(136/151),符合回顾性盲检PPV的95% CI(87.3% ~ 98.4%)。敏感性为68.0%(136/200)。特异性为98.50%(985/1000),净现值为93.90% (985/1049),ROC曲线下面积为。929 (图6).

该算法用于在整个前瞻性队列中实时发现糖尿病病例。在编码糖尿病诊断中,共有64168例糖尿病患者被识别出来,而我们基于nlp的算法又识别出了5756例患者,在研究期间,糖尿病患者总数增加了8.97%(5756/ 64168)。为了进一步探索病例发现的准确性,我们从5756个样本中随机选择了200个样本。人工复查显示,200份样本中有183例糖尿病患者和17例正常患者,准确率为91.5%(183/200)。该准确度在校准阶段高于预定PPV(90%),在回顾性盲测PPV的95% CI(87.3% ~ 98.4%)内。性能的一致性表明,使用在较小样本上获得的结果来反映算法在大总体上的性能是合理的。

时间比较

评估ICD代码识别出患者首次糖尿病诊断的时间点,并与NLP病例查找算法识别出DM的时间点进行比较。在通过两种方法识别出的21,720例DM患者中,6616例(6616/21,720,30.46%)在医疗记录中记录DM ICD代码之前通过基于nlp的算法识别出来(平均时差= 48天)。特别是19.86%(1314/6616)的患者在通过糖尿病ICD编码(多媒体).


主要研究结果

据我们所知,这是第一次在线部署基于nlp的糖尿病病例查找方法,同时使用全州EMR数据库中患者的结构化(如编码诊断)和非结构化(自由文本)临床历史。与我们的假设一致,在1年的时间内(2013年7月1日至2014年6月30日),我们的算法确定了5756例额外的DM患者(在DM患者总数中增加了8.97%),如果仅应用基于代码的病例查找,这些患者就没有被诊断出来。我们的发现表明,与现有的基于icd的方法相比,使用基于nlp的方法的假阴性比例有所下降(P< . 01)。我们的NLP文本搜索算法正确地识别了许多被基于编码的病例发现错误分类为非糖尿病患者的糖尿病患者,从而更全面地确定了糖尿病诊断。

诊断为糖尿病的患者可能没有与糖尿病诊断代码相关联,这有几个原因。在我们确定的非典型性糖尿病患者中,30%的糖尿病被记录为继发性、出院或其他类型的诊断,63%的患者在临床记录中有糖尿病史。在这些病例中丢失诊断代码的一个可能原因可能是,如果患者因更急性或危及生命的临床情况而入院,在进行ICD编码时,有关DM的信息被忽略了。因此,迫切需要在缅因州的医院和其他卫生保健机构加强当前的ICD编码实践,以确保在患者医疗记录中记录的所有糖尿病诊断都被编码。

优势与局限

尽管一些标准化的编码系统(例如,ICD,逻辑观察标识符名称和代码)已被用于记录与每个患者遭遇相关的诊断、程序、实验室测试和药物,但与患者临床病史相关的大量信息也以emr中非结构化的自由文本形式提供。除了直接描述糖尿病的术语(例如,“糖尿病”,“1型”,“糖尿病”),我们的NLP算法还能够根据临床记录中有关危险因素和药物的信息获得更完整的病史。一系列传统糖尿病风险指标(如年龄、吸烟、BMI和血压)[4244-46]、新出现的风险标志(如超重)[47]和抗糖尿病药物(如二甲双胍)被鉴定并用于提高糖尿病病例的检出率。特别是二甲双胍,治疗2型糖尿病的一线药物,似乎是我们特征选择过程中最重要的药物。这些发现表明,我们的算法有效地结合了各种临床相关特征,导致缅因州人群中糖尿病病例发现的显著改善。

我们的NLP病例查找算法的另一个优点是能够在分配ICD-9-CM代码之前找到未编码的DM病例。所提出的DM案例查找方法采用NLP算法与ICD-9-CM代码并行。在前瞻性研究中,确定了69924例糖尿病患者。在这69,924例患者中,21,720例患者能够通过两种方法进行识别。也就是说,有21,720名糖尿病患者的临床记录表明他们患有糖尿病。其中30.46%(6616/21,720)的患者在糖尿病诊断代码分配之前的一次接触中有这样的临床记录,而69.54%(15,104/21,720)的患者在同一次接触中有这样的临床记录,同时给出了糖尿病诊断代码。与单独使用ICD-9-CM编码相比,NLP算法能够识别30.46%(6616/ 21720)早期遇到的DM患者,平均时间差为48天。更重要的是,这些患者中有相当一部分(1314/6616,19.86%)是在糖尿病诊断代码记录前3个月或更长时间被发现的。对于这些患者,这段时间足以开始积极的生活方式干预,具有长期影响,以延缓进展和预防糖尿病并发症[48].因此,这种早期检测能力显然是我们的DM NLP算法的一个优势,可以选择这些高危个体,及时开始有针对性的预防、护理和治疗。

我们注意到我们的研究存在一些局限性。首先,虽然统计学习的使用提高了案例查找算法的性能,但不可避免地存在误分类错误。有几个DM病例位于“边界”附近,也就是说,算法区分DM病例和正常样本的截止点。输出接近算法的截止点的DM病例是那些易受误分类错误影响的病例,从而危及假阴性。边缘型糖尿病代表的是糖尿病特征谱不完全的糖尿病患者,即无DM相关危险因素或用药记录,但有DM诊断的临床记录,或无DM相关危险因素或临床记录,但有DM用药记录。这种不完整的档案可能会误导算法。其次,“金标准”数据集相对较小的样本量引入了一种可能性,即一些相对罕见的dm临床表型(临床医生以非标准的方式记录糖尿病)可能没有在模型训练中被考虑在内。第三,我们无法确定NLP算法发现的糖尿病患者是新诊断的糖尿病患者还是长期诊断的糖尿病患者。第四,我们承认我们的病例查找方法的局限性,它取决于医生对疾病的诊断和临床记录的文件质量。最后,在缅因州的患者数据上开发了该模型。 Extra risk factors such as sociodemographic factors may need to be considered for adjustment purpose when this learning is transferred and applied to other geographic regions.

一个基于网络的识别工具

我们的NLP算法已经通过集成到缅因州HIE工作流程中在线部署,目前允许在全州范围内实时识别非编码糖尿病患者。它为州HealthInfoNet网络中的医生、医院和其他提供者提供了有效的在线实用程序,以实现对其所在地区糖尿病负担的更完整评估。将DM病例查找算法与现有的医疗保健系统结合起来,可以最好地利用EMRs中可用的信息。加上我们之前成功集成的其他NLP病例查找算法,包括充血性心力衰竭[14],扩大这种新方法的应用,以提高缅因州和美国其他州以及其他国家的其他疾病的病例发现,有很大的潜力。

结论

我们基于nlp的DM病例查找算法是在缅因州基于人口的数据集上开发和验证的。结果有力地支持了我们的假设,即基于nlp的算法可以识别更多的糖尿病患者,以补充现有的基于icd -code的病例查找方法。将我们的糖尿病病例查找算法在线实时集成到缅因州HIE工作流程中,可以增强糖尿病病例的检测,并促进对糖尿病患者进行及时的有针对性的管理和护理。从患者的角度来看,缅因州的许多糖尿病患者没有从ICD编码诊断中识别出来,将受益于我们提供的信息,能够主动寻求治疗,并计划他们的个人策略,以监测和控制他们的糖尿病状况。在这方面,我们的在线实时糖尿病病例查找工具不仅使所有利益相关者受益,包括缅因州医疗保健系统的支付者、提供者和决策者,而且还可以作为一个基于web的示范项目,用于未来应用,以改善糖尿病病例查找,以便在其他州和国家进行针对性护理和治疗,为减轻糖尿病负担做出贡献。

作者的贡献

LZ、YW、SH、BJ、ADN、MJB、DJF、TF、KZ、XZ、YML、CZ、DD、YY、GZ、DBM有助于数据的分析和解释;DSC和STA有助于数据收集;AYS、FS、KGS、EW和XBL对作品的构思或设计做出了贡献。LZ、YW、SH起草稿件;LZ、YW、SH、BJ、ADN、MJB、DJF、TF、KZ、XZ、YML、CZ、DD、YY、GZ、DBM、DSC、STA、AYS、FS、KGS、EW、XBL等对稿件进行了批判性修改。

利益冲突

作者有以下利益:KGS、EW和XBL是HBI Solutions, Inc的联合创始人和股权持有人,该公司目前正在为医疗保健组织开发预测分析解决方案。来自加州斯坦福大学医学院、浙江大学医学院和管理学院、平津医院心脏中心、清华大学电气工程学院的儿科、外科和心胸外科,LZ、YW、SH、AYS、KZ、XZ、YML、YY、GZ、DBM、KGS和XBL与HBI Solutions, Inc.进行了此项研究,作为个人外部咨询安排的一部分。研究和研究结果与这些机构没有任何关系。这并不会改变作者对共享数据和材料的所有期刊政策的遵守,如作者指南中在线详细说明的那样。

多媒体附件1

最终模型使用的100个判别特征以及特征重要性的列表,以及初始建模过程使用的742个自然语言处理术语的列表。

PDF档案(adobepdf档案),55KB

多媒体附件2

确定主题分类概率的截止点。顶部:受试者工作特征曲线与患病率和90%阳性预测值确定的直线相交于截断点。底部:它们的交集(虚线矩形)被放大,并由圆表示。

PDF档案(adobepdf档案),73KB

多媒体

以自然语言处理为基础的糖尿病识别与编码诊断之间的时间间隔来分布患者。

PDF档案(adobepdf档案),50KB

  1. Murray CJ, Vos T, Lozano R, Naghavi M, Flaxman AD, Michaud C,等。1990-2010年21个地区291种疾病和损伤的残疾调整生命年:2010年全球疾病负担研究的系统分析。柳叶刀2012年12月15日;380(9859):2197-2223。[CrossRef] [Medline
  2. Dörhöfer L, Lammert A, Krane V, Gorski M, Banas B, Wanner C,等。DIACORE(糖尿病队列)的研究设计- 2型糖尿病患者的队列研究。BMC Med Genet 2013;14:25 [免费全文] [CrossRef] [Medline
  3. 疾病控制和预防中心。佐治亚州亚特兰大:美国卫生与公众服务部;2011.全国糖尿病概况介绍:2011年美国糖尿病和前驱糖尿病的全国估计和一般信息https://www.cdc.gov/diabetes/pubs/pdf/ndfs_2011.pdf[访问了2016-07-03][WebCite缓存
  4. 疾病控制和预防中心。佐治亚州亚特兰大:美国卫生与公众服务部;2014.国家糖尿病统计报告:美国糖尿病及其负担的估计,2014https://www.cdc.gov/diabetes/pubs/statsreport14/national-diabetes-report-web.pdf[已访问2016-07-04][WebCite缓存
  5. Nathan DM, Cleary PA, Backlund JC, Genuth SM, Lachin JM, Orchard TJ,糖尿病控制并发症试验/糖尿病干预并发症流行病学(DCCT/EDIC)研究研究组。1型糖尿病患者的强化糖尿病治疗与心血管疾病英国医学杂志2005 12月22日;353(25):2643-2653 [免费全文] [CrossRef] [Medline
  6. 龚强,葛雷格,王娟,安勇,张鹏,杨伟,等。糖尿病相关微血管并发症糖耐量受损的6年生活方式干预随机试验的长期影响:中国大庆糖尿病预防结局研究糖尿病杂志2011 Feb;54(2):300-307。[CrossRef] [Medline
  7. 糖尿病控制与微血管并发症发展的关系。糖尿病杂志1978 Sep;15(3):143-152。[Medline
  8. 李国强,李国强,李国强。糖尿病微血管病变与代谢控制的关系。糖尿病1977 Aug;26(8):760-769。[Medline
  9. 魏伟,Leibson CL, Ransom JE, Kho AN, Chute CG。纵向数据的缺乏限制了高通量临床表型鉴定2型糖尿病受试者的准确性。国际医学杂志2013 april;82(4):239-247 [免费全文] [CrossRef] [Medline
  10. 霍哈尔B, jeette N, Metcalfe A, Cunningham CT, Quan H, Kaplan GG,等。系统回顾成人人群中icd -9编码和icd -10编码数据中糖尿病的有效病例定义。BMJ公开赛2016年8月;6(8):e009952 [免费全文] [CrossRef] [Medline
  11. Vassar M, Holzmann M.回顾性图表回顾:重要的方法学考虑。中华医学会医疗卫生研究所2013;10:12 [免费全文] [CrossRef] [Medline
  12. Shine D, Sundaram P, Torres DM, Johnstone B, Jaeger J, Sanguliano B.计算机成本数据能否替代图表审查?中华卫生素质杂志2002;24(6):26-33。[Medline
  13. Singh B, Singh A, Ahmed A, Wilson GA, Pickering BW, Herasevich V,等。推导和验证自动电子搜索策略,以从电子医疗记录中提取查尔森合并症。Mayo clinic Proc 2012 Sep;87(9):817-824 [免费全文] [CrossRef] [Medline
  14. 王勇,罗俊,郝松,徐辉,申艾,金波,等。基于NLP的充血性心力衰竭病例发现:全州电子病历的前瞻性分析。国际医学杂志2015年12月;84(12):1039-1047。[CrossRef] [Medline
  15. Pakhomov SV, Buntrock J,降落伞CG。充血性心力衰竭患者的前瞻性招募使用一个特别的二元分类器。J Biomed Inform 2005 Apr;38(2):145-153 [免费全文] [CrossRef] [Medline
  16. 张志强,张志强,张志强,等。利用自然语言处理提高人工图表提取效率的研究:以乳腺癌复发为例。Am J流行病2014年3月15日;179(6):749-758 [免费全文] [CrossRef] [Medline
  17. Krumholz嗯。医学大数据和新知识:学习型卫生系统所需的思维、培训和工具。卫生Aff (Millwood) 2014年7月;33(7):1163-1170。[CrossRef] [Medline
  18. 雅各农协。在互操作性的道路上,公共和私营组织致力于连接医疗保健数据。中国医学杂志2015年9月;314(12):1213-1215。[CrossRef] [Medline
  19. Ng K, Ghoting A, Steinhubl SR, Stewart WF, Malin B, Sun J. PARAMO:使用电子健康记录的医疗分析研究的并行预测建模平台。J Biomed Inform 2014 Apr;48:16 -170 [免费全文] [CrossRef] [Medline
  20. Forrest CB, Margolis PA, Bailey LC, Marsolo K, Del Beccaro MA, Finkelstein JA,等。PEDSnet:全国儿科学习卫生系统。中国医学信息杂志2014;21(4):602-606 [免费全文] [CrossRef] [Medline
  21. Sittig DF, Wright A.什么使电子病历“开放”或可互操作?美国医学信息学会2015年9月22日(5):1099-1101 [免费全文] [CrossRef] [Medline
  22. Hinfonet。HealthInfoNet 2016网址:http://hinfonet.org/[访问时间:2016-09-30][WebCite缓存
  23. 郝年代,金老板,胫骨AY,赵Y,朱C、Z, et al。出院后30天急诊科复查的风险预测:一项前瞻性研究。PLoS One 2014 11月;9(11):e112944 [免费全文] [CrossRef] [Medline
  24. Holt TA, Gunnarsson CL, Cload PA, Ross SD。美国未确诊糖尿病的识别和糖尿病护理质量:1150万份初级保健电子记录的横断面研究CMAJ公开赛2014年10月;2(4):E248-E255 [免费全文] [CrossRef] [Medline
  25. Schulze MB, Hoffmann K, Boeing H, Linseisen J, Rohrmann S, Möhlig M,等。基于人体测量、饮食和生活方式因素的准确风险评分,以预测2型糖尿病的发展。糖尿病护理2007年3月30日(3):510-515。[CrossRef] [Medline
  26. 刘敏,潘超,金敏。中国糖尿病风险评分用于筛查未确诊糖尿病和糖耐量异常。糖尿病科技杂志2011年5月;13(5):501-507。[CrossRef] [Medline
  27. 柯林斯GS,马利特S,奥玛,于敏。开发2型糖尿病风险预测模型:方法论和报告的系统回顾。BMC Med 2011 Sep;9:103 [免费全文] [CrossRef] [Medline
  28. 李文杰,李志强,李志强,等。预测糖尿病:临床、生物学和遗传学方法:来自胰岛素抵抗综合征(DESIR)流行病学研究的数据。糖尿病护理2008 Oct;31(10):2056-2061 [免费全文] [CrossRef] [Medline
  29. eekplakorn W, Bunnag P, Woodward M, Sritara P, Cheepudomwit S, Yamwong S,等。预测泰国人群糖尿病发生的风险评分。糖尿病护理2006 Aug;29(8):1872-1877。[CrossRef] [Medline
  30. 金泰,哈迪克,柯南。护理问题的术语间映射。J Biomed Inform 2014年6月;49:13 -220 [免费全文] [CrossRef] [Medline
  31. Nadkarni总理,Darer JA。将现有临床内容从ICD-9迁移到SNOMED。中国医学信息杂志2010;17(5):602-607 [免费全文] [CrossRef] [Medline
  32. 以至于CE。医学标题(MeSH)。医学期刊2000 7月;88(3):265-266 [免费全文] [Medline
  33. R开发核心团队。R:用于统计计算的语言和环境。奥地利维也纳:R统计计算基金会;2015.
  34. 世卫组织专家磋商会。亚洲人口适宜的体重指数及其对政策和干预策略的影响。《柳叶刀》2004年1月10日;363(9403):157-163。[CrossRef] [Medline
  35. 查普曼WW, Hillert D, Velupillai S, Kvist M, Skeppstedt M, Chapman BE,等。为多种语言扩展NegEx词典。种马健康技术通报2013;192:677-681 [免费全文] [Medline
  36. English-for-students。2015年家庭词汇表http://www.english-for-students.com/Family-Vocabulary.html[访问2016-07-05][WebCite缓存
  37. Doan S, Maehara CK, Chaparro JD, Lu S, Liu R, Graham A,儿科急诊医学川崎病研究组。建立一个自然语言处理工具,从急诊科记录中识别临床高度怀疑川崎病的患者。2016年5月;23(5):628-636。[CrossRef] [Medline
  38. 随机森林。机器学习2001;45(1):5-32。[CrossRef
  39. 爱TJ, Cai T, Karlson EW。使用自然语言处理在电子病历中验证银屑病关节炎诊断。Semin Arthritis Rheum 2011 Apr;40(5):413-420 [免费全文] [CrossRef] [Medline
  40. Stat.berkeley。随机森林网址:http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm[已访问2016-10-01][WebCite缓存
  41. Nayak BS, Sobrian A, Latiff K, Pope D, Rampersad A, Lourenço K,等。年龄、性别、种族、家族史、肥胖和高血压与特立尼达2型糖尿病的关系。糖尿病代谢综合征2014;8(2):91-95。[CrossRef] [Medline
  42. 丁丁,钟S,贾拉鲁丁B,科米诺E,鲍曼AE。3年随访中2型糖尿病发病的危险因素:来自澳大利亚大样本的结果糖尿病临床研究2015年5月;108(2):306-315。[CrossRef] [Medline
  43. Wiens J, Guttag J, Horvitz E.转移学习的研究:利用多家医院的数据增强医院特异性预测。中国医学信息杂志2014;21(4):699-706 [免费全文] [CrossRef] [Medline
  44. 体重指数、糖尿病、高血压和短期死亡率:一项基于人群的观察性研究,2000-2006。中国医学杂志2012;25(4):422-431 [免费全文] [CrossRef] [Medline
  45. 康利夫,林克,帕拉苏拉曼,波拉克。高血压和肥胖对美国糖尿病患者总医疗保健支出的影响应用经济学快报2013年5月;20(7):649-652。[CrossRef
  46. 郭志刚,郭志刚,张志刚,张志刚,张志刚,等。最佳BMI指数为亚裔美国人筛查2型糖尿病提供了依据。糖尿病护理2015年5月;38(5):814-820 [免费全文] [CrossRef] [Medline
  47. 美国糖尿病协会。糖尿病的分类和诊断。秒。2。《糖尿病医疗护理标准-2016》。糖尿病护理2016年1月39日(增刊1):S13-S22。[CrossRef] [Medline
  48. Schellenberg ES, Dryden DM, Vandermeer B, Ha C, Korownyk C. 2型糖尿病患者和有风险患者的生活方式干预:系统回顾和荟萃分析安实习医学2013年10月15日;159(8):543-551。[CrossRef] [Medline


体重指数:身体质量指数
糖尿病:糖尿病
EMR:电子病历
催促:卫生信息交换
ICD:《国际疾病分类》
ICD-9-CM:国际疾病分类,第九版,临床修订
MDS:多维标度
网:医学学科标题
NLM:美国国家医学图书馆
NLP:自然语言处理
净现值:负预测值
PPV:阳性预测值
中华民国:接收机工作特性
snom CT:医学系统命名-临床术语


G·艾森巴赫(G Eysenbach)编辑;提交07.07.16;F Pourmalek, J Harrison同行评议;作者评论02.08.16;修订本于16年10月1日收到;接受12.10.16;发表11.11.16

版权

Shiying©Le郑曰Wang,安德鲁·Y Shin博金,安D非政府组织,麦地那Jackson-Browne,丹尼尔·J樵夫Tianyun傅,林嘉欣,鑫周,朱审理,多萝西戴,帮派郑Yunxian Yu徼Li脱B McElhinney,德沃尔年代斑鸠,肖恩T阿尔弗雷德·弗兰克·斯登,卡尔·G西尔维斯特、埃里克•扩大雪峰布鲁斯凌。最初发表于JMIR医学信息学(http://medinform.www.mybigtv.com), 2016年11月11日。

这是一篇开放获取的文章,根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,http://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map