医学互联网研究杂志-基于从电子病历中学习的嵌入表示改进急性心肌梗死住院患者预后预测的性能:开发与验证研究gydF4y2Ba

原始论文gydF4y2Ba

Yanqun黄gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba,废话gydF4y2Ba ；gydF4y2Ba
Zhimin郑gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba,废话gydF4y2Ba ；gydF4y2Ba
Moxuan马gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba女士gydF4y2Ba ；gydF4y2Ba
欣欣gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba女士gydF4y2Ba ；gydF4y2Ba
宏磊刘gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
小路范gydF4y2Ba^3.gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
局域网魏gydF4y2Ba^3.gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
回族陈gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba博士gydF4y2Ba

^1gydF4y2Ba首都医科大学生物医学工程学院，北京gydF4y2Ba

^2gydF4y2Ba首都医科大学生物力学临床应用基础研究北京市重点实验室，北京gydF4y2Ba

^3.gydF4y2Ba首都医科大学宣武医院信息中心，北京gydF4y2Ba

通讯作者:gydF4y2Ba

陈慧博士gydF4y2Ba

生物医学工程学院gydF4y2Ba

首都医科大学gydF4y2Ba

丰台区右安门西头条10号gydF4y2Ba

北京,100069gydF4y2Ba

中国gydF4y2Ba

电话:86 01083911545gydF4y2Ba

电子邮件:gydF4y2Bachenhui@ccmu.edu.cngydF4y2Ba

背景:gydF4y2Ba电子病历(emr)的广泛二次使用促进了医疗保健质量的提高。表征学习能够自动地从EMR数据中提取隐藏信息，已受到越来越多的关注。gydF4y2Ba

摘要目的:gydF4y2Ba我们旨在提出具有更多特征关联和任务特异性特征重要性的患者表征，以提高急性心肌梗死(AMI)住院患者的预后预测性能。gydF4y2Ba

方法:gydF4y2Ba医学概念，包括患者的年龄、性别、疾病诊断、实验室测试、结构化放射特征、程序和药物，首先使用改进的跳过图算法嵌入到实值向量中，其中上下文窗口中的概念通过关联规则置信度测量的特征关联强度来选择。然后，将每个患者表示为由任务特定特征重要性加权的特征嵌入的总和，用于从全局和局部角度进行预测模型预测。最后，我们将提出的患者表征分别应用于3010例和1671例AMI住院患者的死亡风险预测，并在受试者工作特征曲线下面积(AUROC)、精确召回率曲线下面积(AUPRC)和f1评分方面与几种参考表征方法进行了比较。gydF4y2Ba

结果:gydF4y2Ba与参考方法相比，本文所提出的基于嵌入的表示方法在2个数据集上的预测性能均优于参考方法，公共和私有数据集的平均auroc分别为0.878和0.973,auprc分别为0.220和0.505,f1分数分别为0.376和0.674，而参考方法中公共和私有数据集的auroc、auprc和f1分数最高分别为0.847和0.939,0.196和0.283,0.344和0.361。特征的重要性集成在患者的代表性反映的特征，也至关重要的预测任务和临床实践。gydF4y2Ba

结论:gydF4y2Ba特征关联和特征重要性的引入促进了有效的患者表示，并有助于预测性能的改进和模型解释。gydF4y2Ba

[J] .医学与互联网学报，2010;24(8):871 - 871gydF4y2Ba

doi: 10.2196/37486gydF4y2Ba

关键字gydF4y2Ba

表示学习gydF4y2Ba；gydF4y2Ba skip-gramgydF4y2Ba；gydF4y2Ba 特征关联强度gydF4y2Ba；gydF4y2Ba 功能的重要性gydF4y2Ba；gydF4y2Ba 死亡风险预测gydF4y2Ba；gydF4y2Ba 急性心肌梗死gydF4y2Ba

电子医疗记录(emr)包含多种异构信息，如人口统计数据、疾病诊断、实验室测试、放射检查结果、检查和程序以及药物。EMR数据不仅可以反映患者的健康状况，记录治疗轨迹，还可以帮助医生做出临床决策[gydF4y2Ba1gydF4y2Ba-gydF4y2Ba6gydF4y2Ba]，提高诊疗效率[gydF4y2Ba1gydF4y2Ba，gydF4y2Ba7gydF4y2Ba，gydF4y2Ba8gydF4y2Ba]。二次使用电子病历数据的最普遍和最实际的任务之一是建立模型来预测疾病状况[gydF4y2Ba8gydF4y2Ba-gydF4y2Ba10gydF4y2Ba]和治疗结果[gydF4y2Ba11gydF4y2Ba-gydF4y2Ba17gydF4y2Ba，使用机器学习算法。gydF4y2Ba

然而，EMR数据的高维性、稀疏性和异质性[gydF4y2Ba12gydF4y2Ba，gydF4y2Ba18gydF4y2Ba为直接将原始数据输入到基于机器学习的预测模型中带来了许多障碍。一些人工和数据驱动的特征工程方法[gydF4y2Ba15gydF4y2Ba，gydF4y2Ba19gydF4y2Ba]，虽然费时费力，但它被用来选择重要的特征或提取有用的信息，用于预测任务。此外，预测模型的性能在很大程度上依赖于数据的表示。据报道，有效的表示方法可以使下游建模更简单、更灵活，并大大提高预测性能[gydF4y2Ba18gydF4y2Ba，gydF4y2Ba20.gydF4y2Ba]。通过将原始特征转换为紧凑的向量，表示学习可以在构建预测模型时更容易自动提取有用的信息[gydF4y2Ba16gydF4y2Ba，gydF4y2Ba21gydF4y2Ba，gydF4y2Ba22gydF4y2Ba]。一种广泛使用的EMR数据表示方法是skip-gram算法[gydF4y2Ba23gydF4y2Ba]，这是一种分布式嵌入方法，将患者记录视为句子，将医学概念视为单词。skip-gram算法中一个不可避免的问题是，与句子中的单词相反，患者记录中的医学概念没有自然顺序，因此很难学习具有潜在关联的概念的有意义表示。这个问题的一个解决方案是随机洗牌记录中的概念来学习概念嵌入[gydF4y2Ba12gydF4y2Ba，gydF4y2Ba24gydF4y2Ba-gydF4y2Ba26gydF4y2Ba]。它可以在一定程度上减少医学概念的无序属性对算法的影响，但仍然没有考虑到这些概念之间的关联。gydF4y2Ba

急性心肌梗死(AMI)是一种急性缺血性心脏病，是导致死亡的第二大原因。每6例死亡中就有1例是由缺血性心脏病引起的，其中AMI占死亡的大多数[gydF4y2Ba27gydF4y2Ba，gydF4y2Ba28gydF4y2Ba]。AMI患者死亡风险预测在临床工作中起着至关重要的作用，可以帮助医生识别潜在的临床因素，根据患者的不良健康状况及时预警采取早期干预措施，减少相关医疗费用的繁重支出。因此，研究人员[gydF4y2Ba19gydF4y2Ba，gydF4y2Ba29gydF4y2Ba-gydF4y2Ba31gydF4y2Ba]专注于为AMI患者的预后预测建立机器学习模型，其中大多数使用特定的临床特征，如实验室检测结果(如白蛋白)、合并症(如糖尿病)和人口统计数据(如性别)。gydF4y2Ba

在这项研究中，我们旨在将从EMR数据中提取的各种结构化特征表示为固定长度的嵌入向量，然后用于提高AMI患者死亡风险预测模型的性能。具体来说，我们将关联强度引入到skip-gram算法中，以学习更多信息的特征表示。我们还介绍了Shapley加性解释(SHAP) [gydF4y2Ba32gydF4y2Ba技术，以促进在患者层面的表示，并提高预测模型的可解释性。我们提出的表征学习框架及其应用的概述见gydF4y2Ba图1gydF4y2Ba。gydF4y2Ba

图1所示。用于患者死亡风险预测的表征学习方法综述。首先，通过使用自适应上下文窗口的skip-gram算法学习特征表示。然后，根据特征重要性对特征表示进行加权，构建患者表征。最后，将提出的患者表征应用于急性心肌梗死住院患者的公共数据集和私人数据集的死亡风险预测，并与参考方法进行比较。gydF4y2Ba

基于skip - gram的患者表示gydF4y2Ba

在概念、特征和患者三个层次上分层学习表征。在概念层面，我们采用了改进的skip-gram算法[gydF4y2Ba23gydF4y2Ba将概念表示为嵌入向量。在自然语言处理领域，skip-gram的基本思想是使目标词和上下文词在预定义的上下文窗口中出现的概率最大化，使出现在同一上下文窗口中的词在嵌入空间中更接近。与句子中有自然顺序的单词不同，医学概念在某一住院病人的病历中出现了无序。这使得很难确定包含目标概念相关概念的上下文窗口，特别是当记录中的概念数量远远大于上下文窗口的大小时。因此，对于记录中的概念，我们使用其与同一记录中的候选概念的关联强度来识别相关概念。关联强度定义为一个候选概念作为唯一前件(或后件)的关联规则的置信度(公式1)。gydF4y2Ba

Confidence (C1, C2) = |C1∩C2| / |C1|gydF4y2Ba（1)gydF4y2Ba

其中，C1和C2分别是关联规则C1→C2的前置和后置概念，|C1|和|C1∩C2|分别是包含C1和同时包含C1和C2的病历数。信心越大，这两个概念之间的联系就越强。具有前N个最高置信度的关联规则中的先行(或后续)概念被包含在目标概念的上下文窗口中。我们称之为情境概念的选择方案gydF4y2Baantecedent-basedgydF4y2Ba(或gydF4y2Baconsequent-basedgydF4y2Ba)嵌入的。gydF4y2Ba图2gydF4y2Ba提供上下文概念的基于结果的选择方案的示例。gydF4y2Ba

图2。使用关联强度的跳跃图算法的上下文概念选择。所有记录由10个概念(C1、C2、......和C10)组成。在置信度矩阵中，元素Cij为关联规则的置信度，Cj为前因式，Ci为后因式。对于具有6个概念(C1, C3, C6, C7, C8和C10)的患者1，从剩余的5个候选概念中选择C1的4个概念上下文窗口中的概念，其置信度为0.66(前件，C10)， 0.62 (C3)， 0.55 (C6)， 0.53 (C8)和0.46 (C7)。因此，我们选择C10、C3、C6和C8来构建C1的上下文窗口。gydF4y2Ba

此外，为了降低大量概念的高维度和稀疏度，在尽可能保留临床信息的同时，我们根据国际疾病分类第10版(ICD-10)代码和国际疾病分类第9版(ICD-9)代码，在临床专家的帮助下，将疾病诊断和程序的概念聚合为几个具有临床意义的特征组。例如，将1型糖尿病和2型糖尿病的疾病诊断归为糖尿病特征组。将病历中同一特征组的所有概念嵌入向量的平均值作为该患者在特征层的表示。gydF4y2Ba

患者水平的表示是特征水平表示的加权和。在预测任务的指导下获得特征权重，表明患者表征中涉及的每个特征的重要性。在本研究中，我们使用SHAP值作为特征权重。SHAP框架是一种基于博弈论思想的机器学习解释技术。它用一个不同但简单的模型来近似训练好的预测模型，该模型可以很容易地以SHAP值的形式计算预测模型中每个特征的贡献，并进行加性特征归因来解释特征的组合[gydF4y2Ba32gydF4y2Ba]。正或负的SHAP值反映了对预测的积极或消极影响。然后将特征的重要性计算为所有样本的绝对SHAP值的平均值。gydF4y2Ba

实验与评价gydF4y2Ba

数据集和数据预处理gydF4y2Ba

在这项研究中，我们使用了一个公共数据集，即免费访问的重症监护数据库医学信息市场III (MIMIC-III)数据集[gydF4y2Ba33gydF4y2Ba])，以及用于实验的私人数据集。gydF4y2Ba

MIMIC-III数据集于2001年6月至2012年10月收集，涉及马萨诸塞州波士顿贝斯以色列女执事医疗中心重症监护病房的46,520名患者。它包括患者健康信息，如人口统计、生命体征、实验室测试结果、药物、程序、诊断代码和临床记录。信息丰富的MIMIC-III数据集广泛应用于一些医疗机器学习建模和算法评估，为研究人员建立模型和评估算法提供了强有力的数据支持[gydF4y2Ba14gydF4y2Ba，gydF4y2Ba18gydF4y2Ba]。gydF4y2Ba

私人数据集来源于2014年1月至2016年12月中国北京首都医科大学宣武医院三级医院的电子病历系统。患者特征包括住院和出院信息、人口统计数据、疾病诊断、实验室测试、检查和程序、药物以及胸部x光或彩色超声检查的放射学报告。gydF4y2Ba

我们分别从公共和私人数据集中提取了所有3010例和1671例AMI患者的记录。诊断AMI的ICD-9代码为410.01 ~ 410.91或ICD-10代码为I21、I22。公共和私人数据集中分别有254例(8.1%)和103例(6.2%)患者在医院死亡。gydF4y2Ba

我们保留了患者首次住院的数据来评估所提出的方法。两个数据集中都保留了人口统计数据(年龄和性别)和以下ami相关特征:至少95%的患者进行了ami相关的实验室检查项目，从放射学报告中提取了ami相关的放射学特征[gydF4y2Ba34gydF4y2Ba]， 7种常用药物，以及所有记录的疾病诊断和治疗过程。对于多次进行的实验室检查，只保留第一次检查(通常在入院时)的结果，这可以反映病人的健康状况和疾病的严重程度。gydF4y2Ba

skip-gram算法最初是在自然语言处理领域提出的，主要用于训练离散词或符号的嵌入。因此，为了使用skip-gram算法对结构化数据进行嵌入表示，所有患者特征都应该是分类的，其中每个离散值都被视为一个概念。例如，男性和女性是性别的两个概念。与可能保持不变的原始分类特征(如性别、疾病诊断、程序和药物)不同，连续变量年龄和实验室测试结果必须离散为两个或多个概念。年龄离散为2个概念(>60岁和≤60岁)。每个实验室检测结果参照临床标准离散为正常和异常2个概念。总共确定了3326个和1073个医学概念，并分别在公共和私人数据集中进一步汇总为104个和108个特征组(gydF4y2Ba表1gydF4y2Ba）.中列出了私有和公共数据集的所有特征组gydF4y2Ba多媒体附录1gydF4y2Ba和gydF4y2Ba多媒体附录2gydF4y2Ba,分别。gydF4y2Ba

表1。公共和私有数据集的概念和特性组。gydF4y2Ba

功能分类gydF4y2Ba	公共数据集gydF4y2Ba			私有数据集gydF4y2Ba			概念的例子gydF4y2Ba
	特征组(n=104)gydF4y2Ba	概念(n=3326)gydF4y2Ba	特征组(n=108)gydF4y2Ba		概念(n=1073)gydF4y2Ba
年龄gydF4y2Ba	1gydF4y2Ba	2gydF4y2Ba	1gydF4y2Ba		2gydF4y2Ba	>60年和≤60年gydF4y2Ba
性别gydF4y2Ba	1gydF4y2Ba	2gydF4y2Ba	1gydF4y2Ba		2gydF4y2Ba	男性和女性gydF4y2Ba
实验室测试gydF4y2Ba	19gydF4y2Ba	38gydF4y2Ba	40gydF4y2Ba		80gydF4y2Ba	血清甘油三酯异常，血清肌酐正常gydF4y2Ba
辐射特性gydF4y2Ba	34gydF4y2Ba	34gydF4y2Ba	36gydF4y2Ba		36gydF4y2Ba	心脏图像放大，肋膈角锐利gydF4y2Ba
疾病的诊断gydF4y2Ba	24gydF4y2Ba	2600gydF4y2Ba	15gydF4y2Ba		739gydF4y2Ba	高血压和脑干梗塞gydF4y2Ba
程序gydF4y2Ba	18gydF4y2Ba	643gydF4y2Ba	8gydF4y2Ba		207gydF4y2Ba	冠脉支架术和心包穿刺术gydF4y2Ba
药物gydF4y2Ba	7gydF4y2Ba	7gydF4y2Ba	7gydF4y2Ba		7gydF4y2Ba	血管紧张素转换酶抑制剂和肝素gydF4y2Ba

表现评估gydF4y2Ba

为了评估所提出的表示方法的有效性和优势，我们使用了另外两种简单的参考表示方法，即带学习的3层自编码器和不带学习的特征选择方法。gydF4y2Ba表2gydF4y2Ba描述建议的和引用的表示方法的细节。gydF4y2Ba

首先在概念层面对所提出的表示方法进行了评估。采用聚类分析将实验室测试概念聚类为2类进行定量评价。调整后的兰特指数[gydF4y2Ba35gydF4y2Ba](范围从−1到1)用于评估集群解决方案。ARI值越大，表明对不同真实标签(正常和异常)类别的区分能力越强。我们还应用t分布随机邻居算法将实验室测试概念的嵌入向量投影到二维空间中，以直观地观察嵌入的分布。gydF4y2Ba

然后使用逻辑回归模型在患者水平上对所提出的表示方法进行评估，并进行下游预测任务。预测结果为AMI患者住院期间的院内死亡。用于预测的输入是从所列的整个特征集中得到的患者表示gydF4y2Ba表1gydF4y2Ba。我们还提取了一个从整个特征集中排除药物和程序的无治疗特征子集，试图澄清所提出的患者表征的表现与表征中涉及的特征有关，并且治疗相关特征在预测患者结果方面发挥了至关重要的作用，即使它们已被表示为嵌入向量。gydF4y2Ba

表2。建议的和参考的表示方法的描述。gydF4y2Ba

表示方法gydF4y2Ba	描述gydF4y2Ba	代表性的例子gydF4y2Ba
混合物gydF4y2Ba	原始离散特征的离散化代码和连续特征的原始值的混合。用相应的实验室试验的平均值对实验室试验中的缺失值进行插值。gydF4y2Ba	(0,1,1,0,0, 1,12,8.5,3,8)gydF4y2Ba
离散化gydF4y2Ba	0-1向量，其中数字1表示患有特定疾病、手术、放射学特征和药物的患者，否则为0。年龄为1表示>60岁，0表示≤60岁，性别为1表示男性，0表示女性，实验室检测项目1表示异常，0表示正常。用相应的模型对实验室试验的缺失值进行插值。gydF4y2Ba	(0,1,1,0,0, 1,1, 1,0,1,1)对于具有11个离散化特征的患者gydF4y2Ba
DIS_FSgydF4y2Ba^{一个gydF4y2Ba}	在有和没有“死亡”标签的患者之间，离散化表征所选择的特征在统计学上是不同的。gydF4y2Ba	(0,0,1,0,0,0,1,0,1)对于具有8个选定特征的患者gydF4y2Ba
DIS_AEgydF4y2Ba^bgydF4y2Ba	以离散化向量作为输入和输出的三层自编码器的隐层向量。隐藏层的维度设置为64。gydF4y2Ba	(0.7,1.9,0.5，−1，−3.1,2.4)gydF4y2Ba
RAN_EM_AVEgydF4y2Ba^cgydF4y2Ba	采用随机选择的方法，对skip-gram算法学习到的特征嵌入向量进行平均，确定上下文窗口。gydF4y2Ba	(1.6，−0.5,1.1,0.1，−1.3,0.6)，用于具有6维嵌入向量的患者gydF4y2Ba
RAN_EM_WGTgydF4y2Ba^dgydF4y2Ba	采用随机选择的方法，将跳跃图算法学习到的特征嵌入向量加权和，确定上下文窗口。gydF4y2Ba	(1.2，−0.9,1.3,0.4，−1.9,1.0)，用于具有6维嵌入向量的患者gydF4y2Ba
ANT_EM_AVEgydF4y2Ba^egydF4y2Ba	以目标概念为前项的置信度，从skip-gram算法中学习到的特征嵌入向量的平均值。gydF4y2Ba	(0.9，−0.6,1.2,1.4，−1.9,0.6)，用于具有6维嵌入向量的患者gydF4y2Ba
ANT_EM_WGTgydF4y2Ba^fgydF4y2Ba	以目标概念为前项的置信度，对skip-gram算法学习到的特征嵌入向量进行加权和。gydF4y2Ba	(1.2，−1.5,1.1,0.1，−0.6,0.6)，用于具有6维嵌入向量的患者gydF4y2Ba
CON_EM_AVEgydF4y2Ba^ggydF4y2Ba	使用目标概念置信度作为结果，从skip-gram算法中学习到的特征嵌入向量的平均值。gydF4y2Ba	(1.6，−0.8,2.1,1.6，−1.4,1.5)，用于具有6维嵌入向量的患者gydF4y2Ba
CON_EM_WGTgydF4y2Ba^hgydF4y2Ba	以目标概念的置信度作为结果，对skip-gram算法学习到的特征嵌入向量进行加权和。gydF4y2Ba	(1.1，−0.4，−0.7,1.6，−0.3,0.9)gydF4y2Ba

^{一个gydF4y2Ba}DIS_FS:带有特征选择的离散化表示。gydF4y2Ba

^bgydF4y2BaDIS_AE:基于自动编码器表示的隐藏向量。gydF4y2Ba

^cgydF4y2BaRAN_EM_AVE:基于随机选择的嵌入表示的平均值。gydF4y2Ba

^dgydF4y2BaRAN_EM_WGT:基于随机选择的嵌入表示的加权和。gydF4y2Ba

^egydF4y2BaANT_EM_AVE:基于前词的嵌入表示的平均值。gydF4y2Ba

^fgydF4y2BaANT_EM_WGT:基于前词的嵌入表示的加权和。gydF4y2Ba

^ggydF4y2BaCON_EM_AVE:基于结果的嵌入表示的平均值。gydF4y2Ba

^hgydF4y2BaCON_EM_WGT:基于结果的嵌入表示的加权和。gydF4y2Ba

我们将样本按7:3的比例随机分成训练数据集和测试数据集。训练样本首先在离散化向量中表示，并用于构建预测模型，用于计算所有研究样本的进一步患者嵌入表示的所有特征的SHAP值。将训练样本和测试样本分别表示为嵌入向量，建立并验证基于逻辑回归的预测模型。受试者工作特征曲线下面积(AUROC)、精确召回率曲线下面积(AUPRC)和f1得分为主要评价指标。来自混淆矩阵的其他相关性能指标包括精度、召回率和准确性。为了消除skip-gram模型初始化和训练/测试数据集分割带来的性能偏差，我们进行了100次对比实验。在每一轮实验中，重复上述过程。报告每个性能评估指标的平均值及其95% CI。gydF4y2Ba

在skip-gram算法中，上下文窗口的大小和嵌入向量的维数是通过试错法确定的。我们在公共数据集上进行了一组预测实验，使用窗口大小为5、10、15和20的可能组合，向量维度为50、100、200和300。实验结果(见gydF4y2Ba多媒体附录3gydF4y2Ba)结果表明，窗口大小为10、向量维数为300的skip-gram算法具有最高的表示性能。因此，上下文窗口的大小和嵌入向量的维数分别设置为10和300。我们采用负采样机制(共20个负样本)来加速概念嵌入的训练过程。其他参数如下:学习率，0.001;迭代次数，50;批量大小，64。梯度计算方法为Adam。我们在Python 3.7和TensorFlow 2.0中实现了表示学习、SHAP值计算和预测建模。在患者表征步骤中，我们对逻辑回归模型使用了L2正则化惩罚和“线性”求解器，正则化强度的倒数设置为0.1。gydF4y2Ba

伦理批准gydF4y2Ba

本研究经首都医科大学宣武医院人类研究伦理委员会批准(批准文号:临床科研2020-070)。gydF4y2Ba

概念表征评价gydF4y2Ba

实验室测试概念的嵌入向量在平面空间中可视化(gydF4y2Ba图3gydF4y2Ba）.正常和异常化验的概念(gydF4y2Ba图3gydF4y2Ba)当它们被基于结果的嵌入(gydF4y2Ba图3gydF4y2BaA和3D)比基于前词的嵌入(gydF4y2Ba图3gydF4y2BaB和3E)和随机选择嵌入(gydF4y2Ba图3gydF4y2BaC和3F)。在实验室测试的聚类分析中，基于结果的嵌入比基于前词的嵌入(分别为0.112和0.149)和基于随机选择的嵌入(分别为0.043和0.028)获得了更高的ARIs(分别为0.317和0.520)。结果嵌入的聚类性能最好，说明结果嵌入可能包含更多的特征关联信息。gydF4y2Ba

图3。在skip-gram算法中使用上下文概念的不同选择方案的嵌入实验室测试的可视化(使用t分布随机邻居嵌入算法)。红色和绿色的圆点分别代表异常和正常的实验室检测结果。公共数据集的A到C:目标概念的上下文概念由关联规则中的后续概念(A)或先行概念(B)或随机选择的概念(C)组成。D到F是私有数据集上A到C的对应物。gydF4y2Ba

预测性能gydF4y2Ba

表3gydF4y2Ba和gydF4y2Ba多媒体附录4gydF4y2Ba分别列出在私有和公共数据集上使用各种表示方法的预测性能。所提出的基于结果的嵌入表示加权和(CON_EM_WGT)的预测性能最高，在公共数据集的所有特征、私有数据集的全部特征和无处理特征集上，auroc分别达到了0.878、0.973和0.926。当使用AUPRC和F1-score来衡量性能时，无论数据集和特征集如何，所提出的表示方法都优于所有其他方法。gydF4y2Ba

与参考表示相比，大多数基于嵌入的表示在两个数据集上都显示出性能的提高。在包含整个特征集的公共数据集上，6种嵌入的表示方法的平均AUROC、AUPRC和f1得分均大于未嵌入的4种参考方法(分别为0.855 vs 0.831、0.203 vs 0.185、0.354 vs 0.328)。此外，在基于skip-gram算法的6种表示中，基于关联强度的算法改进的表示比没有改进的表示取得了更好的性能。gydF4y2Ba

在将特征表示组装成患者表示时，组装方法和所涉及的特征是重要的。在具有整个特征集的公共数据集(AUROC, 0.863至0.878 vs 0.834至0.850)或具有整个特征集的私有数据集(0.967至0.973 vs 0.948至0.957)上，基于加权和思想的表示优于基于平均思想的表示。另一方面，与无治疗的特征集相比，在具有整个特征集的两个数据集上都实现了一贯优越的预测性能。gydF4y2Ba多媒体附录5gydF4y2Ba显示了患者表示方法在有和没有治疗特征集的公共和私人数据集上的平均预测性能。gydF4y2Ba

表3。患者表示方法在私有数据集上的预测性能。gydF4y2Ba

特征集和表示方法gydF4y2Ba				AUROCgydF4y2Ba^{一个gydF4y2Ba}，平均值(95% CI)gydF4y2Ba		AUPRCgydF4y2Ba^bgydF4y2Ba，平均值(95% CI)gydF4y2Ba		F1-score，平均值(95% CI)gydF4y2Ba
整个特性集gydF4y2Ba
	基于嵌入的表示方法gydF4y2Ba
		CON_EM_WGTgydF4y2Ba^cgydF4y2Ba	0.973 (0.951 - -0.995)gydF4y2Ba		0.505 (0.278 - -0.732)gydF4y2Ba		0.674 (0.468 - -0.880)gydF4y2Ba
		CON_EM_AVEgydF4y2Ba^dgydF4y2Ba	0.957 (0.933 - -0.981)gydF4y2Ba		0.312 (0.159 - -0.465)gydF4y2Ba		0.479 (0.301 - -0.657)gydF4y2Ba
		ANT_EM_WGTgydF4y2Ba^egydF4y2Ba	0.972 (0.948 - -0.996)gydF4y2Ba		0.489 (0.258 - -0.720)gydF4y2Ba		0.658 (0.442 - -0.874)gydF4y2Ba
		ANT_EM_AVEgydF4y2Ba^fgydF4y2Ba	0.953 (0.929 - -0.977)gydF4y2Ba		0.310 (0.185 - -0.435)gydF4y2Ba		0.478 (0.329 - -0.627)gydF4y2Ba
		RAN_EM_WGTgydF4y2Ba^ggydF4y2Ba	0.967 (0.942 - -0.992)gydF4y2Ba		0.486 (0.263 - -0.709)gydF4y2Ba		0.660 (0.460 - -0.860)gydF4y2Ba
		RAN_EM_AVEgydF4y2Ba^hgydF4y2Ba	0.948 (0.923 - -0.973)gydF4y2Ba		0.287 (0.167 - -0.407)gydF4y2Ba		0.451 (0.306 - -0.596)gydF4y2Ba
	引用表示方法gydF4y2Ba
		DIS_AEgydF4y2Ba^我gydF4y2Ba	0.884 (0.845 - -0.923)gydF4y2Ba		0.207 (0.144 - -0.270)gydF4y2Ba		0.361 (0.279 - -0.443)gydF4y2Ba
		DIS_FSgydF4y2Ba^jgydF4y2Ba	0.938 (0.907 - -0.969)gydF4y2Ba		0.283 (0.167 - -0.399)gydF4y2Ba		0.452 (0.309 - -0.595)gydF4y2Ba
		离散化gydF4y2Ba	0.939 (0.908 - -0.970)gydF4y2Ba		0.283 (0.165 - -0.401)gydF4y2Ba		0.454 (0.307 - -0.601)gydF4y2Ba
		混合物gydF4y2Ba	0.904 (0.849 - -0.959)gydF4y2Ba		0.251 (0.135 - -0.367)gydF4y2Ba		0.417 (0.264 - -0.570)gydF4y2Ba
无治疗功能集gydF4y2Ba
	基于嵌入的表示方法gydF4y2Ba
		CON_EM_WGTgydF4y2Ba	0.926 (0.883 - -0.969)gydF4y2Ba		0.282 (0.139 - -0.425)gydF4y2Ba		0.456 (0.282 - -0.630)gydF4y2Ba
		CON_EM_AVEgydF4y2Ba	0.915 (0.876 - -0.954)gydF4y2Ba		0.248 (0.156 - -0.340)gydF4y2Ba		0.413 (0.297 - -0.529)gydF4y2Ba
		ANT_EM_WGTgydF4y2Ba	0.919 (0.874 - -0.964)gydF4y2Ba		0.278 (0.133 - -0.423)gydF4y2Ba		0.455 (0.275 - -0.635)gydF4y2Ba
		ANT_EM_AVEgydF4y2Ba	0.912 (0.869 - -0.955)gydF4y2Ba		0.256 (0.162 - -0.350)gydF4y2Ba		0.423 (0.307 - -0.539)gydF4y2Ba
		RAN_EM_WGTgydF4y2Ba	0.915 (0.868 - -0.962)gydF4y2Ba		0.248 (0.119 - -0.377)gydF4y2Ba		0.416 (0.238 - -0.594)gydF4y2Ba
		RAN_EM_AVEgydF4y2Ba	0.897 (0.850 - -0.944)gydF4y2Ba		0.225 (0.133 - -0.317)gydF4y2Ba		0.385 (0.265 - -0.505)gydF4y2Ba
	引用表示方法gydF4y2Ba
		DIS_AEgydF4y2Ba	0.884 (0.845 - -0.923)gydF4y2Ba		0.207 (0.144 - -0.270)gydF4y2Ba		0.361 (0.279 - -0.443)gydF4y2Ba
		DIS_FSgydF4y2Ba	0.903 (0.862 - -0.944)gydF4y2Ba		0.214 (0.124 - -0.304)gydF4y2Ba		0.367 (0.236 - -0.498)gydF4y2Ba
		离散化gydF4y2Ba	0.905 (0.862 - -0.948)gydF4y2Ba		0.224 (0.122 - -0.326)gydF4y2Ba		0.381 (0.238 - -0.524)gydF4y2Ba
		混合物gydF4y2Ba	0.867 (0.806 - -0.928)gydF4y2Ba		0.202 (0.116 - -0.288)gydF4y2Ba		0.356 (0.227 - -0.485)gydF4y2Ba

^{一个gydF4y2Ba}AUROC:接收机工作特性曲线下的面积。gydF4y2Ba

^bgydF4y2BaAUPRC:精密度-召回曲线下面积。gydF4y2Ba

^cgydF4y2BaCON_EM_WGT:基于结果的嵌入表示的加权和。gydF4y2Ba

^dgydF4y2BaCON_EM_AVE:基于结果的嵌入表示的平均值。gydF4y2Ba

^egydF4y2BaANT_EM_WGT:基于前词的嵌入表示的加权和。gydF4y2Ba

^fgydF4y2BaANT_EM_AVE:基于前词的嵌入表示的平均值。gydF4y2Ba

^ggydF4y2BaRAN_EM_WGT:基于随机选择的嵌入表示的加权和。gydF4y2Ba

^hgydF4y2BaRAN_EM_AVE:基于随机选择的嵌入表示的平均值。gydF4y2Ba

^我gydF4y2BaDIS_AE:特征选择的离散化表示。gydF4y2Ba

^jgydF4y2BaDIS_FS:基于自动编码器表示的隐藏向量。gydF4y2Ba

预测模型解释gydF4y2Ba

图4gydF4y2Ba说明在预测院内死亡风险时，来自私人数据集的前20个最重要特征的全局特征归因。治疗相关特征在死亡率预测中起重要作用。这些特征包括其他手术(平均绝对SHAP值0.413)、诊断性超声(0.279)、造影剂心血管造影(0.197)等(gydF4y2Ba图4gydF4y2Ba此外，合并症如高血压(平均绝对SHAP值:0.252)和心脏病并发症(0.236)，实验室检测如血清葡萄糖(0.188)和血清乳酸脱氢酶(0.139)与院内死亡有很强的相关性(gydF4y2Ba图4gydF4y2BaB).公共数据集中特征的SHAP值见gydF4y2Ba多媒体附录6gydF4y2Ba。gydF4y2Ba

除了特征在特定预测任务中的全局重要性外，SHAP值还有助于区分特征的局部重要性，即单个样本的重要性。gydF4y2Ba图5gydF4y2Ba说明了如何用SHAP值预测住院期间死亡的患者和未死亡的患者的死亡风险。住院期间死亡患者大部分特征的阳性SHAP值使总SHAP值从平均值- 3.739增加到最终值- 0.499 (gydF4y2Ba图5gydF4y2BaA和5C)，这意味着患者的住院死亡风险高于平均水平。在这个增量过程中，以女性为例，性别对SHAP值的贡献为+0.21 (gydF4y2Ba图5gydF4y2BaC)。相反，存活出院患者的大多数特征的SHAP值为负，使总SHAP值从- 3.739降至- 6.169 (gydF4y2Ba图5gydF4y2BaB和5D)，表明死亡风险较低。在这个递减过程中，男性对SHAP值的贡献为- 0.09 (gydF4y2Ba图5gydF4y2BaD)。我们已经展示了来自公共数据集的2例患者gydF4y2Ba多媒体附录7gydF4y2Ba。gydF4y2Ba

图4。私有数据集的前20个特征在整个特征集(A)和无治疗特征集(B)中的平均绝对Shapley加性解释(SHAP)值。gydF4y2Ba

图5。一名住院期间死亡的患者(a和C)和另一名未死亡的患者(B和D)的Shapley加性解释(SHAP)值。这两名患者都是从具有整个特征集的私有数据集中选择的。A和B，所有特征及其SHAP值。C和D, 20个特征的绝对SHAP值最大。蓝色特征倾向于降低患者被归类为阳性(本研究中为死亡)的可能性，而红色特征则相反。每个缩写特性名称的含义可在gydF4y2Ba多媒体附录1gydF4y2Ba。gydF4y2Ba

主要研究结果gydF4y2Ba

随着EMR数据在构建基于机器学习的预测模型中的广泛采用，最基本的研究挑战之一是学习适当的患者表征，这可能会捕获医学概念之间隐藏的语义关联[gydF4y2Ba18gydF4y2Ba]。在这项研究中，我们提出了一种改进的基于跳跃克的患者表示方法，该方法将医学概念之间的关联强度和任务特定特征的重要性相结合。与其他表征方法相比，所提出的患者表征方法提高了AMI患者死亡率风险预测的性能。gydF4y2Ba

在之前的研究中，深度学习模型[gydF4y2Ba9gydF4y2Ba，gydF4y2Ba10gydF4y2Ba，gydF4y2Ba12gydF4y2Ba，gydF4y2Ba25gydF4y2Ba，gydF4y2Ba36gydF4y2Ba]被用于训练医学概念的嵌入表征，用于随后的患者表征。在使用skip-gram算法时，医学概念的顺序与特征相关性无关，阻碍了算法学习高质量的表示。先前的工作建议对患者记录中的医疗概念进行洗牌机制，以减少无序特征对算法的影响[gydF4y2Ba12gydF4y2Ba，gydF4y2Ba24gydF4y2Ba-gydF4y2Ba26gydF4y2Ba]。在本研究中，我们引入了两个概念之间的关联强度，将其定义为仅涉及两个概念的关联规则的置信度。各方面的实验表明，这种巧妙的改进有效地揭示了医学概念之间的潜在关联，并进一步提高了下游预测任务的性能。gydF4y2Ba

除了表示算法之外，用于表示患者的特征也很关键。许多先前的研究集中在医学代码的原始形式的一些特征上，如疾病诊断、程序和药物[gydF4y2Ba1gydF4y2Ba，gydF4y2Ba11gydF4y2Ba，gydF4y2Ba14gydF4y2Ba，gydF4y2Ba37gydF4y2Ba]。对于包含大量与患者诊断和预后相关信息的实验室测试，我们将实验室测试的正常状态纳入特征集，而不是简单地使用实验室测试的数量和测试共现情况[gydF4y2Ba12gydF4y2Ba，gydF4y2Ba38gydF4y2Ba]。我们进一步从自由文本放射学报告中提取放射学特征。不可否认，即使患者表征的维度保持不变，更丰富的特征也可能导致具有更多信息的特征表征。在这项研究中，使用更多特征来代表患者的预测模型确实反映了更多关于患者的信息，并且比使用更少特征的预测模型表现出更高的性能。我们的发现与其他研究的结果相似[gydF4y2Ba39gydF4y2Ba，gydF4y2Ba40gydF4y2Ba]。gydF4y2Ba

先前的研究使用神经网络来训练使用EMR数据的临床结果预测模型[gydF4y2Ba2gydF4y2Ba，gydF4y2Ba16gydF4y2Ba，gydF4y2Ba22gydF4y2Ba]。他们专注于建立在大型数据集上的端到端预测模型，其中神经网络的最后一个隐藏层被视为患者表示。尽管基于深度端到端神经网络的患者表征提高了预测准确性，但不可忽视的是可解释性的不足。一些研究[gydF4y2Ba26gydF4y2Ba，gydF4y2Ba41gydF4y2Ba]使用单词嵌入方法学习到的概念表征的平均值构建患者表征，没有充分利用不同临床特征对患者的重要性。作为一种高级可解释性方法，SHAP值[gydF4y2Ba32gydF4y2Ba]被成功地用于分析和解释之前一些研究中的预测模型[gydF4y2Ba40gydF4y2Ba，gydF4y2Ba42gydF4y2Ba-gydF4y2Ba44gydF4y2Ba]。我们将SHAP值作为特征重要性引入到患者表征中，并进一步解释了SHAP值的预测模型。SHAP值不仅可以对预测任务的总体重要性进行排序和识别重要因素，还可以探索预测特定患者死亡风险的关键因素。在我们对AMI患者的预测任务中，SHAP值所识别的最重要的特征与AMI密切相关[gydF4y2Ba45gydF4y2Ba-gydF4y2Ba47gydF4y2Ba]，如血清葡萄糖和血清肌酸激酶，这是临床对AMI诊断和预后至关重要的两项实验室检查。gydF4y2Ba

在我们的预测任务中，将所提出的患者表示方法所表示的所有可用患者特征作为输入的模型在相同任务上的表现优于以往研究中的其他模型(AUROC, 0.973 vs 0.905 ~ 0.935)。gydF4y2Ba19gydF4y2Ba，gydF4y2Ba29gydF4y2Ba-gydF4y2Ba31gydF4y2Ba，gydF4y2Ba48gydF4y2Ba])。这可能是因为嵌入表征包含了从一般EMR系统中提取的大量不同的特征，而许多研究者在临床专家的帮助下选择了ami相关的特征。例如，基本的人口学数据和很少的实验室测试，以及Killip分类和左心室射血分数等AMI的几个具体特征[gydF4y2Ba19gydF4y2Ba，gydF4y2Ba30.gydF4y2Ba直接添加到机器学习模型中来预测死亡风险。进一步，与主成分分析等其他简单的特征提取方法相比[gydF4y2Ba29gydF4y2Ba]和3层自编码器模型，该方法考虑了关联强度和特征重要度，实现了更高的预测性能。gydF4y2Ba

限制gydF4y2Ba

这项研究有一些局限性。首先，本研究仅纳入患者住院期间的第一次实验室检查，而许多患者进行了两次或两次以上的实验室检查。由于时间数据，特别是多个实验室测试，可以反映患者一段时间内的动态健康状况和治疗效果，因此，在患者代表中缺乏实验室测试的时间特征可能会导致下游任务的表现下降。未来的研究将集中于将这种不均匀和不规则的时间数据整合到当前的患者代表中。其次，采用skip-gram算法进行概念嵌入训练。该算法在自然语言处理领域很受欢迎，但在表示结构化和无序EMR数据方面可能能力有限。基于变压器的预训练模型Med-Bert已被训练来表示最初由ICD-10和ICD-9编码表达的疾病诊断，在心力衰竭和胰腺癌预测任务中显示出更高的auroc，分别为85.39%和82.23% [gydF4y2Ba49gydF4y2Ba]。因此，未来将采用更复杂的深度学习方法来获得更有信息量的患者表征。最后，我们仅对基于所提出的患者表征建立的预测模型进行了内部验证。高质量的外部验证将更有说服力，有助于持续改进算法。此外，选择的性能比较参考方法是简单的特征选择方法和三层自编码器。需要与最先进的方法进行比较，以评估我们提出的方法的性能和潜在用途。gydF4y2Ba

结论gydF4y2Ba

在本研究中，我们利用医学概念的关联强度和患者特征的重要性来改进基于嵌入的患者表示。经过进一步的训练和微调，基于所提出的患者表征的模型有望用于辅助AMI住院患者的预后预测。本研究为利用EMR数据开发更有效、高效的临床预测模型提供了一个有意义的方向。这是可取的患者代表学习作为一个重要组成部分，建立一个预测模型的临床结果。gydF4y2Ba

致谢gydF4y2Ba

国家自然科学基金项目(81971707)资助。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba

多媒体附录1gydF4y2Ba

私有数据集中样本的患者特征。gydF4y2Ba

DOCX文件，35 KBgydF4y2Ba

‎gydF4y2Ba

多媒体附录2gydF4y2Ba

公共MIMIC-III数据集中样本的患者特征。gydF4y2Ba

DOCX文件，34 KBgydF4y2Ba

‎gydF4y2Ba

多媒体附录3gydF4y2Ba

上下文窗口大小和嵌入向量维度的不同组合下基于跳过克的嵌入表示的预测性能。gydF4y2Ba

DOCX文件，24kbgydF4y2Ba

‎gydF4y2Ba

多媒体附录4gydF4y2Ba

患者表示方法在公共数据集上的预测性能。gydF4y2Ba

DOCX文件，21 KBgydF4y2Ba

‎gydF4y2Ba

多媒体附录5gydF4y2Ba

患者表示方法在有和没有治疗特征集的公共和私人数据集上的平均预测性能。gydF4y2Ba

DOCX文件，22 KBgydF4y2Ba

‎gydF4y2Ba

多媒体附录6gydF4y2Ba

公共数据集的前20个特征在整个特征集(A)和无处理特征集(B)内的平均绝对Shapley加性解释(SHAP)值。gydF4y2Ba

DOCX文件，356kbgydF4y2Ba

‎gydF4y2Ba

多媒体附录7gydF4y2Ba

在具有整个特征集的公共数据集中，住院期间死亡的患者(a和C)和另一个未死亡的患者(B和D)的Shapley加性解释(SHAP)值。gydF4y2Ba

DOCX文件，394 KBgydF4y2Ba

肖欣，魏刚，周磊，潘勇，景辉，赵娥，等。基于EHR映射PPD张量的卷积神经网络增强算法的治疗起始预测。[J]中国生物医学工程学报，2011;31(2):444 - 444。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李磊，姜勇，黄波。基于transformer模型的季节性流感传播长期预测。[J]中国生物医学工程学报，2011;22(2):391 - 391。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李马H,盛W, J,侯L,杨J, Cai J,等。一种新的分层机器学习模型用于医院获得性静脉血栓栓塞风险评估。[J]中国生物医学工程学报(英文版);2009;22 (2):391 - 391 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
唐志，余宇，吴凯，苏东，胡军，梅军。疾病网络描述心血管疾病的疾病进展特征。[J]中国生物医学工程学报，2011;22 (3):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
陈鹏，董伟，卢鑫，Kaymak U，何凯，黄铮。基于电子病历的个性化治疗效果评估的深度表征学习。[J]中国生物医学工程学报，2019;31 (1):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李建军，李建军，李建军，等。基于自然语言预处理的临床文本编码器研究。中华医学杂志，2019,11 (11):1272-1278 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
张鹏，钱斌，张鹏。基于模式关注的医疗风险预测模型。BMC Med Inform Decis ma2020 Dec 30;20(增刊11):307 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
张欣，周军，梁军，肖超，赵颖，Sarva H，等。使用纵向临床记录的帕金森病数据驱动亚型:一项队列研究。科学通报2019年1月28日;9(1):797 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
罗欣，甘地P，张震，邵伟，韩震，Chandrasekaran V，等。应用可解释的深度学习模型利用电子病历数据识别慢性咳嗽患者。计算方法和程序生物学报2021;210:106395。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李志强，李志强，李志强。基于EHR数据库的分布式学习:医疗事件的上下文嵌入模型。[J]中国生物医学工程学报，2019,28 (2):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
刘建军，刘建军，李建军，等。对用于预测ICU再入院和描述高危患者的深度学习架构进行基准测试。科学通报2020;1 (1):1111 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李建军，李建军，李建军，李建军。语言模型是一种有效的电子病历表示学习技术。[J]中国生物医学工程学报，2011;33 (1):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Carrasco-Ribelles LA, Pardo-Mas JR, Tortajada S, Sáez C, Valdivieso B, García-Gómez JM。通过多尺度患者轨迹的局部相似性预测发病率。[J]中国生物医学工程学报，2011;31(2):444 - 444。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
杨松，郑鑫，纪超，陈霞。多层表示学习及其在电子病历中的应用。神经网络学报，2011;53(2):1417-1433 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
王忠，王斌，周勇，李东，尹勇。基于邻域判别约束的加权多重经验核学习心力衰竭死亡率预测。[J]中国生物医学工程学报，2010;31 (1):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Rongali S, Rose AJ, McManus DD, Bajracharya AS, Kapoor A, Granillo E，等。学习潜在空间表征来预测患者预后:模型开发和验证。[J]互联网研究与发展，2020;23;22(3):563 - 567 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李建军，李建军，李建军，等。基于自然语言处理的急诊分诊记录预测方法。中国生物医学工程学报，2011;33(3):480-484。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
司云，杜军，李志，姜欣，米勒涛，王峰，等。电子健康记录(EHR)患者数据的深度表示学习:系统综述。[J]中国生物医学工程学报，2011;22 (3):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
权健，全坤，金惠明，金兆杰，林善，金凯，等。基于深度学习的急性心肌梗死患者死亡率风险分层。PLoS One 2019;14(10):e0224502 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
阮涛，雷磊，周勇，翟军，张磊，何鹏，等。电子健康记录中临床时间序列预测任务的表示学习。BMC Med Inform Decis ma2019 Dec 17;19(增刊8):259 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
赵杰，王志强，王志强，Boström .基于时间数据的电子病历学习。[J]中国生物医学工程学报，2017,25 (1):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
马立德，王胜，王志强，等。基于卷积神经网络的医疗成本预测模型研究。[J]中国生物医学工程学报，2011;31 (1):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
陈凯，陈建军，陈建军。基于分布式表征的词和短语组合。见:NIPS'13:第26届神经信息处理系统国际会议论文集-第2卷。2013年出席:第26届国际神经信息处理系统会议;2013年12月5日至10日;塔霍湖，内华达州第3111-3119页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Glicksberg BS, Miotto R, Johnson KW, shaemer K, Li L, Chen R等。使用电子健康记录中的词嵌入自动疾病队列选择。中国生物医学工程学报，2018;23 (3):559 - 561 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
崔丽，谢霞，沈铮。电子病历中预测任务引导的医疗编码表征学习。[J]中国生物医学工程学报，2018;33 (4):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
黄燕，王宁，张志，刘宏，费翔，魏磊，等。基于嵌入技术的结构化电子病历患者表示:开发与验证研究。JMIR Med Inform 2021七月23;9(7):e19905 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
陈红，石磊，薛敏，王宁，董旭，蔡勇，等。中国急性心肌梗死后住院死亡率和经皮冠状动脉介入治疗的地理差异:一项全国性的横断面分析。中国心脏杂志2018年4月17日;7(8):52-62。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
GBD 2013死亡率死亡原因合作者。1990-2013年240种死因的全球、区域和国家年龄-性别特异性全因死亡率和特定原因死亡率:2013年全球疾病负担研究的系统分析The Lancet 2015 Jan 10;385(9963):117-171 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Lee HC, Park JS, Choe JC, Ahn JH, Lee HW, Oh J，韩国急性心肌梗死登记(KAMIR)韩国心肌梗死工作组(KorMI)研究人员。使用机器学习预测急性心肌梗死1年死亡率。[J]中华医学会杂志2020;10月15日;133:23-31。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Aziz F, Malek S, Ibrahim KS, Raja Shariff RE, Wan Ahmad WA, Ali RM等。亚洲人急性st段抬高型心肌梗死(STEMI)后的短期和长期死亡率预测:一种机器学习方法科学通报，2010;16(8):888 - 888 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
王强，钱伟，孙志，朱伟，刘勇，陈旭，等。基于术前参数预测有创治疗急性心肌梗死患者短期死亡率的nomogram。老龄化(Albany NY) 2020 Dec 11;13(2):2184-2197 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Lundberg SM, Lee SI。解释模型预测的统一方法。第31届国际神经信息处理系统会议论文集，发表于:第31届国际神经信息处理系统会议;2017年12月4日至9日;长滩，加利福尼亚，4768-4777页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
重症监护医疗信息集市。URL:gydF4y2Bahttps://mimic.mit.edu/gydF4y2Ba[2022-07-23]访问gydF4y2Ba
王宁，王敏，周勇，刘宏，魏磊，费翔，等。用于患者预后预测的基于顺序数据的患者相似性框架:算法开发。[J]互联网研究与发展，2009;24(1):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
谢军，高华，谢伟，刘鑫，格兰特普文。通过检测密度峰值和基于模糊加权k近邻分配点的鲁棒聚类。信息科学，2016;35(4):19-40。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
王磊，王强，白海，刘超，刘伟，张勇，等。基于自注意机制的临床笔记时间模式医学概念表征学习。Front Genet 2020; 11:30 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
白涛，Chanda AK, Egleston BL, Vucetic S.基于医学概念和词汇联合嵌入到统一向量空间的EHR表型分析。BMC Med Inform Decis ma2018 Dec 12;18(增刊4):123 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李立平，李立平，李立平，李立平。深度患者:从电子健康记录中预测患者未来的无监督表示。科学通报2016年5月17日;6:26094 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
张丹，尹超，曾杰，袁翔，张鹏。基于深度学习的结构化和非结构化数据组合预测模型。中国医学杂志2020年10月29日;20(1):280 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
徐勇，刘翔，潘磊，毛翔，梁辉，王刚，等。可解释的动态多模态变分自编码器对疑似中枢性性早熟患者的预测。IEEE J. Biomed。健康通报2022年3月;26(3):1362-1373。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
崔娥，孙杰。基于电子病历的医学概念表征学习及其在心衰预测中的应用。出来了。2016.URL:gydF4y2Bahttps://arxiv.org/abs/1602.03686gydF4y2Ba[2022-07-19]访问gydF4y2Ba
张建军，张建军，张建军，等。基于神经网络的ALS患者疾病进展模型研究。生物医学中的计算机方法与程序[j] .计算机科学进展2021;1:100018。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Lundberg SM, Erion G, Chen H, DeGrave A, Prutkin JM, Nair B，等。从局部解释到全球理解，通过可解释的树木人工智能。[j] .计算机工程学报，2014,31 (1):559 - 567 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Lundberg SM, Nair B, Vavilala MS, horbe M, isses MJ, Adams T，等。手术期间预防低氧血症的可解释的机器学习预测。生物医学工程学报，2018;2(10):749-760。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
平托DS，格兰丁EW。AMI休克的风险预测:金发姑娘和对“刚刚好”的寻找。中华心血管病杂志，2017,18;69(15):1921-1923 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
叶rw, Sidney S, Chandra M, Sorel M, Selby JV, Go AS。急性心肌梗死发病率和预后的人群趋势。中华医学杂志，2010,32(3):555 - 561。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Shroff GR, Frederick PD, Herzog CA.肾功能衰竭和急性心肌梗死:晚期慢性肾脏疾病患者、透析患者和非慢性肾脏疾病患者的临床特征。美国肾脏数据系统/国家卫生研究院和国家心肌梗死登记处的合作项目。[J] .中国医学杂志;2009;31 (3):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
D’ascenzo F, De Filippo O, Gallone G, Mittone G, Deriu M, Iannaccone M，等。基于机器学习的急性冠状动脉综合征(PRAISE)后不良事件预测:汇总数据集的建模研究。《柳叶刀》2021年1月;397(10270):199-207。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
张建军，张建军，张建军，等。一种基于深度学习的疾病预测方法。NPJ digital medical 2021;4(1):86 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba

‎gydF4y2Ba

AMI:gydF4y2Ba急性心肌梗死gydF4y2Ba

阿里:gydF4y2Ba调整后兰特指数gydF4y2Ba

AUPRC:gydF4y2Ba精密度-召回曲线下面积gydF4y2Ba

AUROC:gydF4y2Ba接收机工作特性曲线下的面积gydF4y2Ba

EMR:gydF4y2Ba电子病历gydF4y2Ba

ICD:gydF4y2Ba国际疾病分类gydF4y2Ba

世鹏科技电子:gydF4y2Ba沙普利加法解释gydF4y2Ba

G·艾森巴赫编辑;提交22.02.22;由M Nuutinen、L Jorm、B Qian同行评审;对作者的评论20.04.22;收到修订版本02.06.22;接受18.07.22;发表03.08.22gydF4y2Ba

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。gydF4y2Ba

本文内容如下gydF4y2Bae-collection /主题问题:gydF4y2Ba

基于电子病历嵌入表征提高急性心肌梗死住院患者预后预测性能:开发与验证研究gydF4y2Ba

基于电子病历嵌入表征提高急性心肌梗死住院患者预后预测性能:开发与验证研究gydF4y2Ba

原始论文gydF4y2Ba

通讯作者:gydF4y2Ba

摘要gydF4y2Ba

关键字gydF4y2Ba

介绍gydF4y2Ba

方法gydF4y2Ba

基于skip - gram的患者表示gydF4y2Ba

实验与评价gydF4y2Ba

数据集和数据预处理gydF4y2Ba

表现评估gydF4y2Ba

伦理批准gydF4y2Ba

结果gydF4y2Ba

概念表征评价gydF4y2Ba

预测性能gydF4y2Ba

预测模型解释gydF4y2Ba

讨论gydF4y2Ba

主要研究结果gydF4y2Ba

限制gydF4y2Ba

结论gydF4y2Ba

致谢gydF4y2Ba

利益冲突gydF4y2Ba

参考文献gydF4y2Ba

缩写gydF4y2Ba