这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba
电子病历的广泛二次使用促进了医疗质量的提高。表征学习能够自动从EMR数据中提取隐藏信息,已越来越受到人们的关注。gydF4y2Ba
我们旨在提出一种具有更多特征关联和任务特异性特征重要性的患者表示,以提高急性心肌梗死(AMI)住院患者的预后预测性能。gydF4y2Ba
医学概念,包括患者的年龄、性别、疾病诊断、实验室测试、结构化放射特征、程序和药物,首先使用改进的skip-gram算法嵌入到实值向量中,其中上下文窗口中的概念是由关联规则置信度测量的特征关联强度选择的。然后,将每个患者表示为任务特定特征重要性加权的特征嵌入之和,用于从全局和局部角度进行预测模型预测。最后,我们将所提出的患者表示分别应用于3010名AMI住院患者和1671名AMI住院患者的死亡风险预测,并将其与几种参考表示方法在受试者工作特征曲线下面积(AUROC)、精度-回忆曲线下面积(AUPRC)和f1评分方面进行比较。gydF4y2Ba
与参考方法相比,所提出的基于嵌入式的表示在两个数据集上表现出一致的卓越预测性能,公共和私有数据集的平均auroc分别为0.878和0.973,AUPRCs分别为0.220和0.505,F1-scores分别为0.376和0.674,而参考方法中最大的auroc、AUPRCs和F1-scores分别为0.847和0.939,0.196和0.283,公共和私有数据集的auroc和AUPRCs分别为0.344和0.361。整合在患者表现中的特征重要性反映了在预测任务和临床实践中也至关重要的特征。gydF4y2Ba
特征关联和特征重要性的引入促进了有效的患者表示,并有助于预测性能的改进和模型解释。gydF4y2Ba
电子病历(EMRs)包含各种不同的信息,如人口统计数据、疾病诊断、实验室检测、放射学结果、检查和程序以及药物。EMR数据不仅可以反映患者的健康状况和记录治疗轨迹,还可以帮助医生做出临床决策[gydF4y2Ba
然而,EMR数据的高维性、稀疏性和异质性[gydF4y2Ba
急性心肌梗死(AMI)是一种急性缺血性心脏病,是导致死亡的第二大原因。每6例死亡中就有1例死于缺血性心脏病,其中AMI占死亡人数的大多数[gydF4y2Ba
在本研究中,我们的目标是从EMR数据中提取的各种结构化特征表示为定长嵌入向量,然后用于提高AMI患者死亡风险预测模型的性能。具体来说,我们将关联强度引入到skip-gram算法中,以学习特征的更多信息表示。我们还介绍了Shapley加法解释(SHAP) [gydF4y2Ba
患者死亡风险预测的拟表示学习方法概述。首先,使用自适应上下文窗口的跳过图算法学习特征表示。然后,基于特征重要性加权的特征表征构建患者表征。最后,将所提出的患者表征方法应用于急性心肌梗死住院患者的公共数据集和私人数据集死亡风险预测,并与参考方法进行比较。gydF4y2Ba
表征在概念、特征和患者三个层次上进行分层学习。在概念层面,我们采用了改进的skip-gram算法[gydF4y2Ba
其中C1和C2分别是关联规则C1→C2的前项和后项概念,|C1|和|C1∩C2|分别是包含C1和同时包含C1和C2的患者记录的数量。置信度越大,两个概念之间的联系就越强。将置信度最高的前N个关联规则中的前因(或结果)概念纳入目标概念的上下文窗口。我们称之为上下文概念的选择方案gydF4y2Ba
使用关联强度的跳跃式图算法上下文概念选择的示例。所有记录由10个概念(C1, C2, ......和C10)组成。在置信度矩阵中,元素Cij为以Cj为前项,Ci为后项的关联规则置信度。患者1有6个概念(C1、C3、C6、C7、C8和C10),从5个候选概念中选取C1的4个概念上下文窗口中的概念,其置信度分别为0.66(前项,C10)、0.62 (C3)、0.55 (C6)、0.53 (C8)和0.46 (C7)。因此,选择C10、C3、C6、C8构建C1的上下文窗口。gydF4y2Ba
此外,为了降低大量概念的高维性和稀疏性,同时尽可能保留临床信息,我们根据国际疾病分类第十版(ICD-10)代码和国际疾病分类第九版(ICD-9)代码,在临床专家的帮助下,将疾病诊断和程序概念聚合为几个有临床意义的特征组。如将1型糖尿病和2型糖尿病的疾病诊断归为糖尿病特征组。患者记录中来自同一特征组的所有概念嵌入向量的平均值被视为患者在特征级别的表示。gydF4y2Ba
患者层面的表征是特征层面表征的加权和。特征权重是在预测任务的指导下获得的,表明了患者表现中涉及的每个特征的重要性。在本研究中,我们使用SHAP值作为特征权重。SHAP框架是一种基于博弈论思想的机器学习解释技术。它用一个不同但简单的模型来近似一个训练好的预测模型,该模型可以很容易地以SHAP值的形式计算预测模型中每个特征的贡献,并执行添加性特征归因来解释特征的组合[gydF4y2Ba
在这项研究中,我们使用了一个公共数据集,即免费访问的重症监护数据库重症监护III医疗信息集市(mimi -III数据集[gydF4y2Ba
mimi - iii数据集收集于2001年6月至2012年10月之间,涉及马萨诸塞州波士顿贝斯以色列女执事医疗中心重症监护室收治的46,520名患者。它包括患者的健康信息,如人口统计数据、生命体征、实验室检测结果、药物、程序、诊断代码和临床记录。信息丰富的MIMIC-III数据集被广泛应用于一些医疗机器学习建模和算法评估,为研究人员建立模型和评估算法提供了强有力的数据支持[gydF4y2Ba
私人数据集来源于2014年1月至2016年12月中国北京首都医科大学宣武医院三级医院EMR系统。患者特征包括入院和出院信息、人口统计数据、疾病诊断、实验室检查、检查和程序、药物、胸部x线或彩色超声检查的放射学报告。gydF4y2Ba
我们分别从公共和私人数据集中提取了3010和1671名AMI患者的记录。通过ICD-9代码410.01至410.91或ICD-10代码I21和I22确认AMI诊断。来自公共和私人数据集的患者中,分别有254例(8.1%)和103例(6.2%)在医院死亡。gydF4y2Ba
我们保留了患者的首次住院数据来评估所提出的方法。两组数据均保留了人口统计学数据(年龄和性别)和以下ami相关特征:至少95%患者进行的ami相关实验室检查项目,从放射报告中提取的ami相关放射特征[gydF4y2Ba
自自然语言处理领域最初提出以来,跳过图算法被用于训练离散单词或符号的嵌入。因此,要使用跳跃式图算法对结构化数据进行嵌入表示,所有患者特征都应该是分类的,其中每个离散值都被视为一个概念。例如,男性和女性是性别的两个概念。与原始分类特征(如性别、疾病诊断、程序和药物)可能保持不变不同,年龄和实验室检测结果等连续变量必须离散成两个或多个概念。年龄离散为>60岁和≤60岁2个概念。每个实验室检测结果参照临床标准离散为2个概念(正常和异常)。总共识别出3326和1073个医学概念,并进一步在公共和私人数据集中分别聚合到104和108个特征组(gydF4y2Ba
公共数据集和私有数据集的概念和特征组。gydF4y2Ba
功能分类gydF4y2Ba | 公共数据集gydF4y2Ba | 私有数据集gydF4y2Ba | 概念的例子gydF4y2Ba | ||||
|
特征组(n=104), ngydF4y2Ba | 概念(n=3326), ngydF4y2Ba | 特征组(n=108), ngydF4y2Ba | 概念(n=1073), ngydF4y2Ba |
|
||
年龄gydF4y2Ba | 1gydF4y2Ba | 2gydF4y2Ba | 1gydF4y2Ba | 2gydF4y2Ba | >60年和≤60年gydF4y2Ba | ||
性别gydF4y2Ba | 1gydF4y2Ba | 2gydF4y2Ba | 1gydF4y2Ba | 2gydF4y2Ba | 男性和女性gydF4y2Ba | ||
实验室测试gydF4y2Ba | 19gydF4y2Ba | 38gydF4y2Ba | 40gydF4y2Ba | 80gydF4y2Ba | 血清甘油三酯异常,血清肌酐正常gydF4y2Ba | ||
辐射特性gydF4y2Ba | 34gydF4y2Ba | 34gydF4y2Ba | 36gydF4y2Ba | 36gydF4y2Ba | 心脏图像增大,肋膈角明显gydF4y2Ba | ||
疾病的诊断gydF4y2Ba | 24gydF4y2Ba | 2600gydF4y2Ba | 15gydF4y2Ba | 739gydF4y2Ba | 高血压和脑干梗塞gydF4y2Ba | ||
程序gydF4y2Ba | 18gydF4y2Ba | 643gydF4y2Ba | 8gydF4y2Ba | 207gydF4y2Ba | 冠状动脉支架和心包穿刺术gydF4y2Ba | ||
药物gydF4y2Ba | 7gydF4y2Ba | 7gydF4y2Ba | 7gydF4y2Ba | 7gydF4y2Ba | 血管紧张素转换酶抑制剂和肝素gydF4y2Ba |
为了评估所提出的表示的有效性和优势,我们使用了另外两种简单的参考表示方法,即带有学习的3层自编码器和不带学习的特征选择方法。gydF4y2Ba
首先在概念层面对所提出的表示方法进行了评估。采用聚类分析将实验室测试概念聚类为2个聚类进行定量评价。经调整的兰德指数[gydF4y2Ba
提出的表示方法,然后评估在患者水平与下游预测任务使用逻辑回归模型。预测结果为AMI患者住院期间的住院死亡。用于预测的输入是来自中列出的整个特征集的患者表示gydF4y2Ba
描述所提出的和引用的表示方法。gydF4y2Ba
表示方法gydF4y2Ba | 描述gydF4y2Ba | 代表性的例子gydF4y2Ba |
混合物gydF4y2Ba | 原始离散特征的离散化代码和连续特征的原始值的混合。实验室试验中的缺失值用相应实验室试验的平均值进行插值。gydF4y2Ba | (0,1,1,0,0,0,0,1,12,8.5,3,8)对于有11个特征的患者gydF4y2Ba |
离散化gydF4y2Ba | 0-1向量,其中数字1表示具有特定疾病、程序、放射学特征和药物的患者,其他为0。年龄1为>60岁,0为≤60岁,性别1为男性,0为女性,实验室检测项目1为异常,0为正常。实验室测试的缺失值由相应的模式内插。gydF4y2Ba | (0,1,1,0,0,0,0,1,1,1,1,1)对于具有11个离散化特征的患者gydF4y2Ba |
DIS_FSgydF4y2Ba一个gydF4y2Ba | 所选择的具有离散化表征的特征在标记为“死亡”和未标记为“死亡”的患者之间具有统计学差异。gydF4y2Ba | (0,0,1,0,0,1,0,1,0,1)对于具有8个选定特征的患者gydF4y2Ba |
DIS_AEgydF4y2BabgydF4y2Ba | 以离散化向量作为输入和输出的三层自编码器的隐层向量。隐藏层的维数设置为64。gydF4y2Ba | (0.7,1.9,0.5,−1,−3.1,2.4)对于具有6维向量的患者gydF4y2Ba |
RAN_EM_AVEgydF4y2BacgydF4y2Ba | 从跳过图算法中学习到的特征嵌入向量的平均值,使用随机选择方法确定上下文窗口。gydF4y2Ba | (1.6,−0.5,1.1,0.1,−1.3,0.6)对于6维嵌入向量的患者gydF4y2Ba |
RAN_EM_WGTgydF4y2BadgydF4y2Ba | 从跳过图算法学习到的特征嵌入向量的加权和,使用随机选择方法确定上下文窗口。gydF4y2Ba | (1.2, - 0.9,1.3,0.4, - 1.9,1.0)对于6维嵌入向量的患者gydF4y2Ba |
ANT_EM_AVEgydF4y2BaegydF4y2Ba | 以目标概念的置信度为前提,从跳过图算法中学习到的特征嵌入向量的平均值。gydF4y2Ba | (0.9, - 0.6,1.2,1.4, - 1.9,0.6)对于6维嵌入向量的患者gydF4y2Ba |
ANT_EM_WGTgydF4y2BafgydF4y2Ba | 以目标概念的置信度为前提,从跳过图算法中学习到的特征嵌入向量的加权和。gydF4y2Ba | (1.2,−1.5,1.1,0.1,−0.6,0.6)对于6维嵌入向量的患者gydF4y2Ba |
CON_EM_AVEgydF4y2BaggydF4y2Ba | 利用目标概念作为结果的置信度,从跳过图算法中学习到的特征嵌入向量的平均值。gydF4y2Ba | (1.6,−0.8,2.1,1.6,−1.4,1.5)对于具有6维嵌入向量的患者gydF4y2Ba |
CON_EM_WGTgydF4y2BahgydF4y2Ba | 使用目标概念作为结果的置信度,从跳过图算法中学习到的特征嵌入向量的加权和。gydF4y2Ba | (1.1,−0.4,−0.7,1.6,−0.3,0.9)对于具有6维嵌入向量的患者gydF4y2Ba |
一个gydF4y2BaDIS_FS:带有特征选择的离散化表示。gydF4y2Ba
bgydF4y2BaDIS_AE:基于自编码器表示的隐藏向量。gydF4y2Ba
cgydF4y2BaRAN_EM_AVE:基于随机选择的嵌入表示的平均值。gydF4y2Ba
dgydF4y2BaRAN_EM_WGT:基于随机选择的嵌入表示的加权和。gydF4y2Ba
egydF4y2BaANT_EM_AVE:基于前项的嵌入表示的平均值。gydF4y2Ba
fgydF4y2BaANT_EM_WGT:基于前项的嵌入表示的加权和。gydF4y2Ba
ggydF4y2BaCON_EM_AVE:基于结果的嵌入表示的平均值。gydF4y2Ba
hgydF4y2BaCON_EM_WGT:基于结果的嵌入表示的加权和。gydF4y2Ba
我们将样本按7:3的比例随机分成训练数据集和测试数据集。训练样本首先在离散化向量中表示,并用于构建一个预测模型,用于计算所有特征的SHAP值,以进一步对所有研究样本进行患者嵌入表示。将训练样本和测试样本表示为嵌入向量后,分别用于建立和验证基于逻辑回归的预测模型。受试者工作特征曲线下面积(AUROC)、精确召回曲线下面积(AUPRC)和f1评分是主要评价指标。来自混淆矩阵的其他相关性能指标包括精度、召回率和准确性。为了消除跳过图模型初始化和训练/测试数据集分割带来的性能偏差,我们进行了100次对比实验。在每一轮实验中,重复上述过程。报告了每个性能评估指标的95% CI平均值。gydF4y2Ba
在跳过图算法中,上下文窗口的大小和嵌入向量的维数是通过反复试验确定的。我们在公共数据集上进行了一组预测实验,使用窗口大小为5、10、15和20的可能组合,向量维度为50、100、200和300。实验结果(列于gydF4y2Ba
本研究经首都医科大学宣武医院人体研究伦理委员会批准(批准文号:临床科研2020-070)。gydF4y2Ba
实验室测试概念的嵌入向量在平面空间(gydF4y2Ba
在跳过图算法中使用上下文概念的不同选择方案的嵌入实验室测试的可视化(使用t分布随机邻居嵌入算法)。红色和绿色的点分别代表异常和正常的实验室检测结果。对于公共数据集,A到C:目标概念的上下文概念由关联规则中的顺次概念(A)或前项概念(B)或随机选择的概念(C)组成。D到F是私有数据集上A到C的对应。gydF4y2Ba
与参考表示法相比,两个数据集上大多数基于嵌入的表示法都表现出了性能改进。在包含整个特征集的公共数据集上,6种有嵌入的表示方法的平均AUROC、AUPRC和F1-score均大于4种没有嵌入的参考方法(分别为0.855 vs 0.831、0.203 vs 0.185和0.354 vs 0.328)。此外,在基于skip-gram算法的6种表示中,基于关联强度进行算法改进的表示的性能优于未进行算法改进的表示。gydF4y2Ba
当将特征表示组合成患者表示时,组装方法和涉及的特征确实很重要。基于加权和思想的表示优于基于平均思想的表示,无论是在具有整个特征集的公共数据集上(AUROC, 0.863至0.878 vs 0.834至0.850)还是在具有整个特征集的私有数据集上(0.967至0.973 vs 0.948至0.957)。另一方面,与未处理的特征集相比,在整个特征集的两个数据集上都实现了一致的优越预测性能。gydF4y2Ba
患者表示方法在私有数据集上的预测性能。gydF4y2Ba
特征集和表示方法gydF4y2Ba | AUROCgydF4y2Ba一个gydF4y2Ba,平均值(95% CI)gydF4y2Ba | AUPRCgydF4y2BabgydF4y2Ba,平均值(95% CI)gydF4y2Ba | f1得分,平均值(95% CI)gydF4y2Ba | |||||
|
|
|
|
|||||
|
|
|
|
|
||||
|
|
CON_EM_WGTgydF4y2BacgydF4y2Ba | 0.973 (0.951 - -0.995)gydF4y2Ba | 0.505 (0.278 - -0.732)gydF4y2Ba | 0.674 (0.468 - -0.880)gydF4y2Ba | |||
|
|
CON_EM_AVEgydF4y2BadgydF4y2Ba | 0.957 (0.933 - -0.981)gydF4y2Ba | 0.312 (0.159 - -0.465)gydF4y2Ba | 0.479 (0.301 - -0.657)gydF4y2Ba | |||
|
|
ANT_EM_WGTgydF4y2BaegydF4y2Ba | 0.972 (0.948 - -0.996)gydF4y2Ba | 0.489 (0.258 - -0.720)gydF4y2Ba | 0.658 (0.442 - -0.874)gydF4y2Ba | |||
|
|
ANT_EM_AVEgydF4y2BafgydF4y2Ba | 0.953 (0.929 - -0.977)gydF4y2Ba | 0.310 (0.185 - -0.435)gydF4y2Ba | 0.478 (0.329 - -0.627)gydF4y2Ba | |||
|
|
RAN_EM_WGTgydF4y2BaggydF4y2Ba | 0.967 (0.942 - -0.992)gydF4y2Ba | 0.486 (0.263 - -0.709)gydF4y2Ba | 0.660 (0.460 - -0.860)gydF4y2Ba | |||
|
|
RAN_EM_AVEgydF4y2BahgydF4y2Ba | 0.948 (0.923 - -0.973)gydF4y2Ba | 0.287 (0.167 - -0.407)gydF4y2Ba | 0.451 (0.306 - -0.596)gydF4y2Ba | |||
|
|
|
|
|
||||
|
|
DIS_AEgydF4y2Ba我gydF4y2Ba | 0.884 (0.845 - -0.923)gydF4y2Ba | 0.207 (0.144 - -0.270)gydF4y2Ba | 0.361 (0.279 - -0.443)gydF4y2Ba | |||
|
|
DIS_FSgydF4y2BajgydF4y2Ba | 0.938 (0.907 - -0.969)gydF4y2Ba | 0.283 (0.167 - -0.399)gydF4y2Ba | 0.452 (0.309 - -0.595)gydF4y2Ba | |||
|
|
离散化gydF4y2Ba | 0.939 (0.908 - -0.970)gydF4y2Ba | 0.283 (0.165 - -0.401)gydF4y2Ba | 0.454 (0.307 - -0.601)gydF4y2Ba | |||
|
|
混合物gydF4y2Ba | 0.904 (0.849 - -0.959)gydF4y2Ba | 0.251 (0.135 - -0.367)gydF4y2Ba | 0.417 (0.264 - -0.570)gydF4y2Ba | |||
|
|
|
|
|||||
|
|
|
|
|
||||
|
|
CON_EM_WGTgydF4y2Ba | 0.926 (0.883 - -0.969)gydF4y2Ba | 0.282 (0.139 - -0.425)gydF4y2Ba | 0.456 (0.282 - -0.630)gydF4y2Ba | |||
|
|
CON_EM_AVEgydF4y2Ba | 0.915 (0.876 - -0.954)gydF4y2Ba | 0.248 (0.156 - -0.340)gydF4y2Ba | 0.413 (0.297 - -0.529)gydF4y2Ba | |||
|
|
ANT_EM_WGTgydF4y2Ba | 0.919 (0.874 - -0.964)gydF4y2Ba | 0.278 (0.133 - -0.423)gydF4y2Ba | 0.455 (0.275 - -0.635)gydF4y2Ba | |||
|
|
ANT_EM_AVEgydF4y2Ba | 0.912 (0.869 - -0.955)gydF4y2Ba | 0.256 (0.162 - -0.350)gydF4y2Ba | 0.423 (0.307 - -0.539)gydF4y2Ba | |||
|
|
RAN_EM_WGTgydF4y2Ba | 0.915 (0.868 - -0.962)gydF4y2Ba | 0.248 (0.119 - -0.377)gydF4y2Ba | 0.416 (0.238 - -0.594)gydF4y2Ba | |||
|
|
RAN_EM_AVEgydF4y2Ba | 0.897 (0.850 - -0.944)gydF4y2Ba | 0.225 (0.133 - -0.317)gydF4y2Ba | 0.385 (0.265 - -0.505)gydF4y2Ba | |||
|
|
|
|
|
||||
|
|
DIS_AEgydF4y2Ba | 0.884 (0.845 - -0.923)gydF4y2Ba | 0.207 (0.144 - -0.270)gydF4y2Ba | 0.361 (0.279 - -0.443)gydF4y2Ba | |||
|
|
DIS_FSgydF4y2Ba | 0.903 (0.862 - -0.944)gydF4y2Ba | 0.214 (0.124 - -0.304)gydF4y2Ba | 0.367 (0.236 - -0.498)gydF4y2Ba | |||
|
|
离散化gydF4y2Ba | 0.905 (0.862 - -0.948)gydF4y2Ba | 0.224 (0.122 - -0.326)gydF4y2Ba | 0.381 (0.238 - -0.524)gydF4y2Ba | |||
|
|
混合物gydF4y2Ba | 0.867 (0.806 - -0.928)gydF4y2Ba | 0.202 (0.116 - -0.288)gydF4y2Ba | 0.356 (0.227 - -0.485)gydF4y2Ba |
一个gydF4y2BaAUROC:受试者工作特征曲线下的面积。gydF4y2Ba
bgydF4y2BaAUPRC:精确召回曲线下的面积。gydF4y2Ba
cgydF4y2BaCON_EM_WGT:基于结果的嵌入表示的加权和。gydF4y2Ba
dgydF4y2BaCON_EM_AVE:基于结果的嵌入表示的平均值。gydF4y2Ba
egydF4y2BaANT_EM_WGT:基于前项的嵌入表示的加权和。gydF4y2Ba
fgydF4y2BaANT_EM_AVE:基于前项的嵌入表示的平均值。gydF4y2Ba
ggydF4y2BaRAN_EM_WGT:基于随机选择的嵌入表示的加权和。gydF4y2Ba
hgydF4y2BaRAN_EM_AVE:基于随机选择的嵌入表示的平均值。gydF4y2Ba
我gydF4y2BaDIS_AE:带有特征选择的离散化表示。gydF4y2Ba
jgydF4y2BaDIS_FS:基于自编码器的表示的隐藏向量。gydF4y2Ba
除了特征在特定预测任务中的全局重要性外,SHAP值还有助于区分特征的局部重要性,即对单个样本的重要性。gydF4y2Ba
整个特征集(A)和无处理特征集(B)中私有数据集的前20个特征的平均绝对Shapley相加解释(SHAP)值。gydF4y2Ba
Shapley相加解释(SHAP)值为一名在住院期间死亡的患者(a和C)和另一名未死亡的患者(B和D)。这两名患者都是从具有整个特征集的私有数据集中选择的。A和B,所有特征及其SHAP值。C和D, 20个绝对SHAP值最大的特征。蓝色特征倾向于降低患者被分类为阳性(本研究中死亡)的可能性,而红色特征则相反。每个缩写特性名称的含义可以在gydF4y2Ba
随着EMR数据在构建基于机器学习的预测模型中的广泛采用,最基本的研究挑战之一是学习适当的患者表示,这可能会捕获医学概念之间隐藏的语义关联[gydF4y2Ba
在之前的研究中,深度学习模型[gydF4y2Ba
除了表示算法,用于表示患者的特征也很关键。以前的许多研究集中在原始形式的医疗代码中的一些特征,如疾病诊断、程序和药物[gydF4y2Ba
先前的研究使用神经网络利用EMR数据训练临床结果的预测模型[gydF4y2Ba
在我们的预测任务中,采用所提出的患者表征方法所代表的所有可用患者特征作为输入的模型比以往研究中相同任务的其他模型表现出更高的性能(AUROC, 0.973 vs 0.905至0.935 [gydF4y2Ba
这项研究有一些局限性。首先,本研究只纳入患者住院期间的首次实验室检查,而很多患者进行了两次或两次以上的实验室检查。由于时间数据,特别是多个实验室检测,可能反映患者随时间变化的动态健康状态和治疗效果,因此患者表现中缺乏实验室检测的时间特征可能会导致下游任务的性能损失。未来的研究将集中于将这种不均匀和不规则的时间数据整合到当前的患者表现中。其次,采用跳图算法进行概念嵌入训练。该算法在自然语言处理领域很受欢迎,可能在表示结构化和无序EMR数据方面能力有限。基于变压器的训练前模型Med-Bert已被训练为表示最初以ICD-10和ICD-9编码表达的疾病诊断,在心力衰竭和胰腺癌预测任务中表现出更高的性能,auroc分别为85.39%和82.23% [gydF4y2Ba
在本研究中,我们利用医学概念的关联强度和患者特征的重要性来改进基于嵌入的患者表征。经过进一步的训练和微调,基于所提出的患者代表性的模型有望用于辅助AMI住院患者的预后预测。本研究为利用EMR数据开发更有效、更高效的临床预测模型提供了有意义的方向。患者代表学习作为建立临床结果预测模型的重要组成部分是可取的。gydF4y2Ba
私有数据集中样本的患者特征。gydF4y2Ba
公共MIMIC-III数据集中样本的患者特征。gydF4y2Ba
基于skip-gram的嵌入表示的预测性能与上下文窗口的大小和嵌入向量的维度的不同组合。gydF4y2Ba
患者表示方法在公共数据集上的预测性能。gydF4y2Ba
患者表示方法在公共和私人数据集上的平均预测性能,有和没有治疗特征集。gydF4y2Ba
整个特征集(A)和无处理特征集(B)中公共数据集前20个特征的平均绝对Shapley相加解释(SHAP)值。gydF4y2Ba
Shapley相加解释(SHAP)值为一个在住院期间死亡的患者(a和C)和另一个没有死亡的患者(B和D)来自具有整个特征集的公共数据集。gydF4y2Ba
急性心肌梗死gydF4y2Ba
调整兰德指数gydF4y2Ba
精度-召回曲线下的面积gydF4y2Ba
接收机工作特性曲线下面积gydF4y2Ba
电子病历gydF4y2Ba
《国际疾病分类》gydF4y2Ba
Shapley加法解释gydF4y2Ba
国家自然科学基金(No. 81971707)资助。gydF4y2Ba
没有宣布。gydF4y2Ba