这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,http://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
心脏骤停是重症监护病房(ICUs)中最严重的死亡相关事件,但由于重症监护患者的数据特征复杂且随时间变化,因此不容易预测。考虑到ICU数据的复杂性和时间依赖性,基于深度学习的方法有望为开发基于大型临床记录的风险预测模型提供良好的基础。
本研究旨在实现一种基于临床数据估计心脏骤停风险概率随时间分布的深度学习模型,并评估其潜力。
2013年1月至2015年7月,对759名ICU患者进行了回顾性研究。采用字符级门控循环单元和威布尔分布算法建立实时预测模型。五倍交叉验证测试(训练集:80%,验证集:20%)确定了模型精度的一致性。基于5个验证集的聚合,分析了曲线下时间相关面积(TAUC)。
实施的模型在心脏骤停1、8、16、24、32、40和48小时前的TAUCs分别为0.963、0.942、0.917、0.875、0.850、0.842和0.761。敏感性为0.846 ~ 0.909,特异性为0.923 ~ 0.946。心脏骤停组和非心脏骤停组之间的风险分布普遍不同,随着距离心脏骤停的时间缩短,差异迅速增加。
通过考虑从大型医疗中心收集的随时间变化的临床数据的累积和波动影响,实现并测试了用于预测心脏骤停的深度学习模型。这种实时预测模型有望通过允许对意外心脏骤停高风险患者进行早期干预来改善患者的护理。
院内心脏骤停(IHCA)与院外心脏骤停的病因不同,因为住院患者的基础疾病多种多样。不幸的是,尽管在IHCA后努力提高生存率,但在过去的几十年里,结果并没有显著改善[
多项研究报告IHCA后的死亡率与心脏骤停时间(白班vs夜班)、机构类型(教学医院vs非教学医院)和患者亚群(即患者的年龄和性别)有关[
考虑到ICU数据的复杂性和时间依赖性,基于机器学习的方法,包括基于深度学习的预警系统和梯度增强机,为利用电子病历中包含的大量临床数据开发风险预测模型提供了良好的基础[
本研究旨在开发一个实时深度学习模型,以预测医疗重症监护病房(MICU)危重患者心脏骤停的风险。然后,我们根据事件发生的剩余时间来评估该系统的性能。
我们对2013年1月1日至2015年7月31日在韩国首尔峨山医疗中心MICU住院的患者进行了回顾性研究。为了开发MICU危重患者心脏骤停的基于深度学习的预测模型,我们确定了759名18岁或以上的患者,他们在MICU停留了1天或更长时间(
对数据进行了2种预处理。首先,我们选择了患者的共同特征(见特征选择)
本研究得到韩国峨山医疗中心机构审查委员会(机构审查委员会编号2015-1015)的批准。伦理委员会放弃了知情同意的需要,因为本研究涉及常规收集的医疗数据,这些数据在所有阶段都是匿名管理的,包括数据清理和统计分析。
数据预处理流程图。观察:观察;TTE:时间到事件。
结合威布尔分布的字符级门控循环单元结构。
威布尔分布是一种连续概率分布,是计算生存时间分布形式的参数模型。考虑到参数化模型在生存分析中的优势,威布尔模型通常用于估计随时间变化的故障率[
威布尔随机变量的概率密度函数。K:形状参数;λ:尺度参数;X:到故障的时间量。
分布由2个参数组成:形状参数
学习模型的难点在于数据结构的审查特征(即1=发生心脏骤停或0=审查)。心脏骤停的TTE实际上是观察到的数据,不像在数据点没有被审查的情况下。然而,当数据点被删减时,心脏骤停的TTE是未知的。在本研究中,τ被定义为指示截尾组中到达安全的时间的阈值。我们根据患者在MICU停留的中位数,将72小时作为阈值。
用Weibull分布算法进行Char-GRU的结果是对应Weibull模型的形状和尺度的2个参数。这两个参数可以通过中提出的函数计算可能性
患者总数为759例,包括37例心脏骤停患者和722例非心脏骤停患者。由于1例患者45个变量重复观察48次,因此心脏骤停患者的观察次数为1776次,删减患者的观察次数为34656次。因此,传递给GRU算法的输入数据的形状是一个36,432 × 48 × 45的三维数组。如果一个时间向量的45个变量缺失,我们应用掩码层,跳过向量和学习。然后依次传送到50个GRU单元的层。这一层的激活函数是一个全双曲正切函数。接下来,用双曲激活函数连接20个单元的全连接层。最后,将两个全连接层连接起来,分别用软加激活函数和指数函数估计威布尔分布的形状和尺度参数。
实现了五倍交叉验证测试(训练集:80%和验证集:20%),以确定模型准确性的一致性。总的来说,每次从每个数据集独立学习5个模型。对个体在每个时间步中发生心脏骤停的概率的聚合集进行时间依赖的受试者工作特征(ROC)分析,该集合来自5个验证集[
数据预处理和模型实现的所有过程均通过开源编程语言R和Python进行。为了处理数据帧(即数据表)和数组格式的数据,使用了两个开源库—pandas和numpy。带有Weibull分布的Char-GRU是在Keras(版本2.2.2)中实现的,它是Tensorflow(版本1.10.0)的包装器库,也是支持深度学习算法实现的代表性开源工具。该算法在代码级别上的详细概念和机制已经在以前的研究中很好地记录了[
2015年3月至2017年3月,在峨山医院ICU住院的759名患者参加了这项研究。描述性分析分为两大类:人口统计学(3个变量)和诊断状态(8个变量)。学生
患者的人口统计和基础疾病的描述性统计。
变量 | 心脏组(n=37) | 截尾组(n=722) |
|
|||||
|
||||||||
|
年龄(年),平均值(SD) | 62.509 (12.311) | 60.526 (13.991) | <措施( |
||||
|
重量(kg),平均值(SD) | 59.734 (13.166) | 57.816 (13.435) | <措施( |
||||
|
|
. |
||||||
|
|
男性 | 28 | 451 |
|
|||
|
|
女 | 9 | 271 |
|
|||
|
||||||||
|
|
|
||||||
|
|
是的 | 8 | 105 |
|
|||
|
|
没有 | 29 | 617 |
|
|||
|
|
|
||||||
|
|
是的 | 8 | 111 |
|
|||
|
|
没有 | 29 | 611 |
|
|||
|
|
|
||||||
|
|
是的 | 2 | 28 |
|
|||
|
|
没有 | 35 | 694 |
|
|||
|
|
|
||||||
|
|
是的 | 0 | 10 |
|
|||
|
|
没有 | 37 | 712 |
|
|||
|
|
|
||||||
|
|
是的 | 4 | 61 |
|
|||
|
|
没有 | 33 | 661 |
|
|||
|
|
|
||||||
|
|
是的 | 12 | 218 |
|
|||
|
|
没有 | 25 | 504 |
|
|||
|
|
|
||||||
|
|
是的 | 0 | 18 |
|
|||
|
|
没有 | 37 | 704 |
|
|||
|
|
|
||||||
|
|
是的 | 3. | 76 |
|
|||
|
|
没有 | 34 | 646 |
|
一个括号外的数字表示
由于本研究进行了5个交叉验证程序,因此5个模型都是独立训练的。
总体而言,曲线下5个时间相关区域(TAUCs)是使用5个验证集的聚合集(
基于折叠变化的时变接收机工作特性分析结果。AUC:曲线下面积。
心脏骤停组与非心脏骤停组的风险概率比较。x轴表示时间点,y轴表示每个时间点对应每个患者获得的心脏骤停概率密度值的分布。
预测心脏骤停的另一个问题是预测何时发生心脏骤停。通过模型从每个时间点推断出的形状和尺度,得到累积分布函数。利用48个时间点的威布尔分布参数,绘制了累积分布函数对应的曲线(A in
(A)心脏骤停患者48个时间点从预测时间点到审查时间点的累计分布函数线;每条函数行都用颜色编码。(B)预测患者心脏骤停前的剩余时间;为了可读性,y轴限制在25小时以内。pTime:预测时间。
相反,某一无心脏骤停患者的累积分布函数分布表明,在所有时间点上,概率不随时间增加(ain
(A)无心脏骤停患者48个时间点从预测时间点到审查时间点的累计分布函数线;每条函数行都用颜色编码。(B)预测患者心脏骤停前的剩余时间;为了可读性,y轴限制在25小时以内。pTime:预测时间。
在本研究中,我们利用电子病历,通过机器学习建立了危重患者心脏骤停的预测模型。除生命体征外,我们还将基础疾病、实验室数据、用药、器官衰竭等作为参数,以提高预测模型的准确性。TTE在8、16和24小时时的TAUCs分别为0.942、0.91和0.811,模型性能随TTE的增加而降低。
在先前与心脏骤停预测相关的研究中,预测事件是否在预定义的预测时间窗口内发生的建模技术经常被实现[
心脏骤停的早期发现和及时纠正是降低危重病人死亡率的关键。为了在临床上确定谁的病情不稳定或谁的病情会恶化,许多重症监护医师经常仔细检查重症监护患者的生命体征,如血压、心率、呼吸频率和外周毛细血管氧饱和度[
由于临床变量随时间的累积和波动效应可以在深度学习算法中反映出来,因此使用长时间序列数据来预测心脏骤停是理想的。然而,在患者积累了足够的时间序列数据之前,不采取任何行动是不合适的。在临床环境中等待足够的时间(即48小时)来积累患者的时间序列数据对患者和重症监护医生来说都是不可取的。即使变量还没有积累足够的时间,也应该有一个可用的模型。在这种情况下,Char-GRU结构允许模型使用临床变量。具体而言,Char-GRU模型可以利用累积到当前时间(即进入ICU后3小时)的临床变量来预测患者心脏骤停的风险[
疾病发作的早期检测在深度学习算法结构和数据管道的配置方面具有挑战性,因为没有参考
本研究存在一定的局限性,在将Char-GRU与Weibull分布算法应用于临床之前,需要在进一步的研究中加以解决。在这项研究中,没有进行严格的验证,而专注于使用临床数据实现算法。由于仅使用了1家医疗机构的临床数据,因此需要进行各种额外的验证来推广结果。为了进行严格的验证,建议使用已发布的数据验证基于深度学习的威布尔模型,如修改后的预警评分[
另一个限制是无法完全控制收集数据中某些效应的反映,这可能会影响模型结果。例如,来自被认为处于非常危险状态的接受治疗的患者的数据可能会对高危组的时间序列特征造成偏差[
医院的心脏骤停存活率约为24%,即使存活下来,患者也会出现脑损伤等致命问题[
补充数字和表格。
字符级门控循环单元
门控循环装置
重症监护室
院内心脏骤停
四分位范围
医疗重症监护室
接收机工作特性
曲线下随时间变化的面积
活动时间
本研究得到了韩国首尔峨山医学中心峨山生命科学研究院(资助号2017-502)、韩国卫生福利部资助的韩国健康产业发展研究院(KHIDI)的韩国健康技术研发项目(资助号HI19C1015)和韩国政府资助的国家研究基金会(NRF)生物与医疗技术发展计划(MSIT;nrf - 2019 m3e5d4064682)。
没有宣布。