发表在10卷,第8号(2022): 8月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/37658,首次出版
使用不同深度学习模型预测重症监护病房患者实验室值异常:比较研究

使用不同深度学习模型预测重症监护病房患者实验室值异常:比较研究

使用不同深度学习模型预测重症监护病房患者实验室值异常:比较研究

原始论文

1信息理论与数据分析主席,Rheinisch-Westfälische德国亚琛理工大学

2德国亚琛工业大学附属医院Rheinisch-Westfälische重症监护室

3.德国特里尔应用科技大学,德国特里尔

通讯作者:

艾哈迈德·阿亚德理学硕士

信息理论和数据分析主席

Rheinisch-Westfälische亚琛工业大学

Kopernikusstraße 16

亚琛,52074

德国

电话:49 (241)80 20750

电子邮件:ahmad.ayad@inda.rwth-aachen.de


背景:近年来,医学知识和健康数据的数量迅速增加。例如,电子健康记录(EHRs)可用性的提高提供了关于患者在护理点的准确、最新和完整的信息,并使医务人员能够快速访问患者记录,以实现更协调和更有效的护理。随着知识的增长,精确的循证医学的复杂性也在不断增加。卫生保健工作者必须处理越来越多的数据和文件。同时,相关的患者数据经常被一层不相关的数据所掩盖,导致医务人员经常错过重要的值或异常趋势及其对患者病情进展的重要性。

摘要目的:这项工作的目的是分析当前重症监护病房(ICU)患者的实验室结果,并分类哪些实验室值可能在下次进行测试时异常。检测近期异常可以帮助临床医生在ICU的决策过程中,通过将他们的注意力吸引到重要的价值,并专注于未来的实验室测试,节省他们的时间和金钱。此外,这将使医生有更多的时间与病人相处,而不是浏览一长串的化验结果。

方法:我们使用结构化查询语言从MIMIC-III和eICU数据集中提取25个ICU机械通气患者的实验室值。此外,我们采用了带时间窗的采样和保持,以及支持向量机来填充稀疏时间序列中的缺失值,以及Tukey范围来检测和删除异常。然后,我们使用这些数据来训练4个用于时间序列分类的深度学习模型,以及一个基于梯度提升的算法,并比较它们在两个数据集上的性能。

结果:在这项工作中测试的模型(深度神经网络和梯度增强)与预处理管道相结合,在多标签分类任务上实现了至少80%的准确率。此外,基于多重卷积神经网络的模型在两个数据集上都优于其他算法,准确率超过89%。

结论:在这项工作中,我们表明使用机器学习和深度神经网络来预测近期实验室值的异常可以获得令人满意的结果。我们的系统在两个已知的数据集上进行了训练、验证和测试,以确保我们的系统尽可能地弥合现实差距。最后,该模型可与我们的预处理流水线结合,用于现实生活中的电子病历,以提高患者的诊断和治疗。

中国生物医学工程学报;2010;31 (8):563 - 567

doi: 10.2196/37658

关键字



背景

机器学习和数据分析方法用于各种应用,例如异常检测[1]、文本分类[2]、图像分割[3.]和时间序列预测[4]。机器学习最近变得非常流行的一个领域是医学。在医学方面,由于数据可用性的提高,现在有了其他应用。特别是医学影像[5]及电子健康纪录[67]在这里代表了突出的例子。在医学图像检测疾病(如肺炎)方面已经做了很多研究。8],这是由计算机视觉的进步推动的。此外,电子病历允许使用机器学习模型执行许多任务,例如预测住院时间[9]和脓毒症患者的死亡率[10]。在这些研究中,作者使用电子病历来训练他们的机器学习模型。然而,电子病历拥有如此多的数据,使用合适的工具,它们可以支持许多有价值的应用程序。

在本研究中,我们考虑重症监护病房(ICU)重症患者的治疗。在这些患者的整个治疗过程中,定期收集实验室数据。由于在ICU中需要监测的数值非常多,有时可能超过100个实验室测试[11],重要的异常或趋势可能不会被注意到。这可能导致不理想的治疗策略和并发症在病人的情况下。例如,COVID-19患者实验室值的早期变化是死亡率的重要预测指标[12]。对实验室异常的正确分析可以指导治疗策略,特别是在早期发现可能危及生命的病例时。这应有助于资源分配,并通过允许及时干预来挽救生命。此外,卫生保健工作者30%-50%的时间都在电脑前,必须处理大量的患者数据[1314]。节省下来的时间可以让他们有更多的时间和病人在一起。

之前的工作

由于大数据最近在医疗领域的可用性,特别是电子病历,人们对将机器学习工具应用于医疗应用的兴趣越来越大。由于实验室测量的采样不一致、丢失值的频率高以及存在噪声数据,处理来自电子病历的医疗数据可能相当具有挑战性。此外,在将机器学习算法应用于医疗数据之前,没有标准化的方法来处理这些数据。尽管如此,许多作者已经设法处理数据并将机器学习算法应用于医疗序列建模。作者(15]开发了一种掩蔽的自我注意机制,该机制使用位置编码和密集插值策略来整合时间顺序。作者在MIMIC-III数据集上训练和测试了他们的模型,与循环神经网络(rnn)相比,他们在模型上取得了更好的性能。基准测试任务包括预测死亡率(分类)、住院时间(回归)、表型(多标签分类)和失代偿(时间序列分类)[16]。虽然基准测试任务包括分类任务,但这些任务都不包括实验室值或具有大量稀疏数据的不规则采样序列的建模。创建基准是为了在从MIMIC-III数据集中提取的特定类型的医疗数据上比较不同的机器学习模型,并且仅涵盖4个任务。然而,MIMIC-III有更多的数据,可以允许执行更多的任务,如本研究中的一个。

也有一些研究比较了从不规则采样时间序列中学习的不同方法和机器学习算法,这主要是在医学领域。例如,作者[17比较允许从不同形式的不规则时间序列中学习的建模原语,如离散化、插值、递归、注意和结构不变性。作者讨论了每种建模原语的优缺点以及它们适合的任务。另一项研究[18使用了一种基于递归的方法,使用了称为门控递归单元(gru)的rnn的特定版本,并讨论了使用它而不是其他方法的优点。此外,作者[19]提出了一种早期检测败血症的系统,该系统使用基于插值的方法进行数据输入,然后使用时间卷积网络(tcn)和动态时间翘曲。作者使用多任务高斯过程进行多通道数据输入,随后使用TCN模型预测未来败血症诊断的概率。作者证明,他们提出的算法优于最先进的败血症检测算法。相比之下,我们使用基于离散化的方法,然后进行数据输入,将不规则采样的时间序列转换为定期采样的时间序列,因为它提供了一种简单的方法来理解、调试和实现一个框架,以处理敏感的实验室值,这些值可以有效地推广到其他电子病历。

本研究目的

这项工作的目的是分析ICU患者的实验室结果(实验室值),并将这些实验室值中哪些预测将很快超出正常范围(下次进行这些测试时),哪些预测将正常。这使卫生工作者能够关注这些实验室值、它们的重要性、它们与患者当前病例的关系以及它们对患者未来病情的影响。这可能会减少ICU的住院时间和死亡率[20.]。此外,卫生保健工作者可以将未来的测试重点放在这些实验室值上,而不是浪费时间和资源在不必要的测试上,这些测试约占ICU订购测试的50% [21]。最后,它将使医务人员减少检查所有实验室值所需的时间,并将注意力集中在相关的实验室值上,使他们有更多的时间与患者相处[14]。


问题定义

手头的任务是预测未来在ICU的一段时间内,哪些实验室值是正常的,哪些是异常的。输入数据包含患者的人口统计数据和实验室数值,从他们入院到住院结束。输出是一个二进制向量,其中每个数字表示在未来4小时内特定实验室值异常(1)或正常(0)的可能性。因此,我们的问题是一个“多对一”或多标签分类问题。此外,我们选择了4小时的时间窗口,因为在MIMIC-III和eICU中发现的大多数实验室值每4小时记录一次。因此,使用此时间步长将引入最少数量的数据工件,特别是考虑到在较小的时间框架(如1小时)中实验室值的变化是不明显的。其他作者也使用了相同的实验值时间窗[22]。最后,系统总体框图如图所示图1

图1所示。整体异常检测系统在实际应用中。DNN:深度神经网络。
查看此图

数据和队列定义

用于训练、验证和测试不同预测模型的数据来自MIMIC-III数据库。这是一个数据库,包含了31,532名在贝斯以色列女执事医疗中心的重症监护室住院的患者的数据[6在2001年至2012年期间。我们还使用了来自eICU合作研究数据库的数据[7]。它是由飞利浦eICU项目创建的重症监护研究的多中心数据库。它包含来自美国335个ICU单位的200,859个ICU住院的数据。在这两个数据库中,唯一的ICU住院ID与每个唯一的ICU住院相关联。

我们的队列研究重点是ICU的机械通气患者。由于COVID-19病毒导致重症监护病房接受机械通气的患者数量急剧增加,这一队列现在确实具有相关性。对于这些患者来说,了解哪组实验室值有异常趋势并予以关注是至关重要的,因为这与病例的发展有直接关系[12]。在之前的一项研究中使用了相同的队列,该研究侧重于使用强化学习动态优化重症监护中的机械通气[22]。在这个队列中,我们提取了25,086例eICU和11,943例MIMIC-III ICU患者的机械通气事件。ICU患者的住院时间为12 ~ 72 h,以4小时为步长。患者人口统计和临床特征显示于表1

输入数据包括3个人口统计学特征(年龄、性别、体重)和25个实验室值(白细胞计数、PaCO)2血红蛋白等)。所选择的实验室值与机械通气患者最相关,如莱茵大学医院Westfälische亚琛工业大学(RWTH)的医疗团队成员在其先前的工作中所示[22]。在多媒体附录1,从MIMIC-III和eICU数据集中选择的特征与其均值和标准差一起列出。

输出是一个长度为25的二进制向量。为了将实验室数值转换为二进制值,我们使用了美国医师学会(American College of Physicians) [23]。最后,用于从两个数据库中提取队列数据的结构化查询语言(SQL)查询包含在Git存储库中[24]。

表1。研究人群的临床及人口学特征[16]。
财产 MIMIC-III数据集 eICU数据集
icu数量一个 5 335
数据采集时间跨度 2001 - 2012 2014 - 2015
纳入病例数(N) 11443年 23699年
年龄(岁),中位数(IQR) 66.9 (56.3 - -77.5) 65.0 (54 - 74)
体重(kg),平均值(SD) 85.7 (18.1) 83.5 (22.0)
性别,女性,n(%) 4329例(36.3%) 10546例(42%)
性别,男性,n (%) 7614例(63.7%) 14540例(58%)
住院死亡率,% 11.1 13.2
洛杉矶bICU(天),中位数(IQR) 3.1 (1.6 - -6.1) 3.0 (1.71 - -5.9)

一个ICU:重症监护病房。

bLOS:停留时间。

预处理

从MIMIC-III和eICU数据集中提取的患者原始数据非常稀疏,并且有几个缺失值。因此,有必要进行预处理,为机器学习管道准备数据。首先,采用带时间窗的采样保持方法处理缺失值;在这种方法中,数据样本被保持(重复),直到下一个可用的数据样本或达到最大保持时间。对于每个特征,我们进行了频率分析,以确定产生新测量的频率。获得连续测量时间差的计数,当它们的累积和超过阈值时,将第一个值作为保持时间。当特征的保持时间超过这个最大值时,数据点被认为是损坏的[25]。对于其余的缺失值,使用奇异值分解的k近邻imputation和均值imputation [26]。任何数据缺失超过50%的ICU住院均被丢弃(在整个队列中发生率<1%)[22]。最后,使用Tukey极差检验来检测和删除异常值。有关预处理步骤的详细说明见Git资料库[24]。

预测系统概述

用于预测患者实验室值异常的整体系统架构见图2.在执行前面解释的预处理步骤之后,输出时间序列将分为两种主要类型:人口统计数据和实验室值。每次ICU住院将使用移动窗口技术分成多个较短的序列。图3提出一例ICU住院时间L=11(44小时)。在这里,X表示患者在时间步长的输入数据向量+,Y表示患者的输出二进制向量。窗口大小W+在8个序列中,我们从停留中提取了3个子序列。例如,W1包括输入向量[X0: X7]和输出二进制向量Y8.将移动窗口的过程应用于数据集(MIMIC-III, eICU)中的ICU停留。然后,将得到的子序列进行洗牌,并用于训练、验证和测试我们实验过的不同机器学习模型,如下所示图2.这意味着来自同一ICU住院的窗口子序列可以分布在训练集、验证集和测试集之间。此外,我们尝试了不同的窗口大小之间W = 5W = 10并在结果一节中解释,在所有模型中选择给我们最好结果的模型。

我们尝试预测精确的数值实验室值(回归问题),然后在将预测值与正常范围进行比较后将预测输出转换为二进制向量。然后训练模型以最小化最小平方误差损失。结果比直接预测输出二值向量并对二值交叉熵损失进行优化的结果差10%-20%。因此,我们选择了这个系统模型。

图2。在MIMIC-III数据集上进行训练并在eICU数据集上进行测试时,我们研究中使用的整体系统模型。ICU:重症监护病房;Sigmoid是一个激活函数;L:实验室值;时间步长。
查看此图
图3。移动窗口技术提取重症监护病房留置序列。X和Y分别表示输入和输出数据;W表示从输入序列中提取的窗口。
查看此图

预测模型

在我们的场景中,预测模型的目标是预测给定输入序列的实验室值异常。机器学习问题是一个多标签分类问题,因为多个lab值同时被分类为正常或异常(multiclass),并且多个lab值同时可能被分类为异常(multilabel)。我们实验了四种当前的深度学习(DL)方法:长短期记忆(LSTM)、带时间编码的自注意(变压器架构)、卷积神经网络(CNN)和TCN。在下面的小节中,将简要讨论每个模型体系结构。对这些模型进行了更详细的解释多媒体附录2(227-39]。

LSTM模型

LSTM是一种能够从长序列数据中学习的RNN。DL模型中典型的LSTM层由多个LSTM单元组成。另一种类似但更简单的细胞结构称为GRU [4]。我们在模型中实验了这两种细胞类型,并选择了LSTM,因为它的性能更好。我们实验中使用的架构如图所示图4.所有的实验值将被输入到LSTM块中,以便从顺序数据中学习。每个LSTM块包括一个LSTM层,该层具有“tanh”作为内置激活函数。然后,在序列数据通过这些层之后,将出现批处理归一化层,这些数据将与人口统计特征连接起来。然后,连接的数据将经过一堆完全连接的层,以具有s型激活函数的最后一个密集层结束。在前向传播期间,输出概率将与阈值进行比较,以产生用于计算损失和其他评估指标的二进制标签。

图4。实验中使用的LSTM架构。LSTM:长短期记忆;ReLU:整流直线单元;Tanh、ReLU和Sigmoid是激活函数。
查看此图
CNN模型

cnn学习优化它们的核,以连续的方式从输入数据中提取信息。此外,它们在时间序列预测和分类问题上也很有效[27],通常在总训练时间方面优于lstm,而且计算效率更高[28]。在我们的例子中,我们使用了一维多重CNN (M-CNN),其中的核(过滤器)沿着时间轴移动,对所有特征执行卷积操作。内核大小定义了一个内核在任何时间点覆盖的时间步长。

除了接受1个输入流的普通CNN外,我们开发了一个架构,可以并行接受2个输入序列流。每个流将使用不同的过滤器进行处理。这确保了我们捕获序列中的短期依赖关系以及长期依赖关系。网络架构如图所示图5

图5。在我们的实验中使用了多个卷积神经网络模型架构。Conv1D: 1D卷积层;LeakyReLU:漏整流线性单元;ReLU:整流直线单元;Sigmoid、LeakyReLU和ReLU是激活函数。
查看此图
变压器模型

变形金刚是一种最新的神经网络架构,源自早期研究中首次提出的注意力机制[29]。该机制最初是为翻译任务设计的,而翻译任务早先是使用rnn完成的。

在自然语言处理任务中,变压器通常使用一组叠加的正弦函数来表示单词的位置。然而,在时间序列任务中,我们需要将时间的含义附加到输入中。作者(30.]已经引入了一种方法,其中每个输入特征被表示为一个线性分量和一个周期分量。最后的结果将是一个时间步长的学习向量表示,它将在注意层之前与输入数据相连接。我们开发的模型体系结构如图所示图6

图6。在我们的实验中使用的变压器架构。Conv1D: 1D卷积层;Time2Vec:时间到向量的变换;ReLU:整流直线单元;ReLU和Sigmoid是激活函数。
查看此图
TCN模型

tcn首先用于基于视频的动作分割[31]。不久之后,它们被用于序列建模任务,如检测败血症[19]。TCN与传统的CNN有两个不同之处;首先,TCN可以接受任意长度的序列,并使用0填充输出相同长度的序列;其次,TCN执行因果卷积。一般来说,tcn是有利的,因为与rnn不同,它们可以用更少的内存并行训练。此外,它们支持可变长度的输入,可以很容易地取代任何现有的RNN。图7展示了我们设计并在实验中使用的TCN架构。

图7。在我们的实验中使用的TCN架构。LeakyReLU:漏整流线性单元;ReLU:整流直线单元;TCN:时间卷积网络;LeakyReLU、ReLU和Sigmoid是激活函数。
查看此图

评价指标

在我们的工作中,我们预测了未来时间步长的输出二进制向量,而不是实际的数值实验室值。我们尝试将模型训练为回归模型,预测实际数值并最小化最小平方误差。然后,我们使用推荐的范围将预测的数值输出转换为二进制向量。然而,当我们将模型作为直接预测二元向量的多标签、多类别分类器处理时,我们得到了更好的结果。因此,我们使用的评估指标是二进制精度、精度、召回率和F1分数。

评价设置

由于我们同时预测多个实验值,并且所有的类都是同等重要的,因此我们使用微平均来计算全局的准确性、精密度、召回率和F1。这些评估指标用于评估模型的训练、验证和测试。此外,为了对模型进行比较,还进行了以下几点:首先,使用Keras Tuner库对模型的架构和超参数进行了优化[40以确保模型达到最佳状态。其次,对模型进行训练以优化二值交叉熵损失[41]。第三,在连续10个epoch验证损失小于0.01时,采用提前停止方法停止模型的训练。这减少了模型过拟合的机会。第四,我们在模型训练过程中为所有随机过程设置种子,以确保结果的可复制性。最后,我们对所有模型使用相同的阈值(TH=0.5)和相同的窗口大小(序列长度=6),以确保公平的比较。对于短于6个时间步的序列(ICU住院时间<24小时),我们使用0填充。此外,我们实现了一种基于梯度增强的方法(LightGBM),用于与基于dl的方法进行比较。LightGBM是性能最好的非基于dl的算法之一,在时间序列分类任务上表现良好[32]。

我们试验了两种训练模型的方法。在第一种方法中,我们训练模型并在MIMIC-III数据集上验证它们。然后,我们在MIMIC-III和eICU数据集上对它们进行了测试,如图2.在第二种方法中,我们在eICU数据集上训练和验证它们。然后,我们在eICU和MIMIC-III数据集上对它们进行了测试。表2显示每个数据集(窗口大小=6)中两种方法中使用的训练、验证和测试样本的计数。在这两种情况下使用了相同的患者队列,但eICU有更多的患者数据,导致比MIMIC-III更大的集合。最后,模型架构和超参数可以在我们的Git存储库中找到[24]和多媒体附录2

表2。两种训练方法中训练、验证和测试的样本计数。
方法 训练样本数量 验证样本数量 第一次测试样本的数量 第二次测试样本数
# 1 73190 (MIMIC-III) 12915 (MIMIC-III) 21526 (MIMIC-III) 196208 (eICU)
# 2 166776 (eICU) 29431 (eICU) 49052 (eICU) 86106 (MIMIC-III)

伦理批准

贝斯以色列女执事医疗中心(美国波士顿)和麻省理工学院(美国剑桥)的机构审查委员会批准了MIMIC-III数据库的数据收集、处理和发布。eICU数据库的数据收集、处理和发布已获得eICU研究委员会的批准,并免于机构审查委员会的批准。根据欧盟数据保护法,使用亚琛工业大学和亚琛工业大学医院的计算基础设施处理所有数据。


图8, 9和10,我们分别报告了不同模型在训练过程中的验证损失、F1分数和准确性。以“mimic”结尾的模型名称表示在mimic - iii数据集上训练,以“eicu”结尾的模型名称表示在eicu数据集上训练的模型。此外,由于在训练中使用了较早的停止,一些模型比其他模型更早停止训练。因此,它们的度量在停止点之后是恒定的。

表34,我们报告了不同模型的测试准确率、召回率、精度和F1分数。所有结果均为所有实验室值和测试样本的平均值。

由于我们期望我们的系统在医院的大量数据上连续运行,我们希望所选模型的性能足够好,以满足这种需求。因此,我们测量了模型的推理时间。实验在一台运行频率为3.60 GHz的Intel(R) Core i9-9900K处理器(Intel Corporation)的计算机上进行,使用32gb DDR4 RAM和Nvidia GTX 1080ti图形处理单元(Nvidia Corporation),运行Ubuntu(20.04版本,Canonical Ltd)、Python(3.8版本,Python Software Foundation)和TensorFlow(2.6版本,谷歌Brain)。表5报告整个批处理(批大小=128个样本)上每个模型的推理时间。

图8。不同模型的验证损失。LSTM:长短期网络;M-CNN:多重卷积神经网络;TCN:时间卷积网络;瓦尔。:验证;ICU:重症监护病房。
查看此图
图9。验证不同模型的F1得分。LSTM:长短期网络;M-CNN:多重卷积神经网络;TCN:时间卷积网络;瓦尔。:验证;ICU:重症监护病房。
查看此图
图10。不同模型的验证精度。LSTM:长短期网络;M-CNN:多重卷积神经网络;TCN:时间卷积网络;瓦尔。:验证;ICU:重症监护病房。
查看此图
表3。在MIMIC-III数据集上,不同模型对所有实验室值(微平均值)的测试结果一个
训练数据集和模型 精度 精度 回忆 F1的分数
MIMIC-III

LSTMb 0.85 0.83 0.87 0.85

美国有线电视新闻网c 0.86 0.84 0.85 0.84

M-CNNd 0.88 0.87 0.89 0.88

变压器 0.86 0.88 0.81 0.84

TCNe 0.86 0.87 0.85 0.86

LightGBMf 0.83 0.82 0.76 0.78
eICU

LSTM 0.8 0.79 0.81 0.8

美国有线电视新闻网 0.85 0.86 0.83 0.84

M-CNN 0.87 0.88 0.86 0.87

变压器 0.86 0.86 0.84 0.85

TCN 0.83 0.82 0.84 0.83

LightGBM 0.82 0.77 0.78 0.77

一个MIMIC-III下列出的模型在MIMIC-III数据集上进行训练,eICU下列出的模型在eICU数据集上进行训练。

bLSTM:长短期记忆。

cCNN:卷积神经网络。

dM-CNN:多重卷积神经网络。

eTCN:时间卷积网络。

fLightGBM:基于梯度增强的方法。

表4。不同模型对eICU数据集上所有实验室值(微平均值)的测试结果一个
训练数据集和模型 精度 精度 回忆 F1的分数
MIMIC-III

LSTMb 0.79 0.81 0.8 0.8

美国有线电视新闻网c 0.78 0.8 0.8 0.8

M-CNNd 0.8 0.8 0.83 0.81

变压器 0.75 0.82 0.69 0.75

TCNe 0.71 0.74 0.72 0.73

LightGBMf 0.75 0.78 0.75 0.76
eICU

LSTM 0.82 0.85 0.83 0.84

美国有线电视新闻网 0.85 0.86 0.83 0.84

M-CNN 0.89 0.9 0.91 0.9

变压器 0.86 0.87 0.88 0.87

TCN 0.89 0.88 0.89 0.89

LightGBM 0.82 0.77 0.78 0.77

一个MIMIC-III下的模型在MIMIC-III数据集上进行训练,eICU下的模型在eICU数据集上进行训练。

bLSTM:长短期记忆。

cCNN:卷积神经网络。

dM-CNN:多重卷积神经网络。

eTCN:时间卷积网络。

fLightGBM:基于梯度增强的方法。

表5所示。不同模型的推理时间。
模型名称 平均推理时间/批
LSTM一个 654毫秒
美国有线电视新闻网b 220毫秒
M-CNNc 285毫秒
TCNd 854毫秒
变压器 598毫秒
LightGBMe 121毫秒

一个LSTM:长短期记忆。

bCNN:卷积神经网络。

cM-CNN:多重卷积神经网络。

dTCN:时间卷积网络。

eLightGBM:基于梯度增强的方法。


在这项工作中,我们开发了一个端到端系统来从电子病历中提取和处理实验室结果,并应用各种机器学习算法来确定哪些实验室值在接下来的4小时内会超出范围,并且结果令人满意。这使医务人员能够专注于这些可以改善患者整体诊断和治疗的实验室值。此外,它可以帮助减少在不相关的实验室测试上浪费的时间和成本。为了实现这一目标,我们采取了以下步骤:首先,我们使用SQL查询从MIMIC-III和eICU数据集中提取我们队列的相关患者数据。其次,采用带时间窗的采样保持方法,结合k近邻插值、均值插值和奇异值分解来填补缺失值。此外,我们使用Tukey范围检验来检测异常并删除异常。第三,我们尝试了非深度学习方法,如LightGBM和4深度学习算法进行时间序列分类。基于dl的方法通过模型之间的映射和处理函数来堆叠模型,使用梯度下降或动量方法来优化拟合。像LightGBM这样的梯度增强方法在每次迭代中使用基本学习器模型在广义线性建模框架内迭代地拟合模型到误差项和平均结果,在基本学习器模型中引入惩罚项。最后,我们在两个著名的EHR数据集(MIMIC-III和eICU)上训练和测试了我们的算法。 Cross-validating our algorithms on these 2 data sets ensures not only a broader performance comparison, but also helps analyze how far the different algorithms can generalize on new unseen data.

对不同基于dl的模型的训练结果进行更深入的分析(图8(9和10)表明,在eICU数据集上训练的M-CNN模型在训练结束时的效果比其他任何模型都好。此外,我们可以看到,当在更多的数据(eICU数据集)上训练时,TCN和变压器模型的性能都得到了显着提高。的结果可以更好地理解这一点表34.首先,在eICU数据集上训练的模型更好地泛化了以前从未见过的两个数据集的数据。这是因为模型有更多的数据可以训练,所以他们可以看到更多的变化和他们学到的案例。另一方面,在MIMIC-III数据集(eICU训练样本大小的43%)上训练的模型在MIMIC-III的测试样本上表现良好,但在eICU的测试样本上表现较差。其次,在两种训练方法中,M-CNN模型在几乎所有的评估指标上都表现最好。CNN模型在许多序列建模任务上表现良好,通常优于LSTM或GRU等RNN架构。此外,在不同的基于dl的方法中,基于cnn的模型具有最少的可训练参数,并且占用的内存最少,这使得它们在训练数据量较少的数据集上表现更好。另一方面,标准的cnn只能处理固定大小的输入,并且通常关注由于其静态卷积滤波器大小而直接接近的数据元素。然而,结合多个CNN模型有助于进一步提高精度,通过应用具有多个滤波器大小的卷积并结合输出以给出更鲁棒的预测。此外,在我们的示例中,我们选择了一个静态的、相对较短的输入序列长度,从而减轻了长而可变长度序列的问题。 In case of long, variable length input sequences, a TCN will be a better candidate. A TCN employs techniques like multiple layers of dilated convolutions and padding of input sequences to handle different sequence lengths and detect dependencies between items that are not next to each other but are positioned on different places in a sequence. Furthermore, more complicated architectures like transformers and TCNs with many more trainable parameters would perform better if they had access to more data, which is often an issue in the medical field because of the scarcity of available training data. Therefore, M-CNN architectures are desirable for modeling medical time series data with static lengths and relatively short lengths like lab values requiring relatively smaller training data sets. Moreover, the M-CNN architecture can generalize well on unseen data when trained well, considering integrated measures for reducing overfitting during model training. An interesting fact is that despite not outperforming the M-CNN model, lightGBM performed as well (sometimes better) as some other DL-based approaches while requiring much less training time. Non-DL–based approaches can model problems with much less training data but require hand-crafted features and are very sensitive to outliers and variation in data. Further, removing seasonality is often needed when dealing with time series data. Finally, we can see that the LightGBM model is the fastest in terms of the inference time according to表5,其次是CNN模型,在基于dl的模型中速度最快。M-CNN模型尽管优于常规CNN模型,但在推理时间上慢了29%,这是预期的,因为模型有更多的参数。

总的来说,我们的综合分析显示了使用DL模型对ICU患者实验室值的未来异常进行分类的优势。虽然我们在2个最常用的电子病历数据集上测试了我们的算法,但还需要进一步的测试来评估整个流程在其他电子病历上的性能,包括预处理步骤和机器学习模型的调优超参数的泛化程度。尽管如此,我们相信这项研究可以帮助其他试图使用机器学习建模医学时间序列问题的研究人员。

致谢

这项工作由欧洲创新与技术研究所资助(资助EIT-Health 19549)。本研究的资助机构没有参与研究设计、数据收集、数据分析、数据解释或论文撰写。

作者的贡献

AA, AH, AP和LM提出了这个想法。AA和AH进行数据提取。AS、GD和GM提供了方法学上的输入。LF负责数据队列和SQL查询。AS和AH回顾了数学分析。AA和AH负责图表、表格和手稿的编写。LM可以完全访问研究中的所有数据。所有作者阅读并批准了最终提交的稿件。

利益冲突

AP, GM, LM, AS和GD是Clinomic GmbH的联合创始人。AP和LM是Clinomic GmbH的首席执行官。GM是Clinomic GmbH的高级医学顾问,GD和AS是科学顾问。其余所有作者声明他们没有利益冲突。

多媒体附录1

MIMIC-III和eICU数据集输入特征的统计特性。

PDF档案(adobepdf档案),84kb

多媒体附录2

使用模型的细节。

PDF档案(adobepdf档案),648kb

  1. Ayad A, Zamani A, Schmeink A, Dartmann G.物联网混合异常检测系统的设计与实现。2019年第六届物联网国际会议:系统、管理和安全(IOTSMS)。: IEEE;发表于:第六届物联网国际会议:系统、管理与安全;2019年10月22日至25日;格拉纳达,西班牙,第1-6页。(CrossRef
  2. 刘建军,刘建军,刘建军,等。慢性疾病临床记录的自然语言处理研究进展。中华医学杂志;2019;7(2):12239 [j]免费全文] [CrossRef] [Medline
  3. Isensee F, Jaeger PF, Kohl SAA, Petersen J, Maier-Hein KH。nnU-Net:基于深度学习的生物医学图像分割自配置方法。Nat Methods 2021 Feb;18(2):203-211。(CrossRef] [Medline
  4. Lim B, Zohren S.基于深度学习的时间序列预测。数学与物理学报(英文版);2013;31(4):20200209。(CrossRef] [Medline
  5. 阮总行,林凯,黎立荣,范洪辉,陈德清,阮德宝,等。vdr - cxr:带有放射科医生注释的胸部x光片开放数据集。ArXiv预印本于2020年12月30日在线发布[免费全文] [CrossRef
  6. Johnson AEW, Pollard TJ, Shen L, Lehman LH, Feng M, Ghassemi M,等。MIMIC-III,一个免费访问的重症监护数据库。Sci Data 2016;3:160035 [j]免费全文] [CrossRef] [Medline
  7. Pollard TJ, Johnson AEW, Raffa JD, Celi LA, Mark RG, Badawi O. eICU合作研究数据库:一个免费的多中心重症监护研究数据库。Sci Data 2018年9月;5:180178 [j]免费全文] [CrossRef] [Medline
  8. 孔磊,程杰。基于改进深度卷积神经网络模型的肺炎图像分类。PLoS One 2021;16(11):e0258804 [j]免费全文] [CrossRef] [Medline
  9. Daghistani TA, Elshawi R, Sakr S, Ahmed AM, Al-Thwayee A, Al-Mallah MH.机器学习方法在心脏病患者住院时间预测中的应用。中华心血管病杂志,2019;28(8):391 - 391。(CrossRef] [Medline
  10. 彭杰,高毅,龚晨,洪森,赖勇,苏晨。基于机器学习的急诊科脓毒症患者死亡率预测。中华临床医学杂志,2019;8(11):1906 [J]免费全文] [CrossRef] [Medline
  11. Frassica JJ。重症监护病房实验室检测的使用频率及其对大规模数据收集工作的影响。中华医学杂志,2005;12(2):229-233 [J]免费全文] [CrossRef] [Medline
  12. 李建军,张建军,张建军,等。实验室参数的早期变化是COVID-19患者死亡率和ICU入院的预测因素:一项系统回顾和荟萃分析中华微生物学杂志,2011;21 (1):33-47 [j]免费全文] [CrossRef] [Medline
  13. Butler R, Monsalve M, Thomas GW, Herman T, Segre AM, Polgreen PM等。使用传感器网络估计医生和其他卫生保健工作者在重症监护病房与患者相处的时间。中华医学杂志,2018;31(8):779 - 779。(CrossRef] [Medline
  14. 临床人工智能改善医疗保健。eit健康。URL:https://eithealth.eu/product-service/clinical-artificial- intelligence-improving-healthcare[2022-04-20]访问
  15. 宋海峰,张建军,张建军,等。临床时间序列分析:基于注意力模型的临床诊断。摘自:AAAI人工智能会议论文集。美国加州帕洛阿尔托:AAAI出版社;2018年4月出席:第32届AAAI人工智能大会;2018年2月2-7日;新奥尔良,洛杉矶,美国。(CrossRef
  16. 陈建军,陈建军,陈建军。基于时间序列数据的多任务学习方法研究。科学通报;2019;6(1):96 [j]免费全文] [CrossRef] [Medline
  17. 舒克拉SN,马林BM。不规则采样时间序列学习的原理、模型和方法综述。ArXiv预印本2020年11月30日在线发布[免费全文] [CrossRef
  18. 王光光,王刚,王伟。基于门控递归神经网络的不规则时间序列数据处理研究进展。神经计算机学报(英文版);2009;31(1):391 - 391。(CrossRef
  19. moore M, Horn M, Rieck B, Roqueiro D, Borgwardt K.基于高斯过程时间卷积网络的脓毒症早期识别。第四届医疗保健机器学习会议论文集,PMLR 2019 (8);106:2-26 [j]免费全文
  20. Tyler PD,杜华,冯敏,白锐,徐铮,Horowitz GL,等。重症监护病房实验室值与参考范围的差异及其与患者死亡率和住院时间的关系的评估。JAMA网络公开赛2018年11月1日(7):e184521 [j]免费全文] [CrossRef] [Medline
  21. mihaeil M, Day AG, Ilan R.重症监护病房非必要血液检测:一项前瞻性观察研究。中国生物医学工程学报,2017;64(3):290-295。(CrossRef] [Medline
  22. 王晓明,王晓明,王晓明,等。动态优化重症监护机械通气的强化学习算法的开发和验证。NPJ Digit Med 2021 Feb;4(1):32 [j]免费全文] [CrossRef] [Medline
  23. ACP内科会议。参考范围。URL:https://annualmeeting.acponline.org/educational-program/handouts/reference-ranges-table[2021-03-05]访问
  24. Ayad A, Hallawa A, Schmeink A. Lab值异常检测(AI-LAD)。a-ayad / AI_LAD2022.URL:https://git hub.com/a-ayad/AI_LAD[2022-01-25]访问
  25. 米特拉。数字信号处理:基于计算机的方法。欧洲:麦格劳-希尔教育公司;2010.
  26. Salgado CM, Azevedo C, proenpada H, Vieira SM。缺失的数据。电子健康记录的二次分析。瑞士Cham:施普林格;2016年9月。
  27. 石鑫,黄刚,郝鑫,杨艳,李铮。基于多通道CNN移动窗口的水泥煅烧过程煤电消耗同步预测模型。传感器(巴塞尔)2021 Jun;21(13):4284 [j]免费全文] [CrossRef] [Medline
  28. Bangyal WH, Qasim R, Rehman NU, Ahmad Z, Dar H, Rukhsar L,等。基于深度学习方法的COVID-19假新闻文本分类检测计算数学方法医学2021年11月;2021:5514220 [j]免费全文] [CrossRef] [Medline
  29. 张建军,张建军,张建军,等。注意力就是你所需的一切见:《神经信息处理系统进展》。: Curran Associates, Inc;发表于:第31届神经信息处理系统会议(NIPS 2017);2017年12月4日至9日;长滩,加州,美国https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
  30. Kazemi M, Goel R, Eghbali S, Ramanan J, Sahota J, Thakur S,等。Time2vec:学习时间的向量表示。ArXiv预印本2019年7月11日在线发布[免费全文
  31. 李建军,李建军,李建军。时间卷积网络:一种统一的动作分割方法。编辑:郭华,jsamou H。计算机视觉- ECCV 2016研讨会。2016年大会。计算机科学课堂讲稿。瑞士Cham:施普林格;2016年11月。
  32. 柯刚,bbbbq, Finley T,王涛,陈伟,马伟,等。LightGBM:一个高效的梯度增强决策树。见:《神经信息处理系统进展》。: Curran Associates, Inc;发表于:第31届神经信息处理系统会议(NIPS 2017);2017年12月4日至9日;长滩,加州,美国https://proceedings.neurips.cc/paper/2017/file/6449f44a102fde848669bdd9eb6b76fa-Paper.pdf
  33. 张建军,张建军,张建军,等。神经网络计算1997;9(8):1735-1780。(CrossRef] [Medline
  34. 李欣,陈生,胡欣,杨杰。方差移位理解dropout与批处理归一化的不协调。参见:2019年IEEE/CVF计算机视觉和模式识别(CVPR)会议论文集。: IEEE;2019年IEEE/CVF计算机视觉与模式识别大会(CVPR);2019年6月15日至20日;长滩,加州,美国。(CrossRef
  35. 李建军,李建军,李建军,等。基于卷积神经网络的人脸识别方法。神经网络学报,2003;16(5-6):555-559。(CrossRef] [Medline
  36. 蒋勇,陈磊,张宏,肖霞。基于小SE-ResNet模块的卷积神经网络乳腺癌组织病理图像分类。PLoS One 2019;14(3):e0214587 [j]免费全文] [CrossRef] [Medline
  37. 王辉,赵军,赵辉,李宏,王军。CL-ACP: CNN与LSTM并行结合的抗癌肽识别模型。生物医学信息学报,2010;22(1):512 [j]免费全文] [CrossRef] [Medline
  38. Maas AL, Hannun AY, Ng AY。整流器非线性改进了神经网络声学模型。第30届国际机器学习会议论文集。2013年6月发表于:第30届国际机器学习会议;2013年6月17日至19日;亚特兰大,佐治亚州,美国。
  39. 闫军,穆磊,王磊,Ranjan R, Zomaya AY。用于ENSO预报的时间卷积网络。科学通报2020;10(1):8055 [j]免费全文] [CrossRef] [Medline
  40. Keras调谐器库。keras-team / keras-tuner。2022.URL:https://github.com/keras-team/keras-tuner[2021-10-09]访问
  41. 墨菲KP。机器学习:一个概率的视角。美国:麻省理工学院出版社;2013.


有线电视新闻网:卷积神经网络
DL:深度学习
电子健康档案:电子健康记录
格勒乌:门控循环装置
加护病房:加护病房
LSTM:长短期记忆
M-CNN:多重卷积神经网络
RNN:循环神经网络
RWTH:莱茵大学Westfälische工业大学
SQL:结构化查询语言
TCN:时间卷积网络


C·洛维斯编辑;提交01.03.22;经H Turbe、E s8kei同行评审;对作者的评论11.04.22;收到订正版05.06.22;接受12.06.22;发表24.08.22

版权

©Ahmad Ayad, Ahmed Hallawa, Arne Peine, Lukas Martin, Lejla Begic Fazlic, Guido Dartmann, Gernot Marx, Anke Schmeink。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 24.08.2022。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map