发表在gydF4y2Ba在gydF4y2Ba9卷gydF4y2Ba, 4号gydF4y2Ba(2021)gydF4y2Ba: 4月gydF4y2Ba

本文的预印本(早期版本)可在gydF4y2Bahttps://preprints.www.mybigtv.com/preprint/25884gydF4y2Ba,首次出版gydF4y2Ba。gydF4y2Ba
基于临床血液检测数据预测COVID-19疾病严重程度的机器学习方法:统计分析和模型开发gydF4y2Ba

基于临床血液检测数据预测COVID-19疾病严重程度的机器学习方法:统计分析和模型开发gydF4y2Ba

基于临床血液检测数据预测COVID-19疾病严重程度的机器学习方法:统计分析和模型开发gydF4y2Ba

原始论文gydF4y2Ba

1gydF4y2Ba孟加拉国戈帕尔甘杰,Bangabandhu Sheikh Mujibur Rahman科技大学计算机科学与工程系gydF4y2Ba

2gydF4y2Ba拉杰沙希大学计算机科学与工程系,孟加拉国拉杰沙希gydF4y2Ba

3.gydF4y2Ba澳大利亚悉尼悉尼科技大学理学院三研究所gydF4y2Ba

4gydF4y2Ba澳大利亚悉尼达灵顿市悉尼大学工程学院复杂系统研究小组gydF4y2Ba

5gydF4y2Ba孟加拉国迈门辛格Jatiya Kabi Kazi Nazrul伊斯兰大学计算机科学与工程系gydF4y2Ba

6gydF4y2Ba沙特阿拉伯利雅得伊玛目穆罕默德·伊本·沙特伊斯兰大学理学院数学与统计系gydF4y2Ba

7gydF4y2Ba澳大利亚悉尼新南威尔士大学医学院精神病学学院gydF4y2Ba

8gydF4y2Ba澳大利亚维多利亚迪肯大学健康学院体育活动与营养研究所gydF4y2Ba

9gydF4y2Ba健康老龄化主题,加文医学研究所,达灵顿,澳大利亚gydF4y2Ba

10gydF4y2Ba世卫组织电子卫生合作中心、新南威尔士大学数字卫生、公共卫生和社区医学学院、新南威尔士大学医学院、澳大利亚悉尼gydF4y2Ba

这些作者的贡献相同gydF4y2Ba

通讯作者:gydF4y2Ba

穆罕默德·阿里·莫尼博士gydF4y2Ba

世卫组织电子卫生合作中心,新南威尔士大学数字卫生gydF4y2Ba

医学院公共卫生与社区医学学院gydF4y2Ba

新南威尔士大学gydF4y2Ba

肯辛顿gydF4y2Ba

悉尼,新南威尔士州2052gydF4y2Ba

澳大利亚gydF4y2Ba

电话:61 414701759gydF4y2Ba

电子邮件:gydF4y2Bam.moni@unsw.edu.augydF4y2Ba


背景:gydF4y2Ba准确预测COVID-19患者的疾病严重程度将大大改善医疗服务和资源分配,从而降低死亡风险,特别是在欠发达国家。许多与患者相关的因素,如预先存在的合并症,影响疾病的严重程度,可以用来帮助这种预测。gydF4y2Ba

摘要目的:gydF4y2Ba由于外周血样本的快速自动分析已经广泛可用,我们的目的是研究如何使用COVID-19患者外周血数据来预测临床结果。gydF4y2Ba

方法:gydF4y2Ba将统计比较、相关方法与机器学习算法相结合,对已知结局的COVID-19患者临床数据集进行调查;后者包括决策树、随机森林、梯度增强机的变体、支持向量机、k近邻和深度学习方法。gydF4y2Ba

结果:gydF4y2Ba我们的工作表明,血液样本中可测量的几个临床参数是区分健康人和COVID-19阳性患者的因素,我们展示了这些参数在预测COVID-19症状后期严重程度方面的价值。我们开发了许多分析方法,显示疾病严重程度预测的准确性和精密度评分为bb0 - 90%。gydF4y2Ba

结论:gydF4y2Ba我们开发了分析常规患者临床数据的方法,从而能够更准确地预测COVID-19患者的预后。通过这种方法,标准医院实验室对患者血液的分析数据可用于识别死亡风险高的COVID-19患者,从而优化医院设施以进行COVID-19治疗。gydF4y2Ba

中国生物医学工程学报;2011;31 (4):888 - 888gydF4y2Ba

doi: 10.2196/25884gydF4y2Ba

关键字gydF4y2Ba



SARS-CoV-2导致了当前的COVID-19大流行,这种疾病于2019年12月首次在中国湖北省爆发[gydF4y2Ba1gydF4y2Ba]。COVID-19患者的管理仍然存在问题和争议,尽管在这种最近出现的疾病中这是意料之中的。COVID-19的最初症状与影响呼吸系统的许多其他感染和炎症相似;它们包括发烧、打喷嚏和鼻炎、持续咳嗽和身体疼痛的疲劳[gydF4y2Ba2gydF4y2Ba]。然而,受感染的患者可迅速出现额外和更严重的症状,可能危及生命,需要重症监护干预;这些疾病包括肺炎、严重呼吸短促、腹泻、分散血栓和血管炎症[gydF4y2Ba3.gydF4y2Ba,gydF4y2Ba4gydF4y2Ba]。照顾COVID-19患者的另一个问题是存在与COVID-19相互作用的合并症,特别是肺部和血管疾病,这可能大大恶化患者的预后[gydF4y2Ba5gydF4y2Ba]。鉴于目前COVID-19缺乏有效的治疗方法,这是一个重要的考虑因素。然而,在治疗晚期疾病患者方面取得了显著进展;因此,预测患者预后不良的能力,表明需要更积极的治疗,有可能挽救生命,并使资源得到更有效的分配。gydF4y2Ba

重症监护病房(icu)是提高COVID-19重症患者生存率的关键;他们提供氧气,24小时监测和护理,并在需要时协助通气。因此,在COVID-19病例数高的地区,ICU床位是一种宝贵的资源[gydF4y2Ba6gydF4y2Ba-gydF4y2Ba8gydF4y2Ba]。因此,为感染患者分配医院病房或ICU床位需要快速决策过程,既要有效利用资源,又要减少患者的痛苦和死亡率。在世界许多地方,压力重重的护理系统在决定ICU床位分配方面面临重大困难;因此,一个智能、自动化的系统可能有助于改善护理和资源分配。世界卫生组织建议对所有疑似COVID-19患者采用直接检测病毒RNA的基于逆转录聚合酶链反应(RT-PCR)的诊断方法进行检测[gydF4y2Ba9gydF4y2Ba]。通过RT-PCR以外的方法进行测试,尚未显示出可接受的准确性。然而,RT-PCR检测可能需要数小时或数天才能最终确定检测结果,此时确诊患者的健康状况和感染状况可能会恶化。与其寻找一种新的单一快速检测方法来改进RT-PCR,另一种方法可能是使用许多不同的分析测试的结果,这些测试已经可用,并且可以使用现有设备快速执行[gydF4y2Ba10gydF4y2Ba,gydF4y2Ba11gydF4y2Ba]。使用生成的多维数据的最佳方式目前存在争议。gydF4y2Ba

通过现有设备对临床样本进行快速血液和血清学检测,可以监测许多感兴趣的外周血参数,其中一些参数表明器官功能的变化,并用于诊断一系列病症和疾病[gydF4y2Ba7gydF4y2Ba,gydF4y2Ba12gydF4y2Ba]。这就提出了一种可能性,即这种血液样本分析可以为COVID-19患者的疾病轨迹和合并症风险提供预测性信息。一些数据已经用于医生的审议;然而,许多可用的测试参数表明,不可知论统计或机器学习(ML)方法将提高这些决策的质量。因此,我们进行了全面的评估,检查了一系列统计和机器学习方法的效用。事实上,我们确定的算法显示出显著改善的结果估计。因此,这项工作有可能优化临床医生在当前COVID-19大流行期间面临巨大时间和资源压力的患者护理决策过程。gydF4y2Ba


数据集和分析gydF4y2Ba

我们在这项研究中使用了两个不同的数据集;第一组包括来自89名患者的数据,第二组包括来自1945名经RT-PCR确诊的COVID-19检测阳性患者的数据。对于第一个数据集[gydF4y2Ba13gydF4y2Ba],我们使用统计方法,如学生gydF4y2BatgydF4y2Ba检验、卡方检验和Pearson相关性,以确定能够强烈区分COVID-19患者和健康人的最显著和相关的血液参数。此外,为了比较COVID-19患者与健康患者的血液参数值,我们将各参数的标准值范围作为参考值。对于第二个数据集[gydF4y2Ba14gydF4y2Ba],除了统计方法外,我们还使用了几个ML模型来进一步确定血液参数,这些参数可以区分covid -19阳性患者是否有严重疾病的风险。gydF4y2Ba图1gydF4y2Ba描述了我们方法的ML分析工作流程的示意图。gydF4y2Ba

‎gydF4y2Ba
图1所示。提出了机器学习分析的方法和工作流程。ANN:人工神经网络;GBM:梯度增压机;ICU:重症监护病房;LGBM:光梯度增强机;非传染性疾病:非传染性疾病;SVM:支持向量机;KNN: k近邻;XGBoost:极端梯度增强。gydF4y2Ba
查看此图gydF4y2Ba

我们制定了识别重症COVID-19患者的任务,以便通过训练具有COVID-19患者血液样本临床数据特征的ML模型,为其选择合适的医院病房进行护理。从数据集中收集的感兴趣的原始数据经历了数据整理管道,包括去噪、缺失值输入、转换、规范化和分区。其次,在特征工程中采用了几种统计比较和相关方法,包括StudentgydF4y2BatgydF4y2Ba检验、卡方检验和Pearson相关。在此之后,每个数据集根据现有非传染性疾病(NCD)的标准进一步分为三类:有非传染性疾病、无非传染性疾病和所有数据。在我们的研究中,“非传染性疾病”指的是先前患有非传染性疾病或病症的患者。最后,训练和评估了一系列最先进的机器学习方法。使用的算法包括决策树(DT)、随机森林(RF)、梯度增强机(GBM)、极端梯度增强机(XGBoost)、支持向量机(SVM)、轻梯度增强机(LGBM)、k近邻(KNN)和基于人工神经网络(ANN)的深度学习序列模型。下面的小节将讨论每一个步骤。gydF4y2Ba

数据收集gydF4y2Ba

我们获得了两组不同的COVID-19患者数据集。第一个数据集是由Zenodo [gydF4y2Ba13gydF4y2Ba],包含89例新冠肺炎阳性患者的人口统计信息和血样信息。在该数据集中,31例患者在数据收集时存活,58例患者死亡。第二个更大的数据集是从基于web的Kaggle资源中获得的[gydF4y2Ba14gydF4y2Ba],其中包含1945名covid -19阳性患者的既往疾病、血液样本结果和生命体征数据的分组信息。这组数据的主要来源是巴西的医院,包括Sirio Libanes、ssao Paulo和Brasilia。数据集的参数包括患者年龄百分位数、性别和人口统计信息。一些患者先前存在非传染性疾病,包括高血压和免疫功能低下。检查的血液参数包括乳酸、呼吸速率、舒张压、血红蛋白、红细胞压积、静脉底过剩、白细胞、中性粒细胞、白蛋白、动脉底过剩、尿素、血小板、钾、收缩压、静脉POgydF4y2Ba2gydF4y2Ba,动脉OgydF4y2Ba2gydF4y2Ba饱和度,部分凝血活酶时间,体温,谷氨酰转移酶,静脉O值gydF4y2Ba2gydF4y2Ba饱和度,肌酐,国际标准化比值,静脉PCOgydF4y2Ba2gydF4y2Ba,静脉pH值,动脉碳酸氢盐,游离脂肪酸标记,静脉碳酸氢盐,钙,淋巴细胞,丙氨酸转氨酶,天冬氨酸转氨酶,动脉PCOgydF4y2Ba2gydF4y2Ba二聚体纤溶酶片段D (D-二聚体),氧饱和度,胆红素,动脉POgydF4y2Ba2gydF4y2Ba,动脉pH值,心率,脉搏和血糖。在我们研究的特征工程阶段,所有这些血液参数都被认为是特征。gydF4y2Ba

数据处理gydF4y2Ba

有关Zenodo数据集[gydF4y2Ba13gydF4y2Ba],其中包括89名covid -19阳性患者,我们首先删除了任何不需要的参数(例如,种族、BMI、饮酒或吸烟习惯)。然后我们消除了所有缺失值,得到了70例患者的数据集。在Sirio Libanes数据集中[gydF4y2Ba14gydF4y2Ba],有1945名患者进行了54种类型的测试。主数据集包含大量缺失值。该数据集是根据从当地医院收到的信息编制的,其中一些信息编制不完善,这是大多数数据缺少条目的一个重要原因。删除缺失参数值条目的基本原理是,当我们进行一项用平均值、中位数或回归值代入缺失值的初步研究时,观察到较差的预测性能。在原始数据集中,维度为1925 × 205,几乎57%的数据单元(单元格值)缺失;在消除不需要的属性后,丢失数据的数量增加到70%以上。如果我们考虑所有的数据并输入缺失的值,那么大部分的值都是推断出来的,分析结果是不可靠的。因此,我们排除了至少包含一个缺失值的条目。这种消除导致在第二个数据集中有545组患者数据条目不包含缺失值。在该数据集中的患者中,264例症状严重到需要住进ICU。 Both data sets underwent a denoising step, in which we removed unwanted strings. Standard scaling techniques were performed, such as feature scaling, in which the variance values of the data are scaled between 0 and 1; this is calculated by subtracting the mean value of a feature from the original value and then dividing by the standard deviation. After preprocessing, we considered data from 545 patients for the analysis. For a precise study, we then divided this data set according to whether a patient had a coexisting NCD (NCD) or not (no NCD). We found 264 patients with NCDs and 281 patients without NCDs; in the NCD and no NCD groups, 156 and 108 patients were respectively classed as displaying severe conditions. After this data preparation and preprocessing, we considered all these data for the statistical analysis. Due to the possibility of data leakage in ML analysis if we separated the test set and train sets after preprocessing, we first separated a randomly selected 80% of the grouped patient data for model training and used the rest for model validation testing, then performed the preprocessing steps.

鉴别最显著和相关血液参数的统计学方法gydF4y2Ba

在统计分析中,我们对分类变量Student使用卡方检验gydF4y2BatgydF4y2Ba对连续变量的检验,以及各种血液样本计数之间的皮尔逊相关性。原假设是来自COVID-19患者和健康人群的数据是独立的。根据agydF4y2BaPgydF4y2Ba值<。05,而在某些情况下,选择标准是经过错误发现率调整的gydF4y2BaPgydF4y2Ba值<。0.05,绝对值log2倍变化(LFC) <1。为了理解参数的变化(正或负)和变化的数量,我们计算了LFC。LFC=1表示值2变化1倍。进一步,对Pearson相关系数进行分层聚类,对显著参数进行分组[gydF4y2Ba15gydF4y2Ba-gydF4y2Ba17gydF4y2Ba]。gydF4y2Ba

分类COVID-19疾病严重程度的ML模型gydF4y2Ba

为了识别一组重要的血液样本作为特征选择步骤,我们采用了一组ML算法,使用COVID-19数据集,包括来自严重和非严重感染患者的数据。我们选择了已知可以执行分类任务的ML算法,这些算法具有优越的性能和快速的执行[gydF4y2Ba18gydF4y2Ba,gydF4y2Ba19gydF4y2Ba]。为此,我们考虑了一些分类器基于最大投票、平均和加权平均的基本集成学习方法,以及通过堆叠、混合、袋装和增强起作用的高级集成学习算法。集成学习算法是一种或多种基本算法的组合,具有高性能、高效、有效和易于调试的特点[gydF4y2Ba20.gydF4y2Ba,gydF4y2Ba21gydF4y2Ba]。gydF4y2Ba

接下来,我们将讨论ML算法在运行时所考虑的参数。在DT算法中,我们使用随机状态为42,标准为基尼,最小样本分裂为2。同样,在RF算法中,最小样本分割为2,估计器数量为100。支持向量机算法的参数为度和核缓存大小;该算法设置了一个度为3的多项式内核,为了快速执行,我们将内核缓存大小设置为200 MB。在GBM算法中,学习率为0.1,准则为friedman_mse,估计器个数为100。LGBM算法的学习率为0.05,特征分数为0.9,套袋分数为0.8,套袋频率为5。在XGB算法中,我们使用了一个基于树的增强器,其最大深度为6,学习率为0.1,估计器为1000。对于KNN算法,我们使用闵可夫斯基矩阵;权值均匀,邻居数为3 (k=3)。gydF4y2Ba

我们还实验了一个顺序深度学习模型,即前馈1D人工神经网络。该模型由一个输入层、三个隐藏层和一个输出层组成[gydF4y2Ba22gydF4y2Ba]。每一层都包含一组称为神经元的并行处理节点,这些节点从前一层的节点获取输入。所有隐藏层由整流线性单元激活,输出层由softmax函数激活,提供输入样本的类概率。该网络采用随机梯度下降优化算法,以分类交叉熵损失为收敛指标,学习率为0.0001,训练时间为1000 epoch。gydF4y2Ba

Shapley加性解释值计算gydF4y2Ba

为了衡量特征的重要性,我们从所有模型中计算Shapley加性解释(SHAP)值,以估计训练数据集样本中每个特征对模型整体决策的贡献程度[gydF4y2Ba23gydF4y2Ba]。SHAP使用博弈论规则来确定特定特征对模型决策的贡献。我们使用了TreeExplainer [gydF4y2Ba24gydF4y2Ba]和KernelExplainer [gydF4y2Ba23gydF4y2Ba]来计算特征的重要性。在找到所有模型的SHAP值之后,我们将值归一化在一个固定的范围内,并考虑平均值。gydF4y2Ba

ML模型的评估矩阵gydF4y2Ba

我们使用精度、召回率、F1分数、接收算子特征曲线下面积(AUC-ROC)和对数损失函数来评估模型的性能。精度描述了真阳性实例在所有预测阳性实例中所占的比例[gydF4y2Ba25gydF4y2Ba];相比之下,召回率显示了模型积极预测的实际真实实例的比例[gydF4y2Ba25gydF4y2Ba]。F1分数是查准率和查全率的调和平均值[gydF4y2Ba25gydF4y2Ba];我们计算F1分数来更好地评价准确率和召回率。分类器的AUC等于分类器将随机选择的正值排序高于随机选择的负值的可能性[gydF4y2Ba26gydF4y2Ba]。日志损失基本上也被用作分类指标;它是根据实际类别和预测类别的概率计算的[gydF4y2Ba27gydF4y2Ba]。日志丢失是最有用的评估指标之一。其功能描述如下:gydF4y2Ba

其中M表示类的数量,TgydF4y2Ba我gydF4y2Ba表示实际的类,p(TgydF4y2Ba我gydF4y2Ba)表示该类发生的概率。gydF4y2Ba


分析方法gydF4y2Ba

在本研究中,我们采用了两种场景来分析研究数据。在第一个场景中,我们应用了StudentgydF4y2BatgydF4y2Ba新冠肺炎阳性患者血细胞参数与正常范围的Pearson相关性检验。我们发现两种统计方法都能预测未成熟粒细胞(绝对)、血红蛋白AgydF4y2Ba1 cgydF4y2Ba纤维蛋白原和脂肪酶在covid -19阳性患者中具有显著意义。在第二种情况下,我们在严重程度计算中只考虑了covid -19阳性患者。我们还应用了两种不同的分析方法。第一个是学生gydF4y2BatgydF4y2Ba测试,第二个是一组ML方法。使用这两种方法,我们发现呼吸频率、乳酸、血压(收缩压和舒张压)、血红蛋白、红细胞压积、静脉和动脉碱过量、中性粒细胞、白蛋白、尿素、血小板计数和钾是患者疾病严重程度的良好指标,是COVID-19严重程度测量的一小部分预测指标。gydF4y2Ba

病人的人口统计gydF4y2Ba

严重和非严重症状患者数据的人口统计信息比较见gydF4y2Ba表1gydF4y2Ba。为了清楚地显示数据集中患者的分布情况,在这里附上了这个分布表。545例患者中,女性198例(36.3%),65岁以上257例(47.2%),ICU住院264例(48.4%)。仅纳入无非传染性疾病患者组(n=281),女性107例(38.1%),ICU住院108例(38.4%)。此外,在合并一种或多种非传染性疾病的患者组(n=264)中,65岁以上的患者167例(63.3%),入住ICU的患者156例(59.1%)。年龄百分位数显示在gydF4y2Ba图2gydF4y2Ba。gydF4y2Ba

表1。各患者组COVID-19患者的人口统计信息。gydF4y2Ba
特征gydF4y2Ba 值,n (%)gydF4y2Ba


所有患者(N=545)gydF4y2Ba 非传染性疾病患者gydF4y2Ba一个gydF4y2Ba(n = 281)gydF4y2Ba 非传染性疾病患者(n=264)gydF4y2Ba
年龄大约65岁gydF4y2Ba 257 (47.2)gydF4y2Ba 90 (32.0)gydF4y2Ba 167 (63.3)gydF4y2Ba
年龄百分比gydF4y2Ba

10日gydF4y2Ba 115 (21.1)gydF4y2Ba 63 (22.4)gydF4y2Ba 52 (19.7)gydF4y2Ba

20gydF4y2Ba 58 (10.6)gydF4y2Ba 41 (14.6)gydF4y2Ba 17 (6.4)gydF4y2Ba

30日gydF4y2Ba 55 (10.1)gydF4y2Ba 38 (13.5)gydF4y2Ba 17 (6.4)gydF4y2Ba

40gydF4y2Ba 60 (11.0)gydF4y2Ba 39 (13.9)gydF4y2Ba 21日(8.0)gydF4y2Ba

50gydF4y2Ba 50 (9.2)gydF4y2Ba 22日(7.8)gydF4y2Ba 28日(10.6)gydF4y2Ba

60gydF4y2Ba 53 (9.7)gydF4y2Ba 24 (8.5)gydF4y2Ba 29 (11.0)gydF4y2Ba

第70位gydF4y2Ba 55 (10.1)gydF4y2Ba 26日(9.3)gydF4y2Ba 29 (11.0)gydF4y2Ba

第80位gydF4y2Ba 49 (9.0)gydF4y2Ba 16 (5.7)gydF4y2Ba 33 (12.5)gydF4y2Ba

第90位gydF4y2Ba 50 (9.2)gydF4y2Ba 12 (4.3)gydF4y2Ba 38 (14.4)gydF4y2Ba

> 90gydF4y2Ba 54 (9.9)gydF4y2Ba 15 (5.3)gydF4y2Ba 39 (14.8)gydF4y2Ba
女性性别gydF4y2Ba 198 (36.3)gydF4y2Ba 107 (38.1)gydF4y2Ba 91 (34.5)gydF4y2Ba
入住ICUgydF4y2BabgydF4y2Ba 264 (48.4)gydF4y2Ba 108 (38.4)gydF4y2Ba 156 (59.1)gydF4y2Ba

一个gydF4y2Ba非传染性疾病:非传染性疾病。gydF4y2Ba

bgydF4y2BaICU:重症监护病房。gydF4y2Ba

‎gydF4y2Ba
图2。(A)两组患者、(B)非传染性疾病患者和(C)非传染性疾病患者的COVID-19患者年龄百分位数。非传染性疾病:非传染性疾病。gydF4y2Ba
查看此图gydF4y2Ba

SARS-CoV-2感染的重要血常规参数鉴定gydF4y2Ba

我们的第一个数据集包含确诊的covid -19阳性患者的89个血液参数。假设每个血液参数值在健康人群中呈正态分布,我们执行StudentgydF4y2BatgydF4y2Ba对测试的血液参数进行测试,以比较预期的范围值(见gydF4y2Ba图3gydF4y2Ba)与第一个数据集的COVID-19患者。学生的结合gydF4y2BatgydF4y2Ba试验和LFC分析显示,脂肪酶、c反应蛋白、降钙素原水平、红细胞沉降率、脑钠肽、铁蛋白、d -二聚体和肌酸激酶水平是COVID-19严重程度状态的8个最显著的候选预测参数gydF4y2BaPgydF4y2Ba值<。001和绝对lfc >1。gydF4y2Ba

我们申请了学生gydF4y2BatgydF4y2Ba对第二组数据集进行测试,试图通过识别与疾病严重程度目标变量相关的患者特征来区分重症和非重症covid -19阳性患者的症状;分析结果见gydF4y2Ba图4gydF4y2Ba。根据最显著的血液参数gydF4y2BatgydF4y2Ba测试结果包括乳酸、呼吸频率、舒张压、血红蛋白、红细胞压积、静脉基础过剩、白细胞、中性粒细胞、白蛋白、动脉基础过剩、尿素、血小板计数、钾和收缩压。gydF4y2Ba

‎gydF4y2Ba
图3。各项血液参数测量及显著差异(使用gydF4y2BatgydF4y2BaCOVID-19患者和非患者之间的检测。Adj.p-value:调整gydF4y2BaPgydF4y2Ba价值;二聚体:二聚的纤溶蛋白片段D。gydF4y2Ba
查看此图gydF4y2Ba
‎gydF4y2Ba
图4。血液参数与COVID-19疾病严重程度的关系关联和显著差异(使用gydF4y2BatgydF4y2Ba重症COVID-19和非重症COVID-19患者之间的差异。Adj.p-value:调整gydF4y2BaPgydF4y2Ba价值;D-二聚体:二聚的纤溶蛋白片段D;FFA:游离脂肪酸;-谷氨酰转移酶;INR:国际标准化比率。gydF4y2Ba
查看此图gydF4y2Ba

聚类和共表达分析gydF4y2Ba

我们还对不同血常规参数进行Pearson相关性检验。Pearson相关结果见gydF4y2Ba图5gydF4y2Ba。分层聚类的目的是观察在所有患者中哪些血液样本在其价值方面具有相似的属性。我们发现一些血液特征形成集群,这表明它们在患者中具有相似的特性。我们发现,在测试中确实存在一些等级集群,对所有患者都显示出同等的重要性。从总共59份血液样本中,我们发现了4种不同的一致性集群,它们彼此之间具有很强的相关性。第一组包括脉压和收缩压。第二组包括血红蛋白、红细胞压积和红细胞。第三组包括c反应蛋白、红细胞沉降率、舒张压和呼吸率。降钙素原水平、铁蛋白和肌酸激酶水平构成第四簇。gydF4y2Ba

‎gydF4y2Ba
图5。使用89例患者的数据集检查各种血液参数之间的相关热图。二聚体:二聚的纤溶蛋白片段D。gydF4y2Ba
查看此图gydF4y2Ba

使用ML模型预测重症COVID-19治疗gydF4y2Ba

在本节中,我们首先描述所采用的各种ML模型及其应用程序的性能。然后,我们提出了最重要的血液和身体体征参数简化集,可以精确区分严重COVID-19患者和非严重疾病患者。血液参数采集的减少对重症COVID-19患者的预后也有重要意义。gydF4y2Ba

对于第二个数据集的ML分析,我们应用了各自的方法和模型;它们的性能和评价矩阵见gydF4y2Ba表2gydF4y2Ba。在所有非传染性疾病患者和非传染性疾病患者的数据组中,我们发现RF和GBM方法的检测准确率得分最高,为89%,其他方法和模型的检测准确率为bb0 80%。RF和GBM的AUC最高(89%),其他方法和模型的AUC值为80 ~ 80。XGB和GBM的精密度最高,达到91%。KNN的召回率最高为93%,RF和LGBM的召回率最高为90%;其他方法的得分均在80%以上。RF的F1得分最高为90%,其他模型的F1得分均为80%。RF和GBM的对数损失值最低,为3.8%,其他方法和模型的对数损失值也特别低(即<7%)。在该患者组中,我们看到我们应用的所有模型在每个评估矩阵中都取得了良好的表现,准确率得分为bbb80 %;因此,在实践中,任何一种模型都可以使用。gydF4y2Ba

表2。每个数据组的精度和评估矩阵。gydF4y2Ba
数据集和矩阵gydF4y2Ba 射频gydF4y2Ba一个gydF4y2Ba LGBMgydF4y2BabgydF4y2Ba 支持向量机gydF4y2BacgydF4y2Ba DTgydF4y2BadgydF4y2Ba XGBgydF4y2BaegydF4y2Ba “绿带运动”gydF4y2BafgydF4y2Ba 然而,gydF4y2BaggydF4y2Ba 安gydF4y2BafgydF4y2Ba
结合gydF4y2Ba

精度gydF4y2Ba 0.89gydF4y2Ba 0.88gydF4y2Ba 0.84gydF4y2Ba 0.82gydF4y2Ba 0.88gydF4y2Ba 0.89gydF4y2Ba 0.84gydF4y2Ba 0.83gydF4y2Ba

AUCgydF4y2BaggydF4y2Ba 0.89gydF4y2Ba 0.88gydF4y2Ba 0.84gydF4y2Ba 0.82gydF4y2Ba 0.88gydF4y2Ba 0.89gydF4y2Ba 0.84gydF4y2Ba 0.82gydF4y2Ba

精度gydF4y2Ba 0.9gydF4y2Ba 0.88gydF4y2Ba 0.84gydF4y2Ba 0.83gydF4y2Ba 0.91gydF4y2Ba 0.91gydF4y2Ba 0.81gydF4y2Ba 0.92gydF4y2Ba

回忆gydF4y2Ba 0.9gydF4y2Ba 0.9gydF4y2Ba 0.88gydF4y2Ba 0.83gydF4y2Ba 0.86gydF4y2Ba 0.88gydF4y2Ba 0.93gydF4y2Ba 0.69gydF4y2Ba

F1的分数gydF4y2Ba 0.9gydF4y2Ba 0.89gydF4y2Ba 0.86gydF4y2Ba 0.83gydF4y2Ba 0.88gydF4y2Ba 0.89gydF4y2Ba 0.86gydF4y2Ba 0.79gydF4y2Ba

日志丢失gydF4y2Ba 3.8gydF4y2Ba 4.12gydF4y2Ba 5.39gydF4y2Ba 6.34gydF4y2Ba 4.12gydF4y2Ba 3.8gydF4y2Ba 5.39gydF4y2Ba 6.02gydF4y2Ba
与非传染性疾病gydF4y2BahgydF4y2Ba

精度gydF4y2Ba 0.91gydF4y2Ba 0.93gydF4y2Ba 0.84gydF4y2Ba 0.84gydF4y2Ba 0.87gydF4y2Ba 0.89gydF4y2Ba 0.77gydF4y2Ba 0.74gydF4y2Ba

AUCgydF4y2Ba 0.91gydF4y2Ba 0.92gydF4y2Ba 0.83gydF4y2Ba 0.84gydF4y2Ba 0.87gydF4y2Ba 0.89gydF4y2Ba 0.79gydF4y2Ba 0.71gydF4y2Ba

精度gydF4y2Ba 0.89gydF4y2Ba 0.89gydF4y2Ba 0.83gydF4y2Ba 0.85gydF4y2Ba 0.82gydF4y2Ba 0.82gydF4y2Ba 0.65gydF4y2Ba 0.77gydF4y2Ba

回忆gydF4y2Ba 0.97gydF4y2Ba 1gydF4y2Ba 0.91gydF4y2Ba 0.88gydF4y2Ba 0.85gydF4y2Ba 0.9gydF4y2Ba 0.85gydF4y2Ba 0.82gydF4y2Ba

F1的分数gydF4y2Ba 0.93gydF4y2Ba 0.94gydF4y2Ba 0.87gydF4y2Ba 0.86gydF4y2Ba 0.83gydF4y2Ba 0.86gydF4y2Ba 0.74gydF4y2Ba 0.79gydF4y2Ba

日志丢失gydF4y2Ba 3.03gydF4y2Ba 2.42gydF4y2Ba 5.45gydF4y2Ba 5.45gydF4y2Ba 4.56gydF4y2Ba 3.91gydF4y2Ba 7.82gydF4y2Ba 9.12gydF4y2Ba
无传染性疾病gydF4y2Ba

精度gydF4y2Ba 0.93gydF4y2Ba 0.91gydF4y2Ba 0.84gydF4y2Ba 0.86gydF4y2Ba 0.91gydF4y2Ba 0.88gydF4y2Ba 0.74gydF4y2Ba 0.74gydF4y2Ba

AUCgydF4y2Ba 0.92gydF4y2Ba 0.91gydF4y2Ba 0.83gydF4y2Ba 0.85gydF4y2Ba 0.9gydF4y2Ba 0.86gydF4y2Ba 0.73gydF4y2Ba 0.71gydF4y2Ba

精度gydF4y2Ba 0.89gydF4y2Ba 0.91gydF4y2Ba 0.83gydF4y2Ba 0.85gydF4y2Ba 0.89gydF4y2Ba 0.84gydF4y2Ba 0.74gydF4y2Ba 0.86gydF4y2Ba

回忆gydF4y2Ba 1gydF4y2Ba 0.94gydF4y2Ba 0.91gydF4y2Ba 0.91gydF4y2Ba 0.97gydF4y2Ba 0.97gydF4y2Ba 0.81gydF4y2Ba 0.48gydF4y2Ba

F1的分数gydF4y2Ba 0.94gydF4y2Ba 0.92gydF4y2Ba 0.87gydF4y2Ba 0.88gydF4y2Ba 0.93gydF4y2Ba 0.9gydF4y2Ba 0.78gydF4y2Ba 0.62gydF4y2Ba

日志丢失gydF4y2Ba 2.42gydF4y2Ba 3.02gydF4y2Ba 5.45gydF4y2Ba 4.85gydF4y2Ba 3.03gydF4y2Ba 4.24gydF4y2Ba 9.09gydF4y2Ba 9.09gydF4y2Ba

一个gydF4y2Ba随机森林。gydF4y2Ba

bgydF4y2BaLGBM:光梯度增强机。gydF4y2Ba

cgydF4y2BaSVM:支持向量机。gydF4y2Ba

dgydF4y2BaDT:决策树。gydF4y2Ba

egydF4y2BaXGB:极端梯度增强。gydF4y2Ba

fgydF4y2BaGBM:梯度增压机。gydF4y2Ba

ggydF4y2Bak近邻。gydF4y2Ba

fgydF4y2Ba人工神经网络。gydF4y2Ba

ggydF4y2BaAUC:曲线下面积。gydF4y2Ba

hgydF4y2Ba非传染性疾病:非传染性疾病。gydF4y2Ba

在无非传染性疾病患者的数据组中,我们发现RF的准确率得分最高,为93%,LGBM和XGB的准确率得分最高,为91%,SVM和DT的准确率得分较高,为80%。然而,KNN和ANN的准确率得分相对较低,为74%,因为我们对数据集进行分割时,数据的大小很小。RF的AUC最高,为92%;LGBM的AUC为91%,XGB为90%。LGBM的精密度最高,为91%,RF和XGB的精密度最高,为89%。LGBM的最高精度值为91%,除KNN(74%)外,其他方法和模型的精度值均为80 ~ 80%。RF的召回率为100%,XGB和GBM的召回率为97%;除人工神经网络(ANN)(48%)外,其他方法和模型的值均在80%以上。RF最高F1得分为94%;XGB得分为93%,LGBM得分为92%,SVM和DT得分为88%。 However, KNN and ANN achieved comparatively low F1 scores, with 78% and 62% respectively, because of the lower training sample sizes. The lowest log loss value was 2.42% for RF, and the other methods and models also demonstrated good log loss values below 10%. In this patient group, we observed that excepting KNN and ANN, all of the models achieved accuracy scores >80%, and the evaluation matrix showed good model performance. Therefore, the best-performing models could be usefully applied in clinical scenarios.

在同时存在一种或多种非传染性疾病的患者数据组中,我们发现LGBM的准确率得分最高,为93%,RF、GBM、XGB、SVM和DT的准确率分别为91%、89%、87%、84%和84%。KNN和ANN表现不佳,准确率分别为77%和74%;然而,这一结果是由于可用数据量少。LGBM的AUC得分最高为92%,RF、SVM、DT、XGB、GBM、KNN和ANN的AUC得分分别为91%、83%、84%、87%、89%、79%和71%。RF和LGBM的精度值最高,达到89%,除KNN和ANN外,其他方法和模型的精度值均在80%左右。LGBM的召回率最高,为100%,RF为97%,GBM为90%,SVM为83%,DT为88%;其他方法和模型的准确率均在80%以上。LGBM F1得分最高,为94%;RF也达到93%,除KNN和ANN外,其他方法和模型的准确率均在80%以上。KNN和ANN的F1得分分别为74%和79%; however, the number of training samples for these models was small.

使用ML分析,我们试图确定对识别严重COVID-19患者具有高度预测性的最重要的血液参数。我们找到了每种ML算法的SHAP (Shapley Additive Explanations)值,对这些值进行分位数归一化,最后计算出每个血液参数的平均值。在gydF4y2Ba图6gydF4y2Ba,给出按特征重要度(平均SHAP值)排序的参数列表。在这张图中,左边的面板显示了合并的患者(有非传染性疾病的患者和没有非传染性疾病的患者),中间的面板显示了只有非传染性疾病的患者,右边的面板显示了没有非传染性疾病的患者。gydF4y2Ba

‎gydF4y2Ba
图6。根据SHAP值对COVID-19患者的显著和影响血液参数进行排序,定义为模型训练后各参数的系数值:(A)合并患者组;(B)非传染性疾病患者;(C)没有非传染性疾病的患者。使用人工智能模型来确定最能预测COVID-19症状严重程度的血液参数。机器学习模型结果的系数值越高,表明与疾病严重程度的关联越显著。D-二聚体:二聚的纤溶蛋白片段D;FFA:游离脂肪酸;-谷氨酰转移酶;INR:国际标准化比率; SHAP: Shapley Additive Explanations; TTPA: partial thromboplastin time.
查看此图gydF4y2Ba

在上述分析中,我们观察到一小部分血液参数具有较高的SHAP值,这表明这些参数对COVID-19重症诊断具有影响和可预测性。根据重要程度,呼吸频率、乳酸、血压(舒张压和收缩压)、中性粒细胞、血氧饱和度是本组包括所有患者最重要和最常见的参数。例外的情况是静脉POgydF4y2Ba2gydF4y2Ba,静脉饱和OgydF4y2Ba2gydF4y2Ba和心率(对合并患者组有影响),以及温度和INR(仅对非传染性疾病患者组有影响)。gydF4y2Ba

在统计分析中发现,淋巴细胞的绝对值是严重患者预后的关键预测因子。淋巴细胞参数随病情加重而降低。我们还观察到中性粒细胞数据的相反情况,如,如果患者病情恶化到严重的情况,淋巴细胞参数增加。gydF4y2Ba


主要研究结果gydF4y2Ba

在2019冠状病毒病(COVID-19)全球暴发期间,疾病死亡风险分类对防治分配具有重要意义。在这项调查中,我们确定了一些血液分析参数,这些参数可作为评估COVID-19患者疾病严重程度的危险因素。我们开发了使用大量血液参数的预测算法,并证明这些方法具有高精度预测COVID-19患者疾病严重程度的潜力。gydF4y2Ba

我们确定了患者数据的许多特征,这些特征对算法的预测值有很大贡献(即,被发现有助于我们所有最好的ML算法的准确性),其中一些特征并不是明显的候选预测因子。我们发现严重症状组的淋巴细胞绝对值始终低于非严重症状组。重度症状组中性粒细胞指标高于非重度症状组。中性粒细胞水平高表明免疫激活水平升高,可能在“炎症风暴”中发挥作用,这是COVID-19严重症状的特征,对组织和细胞造成巨大伤害[gydF4y2Ba28gydF4y2Ba]。淋巴细胞水平低可能反映了基于抗体的免疫细胞功能受阻,这可能是导致COVID-19重症患者易受细菌感染的原因[gydF4y2Ba29gydF4y2Ba]。我们的研究结果表明,出现严重症状的患者的循环淋巴细胞数量明显低于没有严重症状的患者。相比之下,ICU重症患者中性粒细胞的掺入对其影响更大,这与Qin等人的研究结果一致[gydF4y2Ba30.gydF4y2Ba]。gydF4y2Ba

我们发现指标因子可以作为区分重症和非重症COVID-19患者的可靠预测因子。最近的研究揭示了常规血液参数在筛查COVID-19患者中的作用。在患者接受治疗的同一卫生机构中,血液参数分析通常是快速、负担得起和及时的,这为这一点提供了便利。COVID-19患者的病理检查发现一些血液参数异常。在先前发表的研究中,除上述淋巴细胞和中性粒细胞参数外,还发现出现严重症状的COVID-19患者的许多血液参数发生了变化,如嗜酸性粒细胞、嗜碱性粒细胞、单核细胞、血小板和总白细胞,以及血清尿素、钾、血红蛋白和c反应性血蛋白水平[gydF4y2Ba31gydF4y2Ba-gydF4y2Ba33gydF4y2Ba];这为我们的发现提供了支持性证据。Li等[gydF4y2Ba34gydF4y2Ba发现细菌感染影响了某些死亡病例中的COVID-19肺炎。细菌污染还会导致白细胞计数和中性粒细胞计数增加,这可能与免疫反应缺陷有关。少数新冠肺炎患者凝血功能异常:凝血酶原时间、d -二聚体水平升高[gydF4y2Ba28gydF4y2Ba],而血栓形成与血小板消耗增加和血小板数量减少有关。gydF4y2Ba

呼吸频率是COVID-19患者症状严重程度的主要生命体征之一。呼吸频率异常高(<12或低于25次/分钟)也见于一系列病症,包括哮喘、高度焦虑、肺炎、充血性心力衰竭和肺部疾病(所有这些都在表现为合并症时加剧了COVID-19病情),并且是COVID-19严重感染患者的一个重要特征[gydF4y2Ba35gydF4y2Ba,gydF4y2Ba36gydF4y2Ba]。心率升高也是一种关键征兆[gydF4y2Ba37gydF4y2Ba]并可能导致covid -19患者头晕或呼吸短促[gydF4y2Ba38gydF4y2Ba]。血压也是COVID-19患者的另一个临床体征[gydF4y2Ba39gydF4y2Ba]。低氧血症也是血液中氧饱和度低于平均水平的标志。通常动脉氧的范围约为75-100毫米汞柱,脉搏血氧计的预期范围为95%至100%;低于90%表示病情危重[gydF4y2Ba40gydF4y2Ba]。这一发现经常出现在可能没有其他明显症状的COVID-19患者中;因此,这是该疾病的一个特别危险的特征。血清乳酸测试也是反映COVID-19患者病情严重程度的重要测试。通常情况下,血液中的乳酸水平很低;乳酸水平的升高通常与低氧水平有关[gydF4y2Ba41gydF4y2Ba,gydF4y2Ba42gydF4y2Ba]。gydF4y2Ba

总之,一些体征和症状可以表明COVID-19在患者中可能会变得严重。需要一种标准化和客观的方法来结合这些和其他不太明显的预测因素,以优化患者的结果和资源管理。我们在这里描述的方法源自许多不同的ML算法,可以提供这样一种改进的方法。事实上,通过不同的ML算法使用类似的预测器获得的高精度(表明对方法的敏感性有限)可以提供信心,这些参数是有用的,并且该方法是合理的。gydF4y2Ba

结论gydF4y2Ba

我们的分析结果表明,COVID-19住院患者的特定异常血液参数与疾病严重程度之间存在很强的关系。我们研究结果的主要用途是,与疾病严重程度相关的常规血液参数子集可以用于预测算法,从而更好地在严重症状出现之前给予适当的护理。这在发展中国家尤其重要,因为在这些国家,医院的重症监护室床位资源有限。这可以通过目前可用的相对较少数量的血液医院检测来实现,以正确使用ICU资源并确定需要密切监测的患者。gydF4y2Ba

在可以提供COVID-19症状严重程度预测信息的血液参数之间的关联中,乳酸和未成熟粒细胞(绝对)水平似乎具有最强的预测价值。血红蛋白、降钙素原、红细胞沉降率、脑利钠肽、铁蛋白、d -二聚体和血小板水平同样与正常对照组相比,在预测疾病严重程度方面存在显著偏差。其他参数,即呼吸频率、乳酸、血压(收缩压和舒张压)、血细胞比容、静脉和动脉基础过剩、中性粒细胞、白蛋白和尿素,偏差不太明显,但显然具有预测价值。我们的工作表明,这些参数与COVID-19之间存在联系,类似的促炎传染病可能值得更详细的生理学研究。gydF4y2Ba

我们的研究有一些局限性。首先,小样本量可能会限制严重性识别的精度。其次,所使用的数据集中缺乏更详细的临床信息(如患者年龄、性别和合并症)可能会阻碍更好的分类,尽管这表明在未来的研究中,我们可以使用新的数据集来解决这个问题并改进我们的工作。最后,COVID-19的疾病严重程度和死亡率因国家而异;其原因尚不清楚,但建议对来自世界其他地区的数据进行这种类型的预测分析,以提高算法的性能。尽管如此,我们希望我们的研究可以被从业者使用,并帮助政策制定者改善COVID-19患者的资源分配和结果。gydF4y2Ba

致谢gydF4y2Ba

本研究由沙特阿拉伯伊玛目穆罕默德·伊本·沙特伊斯兰大学(IMSIU)科学研究主任资助(资助号:21-13-18-008)。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

  1. Mohammadi M, Meskini M, do Nascimento Pinto AL. 2019新型冠状病毒(COVID-19)概述。中国农业科学2020年4月19:1-9 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  2. 杨军,陈霞,邓霞,陈忠,龚华,严华,等。武汉市第一波新冠肺炎大流行的疾病负担与临床严重程度Nat comm2020 Oct 27;11(1):5411 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  3. Ahamad MM, Aktar S, Rashed-Al-Mahfuz M, Uddin S, Liò P,徐宏,等。用于识别SARS-Cov-2感染患者早期症状的机器学习模型。专家系统应用2020十二月01;160:113661 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  4. nasiry A, Sarmin Sumi S, Islam S, Quinn J, Moni M.基于生物信息学和系统生物学方法的新冠肺炎对心血管和高血压合并症的影响。Brief Bioinform 2021 Mar 22;22(2):1387-1401 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  5. Taz T, Ahmed K, Paul B, Al-Zahrani F, Mahmud S, Moni M.肺动脉高压患者SARS-CoV-2感染的生物标志物和途径鉴定。Brief Bioinform 2021年3月22日;22(2):1451-1465 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  6. 重症监护的国际比较。流行病学杂志;2012;18(6):700-706。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  7. Satu M, Khan M, Rahman M, Howlader KC, Roy S, Roy SS等。SARS-CoV-2感染常见恶性疾病的疾病和合并症复杂性Brief Bioinform 2021年3月22日;22(2):1415-1429 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  8. Uddin S, Imam T, Ali MM。不同国家在第一波COVID-19期间在时间、感染率和死亡率方面实施的公共卫生和经济措施。2021年2月发表于:2021澳大利亚计算机科学周多会议;2021年2月1日至5日;在线会议第1-8页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  9. 洪洪洪,李世文,金少生,许海军,李俊,金世文,等。韩国2019冠状病毒病(COVID-19)实验室诊断指南。Ann Lab Med 2020 Sep 01;40(5):351-360 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  10. Nain Z, Rana H, Liò P, Islam S, Summers M, Moni M. COVID-19和sars样病毒的发病机制分析。Brief Bioinform 2021 Mar 22;22(2):1175-1196 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  11. Taz T, Ahmed K, Paul B, Kawsar M, Aktar N, Mahmud SMH等。基于网络的SARS-CoV-2感染对特发性肺纤维化(IPF)患者的遗传效应鉴定Brief Bioinform 2021 3月22日;22(2):1254-1266 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  12. 李忠,易毅,罗旭,熊宁,刘毅,李生,等。IgM-IgG联合抗体快速诊断SARS-CoV-2的研制及临床应用中国生物医学工程学报,2016,33 (2):444 - 444 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  13. 开发和验证机器学习模型,用于预测COVID-19患者死亡风险的自动化人工智能工具。2020年6月14日。URL:gydF4y2Bahttp://doi.org/10.5281/zenodo.3893846gydF4y2Ba[2020-11-16]访问gydF4y2Ba
  14. COVID-19 -评估诊断的临床数据。2020年6月22日。URL:gydF4y2Bahttps://www.kaggle.com/S%C3%ADrio-Libanes/covid19gydF4y2Ba[2020-11-16]访问gydF4y2Ba
  15. Nihan ST. Karl pearson卡方检验。教育资源Rev 2020 Sep 30;15(9):575-580 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  16. 霍恩A.统计学,用于免疫学。收录于:免疫学百科全书。荷兰阿姆斯特丹:爱思唯尔;1998:2211 - 2215。gydF4y2Ba
  17. 11.相关和回归。英国医学杂志。URL:gydF4y2Bahttps://www.bmj.com/about-bmj/resources-readers/publications/statistics-square-one/11-correlation-and-regressiongydF4y2Ba[2020-11-16]访问gydF4y2Ba
  18. 张建平,张建平。基于决策树的分类算法研究与分析。计算机科学学报,2018;6(10):74-78。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  19. Uddin S, Khan A, Hossain ME, Moni MA。比较不同的监督机器学习算法用于疾病预测。中国医学杂志2019 Dec 21;19(1):281 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  20. 李建军,李建军。决策树的稳定性与可扩展性。计算机统计2015年2月26日;18(3-4):505-520。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  21. 张建军,张建军。基于梯度增强决策树模型的ADME预测。2020年8月19日发表于:ACS秋季2020虚拟会议;2020年8月17日至20日;虚拟会议。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  22. 胡建军,李建军,李建军,等。基于序列模型的通用优化算法配置。发表于:LION 2011:国际学习与智能优化会议;2020年5月24日至28日;雅典,希腊第507-523页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  23. Lundberg SM, Lee SI。解释模型预测的统一方法。发表于:NIPS '17:第31届神经信息处理系统国际会议;加州长滩;2017年12月4-9日,p. 4768-4777。gydF4y2Ba
  24. Lundberg SM, Erion G, Chen H, DeGrave A, Prutkin JM, Nair B,等。从局部解释到全球理解,通过可解释的树木人工智能。Nat Mach intel 2020, 1月17日;2(1):56-67 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  25. 王锐,李俊。两种自然语言处理模型比较的准确率、召回率和F1测度的Bayes检验。在:计算语言学协会第57届年会上发表于:计算语言学协会第57届年会上;2019年7月;佛罗伦萨,意大利。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  26. 杨建军,刘建军,李建军,李建军,等。临床预测模型的ROC曲线第1部分。在评估临床预测模型的性能时,ROC图显示在AUC之上没有附加价值。中华临床流行病学杂志,2010;26(1):397 - 396。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  27. Kiapour A. Bayes、E-Bayes和鲁棒Bayes在平方对数误差损失函数下的溢价估计和预测。JIRSS 2018;17(1):33-47。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  28. 莫鹏,邢宇,肖宇,邓磊,赵强,王辉,等。武汉地区难治性COVID-19肺炎临床特征临床传染病2020年3月16日[gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  29. 陈宁,周敏,董旭,曲健,龚峰,韩勇,等。武汉市99例2019年新型冠状病毒肺炎流行病学与临床特征的描述性研究柳叶刀2020 Feb 15;395(10223):507-513 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  30. 秦超,周磊,胡忠,张生,杨生,陶勇,等。武汉地区新冠肺炎患者免疫反应异常SSRN日报》。预印本于2020年3月2日在线发布。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  31. AlJame M, Ahmad I, Imtiaz A, Mohammed A.基于常规血液检测诊断COVID-19的集成学习模型。Inform Med解锁2020;21:100 - 449 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  32. 李欣,王丽,严生,杨峰,向丽,朱军,等。武汉25例COVID-19死亡病例的临床特征:对单个医疗中心病历的回顾性分析中华流行病学杂志[J]; 2011; 28 (4): 591 - 591 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  33. 太阳,Cai X,王H, G,林Y, B,等。温州地区新冠肺炎患者外周血系统异常分析中华临床医学杂志;2009;37 (7):391 - 391 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  34. 李欣,王丽,严生,杨峰,向丽,朱军,等。武汉25例COVID-19死亡病例的临床特征:对单个医疗中心病历的回顾性分析中华流行病学杂志[J]; 2011; 28 (4): 591 - 591 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  35. 张建军,张建军,李建军,等。呼吸调节效应的研究进展。神经科学学报(英文版);2009(1):47-56。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  36. 李梅。冠状病毒病早期非危重住院患者的临床特征。2020年发表于:第一届西奈山晨兴和西奈山西部内科住院医师计划研究周;2020年5月26日至29日;纽约,纽约。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  37. Peer N, Lombard C, Steyn K, Levitt N.。南非城市黑人静息心率升高与几种心血管疾病危险因素相关。科学通报2020;12;10(1):4605 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  38. 刘建军,刘建军,刘建军。COVID-19患者PR间期随心率增加的行为心脏节律2020 Sep;17(9):1434-1438 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  39. 收缩期功能正常的高血压患者收缩压、舒张压及舒张参数的相关性研究。2014年5月22日;9(5-6):166-166。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  40. 杨建军,杨建军,杨建军,等。脉搏血氧仪在牙髓疾病诊断中的应用。临床诊断杂志,2017;11(9):ZC36-ZC39。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  41. Aktar S, Talukder A, Talukder A, Martuza Ahamad M, Kamal AHM, Khan JR等。机器学习和荟萃分析方法,以确定增加COVID-19死亡风险的患者合并症和症状。出来了。预印本于2020年8月25日在线发布。gydF4y2Ba
  42. 李谭L,康X,霁X, G,王问,李Y, et al。COVID-19患者疾病严重程度和预后预测因素的验证:一项描述性和回顾性研究中国生物医学工程学报,2020,31(1):128-138。e3 (gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba


‎gydF4y2Ba
安:gydF4y2Ba人工神经网络gydF4y2Ba
AUC-ROC:gydF4y2Ba接收机操作员特性曲线下的面积gydF4y2Ba
肺动脉栓塞:gydF4y2Ba二聚体纤溶蛋白片段DgydF4y2Ba
DT:gydF4y2Ba决策树gydF4y2Ba
“绿带运动”:gydF4y2Ba梯度增压机gydF4y2Ba
ML:gydF4y2Ba机器学习gydF4y2Ba
非传染性疾病:gydF4y2Ba非传染性疾病gydF4y2Ba
加护病房:gydF4y2Ba加护病房gydF4y2Ba
印度卢比:gydF4y2Ba国际标准化比率gydF4y2Ba
资讯:gydF4y2Ba再gydF4y2Ba
利物浦:gydF4y2BaLog 2倍变化gydF4y2Ba
LGBM:gydF4y2Ba光梯度增强机gydF4y2Ba
射频:gydF4y2Ba随机森林gydF4y2Ba
rt - pcr:gydF4y2Ba逆转录聚合酶链反应gydF4y2Ba
世鹏科技电子:gydF4y2Ba沙普利加法解释gydF4y2Ba
支持向量机:gydF4y2Ba支持向量机gydF4y2Ba
XGBoost:gydF4y2Ba极端梯度增压gydF4y2Ba


C·洛维斯编辑;提交20.11.20;W Jiang, S Kriventsov同行评议;对作者23.12.20的评论;收到修订版本21.01.21;接受21.03.21;发表13.04.21gydF4y2Ba

版权gydF4y2Ba

©Sakifa Aktar, Md Martuza Ahamad, Md rasheed - al - mahfuz, AKM Azad, shahaat Uddin, AHM Kamal, Salem A Alyami, Ping-I Lin, Sheikh Mohammed Shariful Islam, Julian MW Quinn, Valsamma Eapen, Mohammad Ali Moni。最初发表于JMIR医学信息学(http://medinform.www.mybigtv.com), 13.04.2021。gydF4y2Ba

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到http://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。gydF4y2Ba


Baidu
map