JFR JMIR表格副本 形成性研究 2561 - 326 x 卡塔尔世界杯8强波胆分析 加拿大多伦多 v6i9e35114 36001798 10.2196/35114 原始论文 原始论文 利用探索性数据分析和监督机器学习技术探索社会经济状况作为COVID-19流行的全球决定因素:算法开发和验证研究 Mavragani 孤挺花 Rostam Niakan Kalhori Sharareh 普拉丹 Meeta 温斯顿 路加福音 1
计算机系 大西洋理工大学 港口路 莱特肯尼,F92 FC93 爱尔兰 353 862435617 L00162644@student.lyit.ie
https://orcid.org/0000-0001-7633-8604
麦肯 迈克尔 博士学位 1 https://orcid.org/0000-0002-8431-2639 Onofrei 乔治 博士学位 2 https://orcid.org/0000-0003-3508-370X
计算机系 大西洋理工大学 自动化 爱尔兰 经营部 大西洋理工大学 自动化 爱尔兰 通讯作者:卢克·温斯顿 L00162644@student.lyit.ie 9 2022 27 9 2022 6 9 e35114 22 11 2021 24 2 2022 12 4 2022 27 4 2022 ©Luke Winston, Michael McCann, George Onofrei。最初发表在JMIR形成研究(https://formative.www.mybigtv.com), 27.09.2022。 2022

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是原始作品首次发表在JMIR形成研究,并被适当引用。必须包括完整的书目信息,https://formative.www.mybigtv.com上的原始出版物链接,以及版权和许可信息。

背景

2019冠状病毒病大流行是近年来前所未有的全球挑战。在国际社会试图长期控制这一大流行病之际,关键是要了解是什么因素推动了流行率,并预测病毒的未来发展轨迹。

客观的

本研究有两个目标。首先,它检验了社会经济地位和COVID-19流行率之间的统计关系。其次,它使用机器学习技术来预测182个国家的多国样本中的累计COVID-19病例。综合起来,这些目标将揭示社会经济状况作为COVID-19大流行的一个全球风险因素。

方法

本研究采用探索性数据分析和监督机器学习方法。探索性分析包括变量分布、变量相关性和异常值检测。随后,应用了以下3种监督回归技术:线性回归、随机森林和自适应增强(AdaBoost)。结果采用k-fold交叉验证进行评估,随后比较分析算法的适用性。分析涉及两个模型。首先,训练算法仅使用2020年报告的病例数据预测2021年COVID-19流行率。在此基础上,加入社会经济指标作为特征,并再次训练算法。人类发展指数(HDI)指标包括预期寿命、平均受教育年限、预期受教育年限和国民总收入,这些指标被用来估算社会经济地位。

结果

所有变量都与2021年COVID-19流行率呈正相关2取值范围为0.55到0.85。利用社会经济指标,以合理的准确性预测了COVID-19流行率。使用2020年报告的病例率作为预测2021年患病率的单一预测因子,算法的平均预测精度很低(R2= 0.543)。当社会经济指标与2020年患病率一起作为特征添加时,平均预测性能显著提高(R2=0.721),所有的错误统计数据都减少了。因此,在2020年报告的病例数据中加入社会经济指标,在很大程度上优化了对COVID-19流行率的预测。线性回归是R最强的学习者2第一个模型=0.693,R2其次是随机森林(0.481和0.722)和AdaBoost(0.454和0.679)。在此之后,使用选定的额外COVID-19风险因素(人口密度、中位年龄和疫苗接种率),而不是人类发展指数指标,对第二个模型进行了重新训练。然而,平均准确度下降到0.649,这突显了社会经济地位在所选样本中作为COVID-19病例预测器的价值。

结论

结果表明,社会经济状况是未来流行病学建模中需要考虑的一个重要变量,并强调了COVID-19大流行作为一种社会现象和卫生保健现象的现实。本文还就应用统计和机器学习技术来理解和抗击COVID-19大流行提出了新的考虑。

新型冠状病毒肺炎 机器学习 数据分析 流行病学 人类发展指数
简介 背景

2019冠状病毒病大流行是近年来前所未有的全球挑战。SARS-CoV-2病毒最初在中国武汉被发现,之后在世界范围内扩散,局势升级为国际紧急情况。尽管2020年采取了广泛的遏制措施,并开展了历史上规模最大的疫苗投放[ 1],大流行病在2021年继续挑战着全球社会。目前正在进行研究,以分析病毒的传播轨迹,并了解为什么特定人群或国家受到的影响比其他人群或国家更严重[ 2 3.].数据可用性的提高支持了这一点,这使研究人员能够调查一系列潜在的COVID-19风险因素。这些危险因素可分为临床或非临床。临床危险因素包括肥胖[ 4- 6]、糖尿病[ 7 8]和吸烟[ 9].非临床危险因素的例子有文化差异[ 10,政府的控制措施[ 11]、疫苗接种态度[ 12]、社会经济地位[ 13- 15].

本文重点研究社会经济地位作为决定COVID-19流行的非临床风险因素。为了为社会经济状况提供可靠的实证指标,选择了联合国开发计划署(开发署)的人类发展指数(HDI)。人类发展指数通过综合预期寿命、教育和人均收入指标,计算出一个国家居民的整体社会经济地位或“福祉”[ 16].它已成功地应用于以往的流行病学研究,以绘制各种疾病的流行率[ 17- 20.].尽管HDI在统计分析中很受欢迎,但尚未在机器学习新冠肺炎建模中得到广泛应用。这为应用统计和机器学习技术来检验人类发展指数是否可用于准确预测COVID-19的患病率提供了机会。

相关工作 卫生研究中的社会经济地位

大流行病既是一个保健问题,也是一个社会问题[ 21].因此,社会经济地位是大流行研究中需要考虑的一个重要决定因素。社会经济地位一词是一个总括性术语,用于描述可通过经验测量的社会或经济因素,如社会阶层、教育、收入和健康状况[ 22 23].这些因素以各种方式被应用,以调查或控制它们对特定结果(如健康结果)的影响,并一直被发现在统计上具有显著意义[ 24- 26].就健康结果而言,较高的社会经济地位通常与较好的健康状况有关。相反,较低的社会经济地位与较差的健康结果相关[ 27].在文献中,较低的社会经济地位与较高的疾病发病率有关,如骨关节炎、慢性疾病、高血压和宫颈癌[ 28 29].

就COVID-19而言,社会经济地位也与更高的患病率和更严重的后果有关。在美国,贫困社区指数被用于分析社会经济状况对COVID病例和死亡率的影响[ 30.].这项研究的结果表明,较低的教育水平和种族差异与较差的COVID-19结果相关。另一项研究认为,社会经济水平较低的人口更有可能住在拥挤的住所,获得户外空间的机会较少,这使他们更容易感染COVID-19 [ 31].显然,社会经济地位是COVID-19结果的一个重要决定因素,这可以揭示病毒如何影响特定人群。

人类发展指数

人类发展指数是对国家层面整体社会经济状况的综合衡量,由联合国开发计划署每年计算一次。人类发展指数包括预期寿命、预期受教育年限、平均受教育年限和国民总收入(GNI)。计算一个国家某一年的人类发展指数需要两个步骤。首先,4个指标中的每个值都被归一化为0到1之间的指数值。每个指标的最高和最低限度由联合国开发计划署制定。根据实际值、最大值和最小值,可计算出维度指数,计算公式如下:

尺寸索引=(实际值−最小值)/(最大值−最小值)

其次,一旦计算出每个维度,就会计算出同等加权的平均值,以提供一个国家的总体人类发展指数得分[ 32].

人类发展指数已被用于卫生研究,以分析特定疾病的患病率和死亡率,这有助于确定一个国家内部或国家之间在结果方面的差异。它已被用于理解一系列流行病学研究问题,如疟疾[ 17],各种癌症分布[ 19 33 34,高血压[ 20.), 酵母菌属寄生虫( 35],以及牙科健康[ 36].举一个具体的例子,调查人类发展指数与甲状腺癌之间关系的研究表明,尽管人类发展指数较高的国家甲状腺癌发病率较高,但人类发展指数较低的国家死亡率较高[ 34].

人类发展指数还被用于分析正在发生的COVID-19大流行,对大流行跨国家造成的不成比例影响产生了重要见解。例如,一项分析人类发展指数和COVID-19死亡率的研究报告称,人类发展指数得分高的国家COVID-19死亡率更高[ 13].另一项研究报告了166个国家的人类发展指数得分与其2020年3月27日确诊病例之间的显著相关性[ 14].在其他地方,一项关注巴西COVID-19影响的城市差异的研究(使用重新校准的指数来分析城市差异,而不是国家差异)发现,截至2020年5月,人类发展指数得分高的城市每10万人的COVID-19发病率和死亡率最高[ 15].因此,该指数被认为是COVID-19研究的一个有价值的框架。

COVID-19多国研究

COVID-19多国研究之所以重要,有以下两个原因:(1)能够确定特定国家的兴趣点,(2)能够发现各国的共同趋势或风险因素。在埃及、巴基斯坦、印度、加纳和菲律宾对封锁相关心理健康问题进行的一项研究中,据报道,尽管封锁对每个国家受访者的心理健康产生了负面影响,但影响的方式不同。例如,来自菲律宾的受访者通过增加自我毁灭行为来应对封锁,而来自巴基斯坦的受访者在宗教中寻求安慰。其余3个国家的受访者倾向于接受封锁[ 37].一项针对101个国家的更大样本的类似研究分析了与大流行相关的孤独和社会孤立[ 38].还进行了其他研究,以分析跨国疫苗接种态度[ 39],遏制措施的成功[ 11 40以及影响跨国COVID-19死亡率的文化行为[ 10].因此,多国COVID-19研究有助于确定与大流行有关的“全球风险因素”,进而帮助采取循证公共卫生干预措施[ 38].它还开辟了新的研究问题,即为什么某些人群在大流行期间以某种方式表现或受到某种影响。

使用机器学习建模疾病爆发

在为疫情建模时,流行病学中的一种流行方法是易感、感染、恢复(SIR)方法。SIR方法简化了传染病的传播动态,它将人群分为易感人群、感染者和康复人群,并分析了这些群体在暴发过程中的相互作用。这种方法也被用于分析COVID-19大流行[ 41 42].然而,SIR模型假设完全群体免疫可以通过感染实现[ 43],这限制了它在COVID-19研究中的有效性。由于病毒的复杂性、现有疫苗的长期疗效存疑、新变种的出现以及再感染病例,尚不清楚是否可实现COVID-19群体免疫[ 44].随后,机器学习的预测效益可能会在这场大流行病方面产生更好的结果。

机器学习的进步使流行病学研究人员能够使用由高精度算法促进的健壮的数据驱动方法。这有助于处理不断增加的数据量,并分析影响患者健康结果的更广泛的因素[ 45 46].例如,已经开发了naïve贝叶斯、逻辑回归、随机森林和人工神经网络模型来预测麻醉后患者的低血压[ 47].在其他地方,门控循环单元神经网络已被设计用于识别有住院死亡风险的个体。该模型允许从业者纵向绘制死亡概率,并根据模型预测提供有针对性的干预措施[ 48].

机器学习在流行病学中的另一个优势是,它可以在数据有限的情况下预测和绘制疾病发生和健康结果[ 49].具体来说,增强回归树模型已被用于分析影响疾病传播的环境因素,如登革热、埃博拉、克里米亚-刚果出血热和寨卡病毒[ 50- 53].另一种类型的机器学习模型,集合调整卡尔曼滤波器,已被用于预测季节性流感爆发[ 54].此外,还开展了几项回顾性预测研究,通过绘制埃博拉、西尼罗河病毒和呼吸道合胞病毒的传播模式,重建过去的大流行[ 55- 57].

关于COVID-19,使用机器学习的流行病学研究正在文献中快速涌现。一般而言,研究涉及设计一个或多个机器学习模型,以预测COVID-19病例流行率[ 11 58 59],严重性[ 60 61]和死亡率/死亡率风险[ 62 63].在一项研究中,使用随机森林和AdaBoost回归训练5个非时间序列监督学习模型,以非药物遏制措施和文化维度为特征,预测114个国家的COVID-19确诊感染增长(报告的COVID-19病例累计数量的14天增长)。结果表明,经证实的感染增长在相当大的程度上被预测为中至高的感染率2数值(>0.50)[ 11].最后,对机器学习技术在预测COVID-19病例中的系统综述发现,R2数值在0.64到1之间,表明机器学习是预测COVID-19流行率的一种极有价值的方法,可支持政策制定者制定未来的干预措施[ 64].

研究描述

这项研究分析了182个国家的人类发展指数得分与COVID-19累计病例(截至2021年12月31日的累计记录病例)之间的统计关系。然后,它试图使用前一年的累计病例(截至2020年12月31日的总记录病例)和人类发展指数得分来预测样本中的2021年COVID-19累计病例。选择每百万人口的累积病例,因为它提供了报告的感染数量与人口规模成比例。粗率指标,例如每百万病例是最有效的多国样本[ 65].例如,阿富汗和阿尔巴尼亚在2020年报告的COVID-19病例绝对数量相似,分别为51526例和58316例。然而,阿富汗每百万病例为1324例,阿尔巴尼亚为20264例。这显示了相对于两国人口的病毒流行率,并表明阿尔巴尼亚在2020年的病例率实际上更高。

为了衡量社会经济地位,使用了预期寿命、预期受教育年限、平均受教育年限和GNI等HDI指数。为了本研究的目的,我们选择了单个指标,而不是人类发展指数的总和值。之所以使用这种方法,是因为聚合可能会丢失数据中的重要信息,导致预测不太准确[ 66].

利用兼容Python编程语言的开源集成开发环境Jupyter Notebook设计了两个预测模型。每个模型使用以下3种监督学习回归算法进行训练:基本线性回归、随机森林和AdaBoost。所有算法都使用k-fold交叉验证进行评估,然后通过计算它们的R进行比较2分数和错误统计。第一个模型试图使用2020年病例数预测2021年COVID-19流行率,为第二个模型的表现建立基线。第二个模型包括2020年病例数和每个国家的预期寿命、预期受教育年限、平均受教育年限和国民总收入指标。由于疫情在各国的发展不平衡,本研究侧重于横断面数据,而不是时间序列数据。这项研究的所有数据都是二手的,而且是公开的,突出表明全球为收集和分享有关该流行病的数据所作的努力值得赞扬。

方法 数据预处理

COVID-19病例数据从COVID-19 OurWorldInData数据库下载[ 65],它反过来从约翰霍普金斯中心的系统科学和工程数据仓库检索数据。OurWorldInData数据库包含190个国家的COVID-19综合指标,包括感染率、住院人数、死亡率和疫苗接种率。每天上传数据,使用户可以通过最新统计数据跟踪大流行的演变。这项研究需要各国2020年12月31日的“每百万病例数”数据,以及2021年12月30日的相同指标。人类发展指数数据提取自《2020年人类发展报告》数据中心[ 67].该报告提供了每个国家的人类发展指数的总体得分和每个指标的得分。

对这些数据集进行了组合,以便每个观察(国家)包含以下指标:(1)预期寿命,(2)预期受教育年限,(3)平均受教育年限,(4)国民总收入,(5)2020年每百万人中COVID-19病例(1月1日至12月31日),(6)2021年每百万人中COVID-19病例(1月1日至12月31日)。

遗漏了数据缺失的国家;因此,最终数据集包含182个国家的数据。然后,它被导入到Jupyter并转换为数据帧格式(参见 表1)开始分析。

然后进行探索性数据分析,探讨数据的分布和变量之间的统计关系。然后根据数据的分布选择数据缩放方法。数据缩放在机器学习建模中很重要,因为它可以防止测量差异对最终结果产生负面影响[ 68].然后计算四分位范围,以确定目标变量(2021年COVID-19病例)中的异常值。

图1总结了本研究的工作流程,从数据预处理到模型设计和探索性数据分析。

使用人类发展指数指标和COVID-19病例的数据集样本。

国家 预期寿命 预期受教育年限 平均受教育年限 人均国民总收入(美元) 2020年病例(每百万人) 2021例(每百万人)
阿富汗 64.8 10.2 3.9 2239 1323.612 3968.427
阿尔巴尼亚 78.6 14.7 10.1 13998年 20264年.091 73173年.975
阿尔及利亚 76.9 14.6 8.0 11174年 2271.554 4895.753
安道尔 81.9 13.3 10.5 56000年 104173年.947 306900年.742
安哥拉 61.2 11.8 5.2 6104 534.073 2404.489

从COVID-19和人类发展指数(HDI)数据收集到交叉验证培训和测试过程的数据管道流程图。除了设计预测模型外,还进行了探索性数据分析,以确定数据集中的趋势。国民总收入:国民总收入。

机器学习算法选择

有监督的机器学习模型经过训练,通过学习数据集来进行预测,其中每个观察的输出(因变量)的值是已知的。监督机器学习在训练过程中根据输入数据产生决策或“输出”。在一组数据上实施不同的监督算法,可以比较结果,并确定最佳拟合模型[ 69 70].评估有监督学习模型需要稳健的验证措施[ 71].这些可以使用各种精度和误差度量来计算,如决定系数(R2)、平均绝对误差(MAE)、均方误差(MSE)、均方根误差(RMSE)或最大误差。本研究比较了线性回归、随机森林和AdaBoost监督技术的性能。

线性回归

线性回归是最常见的机器学习算法之一[ 72].机器学习中的回归与传统的统计回归不同,它将数据集划分为训练集和测试集。使用来自训练集的输入和输出数据,算法试图仅使用输入数据预测测试集中的输出数据。这个过程表明模型对新数据的预测有多准确。线性回归计算如下:

y 一个0 + 一个1x+ ε

在哪里 y为目标变量(输出), x为预测变量(输入), 一个0 是截距, 一个1 是系数,和 ε是随机误差。

随机森林

随机森林是决策树算法的集合,可以用于分类或回归问题。它基于bagging或bootstrap聚合的概念,创建了一个学习者树的集合[ 73].每个学习树( K)对从原始数据集(输入向量)中提取的独立样本进行训练 x),通过计算的均值得到整体预测 K回归树如下:

与单个决策树相比,随机森林有利于减少模型方差。它还有助于防止模型过拟合(当模型与训练数据过于接近而与测试数据不太匹配时)[ 74].

演算法

AdaBoost或自适应增强是一种顺序集成技术,它基于从原始训练数据集中随机抽取不同的训练子集来开发几个弱学习者的原则。使用这种技术,训练算法从1棵决策树开始,识别出误差最大的观察结果,并增加这些观察结果的权重。权重在每次迭代后都会重新计算,以便前一个决策树错误分类的观察结果获得更高的权重[ 75].使用Python编程语言,可以选择算法将部署的树的数量,默认设置为50次迭代。

模型设计与评价

创建了两个特征模型(特征模型1和特征模型2)。对特征模型1进行训练,仅使用2020年病例预测2021年COVID-19流行率。通过训练模型2,利用2020年病例数据以及预期寿命、预期受教育年限、平均受教育年限和人均国民总收入来预测2021年COVID-19流行率。每个特征模型都使用线性回归、随机森林和AdaBoost技术进行训练。为每个算法设置超参数,并使用10倍(k=10) k倍交叉验证对结果进行评估。

模型超参数和验证

本研究使用k-fold交叉验证,而不是使用训练/测试分割将数据划分为训练集和测试集。K-fold交叉验证有一个参数叫做 k它表示用户选择的数据集将被分割成的子集或“折叠”的数量。如 图2,每次折叠使用不同的数据组作为测试集,然后重复这个过程 k次数(例如,5次) 图2).它由交叉验证得分进行评估,这是来自每个k-fold子集的所有得分的平均值。当使用更小的数据集时,K-fold交叉验证提供了更一般化和更少偏差的性能评估[ 76 77].这是因为它最大限度地增加了可以用于训练和测试的观察量。换句话说,使用交叉验证的模型不依赖于单一的训练/测试分割。

使用sklearn,交叉验证的平均得分默认为被交叉验证的特定算法的评分指标。对于本研究中的每个算法,默认的评分指标是决定系数(R2).因此,交叉验证的平均得分计算为平均R2对于所有k-fold中的每个算法。R2表示回归模型的拟合优度,并解释因变量中有多少方差可以用一个或多个自变量解释。其计算方法为平方和残差除以平方和总平方和,1减去求导,如下所示:

R2= 1 -(剩余平方和/总平方和)

R2是本研究观察的主要指标。在机器学习中,R2是信息最丰富、解释性限制最少的验证措施[ 78].

表2给出每种算法特有的超参数。选择10倍验证进行k倍交叉验证,这是一般建议应用的子集数量[ 76 77].

与R2,还计算了4个误差指标来评估性能。首先,MAE提供了预测值与真实值之间绝对误差的平均值。计算方法如下:

在哪里 y 为预测值, x 是实际值,和 n是观察数。

其次,均方误差测量预测值与真实值之间的平均差的平方。计算方法如下:

在哪里 n是数据点的数量, Y 是实际值,和 Ŷ 是预测值。

第三,RMSE计算模型误差平方均值的平方根。计算方法如下:

在哪里是变量 N是数据点的数量, x 是实际值,和 是预测值。

最后,最大误差计算最大残留误差,它捕获预测值和真实值之间的最坏情况误差。计算方法如下:

在哪里 ŷ预测值是-th样本,和 y 对应的真值。

一个5倍k交叉验证方法的例子,其中k=5。整体精度得分计算为每一叠精度得分的平均值。

使用交叉验证的监督学习模型超参数。

算法 Hyperparameters
基本线性回归 折叠:10;随机状态:1
随机森林 折叠:10;随机状态:1;估计:100
演算法 分区:10;估计:50;随机状态:0
结果 探索性数据分析

进行探索性数据分析,以识别和可视化数据趋势,并对变量进行统计分析。2020年,样本中每百万例COVID-19病例的平均数为15880.41例,中位数为6822.98例。2021年,每百万例COVID-19病例的平均数为64,479.58例,中位数为50764.73例。 表3给出了研究中所有变量的关键描述性统计。

创建distplot来检查所有变量的分布。结果显示,除预期受教育年限外,所有变量在样本中都是倾斜的。2021年COVID-19流行率的分布在样本中呈正向倾斜(见 图3).对四分位数范围的计算显示,有4个国家(安道尔、黑山、塞尔维亚和塞舌尔)是统计异常值,它们的COVID-19发病率异常高(每百万人口25万bb0)。塞舌尔的流行率最高,为每百万人217 096.35例。

为了研究特征和目标变量之间的统计关系,实现了皮尔逊相关矩阵(参见 图4).所有选定的特征都与2021年COVID-19流行率具有统计学相关性,R值在0.55至0.85之间。此外,2020年COVID-19病例与2021年病例数据的相关性最强(R=0.85),其次是平均受教育年限(R=0.66)、预期寿命(R=0.61)、预期受教育年限(R=0.58)和GNI (R=0.55)。

研究中所有变量的统计测量(平均值和中位数)。

变量 平均值 中值
2020年每百万例COVID-19病例 15880 .41点 6822.98
每百万人中有2021例COVID-19病例 64479 .58 50764 .73点
预期寿命 72.72 74.20
预期受教育年限 13.31 13.15
平均受教育年限 8.63 8.95
人均国民总收入(美元) 20453 .40 13112 .50

一系列的密度图,说明在观察下的每个变量(目标变量)的分布。2021年每百万例COVID-19病例的目标变量在样本中右偏。预期受教育年限是样本中唯一具有正态分布的变量。CASES_2020:每百万人中有2020例COVID-19病例;CASES_2021:每百万人中有2021例COVID-19病例;exp_school:预期受教育年限;GNI:人均国民总收入;LIFE_EXP:预期寿命;mean受教育年限。

皮尔逊相关矩阵映射所有变量之间的相关性。结果表明,所有特征与2021年新冠肺炎病例均有统计学相关性。CASES_2020:每百万人中有2020例COVID-19病例;CASES_2021:每百万人中有2021例COVID-19病例;exp_school:预期受教育年限;GNI:人均国民总收入;LIFE_EXP:预期寿命;mean受教育年限。

监督学习模式

表4而且 5总结了所有回归算法在两种特征模型下的性能 图5想象他们的表演。训练模型1以2020年每百万病例(n=182)预测2021年COVID-19病例。通过训练模型2,利用2020年每百万病例数以及预期寿命、平均受教育年限、预期受教育年限和GNI (n=182)来预测2021年每百万COVID-19病例数。两个数据集被分成10个折叠进行交叉验证(k=10)。

在特征模型1中,线性回归是最准确的学习者,具有平均R2的0.693,其次是随机森林(0.481),其次是AdaBoost(0.454)。性能的变化是相当大的,最精确和最不精确的算法之间有23.9%的差异。在特征模型2中,基本线性回归模型也是最强的学习者(R2=0.762),其次是随机森林(0.722)和AdaBoost(0.679)。特征模型2中算法的MAE、MSE、RMSE和最大误差统计量均低于特征模型1。特征模型2在算法之间的表现也比特征模型1更接近,最强的学习者比最小的学习者的准确率高8.4%。

尽管它是两个模型中数据最好的学习者,线性回归显示在特征模型2 (R2提高了7%)。此外,它的错误统计数据并没有像随机森林或AdaBoost那样显著改善。例如,线性回归的MAE下降了0.009(特征模型1为0.079,特征模型2为0.070),而随机森林和AdaBoost分别下降了0.026和0.014。

表6而且 7概述每一个单独的折叠的性能精度。变化很大的R2分数表明,本研究中使用的交叉验证方法产生了最可靠的结果。

利用线性回归、随机森林和AdaBoost评价特征模型1。

评价指标 线性回归一个 随机森林一个 演算法一个
R2 0.693 0.481 0.454
b 0.079 0.096 0.104
均方误差c 0.014 0.021 0.020
RMSEd 0.117 0.143 0.142
最大的错误 0.315 0.359 0.355

一个所有结果均采用k-fold交叉验证(k=10)进行评估。

bMAE:平均绝对误差。

c均方误差。

dRMSE:均方根误差。

利用线性回归、随机森林和AdaBoost评价特征模型2。

评价指标 线性回归一个 随机森林一个 演算法一个
R2 0.763 0.722 0.679
b 0.070 0.070 0.090
均方误差c 0.011 0.013 0.015
RMSEd 0.107 0.114 0.124
最大的错误 0.265 0.308 0.300

一个所有结果均采用k-fold交叉验证(k=10)进行评估。

bMAE:平均绝对误差。

c均方误差。

dRMSE:均方根误差。

一系列的子图显示线性回归、随机森林和AdaBoost算法在特征模型1和2中的预测性能。每次观察结果代表对2021年COVID-19每百万人累积病例数的预测,回归线为真实值。随着人类发展指数指标的加入,线性回归算法在R2=0.693到0.763。随机森林算法是在R2=0.481到0.722。AdaBoost算法在R2=0.454到0.679。使用cross_val_predict计算数据点,它显示了每k次折叠中每个测试集的预测输出。

特征模型1中每种算法的单个折叠(k=10)的精度。

迭代 线性回归 随机森林 演算法
1折 0.877 0.799 0.759
折叠2 0.768 0.687 0.342
3折 0.657 0.464 0.584
4折 0.803 0.530 0.629
5折 0.747 0.153 -0.696
6折 0.733 0.553 0.766
7折 0.804 0.628 0.652
8折 0.035 -0.287 0.083
9折 0.767 0.627 0.696
折10 0.742 0.657 0.722

特征模型2中每种算法的单个折叠(k=10)的精度。

迭代 线性回归 随机森林 演算法
1折 0.774 0.796 0.679
折叠2 0.595 0.457 0.485
3折 0.946 0.907 0.882
4折 0.602 0.622 0.551
5折 0.833 0.869 0.824
6折 0.780 0.776 0.720
7折 0.627 0.636 0.626
8折 0.850 0.659 0.536
9折 0.780 0.794 0.851
折10 0.844 0.594 0.629
讨论 主要研究结果

探索性数据分析的结果产生了许多有趣的见解。首先,2021年COVID-19病例的正偏态分布导致样本中的平均值大于中位数。在采样的182个国家中,COVID-19流行率是不对称的,并显示少数国家的病例数非常高。第二,2020年COVID-19病例的分布呈正向倾斜,在视觉上与2021年的分布相似。这表明,就累计报告病例而言,2020年和2021年样本中病毒的轨迹相对一致。第三,这4个异常国家都有一个有趣的模式;他们的平均预期寿命、平均受教育年限和国民总收入都高于样本中的平均值。这表明,离群值可以被认为高于社会经济平均水平。最后,所有人类发展指数指标都与每百万例COVID-19病例呈正相关,这表明社会经济地位和COVID-19流行之间存在重要的统计关系。受教育程度(预期/平均年限)的相关性最高,其次是预期寿命,然后是GNI。 This correlation is noteworthy and highlights the unique nature of the COVID-19 pandemic. Typically, lower socioeconomic status is associated with poorer health outcomes, but the results from this study suggest that countries with higher socioeconomic status recorded higher rates of COVID-19 in 2021. This could be because more developed countries tend to have older populations, as well as higher prevalence of known COVID-19 clinical risk factors, such as diabetes and cardiovascular disease [ 79].

机器学习分析的结果表明,可以利用前一年的患病率和预期寿命、平均受教育年限、预期受教育年限和人均国民总收入等社会经济指标,以合理的准确性预测2021年COVID-19流行率。考虑到社会经济指标,R2的准确率均高于仅针对2020年2019冠状病毒病数据训练时的准确率,且误差统计量较低。将人类发展指数与每个国家前一年的COVID-19病例一起作为预测指标,通过选择的3种算法,对2021年病例的预测准确率平均提高了18%。鉴于预测算法可能难以处理较小的数据集[ 59,本研究(n=182)的结果值得注意。

线性回归算法是数据上最强的学习者,但一旦加入HDI指标,也显示出最小的改进(平均交叉验证增加了7%)。考虑到其他算法在加入HDI指数后有了很大的改进,这个结果代表了一个有趣的离群值。算法之间的不同性能可能是由于变量之间的统计线性关系(在皮尔逊相关矩阵中发现) 图4).尽管2021年每百万例COVID-19累计病例与上一年的病例数据之间存在很强的相关性(R=0.84),但特征模型1并未使用随机森林或AdaBoost进行准确预测。与线性回归模型不同(线性回归模型擅长拟合存在线性相关性的数据),随机森林和AdaBoost等决策树算法可能更有效地处理非线性数据[ 80 81].最后,每个k倍迭代的性能差异很大,证明了使用交叉验证来评估模型的合理性。例如,在特征模型2中,线性回归算法的最高得分折叠的结果为94.6,是一个高度准确的R2结果。然而,得分最低的褶皱有一个R259.5。交叉验证R2因此,76.3分是该数据集最可靠的得分。

后续的分析

在初步分析之后,进行了4次随访分析。首先,在没有2020年COVID-19病例数据作为特征的情况下,再次训练特征模型2,以分析人类发展指数指标单独预测COVID-19病例的效果。没有前一年的病例数据,准确性很低(R2=0.438为最佳性能算法,同样是线性回归)。这一结果强调了2020年病例数据在预测下一年COVID-19流行率方面的重要意义。其次,每次使用1个HDI指标再次训练特征模型2,分析哪一个指标对COVID-19病例的预测最重要。结果显示,预期受教育年限和平均受教育年限的得分最高(R2=0.755),其次是预期寿命(R2=0.739)、GNI (R2= 0.712)。这表明教育是最具预测性的社会经济指标(人类发展指数的教育指标在统计上也是最具相关性的)。然而,结果也表明,在该数据集中,使用所有人类发展指数比单独使用它们更有效地预测COVID-19病例。第三个后续实验从数据集中删除了之前确定的4个异常值国家(安道尔、黑山、塞尔维亚和塞舌尔),并使用与初始分析相同的交叉验证方法再次实现了这两个特征模型。这产生了有趣的结果 表8而且 9).最值得注意的是,随机森林成为特征模型2 (R2= 0.777)。尽管通常对异常值不太敏感[ 82],随机森林受益于该数据集中的离群值去除。去除异常值也减少了算法之间的性能差距。在剔除异常值的情况下,Feature Model 1的最佳和最差性能算法之间的差异为23.9%,剔除异常值后,该差异降至19.5%。这种减少在特征模型2中更为明显,除去异常值后,最佳和最差性能算法之间的差异只有2.1%(相比之下,在包含异常值的原始样本中,差异为8.4%)。然而,结果表明,去除异常值并没有显著提高总体预测精度。

第四个后续实验试图将作为COVID-19预测因素的社会经济地位与选定的其他COVID-19风险因素进行比较。随后,每个国家的中位年龄、人口密度(每平方公里的个人)和接种疫苗的个人百分比被收集并添加到数据集。这些变量都已被证明可以预测某些样本中的COVID-19流行率[ 83- 85].大部分所需的数据也可以在OurWorldInData数据库中找到,不过有一小部分条目必须从worldometer和IndexMundi [ 86 87].

当特征模型2再次使用这些新指标和2020年的案例数据进行训练时,所有3种算法的预测准确性下降到0.649的平均值。使用这些新特征,在具有社会经济特征的模型中,最准确的算法比最准确的学习者的准确率低10% 表10).这是一项重大发现,它表明社会经济地位在预测2021年累计病例方面比一个国家的中位年龄、人口密度和疫苗接种率更有效,突出了其作为样本国家中COVID-19的非临床预测因素的独特重要性。

特性模型1比较(包括异常值与排除异常值)。

算法 意思是R2在包含异常值的样本中(n=182) 意思是R2在剔除异常值的样本中(n=178)
线性回归 0.693 0.689
随机森林 0.481 0.493
演算法 0.454 0.494

特性模型2比较(包括异常值与排除异常值)。

算法 意思是R2在包含异常值的样本中(n=182) 意思是R2在剔除异常值的样本中(n=178)
线性回归 0.763 0.754
随机森林 0.722 0.777
演算法 0.679 0.733

模型2使用线性回归比较社会经济指标与其他风险因素的绩效。

测量 带HDI的特征模型2一个指标 以人口密度、中位年龄和疫苗接种率为特征的模型2
R2 0.763 0.661
b 0.070 0.075
均方误差c 0.011 0.016
RMSEd 0.107 0.128
最大的错误 0.265 0.312

一个人类发展指数。

bMAE:平均绝对误差。

c均方误差。

dRMSE:均方根误差。

研究结果的意义

为了更好地理解本研究的机器学习结果,我们比较了性能最好的算法(R2=0.763)与类似的机器学习COVID-19病例预测。总的来说,它符合前面提到的系统综述中COVID-19预测建模研究的公认范围,从0.64到1 [ 64].这项研究的结果与另一项研究的结果一致,该研究试图使用多层感知器神经网络预测美国3109个县的COVID-19累计病例。在此前的这项研究中,家庭收入中位数的社会经济指标在COVID-19流行率的57个临床和非临床预测变量中排名第五[ 88].诸如此类的研究表明,社会经济指标是COVID-19流行率的决定因素,这进一步支持在本研究中使用人类发展指数,以更准确和准确地预测2021年COVID-19流行率。

这项研究有很多意义。首先,它展示了在流行病研究中结合统计和机器学习方法的效用。虽然统计检验可以确定变量之间的相关性,但它们不能提供目标变量的具体预测。因此,每一种方法都解决了另一种方法的缺点。第二,该研究表明,社会经济状况是未来流行病学建模中需要考虑的一个重要变量,揭示了新冠肺炎大流行的复杂社会性质。社会经济地位比中位年龄、人口密度和疫苗接种率更能预测COVID-19流行率。第三,这些结果在多国样本中的准确性是值得注意的。由于数据来自182个国家,这项研究表明,社会经济地位可被视为一个“全球风险因素”,而不是一个国家特有的因素[ 38].这将支持决策者的循证政策和干预措施。第四,研究结果表明,尽管社会经济因素有助于COVID-19的预测,但可能还有其他重要因素可以进一步优化预测。最后,历史报告的COVID-19病例数据在试图预测未来COVID-19流行率方面的重要性不容低估。2020年COVID-19病例数据与2021年COVID-19病例数据密切相关,可以被认为是最重要的机器学习特征。

限制

和所有的研究一样,这项研究也有固有的局限性。首先,在跨国分析COVID-19时,必须注意到,由于检测能力有限等原因,一些国家比其他国家少报了病例数量[ 89].第二,人类发展指数没有考虑到其他社会经济因素,包括金融不平等程度、社会排斥或国家内部歧视[ 90].这些因素值得在未来的研究中纳入,以评估其影响。第三,国家COVID-19患病率提供了一个国家受影响程度的总体衡量标准,这适用于跨国研究,但它们没有捕捉到每个国家内部传播模式的全部复杂性。建议在区域和城市一级进行进一步研究,以协助大流行病的预测。最后,使用小数据集训练可靠的机器学习模型可能具有挑战性[ 59].交叉验证用于解决这一限制,因为它最大化了数据集,并最小化了传统分区方法的潜在偏差。

结论

更好地理解人口水平预测因素对于更好地理解和应对2019冠状病毒病造成的公共卫生危机至关重要[ 91].该研究表明,社会经济地位是一个重要的非临床风险因素,有助于COVID-19预测建模研究的不断增长。根据人类发展指数和历史病例率,可以合理地预测2021年跨国COVID-19累积病例。尽管COVID-19是全球社会的一个长期挑战,但机器学习的数据驱动方法将继续支持决策者了解大流行、制定应对战略和预测未来结果[ 92].

缩写 GNI

国民总收入

人类发展指数

人类发展指数

平均绝对误差

均方误差

均方误差

RMSE

均方根误差

先生

易感,感染,康复

联合国开发计划署

联合国开发计划署

没有宣布。

史上最大规模的疫苗全球推广离目标又近了一步 全球疫苗免疫联盟 2021-11-05 https://www.gavi.org/vaccineswork/largest-global-rollout-vaccines-history-just-got-one-step-closer Iyanda AE Adeleke R Y Osayomi T Adaralegbe 一个 Lasode Chima-Adaralegbe 新泽西 Osundina 对175个国家COVID-19疫情的回顾性跨国调查:多尺度地理加权回归分析(2020年1月11日至6月28日) J感染公共卫生 2020 10 13 10 1438 1445 10.1016 / j.jiph.2020.07.006 32773211 s1876 - 0341 (20) 30572 - 4 PMC7375316 Balmford B 安南 JD 哈格里夫斯 JC Altoe 贝特曼 IJ 2019冠状病毒病的跨国比较:政策、政治和生命的代价 环境资源经济(Dordr) 2020 76 4 525 551 10.1007 / s10640 - 020 - 00466 - 5 32836862 466 PMC7400753 Foldi 法卡斯 N 年代 Zadori N Vancsa 年代 Szako l Dembrovszky F Solymar 高奏 E Z 哈特曼 P 票面价值 G Erő党卫军 B Molnar Z Hegyi P Szentesi称 一个 KETLAK研究组 肥胖是COVID-19患者发展为危重状态的危险因素:一项系统综述和荟萃分析 ob牧师 2020 10 21 10 e13095 10.1111 / obr.13095 32686331 PMC7404429 Mahase E Covid-19:为什么年龄和肥胖是严重疾病的危险因素? BMJ 2020 10 26 371 m4130 10.1136 / bmj.m4130 33106243 马苏德 Aggarwal 一个 Reidpath DD 民族文化对BMI的影响:53个国家的多层次分析 公共卫生 2019 09 03 19 1 1212 10.1186 / s12889 - 019 - 7536 - 0 31481044 10.1186 / s12889 - 019 - 7536 - 0 PMC6719355 Y J Lv W Y 肥胖和糖尿病是2019年严重冠状病毒病的高危因素 糖尿病 2021 02 37 2 e3377 10.1002 / dmrr.3377 32588943 PMC7361201 Lima-Martinez 毫米 卡雷拉Boada C Madera-Silva 医学博士 马林 W 康特拉斯 COVID-19与糖尿病:一种双向关系 临床调查动脉 2021 33 3. 151 157 10.1016 / j.arteri.2020.10.001 33303218 s0214 - 9168 (20) 30105 - 4 PMC7598432 卡什 VK Dhasmana 一个 梅西 一个 Kotnala 年代 征服者 N Jaggi Yallapu 毫米 Chauhan SC 吸烟与COVID-19:火上浇油 国际分子科学 2020 09 09 21 18 6581 10.3390 / ijms21186581 32916821 ijms21186581 PMC7555793 Ibanez说 一个 西索迪亚 GS 文化对2020年SARS-CoV-2国家死亡的作用:基于文化维度的大流行管理 GeoJournal 2022 87 2 1175 1191 10.1007 / s10708 - 020 - 10306 - 0 33020679 10306 PMC7527153 Roewer-Despres F 罗塞拉 l Rudzicz F 基于机器学习的114个国家确诊COVID-19感染病例增长预测,使用非药物干预措施和文化维度指标:模型开发和验证 J医学网络杂志 2021 04 23 23 4 e26628 10.2196/26628 33844636 v23i4e26628 PMC8074952 Cascini F Pantovic 一个 Al-Ajlouni Y 行进 G 里恰尔迪 W 全球普通人群对接受COVID-19疫苗的态度、接受和犹豫及其影响因素:一项系统综述 EClinicalMedicine 2021 10 40 101113 10.1016 / j.eclinm.2021.101113 34490416 s2589 - 5370 (21) 00393 - x PMC8411034 Troumbis 用综合人类发展指数检验COVID-19大流行假设的社会经济决定因素 流行病学,社区卫生 2020 12 08 jech - 2020 - 215986 10.1136 / jech - 2020 - 215986 33293289 jech - 2020 - 215986 Azza 一个 Sarhan 一个 利用人类发展指数确定监测冠状病毒大流行的指标 JVAT 2020 4 17 1 1 48 57 10.14302 / issn.2691 - 8862. - jvat 20 - 3306 de Souza 提供 马查多 曼氏金融 做• 射频 巴西的人类发展、社会脆弱性与2019冠状病毒病:健康的社会决定因素研究 感染贫穷 2020 08 31 9 1 124 10.1186 / s40249 - 020 - 00743 - x 32867851 10.1186 / s40249 - 020 - 00743 - x PMC7456757 斯坦顿 EA 人类发展指数:历史 马萨诸塞大学阿默斯特分校 2007 2021-07-05 https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1101&context=peri_workingpapers Franco-Herrera D Gonzalez-Ocampo D Restrepo-Montoya V Gomez-Guevara Alvear-Villacorte N Rodriguez-Morales AJ 哥伦比亚和拉丁美洲疟疾流行病学与人类发展指数之间的关系 Infez地中海 2018 09 01 26 3. 255 262 30246769 Pervaiz R 费萨尔 F 妇科癌症与人类发育指数的关系研究 再生产健康 2020 03 24 1 53 61 10.29063 / ajrh2020 / v24i1.6 32358937 Khazaei Z Goodarzi E Borhaninejad V Iranmanesh F Mirshekarpour H Mirzaei B Naemi H Bechashk SM Darvishi Ershad Sarabi, R Naghibzadeh-Tahami 一个 脑癌发病率和死亡率与人类发育指数(HDI)的关系:一项生态学研究 公共卫生 2020 11 12 20. 1 1696 10.1186 / s12889 - 020 - 09838 - 4 33183267 10.1186 / s12889 - 020 - 09838 - 4 PMC7664078 Z J C W 高血压患病率与人类发展指数的全球视野 安·格洛布健康 2020 06 29 86 1 67 10.5334 / aogh.2591 32676296 PMC7333558 Singu 年代 阿查里雅 一个 Challagundla K Byrareddy SN 健康的社会决定因素对美国新出现的COVID-19大流行的影响 公共卫生 2020 7 21 8 406 10.3389 / fpubh.2020.00406 32793544 PMC7385373 Darin-Mattsson 一个 福尔斯得到消息 年代 Kareholt 社会经济地位的不同指标及其作为老年人健康决定因素的相对重要性 国际J公平卫生 2017 09 26 16 1 173 10.1186 / s12939 - 017 - 0670 - 3 28950875 10.1186 / s12939 - 017 - 0670 - 3 PMC5615765 Hellmich SN 什么是社会经济学?该领域的理论、方法和主题概述 社会经济学论坛 2015 01 15 46 1 3. 25 10.1080 / 07360932.2014.999696 阿德勒 博伊斯 T 切斯尼 科恩 年代 福克曼 年代 卡恩 RL 赛姆 SL 社会经济地位和健康。梯度的挑战 我Psychol 1994 01 49 1 15 24 10.1037 / / 0003 - 066 x.49.1.15 8122813 J l 社会经济地位对身心健康的影响:生活方式作为中介 国际环境保留区公共卫生 2019 01 20. 16 2 281 10.3390 / ijerph16020281 30669511 ijerph16020281 PMC6352250 Braveman P 戈特利布 l 健康的社会决定因素:是时候考虑原因的原因了 公共卫生代表 2014 129补充2 19 31 10.1177 / 00333549141291 s206 24385661 PMC3863696 沃尔特斯 年代 Suhrcke 中欧和东欧以及独联体在保健和获得保健方面的社会经济不平等:最近文献综述 世界卫生组织 2005 2022-03-01 https://apps.who.int/iris/handle/10665/350352 阿德勒 Ostrove JM 社会经济地位和健康:我们知道什么,我们不知道什么 Ann N Y科学学院 1999 896 3. 15 10.1111 / j.1749-6632.1999.tb08101.x 10681884 Hakeberg 宽博蔓 U 自我报告与社会经济地位相关的口腔和一般健康状况 公共卫生 2017 07 26 18 1 63 10.1186 / s12889 - 017 - 4609 - 9 28747180 10.1186 / s12889 - 017 - 4609 - 9 PMC5530538 霍金斯 RB 查尔斯 EJ Mehaffey JH 社会经济状况和与covid -19相关的病例和死亡人数 公共卫生 2020 12 189 129 134 10.1016 / j.puhe.2020.09.016 33227595 s0033 - 3506 (20) 30435 - 2 PMC7568122 帕特尔 晶澳 尼尔森 FBH Badiani AA Assi 年代 Unadkat 弗吉尼亚州 帕特尔 B Ravindrane R 瓦尔德 H 贫困、不平等和COVID-19:被遗忘的弱势群体 公共卫生 2020 06 183 110 111 10.1016 / j.puhe.2020.05.006 32502699 s0033 - 3506 (20) 30165 - 7 PMC7221360 2020年人类发展报告 联合国开发计划署 2020 2021-09-08 https://hdr.undp.org/system/files/documents//hdr2020pdf.pdf W X T 人类发育指数与胃肠道癌症的死亡率与发病率相关 世界J肠胃醇 2013 08 28 19 32 5261 70 10.3748 / wjg.v19.i32.5261 23983428 PMC3752559 Soheylizad Khazaei 年代 Jenabi E Delpisheh 一个 Veisani Y 人类发育指数及其组成部分与甲状腺癌发病率和死亡率的关系:运用分解方法 内分泌素Metab 2018 10 16 4 e65078 10.5812 / ijem.65078 30464773 PMC6218660 Javanmard E Niyyati Ghasemi E Mirjalali H Asadzadeh Aghdaei H Zali 先生 人类发育指数和气候条件对囊胚病流行的影响:一项系统综述和荟萃分析 《太 2018 09 185 193 203 10.1016 / j.actatropica.2018.05.014 29802845 s0001 - 706 x (17) 31417 - 1 佩雷拉 足总 de Mendonca IA Werneck 国际扶轮 Moyses Gabardo MC Moyses SJ 大城市的人类发展指数、牙医与居民比率、蛀牙、缺牙或补牙指数 J当代Dent实践 2018 11 01 19 11 1363 1369 30602642 1526-3711-2201 谢赫 一个 Peprah E 默罕默德 RH Asghar 一个 Andharia NV Lajot NA 库雷希 细胞瘤 2019冠状病毒病与心理健康:一项多国研究——封锁对年轻人心理健康的影响 中东柯尔精神病学 2021 08 09 28 1 1 10 10.1186 / s43045 - 021 - 00116 - 6 奥沙利文 R 伯恩斯 一个 G Leroi Burholt V 目前 J 霍尔特·龙史塔德 J 维克多 C 软件的 B Vilar-Compte Perissinotto 厘米 真爱一世情 沙利文 国会议员 罗萨 权力 JM Tiilikainen E Prohaska TR COVID-19大流行对孤独和社会孤立的影响:一项多国研究 国际环境保留区公共卫生 2021 09 23 18 19 9982 10.3390 / ijerph18199982 34639283 ijerph18199982 PMC8508181 Hawlader MDH 拉赫曼 毫升 纳齐尔 一个 Ara T Haque MMA 萨哈 年代 Barsha SY Hossian 晨祷 KF Siddiquea 拉希德 μ 马斯 侯赛因 拉赫曼 吉里 吗哪 RM 阿拉法特 我的 哈桑 SMR Maliha R Kha 年代 生理改变 哈桑 拉希德 R J 哈立德 O 伊斯兰教 AMK 努尔 N Ataullah Umbreen H Itrat N 艾哈迈德 U Naeem 卡比尔 潘迪特 SK 吉里 年代 伊斯兰教的先知 MH 南亚COVID-19疫苗接受情况:一项多国研究 感染疾病 2022 01 114 1 10 10.1016 / j.ijid.2021.09.056 34597765 s1201 - 9712 (21) 00759 - 1 PMC8604279 张成泽 SY Hussain-Alkhateeb l 里维拉拉米雷斯 T Al-Aghbari AA Chackalackal DJ Cardenas-Sanchez R Carrillo Alfonso-Sierra EA 的说法 P Kibiwott Kirui B 为由 Diaz-Monsalve 年代 Kroeger 一个 影响COVID-19流行曲线的因素:多国分析 BMC感染 2021 10 02 21 1 1032 10.1186 / s12879 - 021 - 06714 - 3 34600485 10.1186 / s12879 - 021 - 06714 - 3 PMC8487341 Y P C T COVID-19感染者无法检测的时间依赖SIR模型 IEEE反式。Netw。科学。英格 2020 10 1 7 4 3279 3294 10.1109 / tnse.2020.3024723 Calafiore G 诺瓦拉 C Possieri C 意大利新冠肺炎传染的修正SIR模型 2020 第59届IEEE决策与控制会议 2020年12月14日至18日 韩国济州岛(韩国) 10.1109 / cdc42340.2020.9304142 法律 KB Peariasamy 公里 易卜拉欣 H 阿卜杜拉 NH 在随机混合人群中建立具有群体免疫的传染病模型 研究方 2022-09-03 https://www.researchsquare.com/article/rs-289776/v5 Kadkhoda K 对COVID-19的群体免疫 J是Clin Pathol吗 2021 03 15 155 4 471 472 10.1093 / ajcp / aqaa272 33399182 6063411 PMC7929447 Wiemken TL 凯利 RR 机器学习在流行病学和健康结果研究中的应用 公共卫生 2020 04 02 41 21 36 10.1146 / annurev - publhealth - 040119 - 094437 31577910 安德森 AB Grazal CF Balazs GC 波特 汉堡王 狄更斯 摩根富林明 Forsberg 晶澳 预测建模工具能否识别ACL重建后长期使用阿片类药物的高风险患者? 临床矫正相关保留区 2020 07 478 7 1618 10.1097 / CORR.0000000000001251 32282466 00003086-202007000-00039 PMC7310396 基于“增大化现实”技术 J 荣格 W 公园 SY 吸引 J 上海 利用机器学习建立麻醉诱导后低血压预测模型 《公共科学图书馆•综合》 2020 15 4 e0231172 10.1371 / journal.pone.0231172 32298292 玉米饼- d - 19 - 32749 PMC7162491 Shickel B Loftus TJ Adhikari l Ozrazgat-Baslanti T Bihorac 一个 Rashidi P DeepSOFA:使用临床可解释深度学习为危重患者提供的持续的视力评分 Sci代表 2019 02 12 9 1 1879 10.1038 / s41598 - 019 - 38491 - 0 30755689 10.1038 / s41598 - 019 - 38491 - 0 PMC6372608 Bi 家长 Kaminsky J Lessler J 什么是机器学习?流行病学家入门 流行病学 2019 12 31 188 12 2222 2239 10.1093 / aje / kwz189 31509183 5567515 Bhatt 年代 格辛 PW 布雷迪 橙汁 墨西拿 摩根大通 大学法洛 亚历山大-伍尔兹 莫耶斯 CL 德雷克 JM 布朗斯坦 JS 霍恩 AG) Sankoh O 迈尔斯 曼氏金融 乔治 DB Jaenisch T 温特 GRW 席梦思床品公司 CP 斯科特 太瓦 法勒 JJ 干草 如果 登革热的全球分布和负担 自然 2013 04 25 496 7446 504 7 10.1038 / nature12060 23563266 nature12060 PMC3651993 Pigott DM 戈尔丁 N Mylne 一个 Z 亨利 AJ 维斯 DJ 布雷迪 橙汁 Kraemer 杯子 史密斯 戴斯。莱纳姆: 莫耶斯 CL Bhatt 年代 格辛 PW Horby PW Bogoch 2 布朗斯坦 JS Mekaru 泰特姆 AJ K 干草 如果 绘制非洲埃博拉病毒病人畜共患病生态位 Elife 2014 09 08 3. e04395 10.7554 / eLife.04395 25201877 PMC4166725 墨西拿 摩根大通 Pigott DM 戈尔丁 N 杜达 布朗斯坦 JS 维斯 DJ 吉布森 H 罗宾逊 TP 吉尔伯特 威廉·温特 GR Nuttall 巴勒斯坦权力机构 格辛 PW 迈尔斯 曼氏金融 乔治 DB 干草 如果 克里米亚-刚果出血热的全球分布 Trans R Soc Trop Med Hyg 2015 08 109 8 503 13 10.1093 / trstmh / trv050 26142451 trv050 PMC4501401 墨西拿 摩根大通 Kraemer μ 布雷迪 橙汁 Pigott DM 希勒 调频 维斯 DJ 戈尔丁 N Ruktanonchai 连续波 格辛 PW 科恩 E 布朗斯坦 JS K 泰特姆 AJ Jaenisch T 穆雷 CJ 马里奥 F 斯科特 太瓦 干草 如果 绘制寨卡病毒的全球环境适宜性 Elife 2016 04 19 5 e15272 10.7554 / eLife.15272 27090089 PMC4889326 萨满 J Karspeck 一个 预测流感的季节性暴发 美国国家科学研究院 2012 12 11 109 50 20425 30. 10.1073 / pnas.1208772109 23184969 1208772109 PMC3528592 l G l Z J P 年代 R Z H 首歌 H 西非埃博拉病毒病流行病学特征及趋势 感染疾病 2015 09 38 52 3. 10.1016 / j.ijid.2015.07.017 26216765 s1201 - 9712 (15) 00184 - 8 德费利斯 E 坎贝尔 萨满 J 人类西尼罗河病毒病例和蚊子感染率的综合预测 Nat Commun 2017 02 24 8 14592 10.1038 / ncomms14592 28233783 ncomms14592 PMC5333106 里斯 J 萨满 J 美国呼吸道合胞病毒的回顾性参数估计与预测 公共科学图书馆编译生物学 2016 10 12 10 e1005133 10.1371 / journal.pcbi.1005133 27716828 pcompbiol - d - 16 - 00536 PMC5055361 Painuli D Mishra D Bhardwaj 年代 Aggarwal 高丝 U 古普塔 D 德阿尔伯克基 VHC 卡纳 一个 使用机器学习对COVID-19进行预测和预测 COVID-19的数据科学 2021 剑桥,麻 学术出版社 381 397 艾哈迈德 一个 Garhwal 年代 SK 库马尔 G Malebary SJ Barukab OM 利用机器学习研究新冠肺炎确诊病例数:方法和挑战 拱计算方法工程 2021 08 04 28 4 2645 2653 10.1007 / s11831 - 020 - 09472 - 8 32837183 9472 PMC7399353 艾瑟夫巴德 D 古特曼 Y 纽曼 Y 西格尔 G 阿米特 年代 Gefen-Halevi 年代 Shilo N 爱普斯坦 一个 Mor-Cohen R Biber 一个 Rahav G 莱维 Tirosh 一个 利用机器学习模型准确预测重症COVID-19的风险 实习医师 2020 11 15 8 1435 1443 10.1007 / s11739 - 020 - 02475 - 0 32812204 10.1007 / s11739 - 020 - 02475 - 0 PMC7433773 Bolourani 年代 布伦纳 P 作者 T 赫希 JS 巴纳比 D Zanos TP 诺斯维尔COVID-19研究联盟 COVID-19患者入院48小时内呼吸衰竭的机器学习预测模型:模型开发和验证 J医学网络杂志 2021 02 10 23 2 e24246 10.2196/24246 33476281 v23i2e24246 PMC7879728 Y G W H 年代 l Y D 年代 P 年代 X R Y Y X J J R X 首歌 C N W X l X l H D C F 基于机器学习的早期预警系统能够准确预测COVID-19的死亡风险 Nat Commun 2020 10 06 11 1 5033 10.1038 / s41467 - 020 - 18684 - 2 33024092 10.1038 / s41467 - 020 - 18684 - 2 PMC7538910 Banoei 毫米 Dinparastisaleh R AV Mirsaeidi 基于机器学习的COVID-19死亡率预测模型及死亡低、高危患者识别 暴击治疗 2021 09 08 25 1 328 10.1186 / s13054 - 021 - 03749 - 5 34496940 10.1186 / s13054 - 021 - 03749 - 5 PMC8424411 Ghafouri-Fard 年代 Mohammad-Rahimi H Motie P Minabi 马斯 Nateghinia 年代 机器学习在COVID-19每日新增病例预测中的应用:范围综述 Heliyon 2021 10 7 10 e08143 10.1016 / j.heliyon.2021.e08143 34660935 s2405 - 8440 (21) 02246 - 5 PMC8503968 里奇 H 马修 E Rodes-Guirao l Appel C Giattino C Ortiz-Ospina E Hasell J 麦克唐纳 B Dattani 年代 拱形门 冠状病毒大流行(COVID-19) 我们的数据世界 2021-09-01 https://ourworldindata.org/coronavirus Pollet 电视 Stulp G Henzi SP 巴雷特 l 从数据汇总中去除恶化:处理个人层面观察数据汇总相关统计问题的概念性指南 J是Primatol吗 2015 07 77 7 727 40 10.1002 / ajp.22405 25810242 数据下载 联合国开发计划署 2022-03-10 https://hdr.undp.org/data-center/documentation-and-downloads Ahsan 毫米 马哈茂德 地图 萨哈 PK 古普塔 KD Z 数据缩放方法对机器学习算法和模型性能的影响 技术 2021 07 24 9 3. 52 10.3390 / technologies9030052 帕特尔 K 德鲁克 SM 福格蒂 J 卡普尔 一个 棕褐色 DS 使用多种模型来理解数据 人工智能第二十二届国际联合会议论文集 2011 第二十二届国际人工智能联席会议 2011年7月16日至22日 巴塞罗那,加泰罗尼亚,西班牙 10.5591 / 978-1-57735-516-8 / ijcai11 - 289 Uddin 年代 一个 侯赛因 模拟 比较不同的监督机器学习算法在疾病预测中的应用 BMC Med通知Decis Mak 2019 12 21 19 1 281 10.1186 / s12911 - 019 - 1004 - 8 31864346 10.1186 / s12911 - 019 - 1004 - 8 PMC6925840 Y Goodacre R 分裂训练与验证集:交叉验证、自举和系统抽样评估监督学习泛化性能的比较研究 J肛门试验 2018 2 3. 249 262 10.1007 / s41664 - 018 - 0068 - 2 30842888 68 PMC6373628 Maulud D Abdulazeez 机器学习中的线性回归综合研究综述 JASTT 2020 12 31 1 4 140 147 10.38094 / jastt1457 Biau G 随机森林模型的分析 机器学习研究杂志 2012 13 1063 1095 美女 V Papantonis 可解释机器学习的原理与实践 前端大数据 2021 7 1 4 688969 10.3389 / fdata.2021.688969 34278297 688969 PMC8281957 怀纳 AJ 奥尔森 布莱西 J Mease D 解释AdaBoost和随机森林作为插值分类器的成功 机器学习研究杂志 2017 18 1 33 Marcot BG Hanea 离散贝叶斯网络分析中k倍交叉验证中k的最优值是多少? 第一版统计 2020 06 13 36 3. 2009 2031 10.1007 / s00180 - 020 - 00999 - 9 Kohavi R 交叉验证和自举法在精度估计和模型选择中的研究 IJCAI'95:第14届人工智能国际联合会议论文集 1995 第十四届国际人工智能联席会议 1995年8月20日至25日 蒙特利尔,魁北克,加拿大 1137 1143 10.5555/1643031.1643047 Chicco D 瓦洛 乔丹 Jurman G 在回归分析评价中,决定系数r平方比SMAPE、MAE、MAPE、MSE和RMSE信息量更大 计算科学 2021 7 e623 10.7717 / peerj-cs.623 34307865 cs - 623 PMC8279135 为什么COVID-19更集中在经济地位高的国家? 伊朗J公共卫生 2021 09 50 9 1926 1929 10.18502 / ijph.v50i9.7081 34722396 ijph - 50 - 1926 PMC8542832 Auret l 奥尔德里奇 C 用随机森林解释过程变量之间的非线性关系 矿业工程 2012 8 35 27 42 10.1016 / j.mineng.2012.05.008 一个 切尔诺夫 H T 年代 为什么显著变量不能自动成为好的预测因子 美国国家科学研究院 2015 11 10 112 45 13892 7 10.1073 / pnas.1518285112 26504198 1518285112 PMC4653162 Breiman l 随机森林 机器学习 2001 45 5 32 10.1023 / A1010933404324 DWS COVID-19的传播:密度很重要 《公共科学图书馆•综合》 2020 15 12 e0242398 10.1371 / journal.pone.0242398 33362283 玉米饼- d - 20 - 18750 PMC7757878 戴维斯 NG Klepac P Y 但是过犹不及 K Jit cmidd新冠肺炎工作组 Eggo RM COVID-19流行病传播和控制中的年龄依赖效应 Nat地中海 2020 08 26 8 1205 1211 10.1038 / s41591 - 020 - 0962 - 9 32546824 10.1038 / s41591 - 020 - 0962 - 9 Wilder-Smith 一个 在SARS-CoV-2 delta变种的情况下,疫苗在减少传播方面有什么效果? 《柳叶刀传染病》 2022 02 22 2 152 153 10.1016 / s1473 - 3099 (21) 00690 - 3 按人口划分的世界各国 Worldometers 2022-04-01 https://www.worldometers.info/world-population/population-by-country/ Factbook-Countries IndexMundi 2022-04-02 https://www.indexmundi.com/factbook/countries Mollalo 一个 里维拉 公里 Vahedi B 美国大陆新型冠状病毒(COVID-19)发病率的人工神经网络建模 国际环境保留区公共卫生 2020 06 12 17 12 4204 10.3390 / ijerph17124204 32545581 ijerph17124204 PMC7344609 H Khosrawipour T Kocbach P Ichii H 商人 J Khosrawipour V 评估在多个全球中心地区对COVID-19病例的严重漏报和检测不足 肺学 2021 27 2 110 115 10.1016 / j.pulmoe.2020.05.015 32540223 s2531 - 0437 (20) 30129 - x PMC7275155 Bilbao-Ubillos J 人类发展指数的极限:经济和社会凝聚力、发展战略和可持续性的补充作用 Sust。Dev 2011 05 19 21 6 400 412 10.1002 / sd.525 厄尔曼 一个 Medeiros 探讨集体文化属性对新冠肺炎相关公共卫生结果的影响 前面Psychol 2021 12 627669 10.3389 / fpsyg.2021.627669 33833717 PMC8021731 波隆斯基 晶澳 Baidjoe 一个 Kamvar 科里 一个 Durski K 埃德蒙兹 WJ Eggo RM 恐慌 年代 凯撒 l 基廷 P de Waroux OLP 标志着 东湾 P 摩根 O Nouvellet P Ratnayake R 罗伯茨 CH 惠特沃思 J Jombart T 疫情分析:一种为应对新出现的病原体提供信息的发展中的数据科学 Philos Trans R Soc Lond B生物科学 2019 07 08 374 1776 20180276 10.1098 / rstb.2018.0276 31104603 PMC6558557
Baidu
map