卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JFR

JMIR表格副本

形成性研究

2561 - 326 x

卡塔尔世界杯8强波胆分析

加拿大多伦多

v6i9e35114

36001798

10.2196/35114

原始论文

利用探索性数据分析和监督机器学习技术探索社会经济状况作为COVID-19流行的全球决定因素:算法开发和验证研究

Mavragani

孤挺花

王

平

Rostam Niakan Kalhori

Sharareh

普拉丹

Meeta

温斯顿

路加福音

妈 1

计算机系大西洋理工大学

港口路

莱特肯尼，F92 FC93

爱尔兰 353 862435617 L00162644@student.lyit.ie

https://orcid.org/0000-0001-7633-8604

麦肯

迈克尔

博士学位 1

https://orcid.org/0000-0002-8431-2639

Onofrei

乔治

博士学位 2

https://orcid.org/0000-0003-3508-370X

1 计算机系大西洋理工大学

自动化

爱尔兰 2 经营部大西洋理工大学

自动化

爱尔兰

通讯作者:卢克·温斯顿 L00162644@student.lyit.ie

9 2022

27 9 2022

6 9

e35114

22 11 2021 24 2 2022 12 4 2022 27 4 2022

©Luke Winston, Michael McCann, George Onofrei。最初发表在JMIR形成研究(https://formative.www.mybigtv.com)， 27.09.2022。

2022

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布，该协议允许在任何媒体上不受限制地使用、分发和复制，前提是原始作品首次发表在JMIR形成研究，并被适当引用。必须包括完整的书目信息，https://formative.www.mybigtv.com上的原始出版物链接，以及版权和许可信息。

背景

2019冠状病毒病大流行是近年来前所未有的全球挑战。在国际社会试图长期控制这一大流行病之际，关键是要了解是什么因素推动了流行率，并预测病毒的未来发展轨迹。

客观的

本研究有两个目标。首先，它检验了社会经济地位和COVID-19流行率之间的统计关系。其次，它使用机器学习技术来预测182个国家的多国样本中的累计COVID-19病例。综合起来，这些目标将揭示社会经济状况作为COVID-19大流行的一个全球风险因素。

方法

本研究采用探索性数据分析和监督机器学习方法。探索性分析包括变量分布、变量相关性和异常值检测。随后，应用了以下3种监督回归技术:线性回归、随机森林和自适应增强(AdaBoost)。结果采用k-fold交叉验证进行评估，随后比较分析算法的适用性。分析涉及两个模型。首先，训练算法仅使用2020年报告的病例数据预测2021年COVID-19流行率。在此基础上，加入社会经济指标作为特征，并再次训练算法。人类发展指数(HDI)指标包括预期寿命、平均受教育年限、预期受教育年限和国民总收入，这些指标被用来估算社会经济地位。

结果

所有变量都与2021年COVID-19流行率呈正相关²取值范围为0.55到0.85。利用社会经济指标，以合理的准确性预测了COVID-19流行率。使用2020年报告的病例率作为预测2021年患病率的单一预测因子，算法的平均预测精度很低(R²= 0.543)。当社会经济指标与2020年患病率一起作为特征添加时，平均预测性能显著提高(R²=0.721)，所有的错误统计数据都减少了。因此，在2020年报告的病例数据中加入社会经济指标，在很大程度上优化了对COVID-19流行率的预测。线性回归是R最强的学习者²第一个模型=0.693,R²其次是随机森林(0.481和0.722)和AdaBoost(0.454和0.679)。在此之后，使用选定的额外COVID-19风险因素(人口密度、中位年龄和疫苗接种率)，而不是人类发展指数指标，对第二个模型进行了重新训练。然而，平均准确度下降到0.649，这突显了社会经济地位在所选样本中作为COVID-19病例预测器的价值。

结论

结果表明，社会经济状况是未来流行病学建模中需要考虑的一个重要变量，并强调了COVID-19大流行作为一种社会现象和卫生保健现象的现实。本文还就应用统计和机器学习技术来理解和抗击COVID-19大流行提出了新的考虑。

新型冠状病毒肺炎机器学习数据分析流行病学人类发展指数

简介背景

2019冠状病毒病大流行是近年来前所未有的全球挑战。SARS-CoV-2病毒最初在中国武汉被发现，之后在世界范围内扩散，局势升级为国际紧急情况。尽管2020年采取了广泛的遏制措施，并开展了历史上规模最大的疫苗投放[ 1]，大流行病在2021年继续挑战着全球社会。目前正在进行研究，以分析病毒的传播轨迹，并了解为什么特定人群或国家受到的影响比其他人群或国家更严重[ 2， 3.］．数据可用性的提高支持了这一点，这使研究人员能够调查一系列潜在的COVID-19风险因素。这些危险因素可分为临床或非临床。临床危险因素包括肥胖[ 4- 6]、糖尿病[ 7， 8]和吸烟[ 9］．非临床危险因素的例子有文化差异[ 10，政府的控制措施[ 11]、疫苗接种态度[ 12]、社会经济地位[ 13- 15］．

本文重点研究社会经济地位作为决定COVID-19流行的非临床风险因素。为了为社会经济状况提供可靠的实证指标，选择了联合国开发计划署(开发署)的人类发展指数(HDI)。人类发展指数通过综合预期寿命、教育和人均收入指标，计算出一个国家居民的整体社会经济地位或“福祉”[ 16］．它已成功地应用于以往的流行病学研究，以绘制各种疾病的流行率[ 17- 20.］．尽管HDI在统计分析中很受欢迎，但尚未在机器学习新冠肺炎建模中得到广泛应用。这为应用统计和机器学习技术来检验人类发展指数是否可用于准确预测COVID-19的患病率提供了机会。

相关工作卫生研究中的社会经济地位

大流行病既是一个保健问题，也是一个社会问题[ 21］．因此，社会经济地位是大流行研究中需要考虑的一个重要决定因素。社会经济地位一词是一个总括性术语，用于描述可通过经验测量的社会或经济因素，如社会阶层、教育、收入和健康状况[ 22， 23］．这些因素以各种方式被应用，以调查或控制它们对特定结果(如健康结果)的影响，并一直被发现在统计上具有显著意义[ 24- 26］．就健康结果而言，较高的社会经济地位通常与较好的健康状况有关。相反，较低的社会经济地位与较差的健康结果相关[ 27］．在文献中，较低的社会经济地位与较高的疾病发病率有关，如骨关节炎、慢性疾病、高血压和宫颈癌[ 28， 29］．

就COVID-19而言，社会经济地位也与更高的患病率和更严重的后果有关。在美国，贫困社区指数被用于分析社会经济状况对COVID病例和死亡率的影响[ 30.］．这项研究的结果表明，较低的教育水平和种族差异与较差的COVID-19结果相关。另一项研究认为，社会经济水平较低的人口更有可能住在拥挤的住所，获得户外空间的机会较少，这使他们更容易感染COVID-19 [ 31］．显然，社会经济地位是COVID-19结果的一个重要决定因素，这可以揭示病毒如何影响特定人群。

人类发展指数

人类发展指数是对国家层面整体社会经济状况的综合衡量，由联合国开发计划署每年计算一次。人类发展指数包括预期寿命、预期受教育年限、平均受教育年限和国民总收入(GNI)。计算一个国家某一年的人类发展指数需要两个步骤。首先，4个指标中的每个值都被归一化为0到1之间的指数值。每个指标的最高和最低限度由联合国开发计划署制定。根据实际值、最大值和最小值，可计算出维度指数，计算公式如下:

尺寸索引=(实际值−最小值)/(最大值−最小值)

其次，一旦计算出每个维度，就会计算出同等加权的平均值，以提供一个国家的总体人类发展指数得分[ 32］．

人类发展指数已被用于卫生研究，以分析特定疾病的患病率和死亡率，这有助于确定一个国家内部或国家之间在结果方面的差异。它已被用于理解一系列流行病学研究问题，如疟疾[ 17]，各种癌症分布[ 19， 33， 34，高血压[ 20.), 酵母菌属寄生虫( 35]，以及牙科健康[ 36］．举一个具体的例子，调查人类发展指数与甲状腺癌之间关系的研究表明，尽管人类发展指数较高的国家甲状腺癌发病率较高，但人类发展指数较低的国家死亡率较高[ 34］．

人类发展指数还被用于分析正在发生的COVID-19大流行，对大流行跨国家造成的不成比例影响产生了重要见解。例如，一项分析人类发展指数和COVID-19死亡率的研究报告称，人类发展指数得分高的国家COVID-19死亡率更高[ 13］．另一项研究报告了166个国家的人类发展指数得分与其2020年3月27日确诊病例之间的显著相关性[ 14］．在其他地方，一项关注巴西COVID-19影响的城市差异的研究(使用重新校准的指数来分析城市差异，而不是国家差异)发现，截至2020年5月，人类发展指数得分高的城市每10万人的COVID-19发病率和死亡率最高[ 15］．因此，该指数被认为是COVID-19研究的一个有价值的框架。

COVID-19多国研究

COVID-19多国研究之所以重要，有以下两个原因:(1)能够确定特定国家的兴趣点，(2)能够发现各国的共同趋势或风险因素。在埃及、巴基斯坦、印度、加纳和菲律宾对封锁相关心理健康问题进行的一项研究中，据报道，尽管封锁对每个国家受访者的心理健康产生了负面影响，但影响的方式不同。例如，来自菲律宾的受访者通过增加自我毁灭行为来应对封锁，而来自巴基斯坦的受访者在宗教中寻求安慰。其余3个国家的受访者倾向于接受封锁[ 37］．一项针对101个国家的更大样本的类似研究分析了与大流行相关的孤独和社会孤立[ 38］．还进行了其他研究，以分析跨国疫苗接种态度[ 39]，遏制措施的成功[ 11， 40以及影响跨国COVID-19死亡率的文化行为[ 10］．因此，多国COVID-19研究有助于确定与大流行有关的“全球风险因素”，进而帮助采取循证公共卫生干预措施[ 38］．它还开辟了新的研究问题，即为什么某些人群在大流行期间以某种方式表现或受到某种影响。

使用机器学习建模疾病爆发

在为疫情建模时，流行病学中的一种流行方法是易感、感染、恢复(SIR)方法。SIR方法简化了传染病的传播动态，它将人群分为易感人群、感染者和康复人群，并分析了这些群体在暴发过程中的相互作用。这种方法也被用于分析COVID-19大流行[ 41， 42］．然而，SIR模型假设完全群体免疫可以通过感染实现[ 43]，这限制了它在COVID-19研究中的有效性。由于病毒的复杂性、现有疫苗的长期疗效存疑、新变种的出现以及再感染病例，尚不清楚是否可实现COVID-19群体免疫[ 44］．随后，机器学习的预测效益可能会在这场大流行病方面产生更好的结果。

机器学习的进步使流行病学研究人员能够使用由高精度算法促进的健壮的数据驱动方法。这有助于处理不断增加的数据量，并分析影响患者健康结果的更广泛的因素[ 45， 46］．例如，已经开发了naïve贝叶斯、逻辑回归、随机森林和人工神经网络模型来预测麻醉后患者的低血压[ 47］．在其他地方，门控循环单元神经网络已被设计用于识别有住院死亡风险的个体。该模型允许从业者纵向绘制死亡概率，并根据模型预测提供有针对性的干预措施[ 48］．

机器学习在流行病学中的另一个优势是，它可以在数据有限的情况下预测和绘制疾病发生和健康结果[ 49］．具体来说，增强回归树模型已被用于分析影响疾病传播的环境因素，如登革热、埃博拉、克里米亚-刚果出血热和寨卡病毒[ 50- 53］．另一种类型的机器学习模型，集合调整卡尔曼滤波器，已被用于预测季节性流感爆发[ 54］．此外，还开展了几项回顾性预测研究，通过绘制埃博拉、西尼罗河病毒和呼吸道合胞病毒的传播模式，重建过去的大流行[ 55- 57］．

关于COVID-19，使用机器学习的流行病学研究正在文献中快速涌现。一般而言，研究涉及设计一个或多个机器学习模型，以预测COVID-19病例流行率[ 11， 58， 59]，严重性[ 60， 61]和死亡率/死亡率风险[ 62， 63］．在一项研究中，使用随机森林和AdaBoost回归训练5个非时间序列监督学习模型，以非药物遏制措施和文化维度为特征，预测114个国家的COVID-19确诊感染增长(报告的COVID-19病例累计数量的14天增长)。结果表明，经证实的感染增长在相当大的程度上被预测为中至高的感染率²数值(>0.50)[ 11］．最后，对机器学习技术在预测COVID-19病例中的系统综述发现，R²数值在0.64到1之间，表明机器学习是预测COVID-19流行率的一种极有价值的方法，可支持政策制定者制定未来的干预措施[ 64］．

研究描述

这项研究分析了182个国家的人类发展指数得分与COVID-19累计病例(截至2021年12月31日的累计记录病例)之间的统计关系。然后，它试图使用前一年的累计病例(截至2020年12月31日的总记录病例)和人类发展指数得分来预测样本中的2021年COVID-19累计病例。选择每百万人口的累积病例，因为它提供了报告的感染数量与人口规模成比例。粗率指标，例如每百万病例是最有效的多国样本[ 65］．例如，阿富汗和阿尔巴尼亚在2020年报告的COVID-19病例绝对数量相似，分别为51526例和58316例。然而，阿富汗每百万病例为1324例，阿尔巴尼亚为20264例。这显示了相对于两国人口的病毒流行率，并表明阿尔巴尼亚在2020年的病例率实际上更高。

为了衡量社会经济地位，使用了预期寿命、预期受教育年限、平均受教育年限和GNI等HDI指数。为了本研究的目的，我们选择了单个指标，而不是人类发展指数的总和值。之所以使用这种方法，是因为聚合可能会丢失数据中的重要信息，导致预测不太准确[ 66］．

利用兼容Python编程语言的开源集成开发环境Jupyter Notebook设计了两个预测模型。每个模型使用以下3种监督学习回归算法进行训练:基本线性回归、随机森林和AdaBoost。所有算法都使用k-fold交叉验证进行评估，然后通过计算它们的R进行比较²分数和错误统计。第一个模型试图使用2020年病例数预测2021年COVID-19流行率，为第二个模型的表现建立基线。第二个模型包括2020年病例数和每个国家的预期寿命、预期受教育年限、平均受教育年限和国民总收入指标。由于疫情在各国的发展不平衡，本研究侧重于横断面数据，而不是时间序列数据。这项研究的所有数据都是二手的，而且是公开的，突出表明全球为收集和分享有关该流行病的数据所作的努力值得赞扬。

方法数据预处理

COVID-19病例数据从COVID-19 OurWorldInData数据库下载[ 65]，它反过来从约翰霍普金斯中心的系统科学和工程数据仓库检索数据。OurWorldInData数据库包含190个国家的COVID-19综合指标，包括感染率、住院人数、死亡率和疫苗接种率。每天上传数据，使用户可以通过最新统计数据跟踪大流行的演变。这项研究需要各国2020年12月31日的“每百万病例数”数据，以及2021年12月30日的相同指标。人类发展指数数据提取自《2020年人类发展报告》数据中心[ 67］．该报告提供了每个国家的人类发展指数的总体得分和每个指标的得分。

对这些数据集进行了组合，以便每个观察(国家)包含以下指标:(1)预期寿命，(2)预期受教育年限，(3)平均受教育年限，(4)国民总收入，(5)2020年每百万人中COVID-19病例(1月1日至12月31日)，(6)2021年每百万人中COVID-19病例(1月1日至12月31日)。

遗漏了数据缺失的国家;因此，最终数据集包含182个国家的数据。然后，它被导入到Jupyter并转换为数据帧格式(参见表1)开始分析。

然后进行探索性数据分析，探讨数据的分布和变量之间的统计关系。然后根据数据的分布选择数据缩放方法。数据缩放在机器学习建模中很重要，因为它可以防止测量差异对最终结果产生负面影响[ 68］．然后计算四分位范围，以确定目标变量(2021年COVID-19病例)中的异常值。

图1总结了本研究的工作流程，从数据预处理到模型设计和探索性数据分析。

表1

使用人类发展指数指标和COVID-19病例的数据集样本。

国家	预期寿命	预期受教育年限	平均受教育年限	人均国民总收入(美元)	2020年病例(每百万人)	2021例(每百万人)
阿富汗	64.8	10.2	3.9	2239	1323.612	3968.427
阿尔巴尼亚	78.6	14.7	10.1	13998年	20264年.091	73173年.975
阿尔及利亚	76.9	14.6	8．0	11174年	2271.554	4895.753
安道尔	81.9	13.3	10.5	56000年	104173年.947	306900年.742
安哥拉	61.2	11.8	5.2	6104	534.073	2404.489

图1

从COVID-19和人类发展指数(HDI)数据收集到交叉验证培训和测试过程的数据管道流程图。除了设计预测模型外，还进行了探索性数据分析，以确定数据集中的趋势。国民总收入:国民总收入。

机器学习算法选择

有监督的机器学习模型经过训练，通过学习数据集来进行预测，其中每个观察的输出(因变量)的值是已知的。监督机器学习在训练过程中根据输入数据产生决策或“输出”。在一组数据上实施不同的监督算法，可以比较结果，并确定最佳拟合模型[ 69， 70］．评估有监督学习模型需要稳健的验证措施[ 71］．这些可以使用各种精度和误差度量来计算，如决定系数(R²)、平均绝对误差(MAE)、均方误差(MSE)、均方根误差(RMSE)或最大误差。本研究比较了线性回归、随机森林和AdaBoost监督技术的性能。

线性回归

线性回归是最常见的机器学习算法之一[ 72］．机器学习中的回归与传统的统计回归不同，它将数据集划分为训练集和测试集。使用来自训练集的输入和输出数据，算法试图仅使用输入数据预测测试集中的输出数据。这个过程表明模型对新数据的预测有多准确。线性回归计算如下:

y＝一个₀ + 一个₁x+ ε

在哪里 y为目标变量(输出)， x为预测变量(输入)，一个₀ 是截距，一个₁ 是系数，和 ε是随机误差。

随机森林

随机森林是决策树算法的集合，可以用于分类或回归问题。它基于bagging或bootstrap聚合的概念，创建了一个学习者树的集合[ 73］．每个学习树( K)对从原始数据集(输入向量)中提取的独立样本进行训练 x)，通过计算的均值得到整体预测 K回归树如下:

与单个决策树相比，随机森林有利于减少模型方差。它还有助于防止模型过拟合(当模型与训练数据过于接近而与测试数据不太匹配时)[ 74］．

演算法

AdaBoost或自适应增强是一种顺序集成技术，它基于从原始训练数据集中随机抽取不同的训练子集来开发几个弱学习者的原则。使用这种技术，训练算法从1棵决策树开始，识别出误差最大的观察结果，并增加这些观察结果的权重。权重在每次迭代后都会重新计算，以便前一个决策树错误分类的观察结果获得更高的权重[ 75］．使用Python编程语言，可以选择算法将部署的树的数量，默认设置为50次迭代。

模型设计与评价

创建了两个特征模型(特征模型1和特征模型2)。对特征模型1进行训练，仅使用2020年病例预测2021年COVID-19流行率。通过训练模型2，利用2020年病例数据以及预期寿命、预期受教育年限、平均受教育年限和人均国民总收入来预测2021年COVID-19流行率。每个特征模型都使用线性回归、随机森林和AdaBoost技术进行训练。为每个算法设置超参数，并使用10倍(k=10) k倍交叉验证对结果进行评估。

模型超参数和验证

本研究使用k-fold交叉验证，而不是使用训练/测试分割将数据划分为训练集和测试集。K-fold交叉验证有一个参数叫做 k它表示用户选择的数据集将被分割成的子集或“折叠”的数量。如图2，每次折叠使用不同的数据组作为测试集，然后重复这个过程 k次数(例如，5次) 图2)．它由交叉验证得分进行评估，这是来自每个k-fold子集的所有得分的平均值。当使用更小的数据集时，K-fold交叉验证提供了更一般化和更少偏差的性能评估[ 76， 77］．这是因为它最大限度地增加了可以用于训练和测试的观察量。换句话说，使用交叉验证的模型不依赖于单一的训练/测试分割。

使用sklearn，交叉验证的平均得分默认为被交叉验证的特定算法的评分指标。对于本研究中的每个算法，默认的评分指标是决定系数(R²)．因此，交叉验证的平均得分计算为平均R²对于所有k-fold中的每个算法。R²表示回归模型的拟合优度，并解释因变量中有多少方差可以用一个或多个自变量解释。其计算方法为平方和残差除以平方和总平方和，1减去求导，如下所示:

R²= 1 -(剩余平方和/总平方和)

R²是本研究观察的主要指标。在机器学习中，R²是信息最丰富、解释性限制最少的验证措施[ 78］．

表2给出每种算法特有的超参数。选择10倍验证进行k倍交叉验证，这是一般建议应用的子集数量[ 76， 77］．

与R²，还计算了4个误差指标来评估性能。首先，MAE提供了预测值与真实值之间绝对误差的平均值。计算方法如下:

在哪里 y_我为预测值， x_我是实际值，和 n是观察数。

其次，均方误差测量预测值与真实值之间的平均差的平方。计算方法如下:

在哪里 n是数据点的数量， Y_我是实际值，和 Ŷ_我是预测值。

第三，RMSE计算模型误差平方均值的平方根。计算方法如下:

在哪里我是变量我， N是数据点的数量， x_我是实际值，和 x̂_我是预测值。

最后，最大误差计算最大残留误差，它捕获预测值和真实值之间的最坏情况误差。计算方法如下:

在哪里 ŷ预测值是我-th样本，和 y_我对应的真值。

图2

一个5倍k交叉验证方法的例子，其中k=5。整体精度得分计算为每一叠精度得分的平均值。

表2

使用交叉验证的监督学习模型超参数。

算法	Hyperparameters
基本线性回归	折叠:10;随机状态:1
随机森林	折叠:10;随机状态:1;估计:100
演算法	分区:10;估计:50;随机状态:0

结果探索性数据分析

进行探索性数据分析，以识别和可视化数据趋势，并对变量进行统计分析。2020年，样本中每百万例COVID-19病例的平均数为15880.41例，中位数为6822.98例。2021年，每百万例COVID-19病例的平均数为64,479.58例，中位数为50764.73例。表3给出了研究中所有变量的关键描述性统计。

创建distplot来检查所有变量的分布。结果显示，除预期受教育年限外，所有变量在样本中都是倾斜的。2021年COVID-19流行率的分布在样本中呈正向倾斜(见图3)．对四分位数范围的计算显示，有4个国家(安道尔、黑山、塞尔维亚和塞舌尔)是统计异常值，它们的COVID-19发病率异常高(每百万人口25万bb0)。塞舌尔的流行率最高，为每百万人217 096.35例。

为了研究特征和目标变量之间的统计关系，实现了皮尔逊相关矩阵(参见图4)．所有选定的特征都与2021年COVID-19流行率具有统计学相关性，R值在0.55至0.85之间。此外，2020年COVID-19病例与2021年病例数据的相关性最强(R=0.85)，其次是平均受教育年限(R=0.66)、预期寿命(R=0.61)、预期受教育年限(R=0.58)和GNI (R=0.55)。

表3

研究中所有变量的统计测量(平均值和中位数)。

变量	平均值	中值
2020年每百万例COVID-19病例	15880 .41点	6822.98
每百万人中有2021例COVID-19病例	64479 .58	50764 .73点
预期寿命	72.72	74.20
预期受教育年限	13.31	13.15
平均受教育年限	8.63	8.95
人均国民总收入(美元)	20453 .40	13112 .50

图3

一系列的密度图，说明在观察下的每个变量(目标变量)的分布。2021年每百万例COVID-19病例的目标变量在样本中右偏。预期受教育年限是样本中唯一具有正态分布的变量。CASES_2020:每百万人中有2020例COVID-19病例;CASES_2021:每百万人中有2021例COVID-19病例;exp_school:预期受教育年限;GNI:人均国民总收入;LIFE_EXP:预期寿命;mean受教育年限。

图4

皮尔逊相关矩阵映射所有变量之间的相关性。结果表明，所有特征与2021年新冠肺炎病例均有统计学相关性。CASES_2020:每百万人中有2020例COVID-19病例;CASES_2021:每百万人中有2021例COVID-19病例;exp_school:预期受教育年限;GNI:人均国民总收入;LIFE_EXP:预期寿命;mean受教育年限。

监督学习模式

表4而且 5总结了所有回归算法在两种特征模型下的性能图5想象他们的表演。训练模型1以2020年每百万病例(n=182)预测2021年COVID-19病例。通过训练模型2，利用2020年每百万病例数以及预期寿命、平均受教育年限、预期受教育年限和GNI (n=182)来预测2021年每百万COVID-19病例数。两个数据集被分成10个折叠进行交叉验证(k=10)。

在特征模型1中，线性回归是最准确的学习者，具有平均R²的0.693，其次是随机森林(0.481)，其次是AdaBoost(0.454)。性能的变化是相当大的，最精确和最不精确的算法之间有23.9%的差异。在特征模型2中，基本线性回归模型也是最强的学习者(R²=0.762)，其次是随机森林(0.722)和AdaBoost(0.679)。特征模型2中算法的MAE、MSE、RMSE和最大误差统计量均低于特征模型1。特征模型2在算法之间的表现也比特征模型1更接近，最强的学习者比最小的学习者的准确率高8.4%。

尽管它是两个模型中数据最好的学习者，线性回归显示在特征模型2 (R²提高了7%)。此外，它的错误统计数据并没有像随机森林或AdaBoost那样显著改善。例如，线性回归的MAE下降了0.009(特征模型1为0.079，特征模型2为0.070)，而随机森林和AdaBoost分别下降了0.026和0.014。

表6而且 7概述每一个单独的折叠的性能精度。变化很大的R²分数表明，本研究中使用的交叉验证方法产生了最可靠的结果。

表4

利用线性回归、随机森林和AdaBoost评价特征模型1。

评价指标	线性回归^一个	随机森林^一个	演算法^一个
R²	0.693	0.481	0.454
美^b	0.079	0.096	0.104
均方误差^c	0.014	0.021	0.020
RMSE^d	0.117	0.143	0.142
最大的错误	0．315	0.359	0．355

^一个所有结果均采用k-fold交叉验证(k=10)进行评估。

^bMAE:平均绝对误差。

^c均方误差。

^dRMSE:均方根误差。

表5

利用线性回归、随机森林和AdaBoost评价特征模型2。

评价指标	线性回归^一个	随机森林^一个	演算法^一个
R²	0.763	0.722	0.679
美^b	0.070	0.070	0.090
均方误差^c	0.011	0.013	0.015
RMSE^d	0.107	0.114	0.124
最大的错误	0.265	0.308	0.300

^一个所有结果均采用k-fold交叉验证(k=10)进行评估。

^bMAE:平均绝对误差。

^c均方误差。

^dRMSE:均方根误差。

图5

一系列的子图显示线性回归、随机森林和AdaBoost算法在特征模型1和2中的预测性能。每次观察结果代表对2021年COVID-19每百万人累积病例数的预测，回归线为真实值。随着人类发展指数指标的加入，线性回归算法在R²=0.693到0.763。随机森林算法是在R²=0.481到0.722。AdaBoost算法在R²=0.454到0.679。使用cross_val_predict计算数据点，它显示了每k次折叠中每个测试集的预测输出。

表6

特征模型1中每种算法的单个折叠(k=10)的精度。

迭代	线性回归	随机森林	演算法
1折	0.877	0.799	0.759
折叠2	0.768	0.687	0.342
3折	0.657	0.464	0.584
4折	0.803	0.530	0.629
5折	0.747	0.153	-0.696
6折	0.733	0.553	0.766
7折	0.804	0.628	0.652
8折	0.035	-0.287	0.083
9折	0.767	0.627	0.696
折10	0.742	0.657	0.722

表7

特征模型2中每种算法的单个折叠(k=10)的精度。

迭代	线性回归	随机森林	演算法
1折	0.774	0.796	0.679
折叠2	0.595	0.457	0.485
3折	0.946	0.907	0.882
4折	0.602	0.622	0.551
5折	0.833	0.869	0.824
6折	0.780	0.776	0.720
7折	0.627	0.636	0.626
8折	0.850	0.659	0.536
9折	0.780	0.794	0.851
折10	0.844	0.594	0.629

讨论主要研究结果

探索性数据分析的结果产生了许多有趣的见解。首先，2021年COVID-19病例的正偏态分布导致样本中的平均值大于中位数。在采样的182个国家中，COVID-19流行率是不对称的，并显示少数国家的病例数非常高。第二，2020年COVID-19病例的分布呈正向倾斜，在视觉上与2021年的分布相似。这表明，就累计报告病例而言，2020年和2021年样本中病毒的轨迹相对一致。第三，这4个异常国家都有一个有趣的模式;他们的平均预期寿命、平均受教育年限和国民总收入都高于样本中的平均值。这表明，离群值可以被认为高于社会经济平均水平。最后，所有人类发展指数指标都与每百万例COVID-19病例呈正相关，这表明社会经济地位和COVID-19流行之间存在重要的统计关系。受教育程度(预期/平均年限)的相关性最高，其次是预期寿命，然后是GNI。 This correlation is noteworthy and highlights the unique nature of the COVID-19 pandemic. Typically, lower socioeconomic status is associated with poorer health outcomes, but the results from this study suggest that countries with higher socioeconomic status recorded higher rates of COVID-19 in 2021. This could be because more developed countries tend to have older populations, as well as higher prevalence of known COVID-19 clinical risk factors, such as diabetes and cardiovascular disease [ 79］．

机器学习分析的结果表明，可以利用前一年的患病率和预期寿命、平均受教育年限、预期受教育年限和人均国民总收入等社会经济指标，以合理的准确性预测2021年COVID-19流行率。考虑到社会经济指标，R²的准确率均高于仅针对2020年2019冠状病毒病数据训练时的准确率，且误差统计量较低。将人类发展指数与每个国家前一年的COVID-19病例一起作为预测指标，通过选择的3种算法，对2021年病例的预测准确率平均提高了18%。鉴于预测算法可能难以处理较小的数据集[ 59，本研究(n=182)的结果值得注意。

线性回归算法是数据上最强的学习者，但一旦加入HDI指标，也显示出最小的改进(平均交叉验证增加了7%)。考虑到其他算法在加入HDI指数后有了很大的改进，这个结果代表了一个有趣的离群值。算法之间的不同性能可能是由于变量之间的统计线性关系(在皮尔逊相关矩阵中发现) 图4)．尽管2021年每百万例COVID-19累计病例与上一年的病例数据之间存在很强的相关性(R=0.84)，但特征模型1并未使用随机森林或AdaBoost进行准确预测。与线性回归模型不同(线性回归模型擅长拟合存在线性相关性的数据)，随机森林和AdaBoost等决策树算法可能更有效地处理非线性数据[ 80， 81］．最后，每个k倍迭代的性能差异很大，证明了使用交叉验证来评估模型的合理性。例如，在特征模型2中，线性回归算法的最高得分折叠的结果为94.6，是一个高度准确的R²结果。然而，得分最低的褶皱有一个R²59.5。交叉验证R²因此，76.3分是该数据集最可靠的得分。

后续的分析

在初步分析之后，进行了4次随访分析。首先，在没有2020年COVID-19病例数据作为特征的情况下，再次训练特征模型2，以分析人类发展指数指标单独预测COVID-19病例的效果。没有前一年的病例数据，准确性很低(R²=0.438为最佳性能算法，同样是线性回归)。这一结果强调了2020年病例数据在预测下一年COVID-19流行率方面的重要意义。其次，每次使用1个HDI指标再次训练特征模型2，分析哪一个指标对COVID-19病例的预测最重要。结果显示，预期受教育年限和平均受教育年限的得分最高(R²=0.755)，其次是预期寿命(R²=0.739)、GNI (R²= 0.712)。这表明教育是最具预测性的社会经济指标(人类发展指数的教育指标在统计上也是最具相关性的)。然而，结果也表明，在该数据集中，使用所有人类发展指数比单独使用它们更有效地预测COVID-19病例。第三个后续实验从数据集中删除了之前确定的4个异常值国家(安道尔、黑山、塞尔维亚和塞舌尔)，并使用与初始分析相同的交叉验证方法再次实现了这两个特征模型。这产生了有趣的结果表8而且 9)．最值得注意的是，随机森林成为特征模型2 (R²= 0.777)。尽管通常对异常值不太敏感[ 82]，随机森林受益于该数据集中的离群值去除。去除异常值也减少了算法之间的性能差距。在剔除异常值的情况下，Feature Model 1的最佳和最差性能算法之间的差异为23.9%，剔除异常值后，该差异降至19.5%。这种减少在特征模型2中更为明显，除去异常值后，最佳和最差性能算法之间的差异只有2.1%(相比之下，在包含异常值的原始样本中，差异为8.4%)。然而，结果表明，去除异常值并没有显著提高总体预测精度。

第四个后续实验试图将作为COVID-19预测因素的社会经济地位与选定的其他COVID-19风险因素进行比较。随后，每个国家的中位年龄、人口密度(每平方公里的个人)和接种疫苗的个人百分比被收集并添加到数据集。这些变量都已被证明可以预测某些样本中的COVID-19流行率[ 83- 85］．大部分所需的数据也可以在OurWorldInData数据库中找到，不过有一小部分条目必须从worldometer和IndexMundi [ 86， 87］．

当特征模型2再次使用这些新指标和2020年的案例数据进行训练时，所有3种算法的预测准确性下降到0.649的平均值。使用这些新特征，在具有社会经济特征的模型中，最准确的算法比最准确的学习者的准确率低10% 表10)．这是一项重大发现，它表明社会经济地位在预测2021年累计病例方面比一个国家的中位年龄、人口密度和疫苗接种率更有效，突出了其作为样本国家中COVID-19的非临床预测因素的独特重要性。

表8

特性模型1比较(包括异常值与排除异常值)。

算法	意思是R²在包含异常值的样本中(n=182)	意思是R²在剔除异常值的样本中(n=178)
线性回归	0.693	0.689
随机森林	0.481	0.493
演算法	0.454	0.494

表9

特性模型2比较(包括异常值与排除异常值)。

算法	意思是R²在包含异常值的样本中(n=182)	意思是R²在剔除异常值的样本中(n=178)
线性回归	0.763	0.754
随机森林	0.722	0.777
演算法	0.679	0.733

表10

模型2使用线性回归比较社会经济指标与其他风险因素的绩效。

测量	带HDI的特征模型2^一个指标	以人口密度、中位年龄和疫苗接种率为特征的模型2
R²	0.763	0.661
美^b	0.070	0.075
均方误差^c	0.011	0.016
RMSE^d	0.107	0.128
最大的错误	0.265	0.312

^一个人类发展指数。

^bMAE:平均绝对误差。

^c均方误差。

^dRMSE:均方根误差。

研究结果的意义

为了更好地理解本研究的机器学习结果，我们比较了性能最好的算法(R²=0.763)与类似的机器学习COVID-19病例预测。总的来说，它符合前面提到的系统综述中COVID-19预测建模研究的公认范围，从0.64到1 [ 64］．这项研究的结果与另一项研究的结果一致，该研究试图使用多层感知器神经网络预测美国3109个县的COVID-19累计病例。在此前的这项研究中，家庭收入中位数的社会经济指标在COVID-19流行率的57个临床和非临床预测变量中排名第五[ 88］．诸如此类的研究表明，社会经济指标是COVID-19流行率的决定因素，这进一步支持在本研究中使用人类发展指数，以更准确和准确地预测2021年COVID-19流行率。

这项研究有很多意义。首先，它展示了在流行病研究中结合统计和机器学习方法的效用。虽然统计检验可以确定变量之间的相关性，但它们不能提供目标变量的具体预测。因此，每一种方法都解决了另一种方法的缺点。第二，该研究表明，社会经济状况是未来流行病学建模中需要考虑的一个重要变量，揭示了新冠肺炎大流行的复杂社会性质。社会经济地位比中位年龄、人口密度和疫苗接种率更能预测COVID-19流行率。第三，这些结果在多国样本中的准确性是值得注意的。由于数据来自182个国家，这项研究表明，社会经济地位可被视为一个“全球风险因素”，而不是一个国家特有的因素[ 38］．这将支持决策者的循证政策和干预措施。第四，研究结果表明，尽管社会经济因素有助于COVID-19的预测，但可能还有其他重要因素可以进一步优化预测。最后，历史报告的COVID-19病例数据在试图预测未来COVID-19流行率方面的重要性不容低估。2020年COVID-19病例数据与2021年COVID-19病例数据密切相关，可以被认为是最重要的机器学习特征。

限制

和所有的研究一样，这项研究也有固有的局限性。首先，在跨国分析COVID-19时，必须注意到，由于检测能力有限等原因，一些国家比其他国家少报了病例数量[ 89］．第二，人类发展指数没有考虑到其他社会经济因素，包括金融不平等程度、社会排斥或国家内部歧视[ 90］．这些因素值得在未来的研究中纳入，以评估其影响。第三，国家COVID-19患病率提供了一个国家受影响程度的总体衡量标准，这适用于跨国研究，但它们没有捕捉到每个国家内部传播模式的全部复杂性。建议在区域和城市一级进行进一步研究，以协助大流行病的预测。最后，使用小数据集训练可靠的机器学习模型可能具有挑战性[ 59］．交叉验证用于解决这一限制，因为它最大化了数据集，并最小化了传统分区方法的潜在偏差。

结论

更好地理解人口水平预测因素对于更好地理解和应对2019冠状病毒病造成的公共卫生危机至关重要[ 91］．该研究表明，社会经济地位是一个重要的非临床风险因素，有助于COVID-19预测建模研究的不断增长。根据人类发展指数和历史病例率，可以合理地预测2021年跨国COVID-19累积病例。尽管COVID-19是全球社会的一个长期挑战，但机器学习的数据驱动方法将继续支持决策者了解大流行、制定应对战略和预测未来结果[ 92］．

缩写

GNI

国民总收入

人类发展指数

美

平均绝对误差

均方误差

RMSE

均方根误差

先生

易感，感染，康复

联合国开发计划署

没有宣布。

史上最大规模的疫苗全球推广离目标又近了一步

全球疫苗免疫联盟 2021-11-05

https://www.gavi.org/vaccineswork/largest-global-rollout-vaccines-history-just-got-one-step-closer

Iyanda

Adeleke

陆

Osayomi

Adaralegbe

一个

Lasode

米

Chima-Adaralegbe

新泽西

Osundina

我

对175个国家COVID-19疫情的回顾性跨国调查:多尺度地理加权回归分析(2020年1月11日至6月28日)

J感染公共卫生 2020 10 13 10 1438 1445

10.1016 / j.jiph.2020.07.006

32773211

s1876 - 0341 (20) 30572 - 4

PMC7375316

Balmford

安南

哈格里夫斯

Altoe

米

贝特曼

2019冠状病毒病的跨国比较:政策、政治和生命的代价

环境资源经济(Dordr) 2020 76 4 525 551

10.1007 / s10640 - 020 - 00466 - 5

32836862

466

PMC7400753

Foldi

米

法卡斯

吻

年代

Zadori

Vancsa

年代

Szako

Dembrovszky

Solymar

米

高奏

对

哈特曼

票面价值

Erő党卫军

Molnar

Hegyi

Szentesi称

一个

KETLAK研究组

肥胖是COVID-19患者发展为危重状态的危险因素:一项系统综述和荟萃分析

ob牧师 2020 10 21 10 e13095

10.1111 / obr.13095

32686331

PMC7404429

Mahase

Covid-19:为什么年龄和肥胖是严重疾病的危险因素?

BMJ 2020 10 26 371 m4130

10.1136 / bmj.m4130

33106243

马苏德

米

Aggarwal

一个

Reidpath

民族文化对BMI的影响:53个国家的多层次分析

公共卫生 2019 09 03 19 1 1212

10.1186 / s12889 - 019 - 7536 - 0

31481044

10.1186 / s12889 - 019 - 7536 - 0

PMC6719355

周

气

王

肥胖和糖尿病是2019年严重冠状病毒病的高危因素

糖尿病 2021 02 37 2 e3377

10.1002 / dmrr.3377

32588943

PMC7361201

Lima-Martinez

毫米

卡雷拉Boada

Madera-Silva

医学博士

马林

康特拉斯

米

COVID-19与糖尿病:一种双向关系

临床调查动脉 2021 33 3. 151 157

10.1016 / j.arteri.2020.10.001

33303218

s0214 - 9168 (20) 30105 - 4

PMC7598432

卡什

Dhasmana

一个

梅西

一个

Kotnala

年代

征服者

Jaggi

米

Yallapu

毫米

Chauhan

吸烟与COVID-19:火上浇油

国际分子科学 2020 09 09 21 18 6581

10.3390 / ijms21186581

32916821

ijms21186581

PMC7555793

Ibanez说

一个

西索迪亚

文化对2020年SARS-CoV-2国家死亡的作用:基于文化维度的大流行管理

GeoJournal 2022 87 2 1175 1191

10.1007 / s10708 - 020 - 10306 - 0

33020679

10306

PMC7527153

杨

唉

Roewer-Despres

罗塞拉

Rudzicz

基于机器学习的114个国家确诊COVID-19感染病例增长预测，使用非药物干预措施和文化维度指标:模型开发和验证

J医学网络杂志 2021 04 23 23 4 e26628

10.2196/26628

33844636

v23i4e26628

PMC8074952

Cascini

Pantovic

一个

Al-Ajlouni

行进

里恰尔迪

全球普通人群对接受COVID-19疫苗的态度、接受和犹豫及其影响因素:一项系统综述

EClinicalMedicine 2021 10 40 101113

10.1016 / j.eclinm.2021.101113

34490416

s2589 - 5370 (21) 00393 - x

PMC8411034

Troumbis

唉

用综合人类发展指数检验COVID-19大流行假设的社会经济决定因素

流行病学，社区卫生 2020 12 08 jech - 2020 - 215986

10.1136 / jech - 2020 - 215986

33293289

jech - 2020 - 215986

Azza

一个

Sarhan

一个

利用人类发展指数确定监测冠状病毒大流行的指标

JVAT 2020 4 17 1 1 48 57

10.14302 / issn.2691 - 8862. - jvat 20 - 3306

de Souza

提供

马查多

曼氏金融

做•

射频

巴西的人类发展、社会脆弱性与2019冠状病毒病:健康的社会决定因素研究

感染贫穷 2020 08 31 9 1 124

10.1186 / s40249 - 020 - 00743 - x

32867851

10.1186 / s40249 - 020 - 00743 - x

PMC7456757

斯坦顿

人类发展指数:历史

马萨诸塞大学阿默斯特分校 2007

2021-07-05

https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1101&context=peri_workingpapers

Franco-Herrera

Gonzalez-Ocampo

Restrepo-Montoya

Gomez-Guevara

我

Alvear-Villacorte

Rodriguez-Morales

哥伦比亚和拉丁美洲疟疾流行病学与人类发展指数之间的关系

Infez地中海 2018 09 01 26 3. 255 262

30246769

Pervaiz

费萨尔

妇科癌症与人类发育指数的关系研究

再生产健康 2020 03 24 1 53 61

10.29063 / ajrh2020 / v24i1.6

32358937

Khazaei

Goodarzi

Borhaninejad

Iranmanesh

Mirshekarpour

Mirzaei

Naemi

Bechashk

Darvishi

我

Ershad Sarabi,

Naghibzadeh-Tahami

一个

脑癌发病率和死亡率与人类发育指数(HDI)的关系:一项生态学研究

公共卫生 2020 11 12 20. 1 1696

10.1186 / s12889 - 020 - 09838 - 4

33183267

10.1186 / s12889 - 020 - 09838 - 4

PMC7664078

20.

曾

陈

肖

陈

高血压患病率与人类发展指数的全球视野

安·格洛布健康 2020 06 29 86 1 67

10.5334 / aogh.2591

32676296

PMC7333558

Singu

年代

阿查里雅

一个

Challagundla

Byrareddy

健康的社会决定因素对美国新出现的COVID-19大流行的影响

公共卫生 2020 7 21 8 406

10.3389 / fpubh.2020.00406

32793544

PMC7385373

Darin-Mattsson

一个

福尔斯得到消息

年代

Kareholt

我

社会经济地位的不同指标及其作为老年人健康决定因素的相对重要性

国际J公平卫生 2017 09 26 16 1 173

10.1186 / s12939 - 017 - 0670 - 3

28950875

10.1186 / s12939 - 017 - 0670 - 3

PMC5615765

Hellmich

什么是社会经济学?该领域的理论、方法和主题概述

社会经济学论坛 2015 01 15 46 1 3. 25

10.1080 / 07360932.2014.999696

阿德勒

不

博伊斯

切斯尼

妈

科恩

年代

福克曼

年代

卡恩

赛姆

社会经济地位和健康。梯度的挑战

我Psychol 1994 01 49 1 15 24

10.1037 / / 0003 - 066 x.49.1.15

8122813

王

耿

社会经济地位对身心健康的影响:生活方式作为中介

国际环境保留区公共卫生 2019 01 20. 16 2 281

10.3390 / ijerph16020281

30669511

ijerph16020281

PMC6352250

Braveman

戈特利布

健康的社会决定因素:是时候考虑原因的原因了

公共卫生代表 2014 129补充2 19 31

10.1177 / 00333549141291 s206

24385661

PMC3863696

沃尔特斯

年代

Suhrcke

米

中欧和东欧以及独联体在保健和获得保健方面的社会经济不平等:最近文献综述

世界卫生组织 2005

2022-03-01

https://apps.who.int/iris/handle/10665/350352

阿德勒

不

Ostrove

社会经济地位和健康:我们知道什么，我们不知道什么

Ann N Y科学学院 1999 896 3. 15

10.1111 / j.1749-6632.1999.tb08101.x

10681884

Hakeberg

米

宽博蔓

自我报告与社会经济地位相关的口腔和一般健康状况

公共卫生 2017 07 26 18 1 63

10.1186 / s12889 - 017 - 4609 - 9

28747180

10.1186 / s12889 - 017 - 4609 - 9

PMC5530538

30.

霍金斯

查尔斯

Mehaffey

社会经济状况和与covid -19相关的病例和死亡人数

公共卫生 2020 12 189 129 134

10.1016 / j.puhe.2020.09.016

33227595

s0033 - 3506 (20) 30435 - 2

PMC7568122

帕特尔

晶澳

尼尔森

FBH

Badiani

Assi

年代

Unadkat

弗吉尼亚州

帕特尔

Ravindrane

瓦尔德

贫困、不平等和COVID-19:被遗忘的弱势群体

公共卫生 2020 06 183 110 111

10.1016 / j.puhe.2020.05.006

32502699

s0033 - 3506 (20) 30165 - 7

PMC7221360

2020年人类发展报告

联合国开发计划署 2020

2021-09-08

https://hdr.undp.org/system/files/documents//hdr2020pdf.pdf

胡

问

张

问

陈

白

梁

人类发育指数与胃肠道癌症的死亡率与发病率相关

世界J肠胃醇 2013 08 28 19 32 5261 70

10.3748 / wjg.v19.i32.5261

23983428

PMC3752559

Soheylizad

米

Khazaei

年代

Jenabi

Delpisheh

一个

Veisani

人类发育指数及其组成部分与甲状腺癌发病率和死亡率的关系:运用分解方法

内分泌素Metab 2018 10 16 4 e65078

10.5812 / ijem.65078

30464773

PMC6218660

Javanmard

Niyyati

米

Ghasemi

Mirjalali

Asadzadeh Aghdaei

Zali

先生

人类发育指数和气候条件对囊胚病流行的影响:一项系统综述和荟萃分析

《太 2018 09 185 193 203

10.1016 / j.actatropica.2018.05.014

29802845

s0001 - 706 x (17) 31417 - 1

佩雷拉

足总

de Mendonca

Werneck

国际扶轮

Moyses

圣

Gabardo

Moyses

大城市的人类发展指数、牙医与居民比率、蛀牙、缺牙或补牙指数

J当代Dent实践 2018 11 01 19 11 1363 1369

30602642

1526-3711-2201

谢赫

一个

Peprah

默罕默德

Asghar

一个

Andharia

Lajot

库雷希

细胞瘤

2019冠状病毒病与心理健康:一项多国研究——封锁对年轻人心理健康的影响

中东柯尔精神病学 2021 08 09 28 1 1 10

10.1186 / s43045 - 021 - 00116 - 6

奥沙利文

伯恩斯

一个

利

Leroi

我

Burholt

目前

霍尔特·龙史塔德

维克多

软件的

Vilar-Compte

米

Perissinotto

厘米

真爱一世情

妈

沙利文

国会议员

罗萨

米

权力

Tiilikainen

Prohaska

COVID-19大流行对孤独和社会孤立的影响:一项多国研究

国际环境保留区公共卫生 2021 09 23 18 19 9982

10.3390 / ijerph18199982

34639283

ijerph18199982

PMC8508181

Hawlader

MDH

拉赫曼

毫升

纳齐尔

一个

Ara

Haque

MMA

萨哈

年代

Barsha

Hossian

米

晨祷

Siddiquea

老

拉希德

汗

马斯

侯赛因

妈

拉赫曼

妈

吉里

米

吗哪

阿拉法特

我的

哈桑

SMR

Maliha

Kha

年代

汗

生理改变

哈桑

米

拉希德

汗

哈立德

伊斯兰教

AMK

努尔

Ataullah

阿

Umbreen

Itrat

艾哈迈德

Naeem

米

卡比尔

我

潘迪特

吉里

年代

伊斯兰教的先知

南亚COVID-19疫苗接受情况:一项多国研究

感染疾病 2022 01 114 1 10

10.1016 / j.ijid.2021.09.056

34597765

s1201 - 9712 (21) 00759 - 1

PMC8604279

张成泽

Hussain-Alkhateeb

里维拉拉米雷斯

Al-Aghbari

Chackalackal

Cardenas-Sanchez

Carrillo

妈

哦

我

Alfonso-Sierra

的说法

Kibiwott Kirui

为由

米

Diaz-Monsalve

年代

Kroeger

一个

影响COVID-19流行曲线的因素:多国分析

BMC感染 2021 10 02 21 1 1032

10.1186 / s12879 - 021 - 06714 - 3

34600485

10.1186 / s12879 - 021 - 06714 - 3

PMC8487341

陈

陆

常

刘

COVID-19感染者无法检测的时间依赖SIR模型

IEEE反式。Netw。科学。英格 2020 10 1 7 4 3279 3294

10.1109 / tnse.2020.3024723

Calafiore

诺瓦拉

Possieri

意大利新冠肺炎传染的修正SIR模型

2020

第59届IEEE决策与控制会议

2020年12月14日至18日

韩国济州岛(韩国)

10.1109 / cdc42340.2020.9304142

法律

Peariasamy

公里

易卜拉欣

阿卜杜拉

在随机混合人群中建立具有群体免疫的传染病模型

研究方 2022-09-03

https://www.researchsquare.com/article/rs-289776/v5

Kadkhoda

对COVID-19的群体免疫

J是Clin Pathol吗 2021 03 15 155 4 471 472

10.1093 / ajcp / aqaa272

33399182

6063411

PMC7929447

Wiemken

凯利

机器学习在流行病学和健康结果研究中的应用

公共卫生 2020 04 02 41 21 36

10.1146 / annurev - publhealth - 040119 - 094437

31577910

安德森

Grazal

Balazs

波特

汉堡王

狄更斯

摩根富林明

Forsberg

晶澳

预测建模工具能否识别ACL重建后长期使用阿片类药物的高风险患者?

临床矫正相关保留区 2020 07 478 7 1618

10.1097 / CORR.0000000000001251

32282466

00003086-202007000-00039

PMC7310396

康

基于“增大化现实”技术

李

荣格

李

米

公园

吸引

金

上海

利用机器学习建立麻醉诱导后低血压预测模型

《公共科学图书馆•综合》 2020 15 4 e0231172

10.1371 / journal.pone.0231172

32298292

玉米饼- d - 19 - 32749

PMC7162491

Shickel

Loftus

Adhikari

Ozrazgat-Baslanti

Bihorac

一个

Rashidi

DeepSOFA:使用临床可解释深度学习为危重患者提供的持续的视力评分

Sci代表 2019 02 12 9 1 1879

10.1038 / s41598 - 019 - 38491 - 0

30755689

10.1038 / s41598 - 019 - 38491 - 0

PMC6372608

问

家长

柯

Kaminsky

Lessler

什么是机器学习?流行病学家入门

流行病学 2019 12 31 188 12 2222 2239

10.1093 / aje / kwz189

31509183

5567515

Bhatt

年代

格辛

布雷迪

橙汁

墨西拿

摩根大通

大学法洛

亚历山大-伍尔兹

莫耶斯

德雷克

布朗斯坦

霍恩

AG)

Sankoh

迈尔斯

曼氏金融

乔治

Jaenisch

温特

GRW

席梦思床品公司

斯科特

太瓦

法勒

干草

如果

登革热的全球分布和负担

自然 2013 04 25 496 7446 504 7

10.1038 / nature12060

23563266

nature12060

PMC3651993

Pigott

戈尔丁

Mylne

一个

黄

亨利

维斯

布雷迪

橙汁

Kraemer

杯子

史密斯

戴斯。莱纳姆:

莫耶斯

Bhatt

年代

格辛

Horby

Bogoch

布朗斯坦

Mekaru

老

泰特姆

汗

干草

如果

绘制非洲埃博拉病毒病人畜共患病生态位

Elife 2014 09 08 3. e04395

10.7554 / eLife.04395

25201877

PMC4166725

墨西拿

摩根大通

Pigott

戈尔丁

杜达

卡

布朗斯坦

维斯

吉布森

罗宾逊

吉尔伯特

米

威廉·温特

Nuttall

巴勒斯坦权力机构

格辛

迈尔斯

曼氏金融

乔治

干草

如果

克里米亚-刚果出血热的全球分布

Trans R Soc Trop Med Hyg 2015 08 109 8 503 13

10.1093 / trstmh / trv050

26142451

trv050

PMC4501401

墨西拿

摩根大通

Kraemer

布雷迪

橙汁

Pigott

希勒

调频

维斯

戈尔丁

Ruktanonchai

连续波

格辛

科恩

布朗斯坦

汗

泰特姆

Jaenisch

穆雷

马里奥

斯科特

太瓦

干草

如果

绘制寨卡病毒的全球环境适宜性

Elife 2016 04 19 5 e15272

10.7554 / eLife.15272

27090089

PMC4889326

萨满

Karspeck

一个

预测流感的季节性暴发

美国国家科学研究院 2012 12 11 109 50 20425 30.

10.1073 / pnas.1208772109

23184969

1208772109

PMC3528592

王

杨

贾

李

谢

李

邱

年代

郝

吴

妈

首歌

西非埃博拉病毒病流行病学特征及趋势

感染疾病 2015 09 38 52 3.

10.1016 / j.ijid.2015.07.017

26216765

s1201 - 9712 (15) 00184 - 8

德费利斯

注

小

坎贝尔

老

萨满

人类西尼罗河病毒病例和蚊子感染率的综合预测

Nat Commun 2017 02 24 8 14592

10.1038 / ncomms14592

28233783

ncomms14592

PMC5333106

里斯

萨满

美国呼吸道合胞病毒的回顾性参数估计与预测

公共科学图书馆编译生物学 2016 10 12 10 e1005133

10.1371 / journal.pcbi.1005133

27716828

pcompbiol - d - 16 - 00536

PMC5055361

Painuli

Mishra

Bhardwaj

年代

Aggarwal

米

高丝

古普塔

德阿尔伯克基

VHC

卡纳

一个

使用机器学习对COVID-19进行预测和预测

COVID-19的数据科学 2021

剑桥,麻

学术出版社

381 397

艾哈迈德

一个

Garhwal

年代

雷

库马尔

Malebary

Barukab

利用机器学习研究新冠肺炎确诊病例数:方法和挑战

拱计算方法工程 2021 08 04 28 4 2645 2653

10.1007 / s11831 - 020 - 09472 - 8

32837183

9472

PMC7399353

艾瑟夫巴德

古特曼

纽曼

西格尔

阿米特

年代

Gefen-Halevi

年代

Shilo

爱普斯坦

一个

Mor-Cohen

Biber

一个

Rahav

莱维

我

Tirosh

一个

利用机器学习模型准确预测重症COVID-19的风险

实习医师 2020 11 15 8 1435 1443

10.1007 / s11739 - 020 - 02475 - 0

32812204

10.1007 / s11739 - 020 - 02475 - 0

PMC7433773

Bolourani

年代

布伦纳

米

王

作者

赫希

巴纳比

Zanos

诺斯维尔COVID-19研究联盟

COVID-19患者入院48小时内呼吸衰竭的机器学习预测模型:模型开发和验证

J医学网络杂志 2021 02 10 23 2 e24246

10.2196/24246

33476281

v23i2e24246

PMC7879728

高

蔡

方

李

王

年代

陈

余

刘

徐

年代

崔

曾

年代

冯

余

王

元

焦

气

刘

李

郑

首歌

金

龚

刘

黄

田

李

兴

妈

李

叶

高

问

基于机器学习的早期预警系统能够准确预测COVID-19的死亡风险

Nat Commun 2020 10 06 11 1 5033

10.1038 / s41467 - 020 - 18684 - 2

33024092

10.1038 / s41467 - 020 - 18684 - 2

PMC7538910

Banoei

毫米

Dinparastisaleh

枝

Mirsaeidi

米

基于机器学习的COVID-19死亡率预测模型及死亡低、高危患者识别

暴击治疗 2021 09 08 25 1 328

10.1186 / s13054 - 021 - 03749 - 5

34496940

10.1186 / s13054 - 021 - 03749 - 5

PMC8424411

Ghafouri-Fard

年代

Mohammad-Rahimi

Motie

Minabi

马斯

塔

米

Nateghinia

年代

机器学习在COVID-19每日新增病例预测中的应用:范围综述

Heliyon 2021 10 7 10 e08143

10.1016 / j.heliyon.2021.e08143

34660935

s2405 - 8440 (21) 02246 - 5

PMC8503968

里奇

马修

Rodes-Guirao

Appel

Giattino

Ortiz-Ospina

Hasell

麦克唐纳

Dattani

年代

拱形门

米

冠状病毒大流行(COVID-19)

我们的数据世界 2021-09-01

https://ourworldindata.org/coronavirus

Pollet

电视

Stulp

Henzi

巴雷特

从数据汇总中去除恶化:处理个人层面观察数据汇总相关统计问题的概念性指南

J是Primatol吗 2015 07 77 7 727 40

10.1002 / ajp.22405

25810242

数据下载

联合国开发计划署 2022-03-10

https://hdr.undp.org/data-center/documentation-and-downloads

Ahsan

毫米

马哈茂德

地图

萨哈

古普塔

克

数据缩放方法对机器学习算法和模型性能的影响

技术 2021 07 24 9 3. 52

10.3390 / technologies9030052

帕特尔

德鲁克

福格蒂

卡普尔

一个

棕褐色

使用多种模型来理解数据

人工智能第二十二届国际联合会议论文集 2011

第二十二届国际人工智能联席会议

2011年7月16日至22日

巴塞罗那，加泰罗尼亚，西班牙

10.5591 / 978-1-57735-516-8 / ijcai11 - 289

Uddin

年代

汗

一个

侯赛因

我

模拟

妈

比较不同的监督机器学习算法在疾病预测中的应用

BMC Med通知Decis Mak 2019 12 21 19 1 281

10.1186 / s12911 - 019 - 1004 - 8

31864346

10.1186 / s12911 - 019 - 1004 - 8

PMC6925840

徐

Goodacre

分裂训练与验证集:交叉验证、自举和系统抽样评估监督学习泛化性能的比较研究

J肛门试验 2018 2 3. 249 262

10.1007 / s41664 - 018 - 0068 - 2

30842888

PMC6373628

Maulud

Abdulazeez

我

机器学习中的线性回归综合研究综述

JASTT 2020 12 31 1 4 140 147

10.38094 / jastt1457

Biau

随机森林模型的分析

机器学习研究杂志 2012 13 1063 1095

美女

Papantonis

我

可解释机器学习的原理与实践

前端大数据 2021 7 1 4 688969

10.3389 / fdata.2021.688969

34278297

688969

PMC8281957

怀纳

奥尔森

米

布莱西

Mease

解释AdaBoost和随机森林作为插值分类器的成功

机器学习研究杂志 2017 18 1 33

Marcot

Hanea

我

离散贝叶斯网络分析中k倍交叉验证中k的最优值是多少?

第一版统计 2020 06 13 36 3. 2009 2031

10.1007 / s00180 - 020 - 00999 - 9

Kohavi

交叉验证和自举法在精度估计和模型选择中的研究

IJCAI'95:第14届人工智能国际联合会议论文集 1995

第十四届国际人工智能联席会议

1995年8月20日至25日

蒙特利尔，魁北克，加拿大

1137 1143

10.5555/1643031.1643047

Chicco

瓦洛

乔丹

Jurman

在回归分析评价中，决定系数r平方比SMAPE、MAE、MAPE、MSE和RMSE信息量更大

计算科学 2021 7 e623

10.7717 / peerj-cs.623

34307865

cs - 623

PMC8279135

“

米

为什么COVID-19更集中在经济地位高的国家?

伊朗J公共卫生 2021 09 50 9 1926 1929

10.18502 / ijph.v50i9.7081

34722396

ijph - 50 - 1926

PMC8542832

Auret

奥尔德里奇

用随机森林解释过程变量之间的非线性关系

矿业工程 2012 8 35 27 42

10.1016 / j.mineng.2012.05.008

罗

一个

切尔诺夫

郑

罗

年代

为什么显著变量不能自动成为好的预测因子

美国国家科学研究院 2015 11 10 112 45 13892 7

10.1073 / pnas.1518285112

26504198

1518285112

PMC4653162

Breiman

随机森林

机器学习 2001 45 5 32

10.1023 / A1010933404324

黄

DWS

李

云

COVID-19的传播:密度很重要

《公共科学图书馆•综合》 2020 15 12 e0242398

10.1371 / journal.pone.0242398

33362283

玉米饼- d - 20 - 18750

PMC7757878

戴维斯

Klepac

刘

但是过犹不及

Jit

米

cmidd新冠肺炎工作组 Eggo

COVID-19流行病传播和控制中的年龄依赖效应

Nat地中海 2020 08 26 8 1205 1211

10.1038 / s41591 - 020 - 0962 - 9

32546824

10.1038 / s41591 - 020 - 0962 - 9

Wilder-Smith

一个

在SARS-CoV-2 delta变种的情况下，疫苗在减少传播方面有什么效果?

《柳叶刀传染病》 2022 02 22 2 152 153

10.1016 / s1473 - 3099 (21) 00690 - 3

按人口划分的世界各国

Worldometers 2022-04-01

https://www.worldometers.info/world-population/population-by-country/

Factbook-Countries

IndexMundi 2022-04-02

https://www.indexmundi.com/factbook/countries

Mollalo

一个

里维拉

公里

Vahedi

美国大陆新型冠状病毒(COVID-19)发病率的人工神经网络建模

国际环境保留区公共卫生 2020 06 12 17 12 4204

10.3390 / ijerph17124204

32545581

ijerph17124204

PMC7344609

刘

Khosrawipour

Kocbach

Ichii

商人

Khosrawipour

评估在多个全球中心地区对COVID-19病例的严重漏报和检测不足

肺学 2021 27 2 110 115

10.1016 / j.pulmoe.2020.05.015

32540223

s2531 - 0437 (20) 30129 - x

PMC7275155

Bilbao-Ubillos

人类发展指数的极限:经济和社会凝聚力、发展战略和可持续性的补充作用

Sust。Dev 2011 05 19 21 6 400 412

10.1002 / sd.525

厄尔曼

一个

Medeiros

米

探讨集体文化属性对新冠肺炎相关公共卫生结果的影响

前面Psychol 2021 12 627669

10.3389 / fpsyg.2021.627669

33833717

PMC8021731

波隆斯基

晶澳

Baidjoe

一个

Kamvar

锌

科里

一个

Durski

埃德蒙兹

Eggo

恐慌

年代

凯撒

基廷

de Waroux

OLP

标志着

米

东湾

摩根

Nouvellet

Ratnayake

罗伯茨

惠特沃思

Jombart

疫情分析:一种为应对新出现的病原体提供信息的发展中的数据科学

Philos Trans R Soc Lond B生物科学 2019 07 08 374 1776 20180276

10.1098 / rstb.2018.0276

31104603

PMC6558557