这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是原始作品首次发表在JMIR形成研究,并被适当引用。必须包括完整的书目信息,https://formative.www.mybigtv.com上的原始出版物链接,以及版权和许可信息。
2019冠状病毒病大流行是近年来前所未有的全球挑战。在国际社会试图长期控制这一大流行病之际,关键是要了解是什么因素推动了流行率,并预测病毒的未来发展轨迹。
本研究有两个目标。首先,它检验了社会经济地位和COVID-19流行率之间的统计关系。其次,它使用机器学习技术来预测182个国家的多国样本中的累计COVID-19病例。综合起来,这些目标将揭示社会经济状况作为COVID-19大流行的一个全球风险因素。
本研究采用探索性数据分析和监督机器学习方法。探索性分析包括变量分布、变量相关性和异常值检测。随后,应用了以下3种监督回归技术:线性回归、随机森林和自适应增强(AdaBoost)。结果采用k-fold交叉验证进行评估,随后比较分析算法的适用性。分析涉及两个模型。首先,训练算法仅使用2020年报告的病例数据预测2021年COVID-19流行率。在此基础上,加入社会经济指标作为特征,并再次训练算法。人类发展指数(HDI)指标包括预期寿命、平均受教育年限、预期受教育年限和国民总收入,这些指标被用来估算社会经济地位。
所有变量都与2021年COVID-19流行率呈正相关2取值范围为0.55到0.85。利用社会经济指标,以合理的准确性预测了COVID-19流行率。使用2020年报告的病例率作为预测2021年患病率的单一预测因子,算法的平均预测精度很低(R2= 0.543)。当社会经济指标与2020年患病率一起作为特征添加时,平均预测性能显著提高(R2=0.721),所有的错误统计数据都减少了。因此,在2020年报告的病例数据中加入社会经济指标,在很大程度上优化了对COVID-19流行率的预测。线性回归是R最强的学习者2第一个模型=0.693,R2其次是随机森林(0.481和0.722)和AdaBoost(0.454和0.679)。在此之后,使用选定的额外COVID-19风险因素(人口密度、中位年龄和疫苗接种率),而不是人类发展指数指标,对第二个模型进行了重新训练。然而,平均准确度下降到0.649,这突显了社会经济地位在所选样本中作为COVID-19病例预测器的价值。
结果表明,社会经济状况是未来流行病学建模中需要考虑的一个重要变量,并强调了COVID-19大流行作为一种社会现象和卫生保健现象的现实。本文还就应用统计和机器学习技术来理解和抗击COVID-19大流行提出了新的考虑。
2019冠状病毒病大流行是近年来前所未有的全球挑战。SARS-CoV-2病毒最初在中国武汉被发现,之后在世界范围内扩散,局势升级为国际紧急情况。尽管2020年采取了广泛的遏制措施,并开展了历史上规模最大的疫苗投放[
本文重点研究社会经济地位作为决定COVID-19流行的非临床风险因素。为了为社会经济状况提供可靠的实证指标,选择了联合国开发计划署(开发署)的人类发展指数(HDI)。人类发展指数通过综合预期寿命、教育和人均收入指标,计算出一个国家居民的整体社会经济地位或“福祉”[
大流行病既是一个保健问题,也是一个社会问题[
就COVID-19而言,社会经济地位也与更高的患病率和更严重的后果有关。在美国,贫困社区指数被用于分析社会经济状况对COVID病例和死亡率的影响[
人类发展指数是对国家层面整体社会经济状况的综合衡量,由联合国开发计划署每年计算一次。人类发展指数包括预期寿命、预期受教育年限、平均受教育年限和国民总收入(GNI)。计算一个国家某一年的人类发展指数需要两个步骤。首先,4个指标中的每个值都被归一化为0到1之间的指数值。每个指标的最高和最低限度由联合国开发计划署制定。根据实际值、最大值和最小值,可计算出维度指数,计算公式如下:
其次,一旦计算出每个维度,就会计算出同等加权的平均值,以提供一个国家的总体人类发展指数得分[
人类发展指数已被用于卫生研究,以分析特定疾病的患病率和死亡率,这有助于确定一个国家内部或国家之间在结果方面的差异。它已被用于理解一系列流行病学研究问题,如疟疾[
人类发展指数还被用于分析正在发生的COVID-19大流行,对大流行跨国家造成的不成比例影响产生了重要见解。例如,一项分析人类发展指数和COVID-19死亡率的研究报告称,人类发展指数得分高的国家COVID-19死亡率更高[
COVID-19多国研究之所以重要,有以下两个原因:(1)能够确定特定国家的兴趣点,(2)能够发现各国的共同趋势或风险因素。在埃及、巴基斯坦、印度、加纳和菲律宾对封锁相关心理健康问题进行的一项研究中,据报道,尽管封锁对每个国家受访者的心理健康产生了负面影响,但影响的方式不同。例如,来自菲律宾的受访者通过增加自我毁灭行为来应对封锁,而来自巴基斯坦的受访者在宗教中寻求安慰。其余3个国家的受访者倾向于接受封锁[
在为疫情建模时,流行病学中的一种流行方法是易感、感染、恢复(SIR)方法。SIR方法简化了传染病的传播动态,它将人群分为易感人群、感染者和康复人群,并分析了这些群体在暴发过程中的相互作用。这种方法也被用于分析COVID-19大流行[
机器学习的进步使流行病学研究人员能够使用由高精度算法促进的健壮的数据驱动方法。这有助于处理不断增加的数据量,并分析影响患者健康结果的更广泛的因素[
机器学习在流行病学中的另一个优势是,它可以在数据有限的情况下预测和绘制疾病发生和健康结果[
关于COVID-19,使用机器学习的流行病学研究正在文献中快速涌现。一般而言,研究涉及设计一个或多个机器学习模型,以预测COVID-19病例流行率[
这项研究分析了182个国家的人类发展指数得分与COVID-19累计病例(截至2021年12月31日的累计记录病例)之间的统计关系。然后,它试图使用前一年的累计病例(截至2020年12月31日的总记录病例)和人类发展指数得分来预测样本中的2021年COVID-19累计病例。选择每百万人口的累积病例,因为它提供了报告的感染数量与人口规模成比例。粗率指标,例如每百万病例是最有效的多国样本[
为了衡量社会经济地位,使用了预期寿命、预期受教育年限、平均受教育年限和GNI等HDI指数。为了本研究的目的,我们选择了单个指标,而不是人类发展指数的总和值。之所以使用这种方法,是因为聚合可能会丢失数据中的重要信息,导致预测不太准确[
利用兼容Python编程语言的开源集成开发环境Jupyter Notebook设计了两个预测模型。每个模型使用以下3种监督学习回归算法进行训练:基本线性回归、随机森林和AdaBoost。所有算法都使用k-fold交叉验证进行评估,然后通过计算它们的R进行比较2分数和错误统计。第一个模型试图使用2020年病例数预测2021年COVID-19流行率,为第二个模型的表现建立基线。第二个模型包括2020年病例数和每个国家的预期寿命、预期受教育年限、平均受教育年限和国民总收入指标。由于疫情在各国的发展不平衡,本研究侧重于横断面数据,而不是时间序列数据。这项研究的所有数据都是二手的,而且是公开的,突出表明全球为收集和分享有关该流行病的数据所作的努力值得赞扬。
COVID-19病例数据从COVID-19 OurWorldInData数据库下载[
对这些数据集进行了组合,以便每个观察(国家)包含以下指标:(1)预期寿命,(2)预期受教育年限,(3)平均受教育年限,(4)国民总收入,(5)2020年每百万人中COVID-19病例(1月1日至12月31日),(6)2021年每百万人中COVID-19病例(1月1日至12月31日)。
遗漏了数据缺失的国家;因此,最终数据集包含182个国家的数据。然后,它被导入到Jupyter并转换为数据帧格式(参见
然后进行探索性数据分析,探讨数据的分布和变量之间的统计关系。然后根据数据的分布选择数据缩放方法。数据缩放在机器学习建模中很重要,因为它可以防止测量差异对最终结果产生负面影响[
使用人类发展指数指标和COVID-19病例的数据集样本。
国家 | 预期寿命 | 预期受教育年限 | 平均受教育年限 | 人均国民总收入(美元) | 2020年病例(每百万人) | 2021例(每百万人) |
阿富汗 | 64.8 | 10.2 | 3.9 | 2239 | 1323.612 | 3968.427 |
阿尔巴尼亚 | 78.6 | 14.7 | 10.1 | 13998年 | 20264年.091 | 73173年.975 |
阿尔及利亚 | 76.9 | 14.6 | 8.0 | 11174年 | 2271.554 | 4895.753 |
安道尔 | 81.9 | 13.3 | 10.5 | 56000年 | 104173年.947 | 306900年.742 |
安哥拉 | 61.2 | 11.8 | 5.2 | 6104 | 534.073 | 2404.489 |
从COVID-19和人类发展指数(HDI)数据收集到交叉验证培训和测试过程的数据管道流程图。除了设计预测模型外,还进行了探索性数据分析,以确定数据集中的趋势。国民总收入:国民总收入。
有监督的机器学习模型经过训练,通过学习数据集来进行预测,其中每个观察的输出(因变量)的值是已知的。监督机器学习在训练过程中根据输入数据产生决策或“输出”。在一组数据上实施不同的监督算法,可以比较结果,并确定最佳拟合模型[
线性回归是最常见的机器学习算法之一[
在哪里
随机森林是决策树算法的集合,可以用于分类或回归问题。它基于bagging或bootstrap聚合的概念,创建了一个学习者树的集合[
与单个决策树相比,随机森林有利于减少模型方差。它还有助于防止模型过拟合(当模型与训练数据过于接近而与测试数据不太匹配时)[
AdaBoost或自适应增强是一种顺序集成技术,它基于从原始训练数据集中随机抽取不同的训练子集来开发几个弱学习者的原则。使用这种技术,训练算法从1棵决策树开始,识别出误差最大的观察结果,并增加这些观察结果的权重。权重在每次迭代后都会重新计算,以便前一个决策树错误分类的观察结果获得更高的权重[
创建了两个特征模型(特征模型1和特征模型2)。对特征模型1进行训练,仅使用2020年病例预测2021年COVID-19流行率。通过训练模型2,利用2020年病例数据以及预期寿命、预期受教育年限、平均受教育年限和人均国民总收入来预测2021年COVID-19流行率。每个特征模型都使用线性回归、随机森林和AdaBoost技术进行训练。为每个算法设置超参数,并使用10倍(k=10) k倍交叉验证对结果进行评估。
本研究使用k-fold交叉验证,而不是使用训练/测试分割将数据划分为训练集和测试集。K-fold交叉验证有一个参数叫做
使用sklearn,交叉验证的平均得分默认为被交叉验证的特定算法的评分指标。对于本研究中的每个算法,默认的评分指标是决定系数(R2).因此,交叉验证的平均得分计算为平均R2对于所有k-fold中的每个算法。R2表示回归模型的拟合优度,并解释因变量中有多少方差可以用一个或多个自变量解释。其计算方法为平方和残差除以平方和总平方和,1减去求导,如下所示:
R2是本研究观察的主要指标。在机器学习中,R2是信息最丰富、解释性限制最少的验证措施[
与R2,还计算了4个误差指标来评估性能。首先,MAE提供了预测值与真实值之间绝对误差的平均值。计算方法如下:
在哪里
其次,均方误差测量预测值与真实值之间的平均差的平方。计算方法如下:
在哪里
第三,RMSE计算模型误差平方均值的平方根。计算方法如下:
在哪里
最后,最大误差计算最大残留误差,它捕获预测值和真实值之间的最坏情况误差。计算方法如下:
在哪里
一个5倍k交叉验证方法的例子,其中k=5。整体精度得分计算为每一叠精度得分的平均值。
使用交叉验证的监督学习模型超参数。
算法 | Hyperparameters |
基本线性回归 | 折叠:10;随机状态:1 |
随机森林 | 折叠:10;随机状态:1;估计:100 |
演算法 | 分区:10;估计:50;随机状态:0 |
进行探索性数据分析,以识别和可视化数据趋势,并对变量进行统计分析。2020年,样本中每百万例COVID-19病例的平均数为15880.41例,中位数为6822.98例。2021年,每百万例COVID-19病例的平均数为64,479.58例,中位数为50764.73例。
创建distplot来检查所有变量的分布。结果显示,除预期受教育年限外,所有变量在样本中都是倾斜的。2021年COVID-19流行率的分布在样本中呈正向倾斜(见
为了研究特征和目标变量之间的统计关系,实现了皮尔逊相关矩阵(参见
研究中所有变量的统计测量(平均值和中位数)。
变量 | 平均值 | 中值 |
2020年每百万例COVID-19病例 | 15880 .41点 | 6822.98 |
每百万人中有2021例COVID-19病例 | 64479 .58 | 50764 .73点 |
预期寿命 | 72.72 | 74.20 |
预期受教育年限 | 13.31 | 13.15 |
平均受教育年限 | 8.63 | 8.95 |
人均国民总收入(美元) | 20453 .40 | 13112 .50 |
一系列的密度图,说明在观察下的每个变量(目标变量)的分布。2021年每百万例COVID-19病例的目标变量在样本中右偏。预期受教育年限是样本中唯一具有正态分布的变量。CASES_2020:每百万人中有2020例COVID-19病例;CASES_2021:每百万人中有2021例COVID-19病例;exp_school:预期受教育年限;GNI:人均国民总收入;LIFE_EXP:预期寿命;mean受教育年限。
皮尔逊相关矩阵映射所有变量之间的相关性。结果表明,所有特征与2021年新冠肺炎病例均有统计学相关性。CASES_2020:每百万人中有2020例COVID-19病例;CASES_2021:每百万人中有2021例COVID-19病例;exp_school:预期受教育年限;GNI:人均国民总收入;LIFE_EXP:预期寿命;mean受教育年限。
在特征模型1中,线性回归是最准确的学习者,具有平均R2的0.693,其次是随机森林(0.481),其次是AdaBoost(0.454)。性能的变化是相当大的,最精确和最不精确的算法之间有23.9%的差异。在特征模型2中,基本线性回归模型也是最强的学习者(R2=0.762),其次是随机森林(0.722)和AdaBoost(0.679)。特征模型2中算法的MAE、MSE、RMSE和最大误差统计量均低于特征模型1。特征模型2在算法之间的表现也比特征模型1更接近,最强的学习者比最小的学习者的准确率高8.4%。
尽管它是两个模型中数据最好的学习者,线性回归显示在特征模型2 (R2提高了7%)。此外,它的错误统计数据并没有像随机森林或AdaBoost那样显著改善。例如,线性回归的MAE下降了0.009(特征模型1为0.079,特征模型2为0.070),而随机森林和AdaBoost分别下降了0.026和0.014。
利用线性回归、随机森林和AdaBoost评价特征模型1。
评价指标 | 线性回归一个 | 随机森林一个 | 演算法一个 |
R2 | 0.693 | 0.481 | 0.454 |
美b | 0.079 | 0.096 | 0.104 |
均方误差c | 0.014 | 0.021 | 0.020 |
RMSEd | 0.117 | 0.143 | 0.142 |
最大的错误 | 0.315 | 0.359 | 0.355 |
一个所有结果均采用k-fold交叉验证(k=10)进行评估。
bMAE:平均绝对误差。
c均方误差。
dRMSE:均方根误差。
利用线性回归、随机森林和AdaBoost评价特征模型2。
评价指标 | 线性回归一个 | 随机森林一个 | 演算法一个 |
R2 | 0.763 | 0.722 | 0.679 |
美b | 0.070 | 0.070 | 0.090 |
均方误差c | 0.011 | 0.013 | 0.015 |
RMSEd | 0.107 | 0.114 | 0.124 |
最大的错误 | 0.265 | 0.308 | 0.300 |
一个所有结果均采用k-fold交叉验证(k=10)进行评估。
bMAE:平均绝对误差。
c均方误差。
dRMSE:均方根误差。
一系列的子图显示线性回归、随机森林和AdaBoost算法在特征模型1和2中的预测性能。每次观察结果代表对2021年COVID-19每百万人累积病例数的预测,回归线为真实值。随着人类发展指数指标的加入,线性回归算法在R2=0.693到0.763。随机森林算法是在R2=0.481到0.722。AdaBoost算法在R2=0.454到0.679。使用cross_val_predict计算数据点,它显示了每k次折叠中每个测试集的预测输出。
特征模型1中每种算法的单个折叠(k=10)的精度。
迭代 | 线性回归 | 随机森林 | 演算法 |
1折 | 0.877 | 0.799 | 0.759 |
折叠2 | 0.768 | 0.687 | 0.342 |
3折 | 0.657 | 0.464 | 0.584 |
4折 | 0.803 | 0.530 | 0.629 |
5折 | 0.747 | 0.153 | -0.696 |
6折 | 0.733 | 0.553 | 0.766 |
7折 | 0.804 | 0.628 | 0.652 |
8折 | 0.035 | -0.287 | 0.083 |
9折 | 0.767 | 0.627 | 0.696 |
折10 | 0.742 | 0.657 | 0.722 |
特征模型2中每种算法的单个折叠(k=10)的精度。
迭代 | 线性回归 | 随机森林 | 演算法 |
1折 | 0.774 | 0.796 | 0.679 |
折叠2 | 0.595 | 0.457 | 0.485 |
3折 | 0.946 | 0.907 | 0.882 |
4折 | 0.602 | 0.622 | 0.551 |
5折 | 0.833 | 0.869 | 0.824 |
6折 | 0.780 | 0.776 | 0.720 |
7折 | 0.627 | 0.636 | 0.626 |
8折 | 0.850 | 0.659 | 0.536 |
9折 | 0.780 | 0.794 | 0.851 |
折10 | 0.844 | 0.594 | 0.629 |
探索性数据分析的结果产生了许多有趣的见解。首先,2021年COVID-19病例的正偏态分布导致样本中的平均值大于中位数。在采样的182个国家中,COVID-19流行率是不对称的,并显示少数国家的病例数非常高。第二,2020年COVID-19病例的分布呈正向倾斜,在视觉上与2021年的分布相似。这表明,就累计报告病例而言,2020年和2021年样本中病毒的轨迹相对一致。第三,这4个异常国家都有一个有趣的模式;他们的平均预期寿命、平均受教育年限和国民总收入都高于样本中的平均值。这表明,离群值可以被认为高于社会经济平均水平。最后,所有人类发展指数指标都与每百万例COVID-19病例呈正相关,这表明社会经济地位和COVID-19流行之间存在重要的统计关系。受教育程度(预期/平均年限)的相关性最高,其次是预期寿命,然后是GNI。 This correlation is noteworthy and highlights the unique nature of the COVID-19 pandemic. Typically, lower socioeconomic status is associated with poorer health outcomes, but the results from this study suggest that countries with higher socioeconomic status recorded higher rates of COVID-19 in 2021. This could be because more developed countries tend to have older populations, as well as higher prevalence of known COVID-19 clinical risk factors, such as diabetes and cardiovascular disease [
机器学习分析的结果表明,可以利用前一年的患病率和预期寿命、平均受教育年限、预期受教育年限和人均国民总收入等社会经济指标,以合理的准确性预测2021年COVID-19流行率。考虑到社会经济指标,R2的准确率均高于仅针对2020年2019冠状病毒病数据训练时的准确率,且误差统计量较低。将人类发展指数与每个国家前一年的COVID-19病例一起作为预测指标,通过选择的3种算法,对2021年病例的预测准确率平均提高了18%。鉴于预测算法可能难以处理较小的数据集[
线性回归算法是数据上最强的学习者,但一旦加入HDI指标,也显示出最小的改进(平均交叉验证增加了7%)。考虑到其他算法在加入HDI指数后有了很大的改进,这个结果代表了一个有趣的离群值。算法之间的不同性能可能是由于变量之间的统计线性关系(在皮尔逊相关矩阵中发现)
在初步分析之后,进行了4次随访分析。首先,在没有2020年COVID-19病例数据作为特征的情况下,再次训练特征模型2,以分析人类发展指数指标单独预测COVID-19病例的效果。没有前一年的病例数据,准确性很低(R2=0.438为最佳性能算法,同样是线性回归)。这一结果强调了2020年病例数据在预测下一年COVID-19流行率方面的重要意义。其次,每次使用1个HDI指标再次训练特征模型2,分析哪一个指标对COVID-19病例的预测最重要。结果显示,预期受教育年限和平均受教育年限的得分最高(R2=0.755),其次是预期寿命(R2=0.739)、GNI (R2= 0.712)。这表明教育是最具预测性的社会经济指标(人类发展指数的教育指标在统计上也是最具相关性的)。然而,结果也表明,在该数据集中,使用所有人类发展指数比单独使用它们更有效地预测COVID-19病例。第三个后续实验从数据集中删除了之前确定的4个异常值国家(安道尔、黑山、塞尔维亚和塞舌尔),并使用与初始分析相同的交叉验证方法再次实现了这两个特征模型。这产生了有趣的结果
第四个后续实验试图将作为COVID-19预测因素的社会经济地位与选定的其他COVID-19风险因素进行比较。随后,每个国家的中位年龄、人口密度(每平方公里的个人)和接种疫苗的个人百分比被收集并添加到数据集。这些变量都已被证明可以预测某些样本中的COVID-19流行率[
当特征模型2再次使用这些新指标和2020年的案例数据进行训练时,所有3种算法的预测准确性下降到0.649的平均值。使用这些新特征,在具有社会经济特征的模型中,最准确的算法比最准确的学习者的准确率低10%
特性模型1比较(包括异常值与排除异常值)。
算法 | 意思是R2在包含异常值的样本中(n=182) | 意思是R2在剔除异常值的样本中(n=178) |
线性回归 | 0.693 | 0.689 |
随机森林 | 0.481 | 0.493 |
演算法 | 0.454 | 0.494 |
特性模型2比较(包括异常值与排除异常值)。
算法 | 意思是R2在包含异常值的样本中(n=182) | 意思是R2在剔除异常值的样本中(n=178) |
线性回归 | 0.763 | 0.754 |
随机森林 | 0.722 | 0.777 |
演算法 | 0.679 | 0.733 |
模型2使用线性回归比较社会经济指标与其他风险因素的绩效。
测量 | 带HDI的特征模型2一个指标 | 以人口密度、中位年龄和疫苗接种率为特征的模型2 |
R2 | 0.763 | 0.661 |
美b | 0.070 | 0.075 |
均方误差c | 0.011 | 0.016 |
RMSEd | 0.107 | 0.128 |
最大的错误 | 0.265 | 0.312 |
一个人类发展指数。
bMAE:平均绝对误差。
c均方误差。
dRMSE:均方根误差。
为了更好地理解本研究的机器学习结果,我们比较了性能最好的算法(R2=0.763)与类似的机器学习COVID-19病例预测。总的来说,它符合前面提到的系统综述中COVID-19预测建模研究的公认范围,从0.64到1 [
这项研究有很多意义。首先,它展示了在流行病研究中结合统计和机器学习方法的效用。虽然统计检验可以确定变量之间的相关性,但它们不能提供目标变量的具体预测。因此,每一种方法都解决了另一种方法的缺点。第二,该研究表明,社会经济状况是未来流行病学建模中需要考虑的一个重要变量,揭示了新冠肺炎大流行的复杂社会性质。社会经济地位比中位年龄、人口密度和疫苗接种率更能预测COVID-19流行率。第三,这些结果在多国样本中的准确性是值得注意的。由于数据来自182个国家,这项研究表明,社会经济地位可被视为一个“全球风险因素”,而不是一个国家特有的因素[
和所有的研究一样,这项研究也有固有的局限性。首先,在跨国分析COVID-19时,必须注意到,由于检测能力有限等原因,一些国家比其他国家少报了病例数量[
更好地理解人口水平预测因素对于更好地理解和应对2019冠状病毒病造成的公共卫生危机至关重要[
国民总收入
人类发展指数
平均绝对误差
均方误差
均方根误差
易感,感染,康复
联合国开发计划署
没有宣布。