这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba
鉴于当前的COVID-19大流行形势,准确的预测可以极大地帮助未来几波的卫生资源管理。然而,作为一种新实体,COVID-19的疾病动态似乎难以预测。外部因素,如互联网搜索数据,需要包括在模型中,以提高其准确性。然而,目前尚不清楚将在线搜索量纳入模型是否会在长期预测中带来更好的预测性能。gydF4y2Ba
本研究的目的是分析搜索引擎查询数据是否应被纳入预测短期和长期每日新增COVID-19病例和死亡人数的模型中。gydF4y2Ba
我们使用了韩国2020年1月20日至2021年7月31日期间从谷歌和苹果公司获得的国家级案件相关数据、NAVER搜索量和流动性数据。数据汇总为四个子集:在报告第一例病例后3、6、12和18个月。所有子集中前80%的数据作为训练集,其余数据作为测试集。具有正态分布、泊松分布和负二项分布的广义线性模型(GLMs),以及具有套索、自适应套索和弹性净正则化的线性回归(LR)模型。均方根误差值被定义为损失函数,并用于评估模型的性能。所有的分析和可视化都在SAS Studio中进行,这是SAS OnDemand for academic的一部分。gydF4y2Ba
具有不同类型分布函数的GLMs可能有助于在疫情早期预测每日新增COVID-19病例和死亡病例。在较长时期内,随着病例和死亡的分布变得更加正态分布,具有正则化的LR模型可能优于glm。这项研究还发现,与预测新的每日死亡病例相比,模型在预测新的每日死亡病例时表现更好。此外,对模型中的特征效应进行的评估表明,NAVER搜索量是预测每日新增COVID-19病例的有用变量,特别是在疫情暴发的前6个月。与物流需求相关的搜索,尤其是“温度计”和“口罩带”,在此期间显示出更高的特征效应。对于较长的预测周期,NAVER搜索量仍然是一个重要的变量,尽管具有较低的特征效应。这一发现表明,为了保持模型的预测性能,应该考虑搜索词的使用。gydF4y2Ba
NAVER搜索量是短期和长期预测的重要变量,在预测疫情暴发前6个月每日新增COVID-19病例时具有较高的特征效应。在死亡预测方面也发现了类似的结果。gydF4y2Ba
COVID-19是一种造成全球大流行的新疾病实体,自2020年12月底首次报告以来,已有2亿多例病例和450万人死亡[gydF4y2Ba
然而,作为一种新实体,COVID-19的疾病动态似乎难以预测[gydF4y2Ba
COVID-19预测模型中最常见的新出现外部变量之一是由互联网搜索数据组成的。这些数据是在谷歌、NAVER、Daum、百度等搜索引擎上搜索信息时收集的。使用信息寻求活动的研究是信息流行病学研究的一部分。“信息流行病学”一词最早由Eysenbach提出[gydF4y2Ba
Rabiolo等人的研究[gydF4y2Ba
在这项研究中,我们使用了国家层面的案例相关数据、NAVER搜索量以及谷歌和苹果的流动性数据。NAVER搜索量检索自NAVER网站[gydF4y2Ba
2020年1月20日至2021年7月31日韩国每日新增COVID-19病例和死亡人数的时间序列。图中下方的信息描述了从2020年4月到2021年7月,每月生命和健康类别前10个词汇中与COVID-19相关的词汇所占的百分比(N=10)。中提供了术语列表gydF4y2Ba
解释变量(gydF4y2Ba
数据集描述。gydF4y2Ba
数据集gydF4y2Ba一个gydF4y2Ba | 数据描述gydF4y2Ba | 使用gydF4y2Ba |
基于案例的数据gydF4y2Ba | 日累计病例数和死亡人数;用于计算每日新增病例和死亡人数gydF4y2Ba | 时间序列图,相关性和预测分析gydF4y2Ba |
谷歌社区流动数据gydF4y2Ba | 与基准日相比,在六个分类场所(零售和娱乐、杂货店和药房、公园、中转站、工作场所和住宅区)花费的时间的每日变化;2020年1月3日至2月6日的中位数gydF4y2Ba | 相关性与预测分析gydF4y2Ba |
苹果移动趋势数据gydF4y2Ba | 与2020年1月13日的基线量相比,在驾驶和步行情况下,苹果地图中的每日方向请求相对量gydF4y2Ba | 相关性与预测分析gydF4y2Ba |
NAVER搜索量gydF4y2Ba | 通过NAVER搜索引擎进行的每日在线搜索;数据范围从0到100;查询基于我们之前研究中使用的12个术语[gydF4y2Ba |
相关性与预测分析gydF4y2Ba |
一个gydF4y2Ba所有数据集都包括国家一级的数据。gydF4y2Ba
所有的分析和可视化都是使用SAS Studio进行的,它是SAS OnDemand for academia (SAS Institute Inc .)的一部分。对于GLMs,使用SAS中的proc hpgenselect开发和测试模型性能,逐步选择,在选择模型变量时α水平为.05。只有统计上显著的变量(gydF4y2Ba
韩国于2020年1月20日报告了首例COVID-19病例gydF4y2Ba
然而,8月中旬病例激增,导致从2020年8月28日开始恢复2级限制,并强制佩戴口罩。2020年10月12日,全国大部分地区放松了限制,但截至11月中旬,病例激增。二级限制随后再度收紧[gydF4y2Ba
韩国于2021年2月28日推出首支COVID-19疫苗[gydF4y2Ba
在韩国发生四次新冠肺炎疫情期间,NAVER数据库捕捉到了使用与新冠肺炎相关的各种词汇的搜索结果。在gydF4y2Ba
此外,谷歌捕捉到的流动性下降趋势与病例和死亡的动态相似(gydF4y2Ba
2020年1月20日至2021年7月31日,韩国每日新增COVID-19病例、流动数据(上图)和NAVER搜索(下图)的时间序列。gydF4y2Ba
2020年1月20日至2021年7月31日,韩国每日新增COVID-19死亡人数、流动性数据(顶部图)和NAVER搜索量(底部图)的时间序列。gydF4y2Ba
在暴发的早期阶段,关于子集1和子集2,过去3天内每日新增病例(gydF4y2Ba
对于每日新增的COVID-19死亡病例,仅在苹果移动数据(驾驶:gydF4y2Ba
与其他模型相比,具有泊松分布的GLMs在预测第一个子集中的每日COVID-19病例时表现更好(gydF4y2Ba
在第三和第四子集中,没有正则化的LR (GLM1)和有正则化的LR (LR1-3)表现非常相似(gydF4y2Ba
评估模型的性能。gydF4y2Ba
模型gydF4y2Ba | 子集1gydF4y2Ba一个gydF4y2Ba, RMSEgydF4y2BabgydF4y2Ba | 两个子集gydF4y2Ba一个gydF4y2Ba, RMSEgydF4y2Ba | 3子集gydF4y2Ba一个gydF4y2Ba, RMSEgydF4y2Ba | 4个子集gydF4y2Ba一个gydF4y2Ba, RMSEgydF4y2Ba | ||||||||||||||||
|
训练集gydF4y2Ba | 测试集gydF4y2Ba | 训练集gydF4y2Ba | 测试集gydF4y2Ba | 训练集gydF4y2Ba | 测试集gydF4y2Ba | 训练集gydF4y2Ba | 测试集gydF4y2Ba | ||||||||||||
|
||||||||||||||||||||
|
GLM1gydF4y2BacgydF4y2Ba | 62.22gydF4y2Ba | 66.92gydF4y2Ba | 53.04gydF4y2Ba | 32.70gydF4y2BadgydF4y2Ba | 48.01gydF4y2Ba | 378.94gydF4y2Ba | 85.75gydF4y2Ba | 219.22gydF4y2Ba | |||||||||||
|
GLM2gydF4y2BaegydF4y2Ba | 43.71gydF4y2Ba | 29.29gydF4y2BadgydF4y2Ba | 36.80gydF4y2Ba | 569037 .92点gydF4y2Ba | 48.19gydF4y2Ba | 495.88gydF4y2Ba | 120.76gydF4y2Ba | 429.51gydF4y2Ba | |||||||||||
|
GLM3gydF4y2BafgydF4y2Ba | 982.42gydF4y2Ba | 587.65gydF4y2Ba | 329.49gydF4y2Ba | 8247155 .77点gydF4y2Ba | 184.59gydF4y2Ba | 543.20gydF4y2Ba | 330.15gydF4y2Ba | 4161.61gydF4y2Ba | |||||||||||
|
LR1gydF4y2BaggydF4y2Ba | 58.57gydF4y2Ba | 60.17gydF4y2Ba | 50.90gydF4y2Ba | 44.92gydF4y2Ba | 48.20gydF4y2Ba | 373.58gydF4y2Ba | 85.09gydF4y2Ba | 216.22gydF4y2BadgydF4y2Ba | |||||||||||
|
LR2gydF4y2BahgydF4y2Ba | 56.88gydF4y2Ba | 79.57gydF4y2Ba | 49.41gydF4y2Ba | 78.32gydF4y2Ba | 48.00gydF4y2Ba | 366.19gydF4y2BadgydF4y2Ba | 84.52gydF4y2Ba | 216.70gydF4y2Ba | |||||||||||
|
LR3gydF4y2Ba我gydF4y2Ba | 56.51gydF4y2Ba | 69.13gydF4y2Ba | 50.90gydF4y2Ba | 44.92gydF4y2Ba | 48.20gydF4y2Ba | 373.58gydF4y2Ba | 84.42gydF4y2Ba | 217.81gydF4y2Ba | |||||||||||
|
||||||||||||||||||||
|
GLM1gydF4y2Ba | 3.10gydF4y2Ba | 4.89gydF4y2Ba | 2.52gydF4y2Ba | 1.04gydF4y2Ba | 2.08gydF4y2Ba | 6.79gydF4y2Ba | 2.80gydF4y2Ba | 4.89gydF4y2Ba | |||||||||||
|
GLM2gydF4y2Ba | 3.24gydF4y2Ba | 5.52gydF4y2Ba | 2.71gydF4y2Ba | 0.47gydF4y2Ba | 2.23gydF4y2Ba | 7.65gydF4y2Ba | 2.82gydF4y2Ba | 5.26gydF4y2Ba | |||||||||||
|
GLM3gydF4y2Ba | 3.25gydF4y2Ba | 3.79gydF4y2BadgydF4y2Ba | 2.72gydF4y2Ba | 0.19gydF4y2BadgydF4y2Ba | 2.24gydF4y2Ba | 17.02gydF4y2Ba | 3.81gydF4y2Ba | 4.64gydF4y2BadgydF4y2Ba | |||||||||||
|
LR1gydF4y2Ba | 3.05gydF4y2Ba | 4.95gydF4y2Ba | 2.62gydF4y2Ba | 1.71gydF4y2Ba | 2.16gydF4y2Ba | 5.21gydF4y2Ba | 2.75gydF4y2Ba | 5.23gydF4y2Ba | |||||||||||
|
LR2gydF4y2Ba | 3.04gydF4y2Ba | 4.50gydF4y2Ba | 2.61gydF4y2Ba | 0.70gydF4y2Ba | 2.19gydF4y2Ba | 4.82gydF4y2BadgydF4y2Ba | 2.75gydF4y2Ba | 5.38gydF4y2Ba | |||||||||||
|
LR3gydF4y2Ba | 3.05gydF4y2Ba | 4.95gydF4y2Ba | 2.62gydF4y2Ba | 1.71gydF4y2Ba | 2.16gydF4y2Ba | 5.23gydF4y2Ba | 2.75gydF4y2Ba | 5.23gydF4y2Ba |
一个gydF4y2Ba子集1至子集4:分别在韩国报告首例病例后3、6、12和18个月。gydF4y2Ba
bgydF4y2BaRMSE:均方根误差。gydF4y2Ba
cgydF4y2BaGLM1:正态分布广义线性模型。gydF4y2Ba
dgydF4y2Ba测试子集中最小的RMSE值。gydF4y2Ba
egydF4y2BaGLM2: Poisson分布的广义线性模型。gydF4y2Ba
fgydF4y2BaGLM3:负二项分布的广义线性模型。gydF4y2Ba
ggydF4y2BaLR1:套索正则化线性回归模型。gydF4y2Ba
hgydF4y2BaLR2:自适应套索正则化线性回归模型。gydF4y2Ba
我gydF4y2BaLR3:弹性净正则化线性回归模型。gydF4y2Ba
2020年1月20日至2021年7月31日韩国每日新增COVID-19病例的时间序列,以及广义线性模型(GLMs)和线性回归(LR)模型的预测值。GLM1:正态分布的GLM;GLM2:具有泊松分布的GLM;GLM3:负二项分布的GLM;LR1:套索正则化LR模型;LR2:自适应套索正则化LR模型LR3:具有弹性网正则化的LR模型;RMSE:均方根误差。gydF4y2Ba
2020年1月20日至2021年7月31日韩国每日新增COVID-19死亡病例的时间序列,以及广义线性模型(GLMs)和线性回归(LR)模型中的预测值。GLM1:正态分布的GLM;GLM2:具有泊松分布的GLM;GLM3:负二项分布的GLM;LR1:套索正则化LR模型;LR2:自适应套索正则化LR模型LR3:具有弹性网正则化的LR模型;RMSE:均方根误差。gydF4y2Ba
就变量的重要性而言,与基于案例的变量、谷歌流动性变量和Apple流动性变量相比,NAVER搜索量在第一和第二子集中产生了更高的参数估计(gydF4y2Ba
在这项研究中,在较长周期的模型中包含NAVER搜索“温度计”似乎是有益的。此外,在所有子集中,除住宅类型外,大多数流动性数据的参数估值均为负值。NAVER搜索“冠状病毒”、“冠状病毒检测”、“中东呼吸综合征”、“口罩”、“kf80口罩”、“一次性口罩”、“新天机”、“洗手液”的第三和第四个亚群的参数估计值也为负。gydF4y2Ba
与上述结果相反,对新增每日死亡人数的预测显示,基于病例的变量、流动性数据和NAVER搜索量的参数估估值相似(gydF4y2Ba
该研究展示了一种简单且可解释的方法,用于确定NAVER搜索量在四个不同子集中的预测性能:在韩国报告第一例病例后的3、6、12和18个月。使用子集来创建场景,以分析搜索引擎查询数据是否是包含在短期和长期预测模型中的重要变量。在这项研究中,我们发现NAVER搜索量是预测每日新增COVID-19病例和死亡人数的有用变量,特别是在疫情暴发的前6个月。对于较长的预测周期,NAVER搜索量仍然是一个重要的变量,尽管具有较低的特征效应。此外,本研究还讨论了新冠肺炎大流行期间搜索引擎查询数据在信息流行病学研究中的作用。gydF4y2Ba
调查结果显示,在疫情暴发初期,人们大量使用与covid -19相关的术语进行信息查询活动,随着疫情的持续,这一使用情况逐渐减少。这表明,在疫情暴发的前几个月,信息搜索量大幅增加,因为只有有限的与covid -19相关的信息在传播。然而,在后来的时期,人们可以获得大量的信息,例如在线新闻和卫生专家的报告[gydF4y2Ba
在相关性分析方面,最后一个子集NAVER搜索量呈负相关,表明随着病例数的增加,搜索量呈下降趋势。这一发现与早期的一项研究一致[gydF4y2Ba
此外,模型中的特征效应表明,NAVER搜索量是预测每日新增COVID-19病例的有用变量,特别是在疫情暴发的前6个月。与物流需求相关的搜索,尤其是“温度计”和“口罩带”,在此期间显示出更高的特征效应。与之前的研究相比[gydF4y2Ba
最后,NAVER搜索量也被发现有助于预测新的每日COVID-19死亡人数,甚至是更长的时间。模型中NAVER搜索的负参数估计值与相关分析的结果一致。这可能表明,随着案例数量的增加,搜索量会下降,尽管NAVER搜索引擎查询数据仍被视为纳入模型的有用变量。gydF4y2Ba
随着COVID-19大流行的出现,与COVID-19相关的信息流行病学研究呈指数级增长。一般来说,这类研究可分为三个主要主题:了解社区在线搜索行为的研究,评估搜索数据用于预测目的的可能使用的初步研究,以及预测分析。了解社区在线搜索行为的研究主要是为了评估在大流行情况下公众在在线信息搜索实践中的反应。Strzelecki进行的研究[gydF4y2Ba
在评估将搜索数据用于预测目的的可能性的初步研究中,大多数研究发现COVID-19病例与在线搜索数据之间存在高度相关性[gydF4y2Ba
因此,在本研究中,我们评估了包含在线搜索量的模型的预测性能。数据汇总为4个子集:3、6、12和18个月的时间序列数据。本研究旨在分析搜索引擎查询数据是否是纳入每日新增COVID-19病例和死亡人数短期和长期预测模型的重要变量。结果表明,在疫情暴发的前6个月,NAVER搜索量有望用于具有较高特征效应的预测任务。因此,本研究提供了在大流行情况下使用搜索数据进行预测的概述。gydF4y2Ba
本研究报告的分析仅从基于需求的信息流行病学研究的角度进行。这意味着这项研究通过搜索引擎查询来检查信息寻求行为[gydF4y2Ba
NAVER搜索量是预测每日新增COVID-19病例的重要变量,特别是在韩国疫情爆发的前6个月。在较长时间内,NAVER搜索量仍然是重要的变量,尽管应该考虑搜索词的使用,因为需要使用更具体的术语。在死亡预测方面也发现了类似的结果。同样,具有不同类型分布函数的glm可能有利于在爆发的早期阶段使用。在较长时期内,具有正则化的LR模型可能优于glm,因为模型中可使用的可能解释变量的数量增加了。gydF4y2Ba
NAVER每月生命和健康类别的热门术语列表;术语已被翻译成英语。gydF4y2Ba
每日新增COVID-19病例和死亡人数与训练集中解释变量的相关性。gydF4y2Ba
预测每日新增COVID-19病例的模型包括重要变量。gydF4y2Ba
预测每日新增COVID-19死亡病例的模型包括重要变量。gydF4y2Ba
赤池信息标准gydF4y2Ba
广义线性模型gydF4y2Ba
线性回归gydF4y2Ba
中东呼吸综合征gydF4y2Ba
均方根误差gydF4y2Ba
这项工作由台湾科技部资助ECYS(资助MOST109-2221-E-038-018和MOST110-2628-E-038-001)和台湾教育部资助高等教育萌芽计划(资助DP2-110-21121-01-A-13)。这项工作也得到了ES的支持,通过教育部资助的韩国国家研究基金会的基础科学研究计划(赠款2021R1A6A1A10044154)。赞助者在研究设计或出版手稿的内容中没有任何作用。作者希望感谢约翰霍普金斯大学系统科学与工程中心使用他们的地理信息系统仪表板,并提供有关韩国每日累计COVID-19病例和死亡人数的开放获取数据。此外,作者希望感谢谷歌和苹果允许访问免费的社区流动数据,以及NAVER允许访问在线搜索量。gydF4y2Ba
AH设计了这项研究,进行了实验,分析了数据,并起草和修改了手稿。ES提供了分析建议并修改了手稿。AF提出了分析性建议。ECYS构思了这项研究,设计了实验,并修改了手稿。所有作者都同意了手稿的最终版本。gydF4y2Ba
没有宣布。gydF4y2Ba