这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
COVID-19与甲型H1N1流感、黑死病和天花等其他疾病大流行一样,是人类历史上规模最大的大流行之一。这项研究是一个小小的贡献,它试图找到对比公式来减轻全球痛苦,并保证一个更可控的未来。
在本研究中,我们提出了一种统计方法来研究西班牙COVID-19发病率与谷歌Trends提供的搜索数据之间的相关性。
我们评估了谷歌趋势搜索数据与西班牙国家流行病学中心提供的数据之间的线性相关性,该数据依赖于卡洛斯三世Salud Carlos iii研究所,涉及在一定时滞内报告的COVID-19病例数量。这些数据能够确定预期的模式。
针对目前的疫情,我们的研究结果表明,通过使用相关检验,可以提前11天预测西班牙COVID-19大流行的演变。
在疫情期间,谷歌Trends通过追踪人们的搜索模式,提供了实时抢占医疗保健决策的可能性。鉴于对在人口层面起作用并实时为公共卫生决策提供信息的补充监测方法的迫切需求,这可能会有很大帮助。这项对谷歌搜索模式的研究,是由个人在面对大流行病时的恐惧所推动的,可用于预测大流行病的发展。
在2020年中国农历新年期间,中国当局首次采取了大规模措施,以减少新型COVID-19疾病的传播[
西班牙的新冠肺炎确诊病例数量在全球排名第五,仅次于美国、巴西、俄罗斯和英国。
在Chu和Qureshi的研究中[
预测像COVID-19这样的大流行的潜在传播是困难的,因为我们没有很多流行病学数据,例如传播机制、病毒的传染性或其突变模式,以及其他复杂的人为因素,例如遵守社交距离措施的程度。传染病科学家最近开发的许多模型[例如帝国理工学院的模型[
谷歌Trends提供了一种新方法,通过追踪个人的搜索来预测大流行的变化。冈瑟·艾森巴赫[
在行为流行病学学科中,有一些文章研究了流行病发展中的恐惧(例如,Epstein等人的研究[
近年来,涉及信息流行病学——"为公共卫生目的研究卫生信息的决定因素和分布"的不同搜索引擎的数量[
提高预测新冠肺炎发展可能性的文章。
研究(作者) | 搜索引擎 | 领土 | 利息条款 | 时间间隔 |
李等[ |
谷歌趋势、百度指数、新浪微博指数 | 中国 | “冠状病毒”与“肺炎” | 6 - 8天 |
侯赛因等[ |
谷歌趋势 | 台湾 | “洗手”及“口罩相关资料” | 1 - 3天 |
艾芬伯格等[ |
谷歌趋势 | 中国、韩国、日本、伊朗、意大利、奥地利、德国、英国、美国、埃及、澳大利亚和巴西 | “冠状病毒(病毒)” | 11.5天 |
佩科兹等[ |
谷歌趋势 | 美国 | “喉咙痛”、“发烧”和咳嗽 | 1 - 2周 |
袁等[ |
谷歌趋势 | 美国 | “新冠肺炎”与“新冠心脏” | 大约12天 |
希金斯等人[ |
谷歌趋势和百度指数 | 中国,全球数据,意大利和西班牙,以及美国纽约州和华盛顿州 | “呼吸短促”、“嗅觉丧失”、“呼吸困难”、“嗅觉丧失”、“头痛”、“胸痛”、“打喷嚏”、“腹泻”、“发烧”、“咳嗽”、“鼻塞”和“鼻漏” | 12天 |
吕及黎[ |
谷歌趋势 | 32个国家 | “冠状病毒症状”、“冠状病毒检测”、“发烧”、“咳嗽”、“冠状病毒”、“流鼻涕”、“干咳”、“喉咙痛”、“发冷”和“呼吸短促” | 在18到22岁的天 |
在本研究中,为了评估西班牙COVID-19发病率与谷歌Trends提供的搜索数据之间的相关性,提出了一种统计方法。我们的目的是确定在COVID-19爆发期间,公众在谷歌的互联网搜索引擎中使用许多不同的关键词搜索而收集的谷歌趋势数据是否可以预测西班牙国家流行病学中心(Centro Nacional de Epidemiología [CNE])报告的病例数。
我们的零假设H0如下:变量之间没有统计上显著的关系。提出的备择假设H1如下:得到的相关系数来自于相关系数显著的总体。
为了实现上述目标,我们分析了从谷歌Trends上获得的搜索数据和2020年2月20日至5月20日期间中国国家卫生网络中心每日登记病例数的官方数据。之所以选择这一时间段进行数据分析,是因为在2020年5月20日之前,CNE使用不同的方法跟踪每日病例。现行的点票制度于2020年5月11日实施。CNE是负责收集和标准化组成西班牙国家的17个自治区的数据的机构。计划对第二个数据集进行进一步分析,以扩展这项研究。
我们无法从本研究中使用的两组变量中获得关于性别和性别的数据。对这两个数据集进行了相关性评估。我们的方法不包括来自明确参与者的数据。虽然这可能会限制我们的研究结果,但它可以及时解释数据。
谷歌趋势搜索是通过查找与COVID-19症状相关的词汇和“COVID-19”一词的同义词进行的。谷歌Trends提供给定地理区域内用户输入谷歌的查询量的时间序列数据索引。谷歌计算给定术语的搜索数量,作为在任何给定时间内每个位置的搜索总数的比例。这些计算使用谷歌Trends相对搜索量(RSV)指数进行标准化,该指数的范围从0到100。RSV为100,表示某词条搜索量最高的日期[
在谷歌Trends上进行的搜索结果如下:“cansancio”,翻译过来就是“疲劳”;“冠状病毒”、“COVID - 19”、“COVID - 19”和“COVID - 19”;“diarrea”,翻译过来就是“腹泻”;“dolor de garganta”,翻译过来就是“喉咙痛”;“纤维”,翻译过来就是“发烧”;“pneumonia”,翻译过来就是“肺炎”,由于相关度更高,搜索结果没有重音;“perdida de olfato”,翻译过来是“失去嗅觉”,搜索时也没有口音;还有" tos ",翻译过来就是"咳嗽"
谷歌Trends在其相关查询中指出的可能的虚假术语在搜索字符串中通过在虚假术语之前添加否定运算符“-”来消除。完整的搜索词,加上谷歌Trends原始搜索页面的链接和负面查询,如下所示:" cansanancio -sociedad " [
CNE是收集和集中该国所有流行病学信息的西班牙官方中心。这些数据的准确性主要取决于提供这些数据的机构。在本研究中,数据主要来自西班牙公共行政系统中占据第二行政层级的自治区。
CNE本身警告说,在大流行的最初阶段,来自起源来源(即自治区)的数据在一定程度上缺乏同质化。这导致了接收到的数据中的某些不一致,这是我们在将CNE的汇总数据转换为每日值时能够自己验证的问题。虽然我们得到了1个负值,但我们没有将这些数据归一化,因为我们认为它们确实代表了我们所经历的紧急状态。此外,即使使用这种明显错误的数据,获得的相关性也非常好。
西班牙COVID-19疫情的原始初始数据于2020年5月24日在CNE网页上的“Documentación y Datos”标签下找到[
在我们分析的第一部分中,我们使用了pcr确认的COVID-19病例数据,在我们分析的第二部分中,我们使用了4个单独的数据集,以便为每个症状或搜索词创建每日延迟图。
一个潜在的偏差来源可能是谷歌Trends搜索词的选择,因为在西班牙语词汇中,表示COVID-19症状的词略有不同。研究样本代表西班牙人口,因为我们将谷歌趋势数据限制在西班牙进行的搜索,CNE监测在西班牙发生的所有COVID-19病例。
皮尔逊相关系数用于研究2个连续变量之间的线性关系(即,谷歌趋势中搜索的每个症状与每日pcr阳性病例数)。这是一种参数检验,推断其结果是真实总体的代表,这使得样本的分布必须与现实世界的分布相似,以确保数据的正态性。因此,必须验证从相关变量呈正态分布的总体中随机抽取的数据。假设样本量<50,比较正态分布拟合优度的适当检验是夏皮罗-威尔克检验,其中原假设暗示数据是正态分布。
皮尔逊相关系数使我们能够了解变量之间关系的强度和方向。这是一个对称的度量;x之间的相关性我和y我和y之间的相关性一样吗我和x我.
测量时间差相关性,以评估谷歌趋势数据的增加是否与大流行的演变有关。阈值为
Pearson相关系数和
滞后,天b | 喉咙痛 | 冠状病毒c | 发热 | 咳嗽 | 腹泻 | 肺炎 | 嗅觉丧失 | |||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 | 0.4848 | <措施 | 0.5090 | <措施 | 0.4009 | <措施 | 0.4149 | <措施 | 0.5870 | <措施 | 0.6551 | <措施 | 0.6770 | <措施 |
2 | 0.5549 | <措施 | 0.5730 | <措施 | 0.4770 | <措施 | 0.4964 | <措施 | 0.6446 | <措施 | 0.7163 | <措施 | 0.7151 | <措施 |
3. | 0.6121 | <措施 | 0.6273 | <措施 | 0.5437 | <措施 | 0.5741 | <措施 | 0.6815 | <措施 | 0.7654 | <措施 | 0.7489 | <措施 |
4 | 0.6708 | <措施 | 0.6273 | <措施 | 0.5437 | <措施 | 0.5741 | <措施 | 0.6815 | <措施 | 0.7654 | <措施 | 0.7489 | <措施 |
5 | 0.7369 | <措施 | 0.7256 | <措施 | 0.6771 | <措施 | 0.6991 | <措施 | 0.7743 | <措施 | 0.8544 | <措施 | 0.7847d | <措施 |
6 | 0.7679 | <措施 | 0.7521 | <措施 | 0.7238 | <措施 | 0.7439 | <措施 | 0.7782 | <措施 | 0.8639 | <措施 | 0.7806 | <措施 |
7 | 0.8055 | <措施 | 0.7740 | <措施 | 0.7656 | <措施 | 0.7794 | <措施 | 0.7780 | <措施 | 0.8756d | <措施 | 0.7726 | <措施 |
8 | 0.8358 | <措施 | 0.8118 | <措施 | 0.8100 | <措施 | 0.8201 | <措施 | 0.7922 | <措施 | 0.8593 | <措施 | 0.7319 | <措施 |
9 | 0.8608 | <措施 | 0.8507 | <措施 | 0.8434 | <措施 | 0.8584 | <措施 | 0.7907 | <措施 | 0.8604 | <措施 | 0.6814 | <措施 |
10 | 0.8743 | <措施 | 0.8766 | <措施 | 0.8751 | <措施 | 0.8822 | <措施 | 0.8031 | <措施 | 0.8501 | <措施 | 0.6356 | <措施 |
11 | 0.8799 | <措施 | 0.8999d | <措施 | 0.9086d | <措施 | 0.9015d | <措施 | 0.8117d | <措施 | 0.8585 | <措施 | 0.6111 | <措施 |
12 | 0.8924d | <措施 | 0.8944 | <措施 | 0.9039 | <措施 | 0.8965 | <措施 | 0.7858 | <措施 | 0.8484 | <措施 | 0.5592 | <措施 |
13 | 0.8672 | <措施 | 0.8468 | <措施 | 0.8788 | <措施 | 0.8681 | <措施 | 0.7001 | <措施 | 0.8127 | <措施 | 0.4968 | <措施 |
14 | 0.8279 | <措施 | 0.8065 | <措施 | 0.8319 | <措施 | 0.8296 | <措施 | 0.6326 | <措施 | 0.7668 | <措施 | 0.4419 | <措施 |
15 | 0.7664 | <措施 | 0.7443 | <措施 | 0.7743 | <措施 | 0.7839 | <措施 | 0.5913 | <措施 | 0.7099 | <措施 | 0.3803 | <措施 |
16 | 0.7214 | <措施 | 0.6811 | <措施 | 0.7234 | <措施 | 0.7448 | <措施 | 0.5192 | <措施 | 0.6415 | <措施 | 0.3259 | 04 |
17 | 0.6720 | <措施 | 0.6214 | <措施 | 0.6827 | <措施 | 0.7030 | <措施 | 0.4733 | <措施 | 0.5844 | <措施 | 0.2524 | 03 |
18 | 0.6093 | <措施 | 0.5517 | <措施 | 0.6330 | <措施 | 0.6654 | <措施 | 0.4271 | <措施 | 0.5467 | <措施 | 0.2053 | 。08 |
19 | 0.5788 | <措施 | 0.4838 | <措施 | 0.5810 | <措施 | 0.6161 | <措施 | 0.3607 | <措施 | 0.5142 | <措施 | 0.1690 | 16 |
20. | 0.5192 | <措施 | 0.4083 | <措施 | 0.5164 | <措施 | 0.5598 | <措施 | 0.2845 | .008 | 0.4694 | <措施 | 0.1140 | 点 |
21 | 0.4314 | <措施 | 0.3208 | .003 | 0.4349 | <措施 | 0.4921 | <措施 | 0.1975 | .051 | 0.3812 | <措施 | 0.0630 | .60 |
一个Pearson相关系数和
b这一列表示两个变量之间的时间差。
c“冠状病毒”指的是对以下词语的搜索:“冠状病毒”、“COVID - 19”、“COVID - 19”和“COVID - 19”。
d这些是每种症状的最高相关性。
Pearson相关系数和
滞后,天b | 乏力c | |
|
|
|
22 | 0.3926 | <措施 |
23 | 0.3782 | <措施 |
24 | 0.3632 | 措施 |
25 | 0.4947 | <措施 |
26 | 0.5296 | <措施 |
27 | 0.5171 | <措施 |
28 | 0.5480 | <措施 |
29 | 0.5253 | <措施 |
30. | 0.4720 | <措施 |
31 | 0.5342 | <措施 |
32 | 0.5016 | <措施 |
33 | 0.5427 | <措施 |
34 | 0.5521 | <措施 |
35 | 0.5664 | <措施 |
36 | 0.6350d | <措施 |
37 | 0.4981 | <措施 |
38 | 0.4711 | <措施 |
39 | 0.4388 | <措施 |
40 | 0.4631 | <措施 |
41 | 0.4915 | <措施 |
42 | 0.5325 | <措施 |
一个Pearson相关系数和
b这一列表示两个变量之间的滞后天数。
c搜索“疲劳”的相关性不如搜索“症状”的相关性强
d这与搜索“疲劳”的相关度最高。
正态性夏皮罗-威尔克检验。样本容量为21和显著性水平α=的临界区域(.908)。由W的临界值得到05n,进行夏皮罗-威尔克测试。
变量 | 统计 |
|
冠状病毒 | .945 | 陈霞 |
肺炎 | .861 | .007 |
发热 | .946 | 29 |
咳嗽 | .944 | .26 |
嗅觉丧失 | .885 | 02 |
喉咙痛 | .929 | 13。 |
腹泻 | .877 | . 01 |
乏力 | .952 | 36 |
根据
散点图描述了2020年2月至5月西班牙每日pcr阳性的COVID-19确诊病例与GT搜索COVID-19相关关键词之间的线性趋势。(A)每日pcr阳性确诊病例与GT搜索词冠状病毒之间的散点图。(B)每日pcr阳性COVID-19确诊病例与GT搜索词肺炎之间的散点图。(C)每日pcr阳性COVID-19确诊病例与GT搜索词Fever之间的散点图。(D)日pcr阳性COVID-19确诊病例与GT搜索词Cough之间的散点图。(E)日pcr阳性COVID-19确诊病例与GT搜索词Loss of smell之间的散点图。(F)每日pcr阳性COVID-19确诊病例与GT搜索词咽喉痛之间的散点图。(G)日pcr阳性确诊病例与GT搜索词腹泻之间的散点图。(H)日pcr阳性COVID-19确诊病例与GT搜索词疲劳之间的散点图。GT:谷歌趋势; PCR: polymerase chain reaction.
显示每日pcr阳性COVID-19病例与GT搜索COVID-19相关关键词之间相关性最佳的日期的图表。(A) GT搜索词与pcr阳性COVID-19病例数在不同延迟日范围下的比较曲线图。(B) GT搜索词与COVID-19住院人数之间的比较图,不同的延迟日范围。(C) GT搜索词与因COVID-19而入住ICU的人数之间的比较曲线图,不同的延迟天数范围。(D) GT搜索词与COVID-19死亡人数之间的比较图,具有不同的延迟日范围。GT:谷歌趋势;ICU:重症监护室;PCR:聚合酶链式反应。
自研究期的第一天起,每日病例数开始与所有评估术语的搜索量相关。自
关于“疲劳”的搜索,数据从第三周(即第22天)开始相关。前几周的指标是根据肖韦内标准剔除的,该标准指出,在0.3565和1.000置信区间之外的系数可以被丢弃。
每天经聚合酶链反应确诊的COVID-19新病例数与谷歌趋势中搜索变量之间具有临界显著性水平的决定系数(
变量 | R2 |
|
冠状病毒 | 0.8098 | <措施 |
肺炎 | 0.7666 | <措施 |
发热 | 0.8256 | <措施 |
咳嗽 | 0.8128 | <措施 |
嗅觉丧失 | 0.6157 | <措施 |
喉咙痛 | 0.7964 | <措施 |
腹泻 | 0.6588 | <措施 |
乏力 | 0.4032 | <措施 |
我们使用图形程序来验证我们结果的线性性。每个检索词与每日病例数之间关系的图形表示(
的图表
与流感病毒非常相似,SARS-CoV-2会导致某些流感样症状,如咳嗽、发烧和疲劳,在某些情况下,这些症状会使鉴别诊断复杂化。检查使用非传统数据源的研究有几个含义。我们研究了搜索引擎在减轻COVID-19大流行影响方面的使用情况。我们的研究结果表明,谷歌可以作为一种补充工具,帮助了解在线搜索行为,这可能有助于减轻大流行的不利影响,加快恢复进程。
我们发现,互联网搜索模式揭示了COVID-19疾病进展的强大时间模式。这项研究表明,互联网搜索模式可以用来揭示疾病的详细临床过程。这些数据可用于在广泛的实验室检测之前跟踪和预测COVID-19的本地传播,并有助于指导当前的公共卫生应对措施。
虽然实验室检测是衡量疫情传播的重要指标,但它也存在一些重要的局限性。需要其他监测方法来克服这些限制,并作为实验室检测的补充,特别是在大流行的关键早期阶段。聚合身份识别互联网搜索模式已被用于跟踪广泛的卫生现象,是监测大流行传播的潜在替代信息来源。
如果加以适当利用,互联网搜索模式比实验室检测具有许多强大的优势,例如:(1)当新的大流行出现时,可以立即获得监测数据;(2)在有足够互联网接入的国家可以在人口规模上获得数据;(3)延迟最小,因为搜索数据当天就可获得;(4)个人无需前往检测地点;人们可以呆在家里,从而避免更多地接触其他人和卫生保健工作者,(5)不需要物理干预,(6)数据是免费的,与监测的规模无关。
未来的研究可以集中于检查与症状相关的搜索词随着时间的推移的进展,以便通过检查初始症状发作的一系列可能的基于搜索词的定义来表征COVID-19的临床病程。这应基于最早的峰值搜索词的各种组合,以及对疾病阶段和COVID-19在当地环境和时间内的表现的详细了解。研究表明,COVID-19的传播和严重程度可能受到当地条件的影响,搜索量数据可以成为研究疾病表现的潜在局部变化的宝贵补充工具。鉴于实验室检测的诸多局限性,搜索数据是实时跟踪大流行病人口规模的宝贵补充工具。
这项研究表明,从谷歌Trends搜索与COVID-19相关的西班牙语关键词(即“冠状病毒”、“neumonía”、“fiber”、“tos”、“pérdida de olfato”、“dolor de garganta”和“痢疾”)获得的数据与CNE发布的关于实验室pcr确诊的COVID-19病例的每日发病率、住院率、重症监护病房入院率和COVID-19死亡率的数据相关,从“疲劳”的R=0.635到“发烧”的R=0.908的最高值。我们还发现,谷歌趋势数据与COVID-19的日发病率存在11天的时间差。
值得注意的是,对于“疲劳”,相关度最高的一天是第36天(即搜索后的第6周)。从统计上看,这具有一定的相关性,但考虑到COVID-19的潜伏期、发病机制和免疫反应产生的高度可变性,在评估未来的COVID-19阳性病例时,这种相关性可能不那么明显。因此,疲劳可能不应被视为使用谷歌趋势评估和预测阳性病例的症状。
虽然我们使用相关性来检查搜索查询与每日COVID-19发病率之间可能的线性关联,但应该指出的是,使用搜索引擎是自愿的,自我发起的搜索查询代表了真正好奇或担心某个情况的用户。因此,我们认为网民的低调搜索行为可能导致了搜索量的增加。本研究中使用的分析和方法可以帮助公共卫生和通信机构。研究这种关联对欧洲其他国家至关重要,因为意大利、英国和法国等其他国家都受到了COVID-19大流行的影响,只要放松社交距离措施,冬季寒冷重新来临,就可以预见新的COVID-19浪潮。
这项研究表明需要进行详细的调查,提供关于COVID-19临床特征、预防策略和技术解决方案的数据,包括处于卫生研究前沿的搜索引擎数据。本研究的结果验证并扩展了之前发表的使用谷歌关键字的作品[
我们的研究使用了谷歌Trends,它只提供了人们使用谷歌搜索引擎的搜索行为。未来的研究应该考虑研究相同的主题,但使用其他搜索引擎平台来捕捉更多样化的用户群体。使用自动化程序[
通过使用谷歌趋势,本研究发现,全球以及SARS-CoV-2病毒感染高发国家对COVID-19的兴趣越来越大。这项研究与以往的研究一致,如在
有必要进行进一步研究,以确定我们研究中发现的滞后是否与临床研究的结果有关,临床研究假设97.5%的有症状COVID-19病例在暴露后11.5天内出现[
在突发大流行(如COVID-19大流行)的早期阶段,另一个优先事项是确定受影响个体症状的临床病程特征。如果能够早期确定人群规模的临床模式,将有利于大流行跟踪、病例诊断和治疗。因此,我们调查了互联网搜索数据是否可用于描述COVID-19症状随时间变化的临床过程,并提供了基于搜索数据的疾病临床过程视图。
关于未来的研究,使用Pytrends可能会很有用[
国家中心Epidemiología
聚合酶链反应
相对搜索量
作者要感谢César Martín Pérez在这项研究中的贡献。作者还高度重视Amparo Larrauri、Marina Pollán、Pedro Arias、Rosa Cano和CNE的其他同事的合作和支持,他们在不利条件下辛勤工作,提供了关于西班牙流行病流行情况的数据。我们要特别感谢西班牙国家卫生系统的所有工作人员,他们挽救了如此多的生命,并为控制这场大流行提供了便利。本研究得到PI19CIII/00056 - TMPY 508/19项目的部分支持,该项目由西班牙研究评估和健康促进总干事(Instituto de Salud Carlos III)资助。本研究中所作的陈述仅由作者负责。
没有宣布。