医学互联网研究杂志-西班牙COVID-19症状相关谷歌搜索和当地COVID-19发病率:相关性研究

原始论文

¹卡洛斯三世Salud Carlos III研究所，信息和通信技术部，西班牙马德里

²卡洛斯三世Salud Carlos III研究所，西班牙马德里国家流行病学中心

^3.西班牙马德里国立大学心理学系Educación a Distancia

⁴卡洛斯三世Salud Carlos III研究所，远程医疗和数字健康研究单位，西班牙马德里

*所有作者贡献相同

通讯作者:

米格尔·A·桑泰德博士

心理学院

国立大学Educación a distcia

玫瑰街10号

马德里,28040年

西班牙

电话:34 646517577

电子邮件:msanted@psi.uned.es

背景:COVID-19与甲型H1N1流感、黑死病和天花等其他疾病大流行一样，是人类历史上规模最大的大流行之一。这项研究是一个小小的贡献，它试图找到对比公式来减轻全球痛苦，并保证一个更可控的未来。

摘要目的:在本研究中，我们提出了一种统计方法来研究西班牙COVID-19发病率与谷歌Trends提供的搜索数据之间的相关性。

方法:我们评估了谷歌趋势搜索数据与西班牙国家流行病学中心提供的数据之间的线性相关性，该数据依赖于卡洛斯三世Salud Carlos iii研究所，涉及在一定时滞内报告的COVID-19病例数量。这些数据能够确定预期的模式。

结果:针对目前的疫情，我们的研究结果表明，通过使用相关检验，可以提前11天预测西班牙COVID-19大流行的演变。

结论:在疫情期间，谷歌Trends通过追踪人们的搜索模式，提供了实时抢占医疗保健决策的可能性。鉴于对在人口层面起作用并实时为公共卫生决策提供信息的补充监测方法的迫切需求，这可能会有很大帮助。这项对谷歌搜索模式的研究，是由个人在面对大流行病时的恐惧所推动的，可用于预测大流行病的发展。

中国医学网络学报2020;22(12):e23518

doi: 10.2196/23518

关键字

行为流行病学；大数据；智能数据；跟踪；重点学科；预测；预测； infosurveillance； infodemiology；新型冠状病毒肺炎

背景

在2020年中国农历新年期间，中国当局首次采取了大规模措施，以减少新型COVID-19疾病的传播[1］．第一例SARS-CoV-2感染报告出现在2019年底[2］．随后，世界卫生组织于2020年3月11日宣布COVID-19疫情为大流行[3.］．COVID-19的流行病学特征，如其高传播能力、毒性和无症状携带者或仅表现出轻微症状的人的存在，尚未完全了解。在2020年3月疫情爆发7个月后，全球死亡人数接近100万人[4］．

西班牙的新冠肺炎确诊病例数量在全球排名第五，仅次于美国、巴西、俄罗斯和英国。4］．因此，开发一种预测工具来预测这一流行病的蔓延已变得至关重要。这些信息可以帮助我们了解COVID-19的演变以及它如何影响我们的健康。此外，这些信息甚至可以用于防范未来可能出现的COVID-19浪潮和其他大流行。

疫情检测

在Chu和Qureshi的研究中[5]，他们声明如下:

预测像COVID-19这样的大流行的潜在传播是困难的，因为我们没有很多流行病学数据，例如传播机制、病毒的传染性或其突变模式，以及其他复杂的人为因素，例如遵守社交距离措施的程度。传染病科学家最近开发的许多模型[例如帝国理工学院的模型[6和帝国实验室[7[…]可以产生截然不同的预测，因为它们是基于各种可能不接近现实的假设构建的(例如遵守社交距离的实际水平可能比模型中假设的要高得多，或者不同地区和人群的感染率可能不同，这是任何模型都无法轻易捕捉到的)。

谷歌Trends提供了一种新方法，通过追踪个人的搜索来预测大流行的变化。冈瑟·艾森巴赫[8在开展关于在卫生方法中使用谷歌趋势的研究方面，是一个先驱。此外，Ginsberg等人[9]发现网络搜索查询的模式与流感样症状患者的百分比之间存在高度相关性，从而证实在特定的时间点，谷歌Trends可以比疾病控制和预防中心提前1或2周检测到流感的蔓延。

在行为流行病学学科中，有一些文章研究了流行病发展中的恐惧(例如，Epstein等人的研究[10])。在我们的研究中，通过谷歌搜索总结了行为因素，然后作为相关变量来确定流行病演变的模式。

近年来，涉及信息流行病学——"为公共卫生目的研究卫生信息的决定因素和分布"的不同搜索引擎的数量[8]的数量正在增加，谷歌Trends正在作为跟踪社会趋势的有用工具进行测试[11］．在COVID-19大流行期间，我们发现从2020年5月起发表的7篇文章提高了预测疾病发展的可能性(表1）.

表1。提高预测新冠肺炎发展可能性的文章。

研究(作者)	搜索引擎	领土	利息条款	时间间隔
李等[12］	谷歌趋势、百度指数、新浪微博指数	中国	“冠状病毒”与“肺炎”	6 - 8天
侯赛因等[13］	谷歌趋势	台湾	“洗手”及“口罩相关资料”	1 - 3天
艾芬伯格等[14］	谷歌趋势	中国、韩国、日本、伊朗、意大利、奥地利、德国、英国、美国、埃及、澳大利亚和巴西	“冠状病毒(病毒)”	11.5天
佩科兹等[15］	谷歌趋势	美国	“喉咙痛”、“发烧”和咳嗽	1 - 2周
袁等[16］	谷歌趋势	美国	“新冠肺炎”与“新冠心脏”	大约12天
希金斯等人[17］	谷歌趋势和百度指数	中国，全球数据，意大利和西班牙，以及美国纽约州和华盛顿州	“呼吸短促”、“嗅觉丧失”、“呼吸困难”、“嗅觉丧失”、“头痛”、“胸痛”、“打喷嚏”、“腹泻”、“发烧”、“咳嗽”、“鼻塞”和“鼻漏”	12天
吕及黎[18］	谷歌趋势	32个国家	“冠状病毒症状”、“冠状病毒检测”、“发烧”、“咳嗽”、“冠状病毒”、“流鼻涕”、“干咳”、“喉咙痛”、“发冷”和“呼吸短促”	在18到22岁的天

目标

在本研究中，为了评估西班牙COVID-19发病率与谷歌Trends提供的搜索数据之间的相关性，提出了一种统计方法。我们的目的是确定在COVID-19爆发期间，公众在谷歌的互联网搜索引擎中使用许多不同的关键词搜索而收集的谷歌趋势数据是否可以预测西班牙国家流行病学中心(Centro Nacional de Epidemiología [CNE])报告的病例数。

研究设计

我们的零假设H0如下:变量之间没有统计上显著的关系。提出的备择假设H1如下:得到的相关系数来自于相关系数显著的总体。

为了实现上述目标，我们分析了从谷歌Trends上获得的搜索数据和2020年2月20日至5月20日期间中国国家卫生网络中心每日登记病例数的官方数据。之所以选择这一时间段进行数据分析，是因为在2020年5月20日之前，CNE使用不同的方法跟踪每日病例。现行的点票制度于2020年5月11日实施。CNE是负责收集和标准化组成西班牙国家的17个自治区的数据的机构。计划对第二个数据集进行进一步分析，以扩展这项研究。

谷歌趋势搜索词的变量

我们无法从本研究中使用的两组变量中获得关于性别和性别的数据。对这两个数据集进行了相关性评估。我们的方法不包括来自明确参与者的数据。虽然这可能会限制我们的研究结果，但它可以及时解释数据。

谷歌趋势搜索是通过查找与COVID-19症状相关的词汇和“COVID-19”一词的同义词进行的。谷歌Trends提供给定地理区域内用户输入谷歌的查询量的时间序列数据索引。谷歌计算给定术语的搜索数量，作为在任何给定时间内每个位置的搜索总数的比例。这些计算使用谷歌Trends相对搜索量(RSV)指数进行标准化，该指数的范围从0到100。RSV为100，表示某词条搜索量最高的日期[19］．在我们之前的研究中[20.]，我们建立了谷歌Trends如何计算特定搜索词的月度RSV指数的数学公式。

在谷歌Trends上进行的搜索结果如下:“cansancio”，翻译过来就是“疲劳”;“冠状病毒”、“COVID - 19”、“COVID - 19”和“COVID - 19”;“diarrea”，翻译过来就是“腹泻”;“dolor de garganta”，翻译过来就是“喉咙痛”;“纤维”，翻译过来就是“发烧”;“pneumonia”，翻译过来就是“肺炎”，由于相关度更高，搜索结果没有重音;“perdida de olfato”，翻译过来是“失去嗅觉”，搜索时也没有口音;还有" tos "，翻译过来就是"咳嗽"

谷歌Trends在其相关查询中指出的可能的虚假术语在搜索字符串中通过在虚假术语之前添加否定运算符“-”来消除。完整的搜索词，加上谷歌Trends原始搜索页面的链接和负面查询，如下所示:" cansanancio -sociedad " [21];“冠状病毒”、“COVID 19”、“COVID 19”和“covid19”[22];“diarrea”[23];" dolor de garganta " [24];“fiebre”[25];“neumonia”[26];" perdita olfato " [27];和" tos -opensigma -rap " [28］．与COVID-19症状相关的词汇的谷歌Trends完整原始搜索结果仅针对西班牙以及2020年2月20日至5月20日期间。

CNE提供的信息

CNE是收集和集中该国所有流行病学信息的西班牙官方中心。这些数据的准确性主要取决于提供这些数据的机构。在本研究中，数据主要来自西班牙公共行政系统中占据第二行政层级的自治区。

CNE本身警告说，在大流行的最初阶段，来自起源来源(即自治区)的数据在一定程度上缺乏同质化。这导致了接收到的数据中的某些不一致，这是我们在将CNE的汇总数据转换为每日值时能够自己验证的问题。虽然我们得到了1个负值，但我们没有将这些数据归一化，因为我们认为它们确实代表了我们所经历的紧急状态。此外，即使使用这种明显错误的数据，获得的相关性也非常好。

西班牙COVID-19疫情的原始初始数据于2020年5月24日在CNE网页上的“Documentación y Datos”标签下找到[29］．CNE当时提供的COVID-19官方数据是以下数据的总和:聚合酶链反应(PCR)阳性结果、住院人数、重症监护病房入院人数和死亡人数。该数据集不再可用，取而代之的数据集展示了第二种数据收集方法的结果，该方法于2020年5月11日实施。我们的目的是在未来的研究中使用与本研究相同的方法对该数据集进行研究。

在我们分析的第一部分中，我们使用了pcr确认的COVID-19病例数据，在我们分析的第二部分中，我们使用了4个单独的数据集，以便为每个症状或搜索词创建每日延迟图。

偏倚、研究规模和参与者

一个潜在的偏差来源可能是谷歌Trends搜索词的选择，因为在西班牙语词汇中，表示COVID-19症状的词略有不同。研究样本代表西班牙人口，因为我们将谷歌趋势数据限制在西班牙进行的搜索，CNE监测在西班牙发生的所有COVID-19病例。

统计分析

皮尔逊相关系数用于研究2个连续变量之间的线性关系(即，谷歌趋势中搜索的每个症状与每日pcr阳性病例数)。这是一种参数检验，推断其结果是真实总体的代表，这使得样本的分布必须与现实世界的分布相似，以确保数据的正态性。因此，必须验证从相关变量呈正态分布的总体中随机抽取的数据。假设样本量<50，比较正态分布拟合优度的适当检验是夏皮罗-威尔克检验，其中原假设暗示数据是正态分布。

皮尔逊相关系数使我们能够了解变量之间关系的强度和方向。这是一个对称的度量;x之间的相关性_我和y_我和y之间的相关性一样吗_我和x_我．

测量时间差相关性，以评估谷歌趋势数据的增加是否与大流行的演变有关。阈值为P<。以05进行统计学差异分析。

Pearson相关分析和Shapiro-Wilk检验

表2和3.提供搜索中分类的每个症状的Pearson相关系数，从最初搜索之日到21天后。对于每种症状，都记录了相关性最高的日子。

表4显示变量是否服从正态分布。

表2。Pearson相关系数和P每个与症状相关的搜索词的值，不包括疲劳。还介绍了COVID-19发病率数据的时间滞后^一个．

滞后,天^b	喉咙痛		冠状病毒^c		发热		咳嗽		腹泻		肺炎		嗅觉丧失
	r	P价值	r	P价值	r	P价值	r	P价值	r	P价值	r	P价值	r	P价值
1	0.4848	<措施	0.5090	<措施	0.4009	<措施	0.4149	<措施	0.5870	<措施	0.6551	<措施	0.6770	<措施
2	0.5549	<措施	0.5730	<措施	0.4770	<措施	0.4964	<措施	0.6446	<措施	0.7163	<措施	0.7151	<措施
3.	0.6121	<措施	0.6273	<措施	0.5437	<措施	0.5741	<措施	0.6815	<措施	0.7654	<措施	0.7489	<措施
4	0.6708	<措施	0.6273	<措施	0.5437	<措施	0.5741	<措施	0.6815	<措施	0.7654	<措施	0.7489	<措施
5	0.7369	<措施	0.7256	<措施	0.6771	<措施	0.6991	<措施	0.7743	<措施	0.8544	<措施	0.7847^d	<措施
6	0.7679	<措施	0.7521	<措施	0.7238	<措施	0.7439	<措施	0.7782	<措施	0.8639	<措施	0.7806	<措施
7	0.8055	<措施	0.7740	<措施	0.7656	<措施	0.7794	<措施	0.7780	<措施	0.8756^d	<措施	0.7726	<措施
8	0.8358	<措施	0.8118	<措施	0.8100	<措施	0.8201	<措施	0.7922	<措施	0.8593	<措施	0.7319	<措施
9	0.8608	<措施	0.8507	<措施	0.8434	<措施	0.8584	<措施	0.7907	<措施	0.8604	<措施	0.6814	<措施
10	0.8743	<措施	0.8766	<措施	0.8751	<措施	0.8822	<措施	0.8031	<措施	0.8501	<措施	0.6356	<措施
11	0.8799	<措施	0.8999^d	<措施	0.9086^d	<措施	0.9015^d	<措施	0.8117^d	<措施	0.8585	<措施	0.6111	<措施
12	0.8924^d	<措施	0.8944	<措施	0.9039	<措施	0.8965	<措施	0.7858	<措施	0.8484	<措施	0.5592	<措施
13	0.8672	<措施	0.8468	<措施	0.8788	<措施	0.8681	<措施	0.7001	<措施	0.8127	<措施	0.4968	<措施
14	0.8279	<措施	0.8065	<措施	0.8319	<措施	0.8296	<措施	0.6326	<措施	0.7668	<措施	0.4419	<措施
15	0.7664	<措施	0.7443	<措施	0.7743	<措施	0.7839	<措施	0.5913	<措施	0.7099	<措施	0.3803	<措施
16	0.7214	<措施	0.6811	<措施	0.7234	<措施	0.7448	<措施	0.5192	<措施	0.6415	<措施	0.3259	04
17	0.6720	<措施	0.6214	<措施	0.6827	<措施	0.7030	<措施	0.4733	<措施	0.5844	<措施	0.2524	03
18	0.6093	<措施	0.5517	<措施	0.6330	<措施	0.6654	<措施	0.4271	<措施	0.5467	<措施	0.2053	。08
19	0.5788	<措施	0.4838	<措施	0.5810	<措施	0.6161	<措施	0.3607	<措施	0.5142	<措施	0.1690	16
20.	0.5192	<措施	0.4083	<措施	0.5164	<措施	0.5598	<措施	0.2845	.008	0.4694	<措施	0.1140	点
21	0.4314	<措施	0.3208	.003	0.4349	<措施	0.4921	<措施	0.1975	.051	0.3812	<措施	0.0630	.60

^一个Pearson相关系数和P每个症状的值基于对该术语的谷歌趋势搜索与每日聚合酶链反应阳性病例之间的比较。

^b这一列表示两个变量之间的时间差。

^c“冠状病毒”指的是对以下词语的搜索:“冠状病毒”、“COVID - 19”、“COVID - 19”和“COVID - 19”。

^d这些是每种症状的最高相关性。

表3。Pearson相关系数和P搜索词“疲劳”的值。还介绍了COVID-19发病率数据的时间滞后^一个．

滞后,天^b	乏力^c
	r	P价值
22	0.3926	<措施
23	0.3782	<措施
24	0.3632	措施
25	0.4947	<措施
26	0.5296	<措施
27	0.5171	<措施
28	0.5480	<措施
29	0.5253	<措施
30.	0.4720	<措施
31	0.5342	<措施
32	0.5016	<措施
33	0.5427	<措施
34	0.5521	<措施
35	0.5664	<措施
36	0.6350^d	<措施
37	0.4981	<措施
38	0.4711	<措施
39	0.4388	<措施
40	0.4631	<措施
41	0.4915	<措施
42	0.5325	<措施

^一个Pearson相关系数和P疲劳值是基于谷歌趋势搜索词与每日聚合酶链反应阳性病例之间的比较。

^b这一列表示两个变量之间的滞后天数。

^c搜索“疲劳”的相关性不如搜索“症状”的相关性强表1但在36天后，它们确实显示出更强的相关性。因此，我们将这些结果显示在一个单独的表中，使用不同的天数。

^d这与搜索“疲劳”的相关度最高。

表4。正态性夏皮罗-威尔克检验。样本容量为21和显著性水平α=的临界区域(.908)。由W的临界值得到05_n,进行夏皮罗-威尔克测试。

变量	统计	P价值
冠状病毒	.945	陈霞
肺炎	.861	.007
发热	.946	29
咳嗽	.944	点
嗅觉丧失	.885	02
喉咙痛	.929	13。
腹泻	.877	. 01
乏力	.952	36

根据表4时，变量服从正态分布。根据我们对“肺炎”、“嗅觉丧失”和“腹泻”的搜索结果，这些词的值低于95%置信水平的临界区域(.908)P的值。05，正态性的零假设可以被拒绝。然而，这些症状确实遵循线性趋势，可以在图1．由于这些值接近临界区域，因此也可以认为它们遵循正态分布，如图所示图2．

图1。散点图描述了2020年2月至5月西班牙每日pcr阳性的COVID-19确诊病例与GT搜索COVID-19相关关键词之间的线性趋势。(A)每日pcr阳性确诊病例与GT搜索词冠状病毒之间的散点图。(B)每日pcr阳性COVID-19确诊病例与GT搜索词肺炎之间的散点图。(C)每日pcr阳性COVID-19确诊病例与GT搜索词Fever之间的散点图。(D)日pcr阳性COVID-19确诊病例与GT搜索词Cough之间的散点图。(E)日pcr阳性COVID-19确诊病例与GT搜索词Loss of smell之间的散点图。(F)每日pcr阳性COVID-19确诊病例与GT搜索词咽喉痛之间的散点图。(G)日pcr阳性确诊病例与GT搜索词腹泻之间的散点图。(H)日pcr阳性COVID-19确诊病例与GT搜索词疲劳之间的散点图。 GT: Google Trends; PCR: polymerase chain reaction.

图2。显示每日pcr阳性COVID-19病例与GT搜索COVID-19相关关键词之间相关性最佳的日期的图表。(A) GT搜索词与pcr阳性COVID-19病例数在不同延迟日范围下的比较曲线图。(B) GT搜索词与COVID-19住院人数之间的比较图，不同的延迟日范围。(C) GT搜索词与因COVID-19而入住ICU的人数之间的比较曲线图，不同的延迟天数范围。(D) GT搜索词与COVID-19死亡人数之间的比较图，具有不同的延迟日范围。GT:谷歌趋势;ICU:重症监护室;PCR:聚合酶链式反应。

爆发控制措施

自研究期的第一天起，每日病例数开始与所有评估术语的搜索量相关。自P每日病例与症状搜索之间的相关性值低于0.05的显著性水平，可以说相关系数显著，这证明拒绝原假设是合理的。对于大多数被搜索的关键词(即“冠状病毒”、“COVID - 19”、“COVID - 19”、“COVID - 19”、“发烧”、“咳嗽”和“腹泻”)，第11天与新病例数量的相关性最高。

关于“疲劳”的搜索，数据从第三周(即第22天)开始相关。前几周的指标是根据肖韦内标准剔除的，该标准指出，在0.3565和1.000置信区间之外的系数可以被丢弃。

表5显示了谷歌趋势中每天新病例数与其余搜索变量之间的决定系数。这些系数具有临界显著性水平(P<.001)低于已确定的显著性水平，通常为P< . 05。

表5所示。每天经聚合酶链反应确诊的COVID-19新病例数与谷歌趋势中搜索变量之间具有临界显著性水平的决定系数(P<措施)。

变量	R²	P价值
冠状病毒	0.8098	<措施
肺炎	0.7666	<措施
发热	0.8256	<措施
咳嗽	0.8128	<措施
嗅觉丧失	0.6157	<措施
喉咙痛	0.7964	<措施
腹泻	0.6588	<措施
乏力	0.4032	<措施

表5表明决定系数与0有显著差异。因此，在这种情况下，原假设为假，根据Popper方法[30.]，我们可以肯定，每日COVID-19病例与谷歌Trends上与COVID-19及其症状相关的词汇搜索量之间存在显著的正线性关系。这表明COVID-19的发病率可以提前11天预测。

我们使用图形程序来验证我们结果的线性性。每个检索词与每日病例数之间关系的图形表示(图1)表明每个关系都有线性趋势。通过使用生成的回归线，可以计算出后续数据，包括阳性病例数，从而验证谷歌Trends搜索与西班牙COVID-19发病率之间的相关性。

的图表图2表示两个变量(即症状关键字与covid -19阳性病例)之间相关性最好的日期。他们显示了每日病例与谷歌趋势搜索与COVID-19及其症状相关的词汇之间的正相关关系。

讨论

研究的意义

与流感病毒非常相似，SARS-CoV-2会导致某些流感样症状，如咳嗽、发烧和疲劳，在某些情况下，这些症状会使鉴别诊断复杂化。检查使用非传统数据源的研究有几个含义。我们研究了搜索引擎在减轻COVID-19大流行影响方面的使用情况。我们的研究结果表明，谷歌可以作为一种补充工具，帮助了解在线搜索行为，这可能有助于减轻大流行的不利影响，加快恢复进程。

我们发现，互联网搜索模式揭示了COVID-19疾病进展的强大时间模式。这项研究表明，互联网搜索模式可以用来揭示疾病的详细临床过程。这些数据可用于在广泛的实验室检测之前跟踪和预测COVID-19的本地传播，并有助于指导当前的公共卫生应对措施。

虽然实验室检测是衡量疫情传播的重要指标，但它也存在一些重要的局限性。需要其他监测方法来克服这些限制，并作为实验室检测的补充，特别是在大流行的关键早期阶段。聚合身份识别互联网搜索模式已被用于跟踪广泛的卫生现象，是监测大流行传播的潜在替代信息来源。

如果加以适当利用，互联网搜索模式比实验室检测具有许多强大的优势，例如:(1)当新的大流行出现时，可以立即获得监测数据;(2)在有足够互联网接入的国家可以在人口规模上获得数据;(3)延迟最小，因为搜索数据当天就可获得;(4)个人无需前往检测地点;人们可以呆在家里，从而避免更多地接触其他人和卫生保健工作者，(5)不需要物理干预，(6)数据是免费的，与监测的规模无关。

未来的研究可以集中于检查与症状相关的搜索词随着时间的推移的进展，以便通过检查初始症状发作的一系列可能的基于搜索词的定义来表征COVID-19的临床病程。这应基于最早的峰值搜索词的各种组合，以及对疾病阶段和COVID-19在当地环境和时间内的表现的详细了解。研究表明，COVID-19的传播和严重程度可能受到当地条件的影响，搜索量数据可以成为研究疾病表现的潜在局部变化的宝贵补充工具。鉴于实验室检测的诸多局限性，搜索数据是实时跟踪大流行病人口规模的宝贵补充工具。

主要结果

这项研究表明，从谷歌Trends搜索与COVID-19相关的西班牙语关键词(即“冠状病毒”、“neumonía”、“fiber”、“tos”、“pérdida de olfato”、“dolor de garganta”和“痢疾”)获得的数据与CNE发布的关于实验室pcr确诊的COVID-19病例的每日发病率、住院率、重症监护病房入院率和COVID-19死亡率的数据相关，从“疲劳”的R=0.635到“发烧”的R=0.908的最高值。我们还发现，谷歌趋势数据与COVID-19的日发病率存在11天的时间差。

值得注意的是，对于“疲劳”，相关度最高的一天是第36天(即搜索后的第6周)。从统计上看，这具有一定的相关性，但考虑到COVID-19的潜伏期、发病机制和免疫反应产生的高度可变性，在评估未来的COVID-19阳性病例时，这种相关性可能不那么明显。因此，疲劳可能不应被视为使用谷歌趋势评估和预测阳性病例的症状。

虽然我们使用相关性来检查搜索查询与每日COVID-19发病率之间可能的线性关联，但应该指出的是，使用搜索引擎是自愿的，自我发起的搜索查询代表了真正好奇或担心某个情况的用户。因此，我们认为网民的低调搜索行为可能导致了搜索量的增加。本研究中使用的分析和方法可以帮助公共卫生和通信机构。研究这种关联对欧洲其他国家至关重要，因为意大利、英国和法国等其他国家都受到了COVID-19大流行的影响，只要放松社交距离措施，冬季寒冷重新来临，就可以预见新的COVID-19浪潮。

这项研究表明需要进行详细的调查，提供关于COVID-19临床特征、预防策略和技术解决方案的数据，包括处于卫生研究前沿的搜索引擎数据。本研究的结果验证并扩展了之前发表的使用谷歌关键字的作品[5，6，8]，我们展示了使用谷歌监测和预测COVID-19大流行演变的潜力。通过使用谷歌趋势，本研究发现，在全球和SARS-CoV-2病毒感染高发国家，人们对COVID-19的兴趣越来越大。

限制

我们的研究使用了谷歌Trends，它只提供了人们使用谷歌搜索引擎的搜索行为。未来的研究应该考虑研究相同的主题，但使用其他搜索引擎平台来捕捉更多样化的用户群体。使用自动化程序[31可以提高在SARS-CoV-2病毒感染高发国家收集和分析数据的准确性。此外，关键词的选择在保证结果的有效性方面起着非常重要的作用。考虑到这一领域的研究相对较新，没有标准的报道方法，导致不同术语含义相同，同一术语含义不同，缩略语也不同。此外，搜索数据可能受到当地数字鸿沟中社会经济、地理或其他固有偏见的影响。最后，谷歌Trends不提供关于用于生成搜索数据的方法及其算法的信息。因此，应该对其他搜索引擎进行调查。将结论转移到互联网接入水平较低的国家应谨慎行事。

与之前工作的比较

通过使用谷歌趋势，本研究发现，全球以及SARS-CoV-2病毒感染高发国家对COVID-19的兴趣越来越大。这项研究与以往的研究一致，如在表1因为所有这些研究都发现，与COVID-19相关的搜索与大流行的演变之间存在正相关。此外，这些研究的数据序列的相关滞后模型在我们的发现范围内。

结论

有必要进行进一步研究，以确定我们研究中发现的滞后是否与临床研究的结果有关，临床研究假设97.5%的有症状COVID-19病例在暴露后11.5天内出现[32］．这个11.5天的调整比最初15天的调整日期有所改善。事实上，在第二波大流行期间，许多地方认为10天的隔离就足够了。为了可视化的目的，10天移动平均线可以提供更清晰的图。

在突发大流行(如COVID-19大流行)的早期阶段，另一个优先事项是确定受影响个体症状的临床病程特征。如果能够早期确定人群规模的临床模式，将有利于大流行跟踪、病例诊断和治疗。因此，我们调查了互联网搜索数据是否可用于描述COVID-19症状随时间变化的临床过程，并提供了基于搜索数据的疾病临床过程视图。

关于未来的研究，使用Pytrends可能会很有用[31]，一个简单的从谷歌Trends自动下载报表的界面。此外，超越最初开发的方法[11]，以系统的方式研究互联网搜索模式。对于尚未出现拐点曲线的国家，如果政府监测其国内谷歌查询的演变，以预见其医院系统的最佳利用，系统方法可能是最有用的。

致谢

作者要感谢César Martín Pérez在这项研究中的贡献。作者还高度重视Amparo Larrauri、Marina Pollán、Pedro Arias、Rosa Cano和CNE的其他同事的合作和支持，他们在不利条件下辛勤工作，提供了关于西班牙流行病流行情况的数据。我们要特别感谢西班牙国家卫生系统的所有工作人员，他们挽救了如此多的生命，并为控制这场大流行提供了便利。本研究得到PI19CIII/00056 - TMPY 508/19项目的部分支持，该项目由西班牙研究评估和健康促进总干事(Instituto de Salud Carlos III)资助。本研究中所作的陈述仅由作者负责。

利益冲突

没有宣布。

陈松，杨军，杨伟，王超，Bärnighausen T.新年期间中国大规模人口流动期间的新冠肺炎防控。柳叶刀2020年3月07日;395(10226):764-766 [免费全文] [CrossRef] [Medline］
2019冠状病毒病(COVID-19)疫情报告- 94。世界卫生组织2020年4月23日URL:https://www.who.int/docs/default-source/coronaviruse/situation-reports/20200423-sitrep-94-covid-19.pdf[2020-09-06]访问
COVID-19大流行。世界卫生组织欧洲。URL:https://www.euro.who.int/en/health-topics/health-emergencies/coronavirus-covid-19[2020-09-06]访问
世卫组织冠状病毒疾病(COVID-19)仪表盘。世界卫生组织。URL:https://covid19.who.int/[2020-06-10]访问
Chu B, Qureshi S.预测加拿大和美国的COVID-19大流行。2020年5月05日。URL:https://ideas.repec.org/p/car/carecp/20-05.html[2020-07-30]访问
Imai N, Dorigatti I, Cori A, Donnelly C, Riley S, Ferguson NM。报告2:中国武汉市新型冠状病毒(2019-nCoV)潜在病例总数估算帝国理工学院2019冠状病毒病应对小组，2020年1月22日。URL:https://www.imperial.ac.uk/media/imperial-college/medicine/sph/ide/gida-fellowships/Imperial-College-COVID19-update-epidemic-size-22-01-2020.pdf[2020-09-12]访问
reichlab/ COVID-19 -forecast-hub:标准格式的COVID-19预测。GitHub。URL:https://github.com/reichlab/covid19-forecast-hub[2020-09-12]访问
信息流行病学:在网上跟踪流感相关搜索以进行症状监测。AMIA年度法律程序2006;2006:244-248 [免费全文] [Medline］
Ginsberg J, Mohebbi MH, Patel RS, Brammer L, Smolinski MS, Brilliant L.利用搜索引擎查询数据检测流感流行。自然杂志2009年2月19日;457(7232):1012-1014。［CrossRef] [Medline］
爱泼斯坦JM，帕克J，卡明斯D，哈蒙德RA。恐惧和疾病的耦合传染动力学:数学和计算探索。公共科学学报，2008;3(12):e3955。［CrossRef] [Medline］
马夫拉加尼A，奥乔亚G.谷歌信息流行病学和信息监控的趋势:方法论框架。JMIR公共卫生监测2019年5月29日;5(2):e13439 [免费全文] [CrossRef] [Medline］
李超，陈丽娟，陈霞，张敏，庞鹏鹏，陈慧。基于网络搜索和社交媒体数据预测新冠肺炎疫情的可能性分析，中国，2020。欧洲监测2020年3月25日(10):2000199 [免费全文] [CrossRef] [Medline］
侯赛因，福阿德，苏东。谷歌搜索趋势在传染病管理中风险沟通的应用——以台湾新冠肺炎疫情为例Int J infectious Dis 2020 Jun;95:221-223 [J]免费全文] [CrossRef] [Medline］
Effenberger M, Kronbichler A, Shin JI, Mayer G, Tilg H, Perco P. COVID-19大流行与互联网搜索量的关联:谷歌趋势分析。国际传染病杂志;2020年6月2日;免费全文] [CrossRef] [Medline］
Pekoz EA, Smith A, Tucker A, Zheng Z. COVID-19症状网络搜索激增先于当地住院人数激增。SSRN。预印本于2020年4月30日在线发布。［CrossRef］
袁旭，徐娟，Hussain S，王宏，高楠，张磊。美国新冠肺炎日新增病例和死亡病例的趋势与预测:基于互联网搜索兴趣的模型。探索Res假设医学2020年4月18日;5(2):1-6 [免费全文] [CrossRef] [Medline］
希金斯TS，吴AW，夏尔马D，艾琳EA，鲁贝尔K，廷JY，鼻涕力联盟。在线搜索引擎趋势与冠状病毒疾病(COVID-19)发病率的相关性:信息流行病学研究JMIR公共卫生监测2020年5月21日;6(2):e19702 [免费全文] [CrossRef] [Medline］
吕涛，李斯碧。互联网搜索模式揭示了32个国家COVID-19疾病进展和大流行传播的临床过程。medRxiv。预印本于2020年9月16日在线发布。［CrossRef］
关于谷歌趋势数据的常见问题。趋势有所帮助。URL:https://support.google.com/trends/answer/4365533?hl=en[2020-09-06]访问
Jimenez A, Santed-Germán MA, Ramos V.谷歌西班牙搜索和自杀率，2004-2013:相关性研究。JMIR公共卫生监测2020年4月13日;6(2):e10919 [免费全文] [CrossRef] [Medline］
cansancio -sociedad -探索。谷歌趋势。URL:https://trends.google.com/trends/explore?date=2020-02-20%202020-05-20&geo=ES&q=cansancio%20-sociedad[2020-11-25]访问
冠状病毒，COVID - 19, COVID - 19, covid19 -探索。谷歌趋势。URL:https://trends.google.com/trends/explore?date=2020-02-20%202020-05-20&geo=ES&q=coronavirus,COVID%2019,covid%2019,covid19[2020-11-25]访问
diarrea -探索。谷歌趋势。URL:https://trends.google.com/trends/explore?date=2020-02-20%202020-05-20&geo=ES&q=diarrea[2020-11-25]访问
dolor de garganta -探索。谷歌趋势。URL:https://trends.google.com/trends/explore?date=2020-02-20%202020-05-20&geo=ES&q=dolor%20de%20garganta[2020-11-25]访问
纤维-探索。谷歌趋势。URL:https://trends.google.com/trends/explore?date=2020-02-20%202020-05-20&geo=ES&q=fiebre[2020-11-25]访问
肺炎-探索。谷歌趋势。URL:https://trends.google.com/trends/explore?date=2020-02-20%202020-05-20&geo=ES&q=neumonia[2020-11-25]访问
perdida olfato -探索。谷歌趋势。URL:https://trends.google.com/trends/explore?date=2020-02-20%202020-05-20&geo=ES&q=perdida%20olfato[2020-11-25]访问
tos -opensigma -rap -探索。谷歌趋势。URL:https://trends.google.com/trends/explore?date=2020-02-20%202020-05-20&geo=ES&q=tos%20-opensigma%20-rap[2020-11-25]访问
新型冠状病毒肺炎卡洛斯三世国家中心Epidemiología。URL:https://cnecovid.isciii.es/covid19/#documentaci%C3%B3n-y-datos[2020-05-24]访问
检验零假设:卡尔·波普尔被遗忘的遗产?体育科学2013;31(9):919-920。［CrossRef] [Medline］
GeneralMills/pytrends:用于谷歌Trends的伪API。GitHub。URL:https://github.com/GeneralMills/pytrends[2020-09-12]访问
Información científica-técnica, enfermedad por coronavirus, COVID-19。Coordinación紧急卫生中心部长。URL:https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov-China/documentos/ITCoronavirus.pdf[2020-06-10]访问

‎

CNE:国家中心Epidemiología

聚合酶链反应:聚合酶链反应

RSV:相对搜索量

编辑:G·艾森巴赫，R·库卡夫卡;提交14.08.20;A Husnayain, A Rovetta同行评审;对作者23.08.20的评论;修订版本收到13.09.20;接受26.10.20;发表18.12.20

©Alberto Jimenez Jimenez, Rosa M Estevez-Reboredo, Miguel A Santed, Victoria Ramos。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2020年12月18日。

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

西班牙COVID-19症状相关谷歌搜索与当地COVID-19发病率:相关性研究