JMIR公共卫生和监测-通过分析伊朗谷歌趋势数据预测COVID-19发病率:数据挖掘和深度学习试点研究

原始论文

¹伊朗德黑兰医科大学联合医学院卫生信息管理系

²麦克马斯特大学电气与计算机工程系，汉密尔顿，加拿大

^3.伊朗医学科学大学卫生管理和信息科学学院，伊朗德黑兰

⁴Shahid Beheshti医学科学大学药学院药剂学系，伊朗德黑兰

通讯作者:

Sharareh R Niakan Kalhori博士

卫生信息管理处

联合医学学院

德黑兰医科大学

3楼17号

Farredanesh Alley, Ghods St, Enghelab Ave

德黑兰

伊朗

电话:98 21 88983025

电子邮件:niakan2@gmail.com

背景:近期全球爆发的冠状病毒病(COVID-19)正在影响全球许多国家。伊朗是受影响最大的10个国家之一。搜索引擎提供了来自人群的有用数据，这些数据可能对分析流行病有用。利用电子资源数据的数据挖掘方法，可以更好地了解COVID-19疫情，以管理每个国家和全球的健康危机。

摘要目的:本研究旨在预测伊朗COVID-19的发病率。

方法:数据来源于谷歌Trends网站。采用线性回归和长短期记忆(LSTM)模型估计COVID-19阳性病例数。所有模型均采用10倍交叉验证进行评估，均方根误差(RMSE)作为性能指标。

结果:线性回归模型预测发病率，RMSE为7.562 (SD为6.492)。除前一天发生率外，最有效的因素包括洗手、洗手液和消毒话题的搜索频率。LSTM模型的RMSE为27.187 (SD为20.705)。

结论:数据挖掘算法可用于预测疫情趋势。这一预测可能有助于政策制定者和卫生保健管理人员相应地规划和分配卫生保健资源。

JMIR公共卫生监测2020;6(2):e18828

doi: 10.2196/18828

关键字

冠状病毒；新型冠状病毒肺炎；预测；发病率；谷歌趋势；线性回归； LSTM；流感大流行；爆发；公共卫生

最近，中国武汉市发生了一种由冠状病毒引起的呼吸道疾病。由于这种病毒的第一例阳性病例是在2019年，因此世界卫生组织(世卫组织)将这种冠状病毒命名为冠状病毒病(COVID-19) [1］．一些假说将这种病毒的起源归因于海鲜和蝙蝠[2］．

COVID-19在全球范围内蔓延，影响到大多数国家;世卫组织于2020年3月将其定义为大流行[3.］．截至2020年3月21日，COVID-19已影响全球186个国家和地区，确诊病例超过28万例，死亡11842例[4］．伊朗是受这种病毒影响最大的10个国家之一[4］．

随着COVID-19在全球迅速传播，预测模型有助于卫生资源管理和预防规划。谷歌搜索数据是一种信息资源，其中包含预测和估计流行病的有用信息[5］．数据挖掘算法和技术是预测模型开发和数据分析的著名工具。他们可以从原始数据中提取有用的信息。6-8］．提取的知识可用于不同的领域，如医疗保健行业。最近，在医疗保健领域产生了大量数据，包括关于病人、疾病和诊断的数据。

数据挖掘中的任务分为两类:(1)处理数据一般属性的描述性任务和(2)预测任务，其中的目标是建立模型，通过使用称为训练数据的数据样本来估计从输入到输出的映射。训练过的模型可以用于预测未见输入的输出。这些技术在探索性分析中比传统的统计分析更加灵活和有效[9］．

本研究利用数据挖掘模型，从谷歌搜索数据中建立预测模型，预测伊朗COVID-19的发病率。

数据集

伊朗2020年2月15日至2020年3月18日的每日新增冠状病毒病例(日发病率)来自worlddometer网站[10］．

谷歌趋势[11在2020年2月10日至2020年3月18日期间，搜索与COVID-19相关的概念。相关概念是由作者之一提出的。创建由10个输入特征组成的数据集，包括前一天的搜索趋势、前一天的案例和目标值(当天的新案例)。计算了37天内的总条目数。特性列表显示在表1．方括号内的词是用相应的波斯语词搜索的。特性名称中的“pd”后缀表示该特性与前一天相关。

谷歌Trends不提供绝对的搜索数字，而是提供了一个名为“随着时间推移的兴趣”的衡量标准，其描述为“100的值是该术语的最高受欢迎程度”。数值为50意味着这个词的受欢迎程度降低了一半。得分为0表示该术语没有足够的数据。11];为了保持一致性，将每日新增病例的值转换为0 ~ 100之间的值。

表1。用于预测新发COVID-19病例的特征。

功能名称	描述
(电晕)_pd	“科罗娜”的兴趣搜索词在波斯语前一天在伊朗
COVID-19_pd^一个	“COVID-19”搜索词对伊朗前一天的兴趣
Coronavirus_pd	前一天伊朗对“冠状病毒”话题的兴趣
_pd杀菌出售	兴趣“防腐剂销售”搜索词在波斯语前一天在伊朗
_pd杀菌购买	兴趣的“消毒剂购买”搜索词在波斯语前一天在伊朗
(洗手)_pd	“洗手”在伊朗前一天波斯语搜索词的兴趣
手sanitizer_pd	前一天伊朗对“洗手液”话题的兴趣
Ethanol_pd	前一天伊朗对“乙醇”话题的兴趣
Antiseptic_pd	“防腐”话题的兴趣为前一天在伊朗
Cases_pd	伊朗前一天新冠肺炎发病情况
新发病例	伊朗COVID-19预测日发病率(标注)

^一个COVID-19:冠状病毒病

建模与评估

线性回归

用于预测任务的数据挖掘技术之一是线性回归。在只有一个预测器的问题中，该技术试图找到拟合的最佳直线。这条线可以将预测器和预测值联系起来。这种单预测器回归的扩展版本称为多元线性回归，用于多个预测器问题[12］．我们在这项研究中使用了这种类型的线性回归。

长短期记忆

长短期记忆(LSTM)是一种人工循环神经网络，是一种预测时间序列的有效模型，其中数据是顺序的[9］．通过将过去存储在隐藏状态中，他们可以更准确地预测输出。在这项研究中，目的是估计随着时间的推移COVID-19阳性病例的数量;由于这是一个非常适合LSTM模型的任务，我们在研究中使用了这个模型。

线性回归模型和三层LSTM模型(图1)用于预测每日新增病例。采用RapidMiner Studio 9.3.001 (RapidMiner GmbH)和Python 3.7.3 (Python Software Foundation)进行建模和评估。Tensorflow(谷歌Brain Team)和Keras (François Cholle)被用作训练LSTM模型的框架。此外，采用10倍交叉验证来评估模型的性能，并选择均方根误差(RMSE)指标进行性能评估:

特征在线性回归模型中的作用见表2．线性回归模型的RMSE为7.562 (SD为6.492)。LSTM RMSE为27.187 (SD为20.705)。LSTM模型的训练和验证损失如图所示图2．这些模型所作的预测显示在图3．

表2。线性回归模型中特征对新增日病例的影响。

功能	系数(SE)	t价值	P价值
(电晕)_pd	-1.58 (0.77)	-2.05	0。
COVID-19_pd^一个	0.27 (0.12)	2.28	03
Coronavirus_pd	1.55 (0.69)	2.26	03
【防腐销售】_pd .	-0.09 (0.11)	-0.78	无误
【购买防腐剂】_pd	0.32 (0.14)	2.33	03
[洗手]_pd	0.44 (0.15)	3.01	.006
手sanitizer_pd	-2.01 (0.50)	-4.00	<措施
防腐剂	1.52 (0.54)	2.80	.009
新cases_pd	1.03 (0.17)	6.05	<措施

^一个COVID-19:冠状病毒病

图3。COVID-19实际和预测新发病例。LSTM:长短期记忆;COVID-19:冠状病毒病

在这项研究中，我们提出使用谷歌趋势数据来预测伊朗COVID-19发病率。虽然这些预测不是很精确，但它们有助于从更多的数据聚合中建立准确的模型。

线性回归模型的特征效应显示，除前日新增病例外，洗手液、洗手液和消毒话题是人群关注的焦点。由此可以推断，人们的担忧在增加，他们在寻求预防性的解决方案。预测的滞后可能源于其他国家的发病率。换句话说，在听到其他国家的疫情消息后，人们可能会更加敏感，更积极地参与自己的医疗保健。该模型可用于其他类型的干预，如评估个人的意识和参与。卫生当局可以使用这些数据来衡量信息传播对人群的影响，并从搜索统计数据中获得反馈。

LSTM模型在训练损失较低的情况下，表现出褶皱的波动性能。这表明LSTM模型由于训练数据量有限而存在过拟合。但LSTM模型训练误差较低，可以提取数据中的模式。因此，我们认为通过增加训练数据量，LSTM模型可以在这项任务中优于其他模型。此外，由于每次试验折叠中只有少量样本(4个实例)，并且随后RMSE变化较大，因此对LSTM模型进行了3次交叉验证，得到的RMSE为13.45 (SD 7.90)。

例如，过去在流感和寨卡病毒预测方面的工作，在Santillana等人的研究中[132015年，他提出了一种机器学习方法来预测美国的流感。在他们的研究中，作者使用了谷歌搜索数据、推特数据、医院访问记录和监控系统。他们提供了多个估计，以得到一个公正和更准确的预测。他们还表明，社交媒体包含有效预测疾病发病率的重要信息。

2017年，McGough等人[14他还提出了利用与寨卡病毒相关的谷歌搜索、Twitter微博和数字监控系统来预测寨卡病毒的系统。他们还表明，基于互联网的资源对于预测每周的寨卡病例是有用的。在2016年的另一项相关研究中，Majumder等[15]使用HealthMap监测数据和谷歌Trends预测哥伦比亚寨卡病毒病例[15并表明数字监测数据可能对预测寨卡病例有用。此外，在2017年，Teng等[16]利用谷歌Trends的搜索数据提出了寨卡病毒的预测模型，并使用自回归综合移动平均建立模型。他们发现寨卡病毒相关搜索和寨卡病毒病例之间存在很强的相关性。为了预测流感的发病率，在开发“易感暴露于传染性恢复物(SEIR)”流行病学模型时，考虑了社会环境因素[17］．该模型支持决策者将大众媒体和气候因素纳入经典流行病模型。另一项研究强调了环境因素对流感预测模型发展的重要性[18］．这些研究的结果以及我们的研究表明，互联网资源可能有助于大流行预测。

与传统数据源相比，易于获取的谷歌搜索数据是一种更具动态性和可用性的数据源。它可以代表人口在多个时期的思想、关注点、状况和需求。这项研究的主要优势是首次利用这些数据预测了新冠肺炎的流行病学。

相比之下，本研究的一个主要限制是对谷歌搜索数据的有限访问。由于谷歌Trends只是提供了基于“兴趣”度量的数据，如果研究人员可以获得绝对搜索频率，则可以建立更准确和信息更丰富的模型。值得一提的是，我们使用了一些与COVID-19相关的关键词来提取谷歌的搜索频率;所选择的关键字可能是不完整的，进一步的研究可以旨在确定最相关的关键字集。此外，未来的研究应该结合其他数据来源，如社交媒体信息、人们与COVID-19特别呼叫中心的联系、大众媒体、环境和气候因素、筛查登记等。此外，在更广泛的背景下，可以对其他国家甚至全球做出这样的预测。

总之，数据挖掘模型可以帮助政策制定者和卫生管理人员规划卫生保健资源和控制流行病爆发的预防。在疫情暴发的早期阶段，研究人员合作分析数据，获得高质量和及时的数据，可能对卫生保健资源规划产生积极影响。

利益冲突

没有宣布。

郭勇，曹强，洪志，谭勇，陈松，金华，等。2019冠状病毒病(COVID-19)暴发的起源、传播和临床治疗——最新情况。Mil Med Res 2020年3月13日;7(1):11 [免费全文] [CrossRef] [Medline]
Giovanetti M, Benvenuto D, Angeletti S, Ciccozzi M.意大利前两例2019-nCoV:它们来自哪里?中国医学病毒杂志2020年5月;92(5):518-521。［CrossRef] [Medline]
卢荣，赵鑫，李娟，牛鹏，杨波，吴华，等。2019新型冠状病毒的基因组特征和流行病学:对病毒起源和受体结合的影响。柳叶刀2020年2月;395(10224):565-574。［CrossRef]
Prathap L, Jagadeesan V, Suganthirababu P, Ganesan D.在线健康与相关科学杂志，2017。女性乳腺癌人群中定量、定性皮纹变量与DNA多态性的关系https://www.ojhas.org/issue62/2017-2-2.pdf[2020-04-07]访问
杨松，杨春梅，寇春生。基于ARGO的谷歌搜索数据对流感流行的准确估计。Proc Natl Acad Sci U S A 2015年11月24日;112(47):14473-14478 [免费全文] [CrossRef] [Medline]
ACM SIGKDD探索通讯，2000年1月1日。数据库中的知识发现:概述https://dl.acm.org/doi/10.1145/846183.846197[2020-04-07]访问
rush J, Ramachandran R, Nair U, Graves S, Welch R, Lin H. ADaM:科学家和工程师的数据挖掘工具包。计算机与地球科学，2005 Jun;31(5):607-618。［CrossRef]
张志刚，张志刚。基于数据挖掘分类技术的心脏疾病预测系统的改进研究。国际医学杂志2012 6月30日;47(10):44-48。［CrossRef]
递归神经网络(RNN)和长短期记忆(LSTM)网络基础。物理学D:非线性现象2020年3月;404:132306。［CrossRef]
哈格·A，易卜拉欣·哈利勒·A，埃尔扎赫德·E，阿卜杜勒哈米德·M.沙尔基亚省乳腺癌患者指纹图谱的研究，病例对照回顾性临床研究。扎加齐格大学医学杂志2018年1月1日;24(1):66-71。［CrossRef]
Tahergorabi Z, Moodi M, Mesbahzadeh B.乳腺癌:可预防的疾病。Birjand医科大学学报2014;21(2):126-141。
王永明，王永明。环境影响报告。切尔西:MI Lewis出版社;2006.
桑蒂兰娜M，阮AT, Dredze M，保罗MJ, Nsoesie EO, Brownstein JS。结合搜索、社交媒体和传统数据源来改善流感监测。公共科学图书馆计算生物学2015年10月29日;11(10):e1004513 [免费全文] [CrossRef] [Medline]
McGough SF, Brownstein JS, Hawkins JB, Santillana M.结合传统疾病监测与搜索、社交媒体和新闻报道数据预测2016年拉丁美洲寨卡病毒发病率PLoS Negl Trop 2017年1月13日;11(1):e0005295 [免费全文] [CrossRef] [Medline]
Majumder MS, Santillana M, Mekaru SR, McGinnis DP, Khan K, Brownstein JS。利用非传统数据源近实时估计2015-2016年哥伦比亚寨卡病毒疾病爆发期间的传播动态。JMIR公共卫生监测2016年6月1日;2(1):e30 [免费全文] [CrossRef] [Medline]
滕勇，毕达，谢刚，金勇，黄勇，林斌，等。基于谷歌趋势的寨卡流行动态预测。PLoS One 2017 1月6日;12(1):e0165085 [免费全文] [CrossRef] [Medline]
Niakan Kalhori S, Ghazisaeedi M, Azizi R, Naserpour A.大众媒体和环境因素对美国中西部流感病毒传播的影响研究。公共卫生2019年5月;170:17-22。［CrossRef] [Medline]
Naserpor A, Niakan Kalhori SR, Ghazisaeedi M, Azizi R, Hosseini Ravandi M, Sharafie S.伊朗传统流感流行模型的环境参数修正。Healthc Inform Res 2019年1月;25(1):27-32 [免费全文] [CrossRef] [Medline]

‎

COVID-19:冠状病毒病

LSTM:长短期记忆

RMSE:均方根误差

西:易感暴露于传染病康复

人:世界卫生组织

G·艾森巴赫(G Eysenbach)编辑;提交21.03.20;S Facente, G Fagherazzi的同行评审;对作者25.03.20的评论;订正版本收到26.03.20;接受01.04.20;发表14.04.20

©Seyed Mohammad Ayyoubzadeh, Seyed Mehdi Ayyoubzadeh, Hoda Zahedi, Mahnaz Ahmadi, Sharareh R Niakan Kalhori。最初发表于JMIR公共卫生与监测(http://publichealth.www.mybigtv.com)， 2020年4月14日。

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息，http://publichealth.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

通过分析伊朗谷歌趋势数据预测COVID-19发病率:数据挖掘和深度学习试点研究