卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J医学网络杂志

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析

加拿大多伦多

v22i5e19421

32452804

10.2196/19421

原始论文

利用社交媒体上的症状和诊断报告预测中国大陆COVID-19病例数:观察性信息监测研究

Eysenbach

冈瑟

梁

海

傅

King-wa

刘

埃里克

Basch

科里

沈

Cuihua

博士学位 1

https://orcid.org/0000-0003-1645-8211

程ydF4y2Ba

Anfan

博士学位 2

https://orcid.org/0000-0002-7406-0415

罗

程ydF4y2Ba

妈 3.

https://orcid.org/0000-0002-9736-0533

张

(

博士学位 1 4

https://orcid.org/0000-0003-1733-6857

冯

薄

博士学位 1

https://orcid.org/0000-0002-7045-6455

廖

王

博士学位 1

通讯系加州大学戴维斯分校

盾士大道一号

戴维斯、钙、

美国 1 5307520966 wngliao@ucdavis.edu

https://orcid.org/0000-0001-6192-0837

1 通讯系加州大学戴维斯分校

戴维斯,

美国 2 科学传播与科学政策系中国科学技术大学

合肥

中国 3. 新闻与传播学院“，清华大学

北京

中国 4 公共卫生科学系加州大学戴维斯分校

戴维斯,

美国

通讯作者:王辽 wngliao@ucdavis.edu

5 2020

28 5 2020

22 5

e19421

16 4 2020 8 5 2020 18 5 2020 25 5 2020

©沈翠华，陈安凡，罗晨，张婧雯，冯波，廖旺。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 28.05.2020。

2020

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布，该协议允许在任何媒体上不受限制地使用、分发和复制，前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物链接，以及版权和许可信息。

背景

冠状病毒病(COVID-19)已影响到全球200多个国家和地区。这种疾病给公共卫生系统带来了非同寻常的挑战，因为筛查和监测能力往往严重有限，特别是在疫情暴发初期;这可能加剧疫情的爆发，因为许多患者会在不知情的情况下感染他人。

客观的

这项研究的目的是收集和分析中国流行的类似twitter的社交媒体网站微博上与COVID-19相关的帖子。据我们所知，这项信息监测研究使用了迄今为止最大、最全面和最精细的社交媒体数据来预测中国大陆的COVID-19病例数。

方法

我们建立了一个2.5亿人的微博用户池，大约是整个月活跃微博用户总数的一半。使用167个关键词的综合列表，我们从2019年11月1日至2020年3月31日的用户池中检索和分析了约1500万篇与covid -19相关的帖子。我们开发了一个机器学习分类器来识别“病贴”，用户在病贴中报告自己或他人与COVID-19相关的症状和诊断。然后，我们使用官方报告的病例数作为结果，根据每日病例数估计了生病岗位和其他COVID-19岗位的格兰杰因果关系。对于带有地理标记的帖子的子集(占所有检索到的帖子的3.10%)，我们还对最初爆发的中心湖北省和中国大陆其他地区分别运行了预测模型。

结果

我们发现，COVID-19的症状和诊断报告显著预测了长达14天的每日病例数，而其他COVID-19帖子没有类似的预测能力。对于有地理标记的帖子子集，我们发现预测模式对湖北省和中国大陆其他地区都成立，无论卫生保健资源的不平等分布和暴发时间。

结论

可以有效利用公共社交媒体数据来预测感染病例，并为及时应对提供信息。研究人员和疾病控制机构应该密切关注与COVID-19有关的社交媒体信息圈。除了监控整体搜索和发布活动外，利用机器学习方法和对信息共享行为的理论理解是一种有前途的方法，可以识别真实的疾病信号，提高信息监控的有效性。

新型冠状病毒肺炎 SARS-CoV-2 新型冠状病毒传染性疾病社交媒体微博中国疾病监测监测 infoveillance infodemiology

简介

自2019年12月中国湖北省武汉市爆发冠状病毒病(COVID-19)以来[ 1， 2，新型冠状病毒已影响到全球200多个国家和地区。截至2020年5月16日，新冠肺炎确诊病例超过400万例，死亡病例超过30万例[ 3.]。在诸多未知因素的影响下，实验室检测能力严重不足、病例报告延误、各地COVID-19应对措施不一、沟通不协调，给监测疫情动态、制定政策和有针对性的资源分配干预措施带来了巨大挑战。

当传统的疾病监测能力有限时，可公开获得的社交媒体和互联网数据可在发现新出现疫情的隐藏动态方面发挥关键作用[ 4]。数字疾病监测的研究，也称为信息监测或信息流行病学，在有用地利用互联网数据跟踪公众关注、情绪和健康的实时发展方面显示出巨大的希望[ 5- 8]。具体来说，基于互联网搜索和社交媒体活动的数据可以即时预报和预测疾病流行情况，作为各种传染病常规监测方法的补充[ 5- 7， 9- 14]。

数字疾病监测最著名的例子之一是谷歌流感趋势，它使用实时谷歌搜索词预测流感的临床发病率，初步取得了巨大成功[ 13， 14]。来自推特等社交媒体平台的数据也被证明可以有效地预测和跟踪各种流行病，如流感[ 10， 12]和寨卡病毒[ 15，都取得了不同程度的成功。然而，数字监控数据带来了独特的挑战。例如，在2008年发布后，谷歌流感趋势随着时间的推移变得越来越不准确，持续高估2011-2013年的流感流行率。预测错误的部分原因是人们搜索行为的改变，以及公众对疫情本身的关注增加，这推动了与疾病发病率无关的与意识相关的搜索查询[ 7， 16]。与聚合搜索查询相比，用户生成的社交媒体数据具有更直接和更细粒度的优势，允许研究人员挖掘特定内容，以反映实际疾病。然而，媒体对新发疾病的关注可能会助长社交媒体活动，导致铺天盖地的讨论，淡化了实际感染病例的真实疾病信号;因此，预测的准确性较低[ 12]。

COVID-19的规模和传播速度前所未有，人们将自己隔离在家中，以打破感染链，引发了大规模的社交媒体活动[ 17]。大量的社交媒体数据不可避免地包含大量噪音(例如，公众的反应和对疾病的认识)，这可能会对疾病预测产生反效果。一些早期的信息监测研究跟踪了中国最受欢迎的公共社交媒体网站微博上关于COVID-19和患者特征的公众讨论[ 18- 21]。两项研究表明，与covid -19相关的微博帖子和搜索查询可用于预测疾病患病率[ 19， 22]。然而，这些研究依赖于粗粒度的社交媒体数据和基于疫情开始时具有较短时间窗口的几个关键词的查询数据[ 19， 22]。因此，这些研究的预测准确性和结果可解释性受到上述信息监测研究同样的缺陷的限制。有很多理由在社交媒体上搜索和讨论COVID-19，特别是因为该疾病得到了大量媒体报道，而且许多国家都处于强制封锁状态。因此，为了更准确地预测感染病例并为快速应对提供信息，关键是要使用粒度和具体的社交媒体数据来识别可靠的疾病信号(即报告症状和诊断的“病帖”)。

在这里，我们提出了一项信息监测工作，以收集和分析微博上与COVID-19相关的帖子，并确定可以预测中国大陆COVID-19病例数的特定类型的微博帖子。据我们所知，该研究涉及的中文新冠肺炎相关社交媒体数据收集规模最大、最全面、粒度最细，远远超过了类似研究的规模、粒度和时间跨度[ 19， 22]。我们建立了一个2.5亿人的微博用户池，大约是活跃微博用户的一半[ 23]。通过一份包含167个与COVID-19相关关键词的综合列表，我们检索了2019年11月1日至2020年3月31日期间的约1500万篇社交媒体帖子。随着数据粒度的大幅提高，我们开发了一个有监督的机器学习分类器，以区分“病帖”，即个人和他人的症状或诊断报告，与其他可能稀释数据流中的疾病信号的COVID-19相关帖子。使用官方报告的病例数作为结果，我们比较了生病岗位与其他COVID-19岗位的预测能力。我们展示了病假帖子预测中国疾病预防控制中心(中国疾控中心)每天报告的病例提前14天的证据，而其他与covid -19相关的帖子的预测能力要弱得多。对于带有地理标记的帖子子集，我们发现预测模式在湖北省和中国大陆其他地区都成立。我们的工作证明了一种通过症状或诊断报告识别疾病信号的可行方法，而不是依赖于对COVID-19的一般性讨论，这对信息监测文献做出了重大贡献。

方法数据收集

本研究中使用的社交媒体数据来自中国流行的微博平台微博，该平台在2019年底拥有超过5.16亿的月活跃用户[ 23]。微博与Twitter非常相似，但后者在中国大陆被屏蔽。与Twitter不同，微博不提供对其数据库的大规模公共应用程序编程接口(API)访问。微博通过其网页界面支持基于关键词的帖子高级搜索;然而，根据微博政策，这些搜索的输出被限制在50页(或大约1000条帖子)。因此，大规模的公共数据访问是出了名的困难。

为了绕过这些限制，我们使用了一个最初建立于2018年的微博用户池，该用户池从我们之前与COVID-19无关的研究中获得的500万活跃微博用户开始[ 24， 25]。然后，我们检索了最初500万用户的关注者和关注者(二级用户)，二级用户(三级用户)的关注者和关注者，等等，直到没有发现新用户。这一滚雪球过程产生了2.5亿用户(剔除了机器人)，约占2019年所有月活跃微博用户的48.4% [ 23]，在自我报告的性别和年龄分布方面与2018年微博用户人口相似[ 26)(见图1)．

图1

我们的微博用户池的人口构成与2018年新浪微博年度用户报告中的相比。年龄以年为单位。

COVID-19帖子

遵循内容检索和分析的最佳实践[ 27，我们通过密切观察2020年1月下旬至3月每天的微博帖子，生成了一份与新冠肺炎相关的综合关键词列表。然后，我们通过搜索用户池中包含167个关键词的所有帖子来检索COVID-19帖子，这些关键词包括与疫情相关的一般术语，如冠状病毒和肺炎，以及特定地点(如“武汉”)、药物(如“瑞德西韦”)和预防措施(如“口罩”)。有关完整的关键字列表，请参见多媒体附件1(表A)。

在删除重复(即原始帖子的转发)后，我们保留了2019年11月1日(即第一批确诊病例前30天)至2020年3月31日(访问关于COVID-19的微博数据集，请参见[ 28])。

其中464,111/14,983,647个帖子(3.10%)带有地理信息标签。我们区分了湖北省内(即震中;169340/14983647;36.49%)和中国内地其他地区(294,771/14,983,647;63.51%)。

生病的帖子

我们根据医学社交媒体网站DXY.cn上发表的研究和新闻报道，将“病帖”定义为报告任何可能与COVID-19相关的症状或诊断的帖子[ 29]。我们收集了一个广泛的症状列表，包括常见的症状，如咳嗽和呼吸短促，以及不常见的症状，如腹泻。生病的帖子可以进一步分类为“内群生病的帖子”，我们将其定义为披露用户自己或直系亲属的症状或诊断的帖子，和“外群生病的帖子”，报告用户的直系亲属以外的人的症状和诊断。之所以采用先验分类，是因为人们往往对自己或直系亲属的医疗状况有第一手和更准确的信息;与此同时，他们关于家人以外的人的可靠信息要少得多，特别是在全国封锁期间。所有使用167个关键词获得但不属于这些类别的帖子都被归类为“其他COVID-19帖子”。下面我们提供了一个群内生病帖子的例子(为了简洁，我们进行了翻译和编辑):

2003年非典期间，我得了肺炎，有发热和咳嗽的症状，被怀疑感染了非典，最后住院一个多月。现在我们在2020年感染了COVID-19，我又开始咳嗽了，已经持续了一个多月。真是一团糟(发布于2020年1月29日晚上10:23)

我们还提供了一个外群病假的例子:

另一个村庄的一个人喝得太多了。他说他觉得不舒服，有感冒的症状。他的兄弟测量了他的体温，结果是38摄氏度。他的哥哥打了120，把他送到了医院。全村的人都惊呆了，大家都不敢出门。(2020年1月29日晚10:14发布)

我们使用有监督的机器学习算法从关键字检索的COVID-19帖子中识别生病的帖子。在5个月的数据收集期间，我们首先根据检索到的帖子的比例抽样了11,575个帖子。接下来，11名人工裁判标注了帖子是群内生病帖子、群外生病帖子还是其他COVID-19帖子。评委们对138个帖子进行了独立注释，并取得了较高的一致性(Krippendorff α=.945)，然后对其余的帖子进行了划分和注释。然后，使用带注释的帖子用各种算法训练机器学习模型。基于分类性能(参见表1)，我们使用随机森林算法(F1得分=0.880)选择模型。该模型将14983647个COVID-19岗位分为394,658个(2.63%)群内病假岗位、97,635个(0.65%)群外病假岗位和14491,354个(96.71%)其他岗位。由于群外病号数量较少，我们在后续分析中将群内病号和群外病号合并。

在有地理标记的COVID-19岗位(464,111/14,983,647，占检索岗位的3.10%)中，湖北有5650个病岗(1.2%)和163,690个其他岗位(35.3%);另外，26488个病位(5.7%)和268283个其他病位(57.8%)来自中国内地以外地区。然后将这些帖子数按天进行汇总。为了控制微博帖子的每日波动，我们进一步将这些数字与我们的用户池生成的所有微博帖子的每日计数进行规范化。规范化病假岗位和其他COVID-19岗位数量可解释为每100万个岗位的数量。图2总结了我们的数据收集和分类过程。

表1

机器学习模型在病假分类中的表现。

模型	F1的分数	精度	精度	回忆
决策树	0.835	0.840	0.830	0.830
额外的树	0.785	0.785	0.785	0.785
额外的树	0.878	0.881	0.885	0.885
K个最近的邻居	0.810	0.819	0.819	0.819
多层感知器	0.847	0.845	0.851	0.851
支持向量机	0.877	0.877	0.878	0.878
随机森林	0.880	0.885	0.888	0.888

图2

微博数据收集和分类程序。

COVID-19每日病例统计

我们收集了2020年5月8日中国疾控中心提供的中国内地每日新增病例。2020年1月16日，中国疾控中心官方网站开始整理数据。早期的计数来自Huang等[ 1]，并对照国家卫生健康委员会的有关通报进行验证。最终病例数据涵盖了2019年11月1日至2020年3月31日的同一时期，在此期间，首例报告的COVID-19临床病例可追溯到2019年12月1日。我们还区分了湖北内外的病例(见图3)．

值得注意的是，中国疾控中心在本研究涵盖的时间段内发布了7个版本的诊断标准，从而对病例计数进行了系统性的改变。特别是2020年2月12日，湖北省开始实施2020年2月4日发布的第五版新冠肺炎诊断标准。这导致新病例暂时激增[ 30.]。这一事件的影响在我们的分析中得到了控制，如下节所述。在对每个版本进行仔细比较后，我们得出结论，诊断标准的其他版本之间的变化相对较小，它们的发布日期似乎与病例数的突然变化没有关联;因此，我们没有对他们进行进一步的控制。

图3

2019年11月1日至2020年3月31日期间，每日微博信息和新冠肺炎确诊病例。

统计分析

我们进行了格兰杰因果检验[ 31]，以了解病岗增加是否预示新个案增加，计算公式可由以下线性模型表示:

在哪里 Ct每天的新病例数是否有差异 t从天 t -1，年代_我每天的病假岗位计数(标准化)是否有差异 t从天 t -1, 我_t 为时变二元变量，2020年2月12日湖北采用第五版诊断标准当日，二元变量为1。此二元变量控制病例计数的外生脉冲[ 32]。由于我们收集了早在2019年11月1日(2019年12月1日首次报告的COVID-19病例前30天)的微博帖子，我们能够测试多达29个滞后的此类帖子(即，米≤29)。模型进一步解释如下。

首先，使用差异评分而不是原始的新病例计数，因为原始计数的Dickey-Fuller检验不能在5%的置信水平上拒绝延迟3-29的非平稳性(即单位根的存在)(见表B) 多媒体附件1)．格兰杰因果关系既要求平稳性又要求包含自回归项。相反，迪基-富勒检验表明病例计数的差异分数是平稳的:在1%的置信水平下，1-12延迟拒绝非平稳性，在5%的置信水平下，13-29延迟拒绝非平稳性(见表B) 多媒体附件1)．Dickey-Fuller检验对病假岗位数量的平稳性及其差异得分得出了相同的结论(见表B) 多媒体附件1)．因此，我们也使用差异评分代替原始计数来减少病假计数的滞后项之间的相关性。这更清楚地确定了它们对病例计数的独立影响。简而言之，这些差异得分可以理解为前一天统计之外的“每日附加”案例或微博帖子。

第二，确定要包含的滞后项的数量(即，米在上式中)，我们在迭代添加滞后项的同时比较模型拟合统计量。模型比较表明，包含更多的滞后会不断地改善模型拟合，直到最大滞后(即29;见附表C 多媒体附件1)．然而，在包括超过20个滞后后，参数估计并没有发生质的变化(见表D和E 多媒体附件1)．出于简约性和统计能力的考虑，我们在接下来的分析中设定了20个滞后点。

最后，我们加入一个二元变量来控制2020年2月12日COVID-19诊断标准的变化，并遵循干预分析程序[ 33]。由于这种变化不太可能导致案件计数的永久变化，因此在变化之日应用了即时脉冲函数。我们还测试了允许效应在2,3,4或5天内线性衰减的模型;这些模型比瞬时脉冲模型拟合数据更差(见表F) 多媒体附件1)．

结果

采用稳健标准误差的普通最小二乘回归估计最终模型。模型中有20个滞后项，建模数据包括2019年12月1日至2020年3月31日的每日新增COVID-19病例数，以及2019年11月10日至2020年3月11日的病假岗位和其他COVID-19岗位的每日新增数量( N= 122)。

图4A总结了用标准化回归系数预测新冠肺炎病例的病假岗位的格兰杰因果关系估计(见表G) 多媒体附件1对于所有估计的参数)。特别是，日新增病案岗位(每100万个岗位中有1个病案岗位)增加的一个标准差预测了提前1-14天日新增病案增加的0.133 (95% CI 0.065-0.201)至0.275 (95% CI 0.134-0.416)标准差。包括20个病假后，调整 R² 模型的值增加了0.128，表明除了自回归项和干预效应外，病假岗位可以解释额外12.8%的每日新增病例的方差。

此外，我们使用相同的线性模型估计了其他COVID-19发帖数与每日新增病例之间的关系。图4进一步说明了标准化估计值。与病假岗位相比，其他COVID-19岗位对未来病例数的信号较弱，其标准回归系数较小。这表明，讨论了COVID-19的某些方面，但没有明确报告一个人的症状或诊断的微博帖子的预测能力低于生病的帖子。

为了证实上述结果，我们检验了湖北内外病例的病岗格兰杰因果关系(见表H) 多媒体附件1)．在湖北范围内，结果与全国格局基本一致。每日新增病位提前19天预测湖北省每日新增病例图4B.相比之下，其他COVID-19帖子有更少的可以预测新病例的滞后词。在湖北以外地区，病岗的预测模式与全国相似，但时间范围有限:病岗可以提前2至8天预测新发病例(见图4C)。

图4

滞后的格兰杰因果关系标准化估计，每日新增微博帖子(生病帖子和其他COVID-19帖子)预测每日新增病例。

讨论主要研究结果

引起COVID-19的新型冠状病毒是人类宿主中的一种新病原体。它给全世界的公共卫生系统带来了巨大的挑战，因为筛查和诊断测试必须从零开始。即使最终有了这种检测手段，检测能力也往往受到严重限制;这可能加剧疫情的爆发，因为许多患者会在不知情的情况下感染他人。基于2019年11月1日至2020年3月31日期间约1500万条与COVID-19相关的微博帖子，我们开发了一个有监督的机器学习分类器来识别“生病帖子”，用户在这些帖子中报告自己或他人的COVID-19症状和诊断。使用官方报告的每日病例数作为结果，我们的工作表明，病假岗位显著地提前官方统计数据14天预测每日病例数。这一发现证实了先前的研究，即社交媒体数据可以有效地应用于临近预报和预测新出现的传染病，如COVID-19 [ 22， 34]。

数字疾病监测的最大挑战之一是识别真实的疾病信号，特别是在面临COVID-19缓解措施导致的社交媒体活动泛滥的情况下[ 12， 34- 36]。我们发现，生病的帖子比其他COVID-19帖子具有更强的预测能力，这表明并非所有社交媒体数据都具有同样的信息量。具体来说，COVID-19严重扰乱了日常生活;由于新冠肺炎疫情，人们正在原地隔离，并越来越多地通过社交媒体与他人交流。如先前工作所示[ 18]以及在我们的数据集中，微博上与COVID-19相关的大多数讨论反映的是公众对COVID-19的认识，而不是实际的症状报告。以前的大多数研究采用了相当粗粒度的方法，主要依赖于聚合搜索查询数据或从有限的关键字搜索中检索的社交媒体数据[ 19， 22]。在我们的工作中，我们收集了最大、最全面、最细粒的中文新冠肺炎相关社交媒体数据。更重要的是，我们演示了一种使用症状和诊断报告从噪声中分离有效信号的可行方法，这对数字监控文献做出了重大贡献。

另一项重要发现是，尽管病假岗位对每日病例计数的预测能力在湖北和非湖北地区都成立，但效应大小不同。作为疫情的中心，湖北省在研究初期出现了严重的检测短缺。因此，许多湖北居民转向微博等社交媒体网站寻求检测和医疗帮助。相比之下，社交媒体求助活动在中国其他地区并不常见，那里的检测和医疗资源要充足得多。考虑到这些区域差异，我们仍然观察到病员对病例计数的预测信号，这表明病员对检测延迟的预测能力是强大的。此外，影响估计的差异表明，社交媒体数据的预测能力在不同的地理地区、不同的防范水平和疫情的不同阶段可能有所不同。基于较长时间数据监测的未来研究可以更深入地探索COVID-19社交媒体监测效果的时空变化。

我们的工作具有广泛的公共卫生影响。社交媒体监控的高速和低成本在COVID-19暴发的早期阶段尤其有用，可以在最具成本效益的时候为遏制和缓解努力提供信息。对于公共卫生基础设施不允许进行广泛筛查和诊断检测的国家和地区，社交媒体疾病监测为公共卫生机构提供了急需的信息，以模拟疫情的轨迹，并迅速决定如何分配病床、呼吸机和个人防护设备等资源。

社交媒体监控的另一个优势是，它可以在远距离进行。随着新冠肺炎疫情在全球蔓延，缺乏检测和筛查基础设施的国家将成为“黑点”，危及本国公民和整个世界。世界卫生组织等国际组织必须将这些数据纳入其疫情预测管理实践，以动员和协调救援工作，帮助抗击COVID-19。

限制

这项研究有几个局限性。首先，微博帖子是回顾性检索的，而不是实时检索的;因此，删除或审查的帖子不在我们的数据集中。然而，我们没有理由相信删除或审查在可衡量的方面有利于“病态帖子”。事实上，最近一项关于2019年12月至2020年2月微博审查的研究显示，只有1.7/1000条微博被审查;此外，这些被审查的帖子一般与政府应对COVID-19的失误有关，而不是有关症状和诊断的个别报告[ 37]。因此，我们的结果不应该受到审查的影响。第二，正如一些研究表明的那样[ 38- 40]，中国疾控中心公布的新冠肺炎确诊病例数可能低估了实际数字，部分原因是检测能力有限和无症状感染者的存在。尽管如此，这里的数据代表了确诊病例计数的最知名数据，我们的模型依赖于这些病例计数的趋势和变化，而不是实际数字。第三，要认识到，作为疾病信号的微博并非没有噪声，因为报告新冠肺炎症状的微博用户并不一定被临床诊断为新冠肺炎;微博用户可能不会说真话;微博用户可能会因为各种原因“过度报道”(多次发布自己的症状或诊断)或“少报道”(尽管有症状或诊断却不发布)。这种不准确性在用户生成的社交媒体数据中是固有的，并且广泛存在于所有信息监控研究中。然而，应该指出的是，信息监测的目标从来不是实现社交媒体帖子和临床病例之间的一对一匹配。相反，信息监控方法努力从社交媒体和互联网数据中挖掘有用的早期信号，作为传统监控措施的补充。尽管有这种噪音，我们仍然发现病位预测了COVID-19病例数，表明这一信号在反映疾病在人群中的传播方面是有效的。

结论

2019冠状病毒病等传染性疾病的威胁未来可能再次出现。在新出现的疾病暴发期间，社交媒体上的症状和诊断报告向公众发出了宝贵的警告信号。研究人员和疾病控制机构应该密切关注社交媒体信息圈。除了监控整个搜索和发布活动，筛选内容和有效地从噪音中分离真实信号是至关重要的。我们的主要发现强调了使用严格的程序和理解信息共享行为获得高质量疾病信号的重要性。基于更长期数据监测的未来研究可以更深入地探索COVID-19的时间和空间扩散。对报告信息或医疗资源限制的员额内容进行更详细的审查将有助于制定当地的疫情应对措施。

多媒体附件1

补充表。

缩写

API

应用程序编程接口

中国疾病预防控制中心

新型冠状病毒肺炎

冠状病毒病

我们感谢徐景阳、任敏伟、唐日霞、王子超、徐永艳、杨娜、金亚兰、徐秀婵、王新宇、孙瑞智、朱文辉、李一伟和赵天宇对数据注释的帮助。

CS、WL、JZ和BF参与了研究设计。AC收集了微博数据。WL、CL和AC参与了数据分析。WL、CS、CL和AC都参与了这些人物的设计和绘制。所有作者都对手稿的写作有所贡献。

没有宣布。

黄

王

李

任

赵

胡

张

风扇

徐

顾

程

余

夏

魏

吴

谢

应ydF4y2Ba

李

刘

米

肖

高

郭

谢

王

姜

高

金

问

王

曹

武汉市新型冠状病毒感染患者的临床特征

《柳叶刀》 2020 02 395 10223 497 506

10.1016 / s0140 - 6736 (20) 30183 - 5

吴

赵

年代

余

程ydF4y2Ba

王

首歌

胡

道

田

裴

元

米

张

戴

刘

王

问

郑

徐

福尔摩斯

电子商务

张

中国发现一种与人类呼吸道疾病有关的新型冠状病毒

自然 2020 2 3. 579 7798 265 269

10.1038 / s41586 - 020 - 2008 - 3

世界卫生组织 2020 05 16

2020-05-26

2019冠状病毒病疫情报告117 https://www.who.int/docs/default-source/coronaviruse/situation-reports/20200516-covid-19-sitrep-117.pdf?sfvrsn=8f562cc_2

张

沈多纳

社交网络与健康:传播、线上和线下的新发展

Annu Rev social 2019 07 30. 45 1 91 109

10.1146 / annurev - soc - 073117 - 041421

咀嚼

Eysenbach

推特时代的流行病:2009年H1N1爆发期间推特的内容分析

《公共科学图书馆•综合》 2010 11 29 5 11 e14118

10.1371 / journal.pone.0014118

21124761

PMC2993925

Eysenbach

信息流行病学和信息监测:一套新兴的公共卫生信息学方法的框架，用于分析互联网上的搜索、通信和发布行为

J医学网络杂志 2009 03 27 11 1 e11

10.2196 / jmir.1157

19329408

v11i1e11

PMC2762766

Aiello

Renson

一个

Zivich

基于社会媒体和互联网的公共卫生疾病监测

公共卫生 2020 04 02 41 101 118

10.1146 / annurev - publhealth - 040119 - 094402

31905322

巴罗斯

达根

Rebholz-Schuhmann

基于互联网的公共卫生监测(信息监测)来源的应用:系统综述

J医学网络杂志 2020 03 13 22 3. e13680

10.2196/13680

32167477

v22i3e13680

PMC7101503

查尔斯·史密斯

勒

雷诺兹

卡梅隆

妈

康威

米

刘

EHY

奥尔森

Pavlin

晶澳

Shigematsu

米

Streichert

信用证

须

科里

利用社交媒体进行可行动的疾病监测和爆发管理:系统文献综述

《公共科学图书馆•综合》 2015 10 10 e0139701

10.1371 / journal.pone.0139701

26437454

玉米饼- d - 15 - 21599

PMC4593536

崔

杨

王

胡

朱

李

霁

刘

中国社交媒体疾病监测分析

Pers Ubiquit Comput 2015 9 11 19 7 1125 1132

10.1007 / s00779 - 015 - 0877 - 5

冯

集成电路

傅

应

Schaible

郝

陈

谢霆锋

ZT型

中国社交媒体对MERS-CoV和H7N9禽流感疫情的反应

感染贫穷 2013 12 20. 2 1 31

10.1186 / 2049-9957-2-31

24359669

2049-9957-2-31

PMC3878123

Broniatowski

达

保罗

乔丹

Dredze

米

通过推特进行国家和地方流感监测:2012-2013年流感流行分析

《公共科学图书馆•综合》 2013 8 12 e83672

10.1371 / journal.pone.0083672

24349542

玉米饼- d - 13 - 35058

PMC3857320

Klembczyk

Jalalpour

米

莱文

年代

华盛顿

再保险

松树

罗斯曼

再保险

Dugas

房颤

谷歌根据急诊科流感相关就诊验证流感趋势空间变异

J医学网络杂志 2016 06 28 18 6 e175

10.2196 / jmir.5585

27354313

v18i6e175

PMC4942685

Dugas

房颤

谢长廷

莱文

老

松树

Mareiniss

Mohareb

一个

Gaydos

Perl

罗斯曼

再保险

谷歌流感趋势:与急诊科流感发病率和拥挤度指标的相关性

临床感染病 2012 02 15 54 4 463 9

10.1093 / cid / cir883

22230244

cir883

PMC3404718

麦格夫

科幻小说

布朗斯坦

霍金斯

简森-巴顿

Santillana

米

结合传统疾病监测与搜索、社交媒体和新闻报道数据预测2016年拉丁美洲寨卡病毒暴发的发病率

公共科学图书馆热带科学 2017 01 11 1 e0005295

10.1371 / journal.pntd.0005295

28085877

pntd - d - 16 - 01733

PMC5268704

激光冲

肯尼迪

王

Vespignani

一个

大数据。谷歌流感的寓言:大数据分析中的陷阱

科学 2014 03 14 343 6176 1203 5

10.1126 / science.1248506

24626916

343/6176/1203

李

张

问

王

张

王

高

段

Tsoi

乐

王

新冠肺炎疫情期间社交媒体情境信息传播特征研究——以微博为例

IEEE传输计算Soc系统 2020 4 7 2 556 562

10.1109 / tcss.2020.2980007

朱

傅

Grepin

卡

梁

冯

集成电路

2020年1月至2月中国对2019冠状病毒病有限的早期预警和公众关注:随机抽样的微博用户纵向队列

灾难医疗公共卫生准备 2020 04 03 1 4

10.1017 / dmp.2020.68

32241328

S1935789320000683

PMC7171227

李

徐

问

库莫

Purushothaman

麦基

新冠肺炎疫情早期中国社交媒体平台微博的数据挖掘与内容分析:回顾性观察性信息监测研究

JMIR公共卫生监测 2020 04 21 6 2 e18700

10.2196/18700

32293582

v6i2e18700

PMC7175787

20.

赵

程

年代

余

徐

中国公众在社交媒体上对新冠肺炎疫情的关注:观察性描述性研究

J医学网络杂志 2020 05 04 22 5 e18825

10.2196/18825

32314976

v22i5e18825

PMC7199804

黄

徐

蔡

通用电气

问

曾

李

张

霁

杨

挖掘中国COVID-19患者特征:社交媒体帖子分析

J医学网络杂志 2020 05 17 22 5 e19087

10.2196/19087

32401210

v22i5e19087

李

程ydF4y2Ba

张

米

庞

程ydF4y2Ba

从互联网搜索和社交媒体数据对预测COVID-19暴发可能性的回顾性分析，中国，2020年

欧元Surveill 2020 03 25 10 1

1560 - 7917. - 10.2807 / es.2020.25.10.2000199

32183935

PMC7078825

weibo.com 2019年度新浪微博用户报告 http://ir.weibo.com/node/7726/html

程ydF4y2Ba

苏

程ydF4y2Ba

一个

自上而下还是自下而上?社交媒体上中国民族主义的网络议程设置研究

J广播电子媒体 2019 09 20. 63 3. 512 533

10.1080 / 08838151.2019.1653104

李

罗

程ydF4y2Ba

一个

近十年来中国关于转基因生物网上讨论的演变:变化、原因和特征

科学文化 2020 01 20. 2 4 311 325

10.1177 / 209660831900200406

weibo.com 2019 2018年度新浪微博用户报告。中文网页 https://data.weibo.com/report/reportDetail?id=433

花边

年代

沃森

Riffe

洛夫乔伊

内容分析中的问题和最佳实践

大众通讯杂志Q 2015 09 28 92 4 791 811

10.1177 / 1077699015607338

胡

黄

程ydF4y2Ba

一个

毛

arXiv 2020 05 21

2020-05-26

微博- cov:来自微博的大规模COVID-19社交媒体数据集 https://arxiv.org/abs/2005.09174

太阳

程ydF4y2Ba

Viboud

基于众包数据对2019冠状病毒病暴发的早期流行病学分析:一项人群水平的观察性研究

柳叶刀手指健康 2020 04 2 4 e201 e208

10.1016 / s2589 - 7500 (20) 30026 - 1

32309796

s2589 - 7500 (20) 30026 - 1

PMC7158945

30.

中国疾病预防控制中心 2020 02 12

2020-05-26

2020年2月12日新冠肺炎疫情报告。中文网页 http://www.chinacdc.cn/jkzt/crb/zl/szkb_11803/jszl_11809/202002/t20200213_212624.html

格兰杰

CWJ

用计量经济学模型和交叉谱法研究因果关系

费雪 1969 08 37 3. 424

10.2307 / 1912791

盒子

《全球经济展望》

挑

干预分析及其在经济和环境问题中的应用

美国统计协会 1975 03 70 349 70 79

10.1080 / 01621459.1975.10480264

Box-Steffensmeier

弗里曼

希特

米

Pevehouse

社会科学的时间序列分析 2014

英国剑桥

剑桥大学出版社

Buckee

改善疫情监测和应对:大数据已死，大数据万岁

柳叶刀手指健康 2020 05 2 5 e218 e220

10.1016 / s2589 - 7500 (20) 30059 - 5

华

肖

冠状病毒(COVID-19)数据视角下的“信息大流行”与新兴问题:以中国为例

国际环境保留区公共卫生 2020 03 30. 17 7 2309

10.3390 / ijerph17072309

32235433

ijerph17072309

PMC7177854

梁

通用汽车

梁

众包数据以减轻流行病

柳叶刀手指健康 2020 04 2 4 e156 e157

10.1016 / s2589 - 7500 (20) 30055 - 8

傅

朱

世界是否忽视了媒体对COVID-19的早期预警?

J风险准备金 2020 04 24 1 5

10.1080 / 13669877.2020.1756380

Kucharski

一个

罗素

钻石

刘

埃德蒙兹

恐慌

年代

Eggo

太阳

Jit

米

芒

戴维斯

Gimma

一个

范Zandvoort

吉布斯

Hellewell

贾维斯

克利福德

年代

奎尔蒂

博斯

倪

阿伯特

年代

Klepac

Flasche

年代

COVID-19传播和控制的早期动态:一项数学建模研究

柳叶刀感染病 2020 05 20. 5 553 558

10.1016 / s1473 - 3099 (20) 30144 - 4

Imai

Dorigatti

我

科里

一个

唐纳利

莱利

年代

弗格森

帝国理工学院 2020 01 22

2020-05-26

报告2:估算武汉市新型冠状病毒(2019-nCoV)潜在病例总数 https://www.imperial.ac.uk/media/imperial-college/medicine/sph/ide/gida-fellowships/Imperial-College-COVID19-update-epidemic-size-22-01-2020.pdf

吴

梁

通用汽车

源自中国武汉的2019-nCoV疫情潜在的国内和国际传播的临近预报:一项建模研究

《柳叶刀》 2020 02 395 10225 689 697

10.1016 / s0140 - 6736 (20) 30260 - 9