这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。
冠状病毒病(COVID-19)已影响到全球200多个国家和地区。这种疾病给公共卫生系统带来了非同寻常的挑战,因为筛查和监测能力往往严重有限,特别是在疫情暴发初期;这可能加剧疫情的爆发,因为许多患者会在不知情的情况下感染他人。
这项研究的目的是收集和分析中国流行的类似twitter的社交媒体网站微博上与COVID-19相关的帖子。据我们所知,这项信息监测研究使用了迄今为止最大、最全面和最精细的社交媒体数据来预测中国大陆的COVID-19病例数。
我们建立了一个2.5亿人的微博用户池,大约是整个月活跃微博用户总数的一半。使用167个关键词的综合列表,我们从2019年11月1日至2020年3月31日的用户池中检索和分析了约1500万篇与covid -19相关的帖子。我们开发了一个机器学习分类器来识别“病贴”,用户在病贴中报告自己或他人与COVID-19相关的症状和诊断。然后,我们使用官方报告的病例数作为结果,根据每日病例数估计了生病岗位和其他COVID-19岗位的格兰杰因果关系。对于带有地理标记的帖子的子集(占所有检索到的帖子的3.10%),我们还对最初爆发的中心湖北省和中国大陆其他地区分别运行了预测模型。
我们发现,COVID-19的症状和诊断报告显著预测了长达14天的每日病例数,而其他COVID-19帖子没有类似的预测能力。对于有地理标记的帖子子集,我们发现预测模式对湖北省和中国大陆其他地区都成立,无论卫生保健资源的不平等分布和暴发时间。
可以有效利用公共社交媒体数据来预测感染病例,并为及时应对提供信息。研究人员和疾病控制机构应该密切关注与COVID-19有关的社交媒体信息圈。除了监控整体搜索和发布活动外,利用机器学习方法和对信息共享行为的理论理解是一种有前途的方法,可以识别真实的疾病信号,提高信息监控的有效性。
自2019年12月中国湖北省武汉市爆发冠状病毒病(COVID-19)以来[
当传统的疾病监测能力有限时,可公开获得的社交媒体和互联网数据可在发现新出现疫情的隐藏动态方面发挥关键作用[
数字疾病监测最著名的例子之一是谷歌流感趋势,它使用实时谷歌搜索词预测流感的临床发病率,初步取得了巨大成功[
COVID-19的规模和传播速度前所未有,人们将自己隔离在家中,以打破感染链,引发了大规模的社交媒体活动[
在这里,我们提出了一项信息监测工作,以收集和分析微博上与COVID-19相关的帖子,并确定可以预测中国大陆COVID-19病例数的特定类型的微博帖子。据我们所知,该研究涉及的中文新冠肺炎相关社交媒体数据收集规模最大、最全面、粒度最细,远远超过了类似研究的规模、粒度和时间跨度[
本研究中使用的社交媒体数据来自中国流行的微博平台微博,该平台在2019年底拥有超过5.16亿的月活跃用户[
为了绕过这些限制,我们使用了一个最初建立于2018年的微博用户池,该用户池从我们之前与COVID-19无关的研究中获得的500万活跃微博用户开始[
我们的微博用户池的人口构成与2018年新浪微博年度用户报告中的相比。年龄以年为单位。
遵循内容检索和分析的最佳实践[
在删除重复(即原始帖子的转发)后,我们保留了2019年11月1日(即第一批确诊病例前30天)至2020年3月31日(访问关于COVID-19的微博数据集,请参见[
其中464,111/14,983,647个帖子(3.10%)带有地理信息标签。我们区分了湖北省内(即震中;169340/14983647;36.49%)和中国内地其他地区(294,771/14,983,647;63.51%)。
我们根据医学社交媒体网站DXY.cn上发表的研究和新闻报道,将“病帖”定义为报告任何可能与COVID-19相关的症状或诊断的帖子[
2003年非典期间,我得了肺炎,有发热和咳嗽的症状,被怀疑感染了非典,最后住院一个多月。现在我们在2020年感染了COVID-19,我又开始咳嗽了,已经持续了一个多月。真是一团糟
我们还提供了一个外群病假的例子:
另一个村庄的一个人喝得太多了。他说他觉得不舒服,有感冒的症状。他的兄弟测量了他的体温,结果是38摄氏度。他的哥哥打了120,把他送到了医院。全村的人都惊呆了,大家都不敢出门。(2020年1月29日晚10:14发布)
我们使用有监督的机器学习算法从关键字检索的COVID-19帖子中识别生病的帖子。在5个月的数据收集期间,我们首先根据检索到的帖子的比例抽样了11,575个帖子。接下来,11名人工裁判标注了帖子是群内生病帖子、群外生病帖子还是其他COVID-19帖子。评委们对138个帖子进行了独立注释,并取得了较高的一致性(Krippendorff α=.945),然后对其余的帖子进行了划分和注释。然后,使用带注释的帖子用各种算法训练机器学习模型。基于分类性能(参见
在有地理标记的COVID-19岗位(464,111/14,983,647,占检索岗位的3.10%)中,湖北有5650个病岗(1.2%)和163,690个其他岗位(35.3%);另外,26488个病位(5.7%)和268283个其他病位(57.8%)来自中国内地以外地区。然后将这些帖子数按天进行汇总。为了控制微博帖子的每日波动,我们进一步将这些数字与我们的用户池生成的所有微博帖子的每日计数进行规范化。规范化病假岗位和其他COVID-19岗位数量可解释为每100万个岗位的数量。
机器学习模型在病假分类中的表现。
模型 | F1的分数 | 精度 | 精度 | 回忆 |
决策树 | 0.835 | 0.840 | 0.830 | 0.830 |
额外的树 | 0.785 | 0.785 | 0.785 | 0.785 |
额外的树 | 0.878 | 0.881 | 0.885 | 0.885 |
K个最近的邻居 | 0.810 | 0.819 | 0.819 | 0.819 |
多层感知器 | 0.847 | 0.845 | 0.851 | 0.851 |
支持向量机 | 0.877 | 0.877 | 0.878 | 0.878 |
随机森林 | 0.880 | 0.885 | 0.888 | 0.888 |
微博数据收集和分类程序。
我们收集了2020年5月8日中国疾控中心提供的中国内地每日新增病例。2020年1月16日,中国疾控中心官方网站开始整理数据。早期的计数来自Huang等[
值得注意的是,中国疾控中心在本研究涵盖的时间段内发布了7个版本的诊断标准,从而对病例计数进行了系统性的改变。特别是2020年2月12日,湖北省开始实施2020年2月4日发布的第五版新冠肺炎诊断标准。这导致新病例暂时激增[
2019年11月1日至2020年3月31日期间,每日微博信息和新冠肺炎确诊病例。
我们进行了格兰杰因果检验[
在哪里
首先,使用差异评分而不是原始的新病例计数,因为原始计数的Dickey-Fuller检验不能在5%的置信水平上拒绝延迟3-29的非平稳性(即单位根的存在)(见表B)
第二,确定要包含的滞后项的数量(即,
最后,我们加入一个二元变量来控制2020年2月12日COVID-19诊断标准的变化,并遵循干预分析程序[
采用稳健标准误差的普通最小二乘回归估计最终模型。模型中有20个滞后项,建模数据包括2019年12月1日至2020年3月31日的每日新增COVID-19病例数,以及2019年11月10日至2020年3月11日的病假岗位和其他COVID-19岗位的每日新增数量(
此外,我们使用相同的线性模型估计了其他COVID-19发帖数与每日新增病例之间的关系。
为了证实上述结果,我们检验了湖北内外病例的病岗格兰杰因果关系(见表H)
滞后的格兰杰因果关系标准化估计,每日新增微博帖子(生病帖子和其他COVID-19帖子)预测每日新增病例。
引起COVID-19的新型冠状病毒是人类宿主中的一种新病原体。它给全世界的公共卫生系统带来了巨大的挑战,因为筛查和诊断测试必须从零开始。即使最终有了这种检测手段,检测能力也往往受到严重限制;这可能加剧疫情的爆发,因为许多患者会在不知情的情况下感染他人。基于2019年11月1日至2020年3月31日期间约1500万条与COVID-19相关的微博帖子,我们开发了一个有监督的机器学习分类器来识别“生病帖子”,用户在这些帖子中报告自己或他人的COVID-19症状和诊断。使用官方报告的每日病例数作为结果,我们的工作表明,病假岗位显著地提前官方统计数据14天预测每日病例数。这一发现证实了先前的研究,即社交媒体数据可以有效地应用于临近预报和预测新出现的传染病,如COVID-19 [
数字疾病监测的最大挑战之一是识别真实的疾病信号,特别是在面临COVID-19缓解措施导致的社交媒体活动泛滥的情况下[
另一项重要发现是,尽管病假岗位对每日病例计数的预测能力在湖北和非湖北地区都成立,但效应大小不同。作为疫情的中心,湖北省在研究初期出现了严重的检测短缺。因此,许多湖北居民转向微博等社交媒体网站寻求检测和医疗帮助。相比之下,社交媒体求助活动在中国其他地区并不常见,那里的检测和医疗资源要充足得多。考虑到这些区域差异,我们仍然观察到病员对病例计数的预测信号,这表明病员对检测延迟的预测能力是强大的。此外,影响估计的差异表明,社交媒体数据的预测能力在不同的地理地区、不同的防范水平和疫情的不同阶段可能有所不同。基于较长时间数据监测的未来研究可以更深入地探索COVID-19社交媒体监测效果的时空变化。
我们的工作具有广泛的公共卫生影响。社交媒体监控的高速和低成本在COVID-19暴发的早期阶段尤其有用,可以在最具成本效益的时候为遏制和缓解努力提供信息。对于公共卫生基础设施不允许进行广泛筛查和诊断检测的国家和地区,社交媒体疾病监测为公共卫生机构提供了急需的信息,以模拟疫情的轨迹,并迅速决定如何分配病床、呼吸机和个人防护设备等资源。
社交媒体监控的另一个优势是,它可以在远距离进行。随着新冠肺炎疫情在全球蔓延,缺乏检测和筛查基础设施的国家将成为“黑点”,危及本国公民和整个世界。世界卫生组织等国际组织必须将这些数据纳入其疫情预测管理实践,以动员和协调救援工作,帮助抗击COVID-19。
这项研究有几个局限性。首先,微博帖子是回顾性检索的,而不是实时检索的;因此,删除或审查的帖子不在我们的数据集中。然而,我们没有理由相信删除或审查在可衡量的方面有利于“病态帖子”。事实上,最近一项关于2019年12月至2020年2月微博审查的研究显示,只有1.7/1000条微博被审查;此外,这些被审查的帖子一般与政府应对COVID-19的失误有关,而不是有关症状和诊断的个别报告[
2019冠状病毒病等传染性疾病的威胁未来可能再次出现。在新出现的疾病暴发期间,社交媒体上的症状和诊断报告向公众发出了宝贵的警告信号。研究人员和疾病控制机构应该密切关注社交媒体信息圈。除了监控整个搜索和发布活动,筛选内容和有效地从噪音中分离真实信号是至关重要的。我们的主要发现强调了使用严格的程序和理解信息共享行为获得高质量疾病信号的重要性。基于更长期数据监测的未来研究可以更深入地探索COVID-19的时间和空间扩散。对报告信息或医疗资源限制的员额内容进行更详细的审查将有助于制定当地的疫情应对措施。
补充表。
应用程序编程接口
中国疾病预防控制中心
冠状病毒病
我们感谢徐景阳、任敏伟、唐日霞、王子超、徐永艳、杨娜、金亚兰、徐秀婵、王新宇、孙瑞智、朱文辉、李一伟和赵天宇对数据注释的帮助。
CS、WL、JZ和BF参与了研究设计。AC收集了微博数据。WL、CL和AC参与了数据分析。WL、CS、CL和AC都参与了这些人物的设计和绘制。所有作者都对手稿的写作有所贡献。
没有宣布。