这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息,http://publichealth.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。
卫生机构越来越多地采用社交媒体传播信息,与公众互动,了解公众舆论。其中,美国疾病控制与预防中心(CDC)是第一批在突发卫生事件和危机期间采用社交媒体的美国政府卫生机构之一。2016年寨卡疫情期间,该公司一直活跃在推特上,该疫情导致美国国内5168例非先天性病例。
这项研究的目的是量化CDC在整个寨卡疫情期间的推特活动、被定义为转发和回复的公众参与以及寨卡病例数的时间变量。然后比较这3个数据集的模式,以确定国内寨卡病例数、疾病控制与预防中心在推特上的回应和公众参与这一主题之间可能存在的差异。
2016年cdc发起发布的所有推文以及相应的转发和回复都来自67个cdc相关的推特账户。2016年每个季度对国内寨卡病例数、CDC推文活动以及CDC发起推文的公众参与进行了单变量和多变量时间序列分析。
2016年第一季度,当美国50个州和地区的寨卡病例数较低时,CDC发布了84.0%(5130/6104)的寨卡推文(分别只有560/5168,10.8%病例和662/ 38885,1.70%病例)。虽然寨卡病毒病例数在第二和第三季度急剧增加,但疾控中心在Twitter上的努力大幅减少。基于自回归综合移动平均模型的结果,CDC发起的推文中公众参与的时间序列在不同季度和原始CDC推文中普遍存在差异。在第二季度,疾病控制与预防中心的原始推文和公众参与与寨卡病毒病例数的相互信息最高。此外,公众对CDC原始推文的参与与实际的寨卡病例数有很大的相关性,并先于实际病例数。
疾病预防控制中心关于寨卡病毒的原始推文、这些推文中的公众参与和实际寨卡病毒流行之间存在相当大的差异。2016年不同季度的差异模式也有所不同。疾控中心在寨卡病毒的早期预警方面要积极得多,尤其是在2016年第一季度。与CDC在今年晚些时候发布的原始推文数量相比,公众参与CDC原始推文的数量更能预测寨卡病毒的实际流行。
世界卫生组织(卫生组织)指出,健康是最基本的人权之一[
许多政府机构和卫生官员(如世界卫生组织和美国疾病控制与预防中心,以及其他地方卫生部门)也采用和利用社交媒体传播信息,与公众沟通,了解公众的意见和关切,特别是在突发卫生事件和危机期间。欧洲已为流感制定了基于网络的媒体和危机沟通框架[
显然,对于许多传染病流行而言,已证明社交媒体上的网络讨论可以成为疾病实际严重程度的必要指标,并帮助卫生官员在实际病例数仍在收集和核实时更准确地评估时效性强的疫情[
2016年寨卡疫情为调查和评估CDC在社交媒体上的作用和反应提供了一个很好的机会。寨卡病毒是一种相对较新的传染病,通过多种传播途径感染男女、胎儿和婴儿。然而,普通大众通常对此知之甚少。2016年,寨卡病毒在美国50个州和华盛顿特区造成了5168例确诊的非先天性病例,在美国领土上的病例数量要高得多[
尽管疾病预防控制中心在网络上有突出的存在和努力,但关于寨卡病毒的不准确信息在社交媒体上激增,并大大超过了疾病预防控制中心(以及其他合法来源,如世界卫生组织)[
因此,在量化和理解寨卡疫情、疾控中心在社交媒体(Twitter)上的动态响应、公众对疾控中心努力的参与之间的相互作用方面,以及在寨卡疫情不同阶段这些层次之间的潜在差异方面,存在着巨大的知识鸿沟。更具体地说,cdc最初发起的关于寨卡病毒的推文代表了政府机构对寨卡病毒流行的回应。对疾控中心原始推文的转发和回复量化了推特上关于寨卡病毒的讨论中的公众参与度。在2之间,转发通过向其他用户回复信息来增强与寨卡病毒相关的新闻和信息话语,而回复则意味着对该主题进行更深入的认知加工,并有助于与CDC的直接互动[
为了解决这些问题,本研究旨在量化美国疾病控制与预防中心在推特上的反应,以及2016年寨卡疫情不同阶段的相应公众参与。然后,我们使用时间序列分析和信息论测量来识别它们之间的潜在差异。从这项研究中获得的结果和见解将揭示疾病预防控制中心在社交媒体上传播信息的有效性,并有助于制定更有效的基于网络的传播策略,以告知公众并打击与健康相关的虚假信息。
我们收集了2016年1月1日至2016年12月31日期间发布的所有以“Zika”为关键词的英文推文,使用Gnip推特应用程序界面。还收集了这些推文所收到的相应转发和回复。此外,2016年CDC下属67个账户的所有推文都被收集了起来。2016年美国50个州和地区的寨卡病例计数已从CDC寨卡病例报告官方网站[
从原始推文(包括与寨卡病毒相关的推文和由CDC发起的所有推文)、转发和回复(仅针对与寨卡病毒相关的CDC发起的推文)中提取了四个时间序列。此外,还获得了另外两个美国寨卡病毒病例数的时间序列(包括50个州和50个州加地区)[
CDC发布的寨卡病毒原始推文、相应的转发和回复以及寨卡病毒病例时间序列被绘制、可视化并检查了平稳性。在最初的筛选之后,我们发现原始推文、转发和回复的数量以及寨卡病毒病例的数量存在显著的时间变化。这些时间序列都不是平稳的。为了描述这种巨大的时间异质性,我们将2016年全年分为4个季度,并在每个季度内进行进一步分析。此外,我们计算了寨卡推文与CDC所有推文之间的比例,作为从CDC角度量化寨卡在各种健康相关主题中的相对重要性的衡量标准。
这些季度时间序列首先被建模为自回归综合移动平均(ARIMA)模型,以揭示任何潜在的时间特征,如线性趋势、季节性或时间自相关性[
给出了带变量的ARIMA模型的形式
我们在2016年4个季度为代表的不同阶段,使用交叉相关函数(CCF)计算了两个时间序列之间的滞后相关性,以确定和量化寨卡病例数、CDC原始推文和这些推文中的公众参与度(即转发和回复CDC推文)之间的潜在时间差异。具体来说,我们将寨卡病例数的时间序列与CDC原始推文的时间序列进行了比较,以了解CDC对疾病爆发的反应。此外,寨卡病例数的时间序列以及转发和回复的时间序列与发现的不同程度的公众参与对寨卡疫情的反应进行了比较。他们各自的ccf是针对2016年四个季度中的每个季度计算的。鉴于CDC的原始推文总是与转发和回复高度相关,我们还通过计算CDC的原始寨卡推文数量与不同阶段的转发或回复数量之间的比率来评估公众参与的动态变化。此外,我们利用Shannon熵的dirichlet -多项式伪计数贝叶斯估计来计算两个时间序列之间的互信息,这是一个比CCF更有信息量的度量,可以揭示两个时间序列之间潜在的互信息,量化CDC关于寨卡病毒的原始推文数量及其转发和回复数量是否与实际寨卡病例数具有足够的互信息。
我们分别为2016年每个季度的CDC原始推文、转发和回复构建了带有外部变量的ARIMA (ARIMAX)模型。ARIMAX模型是ARIMA模型的多元扩展,并加入了一个有效的外部变量(即
然后对单变量ARIMA模型和多变量ARIMAX模型进行比较,看看是否引入外部变量实际上通过降低AIC值来提高模型性能。在单变量时间序列分析部分建立相应的最优ARIMA模型的基础上,构建了ARIMAX模型。换句话说,ARIMAX和ARIMA模型应该完全相同
在2016年CDC发布的所有推文中,寨卡病毒是第三大健康话题,共有6000条推文(包括4000条原创推文和2000条由CDC相关推特账户转发的推文),在2016年全年中仅次于艾滋病和性传播疾病(
2016年美国疾病控制和预防中心发布的15个最热门健康话题。性传播疾病:结核病;CVD:心血管疾病;暴露前预防:暴露前预防;人乳头瘤病毒。
2016年美国疾病控制和预防中心(CDC)发布的寨卡病毒推文、相应的转发、回复和所有原创推文的时间序列。
2016年50个州/特区以及50个州/特区和地区的非先天性寨卡病毒病例。疾病控制和预防中心。
寨卡病毒毫无疑问是美国疾病控制与预防中心第一季度发布的最多的健康话题,在该季度所有推文中几乎有50.0%(3052/6104)被提及,使与艾滋病毒/艾滋病和性传播疾病相关的推文相形见绌;每个季度不同的ARIMA模型也证明了这种显著的时间异质性(见
CDC对寨卡病毒原始推文的转发和回复通常遵循类似的时间特征,其中第一季度的转发和回复数量都最大(
如
2016年不同季度的互香农信息熵,自回归综合移动平均或带外部变量模型参数的自回归综合移动平均,赤池信息准则值。
季度 | 原件+箱子 | 不加评论的转发+案例 | 回复+案例 | |
|
||||
|
共同的信息 | 0.04 | 0.01 | 0.09 |
华宇电脑(X)一个票面价值 | 2,0,3 | 2 1 3 | 2,0,2 | |
dAICb | -2.25c
|
-1.88c
|
-1.21c
|
|
|
||||
|
共同的信息 | 0.13 | 0.17 | 0.29 |
华宇电脑(X)标准 | 2 1 3 | 2 1 3 | 0,1,1 | |
dAIC | 0.96 |
-0.88c
|
1.88 |
|
|
||||
|
共同的信息 | 0.02 | 0.08 | 0.02 |
华宇电脑(X)标准 | 1,1,1 | 2 1 2 | 2 1 2 | |
dAIC | 1.95 |
1.82 |
-0.62c
|
|
|
||||
|
共同的信息 | 0.01 | 0.07 | 0.01 |
华宇电脑(X)标准 | 2,0,3 | 0 1 2 | 0,0,1 | |
dAIC | -0.59c
|
1.62 |
1.97 |
一个ARIMA(X):自回归综合移动平均(带外部变量)。
bdAIC:赤池信息标准的差异。
c负dayc值表明ARIMAX模型的性能优于相应的ARIMA模型;因此,包括寨卡病例计数可以提高模型的性能。
2016年4个季度,美国疾病控制和预防中心(CDC)原始寨卡推文、转发和回复之间的相互关联函数(CCF)。ACF:自相关函数。
对于最初的寨卡推文和寨卡病例数,在第一、第二和第四季度观察到强烈的时间相关性。在第一季度,疾病控制与预防中心关于寨卡病毒的推文比实际病例数早了大约7-10天,这表明了7、8、9和10的实质性滞后(
在转发量和寨卡病毒病例之间也观察到类似的模式(
回复与寨卡病毒病例之间的相关性也被探索和证明(
此外,我们从信息的角度计算了相互信息,以探索寨卡病毒病例与CDC在twitter上的原始寨卡推文、转发和回复之间的相互依赖关系(
互信息不考虑潜在的时间特征,如滞后或趋势。因此,我们进一步量化了是否包括寨卡病例数的外部变量可以提高ARIMA模型的性能(
此外,我们评估了寨卡病毒病例是否可能是原始CDC推文、转发和回复的格兰杰原因
2016年4个季度美国疾病控制与预防中心(CDC)原始寨卡推文与国内寨卡病例之间的交叉相关函数(CCF)。ACF:自相关函数。
2016年4个季度美国疾病控制与预防中心(CDC)寨卡推文转发量与国内寨卡病例之间的交叉相关函数(CCF)。ACF:自相关函数。
2016年4个季度美国疾病控制与预防中心(CDC)寨卡推文回复与国内寨卡病例之间的交叉相关函数(CCF)。ACF:自相关函数。
这项研究是第一次专门调查疾病预防控制中心关于寨卡病毒的推特活动的时间变异性。更重要的是,它将美国寨卡病毒病例的时间可变性与疾病控制与预防中心在社交媒体上的反应和公众参与这些社交媒体信息联系起来。总的来说,我们发现疾病控制与预防中心在2016年寨卡疫情不同阶段关于寨卡病毒、公众参与和实际疫情的推文之间存在很大差异。正如我们的研究结果所示,疾病控制与预防中心在推特上对寨卡病毒的回应与寨卡病毒的流行之间存在巨大差异。2016年第一季度,当美国寨卡病毒病例数量较低时,CDC非常积极地传播有关寨卡病毒的信息,发送了84.0%(5130/6104)的2016年所有寨卡病毒推文。美国疾病控制与预防中心及其前主任弗里登博士甚至在2016年2月16日主持了1小时的推特聊天。所有这些活动都与积极的公众参与相关,因为转发和回复也是所有领域中最高的。因此,CDC有效地对即将到来的寨卡疫情进行了早期预警,并在2016年第一季度成功获得了公众的关注。然而,当寨卡病毒病例数在2016年第二和第三季度开始急剧增加时,疾病预防控制中心的寨卡病毒相关推文大幅减少,并没有赶上寨卡病毒病例数。尽管如此,公众在社交媒体上参与寨卡病毒讨论可能受到一些其他因素的影响,如新闻来源、个人对疾病的熟悉程度,以及可能与健康无关的潜在意见领袖。 All these could be future directions to expand this study.
虽然公众参与CDC的寨卡推文(即转发和回复)在2016年第二和第三季度也大幅下降,但这与寨卡病例显著相关,这由相应的ARIMAX模型的表现所揭示(与原始ARIMA模型相比)。自7月下旬以来,佛罗里达州和2016年8月5日至21日巴西夏季奥运会期间报告了更多的病例数(包括传播病例和旅行相关病例),CDC关于寨卡病毒的推文的转发和回复再次大幅增加,表明公众对这一新兴健康问题的意识不断增强和反复出现。美国疾病控制与预防中心关于寨卡病毒的推文的动态公众参与在各个方面通常是不同的,并且在很大程度上受到并通常在寨卡病毒流行之前的影响。因此,公众参与CDC的寨卡推文通常比CDC在今年晚些时候的推文更能预测实际的寨卡疫情。
与以往使用社交媒体讨论趋势来预测和调整实际疾病动态的研究不同[
这项研究有几个局限性。首先,我们没有调查转发和回复的实际内容和用户身份。未来的一个方向是利用主题建模来研究这些信息的内容[
在这项研究中,我们关注的是CDC推文的公众参与度(即转发和回复)。然而,与所有与寨卡病毒相关的推文相比,这只代表了公众参与寨卡病毒一般性话题的相对较小的一部分。这项研究的延伸可以调查所有与寨卡病毒相关的转发和回复的时间动态,并将其与CDC寨卡病毒推文的公众参与度进行比较。同样,美国疾病控制与预防中心发布的寨卡病毒原始推文数量相对较低,尤其是在2016年第一季度之后,这可能会影响时间序列分析结果(这也是我们在本研究中选择每周而不是每天分辨率的原因)。一个潜在的补救措施是将所有与寨卡病毒相关的推文的时间动态作为未来研究的参考,并将其与疾病控制与预防中心的推文模式进行对比。
赤池信息标准
自回归综合移动平均
带外部变量的自回归综合移动平均
互相关函数
疾病控制和预防中心
赤池信息标准的差异
世界卫生组织
我们感谢北卡罗来纳大学夏洛特分校的前研究生Angat Puri和Abhijit Nair,他们帮助收集了Twitter数据并进行了初始数据清理。我们也感谢北卡罗来纳大学夏洛特分校的数据科学计划通过Gnip应用程序接口存档并提供原始Twitter数据。
没有宣布。