这是一篇基于知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首先发表在JMIR infoepidemiology上,并适当引用。必须包括完整的书目信息,到https://infodemiology.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。
自2020年初以来,这种新型冠状病毒,也被称为SARS-CoV-2,已经定义了我们的大部分生活。在此期间,世界各国实施了封锁和社会距离措施。人们的身体活动逐渐停止,而他们的在线互动增加了,因为他们转向了虚拟互动。随着交流方式的转移,信息消费也转移到了网上。管理当局和卫生机构有意将重点转移到利用社交媒体和在线平台传播事实和及时的信息。然而,这也为错误信息打开了大门,助长并加速了错误信息传染的现象。
我们对一年来与COVID-19相关的10多亿条推文进行了分析,以识别和调查普遍存在的错误信息叙述和趋势。我们还旨在描述更容易受到健康相关错误信息影响的Twitter受众,以及推动错误信息传播的网络机制。
我们利用了我们收集并公开的数据集,其中包含2020年1月至2021年4月期间与COVID-19相关的超过10亿条推文。我们通过隔离推文创建了这个更大的数据集的一个子集,这些推文包含的url域名已经被媒体偏见/事实检查确定为容易出现可疑和错误信息的内容。通过利用聚类和主题建模技术,我们确定了主要的叙事,包括健康错误信息和阴谋,这些都存在于推文的这个子集中。
我们的重点是12689165条推文的一个子集,我们确定这些推文代表了我们完整数据集中的COVID-19错误信息叙述。在分析那些分享已知可疑域名内容或宣传错误信息的推文时,我们发现出现了一些关于羟氯喹和替代药物、美国官员和政府机构以及COVID-19预防措施的关键错误信息叙述。我们进一步分析了错误信息转发网络,发现分享可疑和阴谋相关内容的用户在网络中聚集得比其他人更紧密,这支持了回声室有助于健康错误信息传播的假设。
我们总结和分析了围绕COVID-19的主要错误信息话语以及推动和参与这些话语的人。虽然错误信息并不局限于社交媒体平台,但我们希望我们的见解,特别是与健康相关的紧急情况有关的见解,将有助于为计算信息流行病学为健康监测和干预提供信息铺平道路。
随着COVID-19迫使世界上更多的地区进行封锁并采取身体距离,公众在网上寻求庇护和社区支持,以取代不再可能亲自进行的互动。社交媒体平台很快成为与COVID-19大流行有关的信息传递手段,政策制定者和医学专家利用社交媒体与公众接触,公众利用这些平台作为辩论和信息交流的论坛。
在新冠疫情时代,推特仍然是主要的交流平台之一。然而,这一平台和其他类似平台使可能对公众健康造成危害的虚假或误导性信息得以扎根。在2019冠状病毒病期间,人们越来越依赖平台作为沟通手段,这凸显了以下方面的重要性
在本文中,我们深入研究了2020年1月至2021年4月期间Twitter上关于COVID-19的一般对话和错误信息的叙述(
本文的总体思路。LDA:潜在狄利克雷分配。
我们在2020年1月大流行开始时就开始收集和整理COVID-19推特数据集,以持续实时跟踪有关冠状病毒大流行的公众话语。我们已将数据集公开供更广泛的研究界使用[
截至撰写本文(2021年7月中旬),我们的完整数据集包含从2020年1月21日到2021年7月9日(v2.55版本)的1,497,893,426条推文。我们在此提供数据集的简要概述,但有关数据集的完整描述可在其他地方找到[
这个版本(v2.45;2021年5月3日)。
关键字一个 | 跟踪自 |
冠状病毒 | 2020年1月28日 |
疾病预防控制中心 | 2020年1月28日 |
Wuhanlockdown | 2020年1月28日 |
Kungflu | 2020年1月28日 |
冠状病毒 | 2020年3月2日 |
covid | 2020年3月6日 |
covid19 | 2020年3月6日 |
sars-cov-2 | 2020年3月6日 |
COVID-19 | 2020年3月8日 |
coronapocalypse | 2020年3月13日 |
SocialDistancing | 2020年3月13日 |
shelteringinplace | 2020年3月18日 |
使曲线变平 | 2020年3月18日 |
一个我们不需要跟踪关键字的每一个排列。在撰写本文时,Twitter将所有包含该关键字的tweet作为子字符串返回,并且它不区分大小写。
本次发布(v2.45;2021年5月3日)。
语言一个 | ISOb | Tweets (N=1,443,871,621), N (%) |
英语 | 在 | 928225493 (64.29) |
西班牙语 | 西文 | 186880167 (12.94) |
葡萄牙语 | pt | 62398113 (4.32) |
法国 | fr | 44097563 (3.05) |
未定义的 | 和 | 41140188 (2.85) |
印尼 | 在 | 35683876 (2.47) |
德国 | 德 | 25970256 (1.80) |
日本 | 晶澳 | 16865989 (1.17) |
意大利 | 它 | 15697293 (1.09) |
土耳其 | tr | 14931506 (1.03) |
一个语言标记由Twitter自动检测并在tweet元数据中返回。
bISO:国际标准化组织。
为了了解Twitter上讨论的与covid -19相关的一般主题,我们确定了数据集中使用的双元图(即连续的词对)和具有相似时间使用特征的聚类双元图。
为了检索二元语义,我们首先对tweet进行标记,将所有标记都小写,并删除停止词和选择标点(包括Twitter中用于hashtag的散列符号)。例如,这条(虚构的)推文“洛杉矶县报告了数千例新的#covid病例!!将其简化为令牌序列“洛杉矶县报告了数千例新病例”;将提取所有双元数据,例如“数千例新病例”、“新病例”、“新病例”、“报告病例”等。为了避免数据稀疏性并降低计算成本,我们只关注该数据集中出现频率最高的5万个双元。我们在10,000和100,000个grams中重复了这一步骤,发现结果是一致的。我们为每个双图构建了一个时间序列向量,以表征其随时间的流行程度。这个时间序列是通过计算每周使用每个选择的重数据的次数,并通过该周使用的重数据总数对该计数进行规范化来构建的。
对于规范化的双字母使用计数,我们使用
(A)检测到的已识别聚类的形状,按每个聚类人气达到峰值的时间排序。每条线表示各自集群随时间推移的受欢迎程度。(B)与每个集群相关的10个最常用的双元图和柱状图,显示了它们在原始tweet量方面的总使用量。这11个集群是(1)对冠状病毒的一般担忧,(2)公共卫生措施,(3)黑人的生命很重要,(4)特朗普集会,(5)第一例COVID-19病例发生6个月后,(6)印度国家考试,(7)第二波COVID-19,(8)特朗普检测呈阳性,(9)疫苗开发,(10)疫苗推出,(11)COVID救济法案。
潜在狄利克雷分配[
从我们更广泛的COVID-19数据集中,我们想了解促进可疑内容和错误信息的叙述和话语类型。根据第三方服务媒体偏见/事实检查(MBFC),我们为发布的推文创建了一个数据集的子集,其中包含一个属于一个域名的URL,该域名被确定为容易发布可疑或阴谋-伪科学相关内容[
为了识别阴谋论和可疑的推文,我们使用了MBFC编制的以下2个列表:
我们还通过从完整数据集中出现的一组媒体来源中随机抽取样本,获得了一组随机选择的来源。我们称这组资料为"
MBFC还根据媒体的政治派别对媒体领域进行了分类,分为以下5个政治派别类别:左偏、左中偏、最小偏、右中偏和右偏。我们使用他们的域名列表来识别带有特定政治派别的推文。左倾和右倾的偏见来源是“中度到强烈的偏见”,可能是不值得信任的,并且可能“发布误导性的报道,并省略可能损害其原因的信息报道”[
对于我们错误信息子集中的每个用户,我们将他们共享域的次数制成表格,并确定这些域的政治偏见。这给了我们每个用户的政治倾向的一个代理。政治倾向是由大多数用户共享域的政治倾向决定的。在两种政治偏见相匹配的情况下,我们随机分配给用户一种政治偏见。任何在我们的数据集中共享一个或多个可疑或阴谋-伪科学领域(由MBFC识别)的用户都被认为参与了错误信息。这并不意味着我们错误信息子集中的用户完全或大部分共享错误信息内容。我们将分析限制在共享超过5个url的用户。
利用Twitter的转发动态,我们构建了一个网络,对我们错误信息子集中的用户进行社交网络分析。节点代表用户,链接(或纽带)代表用户之间的转发。如果用户A(转发)转发用户B(转发),那么他们的联系强度随着转发频率的增加而增加。为了可视化这个网络,我们采用了一种基于力的算法,Force Atlas [
这个转发网络是由用户的推文构建的,这些用户转发了至少一条包含MBFC归类为可疑或阴谋伪科学领域的推文。这意味着转发用户和转发用户之间的每个链接并不一定意味着转发包含错误信息域或转发用户参与错误信息域。因此,整个转发网络(包含在我们的数据集中)包括至少与错误信息域交互过一次的用户。
我们分析了来自以下3组来源的内容,每组包含250个URL域:
为了计算来自不可靠来源的新闻数量的时间趋势,我们使用标准普通最小二乘模型进行了两次多元线性回归分析。第一个模型估计了数量之间的关联
为了更好地理解不可靠消息来源的相对影响,我们研究了它们各自的受众和围绕分享这些不可靠消息来源而形成的社区。量化社区结构和特定类型信息的消费者之间的关系是很重要的,因为这些社区的强度可以表明社区中某个想法的发展潜力,并随着时间的推移成为主导。根据组织理论,表现出密集配置关系的人际网络更有可能实现其目标并保持网络结构(致力于保持在一起)。在社交网络的连通性和小世界属性方面,强联系网络也明显更加稳健[
为了量化传播关于COVID-19的不可靠信息的信息源之间的联系的相对强度,我们构建了前面定义的以下一组域的3个网络:
我们使用的集群策略基于
这涉及到与冠状病毒有关的一般推文,包括提醒“洗手”,这是预防病毒的第一个也是最重复的建议。在疫情爆发初期,即2020年1月和2月,它的受欢迎程度达到顶峰。它的受欢迎程度逐渐下降,直到2020年6月,从那时起,它的受欢迎程度一直保持在所有推文的10%左右。这一主题的流行轨迹与COVID-19疫情在全球蔓延的初始阶段密切相关。
在2019冠状病毒病期间,宣传“保持社交距离”和“待在家里”等公共卫生措施的信息很受欢迎。在实施封锁后的2020年3月和4月,这种信息的受欢迎程度达到顶峰,并在整个研究期间引起了人们的关注。虽然这个簇在时间形状上有最短的峰值,但我们注意到它绝对是所有时间点中最受欢迎的话题(
乔治·弗洛伊德、布雷欧娜·泰勒等人被杀引发了全国性的愤怒。
今年6月,前总统特朗普恢复了2020年总统竞选连任的亲自集会。由于对面对面集会的广泛担忧,集会已经停止[
在第一例COVID-19病例报告六个月后,人们仍在与大流行作斗争并在家中隔离,无法恢复正常活动。该话题还包括特朗普政府使用的反亚洲术语“中国病毒”。
这个时间集群主要与印度的NEET和JEE国家考试有关,这两项考试因COVID-19而被推迟了两次。当考试被安排在2020年9月时,这就引起了争议,而当时印度的病例正在稳步上升。
美国在2020年9月迎来了另一波COVID-19病例[
2020年10月2日,白宫宣布,前总统特朗普的冠状病毒检测呈阳性;不久之后,特朗普被送往沃尔特里德医疗中心,
到2020年11月,辉瑞和Moderna都公布了有关其疫苗的令人鼓舞的结果[
在2020年的最后几周,疫苗管理开始在美国和世界许多其他地区推广。
在报告首例COVID-19病例一年多后,世界许多地方继续在口罩和保持社交距离的要求下运作。疫苗的推出有望促进人们期待已久的恢复正常。2021年新冠肺炎经济刺激方案,即《美国救助计划法案》,最终于3月获得通过并签署成为法律,总额达1.9万亿美元[
然后,我们转向调查在COVID-19背景下传播的错误信息和可疑叙述。我们使用了我们的错误信息数据子集,其中包含带有url的tweet,其域名被认为来自阴谋-伪科学或根据MBFC的可疑来源,并利用了这两者
对于每个感兴趣的叙述,我们基于几个定义关键词过滤了错误信息数据集(
通过过滤特定的主题相关关键词,从我们的错误信息数据集中分离出与每个主题相关的tweet (N=12,689,165)。
主题一个 | 关键字 | 推文总数 |
羟氯喹和替代药物 | hcq,羟氯喹 | 368883年 |
美国官员和政府机构 | 福奇,布里克斯,疾控中心 | 1205824年 |
COVID-19预防 | 口罩、疫苗、保持社交距离、检查 | 2804985年 |
一个请注意,一条tweet可以属于多个主题,并计入该叙述的tweet总数。
可视化推文的7天移动平均值,这些推文来自一个域名,该域名已被认定为传播阴谋论-伪科学或根据媒体偏见/事实核查可疑内容。我们确定了三种主要叙述,并绘制了在下图中提到与每种叙述(羟氯喹[HCQ],美国官员和政府机构以及COVID-19预防)相关的关键词的推文数量随时间的变化。最上面的数字描绘了同样的故事,但也包括了分享阴谋——伪科学或可疑领域(我们将其概括为错误信息)的推文总量。
在大流行开始时,羟氯喹被认为是COVID-19的潜在治疗方法。然而,尽管美国食品药品监督管理局(FDA)已经发布了该药物的紧急使用授权,世界卫生组织(世卫组织)也曾在临床试验中考虑过羟氯喹,但该药物尚未被证明对新型冠状病毒有效。
羟氯喹,hcq, hcqworks,羟氯喹和早期治疗剂
covid - 19,冠状病毒和covid
逮捕,逮捕,逮捕,逮捕,政治政变,自由法西斯主义
Kag, tds, twgrp和faucifraud
ccv病毒,中国病毒和传染病
在对最流行的内容进行人工检查后,我们发现推特上的许多用户仍在传播早期和初步研究,这些研究表明羟氯喹可能是治疗COVID-19的候选药物。这些使用者中的许多人还指责安东尼·福奇医生和其他医学权威忽视了所谓的羟氯喹有效的“证据”。这些使用者还引用了俄亥俄州卫生部禁止使用羟氯喹的禁令,该禁令已宣布,但在2021年7月30日生效日期之前已被撤销。
或许不足为奇的是,美国官员和政府当局也是Twitter等在线平台上错误信息的攻击目标。考虑到我们的数据集是用英语关键词整理的,围绕主要讲英语的国家发生的事件的话语更加集中。在我们之前的工作中,我们还发现很大一部分Twitter用户位于美国。
冠状病毒,covid - 19, cdc, covid,疫苗和疫苗
福奇,火福奇,诈骗福奇,逮捕福奇,安东尼福奇
Qanon2018, qanon2020,防御者,ccpvirus,和中国冠状病毒
特朗普,中国,联合国,还有谁
用户引用了一份报告,称疾病控制和预防中心(CDC)夸大了COVID-19病例,并以此声称疾病控制和预防中心有意迫使美国人在整个夏天都处于封锁状态[
极右翼新闻媒体the Gateway Pundit的报道披露了反疫苗者小罗伯特·肯尼迪(Robert F Kennedy Jr .)的说法,他于2021年2月因传播错误信息而被禁止使用Instagram。
Gateway Pundit发表了一份报告,声称只有9210名美国人专门死于COVID-19,而其他所有死亡都与其他疾病有关[
前总统唐纳德·特朗普发布命令,要求各机构停止种族敏感性培训。
疾控中心发布了一篇关于COVID-19空气传播的帖子,然后又撤回了一篇[
美国疾病控制与预防中心发布了一份报告,调查了一小群感染了COVID-19的人。向参与者提出的问题之一是他们的口罩使用情况,超过70%的COVID-19患者报告使用口罩[
我们在错误信息数据集中发现的最后一个主要叙述侧重于COVID-19预防机制。这包括检测、疫苗、口罩和保持社交距离。许多建议和已证实的COVID-19预防策略一直并将继续成为许多争议的中心,因此受到许多错误信息的影响。本文中使用的热门话题标签可以在
covid - 19, covid, cdc,冠状病毒,covid - 19, covid - 19和fda
辉瑞、现代、疫苗、疫苗、口罩、封锁和新冠疫苗
Ccpvirus, billgates和defender
揭秘美国,汉卡隆和科学
The Gateway Pundit采访了小罗伯特·F·肯尼迪(Robert F Kennedy Jr .),他声称福奇博士将从疫苗开发中“赚到数百万美元”。这也是推动围绕美国官员和当局的活动达到高峰的原因(见2020年8月4日至2020年8月10日美国官员和政府机构部分的时间框架)。在此期间,俄亥俄州州长迈克尔·德温在接受与前总统特朗普一起参加白宫活动的筛查时,抗原检测(也称为快速检测)呈阳性。DeWine在进行了更准确的聚合酶链反应试验后,检测结果为阴性[
比尔及梅琳达·盖茨基金会已投入巨资开发小儿麻痹症等疾病的疫苗。
2020年10月2日,前总统特朗普新冠肺炎检测呈阳性,10月12日检测呈阴性[
辉瑞公司前雇员迈克尔·耶顿(Michael Yeadon)在帖子中声称,大流行在英国已经结束,不需要疫苗来克服COVID-19 [
来源,例如
在识别和描述了充斥在网络话语中的错误信息叙事之后,我们希望了解更容易受到错误信息影响的受众,以及正在被消费的错误信息的趋势。在下面的文章中,我们使用网络科学作为透镜来理解Twitter上错误信息回声室的结构和特征,并建议将其作为解释特定社区中错误信息传播的可能机制。
(A)错误信息子集内用户的政治倾向。政治倾向是由用户推文最多的领域的政治归属(由媒体偏见/事实检查决定)决定的。(B)将图表分解为前1403个账户的100个核心。
考虑到用户的政治取向和他们围绕的中心用户,我们考虑了这三种叙述是如何产生的
被标记用户的频率及其重叠。(A)他们的数字重叠。(B)他们在图4A社交网络可视化上的重叠。HCQ:羟氯喹。
更有趣的是这些话题在Twitter社交网络上的映射,如图
根据不同的分类标准,Twitter上从不可靠来源分享信息的比例很高,最高可达40% [
随着时间的推移,推特上不可靠信息的数量。来自不同来源的新闻被分享的总次数。这些点表示每周累计的值,绘制为7周移动平均线。线条反映了线性趋势,阴影区域是95%的ci。
我们观察到内容的数量大幅增加
我们考虑了用户从不可靠的资源中共享而形成的受众和社区。我们使用为每组域构建的3个域共享网络:
平均聚类系数[
网络受众分享信息的各种来源:(一)阴谋来源,红色;(B)来源可疑,绿色;(C)随机来源,蓝色。节点是作为信息源的域。如果对应的域由同一帐户共享,则在节点之间绘制链接。链接的权重量化了共享2个域信息的用户数量。每个网络由30个节点组成,从相应的源组中随机选择。
一些量化URL网络连通性的措施。
变量 | 可疑的来源 | 阴谋的来源 | 随机的来源 |
平均聚类系数 | 0.0004 | 0.00016 | 0.000006 |
相对一个平均聚类系数 | 66.21 | 27.43 | 1 |
平均链路权值 | 4.69 | 1.36 | 0.01 |
相对一个平均链路权值 | 346.69 | 103.15 | 1 |
一个相对于网络的随机源。
在本文中,我们通过分析一年多来14亿条与COVID-19相关的推文,全面概述了推特上的COVID-19公共话语。我们在这项工作中做出了几项重要贡献。
首先,利用二元图的时间聚类,我们报告了11个主要的讨论主题。除了在我们的研究期间持续引起兴趣的1个主题与一般冠状病毒相关的短语外,其余10个主题都是突发的,并与时事的进展密切相关。我们观察到两种类型的话题。第一种类型包括因集会而产生的政治话题,如乔治·弗洛伊德(George Floyd)去世后发生的抗议活动、特朗普的集会和印度的全国考试。第二类包括在网上引起重大关注的新闻事件,如特朗普检测呈阳性、疫苗更新和救助法案。这表明,观察Twitter的使用情况是一种有效的方法,可以监控公众情绪和现实世界中发生的重要事件。
然后,我们通过分析从推文中检测到的潜在主题来识别错误的信息叙述,这些推文共享的域已被确定为不可靠的媒体来源。我们发现出现了以下3个突出的错误信息叙述:羟氯喹和替代药物,美国官员和政府机构,以及COVID-19预防措施。这些故事中的每一个都经历了被提及和参与的激增,其中大多数发生在同时发生的现实世界事件的串联和响应中。
我们还通过分析转发了至少一条包含被MBFC分类为不可靠域的推文的用户的转发社交网络结构来表征错误信息的采用。我们发现,用户倾向于参与的错误信息主题与该用户的政党之间存在一致。很大一部分左倾用户专门从事COVID-19预防错误信息。右倾用户群讨论了在替代药物(如羟氯喹)以及美国官员和政府当局的背景下预防COVID-19的问题。有趣的是,我们发现右倾用户群出现了裂痕。一些用户主要只讨论了两种已确定的叙述(COVID-19预防和美国官员),而其他人则围绕这三种叙述进行了推文。
最后,也是最值得关注的一点是,我们发现,与随机来源的基线相比,与不可靠来源的接触正在以更快的速度增长。我们的研究结果表明,在社交媒体平台上的公共卫生信息领域,为了打击错误信息,仍有大量工作需要做。尽管社交媒体平台正在努力阻止错误信息的传播,并提高对错误信息存在的认识,但错误信息的危险,特别是围绕公共卫生的危险,日益明显。在我们的网络中,围绕不可靠的信息源(所谓的错误信息泡沫)形成了密集且高度联系的社区。
我们的研究强调了社交媒体平台如何帮助我们揭示错误信息的问题和后果,特别是在不可预见的全球健康危机期间。Twitter等社交媒体平台目前采用各种策略来打击错误信息,包括使用自动错误信息标签来提高人们的意识,并与第三方事实核查机构建立合作关系。我们的研究表明,尽管人们正在努力减少错误信息,但错误信息仍然是推特上的主要内容,并且在我们在在线社交平台上发现的叙述中仍然越来越普遍。我们还可以继续了解围绕共享不可靠资源而形成的各种社区。特别是,我们发现在COVID-19错误信息传播环境中存在错误信息回音室,并且主要回音室与用户的政治立场一致(由他们所接触的来源的政治倾向决定)。这对我们如何使用不可靠的域名使用具有重要意义,不仅可以识别更多易受错误信息影响的社区,还可以汇集资源并制定策略来打击这些社区中的错误信息流。
虽然我们的研究利用了大量的推特数据集,但在解释我们的研究结果时,仍然需要考虑一些限制。首先,当通过Twitter的免费API收集数据时,我们只能实时收集所有tweet的1%。即使有这样的限制,我们每天也能收集到几百万条推文。我们也只在Twitter上进行了我们的研究,发现在美国使用Twitter的是更自由和左倾的受众[
由于错误信息的不断演变,很难准确判断和标记推特上的个别故事是否是错误信息。因此,我们使用MBFC的不可靠域列表和用户决定共享的域作为错误信息和与已知不可靠源接触的代理。然而,这并不一定意味着从这些域共享的每个URL都有错误信息。
我们没有把重点放在描绘上
在本文中,我们分析了在一年多的时间里,在COVID-19大流行期间发布的超过10亿条推文和关于大流行的推文。我们描述了在更广泛的COVID-19推特话语中发生的主要讨论话题,并确定了弥漫在推特圈中的主要错误信息叙述。我们证明了围绕特定主题和叙述形成的明显的错误信息回音室,这些回音室也是政治回音室。这表明,这些回音室不仅受到错误信息叙述的驱动,还受到政治结盟的驱动。最后,我们让人们意识到推特上越来越多的不可靠内容的存在和消费,尽管目前正在努力减少错误信息的传播。
2019冠状病毒病大流行和随后世界各地的封锁迫使我们在网上进行许多形式的交流,创造了一个错误信息更容易针对更广泛受众的环境。我们希望我们的工作将为哪些社区更容易受到错误信息的影响提供有价值的见解,并为错误信息流行病领域的其他研究人员奠定基础。
应用程序编程接口
疾病控制和预防中心
美国食品药品监督管理局
潜在狄利克雷分配
媒体偏见/事实核查
世界卫生组织
HC和EF感谢安嫩伯格基金会的支持。
没有宣布。