这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。
在2019冠状病毒病(COVID-19)大流行等全球卫生危机期间,社交媒体上的错误信息迅速传播。人们分析了与COVID-19相关的错误信息,但很少关注开发一个全面的分析框架来研究其在社交媒体上的传播。
我们提出了一个基于阐述似然模型的理论模型来理解社交媒体上与covid -19相关的虚假信息的说服过程。
该模型融合了中心路径特征(内容特征)和外围特征(创作者权威、社会证明和情感)。中央层面的新冠肺炎相关错误信息功能包括五个主题:医疗信息、社会问题和民生、政府应对、疫情传播和国际问题。首先,我们基于事实核查来源创建了一个与COVID-19大流行相关的错误信息数据集,以及现实社会媒体上包含这种错误信息的帖子的数据集。基于收集到的帖子,我们分析了传播模式。
我们的数据集包括11,450个错误信息帖子,其中医疗错误信息是最大的类别(n=5359, 46.80%)。此外,研究结果显示,活跃用户中最不活跃的(4660/11,301,41.24%)和最活跃的(2320/11,301,20.53%)都有分享错误信息的倾向。此外,与国际话题相关的帖子最有可能在社交媒体上产生深刻和持久的影响,它们的分布深度(最大深度=14)和宽度(最大宽度=2355)最高。97.00%(2364/2437)的传播具有辐射传播特征。
我们提出的模型和发现可以通过检测可疑用户和识别传播特征来帮助对抗错误信息的传播。
早在2020年2月15日,世界卫生组织总干事在慕尼黑安全会议上就表示:“我们不仅仅是在抗击一场流行病;同时也是一场信息大流行”[
社交媒体上错误信息的传播可能会被个人定制内容的信息竖井和回音室放大。库齐等人[
在社交媒体上,虚假信息可以定义为旨在说服其他用户的信息。说服理论认为传播者、信息内容和接收者都对沟通有影响。除了研究帖子本身,也有必要检查在社交媒体上传播错误信息的用户。为了揭示虚假信息传播者的特征,我们依靠说服理论来帮助理解虚假信息是如何在社交媒体上传播的。细化似然模型(ELM)是一种广泛使用的说服模型,根据该模型,用户通过中心路径或外围路径形成对信息的态度[
误导性信息的传播导致公众的不确定性增加,对值得信赖的消息来源缺乏信任,从而导致病毒传播加剧,遏制无效[
新冠肺炎相关虚假信息在社交媒体上传播的理论模型。
说服可以被定义为"通过改变他人的信仰、价值观或态度来影响他人的人际沟通" [
在外围路线中,信息依赖于接收方的情感参与,接收方被更肤浅的手段说服。Cialdini [
社会证明的外围证据是基于古老的同辈压力概念[
博德和弗拉加[
此外,研究人员研究了基于用户的特征,以进一步了解在社交媒体上发布或传播虚假信息的个人类型[
现有的关于错误信息传播特性的研究主要集中在时间因素上[
除了基于内容的特征外,研究表明,与经过验证的账户相比,未经验证的账户的推文包含更多的错误信息(未经验证的账户占31%,经过验证的账户占12.6%;
总之,我们在本研究中解决了现有文献中的两个潜在空白。以往的研究从多个角度研究了关于COVID-19大流行的错误信息的特征[
此前对社交媒体上与covid -19相关的错误信息的研究。
研究 | 标题 | 方法 | 数据 | 源 |
宋等人[ |
韩国政府应对新冠肺炎错误信息的对策:分析疾病管理本部网站的“事实和问题核查” | 内容分析 | 90个帖子 | 韩国疾病管理本部网站 |
库齐等人[ |
冠状病毒传播:量化推特上covid - 19错误信息的流行 | 统计分析 | 673条 | 推特 |
Ceron等人[ |
新冠肺炎时代的假新闻议程:通过事实核查内容识别趋势 | 主题分析 | 5115条 | 推特 |
秦( |
突发公共卫生事件中健康谣言的特征分析——以新冠肺炎期间的“双黄连”事件为例 | 案例分析 | 134年的标题 | 丁香园公布的新冠肺炎谣言列表 |
陈、唐[ |
突发公共事件中微博谣言传播特征分析——以新冠肺炎疫情为例 | 编码和可视化分析 | 968个帖子 | 微博谣言反驳 |
首先,我们基于事实核查来源创建了一个与COVID-19大流行相关的错误信息数据集,然后创建了另一个包含来自现实世界社交媒体平台的这种错误信息的流传帖子的数据集。基于收集到的帖子,我们进一步分析了新冠病毒虚假信息在社交媒体上的传播模式,并提出了外围层面的特征。详细的数据收集和分析程序描述在
数据收集和数据分析过程。
对公众来说,准确识别未知的错误信息是困难的,因为这需要多学科的专业知识。可以通过处理权威的不确认信息来实现对错误信息的可靠访问。例如,从反驳信息“吸烟可以预防冠状病毒感染。”这是错误的,“我们可以提取“吸烟可以预防冠状病毒感染”的错误信息。
作为权威的虚假信息来源,我们选择了三个权威的网络平台:中国互联网辟谣联合平台[
为了收集包含新冠肺炎大流行相关错误信息的传播帖子,我们从收集到的所有错误信息中提取关键词,然后创建相应的查询,在微博.cn网站上进行高级搜索。考虑到错误信息可能会被延迟和长期传播,查询搜索仅限于2019年12月1日至2021年2月2日之间的原始帖子。
为确保收集的职位准确无误,第一轮的收集工作采用半自动收集工具进行手动查询。如果检索到的有效帖子超过50个,则使用自动web爬虫执行第二轮收集,然后进行数据清理。经过两轮收集,将含有虚假信息的微博帖子与相应的虚假信息进行匹配,最终识别出11450条微博。
以往研究综述[
本研究开发的编码方案见
与COVID-19大流行相关的错误信息主题。
主题 | 插图 | 例子 |
政府响应(服务) | 交通管控、复工复学、停工停课、疫情防控等相关信息 | 据悉,武汉今天喷洒完消毒液粉后,发热患者将被送往指定医院。 |
疫情传播情况(与中国有关) | 与大流行病传播有关的信息 | 广汉家的女婿从武汉回来住了几天。这家人隐瞒了工作地址,每天都去打牌。他今天病了。邻居们非常生气,去砸了他的房子。 |
医疗信息(服务) | 有关病毒本身、感染、预防、治疗、消毒等医疗信息 | 一位医生朋友寄来的。为了应对这种新型冠状病毒,可以使用维生素C(对抗病毒)和紫锥菊(增强免疫力)的含量来预防它。 |
社会问题与民生(与中国有关) | 名人、捐赠援助、社会方面、民生方面的信息 | 国家层面的反应!所有出租的房屋、公寓、商店和工厂将在2月份免租一个月,在3月和4月免租半个月!希望所有的“房东”都能积极回应!一起克服困难 |
国际问题 | 有关其他国家回应的信息,网上政治谣言 | 日本向武汉派出了1000人的医疗队,没有戴口罩,也没有喊口号。 |
我们使用微博ID通过weibo.cn/repost/网站获取了每条微博的具体转发、点赞和评论信息。根据转发关系,我们创建了收集到的帖子的转发网络。继Avram等人之后[
包含与covid -19相关的虚假信息的帖子及其用户的特征。
类别 | 描述 | 数据类型 | |
|
|||
|
转发 | 转发的频率 | 整数 |
|
评论 | 频率的评论 | 整数 |
|
喜欢 | 喜欢的频率 | 整数 |
|
|||
|
验证状态 | 验证或不 | 验证/不验证 |
|
验证类型 | 验证类型 | 类别 |
|
Mrank | 微博会员级别 | 整数(鹿) |
|
Urank | 用户级 | 整数(0-48) |
|
|||
|
Posts_count | 数量的帖子 | 整数 |
|
Followers_count | 数量的追随者 | 整数 |
|
Following_count | 数量的追随者 | 整数 |
除了因为被屏蔽等原因而无法捕获的用户外,在微博上共收集了11301名发布了关于COVID-19的错误信息的用户。
微博的用户认证机制为不同类型的用户提供了一个证明身份的渠道。验证类型包括个人用户、政府用户、媒体用户和企业用户。用户水平作为微博用户的基本特征,在很大程度上可以代表账号的活跃程度。用户级别越高,用户越活跃。会员级别反映了用户使用微博的习惯。会员级别高的用户可以被认为是忠实用户。
除了个人资料的特征之外,互动特征(即关注者、关注者和帖子的数量)也可以表征用户在社交媒体上的权威。帖子的数量反映了用户在社交媒体平台上的参与度。拥有相当数量粉丝的用户可以与一大群人分享自己的观点[
情绪特征被认为是区分网络谣言和虚假评论的有效特征[
为了描述社交媒体上与冠状病毒相关的错误信息的流行程度,除了每个帖子的转发数量外,我们还爬取了研究上一步创建的数据集中每个帖子的详细转发信息,并收集了原始错误信息帖子的转发列表。每个帖子的转发信息包括转发原帖子的用户、转发内容、转发收到的转发数和点赞数。微博平台使用“//”符号将转发的内容划分为不同的转发级别。因此,可以根据转发内容提取每篇文章的转发级别。此外,每个帖子的传播网络可以根据相应的转发关系,通过一系列的转发来构建。因此,除了因为例如被屏蔽或删除而无法捕获的帖子外,我们为包含关于COVID-19信息的共2437个帖子构建了一个传播网络。在这些网络中,每个节点代表一个单独的帖子,而有向链接代表从源节点到转发节点的转发关系。例如,如果post A转发原始post B,则从节点B到A绘制一条边。
在构建的传播网络中,每个节点代表一个参与了与COVID-19相关的错误信息传播的帖子。基于每个原帖的网络,传播规模是指网络中节点的数量,对应于原帖的转发数量。传播深度是指原帖在网络中转发量最高的级别,而传播宽度等于网络中节点数最多的级别的节点数。
说明一个样本帖子的传播规模、深度、宽度和速度。每个节点代表一个参与传播与COVID-19有关的错误信息的帖子。
由于本研究基于公开数据,不涉及个人身份数据,因此不需要伦理批准。
为了回答第一个研究问题,我们进行了编码分析,以确定包含与covid -19相关的错误信息的帖子的内容类型/主题。共有11 450个此类帖子被归类为5个主题:政府应对(n=1021)、流行病传播(n=639)、医疗信息(n=5359)、社会问题和人民生计(n=4132)和国际问题(n=299)。最常见的主题是医疗错误信息(5359/11,450,46.80%),包括关于病毒、感染、预防、治疗和消毒的错误信息。第二受欢迎的话题是社会问题和民生问题(4132/ 11450,36.09%),尤其是与名人虚假言论有关的话题。这一类别还包括提到被驳斥的捐款的帖子。
为了区分不同主题的帖子,在图中标出了帖子的数量和相应的日期
包含错误信息的帖子数量随时间的变化。
为了回答第一个研究问题,我们还考察了收集到的帖子的社会证明特征、帖子的情感特征和发布帖子的用户的权威特征。
收集到的与新冠肺炎相关的错误信息帖子平均收到11个转发、13个评论和189个赞。的饼状图
与各种虚假信息主题相关的帖子的社会证明功能。
考虑到错误信息的话题,
与其他主题相反,传播与流行病传播有关的错误信息的帖子往往始终是负面的。特别是,有关解除封锁和交通限制的错误信息表达了非常负面的情绪,如“哈尔滨关闭了!”紧急关闭。没有任何旅行的机会。”
与各种虚假信息主题相关的帖子的情感特征。
在发布与新冠肺炎相关的虚假信息的用户中,认证用户占46.60%(5266/ 11301)。其中,认证个人用户是最主要的信息源(2475/5266,47.00%),其次是媒体用户(1159/5266,22.01%)和政府账号(1013/5266,19.24%)。未验证用户数仅比验证用户数多6.8%,占消息总数的53.40%(6035/11,301)。这表明,在检测错误信息时,是否由认证帐户发布不能作为确定信息权威的标准。
我们发现在不同主题上发布虚假信息的用户的权威特征有明显的差异。就国际问题而言,医疗信息认证用户(160/292,54.8%)的数量超过了未认证用户(132/292,45.2%),而认证用户(3160/5310,59.51%)的数量也超过了未认证用户。相比之下,关于社会问题和民生的虚假信息由非认证用户发布的比例(2586/4093,63.18%)高于认证用户(1507/4093,36.82%),关于疫情传播的虚假信息由非认证用户发布的比例(409/630,64.9%)。
在不同主题上发布错误信息的用户级和会员级分布显示在上面
下半部分
相比之下,发布有关国际问题和医疗信息的错误信息的用户比发布有关政府应对、社会问题和人民生活、疫情传播的错误信息的用户具有更高的权威。发帖数、关注者数和发布与政府响应相关的错误信息的用户关注数是五个主题中最低的,代表权限较低的用户。
用户级和会员级分布以及用户发布关于各种主题的错误信息的平均交互特征。
基于构建的2437个包含与covid -19相关的虚假信息的帖子的传播网络,我们提取了每个帖子的传播规模、深度、最大宽度、平均宽度和速度。在本研究中,最大宽度测量最宽层所涉及的节点数量,平均宽度测量所有层的平均数量。
传播模式的描述性统计。
传播的措施 | 意思是(SD) | 最大 |
规模 | 19.7 (236.03) | 7604 |
深度 | 1.5 (0.99) | 14 |
最大宽度 | 20.5 (87.82) | 2355 |
平均宽度 | 15.9 (23.74) | 688 |
速度 | 2.4 (8.20) | 96.9 |
根据结构,我们将虚假信息发帖的传播网络划分为三种主要类型:(1)辐射型传播网络,第一级传播比其他各级传播都要广;(2)扇区传播网络,传播网络中其他层次的宽度大于第一级,转发量最高的节点获得的转发量大于点赞量;(3)病毒式传播网络,传播网络中其他级别的宽度都大于第一级,点赞量最高的节点获得的点赞量比转发量多。
对岗位的审查发现,97.00%(2364/2437)是通过辐射传播网络传播的,只有0.98%(24/2437)属于部门传播网络,2.01%(49/2437)属于病毒传播网络。所示
传播模式的置信区间图。
每种传播网络类型的示例。(a)辐射传播网。(b)部门传播网。(c)病毒传播网络。
为了进一步描述在社交媒体上发布关于冠状病毒的错误信息的用户,我们利用k-means聚类算法基于用户权限特征(包括用户级别、成员级别、发帖数、关注数和关注数)对用户进行分类。为保证聚类质量,利用R中的Nbclust函数检验k的不同值,基于肘法,选择5作为最优聚类数量。
根据k-means聚类算法,将发布虚假信息的用户分为5组:普通用户、平台用户、不活跃用户、有影响力用户和混混用户。共有2342名用户被归类为普通用户,他们参与社交媒体,但不太愿意为会员付费。他们的会员水平往往较低,但用户水平较高,在帖子数和关注者数方面的表现相对正常。平台用户(包括2980名用户)的行为模式与普通用户相似,但不同的是其成员级别。他们的会员级别往往明显更高,这表明他们都积极参与社会互动,并购买会员以享受特权。最大的一组是不活跃用户,共有5652名用户在所有五个功能上出现的频率较低。相比之下,影响力用户,最小的用户群体(由101个用户组成),发布的频率比其他人更高,也收获了大量的关注者。这一组的用户倾向于保持在用户和成员级别的最高位置。最后,混入组的用户拥有比其他用户组更多的关注者,但他们发布的帖子更少。混入组226名用户的特征与Kozinets识别的特征一致[
不同类型的用户在不同主题上发布错误信息的分布如图所示
用户权限特征的散点图和相关矩阵。a:相关性在0.001的显著性水平上显著(双面);b:相关性显著,显著性水平为0.01(双侧);c:相关性显著,显著性水平为。05(双侧)。
各类用户发布与不同主题相关的虚假信息的分布情况。
我们还进行了相关分析,以检验传播网络特征是否与创建帖子的用户的权威特征显著相关。用斯皮尔曼等级相关系数来衡量创作者的权威特征与由此产生的传播网络特征之间的相关性。
从网络的角度来看,拥有众多粉丝的用户发布的消息往往在社交媒体上获得更多关注。会员级别高的用户更有可能参与社交媒体互动。类似与灾害有关的资料[
斯皮尔曼相关(
传播变量 | 文章数 | 粉丝数 | 后数 | 会员级别 | 用户级 | ||||||
|
|||||||||||
|
|
0.114 | 0.344 | 0.009 | 0.171 | 0.107 | |||||
|
|
<措施 | <措施 | .77点 | <措施 | 措施 | |||||
|
|||||||||||
|
|
0.103 | 0.349 | 0.008 | 0.17 | 0.1 | |||||
|
|
.002 | <措施 | .80 | <措施 | .002 | |||||
|
|||||||||||
|
|
0.081 | 0.345 | -0.007 | .171 | 0.096 | |||||
|
|
. 01 | <措施 | 点 | <措施 | .003 | |||||
|
|||||||||||
|
|
0.174 | 0.197 | 0.106 | 0.08 | 0.118 | |||||
|
|
<措施 | <措施 | 措施 | 02 | <措施 | |||||
|
|||||||||||
|
|
0.023 | 0.174 | -0.003 | 0.105 | 0.047 | |||||
|
|
.48 | <措施 | 公布 | 措施 | 16 |
理解人们为什么会相信错误信息的潜在心理是制定有效干预措施的关键。
引起注意的错误信息可以引发激烈的讨论,从而促进信息的传播。除了中央级别的特征外,关于与covid -19相关的错误信息的帖子的社交证据显示,这种错误信息得到了积极的回应(平均11个转发、13个评论和189个点赞)。有趣的是,与国际问题相关的错误信息占所有帖子的2.61%(299/ 11450),但获得了惊人的高关注度(平均82个转发、67个评论和713个赞),这表明涉及国际问题的错误信息往往会在社交媒体上传播开来,从而可能产生严重的后果。这与推特上的经验发现一致,与covid -19相关的阴谋性错误信息最有可能在推特上传播[
与大流行期间公众出现的负面情绪相比[
对用户配置文件特征的分析显示,用户级别和成员级别最低和最高的用户对发布错误信息的责任最大。我们的研究结果表明,最不活跃和最活跃的用户都倾向于分享错误信息。与Kouzy等人的实证结果相反[
虚假信息发布者的平均关注人数非常高(>10万),表明他们在社交媒体上拥有的可信度和社会影响力。一些以营销为导向的账号为了吸引用户,改变了真实新闻的主体内容。至于医疗方面的虚假信息,一些企业账号捏造了虚假信息(如“纳豆能灭活病毒”)来宣传他们的产品。
虚假信息帖子的平均传播尺度为19.7,平均深度为1.5,平均最大宽度为20.5。李等[
在捕捉传播网络的拓扑属性时,可以在错误信息帖子的传播中区分三种主要类型的网络:辐射型、扇形和病毒式。与Twitter上的谣言传播不同,在Twitter上,新闻通常首先由一个影响较小的用户发布,然后由一些受欢迎的用户分享。
这项研究有几个局限性。首先,我们只调查了微博上流传的关于新冠肺炎的错误信息。此外,我们还选择了“新型冠状病毒(新冠病毒)/COVID/Epidemic(疫情)”作为与COVID-19相关的关键词。然而,由于疾病术语在早期可能存在不一致,用户可能使用了本研究没有收集到的其他关键词,如武汉肺炎(武汉肺炎)和不明原因肺炎(未知原因肺炎),来描述与covid -19相关的对话或话题。因此,我们研究中确定的特征可能并不代表所有与covid -19相关的错误信息。未来的研究应该考虑其他社交媒体平台上的错误信息,以确定这些发现的稳定性。第二,我们关注中文的错误信息。其他语言关于大流行病的错误信息可能导致不同的结果,这也应在今后的工作中加以探讨。
在2019冠状病毒病大流行期间,我们目睹了假新闻和阴谋论的大规模传播,特别是在社交媒体上。本研究对社交媒体平台上传播的COVID-19错误信息进行了全面审查。
本研究的理论贡献主要体现在以下两个方面。尽管人们努力分析社交媒体平台上与新冠肺炎相关的虚假信息,但目前还没有以心理学理论为指导的综合分析框架来研究这种虚假信息,特别是与新冠肺炎相关的虚假信息。基于ELM,这项工作为理解与covid -19相关的错误信息的潜在说服过程提供了第一步。通过开发说服过程的理论模型,本研究包括一组全面的特征,以理解与covid -19相关的虚假信息在社交媒体上的传播。此外,尽管以往的研究通常将大流行错误信息的检测视为一个二元分类问题,但我们的研究结果表明,不同主题的错误信息似乎在情感、社会参与指标和发布者权威特征方面具有不同的特征。因此,本研究建议在开发错误信息检测算法和预防机制时,应考虑错误信息的具体主题。针对不同话题的虚假信息特点,制定有针对性的策略是必要的。
本研究的实际贡献有两个方面。首先,尽管人们对与covid -19相关的错误信息进行了广泛研究,但据我们所知,没有研究试图揭示在社交媒体上发布关于新型冠状病毒的错误信息的用户的综合特征。因此,本研究同时考察了虚假信息作者的档案特征和互动特征。通过揭示虚假信息发布者的特征,我们的研究结果不仅扩展了分析与covid -19相关的虚假信息的研究,而且为发现可能容易发布虚假信息的可疑用户提供了一种可能的解决方案。此外,用户的权威特征与传播网络的拓扑属性之间存在显著的正相关关系,说明权威特征可能对错误信息的传播产生影响。为了打击错误信息,我们的研究结果表明,重要的是,有影响力的用户、公共组织和新闻媒体要意识到他们有责任提供经过核实的信息,特别是在公共卫生危机期间。
表S1。社交媒体上与冠状病毒相关的虚假信息分类研究综述。
详尽可能性模型
本研究得到国家自然科学基金项目(72004091,72174083)和教育部人文社会科学基金项目(20YJC870014)的部分资助。
没有宣布。