这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。
社交媒体改变了我们的生活和交流方式,也为改善我们生活的许多方面提供了前所未有的机会,包括促进健康和预防疾病。然而,社交媒体也有阴暗的一面,它并不总是像它可能带来的好处那样明显。事实上,社交媒体也为与健康错误信息有关的新的社会和健康风险打开了大门。
这项研究旨在研究社交媒体机器人在COVID-19疫情期间的作用。
Twitter流媒体API用于在疫情爆发早期收集关于COVID-19的推文。然后使用Botometer工具来获得每个账户是否是机器人的可能性。机器人分类和主题建模技术被用于解释Twitter对话。最后,根据推文的来源比较与推文相关的情绪。
关于谈话的话题,不同的叙述之间有明显的差异。非机器人账户的内容与大流行的演变、支持和建议有关。另一方面,在自称为机器人的情况下,内容主要是新闻,如诊断测试的存在、大流行的演变和科学发现。最后,就机器人而言,其内容主要是政治性的。最重要的是,普遍的批评和反对的语气压倒一切。在情感分析方面,主要的差异与谈话的语气有关。在自称为机器人的情况下,这往往是中性的,而正常用户的对话得分是积极的。相比之下,机器人往往得分为负。
通过根据账号成为机器人的可能性对其进行分类,并执行主题建模,我们能够分割关于COVID-19的推特对话。机器人账户倾向于批评为遏制大流行而采取的措施,表达与政客的不同意见,或质疑社交媒体上分享信息的真实性。
社交媒体从根本上改变了我们的生活和交流方式。这些新的交流平台为改善我们生活的许多方面提供了前所未有的机会,包括公共卫生[
然而,社交媒体也为新的社会和健康风险打开了大门[
因此,社交媒体在COVID-19大流行期间发挥了至关重要的作用。尽管这些新平台在大流行最关键的时刻向公众提供了信息,但卫生当局抗击疫情的反应之后却出现了大规模的“信息大流行”,最近将其定义为“信息过剩——有些准确,有些不准确——使人们在需要时难以找到可靠的来源和可靠的指导”[
最近,由于所谓的“社交机器人”(即基于网络的自动账户)的出现,错误信息动态增加了其复杂性。在政治竞选和选举期间,社交机器人在社交媒体平台上传播错误信息方面的作用已被广泛认识到[
在COVID-19信息大流行的背景下,社交机器人的活动大幅增加[
数据收集从2020年3月16日开始,到6月15日结束,使用带有以下标签的Twitter流媒体API:
我们使用
除了成为机器人的总体可能性,
最后,在机器人分类的同时,我们还应用了主题建模技术。这种无监督分类方法允许对文本进行分类,使用诸如聚类等技术来查找具有相似内容的文本组。在本例中,我们使用了潜狄利克雷分配(LDA),这是一种流行的主题建模技术,它将每个文档视为各种主题的随机混合,并将每个主题视为单词的混合[
为了正确解释结果,我们考虑了主题在语料库中的分布、每个主题的关键词以及话题间距离[
此外,我们绘制了一个话题间距离图[
对于每一组,我们使用情绪分析来检查与内容相关的语气或情绪。情感分析是自然语言处理、文本分析和计算语言学领域的一个知识领域,用于从资源中识别和提取主观信息。在文本挖掘的情况下,情感分析涉及到根据文档中语言的积极或消极内涵自动对文档进行大规模分类[
对于情绪提取,我们使用了价感字典和情绪推理器(VADER),这是一种基于规则的工具,专门针对社交媒体平台上表达的情绪[
该方法的另一个特征是输出值。大多数情感分析将文本分为积极的、消极的和中性的;例如,那些被认为是积极的词汇、表达或写作方式占主导地位的文本就被归类为积极的。然而,这里使用的方法返回的情绪评分在-1到1之间,允许在不同类型的帐户之间进行更高级别的比较。
并非所有群体的贡献都相同。同样,与会者在全球讨论中的贡献也是极不平等的。基尼指数被用来衡量这种不平等。基尼指数是对收入分配的一种衡量,基尼指数越高表明不平等程度越高。
机器人分类的分布。
源 | Account (N=205,298), N (%) | 推特(N = 10098455) | ||
|
|
n (%) | 的意思是 | 中位数 |
Nonbot | 187992 (91.6) | 7983987 (79.1) | 42.5 | 9.0 |
机器人 | 8616 (4.2) | 1061997 (10.5) | 123.3 | 35.5 |
自称的机器人 | 8690 (4.2) | 1052471 (10.4) | 121.1 | 15.0 |
洛伦兹曲线显示推文数量的不平等。
在自称为机器人的情况下,最活跃的账户传播官方数据(COVID-19病例数和死亡率等)。其次,这些账户中有几个是数字杂志或独立新闻机构。在对这些账户的描述中提到,它们创建信息是为了提供关于形势的定期报告,并传达COVID-19的全球演变或大流行演变的重大变化。这些报告中有许多表明,它们的目的是提供资料。在这种情况下,这些概要文件与分析中分类为普通机器人的概要文件分离开来。
被分类为机器人的账户的描述非常不同。许多用户表示自己是科技公司的员工。其他人则认为自己是政治活动家、环境活动家,甚至是军事活动家。这些账号发布了关于大流行、所采取的政治措施或对不作为造成的情况的抱怨。
对账户进行分类后,使用LDA提取主题。为了选择正确的主题数量,我们依赖变异系数,它衡量由模型推导出的主题之间的一致性。换句话说,这个系数表明了哪个主题的组合是最连贯的。较高的值表示主题在语义上是可解释的。主题连贯度量通过测量主题中得分高的词之间的语义相似程度来为单个主题打分。这个概念汇集了几种评估主题之间连贯性的方法。为了选择主题数量,在不同的产出下重新应用LDA模型,选择变异系数最高的主题(
在下面的主题间距离图中(
Intertopic距离地图。PC:主成分。
我们还在柱状图中绘制了最常见的术语(
然后我们进行了定性阶段,在89%(16/18)的病例中,两位作者一致同意。
在
这两个主题在自称的机器人和其他账户之间有着最本质的区别。话题9累积了最高比例(1581/8690,18.2%)的自声明机器人账户,相比之下,机器人(896/8616,10.4%)和非机器人(201115 /187,992,10.7%)。同样,在主题13中,自称机器人的比例为5.7%(495/8690),而机器人的比例为3.4%(293/8616),非机器人的比例为3.8%(7144/187,992)。
专题2载有关于该流行病演变的资料。本专题的重点是第二波疫情和关于死亡人数的信息。最常见的关键词是
其他信息与美国政治或特朗普总统有关。话题17中的大多数推特都是关于美国国会的决定。话题18提到了一些国家的政治丑闻。第8个话题集中在批评特朗普总统的政策上。这些推文将特朗普总统描述为一个骗子和不负责任的人。一些最常见的关键词是
单词分布和主题。
每个主题的主旨。
ID | 主题 |
1 | 新闻对冠状病毒 |
2 | 第二波疫情和疫苗 |
3. | 对缺乏COVID-19检测的抱怨 |
4 | 呆在家里 |
5 | 中国及其与病毒的关系 |
6 | 尊重卫生保健工作者 |
7 | 大流行期间的财政援助和慈善 |
8 | 特朗普和大流行 |
9 | 马哈拉施特拉邦和非洲报告了阳性病例 |
10 | 指出COVID-19不同于流感 |
11 | 戴着口罩 |
12 | 预防COVID-19传播的小贴士 |
13 | 锁定在印度 |
14 | 名人的去世 |
15 | 需要真正的领导力 |
16 | 呼唤诚实 |
17 | 美国国会的决定 |
18 | 一个全国性的丑闻 |
主题内的帐户分布。
各组的VADER得分平均值(非机器人)为0.0109 (SD 0.414),自报机器人为0.00784 (SD 0.383),机器人为-0.0155 (SD 0.427)。采用方差分析检验各组平均值是否有统计学显著性差异(
如果我们考虑构成这些对话的不同主题,就能更好地理解非机器人、自我宣布的机器人和未宣布的机器人之间的情绪差异。虽然大多数非机器人发布的推特关注的是分享人们因疫情而经历的情况,但自我宣布的机器人倾向于向全世界通报和发布有关疫情的新闻,而未宣布的机器人通常专注于批评政治措施、参议员或州长之间的人际指责,以及针对政府或政治领导人在卫生危机管理不善方面的批评。在这一点上的分析,似乎更有可能是未申报的机器人传播的信息,反对,批评和投诉的政治和卫生当局,因为充分控制大流行的困难。
价感词典和情感推理机(VADER)情感分析的均值。
这项研究使得人们能够评估在COVID-19大流行早期阶段Twitter上的社交机器人的作用。在识别的不同账户类型(自我声明的机器人、未声明的机器人和非机器人)之间存在一致的差异。尽管Twitter上未公开的机器人的比例相对于大量的人类用户来说相对较低,但已经确定的是,机器人通常与具有争议和两极分化特征的网络对话有关。从这个意义上说,考虑到它们在放大我们社会中产生冲突的思想和意见方面所发挥的作用,这些自动代理的作用远非可以忽略不计[
采用的分类使人们能够比较大流行最初几个月推特用户3个不同档案的对话中产生的不同主题。此外,据我们所知,与其他不考虑信息源和信息类型、以一般方式分析情感的研究相比,本研究有几个优势[
另一方面,情绪分析还给出了在COVID-19大流行的头几个月里,未申报的机器人或自动账户的策略。我们的研究表明,社交机器人被用来批评和骚扰政治对手,而不是在广泛传播的错误信息急需高质量信息的情况下,提供有关卫生措施和自我保护行为的有用信息。
尽管有这些发现,还需要更多的证据来确定大流行最初几个月滥用社交机器人对社会和健康的影响。同样,有必要确定这些制剂在多大程度上阻碍了不同政府对卫生危机的预防和控制。无论如何,这是一个新的工作假设,仍然是开放的,应该在未来的研究中详细分析。
本研究存在一些局限性。首先,从Twitter收集的数据受到Twitter流API的技术特性的限制。尽管流API比REST API更精确,但它永远不会返回关于对话的推文总数[
另一方面,本研究也有几个优点。首先,它考虑到信息源的可信度。在对社交媒体平台的研究中,这方面很少涉及[
通过根据成为机器人的可能性对账户进行分类,并应用主题建模,我们能够分割关于COVID-19大流行的推特对话。例如,非机器人账户倾向于分享信息或就如何应对疫情提供建议。被宣布为机器人的账户大多分享了关于大流行的信息和统计数据。最后,未被宣布为机器人的账户倾向于批评为遏制大流行而采取的措施,表达与政客的不同意见,或质疑社交媒体平台上分享的信息的真实性。我们还使用情绪分析来比较这些不同组的谈话语气。自称的机器人用中立的语气交谈。非机器人账户写的消息的语气往往比前者更积极。相反,未申报机器人的语气总是比自行申报机器人的语气更消极。因此,有必要在信息流行病发生时对这些媒介进行识别和监测。
主题数量的变异系数得分。
潜在狄利克雷分配
价感词典和情感推理器
我们要感谢大学可持续社会发展研究所、Cádiz大学以及西班牙科学和创新部管理的拉蒙·伊·卡哈尔项目的支持。
这项工作得到了授予JAG的Ramon和Cajal基金(RYC-2016-19353)和由MCIN/ AEI/10.13039/501100011033资助的DCODES项目(pid2020 - 118589rbc - i00)的支持。
没有宣布。