这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。
新型冠状病毒(COVID-19)的出现和必要的人口隔离导致寻求与大流行相关信息的新社交媒体用户数量达到前所未有的水平。目前,全球约有45亿用户,社交媒体数据为近实时分析与疾病暴发和疫苗接种有关的大量文本提供了机会。官员可以利用这些分析制定适当的公共卫生信息、数字干预措施、教育材料和政策。
我们的研究调查并比较了2020年1月1日至2022年3月1日期间在两个流行的社交媒体平台——reddit和twitter上表达的与COVID-19疫苗相关的公众情绪。
为了完成这项任务,我们创建了一个微调的DistilRoBERTa模型来预测大约950万条推文和7万条Reddit评论的情绪。为了微调我们的模型,我们的团队手动标记3600条推文的情绪,然后通过反向翻译增强我们的数据集。然后,我们使用Python编程语言和hugs Face情感分析管道进行微调模型,对每个社交媒体平台的文本情感进行分类。
我们的结果确定,Twitter上表达的平均情绪是负面的(5215,830 /9,518,270,54.8%)多于正面的,Reddit上表达的情绪是正面的(42,316/67,962,62.3%)多于负面的。尽管这些社交媒体平台之间的平均情绪有所不同,但这两个平台在大流行期间与疫苗相关的关键进展中表现出的情绪相似。
考虑到社交媒体平台上这种情绪共享的类似趋势,Twitter和Reddit继续是公共卫生官员可以用来增强疫苗信心和打击错误信息的宝贵数据来源。由于错误信息的传播带来了一系列心理和社会心理风险(焦虑和恐惧等),因此迫切需要了解公众对共享错误信息的看法和态度。根据人们表达的情感量身定制的综合教育提供系统,促进数字素养、健康信息寻求行为和精确健康促进,有助于澄清这种错误信息。
新型冠状病毒(COVID-19)影响和扰乱了世界各地日常生活的许多方面。在2020年初实施严格的大流行缓解战略后,社交媒体使用大幅增加,互联网用户转向社交媒体平台交流和收集有关动态和不确定形势的信息[
全球估计有45亿用户,社交媒体提供了对大量文本数据(每天5亿条推文)进行近实时分析的机会,这可能对公共卫生官员有用[
我们的研究试图检查和探索在两个流行的社交媒体平台——reddit和Twitter上表达的关于COVID-19疫苗的情绪。我们通过创建一个定制微调的DistilRoBERTa模型来计算积极情绪和消极情绪,该模型的数据由我们的团队成员标记,然后通过反向翻译进行增强。然后,我们在Reddit和Twitter上比较了人们对COVID-19疫苗的看法。我们假设,我们会观察到两个社交媒体平台之间的极性趋势有些相似,但有细微的差异,因为DistilRoBERTa通常显示的准确性高于90% [
社交媒体内容分析并不是一个全新的概念,在新冠肺炎疫情之前就已经被用于数据挖掘和情感分析。然而,大流行应对措施的性质以及为安全而对人群进行的必要隔离导致了空前数量的新用户[
研究人员利用最近意见分享的增加来衡量总体情绪和对疫苗的犹豫或接受程度[
Reddit平台的规模与之类似,目前有约4.3亿用户[
自BERT及其体系结构构建的工作开发以来,自然语言处理已经取得了实质性进展。BERT是谷歌AI language开发的一种强大而通用的基于人工智能的自然语言处理算法,擅长对具有社交媒体数据特征的非结构化/半结构化文本数据进行文本分类(即本体、类别和情感等)[
我们的研究比较了2020年1月1日至2022年3月1日在两个流行的社交媒体平台——reddit和twitter上发布的与COVID-19疫苗相关的帖子。之所以选择这两个平台,是因为它们的全球使用率、活跃的讨论和高用户数。时间框架包括大流行的最早阶段,以追踪情绪随时间的演变。最重要的是,选择这些平台是因为只有少数比较研究关注典型用户,特别是与COVID-19疫苗情绪或其他疫苗相关的研究。我们的研究使用二元(即,正极性或负极性)情感分类方法来训练我们的模型和情感分析。选择双星系统有几个原因。(1)二进制系统在处理大量数据时计算效率更高。(2)二元分类器通常比多类系统更准确。(3)过去,包含中性类别的情绪分类器通常依赖于较低的概率或信心得分。由于我们的模型报告了一个置信度值,因此可以推断该信息。
为了识别和删除被发现直接来自新闻机构或机器人的推特帖子,他们付出了大量努力。这些帖子是通过在26个月的时间里,相对于一个“正常”用户的平均帖子数,它们的来源拥有极高的帖子数来识别的,同时也通过视觉检查那些出现频率异常的用户的推文来识别。Twitter和Reddit的数据集都被限制在只包括在我们的时间范围内发帖少于或等于200次的用户。这些步骤非常重要,因为许多bot推文具有重复性,这有可能扭曲情绪计算,并使比较两个平台的正常用户基数的目标不一致。尽管收集Reddit和Twitter数据的方法略有不同,但这两个数据集都经历了类似的清理步骤。对这两组数据进行了查询,以查询通常出现在关于COVID-19疫苗的网上讨论中的相同相关术语。这一步很重要,因为一些扩展的评论线程倾向于偏离主题。这种情况在一些Reddit社区的帖子中尤其明显。在疫情爆发的最初几个月,这两个平台的日发布频率相对相似。2020年9月下旬至10月期间,随着疫苗流通的新闻变得更加广泛,这两个平台的频率急剧增加。 Although each platform displayed 4 spikes in posting frequency at similar time periods (October 2020, March to April 2021, August to September 2021, and December 2021 to January 2022), they obtained a maximum in different time periods. Reddit reached its maximum posting from March to April 2021, whereas Twitter reached its maximum from September to October 2021.
大约1300万条推文是通过
我们从67个使用Python Reddit API的Reddit子版块中收集了579,241个用户创建的帖子
由于在全球大流行中,时间是至关重要的,再加上标签数据既耗时又昂贵,我们根据标签情绪(积极或消极)为大约3600条与COVID-19疫苗相关的推文创建了一个定制培训数据集。我们选择为这项研究专门标记推文,因为一条推文的280个字符的限制(即,与Reddit帖子的10,000个字符的限制相比)将允许我们的小团队更快地创建一个与时间相关的训练数据集。然后,我们通过使用hugs Face模型存储库中的几种语言模型进行反向翻译的过程来增强我们的数据集。在测试了其他几种文本增强方法后,选择了反向翻译。一些技术(例如,单词屏蔽)会导致更多的重复文本,最终需要删除。反向翻译依赖于语言结构、词义和句法之间的细微差别。实际上,输出文本会与输入文本稍有不同,但不会失去语义和上下文意义[
对于我们的研究,我们选择探索DistilRoBERTa的功能。RoBERTa是一个比BERT更健壮的模型,蒸馏RoBERTa是RoBERTa的优化版本[
我们通过拥抱脸微调了DistilRoBERTa基地
DistilRoBERTa微调培训指标。经过2个训练期,模型得到了最优的微调。
一步 | 时代 | 培训损失 | 确认损失 | 精度 | 精度 |
|
500 | 0.4 | 0.5903 | 0.4695 | 0.7342 | 0.7728 | 0.7890 |
1000 | 0.8 | 0.3986 | 0.3469 | 0.8144 | 0.8596 | 0.8684 |
1500 | 1.2 | 0.2366 | 0.1939 | 0.9313 | 0.9260 | 0.9253 |
2000 | 1.6 | 0.1476 | 0.1560 | 0.9207 | 0.9452 | 0.9465 |
2500 | 2.0 | 0.1284 | 0.1167 | 0.9561 | 0.9592 | 0.9592 |
随着模型的微调,我们通过拥抱脸处理Twitter和Reddit的数据
由于所使用数据的可公开性和不可识别性,不需要我们机构的伦理批准。
DistilRoBERTa微调极性分析确定,在我们的时间框架内,9,518,270条推文的负面(n=5,215,830, 54.8%)多于正面(n=4,302,440, 45.2%)
最高阳性评分发生在2021年3月(375,789/675,274 55.6%)。然而,最小的阳性评价发生在2022年1月(191,159/526,582,36.3%),显示出极性从最大值开始稳步下降。对于信心得分,被分类为积极的推文的最高得分为0.999,最低得分约为0 (3.58 × 10)7),平均值为0.868(见
推特极性来自微调至COVID-19疫苗的DistilRoBERTa模型。极性和相应的置信概率表示在y轴上,时间表示在x轴上。推文表示为浅蓝色的圆圈。圆圈的大小表示每条推文的点赞数——圆圈越大点赞数越多,圆圈越小点赞数越少。
自信得分与推特点赞数的对比。x轴代表信心得分,y轴代表一条推文收到的点赞数。x轴上低于0.00的数据点表示阴性分类,高于0.00的数据点表示阳性分类。数据点用浅蓝色的圆圈表示。
对微调的DistilRoBERTa模型进行的Reddit情绪极性分析发现,在67,962个帖子中,37.7% (n=25,646)被归为负面,62.3% (n=42,316)被归为正面。我们的实验中报告的最高极性和最大阳性评价发生在2021年4月(6611/9044,73.1%),最小阳性评价发生在2020年2月(170/351,48.4%)。在信心评分方面,被分类为正面的评论的最高评分为0.999,最低评分约为0 (1.55 × 10)4),平均值为0.870(见
Reddit评论从蒸馏roberta模型微调到COVID-19疫苗。y轴表示极性和相应的置信概率,x轴表示时间。数据点用橙红色的圆圈表示。圆的大小表示每个评论的点赞数——更大的圆表示点赞数,更小的圆表示点赞数。
自信得分与Reddit点赞数的对比。x轴表示可信度得分,y轴表示一条评论收到的点赞数。x轴上低于0.00的数据点表示阴性分类,高于0.00的数据点表示阳性分类。数据点用橙红色的圆圈表示。
总体而言,这两个社交媒体平台的平均情绪有所不同(Reddit上有62.3%的人持肯定态度,Twitter上有45.2%的人持肯定态度)。当仔细观察每个月的结果之间的关系时,一个有趣的故事开始出现。尽管在大流行的最初几个月里,这两个平台上的人气都出现了波动,但从2020年1月到8月,Reddit的人气较高(积极度从48%到55%不等)。推特的情绪开始时与Reddit的情绪相似,但逐渐下降,直到2020年9月至10月大幅变得更加负面,然后在2021年3月增加到最高的55%。Reddit的情绪在2020年12月开始急剧上升,并继续上升,直到2021年4月达到最大的积极情绪(约73%)。在每个平台的情绪达到最大正极性后,两者的情绪都开始振荡并逐渐下降,接近大流行早期的水平。然而,Twitter的人气持续下降,直到最低达到36%
Twitter和Reddit上与COVID-19疫苗相关帖子的月度人气。x轴表示时间,y轴表示列为积极员额的百分比。蓝线代表Twitter的情绪,橙红色线代表Reddit的情绪。请注意,由于发布频率非常低,2020年1月的情绪是所有其他月份相应数据的平均值。
从2020年1月1日到2022年3月1日,我们的结果显示,Reddit数据集的平均情绪比Twitter上表达的平均情绪更积极。有趣的是,两个平台在大流行的关键时刻表达了相似的情绪变化(例如,疫苗功效宣布、疫苗向所有年龄层分发、新变种和效力减弱)。当疫苗广泛提供给公众,两极分化减弱时,这种行为尤其明显。考虑到这种类似的行为,我们认为Twitter和Reddit仍然是公共卫生官员可以用来发展疫苗教育运动和数字干预的有价值的数据来源。尽管Twitter在通过API访问大量tweet的能力上非常出色,但在清理Twitter数据时需要采取大量步骤,以删除机器人、新闻媒体帖子、商业用户、副本和发帖频率极高的用户。另一方面,Reddit的数据在较长的文本中更丰富,这可能对主题建模更有用。
是什么推动了这两个平台上与COVID-19疫苗相关的情绪变化?一种可能与推特和Reddit帖子的字符限制有关(即分别是280和10,000个字符)。缩短推文的字符限制很可能有助于信息的快速传播,在本质上可能是反动的,导致负面情绪。然而,Reddit用户通常会利用较长的字符限制,分享与他们的医疗保健相关的高度个人的故事和经历。因此,在考虑发展公共卫生信息和教育运动时,Reddit仍然是一个非常有价值的来源。
将情绪的变化与大流行期间的事态发展联系起来,提出了一些有趣的挑战和想法。最明显的情绪急剧上升似乎与有关疫苗开发和试验的积极消息,以及高效率、分发和向耐心等待疫苗的人提供的消息有关。将最低情绪分数联系起来具有挑战性,因为它们的下降并不一致。这种逐渐下降极有可能与大流行相关的不幸事件(例如,错误信息、大流行疲劳和疫苗效力下降)的综合作用有关。可以想象,疫苗推广和分发方面的挑战可能会对情绪产生负面影响。然而,此前对该数据集的部分内容进行的主题建模和语义网络分析并没有发现与疫苗分布相关的术语有意义的出现。因此,迫切需要更多的心理学、社会学和文化研究来了解是什么驱使特定人群、新闻媒体、政客和艺人如此容易地接受和传播错误信息和阴谋论,而不是直接可见的事实。这类研究不仅有利于未来的公共卫生应对措施,也有利于许多其他存在错误信息和虚假信息的生活领域。如果不更彻底地了解如何接触这些人群,数字干预和教育运动的成功可能会受到限制。
我们的研究成果的应用可能对公共卫生部门在抗击COVID-19等传染病方面产生重大影响。为快速收集数据而优化的低人力监测系统的进一步开发将允许实时分析公众情绪与疾病进展的相关性。此外,用于评估情绪上的地理和人口差异的微调模型,可以让我们深入了解处于破坏性结果风险最大的人群的态度。除了地理和人口统计学上的特定数据挖掘外,在感染高峰、疫苗发布或名人、运动员或政治人物因疾病死亡期间针对公共话语,可以极大地加强公共卫生应对工作[
此外,分析通过社交媒体分享的情绪可能被证明是打击网络上传播猖獗的错误信息和虚假信息的重要工具。由于错误信息的传播带来了一系列心理和社会心理风险(焦虑和恐惧等),因此迫切需要了解公众对共享错误信息的看法和态度。根据民众表达的情绪量身定制的教育交付系统有助于澄清这种错误信息。此外,人工智能信息系统还有扩大的空间,其任务是对通过社交媒体平台分享的错误信息和虚假信息浪潮做出回应。总的来说,拟议的情绪实时分析框架可能有助于指导政府支持公共卫生恢复工作。
和大多数研究一样,我们的研究也有一些局限性。由于一些长期存在的问题,在进行社交媒体文本情感分析时遇到了挑战。尽管BERT和更新的模型极大地缓解了这些挑战,但一些模型通常难以检测文本中的讽刺、幽默、情感和复杂推理,除非经过专门的训练。例如,许多支持疫苗的社交媒体用户对反疫苗群体表达了极其负面的观点和情绪。BERT如何对这种情况进行分类?尽管他们表达的情绪对疫苗是积极的,许多自然语言处理算法和数据标签可能会与这种类型的分类作斗争。尽管我们在这项研究中非常小心地删除了机器人发布的推文或推特上高度重复用户发布的推文,并选择了公正的看板,但仍有可能有一些人通过了数据清理过程。此外,由于语义内容相对相似,在对模型进行微调时,增强数据可能会潜在地导致过拟合问题。我们限制了训练时间,并密切监控训练损失和验证损失之间的关系,以缓解这个潜在的问题。未来的工作可能涉及创建一个更大的标签数据集,不仅包括COVID-19疫苗的情绪,还包括其他疫苗的情绪。
我们使用微调的DistilRoBERTa模型对大约7万条Reddit评论和950万条推文进行了情绪分析。我们的分析发现,在疫情期间,Reddit和Twitter用户表达了类似的情绪变化,尽管Twitter的负面情绪远远超过Reddit。虽然每个月都有细微的情绪差异,但随着新冠疫苗向普通公众开放,两个平台的积极情绪都大幅增加。我们在这里展示的结果是一项正在进行的研究的一部分,该研究旨在调查社交媒体上与疫苗相关的内容,重点是识别和打击错误信息,以减少对疫苗的犹豫。将强烈的情绪与高感染率联系起来,可以为官员们提供预测公众对提供和接受疫苗等移徙战略的接受程度。这些综合疾病监测工具不仅应被用于抗击COVID-19,而且必将在未来卫生政策、决策、规划实施和精准健康促进的演变中发挥关键作用[
来自变压器的双向编码器表示
我们要感谢田纳西大学健康科学中心的数据标签团队。本研究部分由美国国家癌症研究所(NCI)的拨款(1r37ca234190 - 01a1)支持。
根据作者的合理要求,可以获得支持我们发现的数据。数据不能用于商业用途。
CAM对研究进行了概念化和监督,并起草、审查和编辑了手稿。宝马制定了研究的概念,并起草、审查和编辑了手稿。RLD审阅并编辑了手稿。RAB对手稿进行了审阅和编辑。ASN起草、审阅和编辑了手稿;监督研究;和收购资金。
没有宣布。