医学互联网研究杂志- COVID-19疫苗相关社交媒体数据的微调情感分析:比较研究

原始论文

¹美国田纳西大学诺克斯维尔分校布莱德森跨学科研究与研究生教育中心，田纳西州诺克斯维尔

²美国田纳西州孟菲斯市田纳西大学健康科学中心医学院儿科生物医学信息学中心

^3.美国佐治亚州亚特兰大市埃默里大学罗林斯公共卫生学院休伯特全球卫生系

通讯作者:

Arash Shaban-Nejad，公共卫生硕士，博士

生物医学信息学中心

医学院儿科教研室

田纳西大学健康科学中心

北邓拉普街50号，492R

田纳西州孟菲斯38103

美国

联系电话:1 9012875836

电子邮件:ashabann@uthsc.edu

背景:新型冠状病毒(COVID-19)的出现和必要的人群隔离，导致前所未有的新社交媒体用户寻求与大流行相关的信息。目前，全球估计有45亿用户，社交媒体数据为对与疾病暴发和疫苗接种有关的大量文本进行近乎实时的分析提供了机会。官员可以利用这些分析来制定适当的公共卫生信息、数字干预措施、教育材料和政策。

摘要目的:我们的研究调查并比较了2020年1月1日至2022年3月1日在两个流行的社交媒体平台reddit和twitter上表达的与COVID-19疫苗相关的公众情绪。

方法:为了完成这项任务，我们创建了一个微调的蒸馏roberta模型来预测大约950万条推文和7万条Reddit评论的情绪。为了微调我们的模型，我们的团队手动标记了3600条推文的情绪，然后通过反向翻译增强了我们的数据集。然后，我们使用Python编程语言和hug Face情感分析管道对每个社交媒体平台的文本情感进行了微调模型分类。

结果:我们的研究结果表明，在Twitter上表达的平均情绪是消极的(5,215,830/9,518,270,54.8%)多于积极的，在Reddit上表达的情绪是积极的(42,316/67,962,62.3%)多于消极的。尽管发现这些社交媒体平台之间的平均情绪有所不同，但这两个平台在大流行期间与疫苗相关的关键发展分享的情绪方面表现出相似的行为。

结论:考虑到社交媒体平台上的这种共同情绪的类似趋势，Twitter和Reddit仍然是公共卫生官员可以用来增强疫苗信心和打击错误信息的宝贵数据来源。由于错误信息的传播带来了一系列心理和社会心理风险(焦虑和恐惧等)，因此迫切需要了解公众对共享虚假信息的看法和态度。根据人口表达的情绪量身定制的综合教育提供系统，可促进数字素养、健康信息寻求行为和精确健康促进，有助于澄清此类错误信息。

[J] .中国医学信息学报，2010;24(10):1104 - 1104

doi: 10.2196/40408

关键字

情绪分析； DistilRoBERTa；自然语言处理；社交媒体；推特； Reddit；新型冠状病毒肺炎；疫苗接种；疫苗；内容分析；公共卫生；监测；错误信息； infodemiology；信息质量

背景

新型冠状病毒(COVID-19)已经影响和扰乱了全球日常生活的许多方面。在2020年初实施严格的大流行缓解战略后，社交媒体的使用大幅增加，互联网用户转向社交媒体平台进行沟通和收集有关动态和不确定形势的信息[1-4]。随着大流行的发展和研究人员努力开发疫苗，许多社交媒体用户将注意力转向收集与COVID-19疫苗相关的各种主题的信息，如副作用、可用性和有效性。截至2022年5月19日，全球约有627万人死于新冠肺炎并发症。此外，许多人经历了长期的COVID综合征，其中病毒症状持续超过了预期的临床恢复时间[5]。尽管COVID-19疫苗在预防危及生命的感染、住院和死亡方面是安全有效的，但与COVID-19疫苗相关的疫苗犹豫已导致进一步的合并症和许多可预防的死亡[6-8]。

据估计，全球有45亿用户，社交媒体提供了对大量文本数据(每天5亿条推文)进行近乎实时分析的机会，这些数据可能对公共卫生官员有用[3.，9]。使用机器/深度学习，自然语言处理方法的最新进展(例如，来自变形金刚的双向编码器表示[BERT]， RoBERTa, GPT2和XLNet)大大改进了以前的文本分类模型(准确率超过90%)[4，10-14]。此外，像BERT或RoBERTa这样的预训练模型对hug Face等平台的研究人员来说是免费的。这些平台对更大的科学界非常有帮助，考虑到其中许多模型需要在数十个张量处理单元上学习几天[15，16]。重要的是，这些模型可以根据特定的用例(例如，文本分类、文本生成和情感分析)进行微调。增强的功能为研究人员提供了研究许多科学领域的各种现象的技术[17-19]。情绪分析(即将文本分为积极或消极)是一种强大的工具，可用于将事件与公众情绪联系起来，监视公共卫生讨论，甚至检测疾病爆发[18]。最重要的是，公共卫生官员可以利用这些方法制定精确的信息传递策略和干预运动，以解决信息危机并提高疫苗接种率。

我们的研究试图检查和探索在两个流行的社交媒体平台——reddit和Twitter上表达的关于COVID-19疫苗的情绪。我们通过创建一个定制的微调的蒸馏roberta模型来计算积极和消极的情绪，该模型的数据由我们的团队成员标记，然后通过反向翻译进行增强。然后，我们比较了Reddit和Twitter上对COVID-19疫苗的看法。我们假设我们将观察到两个社交媒体平台之间的极性趋势有些相似，但差异很小，因为蒸馏roberta通常显示的准确性大于90% [16]。然而，我们期望我们的标记数据集能够比以前的情感分析方法更细致地洞察这两个社区的公众情绪。此外，根据我们之前的工作，我们假设情绪将保持积极而不是消极。4]。最后，我们认为，识别和关注社交媒体共享的情绪可以最终制定全面的应对策略，从而更好地打击错误信息和虚假信息;改善疫苗提供;控制疾病传播。

covid -19相关社交媒体分析

社交媒体内容分析并不是一个全新的概念，在COVID-19之前就被用于数据挖掘和情绪分析。然而，大流行病应对措施的性质以及为安全起见将人群隔离的必要措施导致出现了前所未有的新用户[9]。这种涌入导致社交网络帖子激增，给研究人员留下了堆积如山的内容需要整理。社交媒体数据挖掘的一个积极方面是，内容是公开可用的，易于获取，允许快速收集。快速收集数据，特别是与COVID-19相关的数据，使研究人员能够跟踪大流行的进展以及网络上的情绪。例如，快速收集特定时间段内的推文的能力允许在重大事件期间平行分析一般公众舆论，例如2020年底辉瑞疫苗的发布或2019冠状病毒感染后的名人死亡[20.]。这种有针对性的方法为发现和探索卫生决策背后的情绪提供了工具。

研究人员利用最近意见分享的增加来衡量总体情绪和疫苗犹豫或接受程度[4，20.-24]。随着社交媒体的使用在疫情期间持续增长，已知有超过36亿人定期登录至少一个网络平台。Twitter被认为是最大和最常用的社交媒体平台之一，拥有超过4亿账户所有者[9]。该平台允许用户发布短消息或推文，让“追随者”看到并根据他们所唤起的潜在情绪做出回应。推文被限制为简短的消息，限制在280个字符以内，但可能包含附加的图像、视频或突出显示的流行关键词，即“标签”。此外，tweet可以包含指向新闻文章或科学文献的超链接。如果另一个用户同意发布的推文，他们可以“转发”或将消息分享到他们的个人资料中，以显示关系融洽。用户通常跟随其他用户，而不是加入基于主题的社区。

Reddit平台的规模与之相似，目前拥有约4.3亿用户。9]。然而，它在消息格式和传递方面是不同的，因为允许用户基于一个主题创建分组，称为“subreddits”。Subreddits通常包含开放的对话，以及图片、视频和新闻文章或文学作品的超链接。与“转发”类似，subreddit用户可以根据用户对帖子内容的看法对帖子进行“支持”或“反对”。用户也可以通过评论加入讨论，评论也可以被支持或反对。如果一个subreddit变得越来越受欢迎，并且获得了很好的支持，那么该帖子将首先出现在主题类别中。一个子Reddit收到的流量越多，即使它是在分享错误信息或虚假信息，Reddit平台就会越高地推广它。值得注意的是，子reddit通常有社区成员必须遵守的规则，否则就有可能被删除或禁止发布帖子。

伯特算法

自从BERT的发展和基于其架构的工作以来，自然语言处理已经取得了实质性的进展。BERT是b谷歌AI language开发的一种强大而通用的基于人工智能的自然语言处理算法，擅长于社交媒体数据特征的非结构化/半结构化文本数据的文本分类(即本体、类别和情感等)[10]。BERT算法使用16个基于云的张量处理单元在整个维基百科和布朗语料库上进行了4天的训练。BERT是一种基于转换器的语言模型，它使用多个编码器来创建词嵌入。然后，这些嵌入与屏蔽语言建模和下一个句子预测一起使用，分别通过预测句子中的随机屏蔽词和学习预测句子来学习。这两个步骤教会BERT理解上下文，这是旧的循环神经网络通常难以掌握的技能。BERT的一个方便之处在于，它能够通过使用自定义数据的权重替换输出层，从而使用相关数据对模型进行微调。研究人员受到原始BERT架构的启发，创建了许多变体(例如RoBERTa, DistilRoBERTa, DistilBERT和BART等)，这些变体已经超过了以前模型的基准。此外，这些模型可以用多种语言对特定的基于领域的任务(ClinicalBERT和BioBERT)进行微调[11，12，25]。此外，一些研究使用了其他微调BERT模型来调查社交媒体上表达的与covid -19相关的内容，包括错误信息检测、情绪分类和大陆分析[13，26-29]。

研究概述

我们的研究比较了2020年1月1日至2022年3月1日两个流行社交媒体平台——reddit和twitter上与COVID-19疫苗相关的帖子。之所以选择这两个平台，是因为它们的全球使用、活跃的讨论和高用户数。时间框架包括大流行的最早部分，以追踪情绪随时间的演变。最重要的是，之所以选择这些平台，是因为只有少数比较研究关注的是典型用户，特别是与COVID-19疫苗情绪或其他疫苗相关的研究。我们的研究使用二元(即积极或消极极性)情感分类方法来训练我们的模型和情感分析。选择二进制系统有几个原因。(1)在处理大量数据时，二进制系统的计算效率更高。(2)二元分类器通常比多类分类器更准确。(3)过去，包含中性类的情感分类器通常依赖于低概率或置信度得分。由于我们的模型报告了一个置信度值，因此该信息可以外推。

数据概述

为了识别和删除直接来自新闻机构或机器人的推特帖子，他们付出了巨大的努力。这些帖子的来源与“正常”用户的平均帖子数相比，在26个月的时间里有压倒性的高帖子数，并且通过视觉检查出现频率异常的用户的推文来确定。Twitter和Reddit的数据集仅限于在我们的时间框架内发布少于或等于200次的用户。这些步骤很重要，因为许多bot推文的重复性质可能会扭曲情绪计算，并使比较两个平台的正常用户基础的目标不一致。尽管收集Reddit和Twitter数据的方法略有不同，但这两个数据集都经历了类似的清理步骤。在这两个数据集中查询了通常出现在基于网络的关于COVID-19疫苗的讨论中的相同相关术语。这一步很重要，因为一些扩展的评论线程倾向于偏离主题。这种情况在一些Reddit社区的帖子中尤为明显。在疫情发生的最初几个月，这两个平台的日发布频率相对相似。随着疫苗流通的消息越来越广泛，2020年9月下旬至10月，这两个平台的频率急剧增加。 Although each platform displayed 4 spikes in posting frequency at similar time periods (October 2020, March to April 2021, August to September 2021, and December 2021 to January 2022), they obtained a maximum in different time periods. Reddit reached its maximum posting from March to April 2021, whereas Twitter reached its maximum from September to October 2021.

推特

大约有1300万条推文被收集snscrape和Tweepy基于搜索词“COVID疫苗”的API Python库。在移除疑似机器人、新闻媒体或高重复频率用户和重复推文后，我们最终的Twitter数据集由3,006,075名Twitter用户撰写的9,518,270条推文组成。这些推文包含了大约1632万个赞，最多有430,758个赞，平均每条推文有14.9个赞。推文不能被否决，但大约有4,794,865条推文被归为0点赞。没有收集有关tweet分享或转发的统计数据，因为该指标在两个平台上都不可用。

我们使用Python Reddit API从67个子Reddit中收集了579,241个用户创建的帖子包装器．收集这些子reddit是为了广泛了解与COVID-19疫苗相关的情绪，并避免数据收集中的潜在偏见。截至2022年3月1日，这些子reddit共有5590913名订阅者。我们的查询删除了大部分不相关的术语。在视觉检查和确认查询过程的结果之后，我们最终的Reddit数据集由至少9843位作者组成的67,962条评论组成。这些帖子包含大约210万的总赞，平均31个赞，每条评论最多18253个赞。

数据标记和增强

由于时间在全球大流行中至关重要，再加上标记数据既耗时又昂贵，我们通过为大约3600条与COVID-19疫苗相关的推文标记情绪(积极或消极)，创建了一个自定义训练数据集。我们选择在本研究中专门标记tweet，因为tweet的280个字符限制(即，与Reddit帖子的最大10,000个字符限制相比)将允许我们的小团队更快地创建与时间相关的训练数据集。然后，我们通过在hug Face模型存储库上使用几个语言模型的反翻译过程来增强我们的数据集。在测试了其他几种文本增强方法后，选择了反向翻译。一些技术(例如，单词屏蔽)导致了更多的重复文本，最终需要删除。反译依赖于语言结构、词义和句法之间的细微差别。实际上，输出的文本将与输入的文本略有不同，但不会失去语义和上下文意义[14]。在我们的例子中，反向翻译方法将英语文本翻译成另一种语言(例如法语、中文、希腊语和希伯来语)，然后再翻译成英语。删除重复项后，我们最终的增强数据集由48,691条tweet组成。

罗伯塔和蒸馏酒罗伯塔

在我们的研究中，我们选择探索蒸馏roberta的功能。RoBERTa是一个比BERT更健壮的模型，而蒸馏RoBERTa是RoBERTa的优化版本[15，16]。由Facebook开发的RoBERTa接受了160gb的文本训练，而BERT只有16gb。RoBERTa去掉了BERT的下一个句子预测特征，在训练过程中加入了动态token屏蔽。这些改进估计大大提高了原始BERT的性能(2%至20%)[16]。与RoBERTa相比，DistilRoBERTa是在大约40 GB的文本数据(OpenWebTextCorpus)上训练的，运行速度是RoBERTa的两倍。

田纳西大学健康科学中心疫苗情绪标签和蒸馏器微调

我们通过拥抱脸对蒸馏器进行了微调教练类，它为用户提供了用于培训的APIPyTorch。然后，我们的数据被随机分成40,000条训练推文、4000条验证推文和4691条用于测试的推文。训练超参数包括一个2 × 10⁵学习率，32个训练和评估批大小，42个种子数，一个500个预热步骤的线性调度程序。我们使用亚当贝塔系数为0.9和0.999，ε为1 × 10的优化器⁸．最后，我们的模型进行了2个epoch的训练。这些超参数的训练损失为0.1284，验证损失为0.1167，精度为0.9561F₁-得分为0.9592，准确率为0.9592(见表1）.

表1。蒸馏roberta微调训练指标。经过2次训练，模型得到了最优的微调。

一步	时代	培训损失	确认损失	精度	精度	F₁分数
500	0.4	0.5903	0.4695	0.7342	0.7728	0.7890
1000	0.8	0.3986	0.3469	0.8144	0.8596	0.8684
1500	1.2	0.2366	0.1939	0.9313	0.9260	0.9253
2000	1.6	0.1476	0.1560	0.9207	0.9452	0.9465
2500	2.0	0.1284	0.1167	0.9561	0.9592	0.9592

分析方法

在对模型进行微调之后，我们通过“拥抱脸”处理了Twitter和Reddit的数据管道用于情感分析。该模型为每条tweet或Reddit评论返回一个正面或负面的标签。在确定极性的同时，该模型还返回了从0到1的概率置信度评分。为了清晰起见，被归类为负面的推文或评论被乘以-1，以反映负面情绪。

道德的考虑

由于所使用数据的公开可用性和不可识别性，不需要我们机构的伦理批准。

蒸馏roberta对COVID-19疫苗进行了微调

推特

蒸馏roberta微调极性分析确定，在我们的时间框架内，9,518,270条推文的负面(n=5,215,830, 54.8%)多于正面(n=4,302,440, 45.2%)图1）.

最高正面评价出现在2021年3月(375,789/675,274 55.6%)。然而，最小的正面评级出现在2022年1月(191,159/526,582,36.3%)，显示极性从最大值稳步下降。对于置信度得分，分类为积极的推文的最大得分为0.999，最小得分约为0 (3.58 × 10)⁷)，平均值为0.868(见图2）.分类为负面的推文的最小得分为-0.999，最大值约为零(-1.78 × 10)⁶)，平均值为-0.882(见图1和2）.

图1所示。蒸馏roberta模型对COVID-19疫苗进行微调后的推特极性。极性和相应的置信概率表示为y轴，时间表示为x轴。tweet用浅蓝色的圆圈表示。圆圈大小表示每条推文的点赞数——较大的圆圈表示点赞数较多，较小的圆圈表示点赞数较少。

图2。对推特的信心指数和喜欢指数。x轴表示置信度得分，y轴表示tweet收到的点赞数。x轴上低于0.00的数据点代表负分类，高于0.00的数据点代表正分类。数据点用浅蓝色圆圈表示。

对微调后的蒸馏roberta模型进行的Reddit情绪极性分析发现，在67,962篇帖子中，37.7% (n=25,646)被归类为负面，62.3% (n=42,316)被归类为正面。本实验报告的最高极性和最大阳性评分发生在2021年4月(6611/9044,73.1%)，最小阳性评分发生在2020年2月(170/351,48.4%)。对于置信度得分，分类为积极的评论的最大得分为0.999，最小得分约为0 (1.55 × 10)⁴)，平均值为0.870(见图3）.被归类为负面的评论的最小值为-0.999，最大值约为0 (-4.74 x 10)⁵)，平均值为-0.808(见图3和4）.

图3。Reddit评论极性从蒸馏roberta模型微调到COVID-19疫苗。极性和相应的置信概率表示为y轴，时间表示为x轴。数据点用橙红色圆圈表示。圆圈大小表示每个评论的赞成数——更多的赞成用较大的圆圈表示，较少的赞成用较小的圆圈表示。

图4。信心分数与Reddit的喜欢数。x轴表示置信度得分，y轴表示收到的评论的赞成数。x轴上低于0.00的数据点代表负分类，高于0.00的数据点代表正分类。数据点用橙红色圆圈表示。

在Reddit和Twitter上表达的COVID-19疫苗情绪

总的来说，这两个社交媒体平台的平均情绪有所不同(Reddit上62.3%的人持积极态度，而Twitter上45.2%的人持积极态度)。当仔细观察每个月的结果时，一个有趣的故事就开始出现了。尽管在大流行的最初几个月里，这两个平台的情绪都有所波动，但从2020年1月到8月，Reddit的情绪更高(积极程度从48%到55%不等)。Twitter的情绪开始与Reddit的情绪相似，但逐渐下降，直到2020年9月至10月变得更加消极，然后在2021年3月增加到55%的最大值。Reddit的情绪在2020年12月开始急剧增加，并继续增加，直到2021年4月达到最大的积极情绪(约73%)。在每个平台的情绪达到最大积极极性后，双方的情绪都开始振荡并逐渐下降到接近大流行早期的水平。然而，Twitter的人气持续下降，直到最低达到36%图5）.

图5。Twitter和Reddit上与COVID-19疫苗相关的帖子的月度情绪。x轴表示时间，y轴表示分类为积极的帖子的百分比。蓝线代表Twitter的情绪，橙红色的线代表Reddit的情绪。请注意，由于发布频率非常低，2020年1月的情绪是所有其他月份相应数据的平均值。

结果解释

从2020年1月1日到2022年3月1日，我们的结果表明，Reddit数据集的平均情绪比Twitter上表达的平均情绪更积极。有趣的是，这两个平台在大流行的关键时刻表达了类似的情绪变化(例如，疫苗功效宣布、疫苗分发到所有年龄段、新变体和功效减弱)。随着疫苗向公众广泛提供，两极分化减弱，这种行为尤其明显。考虑到这种类似的行为，我们认为Twitter和Reddit仍然是有价值的数据来源，公共卫生官员可以利用它们开展疫苗教育活动和数字干预。尽管Twitter在通过API访问大量tweet的能力方面更胜一筹，但在清理Twitter数据时需要采取实质性的步骤，以删除机器人、新闻媒体帖子、商业用户、副本和发布频率极高的用户。另一方面，Reddit的数据在较长的文本中更为丰富，这可能对主题建模更有用。

是什么推动了这两个平台上与COVID-19疫苗相关的情绪变化?一种可能与tweet和Reddit帖子的字符限制有关(分别为280个字符和10,000个字符)。推文的缩短字符限制很可能有助于信息的快速传播，本质上可能是反动的，引发负面情绪。然而，Reddit用户通常会利用较长的字符限制，有时会分享与他们的医疗保健相关的高度个人化的故事和经历。因此，在考虑公共卫生信息和教育活动的发展时，Reddit仍然是一个非常有价值的来源。

将情绪变化与大流行期间的事态发展联系起来，提出了一些有趣的挑战和想法。最明显的情绪急剧上升似乎与有关疫苗开发和试验的积极消息以及耐心等待疫苗的人的高效、分发和可获得性的消息有关。将最低情绪得分联系起来是一项挑战，因为它们的下降并不一致。这种逐渐下降极有可能与与大流行有关的一系列不幸事件(例如，错误信息、大流行疲劳和疫苗效力下降)有关。可以想象，疫苗推广和分发方面的挑战可能会对情绪产生负面影响。然而，之前对部分数据集的主题建模和语义网络分析并没有发现与疫苗分布相关的术语有意义的出现。因此，迫切需要更多的心理学、社会学和文化研究来了解是什么驱使某些人群、新闻媒体、政治家和演艺人员如此轻易地接受和传播错误信息和阴谋论，而不是直接观察到的事实。这样的研究不仅有利于未来的公共卫生反应，也有利于误传和虚假信息占据主导地位的许多其他生活领域。如果不更彻底地了解如何接触到这些人群，数字干预和教育运动的成功可能会受到限制。

对公众健康的影响

我们的研究结果的应用可能对公共卫生部门在抗击COVID-19等传染病方面产生重大影响。为快速收集数据而优化的低人力监测系统的进一步发展将允许实时分析与疾病进展相关的公众情绪。此外，用于评估地理和人口情绪差异的微调模型可以深入了解那些最容易导致衰弱结果的人群的态度。除了在地理和人口统计学上特定的数据挖掘之外，在感染高峰、疫苗发布或名人、运动员或政治人物因疾病死亡期间针对公众言论，可以大大加强公共卫生反应[30.，31]。利用情感挖掘技术扩大这种疾病预测和预测模型也可能影响循证政策。了解人口情绪的动态水平，使公共卫生官员能够设计出符合需要的政策沟通策略。通过提供必要的工具，更好地了解与疾病预防、控制和遏制有关的公众情绪，政策制定者将更好地评估方案的成功，并强调重新定位的必要性。

此外，通过社交媒体分享的情绪分析可能被证明是打击网络上猖獗的错误信息和虚假信息的重要工具。由于错误信息的传播带来了一系列心理和社会心理风险(焦虑和恐惧等)，因此迫切需要了解公众对共享虚假信息的看法和态度。根据民众表达的情绪量身定制的教育提供系统可能有助于澄清此类错误信息。此外，人工智能信息系统还有扩展的空间，其任务是对通过社交媒体平台分享的一波又一波的错误信息和虚假信息做出回应。总的来说，拟议的实时情绪分析框架可能有助于指导政府支持公共卫生恢复工作。

限制

与大多数研究一样，我们的研究也有一些局限性。由于一些长期存在的问题，在对社交媒体文本进行情感分析时遇到了挑战。尽管BERT和较新的模型极大地缓解了许多这些挑战，但一些模型通常很难在文本中检测讽刺、幽默、情感和复杂的推理，除非经过专门的训练。例如，许多支持接种疫苗的社交媒体用户对反对接种疫苗的社区表达了极其负面的看法和情绪。伯特会如何分类这样的事件呢?尽管他们表达了对疫苗的积极看法，但许多自然语言处理算法和数据标记器可能会与这种类型的分类作斗争。尽管我们在这项研究中非常小心地删除了机器人的推文或推特上高度重复用户的推文，并选择了公正的子红迪网，但仍有可能有一些人在数据清理过程中被遗漏。此外，由于语义内容相对相似，在对模型进行微调时，增强的数据可能会导致过拟合问题。我们限制了我们的训练周期，并密切监控训练损失和验证损失之间的关系，以减轻这个潜在的问题。未来的工作可能包括努力创建一个更大的标记数据集，不仅包括COVID-19疫苗的情绪，还包括其他疫苗的情绪。

结论

我们对大约7万条Reddit评论和950万条tweet进行了情绪分析，并使用了一个微调过的蒸馏roberta模型。我们的分析发现，在整个疫情期间，Reddit和Twitter用户的情绪都出现了类似的变化，尽管Twitter的情绪比Reddit负面得多。尽管每个月都观察到情绪的微妙差异，但随着COVID-19疫苗对公众变得容易获得，两个平台的积极情绪都大幅增加。我们在这里提出的结果是一项正在进行的研究的一部分，该研究旨在调查社交媒体上与疫苗相关的内容，重点是识别和打击错误信息，以减少疫苗犹豫。将强烈的情绪与高感染率联系起来，可以为官员预测公众对诸如接种疫苗等移徙战略的接受程度。这些综合疾病监测工具不仅应用于抗击COVID-19，而且应在未来卫生政策、决策、规划实施和精准健康促进的演变中发挥重要作用[32]。在不久的将来，我们的团队计划将本研究中展示的方法扩展到与其他类型疫苗(例如人乳头瘤病毒疫苗)相关的情绪。我们期望这些结果与其他结果一起用于开发工具，以协助公共卫生官员监测有关疾病爆发的公众话语，更好地了解疫苗犹豫，并开发个性化的数字干预措施[33，34和教育活动。

致谢

我们要感谢来自田纳西大学健康科学中心的数据标注团队。本研究部分由美国国家癌症研究所(NCI)资助(1r37ca23419 - 01a1)。

数据可用性

支持我们研究结果的数据可在作者提出合理要求时获得。数据不能用于商业用途。

作者的贡献

CAM构思和监督研究，起草，审查和编辑手稿。宝马概念化研究和起草，审查，并编辑手稿。RLD对稿件进行了审阅和编辑。RAB审阅并编辑了原稿。ASN起草、审查和编辑稿件;监督研究;并获得了资金。

利益冲突

没有宣布。

夏玛C, Whittle S, Haghighi PD, Burstein F, Keen H.社交媒体帖子对药物治疗的情感分析:范围回顾。药理学杂志，2020;8(5):e00640 [j]免费全文] [CrossRef] [Medline］
Bento AI, Nguyen T, Wing C, Lozano-Rojas F, Ahn Y, Simon K.来自互联网搜索数据的证据显示，当地COVID-19病例新闻的信息寻求反应。中国科学:自然科学通报，2020;17(5):11220-11222 [j]免费全文] [CrossRef] [Medline］
Auxier B, Anderson M. 2021年社交媒体使用情况。皮尤研究中心，2021年4月7日。URL:https://www.pewresearch.org/internet/2021/04/07/social-media-use-in-2021/[2022-03-20]访问
Melton CA, Olusanya OA, Ammar N, Shaban-Nejad a . Reddit社交媒体平台上关于COVID-19疫苗的公众情绪分析和主题建模:加强疫苗信心的行动呼吁。[J]中华卫生杂志，2010;14(10):1505-1512 [J]免费全文] [CrossRef] [Medline］
Raveendran AV, Jayadevan R, Sashidharan S. Long:概述。Diabetes Metab Syndr; 2021;15(3):869-875 [j]免费全文] [CrossRef] [Medline］
Rosenberg ES, Holtgrave DR, Dorabawila V, Conroy M, Greene D, Lutterloh E，等。按疫苗接种状况分列的成人COVID-19新病例和住院情况——纽约，2021年5月3日至7月25日。MMWR Morb Mortal weekly Rep 2021 Sep 17;70(37):1306-1311 [免费全文] [CrossRef] [Medline］
世卫组织冠状病毒(COVID-19)仪表板。世界卫生组织。URL:https://covid19.who.int/[2022-03-20]访问
Benham JL, Atabati O, Oxoby RJ, Mourali M, Shaffer B, Sheikh H，等。加拿大COVID-19疫苗相关态度和信念:全国横断面调查和聚类分析JMIR公共卫生监测2021 Dec 23;7(12):e30424 [j]免费全文] [CrossRef] [Medline］
Clement J.截至2022年1月，全球最受欢迎的社交网络，按月活跃用户数量排名。Statista. 2022年1月https://www.statista.com/statistics/272014/global-social-networks-ranked-by-number-of-users/[2022-03-20]访问
Devlin J, Chang MW, Lee K, Toutanova K. Bert:基于深度双向变换的语言理解预训练。演讲地点:计算语言学协会北美分会2019年会议:人类语言技术;2019年6月2日至7日;明尼阿波利斯，明尼苏达州第4171-4186页。［CrossRef］
Alsentzer E, Murphy J, Boag WH, Weng W, Jin D, Naumann T，等。公开可用的临床BERT嵌入。2019年6月出席:第二届临床自然语言处理研讨会;2019年6月7日;明尼阿波利斯，明尼苏达州，第72-78页。［CrossRef］
李军，尹伟，金山，金东，金山，苏昌，等。BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型。生物信息学2020 Feb 15;36(4):1234-1240 [j]免费全文] [CrossRef] [Medline］
刘勇，刘勇。新冠肺炎错误信息检测:基于机器学习的信息传播解决方案。中华流行病学杂志[j] .中华流行病学杂志，2009;2(2):888 - 888。［CrossRef］
Beddiar DR, Jahan MS, Oussalah M.使用反向翻译和意译进行仇恨言论检测的数据扩展。在线Soc网络媒体2021年7月24日:100153。［CrossRef］
刘勇，Ott M, Goyal N，杜军，Joshi M，陈东，等。罗伯塔:一种鲁棒优化的bert预训练方法。2019年7月26:1-13。［CrossRef］
Sanh V, Debut L, Chaumond J, Wolf T.蒸馏版的BERT:更小、更快、更便宜、更轻。2019年10月02:1-5。［CrossRef］
Blane JT, Bellutta D, Carley KM。COVID-19疫苗初始推出期间的社交网络策略:推文的内容分析。[J]互联网研究与发展，2010;24(3):394 - 394 [J]免费全文] [CrossRef] [Medline］
Singh R, Singh R, Bhatia A.基于机器学习技术的情绪分析预测疫情和流行病。国际科学学报，2018;3(2):19-24 [J]免费全文］
唐丽，别波，朴诗，志东。社交媒体与新发传染病暴发:文献综述。中华传染病杂志，2018;46(9):962-972 [J]免费全文] [CrossRef] [Medline］
张建军，刘建军，李建军，等。缺乏信任、阴谋论和社交媒体的使用预示着COVID-19疫苗的犹豫。疫苗(巴塞尔)2021 Jun 03;9(6):593 [免费全文] [CrossRef] [Medline］
Puri N, Coomes EA, Haghbayan H, Gunaratne K.社交媒体与疫苗犹豫:COVID-19和全球化传染病时代的新进展。疫苗免疫学2020年11月1日;16(11):2586-2593 [j]免费全文] [CrossRef] [Medline］
王晓明，王晓明。情感分析中二元、三元和多类分类的准确性研究。计算机科学进展[J]; 2018;9(2):524-526。［CrossRef］
侯忠，童勇，杜峰，陆磊，赵生，余坤，等。评估COVID-19疫苗犹豫、信心和公众参与:一项全球社会倾听研究。[J] .中国医学信息学报，2011;23(6):888 - 888 [J]免费全文] [CrossRef] [Medline］
李建军，李建军，李建军，李建军，等。用基于转换器的机器学习模型对疫苗信心进行分类:Twitter话语中疫苗情绪的细微差别分析。JMIR Med Inform 2021 Oct 08;9(10):e29584 [j]免费全文] [CrossRef] [Medline］
廉勇，李建民，张俊杰，金勇，金俊，金森，等。韩语医学词汇语义相似度和相关性的词对数据集:参考开发和验证。中国医学信息学报，2011;9(6):996 [j]免费全文] [CrossRef] [Medline］
杨晓军，周峰。利用可解释的自然语言处理模型抗击新冠肺炎疫情。Inf Process management 2021;58(4):102569 [j]免费全文] [CrossRef] [Medline］
Koren A, Alam MAU, Koneru S, DeVito A, Abdallah L, Liu B.护理对COVID-19影响的观点:社交媒体内容分析。JMIR Form Res 2021 12月10日;5(12):e31358 [免费全文] [CrossRef] [Medline］
Hussain A, Tahir A, Hussain Z, Sheikh Z, Gogate M, Dashtipour K，等。英国和美国Facebook和Twitter上公众对COVID-19疫苗态度的人工智能分析:观察性研究[J]医学互联网研究，2021年4月05日;23(4):e26627 [J]免费全文] [CrossRef] [Medline］
王晓明，王晓明，王晓明，等。了解公众对COVID-19接触者追踪应用程序的看法:基于人工智能的社交媒体分析。[J]互联网研究与发展[J]; 2009;23(5): 563 - 568 [J]免费全文] [CrossRef] [Medline］
提高COVID-19疫苗接种率的有效激励措施。精神医学2021九月20:1-3 [j]免费全文] [CrossRef] [Medline］
Romaniuc R, Guido A, Mai N, Spiegelman E, sultan A.增加疫苗接受和吸收:证据综述。SSRN预印本于2021年5月11日发布在网上。［CrossRef］
Shaban-Nejad A, Michalowski M, Peek N, Brownstein JS, Buckeridge DL。精准数字医疗的七大支柱。[j] .中国生物医学工程学报(英文版);2009;33(3):391 - 391。［CrossRef] [Medline］
Olusanya OA, Ammar N, Davis RL, Bednarczyk RA, Shaban-Nejad A.一个数字个人健康图书馆，实现精确健康促进，预防人类乳头状瘤病毒相关癌症。前肢健康2021七月21日;3:68 . 3161 [免费全文] [CrossRef] [Medline］
Olusanya OA, White B, Melton CA, Shaban-Nejad A.审查数字卫生的实施情况，以加强非洲国家COVID-19大流行应对和恢复并扩大疫苗的公平获取。JMIR Form Res 2022 May 17;6(5):e34363 [j]免费全文] [CrossRef] [Medline］

‎

伯特:来自变压器的双向编码器表示

C . Basch编辑;提交20.06.22;由I Kagashe, M Yousef同行评审;对作者的评论28.07.22;收到修订版本18.08.22;接受15.09.22;发表17.10.22

©Chad A Melton, Brianna M White, Robert L Davis, Robert A Bednarczyk, Arash Shaban-Nejad。原载于医学互联网研究杂志(//www.mybigtv.com)， 2022年10月17日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

COVID-19疫苗相关社交媒体数据的微调情感分析:比较研究