卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J医学网络杂志

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析

加拿大多伦多

v24i10e40408

36174192

10.2196/40408

原始论文

2019冠状病毒病疫苗相关社交媒体数据的精细情绪分析:比较研究

Basch

科里

Kagashe

Ireneus

尤瑟夫

Murooj

梅尔顿

乍得一

MSc 1 2

https://orcid.org/0000-0002-5801-0346

白色

布丽安娜米

英里每小时 2

https://orcid.org/0000-0001-7576-5874

戴维斯

罗伯特·L

医学博士 2

https://orcid.org/0000-0001-8807-0019

Bednarczyk

罗伯特一个

博士学位 3.

https://orcid.org/0000-0002-6812-0928

Shaban-Nejad

乔

英里每小时,博士 2

生物医学信息中心医学院儿科学系田纳西大学健康科学中心

邓拉普街北50号，492R

孟菲斯,TN, 38103

美国 1 9012875836 ashabann@uthsc.edu

https://orcid.org/0000-0003-2047-4759

1 布莱德森跨学科研究与研究生教育中心田纳西大学诺克斯维尔分校

诺克斯维尔,TN

美国 2 生物医学信息中心医学院儿科学系田纳西大学健康科学中心

孟菲斯,TN

美国 3. 休伯特全球卫生部罗林斯公共卫生学院埃默里大学

亚特兰大,乔治亚州

美国

通讯作者:Arash Shaban-Nejad ashabann@uthsc.edu

10 2022

17 10 2022

24 10

e40408

20. 6 2022 28 7 2022 18 8 2022 15 9 2022

©Chad A Melton, Brianna M White, Robert L Davis, Robert A Bednarczyk, Arash sha - nejad。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2022年10月17日。

2022

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布，该协议允许在任何媒体上不受限制地使用、分发和复制，前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物链接，以及版权和许可信息。

背景

新型冠状病毒(COVID-19)的出现和必要的人口隔离导致寻求与大流行相关信息的新社交媒体用户数量达到前所未有的水平。目前，全球约有45亿用户，社交媒体数据为近实时分析与疾病暴发和疫苗接种有关的大量文本提供了机会。官员可以利用这些分析制定适当的公共卫生信息、数字干预措施、教育材料和政策。

客观的

我们的研究调查并比较了2020年1月1日至2022年3月1日期间在两个流行的社交媒体平台——reddit和twitter上表达的与COVID-19疫苗相关的公众情绪。

方法

为了完成这项任务，我们创建了一个微调的DistilRoBERTa模型来预测大约950万条推文和7万条Reddit评论的情绪。为了微调我们的模型，我们的团队手动标记3600条推文的情绪，然后通过反向翻译增强我们的数据集。然后，我们使用Python编程语言和hugs Face情感分析管道进行微调模型，对每个社交媒体平台的文本情感进行分类。

结果

我们的结果确定，Twitter上表达的平均情绪是负面的(5215,830 /9,518,270,54.8%)多于正面的，Reddit上表达的情绪是正面的(42,316/67,962,62.3%)多于负面的。尽管这些社交媒体平台之间的平均情绪有所不同，但这两个平台在大流行期间与疫苗相关的关键进展中表现出的情绪相似。

结论

考虑到社交媒体平台上这种情绪共享的类似趋势，Twitter和Reddit继续是公共卫生官员可以用来增强疫苗信心和打击错误信息的宝贵数据来源。由于错误信息的传播带来了一系列心理和社会心理风险(焦虑和恐惧等)，因此迫切需要了解公众对共享错误信息的看法和态度。根据人们表达的情感量身定制的综合教育提供系统，促进数字素养、健康信息寻求行为和精确健康促进，有助于澄清这种错误信息。

情绪分析 DistilRoBERTa 自然语言处理社交媒体推特 Reddit 新型冠状病毒肺炎疫苗接种疫苗内容分析公共卫生监测错误信息 infodemiology 信息质量

简介背景

新型冠状病毒(COVID-19)影响和扰乱了世界各地日常生活的许多方面。在2020年初实施严格的大流行缓解战略后，社交媒体使用大幅增加，互联网用户转向社交媒体平台交流和收集有关动态和不确定形势的信息[ 1- 4］．随着大流行的进展和研究人员努力开发疫苗，许多社交媒体用户将注意力转向收集与COVID-19疫苗相关的各种主题的信息，如副作用、可用性和有效性。截至2022年5月19日，全球约有627万人死于COVID-19并发症。此外，许多人经历了长时间COVID综合征，其中病毒症状持续超过预期的临床恢复时间[ 5］．尽管COVID-19疫苗在预防危及生命的感染、住院和死亡方面是安全和有效的，但与COVID-19疫苗相关的疫苗犹豫已导致进一步的共病和许多可预防的死亡[ 6- 8］．

全球估计有45亿用户，社交媒体提供了对大量文本数据(每天5亿条推文)进行近实时分析的机会，这可能对公共卫生官员有用[ 3.， 9］．使用机器/深度学习，自然语言处理方法的最新进展(例如，来自transformer的双向编码器表示[BERT]、RoBERTa、GPT2和XLNet)大大改进了以前的文本分类模型(准确率超过90%)[ 4， 10- 14］．此外，像BERT或RoBERTa这样经过预先训练的模型可以从hug Face这样的平台上免费提供给研究人员。这些平台对更大的科学界非常有帮助，考虑到许多这样的模型需要在几十个张量处理单元上花费几天的时间来学习[ 15， 16］．重要的是，这些模型可以基于特定的用例进行微调(例如，文本分类、文本生成和情感分析)。增强的功能为研究人员提供了研究跨越多个科学领域的各种现象的技术[ 17- 19］．情绪分析(即将文本分为正面或负面)尤其是一种强大的工具，可用于将事件与公众情绪联系起来，监视公共卫生讨论，甚至检测疾病爆发[ 18］．最重要的是，公共卫生官员可以利用这些方法制定精确的信息传递战略和干预运动，以应对信息危机和提高疫苗接种率。

我们的研究试图检查和探索在两个流行的社交媒体平台——reddit和Twitter上表达的关于COVID-19疫苗的情绪。我们通过创建一个定制微调的DistilRoBERTa模型来计算积极情绪和消极情绪，该模型的数据由我们的团队成员标记，然后通过反向翻译进行增强。然后，我们在Reddit和Twitter上比较了人们对COVID-19疫苗的看法。我们假设，我们会观察到两个社交媒体平台之间的极性趋势有些相似，但有细微的差异，因为DistilRoBERTa通常显示的准确性高于90% [ 16］．然而，我们期望我们的标记数据集能够提供比之前的情绪分析方法更细致的洞察这两个社区的公众情绪。此外，基于我们之前的工作，我们假设情绪将保持积极多于消极[ 4］．最后，我们认为，识别和跟踪社交媒体上的共享情绪有助于最终制定全面的应对策略，从而更好地打击错误信息和虚假信息;改善疫苗供应;以及遏制疾病传播。

与covid -19相关的社交媒体分析

社交媒体内容分析并不是一个全新的概念，在新冠肺炎疫情之前就已经被用于数据挖掘和情感分析。然而，大流行应对措施的性质以及为安全而对人群进行的必要隔离导致了空前数量的新用户[ 9］．这种涌入导致社交网络帖子激增，给研究人员留下了大量需要整理的内容。社交媒体数据挖掘的一个积极方面是，内容是公开的，很容易获得，可以快速收集。快速收集的数据，特别是与COVID-19有关的数据，使研究人员能够跟踪大流行的进展和网络上的情绪。例如，快速收集特定时间段的推文的能力允许在重大事件期间并行分析一般公众意见，如2020年底辉瑞疫苗发布或名人在covid -19感染后去世[ 20.］．这种有针对性的方法为发现小众群体和探索卫生决策背后的情感提供了工具。

研究人员利用最近意见分享的增加来衡量总体情绪和对疫苗的犹豫或接受程度[ 4， 20.- 24］．在大流行时期，随着社交媒体的使用持续增长，已知有超过36亿人定期登录至少一个社交平台。推特被认为是最大、使用最多的社交媒体平台之一，拥有4亿多账户。 9］．该平台允许用户发布短消息或推文，让“追随者”看到并做出回应，基于他们所唤起的潜在情绪。推文仅限于280个字符的简短信息，但可能包含附加的图片、视频或被称为“hashtags”的热门关键词。此外，推特可以包含新闻文章或科学文献的超链接。如果另一个用户同意发布的推文，他们可以“转发”或分享到他们的个人资料，以显示关系融洽。用户通常会关注其他用户，而不是加入基于主题的社区。

Reddit平台的规模与之类似，目前有约4.3亿用户[ 9］．不过，它在消息格式和传递方式上有所不同，用户可以根据主题创建分组，称为“看板”(subreddits)。reddit的子版块通常在图片、视频和新闻文章或文学作品的超链接旁边包含公开对话。类似于“转发”，reddit订阅用户可以根据用户对内容的看法为帖子投“支持票”或“反对票”。用户还可以通过留言加入讨论，留言也可以被点赞或否定票。如果一个reddit的子版块变得越来越受欢迎，并获得了大量的赞，该帖子将首先出现在一个主题类别中。一个Reddit的子版块获得的流量越多，即使它分享的是错误信息或虚假信息，Reddit平台对它的提升也会越高。值得注意的是，看板通常有社区成员必须遵守的规则，否则就有可能被删除或禁止。

伯特算法

自BERT及其体系结构构建的工作开发以来，自然语言处理已经取得了实质性进展。BERT是谷歌AI language开发的一种强大而通用的基于人工智能的自然语言处理算法，擅长对具有社交媒体数据特征的非结构化/半结构化文本数据进行文本分类(即本体、类别和情感等)[ 10］．BERT算法使用16个基于云的张量处理单元在完整的Wikipedia和Brown语料库上进行了4天的训练。BERT是一个基于转换器的语言模型，它使用多个编码器来创建单词嵌入。然后将这些嵌入与掩码语言建模和下句预测协同使用，分别通过预测句子中的随机掩码词和学习预测句子进行学习。这两个步骤教会BERT理解上下文，这是旧的循环神经网络通常难以掌握的一项技能。BERT的一个方便的方面是，它能够使用相关数据对模型进行微调，方法是用来自自定义数据的权重替换输出层。研究人员受到原始BERT体系结构的启发，创建了许多变体(例如，RoBERTa、DistilRoBERTa、DistilBERT和BART等)，这些变体已经超过了以前模型的基准。此外，这些模型可以用多种语言对特定的基于领域的任务(ClinicalBERT和BioBERT)进行微调[ 11， 12， 25］．此外，一些研究使用了其他微调的BERT模型来调查社交媒体上表达的与covid -19相关的内容，这些内容涉及错误信息检测、情绪分类和大洲分析[ 13， 26- 29］．

方法研究概述

我们的研究比较了2020年1月1日至2022年3月1日在两个流行的社交媒体平台——reddit和twitter上发布的与COVID-19疫苗相关的帖子。之所以选择这两个平台，是因为它们的全球使用率、活跃的讨论和高用户数。时间框架包括大流行的最早阶段，以追踪情绪随时间的演变。最重要的是，选择这些平台是因为只有少数比较研究关注典型用户，特别是与COVID-19疫苗情绪或其他疫苗相关的研究。我们的研究使用二元(即，正极性或负极性)情感分类方法来训练我们的模型和情感分析。选择双星系统有几个原因。(1)二进制系统在处理大量数据时计算效率更高。(2)二元分类器通常比多类系统更准确。(3)过去，包含中性类别的情绪分类器通常依赖于较低的概率或信心得分。由于我们的模型报告了一个置信度值，因此可以推断该信息。

数据概述

为了识别和删除被发现直接来自新闻机构或机器人的推特帖子，他们付出了大量努力。这些帖子是通过在26个月的时间里，相对于一个“正常”用户的平均帖子数，它们的来源拥有极高的帖子数来识别的，同时也通过视觉检查那些出现频率异常的用户的推文来识别。Twitter和Reddit的数据集都被限制在只包括在我们的时间范围内发帖少于或等于200次的用户。这些步骤非常重要，因为许多bot推文具有重复性，这有可能扭曲情绪计算，并使比较两个平台的正常用户基数的目标不一致。尽管收集Reddit和Twitter数据的方法略有不同，但这两个数据集都经历了类似的清理步骤。对这两组数据进行了查询，以查询通常出现在关于COVID-19疫苗的网上讨论中的相同相关术语。这一步很重要，因为一些扩展的评论线程倾向于偏离主题。这种情况在一些Reddit社区的帖子中尤其明显。在疫情爆发的最初几个月，这两个平台的日发布频率相对相似。2020年9月下旬至10月期间，随着疫苗流通的新闻变得更加广泛，这两个平台的频率急剧增加。 Although each platform displayed 4 spikes in posting frequency at similar time periods (October 2020, March to April 2021, August to September 2021, and December 2021 to January 2022), they obtained a maximum in different time periods. Reddit reached its maximum posting from March to April 2021, whereas Twitter reached its maximum from September to October 2021.

推特

大约1300万条推文是通过 snscrape而且 Tweepy基于搜索词“COVID Vaccine”的API Python库。在删除了疑似机器人、新闻媒体或高度重复的高频用户和重复的推文后，我们最终的推特数据集包括3,006,075名推特用户撰写的9,518,270条推文。这些推文总共获得了大约1632万个赞，最多430758个赞，平均每条推文有14.9个赞。推文不能被点赞，但大约有4,794,865条推文被归为0点赞。没有收集推文分享或转发的统计数据，因为这两个平台都没有这个指标。

我们从67个使用Python Reddit API的Reddit子版块中收集了579,241个用户创建的帖子包装器．收集这些看板是为了广泛了解与COVID-19疫苗相关的情绪，并避免数据收集中的潜在偏见。截至2022年3月1日，这些看板共有5,590,913名订阅者。我们的查询删除了大量不相关的术语。在可视化检查和确认查询过程的结果之后，我们最终的Reddit数据集由至少9843位作者组成的67,962条评论组成。这些帖子总共获得了大约210万个赞，平均31个赞，每条评论最多18,253个赞。

数据标记和扩充

由于在全球大流行中，时间是至关重要的，再加上标签数据既耗时又昂贵，我们根据标签情绪(积极或消极)为大约3600条与COVID-19疫苗相关的推文创建了一个定制培训数据集。我们选择为这项研究专门标记推文，因为一条推文的280个字符的限制(即，与Reddit帖子的10,000个字符的限制相比)将允许我们的小团队更快地创建一个与时间相关的训练数据集。然后，我们通过使用hugs Face模型存储库中的几种语言模型进行反向翻译的过程来增强我们的数据集。在测试了其他几种文本增强方法后，选择了反向翻译。一些技术(例如，单词屏蔽)会导致更多的重复文本，最终需要删除。反向翻译依赖于语言结构、词义和句法之间的细微差别。实际上，输出文本会与输入文本稍有不同，但不会失去语义和上下文意义[ 14］．在我们的例子中，反向翻译方法将英语文本翻译成另一种语言(如法语、汉语、希腊语和希伯来语)，然后再翻译回英语。在删除重复信息之后，我们最终的增强数据集由48,691条tweet组成。

罗伯塔和DistilRoBERTa

对于我们的研究，我们选择探索DistilRoBERTa的功能。RoBERTa是一个比BERT更健壮的模型，蒸馏RoBERTa是RoBERTa的优化版本[ 15， 16］．在Facebook开发的RoBERTa使用160gb的文本，而BERT使用16gb的文本。RoBERTa放弃了BERT的下句预测功能，在训练过程中增加了动态标记掩蔽。据估计，这些改进显著提高了原始BERT的性能(2%至20%)[ 16］．与RoBERTa相比，DistilRoBERTa训练了大约40 GB的文本数据(OpenWebTextCorpus)，运行速度大约是RoBERTa的两倍。

田纳西大学健康科学中心疫苗情绪标记和蒸馏roberta微调

我们通过拥抱脸微调了DistilRoBERTa基地教练类，它为用户提供了用于训练的API PyTorch。然后，我们的数据被随机分为40000条训练推文、4000条验证推文和4691条推文进行测试。训练超参数包括2 × 10⁵学习率，32个训练和评估批次大小，42个种子数，和一个具有500个热身步骤的线性调度程序。我们使用了亚当优化器，beta值为0.9和0.999,epsilon为1 × 10⁸．最后，对模型进行2期训练。这些超参数的训练损失为0.1284，验证损失为0.1167，精度为0.9561 F₁-score为0.9592，精度为0.9592(见表1)．

表1

DistilRoBERTa微调培训指标。经过2个训练期，模型得到了最优的微调。

一步	时代	培训损失	确认损失	精度	精度	F₁分数
500	0.4	0.5903	0.4695	0.7342	0.7728	0.7890
1000	0.8	0.3986	0.3469	0.8144	0.8596	0.8684
1500	1．2	0.2366	0.1939	0.9313	0.9260	0.9253
2000	1．6	0.1476	0.1560	0.9207	0.9452	0.9465
2500	2.0	0.1284	0.1167	0.9561	0.9592	0.9592

分析方法

随着模型的微调，我们通过拥抱脸处理Twitter和Reddit的数据管道情绪分析。该模型为每条推文或Reddit评论返回一个积极或消极的标签。随着极性的确定，模型还返回一个从0到1的概率置信度得分。为了明确起见，被分类为负面的推文或评论乘以-1来反映负面情绪。

道德的考虑

由于所使用数据的可公开性和不可识别性，不需要我们机构的伦理批准。

结果对COVID-19疫苗进行了微调推特

DistilRoBERTa微调极性分析确定，在我们的时间框架内，9,518,270条推文的负面(n=5,215,830, 54.8%)多于正面(n=4,302,440, 45.2%) 图1)．

最高阳性评分发生在2021年3月(375,789/675,274 55.6%)。然而，最小的阳性评价发生在2022年1月(191,159/526,582,36.3%)，显示出极性从最大值开始稳步下降。对于信心得分，被分类为积极的推文的最高得分为0.999，最低得分约为0 (3.58 × 10)⁷)，平均值为0.868(见图2)．被分类为负面的推文最低得分为-0.999，最大值约为零(-1.78 × 10⁶)，平均值为-0.882(见图1而且 2)．

图1

推特极性来自微调至COVID-19疫苗的DistilRoBERTa模型。极性和相应的置信概率表示在y轴上，时间表示在x轴上。推文表示为浅蓝色的圆圈。圆圈的大小表示每条推文的点赞数——圆圈越大点赞数越多，圆圈越小点赞数越少。

图2

自信得分与推特点赞数的对比。x轴代表信心得分，y轴代表一条推文收到的点赞数。x轴上低于0.00的数据点表示阴性分类，高于0.00的数据点表示阳性分类。数据点用浅蓝色的圆圈表示。

对微调的DistilRoBERTa模型进行的Reddit情绪极性分析发现，在67,962个帖子中，37.7% (n=25,646)被归为负面，62.3% (n=42,316)被归为正面。我们的实验中报告的最高极性和最大阳性评价发生在2021年4月(6611/9044,73.1%)，最小阳性评价发生在2020年2月(170/351,48.4%)。在信心评分方面，被分类为正面的评论的最高评分为0.999，最低评分约为0 (1.55 × 10)⁴)，平均值为0.870(见图3)．被分类为负面的评论最小值为-0.999，最大值约为0 (-4.74 x 10)⁵)，平均值为-0.808(见图3而且 4)．

图3

Reddit评论从蒸馏roberta模型微调到COVID-19疫苗。y轴表示极性和相应的置信概率，x轴表示时间。数据点用橙红色的圆圈表示。圆的大小表示每个评论的点赞数——更大的圆表示点赞数，更小的圆表示点赞数。

图4

自信得分与Reddit点赞数的对比。x轴表示可信度得分，y轴表示一条评论收到的点赞数。x轴上低于0.00的数据点表示阴性分类，高于0.00的数据点表示阳性分类。数据点用橙红色的圆圈表示。

在Reddit和Twitter上表达对COVID-19疫苗的看法

总体而言，这两个社交媒体平台的平均情绪有所不同(Reddit上有62.3%的人持肯定态度，Twitter上有45.2%的人持肯定态度)。当仔细观察每个月的结果之间的关系时，一个有趣的故事开始出现。尽管在大流行的最初几个月里，这两个平台上的人气都出现了波动，但从2020年1月到8月，Reddit的人气较高(积极度从48%到55%不等)。推特的情绪开始时与Reddit的情绪相似，但逐渐下降，直到2020年9月至10月大幅变得更加负面，然后在2021年3月增加到最高的55%。Reddit的情绪在2020年12月开始急剧上升，并继续上升，直到2021年4月达到最大的积极情绪(约73%)。在每个平台的情绪达到最大正极性后，两者的情绪都开始振荡并逐渐下降，接近大流行早期的水平。然而，Twitter的人气持续下降，直到最低达到36% 图5)．

图5

Twitter和Reddit上与COVID-19疫苗相关帖子的月度人气。x轴表示时间，y轴表示列为积极员额的百分比。蓝线代表Twitter的情绪，橙红色线代表Reddit的情绪。请注意，由于发布频率非常低，2020年1月的情绪是所有其他月份相应数据的平均值。

讨论解释的结果

从2020年1月1日到2022年3月1日，我们的结果显示，Reddit数据集的平均情绪比Twitter上表达的平均情绪更积极。有趣的是，两个平台在大流行的关键时刻表达了相似的情绪变化(例如，疫苗功效宣布、疫苗向所有年龄层分发、新变种和效力减弱)。当疫苗广泛提供给公众，两极分化减弱时，这种行为尤其明显。考虑到这种类似的行为，我们认为Twitter和Reddit仍然是公共卫生官员可以用来发展疫苗教育运动和数字干预的有价值的数据来源。尽管Twitter在通过API访问大量tweet的能力上非常出色，但在清理Twitter数据时需要采取大量步骤，以删除机器人、新闻媒体帖子、商业用户、副本和发帖频率极高的用户。另一方面，Reddit的数据在较长的文本中更丰富，这可能对主题建模更有用。

是什么推动了这两个平台上与COVID-19疫苗相关的情绪变化?一种可能与推特和Reddit帖子的字符限制有关(即分别是280和10,000个字符)。缩短推文的字符限制很可能有助于信息的快速传播，在本质上可能是反动的，导致负面情绪。然而，Reddit用户通常会利用较长的字符限制，分享与他们的医疗保健相关的高度个人的故事和经历。因此，在考虑发展公共卫生信息和教育运动时，Reddit仍然是一个非常有价值的来源。

将情绪的变化与大流行期间的事态发展联系起来，提出了一些有趣的挑战和想法。最明显的情绪急剧上升似乎与有关疫苗开发和试验的积极消息，以及高效率、分发和向耐心等待疫苗的人提供的消息有关。将最低情绪分数联系起来具有挑战性，因为它们的下降并不一致。这种逐渐下降极有可能与大流行相关的不幸事件(例如，错误信息、大流行疲劳和疫苗效力下降)的综合作用有关。可以想象，疫苗推广和分发方面的挑战可能会对情绪产生负面影响。然而，此前对该数据集的部分内容进行的主题建模和语义网络分析并没有发现与疫苗分布相关的术语有意义的出现。因此，迫切需要更多的心理学、社会学和文化研究来了解是什么驱使特定人群、新闻媒体、政客和艺人如此容易地接受和传播错误信息和阴谋论，而不是直接可见的事实。这类研究不仅有利于未来的公共卫生应对措施，也有利于许多其他存在错误信息和虚假信息的生活领域。如果不更彻底地了解如何接触这些人群，数字干预和教育运动的成功可能会受到限制。

公共卫生的影响

我们的研究成果的应用可能对公共卫生部门在抗击COVID-19等传染病方面产生重大影响。为快速收集数据而优化的低人力监测系统的进一步开发将允许实时分析公众情绪与疾病进展的相关性。此外，用于评估情绪上的地理和人口差异的微调模型，可以让我们深入了解处于破坏性结果风险最大的人群的态度。除了地理和人口统计学上的特定数据挖掘外，在感染高峰、疫苗发布或名人、运动员或政治人物因疾病死亡期间针对公共话语，可以极大地加强公共卫生应对工作[ 30.， 31］．使用情感挖掘技术的这种疾病预测和预测模型的扩大也可能影响循证政策。对人口情绪动态水平的洞察使公共卫生官员能够设计出迎合需求的政策传播策略。通过提供必要的工具，更好地理解与疾病预防、控制和遏制有关的公众情绪，政策制定者将更好地评估规划的成功，并强调任何重新定位的需要。

此外，分析通过社交媒体分享的情绪可能被证明是打击网络上传播猖獗的错误信息和虚假信息的重要工具。由于错误信息的传播带来了一系列心理和社会心理风险(焦虑和恐惧等)，因此迫切需要了解公众对共享错误信息的看法和态度。根据民众表达的情绪量身定制的教育交付系统有助于澄清这种错误信息。此外，人工智能信息系统还有扩大的空间，其任务是对通过社交媒体平台分享的错误信息和虚假信息浪潮做出回应。总的来说，拟议的情绪实时分析框架可能有助于指导政府支持公共卫生恢复工作。

限制

和大多数研究一样，我们的研究也有一些局限性。由于一些长期存在的问题，在进行社交媒体文本情感分析时遇到了挑战。尽管BERT和更新的模型极大地缓解了这些挑战，但一些模型通常难以检测文本中的讽刺、幽默、情感和复杂推理，除非经过专门的训练。例如，许多支持疫苗的社交媒体用户对反疫苗群体表达了极其负面的观点和情绪。BERT如何对这种情况进行分类?尽管他们表达的情绪对疫苗是积极的，许多自然语言处理算法和数据标签可能会与这种类型的分类作斗争。尽管我们在这项研究中非常小心地删除了机器人发布的推文或推特上高度重复用户发布的推文，并选择了公正的看板，但仍有可能有一些人通过了数据清理过程。此外，由于语义内容相对相似，在对模型进行微调时，增强数据可能会潜在地导致过拟合问题。我们限制了训练时间，并密切监控训练损失和验证损失之间的关系，以缓解这个潜在的问题。未来的工作可能涉及创建一个更大的标签数据集，不仅包括COVID-19疫苗的情绪，还包括其他疫苗的情绪。

结论

我们使用微调的DistilRoBERTa模型对大约7万条Reddit评论和950万条推文进行了情绪分析。我们的分析发现，在疫情期间，Reddit和Twitter用户表达了类似的情绪变化，尽管Twitter的负面情绪远远超过Reddit。虽然每个月都有细微的情绪差异，但随着新冠疫苗向普通公众开放，两个平台的积极情绪都大幅增加。我们在这里展示的结果是一项正在进行的研究的一部分，该研究旨在调查社交媒体上与疫苗相关的内容，重点是识别和打击错误信息，以减少对疫苗的犹豫。将强烈的情绪与高感染率联系起来，可以为官员们提供预测公众对提供和接受疫苗等移徙战略的接受程度。这些综合疾病监测工具不仅应被用于抗击COVID-19，而且必将在未来卫生政策、决策、规划实施和精准健康促进的演变中发挥关键作用[ 32］．在不久的将来，我们的团队计划将本研究中展示的方法扩展到其他类型的疫苗(如人乳头瘤病毒疫苗)。我们预计这些结果和其他结果将被用于开发工具，以协助公共卫生官员监测有关疾病暴发的公共话语，更好地了解疫苗犹豫，并开发个性化的数字干预措施[ 33， 34]和教育活动。

缩写

伯特

来自变压器的双向编码器表示

我们要感谢田纳西大学健康科学中心的数据标签团队。本研究部分由美国国家癌症研究所(NCI)的拨款(1r37ca234190 - 01a1)支持。

数据可用性

根据作者的合理要求，可以获得支持我们发现的数据。数据不能用于商业用途。

CAM对研究进行了概念化和监督，并起草、审查和编辑了手稿。宝马制定了研究的概念，并起草、审查和编辑了手稿。RLD审阅并编辑了手稿。RAB对手稿进行了审阅和编辑。ASN起草、审阅和编辑了手稿;监督研究;和收购资金。

没有宣布。

沙玛

惠特尔

年代

Haghighi

Burstein

敏锐的

关于药物治疗的社交媒体帖子的情绪分析:范围审查

杂志Res教谕 2020 10 19 8 5 e00640

10.1002 / prp2.640

32813329

PMC7437347

盒饭

人工智能

阮

翼

Lozano-Rojas

安

西蒙

来自互联网搜索数据的证据显示，对当地COVID-19病例新闻的信息寻求反应

美国国家科学研究院 2020 05 26 117 21 11220 11222

10.1073 / pnas.2005335117

32366658

2005335117

PMC7260988

Auxier

安德森

米

2021年的社交媒体使用情况

皮尤研究中心 2021 04 07

2022-03-20

https://www.pewresearch.org/internet/2021/04/07/social-media-use-in-2021/

梅尔顿

Olusanya

办公自动化

阿玛

Shaban-Nejad

一个

Reddit社交媒体平台上关于COVID-19疫苗的公众情绪分析和主题建模:呼吁采取行动，加强对疫苗的信心

J感染公共卫生 2021 10 14 10 1505 1512

10.1016 / j.jiph.2021.08.010

34426095

s1876 - 0341 (21) 00228 - 8

PMC8364208

Raveendran

Jayadevan

Sashidharan

年代

长COVID:概述

糖尿病金属底座Syndr 2021 05 15 3. 869 875

10.1016 / j.dsx.2021.04.007

33892403

s1871 - 4021 (21) 00119 - 3

PMC8056514

罗森博格

西文

Holtgrave

博士

Dorabawila

康罗伊

米

格林

Lutterloh

Backenson

Hoefer

Morne

鲍尔

Zucker

哈

成人新增COVID-19病例和住院情况，按疫苗接种情况分列- 2021年5月3日至7月25日，纽约

MMWR Morb Mortal Wkly Rep 2021 09 17 70 37 1306 1311

10.15585 / mmwr.mm7037a7

34529645

PMC8445378

世卫组织冠状病毒(COVID-19)仪表盘

世界卫生组织 2022-03-20

https://covid19.who.int/

班

莱托

Atabati

Oxoby

Mourali

米

谢弗

谢赫。

布歇

Constantinescu

帕森斯利

iver

纳米

Ratzan

富勒顿

毫米

唐

曼

马歇尔

达

胡

朗

加拿大COVID-19疫苗相关态度和信念:全国横断面调查和聚类分析

JMIR公共卫生监测 2021 12 23 7 12 e30424

10.2196/30424

34779784

v7i12e30424

PMC8709417

克莱门特

截至2022年1月，全球最受欢迎的社交网络，按月活跃用户数排名

Statista 2022 01

2022-03-20

https://www.statista.com/statistics/272014/global-social-networks-ranked-by-number-of-users/

Devlin

常

兆瓦

李

Toutanova

伯特:深度双向转换语言理解的预训练

2019 06

2019年计算语言学协会北美分会会议:人类语言技术

2019年6月2 - 7日,

明尼阿波利斯、锰

4171 4186

10.18653 / v1 / n19 - 1423

Alsentzer

墨菲

Boag

翁

金

瑙曼

麦克德莫特

米

公开的临床BERT嵌入

2019 06

第二届临床自然语言处理研讨会

2019年6月7日

明尼阿波利斯、锰

72 78

10.18653 / v1 / w19 - 1909

李

尹

金

年代

金

年代

所以

康

BioBERT:一种预训练的生物医学语言表示模型，用于生物医学文本挖掘

生物信息学 2020 02 15 36 4 1234 1240

10.1093 /生物信息学/ btz682

31501885

5566506

PMC7703786

Kolluri

刘

没吃

COVID-19错误信息检测:信息大流行的机器学习解决方案

JMIR Infodemiology 2022 8 25 2 2 e38756

10.2196/38756

Beddiar

博士

贾汗

女士

Oussalah

米

使用反译和释义进行仇恨言论检测的数据扩展

在线社会网络媒体 2021 07 24 100153

10.1016 / j.osnem.2021.100153

刘

奥特

米

Goyal

杜

Joshi

米

陈

莱维

刘易斯

米

Zettlemoyer

Stoyanov

罗伯塔:一种鲁棒优化的伯特预训练方法

ArXiv 2019 07 26 1 13

10.48550 / arXiv.1907.11692

山

首次亮相

Chaumond

狼

蒸馏酒，蒸馏版的伯特:更小，更快，更便宜，更轻

ArXiv 2019 10 02 1 5

10.48550 / arXiv.1910.01108

布莱恩

Bellutta

Carley

公里

在COVID-19疫苗初步推出期间的社交网络操作:推文的内容分析

J医学网络杂志 2022 03 07 24 3. e34040

10.2196/34040

35044302

v24i3e34040

PMC8903203

辛格

巴蒂亚

一个

情绪分析使用机器学习技术预测疫情和流行病

国际自然科学 2018 03 3. 2 19 24

唐

Bie

公园

年代

智

社交媒体与新发传染病的爆发:文献系统综述

感染控制 2018 09 46 9 962 972

10.1016 / j.ajic.2018.02.010

29628293

s0196 - 6553 (18) 30105 - 6

PMC7115293

20.

詹宁斯

斯托克

彩旗

Valgarðsson

维克多Orri

盖斯凯尔

迪瓦恩

麦凯

米尔斯

缺乏信任、阴谋主义信念和使用社交媒体预示着COVID-19疫苗的犹豫

疫苗(巴塞尔) 2021 06 03 9 6 593

10.3390 / vaccines9060593

34204971

vaccines9060593

PMC8226842

普里

锯屑

Haghbayan

Gunaratne

社交媒体和疫苗犹豫:COVID-19和全球化传染病时代的新进展

哼菌苗Immunother 2020 11 01 16 11 2586 2593

10.1080 / 21645515.2020.1780846

32693678

PMC7733887

Shakir

一个

Arora

二元、三元和多类分类情感分析的准确性综述

高等分辨率计算科学 2018 2 20. 9 2 524 526

10.26483 / ijarcs.v9i2.5866

侯

通

杜

陆

赵

年代

余

Piatek

拉森

沪江

林

评估COVID-19疫苗的犹豫、信心和公众参与:一项全球社会倾听研究

J医学网络杂志 2021 06 11 23 6 e27632

10.2196/27632

34061757

v23i6e27632

PMC8202656

Kummervold

体育

马丁

年代

达达

年代

Kilich

丹尼

帕特森

拉森

沪江

用基于变压器的机器学习模型对疫苗信心进行分类:分析推特话语中疫苗情绪的细微差别

地中海JMIR通知 2021 10 08 9 10 e29584

10.2196/29584

34623312

v9i10e29584

PMC8538052

百胜

李

张成泽

乔丹

金

年代

胫骨

首歌

年代

锺株

沪江

韩语医学词汇语义相似度和相关度的词对数据集:参考发展和验证

地中海JMIR通知 2021 06 24 9 6 e29667

10.2196/29667

34185005

v9i6e29667

PMC8277378

Ayoub

杨

周

使用可解释的自然语言处理模型抗击COVID-19信息疫情

正过程等内容 2021 07 58 4 102569

10.1016 / j.ipm.2021.102569

33776192

s0306 - 4573 (21) 00070 - 4

PMC7980090

科伦

一个

阿拉姆

茂

Koneru

年代

DeVito

一个

阿卜杜拉

刘

新冠肺炎影响的护理视角:社交媒体内容分析

Res JMIR形式 2021 12 10 5 12 e31358

10.2196/31358

34623957

v5i12e31358

PMC8668023

侯赛因

一个

Tahir

一个

侯赛因

谢赫。

Gogate

米

Dashtipour

阿里

一个

谢赫。

一个

人工智能支持的对英国和美国Facebook和Twitter上公众对COVID-19疫苗态度的分析:观察性研究

J医学网络杂志 2021 04 05 23 4 e26627

10.2196/26627

33724919

v23i4e26627

PMC8023383

Cresswell

Tahir

一个

谢赫。

侯赛因

Dominguez埃尔南德斯

安德烈斯

哈里森

威廉姆斯

谢赫。

一个

侯赛因

一个

了解公众对COVID-19接触追踪应用程序的看法:支持人工智能的社交媒体分析

J医学网络杂志 2021 05 17 23 5 e26618

10.2196/26618

33939622

v23i5e26618

PMC8130818

30.

Salali

Uysal

女士

增加COVID-19疫苗使用的有效激励措施

Psychol地中海 2021 09 20. 1 3.

10.1017 / S0033291721004013

34538287

S0033291721004013

PMC8485007

Romaniuc

圭多

一个

梅

Spiegelman

苏达灭

一个

增加疫苗的接受和吸收:证据审查

SSRN 预印本于2021年5月11日发布在网上

10.2139 / ssrn.3839654

Shaban-Nejad

一个

Michalowski

米

偷看

布朗斯坦

Buckeridge

戴斯。莱纳姆:

精准数字健康和医疗的七大支柱

Artif智能医疗 2020 03 103 101793

10.1016 / j.artmed.2020.101793

32143798

s0933 - 3657 (19) 31231 - x

Olusanya

办公自动化

阿玛

戴维斯

Bednarczyk

类风湿性关节炎

Shaban-Nejad

一个

一个数字个人健康库，用于精确促进健康，预防人类乳头状瘤病毒相关的癌症

前面数字健康 2021 7 21 3. 683161

10.3389 / fdgth.2021.683161

34713154

PMC8521976

Olusanya

办公自动化

白色

梅尔顿

Shaban-Nejad

一个

审查数字卫生的实施情况，以加强COVID-19大流行的应对和恢复，并扩大非洲国家公平获得疫苗的机会

Res JMIR形式 2022 05 17 6 5 e34363

10.2196/34363

35512271

v6i5e34363

PMC9116456