医学互联网研究杂志-对COVID-19疫苗的负面话语的动态:主题建模研究和Twitter帖子的注释数据集

原始论文

¹阿尔托大学计算机科学系，芬兰埃斯波

²瑞典Linköping大学管理与工程系Linköping

通讯作者:

加布里埃尔Lindelöf理学硕士

计算机科学系

阿尔托大学

邮政信箱11000号(大坂1B)

fi - 00076阿尔托

埃斯波,02150

芬兰

电话:358 947001

电子邮件:gabriel.lindeloef@gmail.com

背景:自2019冠状病毒病大流行开始以来，疫苗一直是公共话语中的一个重要话题。围绕疫苗的讨论两极分化，一些人认为疫苗是结束大流行的重要措施，而另一些人则犹豫不决或认为疫苗有害。这些讨论的很大一部分是在社交媒体平台上公开进行的。这使我们能够密切监视不同群体的意见及其随时间的变化。

摘要目的:本次研究对推特(Twitter Inc .)上有关新冠病毒疫苗的帖子进行了调查，重点关注了对疫苗持否定态度的帖子。它研究了负面推文百分比随时间的演变。它还研究了这些推文中讨论的不同主题，以了解那些对疫苗持负面立场的人的担忧和讨论点。

方法:收集了从2020年3月1日至2021年7月31日期间与COVID-19疫苗相关的16,713,238条英文推文数据集。我们使用scikit-learn Python库应用支持向量机分类器来识别对COVID-19疫苗持负面立场的推文。总共使用了5163条推文来训练分类器，其中2484条推文的子集由我们手工标注，并与本文一起公开。我们使用BERTopic模型提取负面推文中讨论的主题并对其进行调查，包括它们如何随时间变化。

结果:我们发现，随着疫苗的推出，对COVID-19疫苗的负面影响随着时间的推移而减少。我们确定了37个讨论主题，并介绍了它们各自随时间推移的重要性。我们发现，热门话题不仅包括5G塔和微芯片等阴谋论讨论，还包括对疫苗接种安全性和副作用的合理担忧，以及对政策的担忧。在对疫苗持犹豫态度的推文中，最普遍的话题与信使RNA的使用以及对其对我们DNA的负面影响的担忧有关。

结论:在COVID-19大流行之前，就存在对疫苗的犹豫。然而，鉴于COVID-19大流行的规模和环境，出现了一些新的对COVID-19疫苗犹豫不决和消极态度的领域，例如，是否有足够的时间对疫苗进行适当测试。与此相关的阴谋论数量也前所未有。我们的研究表明，即使是不受欢迎的观点或阴谋论，在与COVID-19疫苗等广泛流行的讨论话题相结合时，也会变得普遍。了解关注的问题、讨论的主题以及它们如何随时间变化，对于决策者和公共卫生当局提供更好的及时信息和政策，以促进在未来类似危机中为人口接种疫苗至关重要。

[J] .中国生物医学工程学报，2009;22 (4):533 - 536

doi: 10.2196/41319

关键字

COVID-19疫苗； SARS-CoV-2；疫苗犹豫；社交媒体；推特；自然语言处理；机器学习；姿态检测；主题建模

背景

自COVID-19大流行出现以来，针对SARS-CoV-2病毒的疫苗已成为公共话语中非常突出的话题。虽然大多数人同意大流行应该尽快结束，但对于如何以及采取哪些机制或政策来实现这一目标，意见分歧很大。作为一个主要的分歧点，许多人认为世界上大多数人口的疫苗接种(和重新接种)是完全控制大流行的唯一途径，而另一群人则对接种疫苗的想法犹豫不决或完全反对。疫苗接种话题的重要性和敏感性导致了大量的话语，这些话语通常在社交媒体平台上表达，这些平台往往高度两极分化。在疫情期间实施的保持社交距离和远程工作等情况下，社交媒体平台在人们的生活中发挥了更加重要的作用[1]。在这些基于网络的社会领域中，人们在全球范围内公开讨论和分享他们对疫苗的看法。更好地了解这些对话是如何随着时间的推移而发展的，并对其中讨论的主题有更多的了解，可以帮助我们更好地理解那些对接种疫苗犹豫不决或对周围过程缺乏信心的人。

已经进行了许多尝试来界定疫苗犹豫的概念[2]。一个这样的尝试是由战略咨询专家小组疫苗犹豫问题工作组，世卫组织提出了以下定义"疫苗犹豫是指尽管有疫苗服务，但仍延迟接受或拒绝疫苗。疫苗犹豫是复杂的，具体情况因时间、地点和疫苗而异。它受自满、方便和自信等因素的影响" [3.]。一个常用的与犹豫有关的词是信心，它突出了对疫苗的信任和对参与疫苗接种过程的行动者的信任，如卫生保健工作者、研究人员、政府和制药公司[2]。这项研究的重点是对COVID-19疫苗表达负面立场的推文。这些推文包括表达对接种现有疫苗的犹豫，对促进疫苗接种的政策的消极态度，或对参与疫苗接种过程的行为者的不信任。我们探讨了这些声音在社交媒体上占据了多大的空间，以及最流行的讨论话题是什么。

更好地了解对疫苗信任度低或对接种疫苗犹豫不决的个人，可以帮助制定改善信任的干预措施。这不仅对于完全控制当前的COVID-19大流行非常重要，而且还可以为未来在类似情况下如何形成沟通提供宝贵的见解。尽管之前的研究已经调查了Twitter (Twitter Inc .)上关于COVID-19疫苗的讨论[4，5]，这项研究是首批涵盖从世界卫生组织(世卫组织)宣布大流行到2021年夏季的整个时期的研究之一。该研究还提供了关于这些讨论如何随时间变化的时间见解。

我们的主要贡献如下:

能够识别对COVID-19疫苗表达负面立场的推文的分类器。
在COVID-19大流行的前18个月，对COVID-19疫苗表示负面立场的推文百分比的发展时间表。
概述在此期间持消极立场的人所讨论的主要话题，他们的发展，以及与话语变化同时发生的事件。
2484条推文的数据集，手工标记了他们对COVID-19疫苗的立场，以及注释过程中使用的代码本[6]。

情绪分析

人们采用了多种方法来分析社交媒体上围绕传染病的情绪[7]。社交媒体上的情绪挖掘已被证明是了解人们对正在发生的事件的看法的宝贵资源，并可能有助于控制流行病[8]。之前调查传染病情绪的研究大致可以分为三类:基于词汇的，基于机器学习的，以及由两者组成的混合体[7]。在COVID-19大流行来临之前，Du等人[9使用机器学习方法调查推特上对人类乳头瘤病毒(HPV)疫苗的态度。使用6000条推文的注释数据集，他们能够训练一个支持向量机(SVM)分类器，该分类器可以将推文分类为积极、消极或中立，并具有令人满意的性能。

在COVID-19大流行开始时，Medford等[10调查了推特上讨论的情绪。他们发现，大约50%与covid -19相关的推文可以归类为表现出恐惧，而30%可以归类为表达惊讶。讨论的主要议题是病毒的经济和政治影响、隔离措施、病毒的传播以及如何预防。

姿态检测

立场检测分析来自人们的文本输入，并确定某人对某个主题是赞成、反对还是中立。姿态检测与情绪分析有关，但已知是一项更困难的任务[11]。情感分析的目的是识别一个人的观点，确定他们的文本输入是积极的、消极的还是中立的情绪。一篇文章的负面情绪并不总是意味着对该话题的不利立场。例如，Skeppstedt等[11用了这句话，“疫苗可以保护你免受的疾病是可怕的。”这个短语对预先选择的疫苗接种主题是有利的，但对一个确定的主题包含负面情绪，这是疾病。然而，在以往的研究中，立场检测和情感分析之间并不总是有明确的区别。例如，一些关于社交媒体用户对疫苗接种的立场的研究没有使用立场这个词[12]。姿态检测也被cotas等人使用[13来研究英国疫苗接种后一个月内的犹豫。他们清理的数据集包含大约120万条推文，大约10条推文中有7条被归类为持中立立场，10条推文中有2条被归类为持消极立场。负面推文数量的一些较大峰值与辉瑞(Pfizer Inc .)推出疫苗有关。2020年12月8日)，美国食品和药物管理局批准了Moderna疫苗(Moderna, Inc;2020年12月17日)，以及印度的疫苗接种演练(2021年1月2日)[13]。一些讨论最多的话题被贴上了不信任、骗局、副作用和隐藏相关信息的标签。研究人员没有研究上线前后的时间，也没有调查这些话题的受欢迎程度是如何随着时间的推移而发展的。

社交媒体上的疫苗接种话语

社交媒体的广泛使用为深入了解广大民众的意见提供了机会。与公共卫生有关的一个特别令人感兴趣的话题是围绕疫苗接种的论述。了解对疫苗接种的担忧和不安全感可以帮助决策者找到适当的方法来解决这些问题。2011年，salath和Khandelwal [14]评估了在秋季H1N1(猪流感)大流行期间推特上对疫苗接种表达的情绪。作者可以在Twitter上表达的情绪与同一地区相应的估计疫苗接种率(通过电话调查获得)之间建立相关性。相比之下，另一项关于Facebook上关于普通流感疫苗接种的讨论的研究(Meta Platforms Inc)发现，疫苗捍卫者和批评者的参与不对称[15]。尽管辩护者能够触及24%的被调查网络，但疫苗接种批评者只能触及8%的被调查网络。

随着COVID-19大流行的开始，在COVID-19疫苗接种领域开展了大量工作。一些研究侧重于疫苗接种犹豫不决人群的人口统计数据[16，17]，而其他人则试图理解是什么导致了这种犹豫[18，19的研究发现，与我们的研究类似，人们普遍担心的是潜在的副作用和对制药业的不信任。Melton等[20.使用了与我们类似的方法，但专注于社交媒体平台Reddit。他们调查了从2020年12月1日到2021年5月15日的疫苗讨论话题，发现大多数帖子使用了积极的语气。这与我们的发现一致，即在整个调查期间，被归类为负面的帖子占数据集中帖子的比例不到10%。Lyu等[21关注从宣布大流行到2021年2月期间有关COVID-19的推文。他们的研究结果表明，围绕疫苗的观点和情绪是推特上最多的话题，随着时间的推移，情绪变得更加积极，这与我们的发现相似，即负面推文的比例随着时间的推移而下降。几项研究使用Twitter数据来检查不同国家(如加拿大)用户对疫苗接种和疫苗推广的看法和讨论[22]，韩国[23]和日本[24]。与我们的研究类似，Chandrasekaran等人的研究[25[gm66nd]没有将推特数据收集限制在特定国家或地区，而是专注于从2021年1月1日开始的4个月期间，也就是首次接种COVID-19疫苗的一个月后。他们特别注意排除公司职位，以确保他们捕捉到个人的态度，并发现在整个调查期间，平均复合情绪得分为负[25]。

在先前关于社交媒体中立场检测和疫苗接种话语的工作的基础上，我们应用动态主题建模来调查Twitter上关于COVID-19疫苗的负面话语的演变。我们将重点放在整个英语推特圈上，并分析了讨论话题如何随着时间的推移与新出现的与COVID-19疫苗相关的全球新闻和事件联系起来。

数据集

使用Twitter应用程序编程接口(API)的学术研究跟踪收集tweet。使用完整存档搜索，我们能够追溯收集2020年3月1日至2021年7月31日期间每天的推文。我们选择2020年3月1日作为起点，因为这是世卫组织宣布COVID-19大流行的当月的第一天。由于疫苗通常被视为疾病传播情况下的潜在解决方案，我们的目标还包括捕捉对未来COVID-19疫苗的预期和态度。从宣布大流行开始，疫苗接种只是一种希望，从宣布第一批疫苗到在许多国家推广疫苗，我们可以概述对COVID-19疫苗的看法的演变。我们查询了包含同义词的英文推文新型冠状病毒肺炎和疫苗，不包括任何转发。使用Twarc2的Python脚本[26]用于发送请求和收集结果。

Twitter在收集历史tweet时没有提供随机抽样tweet的方法。此外，API的速率限制使得每天从大量时间点有效地收集tweet变得困难。因此，在每天6个不同的时间点收集推文，对应于6个英语人口较多的主要时区的中午:AEST, IST, CET, EET, EST和PST。这种方法可以在不达到速率限制的情况下收集大量tweet，同时仍然覆盖世界不同地区的高活动时间。在每个时间点，收集30个Twitter页面的tweet，从每个时区的中午开始。由于页面不一定对应固定数量的tweet，因此每天收集的tweet数量会有一些变化，可以从中观察到图1。每个集合的时间跨度也略有不同，这取决于人们在中午之后立即发推文的活跃程度，以及填满前30个推特页面所需的时间。在每个月的第一天，以及2021年7月的所有日子里，API出乎意料地返回了每页较低的推文数量。考虑到每天收集的大量tweet，我们不认为这是一个需要分析的问题。

收集到的数据集共包含16,713,238条推文，平均每天32,203条(SD 1458)。为了更好地理解这些数字，我们还调查了总共有多少条tweet与我们的搜索查询相匹配。使用重要的端点使用Twitter API，我们可以快速检索与我们的关键字匹配的tweet数量，而不必经历收集它们的漫长过程。在调查期间，总共有8500万条推文与查询相匹配，这意味着我们的样本约占相关推文的20%。

由于我们对人们主导的话语感兴趣，因此需要排除活跃在Twitter上的机器人发布的推文。为了调查它们在数据集中的流行程度，我们通过OSoMe Botometer API (OSoMe Ltd) [27]。底部计返回a完全自动化概率这表明账户被自动化的可能性。总体而言，26%的推文来自完全自动化概率>0.80的账户，其中87%的账户分享链接。共享链接在分类任务中提出了自己的挑战。一方面，很难判断共享的链接是否确实反映了共享者的立场，另一方面，检索链接位置的信息可能很困难，特别是信息可能随着时间的推移而变化。基于这些挑战和许多机器人正在分享链接的事实，我们决定删除所有包含链接的推文。虽然我们意识到这种删除也会排除人类发出的合法推文，但我们预计它会产生更干净的数据集和更好的分类器，并引入更少的总体偏差。在此之后，剩下7292705条推文，相当于数据集的44%。文本内容与同一作者的其他推文的文本内容相同的推文也被删除，以减少垃圾邮件的数量，总共有5,966,905条推文。最后，为了减少个人用户的过度代表，在该数据集中删除推文超过1000条的用户的推文。这种情况的一个例子是机器人不断宣布免费疫苗接种预约。 This removed 108,749 tweets, making the total number of tweets in the cleaned data set 5,858,156.

谷歌趋势是由谷歌开发的一个网站，允许用户调查在选定的时间段内使用谷歌搜索引擎搜索某个词的频率。它向用户展示了一段时间内不同地区和语言的搜索查询量。在收集数据期间，我们收集了查询“COVID护照”的Google趋势数据，以比较该查询的一般搜索趋势与该主题在我们模型中的流行程度。谷歌允许这些数据以CSV格式直接从网站下载。

道德的考虑

我们的数据集中的Twitter帖子是由用户公开的，并且在数据收集时可以访问。在我们发布的注释数据集中，我们只包括tweet ID，不包括帖子。这意味着，如果用户在以后的某个时间点决定删除他们的帖子或使其不可用，那么我们数据集的未来用户将无法访问这些帖子。我们以一种不透露创建推文的个人身份的形式呈现我们的分析。因此，该研究不符合人体受试者研究的标准，不需要机构审查委员会的审查。

预处理

使用几个常见的预处理步骤提取和转换收集到的tweet的文本数据。文本被小写，特殊字符被删除，“&”符号被替换为“and”;此外，在一行中出现两次以上的字母被删除(例如，hello变成hello)。使用自然语言工具包TweetTokenizer将文本分成单词单位。停止对文章没有什么意义的词(例如，的，一个,在)使用自然语言工具包英语停止词列表删除。由于Twitter搜索查询中使用的术语在每条tweet中至少出现一次，它们增加了偏见，只提供了很少的额外信息;因此，它们也被移除了。对分类器和主题模型的文本数据执行相同的预处理步骤。通常不建议对BERTopic进行预处理，除非数据包含大量噪声(如HTML标记)。然而，在这种情况下，预处理导致了更好的主题模型。也许本研究中分析的数据量很大，使得由于清洗过程而造成的少量信息损失可以忽略不计。

注释

将文档(在我们的例子中是推文)计算分类到不同组(例如，对COVID-19疫苗的负面和非负面立场)的第一步是用注释者确定的正确标签手动注释文档的子样本。代码本通常用于在不同的注释器之间具有公共框架。代码本列出了帮助决定tweet接收哪个标签的规则。虽然本研究中的分类仅限于二元负或非负标记，但我们使用了3类用于我们的码本。这使得注释更加直观，并使未来的研究能够在需要时区分神经和积极的立场。这个数据集是用代码本注释的表1与本文一起发表，以便其他研究人员可以从中受益。在我们的代码本中，一条推文可以对COVID-19疫苗持积极、消极或中立和不明确的立场。对这些分类的解释受到了之前一本密码本的启发，该密码本对有关HPV疫苗的推文进行了分类[9]。

要注释的推文是从清理后的数据集中随机抽样的。最初的485条推文由作者编码，而密码本仍在完善中。此后，聘请了2名大学生使用开发的代码本注释了1999多条推文。其中，21.86%(543/2484)的推文被标记为积极，19.77%(491/2484)的推文被标记为消极，58.37%(1450/2484)的推文被标记为中性和不明确。计算出3个类别的κ评分(量化注释者可靠性)为57.49，表明一致性中等。由于这3个类别可以被认为是有序的，中性和不明确是正和负的中间，加权κ也可以是感兴趣的。加权κ评分计算为0.605，表明基本一致。然后讨论所有注释者之间的分歧，试图在最终标签上找到一致意见。如果没有达成协议，该标签将被设置为中性和不明确。大多数分歧是在中性和不清楚和其他两个标签之间。 There were only 22 disagreements where 1 annotator said positive and the other said negative.

表1。为本研究的目的而开发的代码本为每个类别提供示例推文。

的立场	定义	例如微博
积极的	对新冠疫苗持肯定态度 ‎ 促使人们接种疫苗 ‎ 接种疫苗的表示打算接种或已经接种疫苗的 ‎	“我明天就要接种疫苗了，耶!”
负	由于文化或情感因素，对COVID-19疫苗的安全性、有效性、伤害、成本或耐药性表示担忧 ‎ 不鼓励接种疫苗 ‎ 表示不接种或拒绝接种疫苗的 ‎ 质疑疫苗部署背后的动机，例如科学家、制药公司或政府的动机 ‎	“我没有口罩，也没有covid - 19疫苗!”
中性	不包含立场或立场不明确 ‎ 同时表达赞成和反对 ‎ 表达别人的立场，不需要自己的输入 ‎ 与COVID-19疫苗主题无关 ‎ 讨论与疫苗无关的其他医疗方法 ‎ 讨论其他疾病的疫苗 ‎ 不清楚对方想说什么 ‎	“你会接种COVID疫苗吗?”

分类器

为了调查那些对疫苗持负面立场的人的话语，我们必须找到一种方法来识别属于这一类的推文。考虑到数据集的大小，我们选择了机器学习方法。尽管有许多可行的分类算法可用，但先前的研究表明，使用支持向量机对Twitter上的疫苗立场进行分类是成功的[4，9，13]。对多项朴素贝叶斯、随机树和支持向量机分类器的初步探索也显示了支持向量机最有希望的结果，这使我们选择支持向量机作为我们的分类方法。

SVM是一种分类算法，可用于自动将文档划分为类别[28]。在这项研究中，每条推文都是一个文档，需要用a来标记负或不是消极的的立场。SVM以数千条手工标注的推文为例(训练数据集)，学习对剩下的数百万条推文进行自动标注。对预处理后的推文进行矢量化术语频率-逆文档频率，给每个单词一个权重，表明它在文本中的重要性。将人工标注的推文用于训练SVM识别持否定立场的推文。训练数据包括为本研究目的而标注的2484条推文，以及由Cotfas等人提供的2679条标注推文[13]。数据集中共有23.77%(1227/5163)的推文为负推文，其余76.23%(3936/5163)的推文为正推文不是消极的。总的来说，10.01%(517/5163)的推文被排除在训练之外，用于测试分类器的性能。采用3倍交叉验证的随机搜索方法寻找矢量器和支持向量机的优化参数。由于重点是负面推文，因此将错误标记为属于这一类别的推文数量最小化是一个优先事项。

主题建模

主题建模是一种用于从一组文本文档中提取主题的技术。本研究旨在调查对COVID-19疫苗持负面立场的话语话题。手动将所有296,321条负面推文分类为主题将非常耗时，但主题建模允许在几个小时内自动完成。我们使用BERTopic来训练一个模型，并用一个主题标记每条推文。BERTopic是一种主题建模技术，它使用复杂的语言模型(来自Transformers模型的双向编码器表示)基于语义相似度对文档进行聚类。在本研究中，我们使用了该模型的Python实现包[29]。在大量文本上预训练的变形金刚模型的双向编码器表示可以进行微调，以用于各种语言识别任务[30.]。我们使用了BERTopic默认嵌入模型，该模型对10亿个英语句子对进行了微调。

对SVM分类为负的所有推文进行拟合。BERTopic允许用户指定所需的主题数量以及构成主题的最小文档数量。为了使模型的大小易于管理，将最小主题大小设置为500个文档，并将主题数量设置为“auto”。词频<0.0001的词也被排除在外。最终的模型包含37个不同的主题。虽然不是每个主题都可以在本文的范围内讨论，但所有37个主题都在表2为了结果的完全透明和可重复性。

为了探索消极话语随时间的变化，我们还利用BERTopic的话题随时间函数开发了一个动态话题模型。BERTopic有一个参数，用于控制每个主题在时间轴中应该具有的主题表示的数量。较高的值在图中提供更多的时间戳，但有降低主题表示质量的风险。这个值被设置为35，因为这个数字为我们的分析提供了合适粒度级别的图形。为了便于不同大小的主题之间的比较，频率被归一化为0到1之间的值。因此，如果图表中一个话题的峰值高于另一个话题的峰值，不应解释为前一个话题比后一个话题更受欢迎;相反，较高的峰值应该被解释为该特定主题的相对受欢迎程度。

表2。按大小排序的模型主题。

主题	频率^一个	最热门词汇
UA^{b, c}	103953年	盖茨，拿，不要，比尔
0	119196年	病毒，服用，流感，不服用
1	10415年	Dna, mrna, rna，基因
2	9431	制药，特朗普，大公司，信任
3.	9378	面具，面具，戴，戴
4	3232	护照，护照，身份证，旅行
5	3058	非洲，非洲人，黑人，非洲人
6	3037	孩子，孩子，学校，风险
7	2889	中国，中国人，信任，病毒
8	2820	几内亚，猪，猪，先
9	2159	考试，印度，印度，氧气
10	2048	辉瑞，血液，凝块，阿斯利康
11	1931	病毒，冠状病毒，年，拿
12	1787	5g，比尔，盖茨，我们
13	1749	比尔，微芯片，芯片，跟踪
14	1549	刺，刺，实验性的，刺
15	1363	羟氯喹，锌，盖兹，氯喹
16	1289	测试，测试，未测试，匆忙
17	1184	小儿麻痹症、麻疹、天花、痘
18	1089	俄罗斯，俄罗斯，普京，信任
19	1028	艾滋病毒，艾滋病，年，40
20.	969	Sars, Sars, years, mers
21	907	冲，首先，拿，我
22	874	毒，毒，身，取
23	872	信任，不要，我，不会
24	827	实验，拿，拿，实验
25	794	抗体，抗体，测试，天然的
26	772	鲍里斯，英国脱欧，欧盟，鲍里斯约翰逊
27^d	737	用户名，用户名，用户名
28	729	责任，制造商，起诉，责任
29	676	治愈，治疗，想要，治愈
30.	629	科学，科学家，信任，不要
31	624	恢复，速率，99，需要
32	614	封锁，封锁，想要，不要
33	611	总部，制药，大，盖茨
34	570	注射，注射，注射，身体
35	531	旅行，飞行，飞行，航空公司

^一个频率列包含预测属于每个主题的文档数量。

^bUA:未赋值的。

^c第一个主题UA包含不适合任何其他主题的未分配文档。

^d话题27只包含用户名作为热门词，现在已被审查。

在本节中，我们将介绍分类器的性能以及基于使用分类器对干净数据集中的所有tweet进行分类的结果。我们展示了在大流行期间对COVID-19疫苗的负面看法是如何发展的，哪些话题构成了这种负面言论，以及这些个别话题是如何随着时间的推移而演变的。

分类器的性能

使用随机搜索找到的最佳分类器在517条未在训练集中使用的tweet上进行了测试;它的性能介绍在表3。一个宏F₁-得分为0.67，负类的精度为0.8。该分类器使用径向基函数核和具有3000个单图和双图特征的矢量器。该分类器用于将清理后的数据集中的5858156条推文标记为对COVID-19疫苗持否定或不否定立场。在所有干净的推文中，有5.06%(296,321/5,858,156)的推文被归类为负面立场。

表3。支持向量机分类器的性能。

	精度	回忆	F₁分数	支持
负	0.80	0.33	0.46	131
其他	0.81	0.97	0.88	386
精度	N/A^一个	N/A	0.81	517
Macroaverage	0.80	0.65	0.67	517
加权平均	0.81	0.81	0.78	517

^一个-不适用。

随着时间的推移，负面推文的百分比

从2020年3月1日到2021年7月31日，推特上对新冠病毒疫苗持否定态度的推文所占比例的时间轴显示在图2。平均阴性百分比为5.1% (SD为1.9%)。这个数字略低于Cotfas等人的发现[13在2020年12月8日至2021年1月7日期间，推特上反对COVID-19疫苗的比例为6.78%。同一时期，我们的估计是4.7%。这种差异可能是由于我们研究的设计选择使用了一个保守的分类器，该分类器高度优先考虑阴性类不出现假阳性，从而付出了更多假阴性的代价。在世界卫生组织宣布大流行(2020年3月11日)前后，负面情绪的数量相当稳定，为4%，然后在2020年4月上升，并在今年余下的时间里保持相对较高的水平。与12月推出疫苗接种同时出现的是负面推文的比例下降，接下来的一段时间与宣布大流行之前的情况类似。

负面推文的话题模型

生成的主题模型包含37个不同的主题，大小从531到119,196条推文不等。主题在表2以及使用BERTopic的修改版本的术语频率-逆文档频率计算出的最具代表性的每个主题的前关键字。还建立了一个动态的话题模型，表示每个话题在调查期间的35个不同时间点的受欢迎程度。除了包含在结果节，所有主题的时间表均可在配套网站[31]。

在本节中，将使用示例tweet和它们随时间发展的图表来讨论模型中的一些主题。这些主题是用索引引用的，可用于在其中定位它们表2。树突图图3根据我们的主题模型显示主题之间的密切关系。在接下来的讨论中，我们选择将一些话题分组在一起讨论;这些分组是基于它们在树突图上的接近程度以及作者所看到的定性相似性。

旅行、COVID-19护照和领土(主题4,7,9,18和35)

该小组包括与旅行和COVID-19护照有关的主题，以及围绕中国、俄罗斯、印度和非洲大陆的讨论。

主题4是一组文件，讨论COVID-19护照和不同形式的证书，作为旅行和其他活动的要求。“需要”和“想要”这两个词在代表性中得分很高，许多用户认为他们不想要也不需要疫苗和护照。强制性这个词也很流行，因为许多人讨论了这种护照的强制执行。

图4这表明，到2021年初，随着疫苗的推出，这个话题首次在负面推文中流行起来。这一趋势也适用于一般搜索兴趣，如蓝色线所示，显示了谷歌趋势对“COVID护照”查询的受欢迎程度。该话题在2021年5月和7月的话题模型和谷歌趋势中都出现了主要的高峰。4月份的第一个高峰来自英国的搜索量特别高，这是在谷歌趋势中孤立这一时期所显示的。鲍里斯·约翰逊批准新冠肺炎护照可能是引发这场讨论的事件。这一时期的负面推文普遍讨论了COVID-19护照，但许多人也直接与鲍里斯·约翰逊交谈:

你必须确保英国不推行疫苗护照。认为制药公司和盖茨基金会在这里有任何影响力是无法容忍的。你是被选举出来的，要负责任——他们不是。接种疫苗的人仍然可以传播COVID。停止惩罚那些被迫服从的医务人员。耻辱。

图4。“新冠肺炎护照”、“中国”和“俄罗斯”主题随时间的常态化频率。为了进行比较，谷歌趋势对“COVID护照”的规范化搜索频率(灰色虚线)在右侧使用单独的轴显示。

关于旅行的话题35包含了类似的讨论，但重点是旅行、航空公司和出国，在整个时期似乎更受欢迎。

七月是高峰图4可能与欧盟引入欧盟数字COVID证书有关。这是为了在申根地区旅行时使用，以证明接种疫苗、康复或最近的阴性检测。许多关于这一话题的推文认为，护照是不必要的，也是不公平的，因为接种疫苗的人仍然可以传播病毒。还有人讨论了伪造新冠肺炎护照的问题:

黑市上应该有假的疫苗护照，不管他们叫什么……这将是我的方法

有人在卖假疫苗护照吗?还是说我有点太早了?

更多的阴谋论者还讨论了疫苗护照是一个更大计划的一部分:

不,谢谢。在COVID-19之前计划接种疫苗护照。

中国也是该模型中的一个主要话题，有2889条负面推文被归类为属于该集群。这个话题的主要关键词是“中国人”、“信任”和“假的”。有关这一话题的一些推文表达了对中国的不信任，甚至声称病毒是在中国“制造”的:

我在想，为什么中国从一开始就没有研制出针对新冠病毒的疫苗?然后我想起来任何疫苗都是在中国生产的，所以他们为什么要着急?他们为什么要提醒世界卫生组织必须认真对待这种病毒?中国是威胁?

2020年3月中旬，该话题的受欢迎程度有所上升(图4)，当时中国的疫苗获准进行人体试验。这一时期的一些负面推文表达了不愿接种中国疫苗的意愿，而另一些则讨论了中国开发的病毒的阴谋。这一主题在大流行开始时的负面讨论中非常突出，然后随着时间的推移逐渐失去吸引力。

俄罗斯也是一个负面讨论的话题，大部分推文都是在2020年7月至11月期间发布的，8月是一个主要的高峰。图4）.这一高峰可能是由于8月11日登记的俄罗斯Sputnik V疫苗。其中一些推文讨论了人们是否应该相信俄罗斯疫苗:

我不会想要普京的新冠疫苗，你呢?

值得注意的是，我们的研究只调查了英语的推文，因此关于俄罗斯和中国的话题主要是从外国的角度来谈论这些国家。

印度也是一个在负面讨论中突出的国家，重点是他们的考试。本专题的大多数讨论涉及大流行期间的强制性亲自检查。应该注意的是，关于这个主题的推文可能对机器学习分类器构成了一个困难的挑战;也就是说，一些对亲自检查持否定态度的推文被错误地归类为对疫苗持否定态度。例如，许多推文要求在疫苗问世之前转向基于网络的检查:

将考试切换到在线模式或不进行连续考试。每个人都要求延迟合规截止日期。同样的，学生也不是每个人的出气筒。我们也是人，我们不是冠状免疫的。我们还没有接种冠状病毒疫苗??

关于非洲的专题包括几个不同的讨论主题。一个主要主题是声称疫苗背后有种族主义动机。用户争辩说，这些疫苗被送往非洲国家是比尔·盖茨秘密阴谋的一部分，目的是测试疫苗的副作用，或者是为了控制人口。单词“bill”、“guinea”和“pigs”在主题表征中得分很高。此外，该主题还包含类似的针对非洲裔美国人的种族主义主张。这一言论似乎是由梅琳达·盖茨的一项声明引发的，她建议黑人应该优先获得疫苗，因为他们面临着病毒的不成比例的影响。本专题的另一个主题是代表中关键词“马达加斯加”，涉及马达加斯加人民使用的一种茶，声称对COVID-19有好处，有人认为这使疫苗变得多余。

制药和疫苗替代品(主题2,15,25,28,31和33)

在这一标题下，我们对有关制药公司的讨论、它们的盈利动机以及拟议的疫苗替代品的主题进行了分组。话题2的高分词有“大”、“制药”、“信任”和“匆忙”，许多用户质疑疫苗是否主要是为了赚钱:

大型制药公司无法从一种药物上赚到与一种疫苗长达一年的过程一样多的钱。

许多用户直接向当时的在任总统表达了他们对疫苗的担忧，并在推特上标注了“@realDonaldTrump”。讨论中另一个普遍提出的批评涉及疫苗制造商不能轻易被起诉的事实，这在专题28中可以看到:

如果出现问题，制药公司不会被起诉，没有足够的疫苗测试来确保它们的安全性，谁还会想要疫苗呢?

两个主题(15和33)主要讨论了羟氯喹作为比COVID-19疫苗更好的措施。

在主题25中，人们讨论了抗体对病毒的保护作用。一个普遍提出的论点是，那些已经感染病毒的人不应该接种疫苗。有624条推文的话题31，以“新冠肺炎的高康复率”作为反对疫苗的理由占据了主导地位。这一类别中一个非常典型的tweet示例如下:

如果有99%的回收率，我们为什么还需要疫苗?

这个话题在2020年下半年越来越受欢迎，在疫苗推出前的几个月里达到了顶峰。图5）.

流行阴谋论(主题12及13)

话题12在四月达到高峰(图6)，正好赶上英国利物浦首个5G网络塔着火的时间(4月2日)[32]。很明显，有传言称5G信号塔对新冠病毒的传播负有部分责任。这一传闻与“5G发射塔是通过新型冠状病毒疫苗植入的微芯片来控制人的思想”的说法相结合。利物浦市长宣布这个谣言是假的，这似乎引发了一些人自己采取行动。这一事件引发了对疫苗犹豫不决的人群的讨论，从我们的时间表中可以看出，“5G”、“塔”、“芯片”和“微芯片”等词语的权重很高。

话题13与5G话题(话题12)密切相关，但更侧重于微芯片谣言。这两个主题的峰值和曲线行为非常相似(因为它们都共享微芯片作为一个重要的词)。它们在4月初达到顶峰，然后就失去了重要性。高峰与以下事件同时发生，这些事件可能对它有所贡献。3月18日，比尔·盖茨登陆Reddit并回答问题。与此同时，他预测，总有一天，我们都会随身携带一本记录健康记录的数字护照。他并没有建议使用微芯片，而是某种电子疫苗卡。3月19日，一家瑞典网站注意到了这一点，并在文章标题中写道:“比尔·盖茨将使用微芯片植入物对抗冠状病毒。”由此，阴谋论诞生了。我们的数据反映了它在疫苗犹豫者中引发的讨论。 Simultaneously, the nongovernmental institution Digital Identity Alliance was brought into this, as they advocate for a digital ID for undocumented people such as refugees. Vaccine-hesitant individuals drew the conclusion that Digital Identity Alliance is involved in inserting microchips into people to reach their goal. Topic 13 had words such as “gates,” “implant,” and “tacking” as highly rated words, with many tweets talking about how the pandemic was planned by Gates:

盖茨已经计划好了。感谢川普不允许任何盖茨疫苗!

这个话题与谷歌对盖茨的搜索量并不密切相关，这表明这个话题可能在Twitter上特别受欢迎。

测试和豚鼠(主题8和16)

这个话题主要是用批评的语气讨论疫苗试验的推文。“猪”和“猪”在这个话题中得分很高，因为它们出现在短语“豚鼠”中，这是用来指那些选择接种疫苗的人。其中一位用户说:

我才不要做这种疫苗的小白鼠!你和你的家人来做测试假人吧!

在2020年的疫苗试验期间，这一主题最受欢迎，但在疫苗推出期间失去了吸引力。

密切相关的是测试主题(主题16)，随着时间的推移，它也遵循了类似的趋势。该主题的重要关键词，如“匆忙”、“测试”和“不会”，反映了开发过程是“匆忙”的立场，以及不愿意使用“未经测试”的疫苗的立场:

我同意你不接受它。这是一个例子，说明为什么疫苗不应该在批准之前没有做很多必要的测试就匆忙生产。

辉瑞和阿斯利康(主题10)

这个话题在2020年11月达到顶峰(图7）.与谷歌趋势相比，“辉瑞”和“新冠肺炎”的搜索量在11月9日出现了明显的高峰。辉瑞公司当天宣布，新冠病毒疫苗的3期临床试验取得成功，有效性达到90%。同一天，《自然》和《BBC新闻》对此进行了报道。这一声明可能导致对疫苗安全性的批评声音增加，并引发了对疫苗犹豫不决的群体之间的讨论。我们在2021年3月也看到了讨论的高峰，关键术语“阿兹利康”和“血凝块”在这一时期使用得特别频繁。此时，对血凝块潜在副作用的担忧开始流传，导致许多国家暂停使用阿斯利康疫苗(AstraZeneca plc)。这些公告似乎引起了很多关于疫苗的负面言论，比如下面这条关于相应用户对这一过程不信任的推文:

丹麦、挪威、冰岛和保加利亚停止使用阿斯利康公司的COVID-19疫苗，原因是有血凝块的报告。有没有研究过对不同血型和地区DNA差异的影响?认为不是。不要相信中国人“管理”世界卫生组织!

DNA与信使RNA(主题一)

这个话题在调查的时间轴上有两个高峰。第一个峰值出现在2020年8月(图7）.辉瑞公司在该杂志上发表了以信使RNA (mRNA)为基础的疫苗的1期和2期临床试验结果自然八月十二日[33]。大约在这个时候，许多新闻媒体开始描述有希望的候选疫苗，特别关注使用mRNA的新技术，正如辉瑞和Moderna所采用的那样。这种新技术是利用人体自身的蛋白质生成机制来产生SARS-CoV-2的刺突蛋白，而不是使用死亡或减弱的病毒，这引发了人们对疫苗安全性的担忧。一些人担心它会对人类的DNA产生额外的不利影响，并永久地改变它。2020年12月，mRNA主题的第二个峰值接近辉瑞主题的峰值，这可能是因为辉瑞公司发表了使用mRNA技术的3期试验。

预防措施(主题3、6、32)

在有8984条推文的数据集中发现的最大主题之一是使用口罩作为对抗病毒的保护措施。这个话题在2020年6月加快了步伐(图7)，并在整个研究期间一直很受欢迎。这个话题的热门词汇包括“口罩”、“佩戴”、“保持距离”、“保护”和“强制”。由于分析仅限于对疫苗持负面立场的推文，因此大部分言论都是对口罩规定的批评，称其具有歧视性。其中一位用户说:

然而，如果我不接种新冠病毒“疫苗”或不戴口罩，你想让我遭受完全的歧视。

其他用户表示支持口罩，将其视为疫苗的替代品:

肯定是口罩，但不是疫苗。我不相信它，因为它把他们逼得太快了。

除口罩外，封锁是另一项广泛使用的措施，旨在限制病毒的传播。话题3中的许多用户质疑为限制病毒传播而制定的政策。大流行早期的推文经常认为，由于大流行看不到尽头，封锁是不可行的。随着疫苗的部署，这个话题似乎已经转移到这样一种观点，即实施封锁是为了说服人们接种他们认为不必要的疫苗。

该模型的第八大主题涉及儿童的疫苗接种(主题6)。该主题中普遍表达的观点是，疫苗太过试验性，不能用于儿童，规定上学必须接种疫苗是不道德的。许多家长声称他们会选择在家上学，而不是接种疫苗。在这个话题中经常使用的一个论点是，儿童有强大的免疫系统，因此不需要接种疫苗。这个话题的另一个普遍观点是，对COVID-19的恐惧被夸大了，学校应该重新开学。

与其他疾病的相似之处(主题17,19和20)

三个主题将COVID-19与其他病毒感染进行了比较。在我们的模型中，三种最常见的疾病是脊髓灰质炎、艾滋病毒和由早期SARS毒株引起的疾病。许多推文提出了这样的观点，即多年的研究从未成功开发出针对艾滋病毒或SARS的疫苗，因此已经发现有效的COVID-19疫苗是不可能的。许多人也质疑mRNA技术，认为使用这种技术开发的疫苗不是“真正的疫苗”。一些用户将脊髓灰质炎疫苗作为疫苗实际起作用的例子，因为这种疾病已在大多数地方被根除，这一点不能用于COVID-19。

主要研究结果

在这项研究中，我们调查了2020年3月1日至2021年7月31日期间在推特上用英语发表的关于COVID-19疫苗的负面言论。使用主题建模方法，我们找到了37个主题。我们使用动态主题建模来显示主题的受欢迎程度如何随时间变化。我们的研究结果表明，随着疫苗的推广，关于COVID-19疫苗的负面言论减少了。这可能表明，疫苗的有益效果以及教育努力成功地减少了负面讨论，特别是涉及阴谋论的讨论。

我们开发了一个分类器来识别对疫苗持负面立场的推文，然后对负面推文的主题进行建模。看看发现的话题，我们发现许多不同的阴谋论在负面话语中扮演着重要角色。有些话题与流行的阴谋论有明显的联系，比如关于5G基站、微芯片和比尔·盖茨的阴谋论。然而，在讨论COVID-19护照、制药公司和种族主义等其他问题时，提及大阴谋是司空见惯的。另一个重要的主题是对限制和指导如何影响日常生活的负面看法。对制药公司的不信任似乎也助长了对疫苗替代品的犹豫和讨论。

在宣布大流行后的一个月里，负面推文以及更多阴谋论主题的比例显著增加。似乎对大流行的关注助长了这些阴谋，而这些阴谋以前处于较为边缘的地位。先前的研究表明，焦虑的人更容易相信和分享错误信息。34，35]。因此，可以假设，大流行新闻引发的焦虑加剧可以解释接下来几个月犹豫和阴谋论推文的增加。此外，参与错误信息的分享也被证明会进一步加剧焦虑[36]。因此，可能会形成一个恶性循环，焦虑导致人们分享更多的错误信息，从而导致更多的焦虑。另一种可能的解释是，这些负面观点能够传播到更高的程度，是因为参与讨论的人的网络扩大了。

类似于Lyu等人[21我们看到，与疫苗推出同时出现的负面推文百分比普遍下降。此外，在Lyu等人调查的时间框架之外[21，我们可以证明，在接下来的7个月里，消极情绪一直保持在这个较低的水平。

许多更具阴谋论色彩的话题，比如5G发射塔、微芯片和盖茨基金会，受欢迎程度也有所下降。这可能表明，各国政府和卫生当局围绕这一问题的沟通成功地消除了人们对疫苗的一些负面看法。然而，另一种解释可能是，疫苗的部署吸引了更多的公众注意力，改变了参与讨论的用户的构成。此外，不能排除随着疫苗接种过程的开始，Twitter开始更严格地执行其危机错误信息政策，这可能有助于减少阴谋论和疫苗犹豫的推文。

限制

值得注意的是，这项研究的范围仅限于说英语的Twitter用户。尽管斯隆等人[37虽然我们发现Twitter在普通人群中有广泛的使用，但本研究中观察到的对话不能被认为是一般公共话语的全部代表。此外，使用英语Twitter的人口统计可能在许多方面与整体用户群不同。由于当时Twitter的数据收集限制，我们无法收集到所有与这项工作相关的推文。通过引入本节中描述的数据收集策略，我们将丢失流行主题的风险降到最低数据集下方法。对主题的分析也仅限于消极话语。未来的研究可以从调查在大流行期间积极话语的变化中受益。这也可以帮助回答这样的问题:在疫苗推出时，哪些积极的讨论发生了，占据了以前消极的空间。随着大流行持续到2022年，新的研究还可以包括更长的时期，以更全面地了解大流行期间主题的演变情况。

结论

尽管随着疫苗的推出，推特上对疫苗接种的负面情绪有所减少，但许多国家仍然面临着民众接种疫苗意愿的困难。在对大流行期间的负面推文进行分析时，我们发现了疫苗犹豫的不同迹象，例如对当局的信任度较低，在遵守戴口罩或接种疫苗等指导方针方面强烈坚持个人自由，以及围绕COVID-19和疫苗接种的阴谋论的不可忽视的影响。尽管随着疫苗的推出，负面推文和阴谋论话题的比例有所下降，但前几个月的负面言论仍有可能使一些用户变得更加犹豫不决。由于未接种疫苗的人面临更高的住院率和死亡率[38，犹豫可能会对社会产生严重的负面影响。据估计，在非药物干预措施宽松的国家，犹豫不决可能导致死亡率高出7倍以上[39]。为了改善对当前大流行的处理并为未来的大流行做好准备，一项成功的传播战略应在早期阶段解决社交媒体上流传的担忧，防止负面看法根深蒂固。诸如意念控制5G天线之类的奇怪阴谋被广泛传播，这一事实必须被视为沟通和教育努力的失败，这些阴谋占用了宝贵的空间，而这些空间本可以围绕疫苗接种的利弊进行建设性的对话。

我们研究围绕COVID-19疫苗的负面言论的时间演变的工作及其方法可用于构建近乎实时监测围绕未来健康危机或类似事件的讨论的工具。例如，疫苗测力计[40是一种工具，用于实时监控网络上疫苗接种对话的全球视图。这个工具被用来研究关于脊髓灰质炎和HPV疫苗的对话。我们的方法更适合于近实时地监视视图随时间的变化，例如，比较从一周或一个月到下一周的主题变化。这种工具可以使国家和国际卫生组织、政府和其他利益攸关方了解公众对某种疫苗甚至其他全球危机(如气候变化)的看法如何随时间演变。

致谢

这项研究没有得到外部资助。作者感谢Aalto Science-IT项目提供的计算资源。作者还感谢Leila Gharavi的输入、Koustuv Saha博士的反馈以及两位注释者的工作。

数据可用性

为本研究目的而注释的推文数据集已在GitHub上提供[6]。可在配套网站[31]。

作者的贡献

GL、TA和BK对概念化和方法论做出了贡献。GL对软件的开发做出了贡献。GL、TA和BK参与了验证和形式化分析。GL为数据管理做出了贡献。所有作者都参与了写作、评审和编辑，并阅读并同意了手稿的最终版本。

利益冲突

没有宣布。

Lemenager T, Neissner M, Koopmann A, Reinhard I, Georgiadou E, m ller A，等。德国的COVID-19封锁限制和在线媒体消费。国际环境与卫生杂志，2020年12月22日;18(1):14 [J]免费全文] [CrossRef] [Medline］
SAGE疫苗犹豫问题工作组MacDonald NE。疫苗犹豫:定义、范围和决定因素。疫苗2015 Aug 14;33(34):4161-4164 [j]免费全文] [CrossRef] [Medline］
sage疫苗犹豫问题工作组的报告。圣人。2014年11月12日。URL:https://www.asset-scienceinsociety.eu/sites/default/files/sage_working_group_revised_report_vaccine_hesitancy.pdf[2022-07-23]访问
Kunneman F, Lambooij M, Wong A, Bosch AV, Mollema L. Twitter消息中对疫苗接种的监测立场。中国医学杂志2020年2月18日;20(1):33 [j]免费全文] [CrossRef] [Medline］
Yousefinaghani S, Dara R, Mubareka S, Papadopoulos A, Sharif S.推特上COVID-19疫苗情绪和观点分析。中华流行病学杂志[J]; 2011; 28 (8): 591 - 591 [J]免费全文] [CrossRef] [Medline］
GabrielLindelof / vaccine - discourse -on- twitter -在covid -19大流行期间。GitHub。URL:https://github.com/GabrielLindelof/Vaccine-Discourse-on-Twitter-During-the-COVID-19-Pandemic[2023-03-10]访问
Alamoodi AH, Zaidan BB, Zaidan AA, Albahri OS, Mohammed KI, Malik RQ等。情感分析及其在抗击新冠肺炎和传染病中的应用综述专家系统应用2021年04月01日;167:114155 [免费全文] [CrossRef] [Medline］
李建平，李建平。情感分析和机器学习技术在疾病爆发预测中的应用综述。材料今日项目2021年5月。［CrossRef］
杜军，徐军，宋辉，刘鑫，陶晨。基于机器学习的HPV疫苗相关推文情感分析方法优化。生物医学学报，2017;8(1):9 [J]免费全文] [CrossRef] [Medline］
Medford RJ, Saleh SN, Sumarsono A, Perl TM, Lehmann CU。“信息流行病”:利用大量推特数据了解公众对2019年冠状病毒疫情的早期情绪。Open Forum infection Dis 2020;7(7):ofaa258 [j]免费全文] [CrossRef] [Medline］
Skeppstedt M, Kerren A, Stede M.在线论坛对疫苗接种立场的自动检测。见:2017年使用社交媒体的数字疾病检测国际研讨会论文集(DDDSM-2017)。2017年11月出席:2017年社交媒体数字疾病检测国际研讨会(DDDSM-2017);2017年11月27日;台北，台湾https://aclanthology.org/W17-5801/
Glandt K, Khanal S, Li Y, Caragea D, Caragea C.新冠肺炎推文的姿态检测。第59届计算语言学协会年会论文集和第11届自然语言处理国际联合会议(第1卷:长论文)。2021年8月出席:第59届计算语言学协会年会和第11届国际自然语言处理联合会议(第1卷:长论文);2021年8月1日至6日;网上。［CrossRef］
Cotfas L, Delcea C, Gherai R.在疫苗接种过程开始后的一个月内对COVID-19疫苗的犹豫。环境与公共卫生[J]; 2021 Oct 04;18(19):10438 [J]免费全文] [CrossRef] [Medline］
salath M, Khandelwal S.用在线社交媒体评估疫苗接种情绪:对传染病动态和控制的影响。科学通报，2011;7(10):e1002199 [j]免费全文] [CrossRef] [Medline］
Gargiulo F, Cafiero F, Guille-Escuret P, serv, Ward JK。疫苗的捍卫者和批评者不对称地参与法语推特上的辩论。科学通报2020;10(1):6599 [j]免费全文] [CrossRef] [Medline］
Malik AA, McFadden SM, Elharake J, Omer SB.美国COVID-19疫苗接受程度的影响因素。临床医学2020;26(1):100 - 95。［CrossRef] [Medline］
Thunström L, Ashworth M, Finnoff D, Newbold SC.对COVID-19疫苗的犹豫。生态健康2021年3月04日;18(1):44-60 [免费全文] [CrossRef] [Medline］
Bonnevie E, Gallegos-Jeffrey A, Goldbarg J, Byrd B, Smyser J.量化新冠肺炎大流行期间Twitter上反对疫苗的兴起。[J]大众健康，2020年12月15日;14(1):12-19。［CrossRef］
Poddar S, Mondal M, Misra J, Ganguly N, Ghosh S.变革之风:COVID-19对Twitter用户疫苗相关观点的影响。[c] AAAI Conf Web Soc Media 2022; 5月31日;16:782-793。［CrossRef］
Melton CA, Olusanya OA, Ammar N, Shaban-Nejad a . Reddit社交媒体平台上关于COVID-19疫苗的公众情绪分析和主题建模:加强疫苗信心的行动呼吁。[J]中华卫生杂志，2010;14(10):1505-1512 [J]免费全文] [CrossRef] [Medline］
吕家杰，韩磊，吕丽GK。推特上与COVID-19疫苗相关的讨论:主题建模和情绪分析[J] .中国医学信息学报，2009;23(6):563 - 567 [J]免费全文] [CrossRef] [Medline］
张宏，Rempel E, Roe I, Adu P, Carenini G, Janjua NZ。追踪加拿大推特上公众对COVID-19疫苗接种的态度:使用基于方面的情绪分析。[J] .中国医学信息学报，2010;24(3):391 - 391 [J]免费全文] [CrossRef] [Medline］
韩国推特上疫苗品牌对新冠肺炎疫苗话语的综合分析:话题和情绪分析。[J] .中国医学信息学报，2015;22 (3):551 - 557 [J]免费全文] [CrossRef] [Medline］
冠状病毒疫苗是如何在推特上被接受的?日本使用大数据的计算分析。全球知识记忆共同体2023年1月11日(即将出版)。［CrossRef］
Chandrasekaran R, Desai R, Shah H, Kumar V, Moustakas E.调查公众对COVID-19疫苗接种的情绪和态度:利用Twitter帖子进行的信息监测研究。中国生物医学工程学报，2015;2(1):833 - 839 [j]免费全文] [CrossRef] [Medline］
DocNow / twarc:。2021年10月4日URL:https://zenodo.org/record/5547755#.ZAtp8HZBzIU[2022-08-14]访问
刘建军，杨建军，刘建军。一种基于分类器的社交机器人识别方法。第29届ACM信息与知识管理国际会议论文集。2020年10月在:CIKM '20:第29届ACM信息与知识管理国际会议;2020年10月19日- 23日;爱尔兰虚拟事件。［CrossRef］
高贵的WS。什么是支持向量机?生物工程学报，2006;24(12):1565-1567。［CrossRef] [Medline］
基于类的TF-IDF程序的神经主题建模。arXiv 2022。
Devlin J, Chang M, Lee K, Toutanova K. BERT:基于深度双向变换的语言理解预训练。ArXiv 2019。
Lindelöf L, Aledavood T, Keller B.伙伴网站COVID-19大流行期间推特上的疫苗话语。GitHub。URL:https://gabriellindelof.github.io/Vaccine-Discourse-on-Twitter-During-the-COVID-19-Pandemic/[2023-03-28]访问
萨塔里亚诺A，阿尔芭d，燃烧手机信号塔，出于毫无根据的恐惧，他们传播了病毒。纽约时报。URL:https://www.nytimes.com/2020/04/10/technology/coronavirus-5g-uk.html[2023-02-06]访问
李建军，李建军，李建军，等。成人COVID-19 RNA疫苗BNT162b1的I/II期研究Nature 2020 Oct 12;586(7830):589-593。［CrossRef] [Medline］
刘建军，刘建军，刘建军，等。社交媒体上的错误信息、事实核查和准确信息的信任和分享:焦虑在COVID-19期间的作用。新媒体学报2023 Jan 22;25(1):141-162 []免费全文] [CrossRef] [Medline］
焦虑和谣言。中华医学会精神病学杂志1973年2月30日;89(1):91-98。［CrossRef] [Medline］
Verma G, Bhardwaj A, Aledavood T, De Choudhury M, Kumar S.研究在线分享COVID-19错误信息对心理健康的影响。科学通报2022年5月16日;12(1):8045 [免费全文] [CrossRef] [Medline］
斯隆L，摩根J，伯纳普P，威廉姆斯m谁在推特?从twitter用户元数据中提取年龄、职业和社会阶层的人口统计特征。PLoS One 2015;10(3):e0115545 [j]免费全文] [CrossRef] [Medline］
疾病预防控制中心的数据显示，未接种疫苗的人死于delta变异的风险是其11倍。英国医学杂志2021 Sep 16;374:n2282。［CrossRef] [Medline］
Olivera Mesa D, Hogan AB, Watson OJ, Charles GD, Hauck K, Ghani AC，等。模拟疫苗犹豫对延长控制COVID-19大流行所需的非药物干预措施的影响公共医学(长)2022;2:14 [免费全文] [CrossRef] [Medline］
刘建军，刘建军，刘建军，刘建军，刘建军。公开的在线工具有助于实时监测疫苗对话和情绪。健康杂志(Millwood) 2016;35(2):341-347。［CrossRef] [Medline］

‎

API:应用程序编程接口

人乳头状瘤病毒:人类乳头状瘤病毒

信使rna:信使核糖核酸

支持向量机:支持向量机

人:世界卫生组织

编辑:A Mavragani;提交21.07.22;由K Natarajan、SF Tsao同行评审;对作者06.12.22的评论;修订版本收到27.02.23;接受28.02.23;发表12.04.23

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

对COVID-19疫苗的负面话语的动态:主题建模研究和Twitter帖子的注释数据集