JMIR信息流行病学-量化COVID-19疫情导致主流媒体疫苗覆盖率的变化:文本挖掘研究

原始论文

¹南丹麦大学数学与计算机科学系，欧登塞，丹麦

²传染病流行病学，伦敦帝国理工学院全球传染病分析中心，英国伦敦

^3.波兰华沙科兹明斯基大学网络学会管理系

⁴哥本哈根大学公共卫生系流行病学科，丹麦哥本哈根

通讯作者:

Konrad Krawczyk博士

数学与计算机科学系“，

南丹麦大学

Campusvej 55

欧登塞,5230

丹麦

电话:45 5551122

电子邮件:konradk@imada.sdu.dk

背景:通过接种疫苗实现群体免疫取决于公众的接受程度，而接受程度又取决于公众对接种疫苗的风险和好处的理解。因此，关于疫苗的公共卫生信息的基本目标是清楚地传播往往复杂的信息，并越来越多地打击错误信息。塑造公众理解的主要渠道是主流在线新闻媒体，这些媒体对COVID-19疫苗的报道非常广泛。

摘要目的:我们对主流网络新闻头版进行文本挖掘分析，量化疫苗报道的数量和情绪极化。

方法:我们分析了2015年7月至2021年4月期间来自11个国家172个主要新闻来源的2800万篇文章。我们采用基于关键字的频率分析来估计关于疫苗的所有文章的比例。我们使用BERTopic和命名实体识别进行主题检测，以确定在疫苗上下文中提到的主要主题和参与者。我们使用Vader Python模块对所有整理好的英语文章进行情绪极化量化。

结果:随着COVID-19的爆发，头版文章提到疫苗的比例从0.1%增加到4%。负极性文章的数量从2015-2019年的6698篇增加到2020-2021年的28552篇。然而，COVID-19大流行前的总体疫苗接种率略有负极化(57%为负极化)，而大流行期间的疫苗接种率为正极化(38%为负极化)。

结论:在整个大流行期间，疫苗已从一个边缘话题上升为主要新闻媒体头版上的一个广泛讨论的话题。主流网络媒体对疫苗的评价是正面的，而大流行前的疫苗新闻主要是负面的。然而，伴随大流行而来的是疫苗新闻的数量级增长，由于大流行前的频率较低，这可能会助长人们所认为的负面情绪。这些结果突出了新闻数量和整体两极分化之间的重要相互作用。据我们所知，我们的工作是首次对COVID-19背景下的疫苗新闻头条进行系统文本挖掘研究。

JMIR信息流行病学2022;2(2):e35121

doi: 10.2196/35121

关键字

数据挖掘；新型冠状病毒肺炎；疫苗；文本挖掘；改变；报道；沟通；媒体；社交媒体；新闻；爆发；验收；犹豫；理解；知识；情绪

理论模型表明，SARS-CoV-2的群体免疫阈值要求至少三分之二的人口通过自然感染或接种免疫[1］．虽然已经研制出多种安全有效的疫苗[2-4]，实现大流行控制的一个重大挑战是“疫苗犹豫”，从不信任到完全拒绝接种疫苗[5］．

根据世界卫生组织(世卫组织)的数据，疫苗犹豫不仅限于COVID-19，而且是全球健康的十大威胁之一。疫苗犹豫的核心是一个观念问题，根源于个人所获得的信息[6］．

社交媒体是疫苗信息和错误信息的重要来源。尽管与疫苗有关的推文主要是正极化的[7]，也存在大量(可能是协调的)错误信息[8导致对疫苗的犹豫[9］．此外，在一个特定国家内，推特上的假新闻数量与其疫苗吸收量呈负相关[10］．在推特上，反对接种疫苗的支持者比接种疫苗的支持者分享更多的阴谋论，使用更多的情绪化语言[11］．此外，疫苗论述高度政治化[12，而支持错误信息的可能性是受意识形态驱动的[13，14］．

疫苗话语的不同方面优先考虑不同的客观价值:支持疫苗的观点优先考虑社区，而反对疫苗的观点关注个人自由[15］．家长在网上表达的关于疫苗的意见中，很大一部分是攻击性的、指责性的或不准确的[16］．

主要新闻媒体也在疫苗话语中发挥重要作用[17，18］．尽管若干文本挖掘研究涵盖了特定区域内的疫苗[19-22]，据我们所知，迄今为止还没有针对疫苗头版新闻标题的大规模文本挖掘研究，涉及多个国家，专门关注COVID-19。

在这里，我们分析了网络新闻媒体对COVID-19疫苗的报道。我们使用文本挖掘分析来估计3个时间段的在线疫苗新闻报道量:(1)在COVID-19大流行之前，(2)在COVID-19疫苗宣布之前，(3)在COVID-19疫苗宣布之后。我们使用了从11个拥有健康在线新闻媒体生态系统的不同国家收集的约2,800万个头版标题，这些标题是根据SimilarWeb流量和BBC媒体简介定义的[23］．因为人们对疫苗的看法受到提及的背景的影响，所以最常被提及的话题与最常被提及的公司和组织放在一起。我们的分析旨在为未来的公共卫生和疫苗传播提供信息，以期有希望减少对疫苗的犹豫。

策划头版新闻文章数据库

我们分析了来自媒体生态系统健全的国家的主要在线新闻来源(ONSs)的登陆页面。这些数据在之前的一项研究中有完整的描述[23该报告主要关注来自11个国家(澳大利亚、加拿大、法国、德国、爱尔兰、意大利、新西兰、俄罗斯、西班牙、英国和美国)的172家领先在线服务公司的头版新闻和一个国际分类。国际类包含在国际上发行的在线媒体(如欧洲新闻或半岛电视台)的标题。数据使用了2015年7月至2021年4月发表的文章，涵盖了以下3个时间段:(1)COVID-19爆发之前，(2)COVID-19疫苗宣布前的大流行期间，以及(3)COVID-19疫苗宣布后的大流行期间。我们将2020年11月作为宣布新冠肺炎疫苗的截止日期，因为从此时起，在生物科技和辉瑞公司宣布新冠肺炎疫苗后，媒体开始报道新冠肺炎疫苗。我们注意到这一数据适用于我们研究的西方国家，在全球范围内不太适用。更新后的数据集共包含28,709,060个标题，其中14,638,278个标题为英语，14,070,782个标题为英语以外的其他语言。

确定疫苗标题

使用关键字来确定某一标题是否与疫苗有关。对于非英语标题，关键词由母语人士提供。对于英文标题，我们自己提供关键词。所使用的关键字可以在表1．

非英语标题使用SnowballStemmer词干分析[24]和折叠(表1)以捕获不同形式的单词的等价类(例如，德语单词Impfung、impfen、Impfgegner都映射到impf)。使用TreeTagger将英文标题衍生化[25]，所有的单词都是折叠的，并且去掉了标点符号，用连字符连接的单词被分成两个单词。英文标题采用术语化，以避免错误分类(例如，从法律而非生物医学的意义上理解“免疫”)。

用于识别疫苗标题的技术因语言而异，我们使用的方法与我们以前的工作相同[23］．在法语、意大利语、俄语和西班牙语中，标题和描述被标记化，如果标题或描述中至少包含一个关键词，则标题被标记为疫苗标题。在英语和德语中，标题和描述作为字符串保存，并对关键字模式执行搜索。如果存在关键字模式，则将标题指定为疫苗标题(例如，在德语中，前缀Impf-)。机器学习翻译提供了一种跨语言识别疫苗标题的替代方法;然而，这超出了这项工作的范围。

表1。用于识别疫苗标题的关键词。

语言	关键字
英语	菌苗 ‎ immunis ‎ immuniz ‎ 反vax ‎ antivax ‎
法国	菌苗 ‎ antivaccin ‎ immunis ‎
德国	impf ‎
意大利	菌苗 ‎ antivaccin ‎ immunizz ‎
俄罗斯	прививк ‎ привива ‎ вакцин ‎ иммунизац ‎ вакцинац ‎
西班牙语	vacun ‎ antivacun ‎ inmuniz ‎

将数据分成3个特定疫苗接种时期

我们将数据分为3个时间段:(1)COVID-19之前的时代，(2)COVID-19疫苗宣布前的大流行期间，以及(3)COVID-19疫苗宣布后的大流行期间。这一数据划分是基于媒体报道中关于疫苗和COVID-19的明显变化。2020年1月9日，媒体开始每日报道冠状病毒，因此我们选择这一天作为前covid -19时代的结束。我们选择2020年11月9日作为区分疫苗接种前和疫苗接种后公告的截止日期。这导致了以下3个时期:

2019冠状病毒病前:2015年7月至2020年1月8日
2019冠状病毒病疫苗宣布前:2020年1月9日至2020年11月9日
2019冠状病毒病疫苗宣布后:2020年11月10日至2021年4月2日

为了确定每个时期的变化，使用公式1计算了完整数据集中提到的疫苗的相对频率，以及包含“COVID-19”或“冠状病毒”的标题的相对频率。

在|国家统计局_话题,周|为一周内某一主题的头条数量，|为一周内某一主题的头条数量国家统计局_周|是同一周的头条新闻数量。首先计算疫苗的相对频率，其中包括所有与疫苗相关的标题，其次计算COVID-19的相对频率，其中包括所有包含关键词“冠状病毒”或“COVID-19”的标题。

基于BERTopic的3期疫苗标题话题检测

使用BERTopic对91个英文ONSs进行了主题识别。非英语在线服务没有确定主题，因为要在非英语在线服务中找到最佳的主题数量，需要分别处理不同的语言，还需要对每种语言有深入的了解。BERTopic是一种主题建模技术，它结合使用变压器和c-TF-IDF，使用HDBSCAN创建密集集群，其中c-TF-IDF是一种基于类的TF-IDF，可用于从文本中生成特征[26］．我们选择使用BERTopic，因为它之前在异构文本挖掘方面很成功[27，28它还提供了多个经过预先训练的模型。此外，3个时间段的数据嵌入散点图没有显示标题的清晰聚类，这就排除了其他几个主题检测技术(请参见中的图S1-S3)多媒体附件1)．

为了从BERTopic的文本输入中删除可能影响模型的模式，所有引用不同报纸的缩写、链接和名称都被删除了。此外，“新闻”一词被删除，以及包含“免疫”、“免疫”和“疫苗”的词也被删除，这些词用于提取疫苗标题。短语“antivax”和“antivax”被保留了下来，因为它们指的是对接种疫苗的抵抗。

对BERTopic的文本输入进行规范化处理，以减少单词变异。标题是使用TreeTagger结合案例折叠来进行推理的。TreeTagger是一种使用Markow标记器用词性和引理信息注释文本的工具，它使用决策树来获得可靠的估计。TreeTagger还用于从标题中删除填充词，它只使用标记为名词(包括专有名词)、动词或形容词的单词，并删除与主题有关的信息很少的单词。

我们采用了两步评估方法来确定反映最常见主题的聚类的数量多媒体附件1)．伪代码说明在图1．评估主题相似度(第二步)是手动执行的，因为两个主题可能涉及同一个主题，但包含几个看起来不同的关键词或单词组合，这将使模型将它们分成两个主题，而不是一个主题。因此，如何从步骤2继续的决定同样是手动完成的。

基于空间的疫苗标题命名实体识别

命名实体识别(NER)标识并对实体的单词(或单词串)进行分类，其中实体可以是一个人、组织、地点或艺术品的名称。我们使用NER来确定在疫苗接种背景下经常被提及的公司和组织。使用基于不同语言的不同管道的space对英语和非英语数据执行NER。space是一种先进的自然语言处理工具，能够使用统计模型在多种不同的语言上执行NER。因此，它使用之前的训练和预测来确定一个单词或单词集合是否是一个命名实体，以及它最有可能是哪一种实体[29］．管道的选择是根据spacacy报告的准确性。在所有情况下，都使用了最准确的管道，即en_core_web_trf、de_core_news_lg、fr_core_news_lg、it_core_news_lg、ru_core_news_lg和es_core_news_lg。每个管道中的两个首字母表示它被训练的语言。

“阿斯利康-牛津”或“辉瑞-生物科技”等实体被拆分为独立实体。出现的“Johnson and Johnson”和“J&J”被改成了“Johnson & Johnson”。

使用大小写折叠实体枚举单个实体。我们创建了两个柱状图(参见多媒体附件1)，其中一个包含30个最频繁出现的英文在线在线命名实体，另一个包含30个最频繁出现的非英文在线在线命名实体。

关于不同疫苗生产商的频繁n -g

通过评估被发现使用NER的7家经常出现的疫苗制造商，确定了COVID-19疫苗宣布前后对疫苗接种的情绪变化。建立了包含每个疫苗制造商英文标题的数据集，然后根据频繁的双格和三格(今后称为n格)对其进行评估。为主题检测创建的术语化标题用于此目的。

对于所有的疫苗和经期，评估了50个最常见的n-g。在某些情况下，两个双字母组合(其计数与三字母组合几乎相同)将组合成该三字母组合。例如，bigrams (食品,药品)及(药物,administr)组合成三字母组合(食品药品监督员)．这是由于“食品和药物管理局”在某些情况下被称为“食品和药物管理局”或“食品和药物协会”。这样的双格被删除了，只保留了三格。类似的“食品和药物管理局”、“疾病控制中心”和“欧洲药品管理局”被排除在外。此外，“FDA”、“CDC”、“NIH”、“WHO”和“EMA”是与某些疫苗相关的高频词中经常出现的缩写，它们分别与“食品和药物管理局”、“疾病控制中心”、“国家卫生研究所”、“世界卫生组织”和“欧洲药品管理局”的出现次数相同。其他的缩写，如“NHS”，“HHS”和“PHE”，根据频繁出现的双字母和三字母进行了评估。同样地，如果双字母组合出现的次数与包含双字母组合的三字母组合出现的次数相同，则删除双字母组合。

基于VADER的三期疫苗标题情感分析

我们使用VADER对英文标题进行了情绪分析[30.］．在评估情绪值之前，使用等式2中的正情绪值和负情绪值计算每个标题的原始得分:

生_分数＝积极的_分数-负_分数 （2）

负面或正面情绪的两极分化程度在不同的ONSs和不同的时间有所不同。因此，对不同时期和ONSs之间对疫苗的情绪的原始情绪值进行比较，并不能显示对疫苗的情绪变化是由于情绪的整体变化，还是由于对疫苗的特定情绪的变化。因此，为了能够在期间之间和在国家统计数据之间进行比较，疫苗标题的每个情绪值都根据给定国家统计数据的总体平均情绪进行调整。调整是使用VADER情绪值(原始或复合，表示为年代_{国家统计局、主题、周期})，减去同一时期内非疫苗标题(无论是原标题还是复合标题，用)．

这被称为相对情绪倾斜(RSS)，如公式3所示:

在哪里国家统计局_话题,期是英国国家统计局在特定时期内某一特定主题的标题集合，是同一国家统计局所有时期与该主题无关的标题的集合，h是一个单一的标题，和发送(h)h的情绪值，而是同一国家统计局在所有时期的非特定主题的标题数量。在本例中，公式3中的主题是疫苗。原始分数用于RSS每个标题，相对于3个时期。这些都用线形图表示，其中累积频率显示了某一较小值的负RSS值和正RSS值的比例。由于新闻的微妙本质，我们在这里应用了与之前工作中相同的手动检查，以确保情绪注释是正确的[23］．

在所有3个数据周期中确定的14,638,278个英文标题中，83,395个(0.6%)被发现与疫苗相关，使用的关键词是表1．将这些数据按3个时期进行划分，得出每个时期的疫苗头条数量如下:(1)在COVID-19之前:11361;(2)新冠肺炎疫苗公告前:17112例;(3)新冠肺炎疫苗公告后:54,922例。

随着COVID-19疫苗的推出，疫苗头条的比例大幅增加

我们计算了在数据收集的每个时间段内每周报纸标题上的疫苗覆盖率百分比，绘制在图2．在大流行之前，疫苗新闻占头条的比例很低(172家在线新闻网站占0.1%)。随着2020年初COVID-19疫情的爆发，疫苗新闻头条的比例上升到平均4%。

第二阶段疫苗报告的增加与COVID-19报告的出现相一致。3个时期疫苗覆盖率的10个最常见主题见图3．无法建立因果关系，因为COVID-19的报道占所有头版报道的四分之一，与报道的主题存在微妙关联[23］．不出所料，第二和第三个时间段最常见的疫苗相关主题与大流行有关。尽管COVID-19增加了疫苗新闻报道，但COVID-19的报道与疫苗覆盖率并不直接相关(图2)．

没有像COVID-19头条新闻那样降至稳定水平(图2)，疫苗头条新闻的比例从2020年的第45周到第47周增加到6%到8%之间，并一直保持到2021年4月2日。这一增长与辉瑞和BioNTech在2020年11月9日发布的新闻稿有关，该新闻稿称，该疫苗预防COVID-19的有效性达到90%，为2020年12月2日开始在英国推出铺平了道路。

计算了每个时期和每个国家疫苗标题的相对频率(图4)．每个国家的相对频率相似，在大流行前对疫苗的关注非常有限，而在引入第一个SARS-CoV-2疫苗后，关注频率急剧上升。

图2。标题提到(A)疫苗和(B)的百分比“COVID-19”或“冠状病毒”在主流媒体上出现的时间，并标有第一个和第二个截止日期(分别为虚线和虚线)。

图3。3个时间段内疫苗相关文章中最常见的10个主题。紫色细胞突出与COVID-19直接相关的主题，而红色细胞突出发生在一个以上时期的主题。注意，“俄罗斯和COVID-19”被涂成紫色，尽管它发生在多个时期。欧洲联盟;人乳头状瘤病毒。

图4。每个国家的相对疫苗接种频率，包括3个时间段的国际在线新闻来源:(A) COVID-19之前，(B) COVID-19疫苗宣布之前，(C) COVID-19疫苗宣布之后。

与大流行前相比，随着新冠肺炎疫情的爆发，大部分疫苗报告出现了正面情绪两极分化

图5显示了每个时间段内疫苗相关标题的VADER情绪评分。大流行期间疫苗报告频率的增加导致负面极化文章的绝对数量增加，从2015-2019年的6698篇增加到2020-2021年的28552篇。然而，总体而言，大流行期间的两极分化多数为正面(38%为负两极分化)，而大流行前期间57%的文章为负两极分化。图3表明COVID-19前和COVID-19后疫苗覆盖率之间的情绪差异可能与COVID-19覆盖率有关。这可能是因为COVID-19成为全球的主要话题，占大流行期间所有新闻的四分之一。

为了研究疫情期间两个时期情绪分布的差异，我们对比了两个时期提到的主题和命名实体。“新冠疫苗公告前”可以大致理解为所有疫苗都在研发期间，而“新冠疫苗公告后”则是部分疫苗已推出，其他疫苗仍在研发期间。尽管COVID-19之前和之后的时期有差异，但大流行期间的两个时期之间没有相当大的情绪差异(图5)．

我们进一步调查了与COVID-19疫苗开发和推广有关的文章的主题极化。我们提取了与2个主题相关的文章图3:“疫苗开发”和“疫苗推出”。有人可能会说，根据我们对时间的解释，“疫苗生产”(主题10)应该与“疫苗推出”合并。然而，我们希望避免在主题注释中进行人工干预。单篇文章是从两个数据集中提取出来的，数据集的大小大致相同(分别为846和814个标题)。

我们评估了“疫苗开发”和“疫苗推出”主题的情绪极化。“疫苗开发”和“疫苗推出”的原始VADER情绪RSS说明在图6这表明，从疫苗的开发和试验阶段到推出疫苗期间，人们对疫苗的看法发生了变化。图6说明，对于“疫苗开发”，情绪是压倒性的积极，几乎整个四分位数区间都在零线以上。在“疫苗研发”的标题中，23%的标题为负RSS, 77%为正RSS。这与“疫苗推出”非常不同，在“疫苗推出”中，66%的RSS为阴性，只有34%的RSS为阳性。此外，最广泛的范围是“疫苗开发”为0以上，“疫苗推出”为0以下。因此，频率最高的RSS对“疫苗开发”是积极的，对“疫苗推出”是消极的。这两个主题的最大和最小RSS差异很大:“疫苗研发”的RSS范围在-0.3至略低于0.5之间，而“疫苗推出”的RSS范围在-0.5至0.3之间;因此，它们的RSS值分布相同，但它们的范围不同。这表明，在两次COVID-19期间情绪分布的差异可能是由于疫苗推出期间更多的负面报道。

COVID-19疫苗中最常见的组织及其情绪

为了更细致地了解疫情期间情绪两极分化的情况，我们调查了上述提到的主要实体。我们聘请了spacey来执行NER，在所有三个时期中最常被提及的30家公司或组织在图7．

毫不奇怪，最常见的关联是在知名的COVID-19疫苗制造商之间，即“阿斯利康”(与牛津大学合作)、“辉瑞”(与生物科技合作)、“BioNTech”、“Moderna”、“牛津大学”、“强生”和“Sputnik v”。尽管阿斯利康和牛津大学以及辉瑞和生物科技是合作开发疫苗的，但它们经常被单独提及。因此，我们选择将它们作为独立的实体。

在英语和非英语标题中最常见的30个命名实体中，有16个出现在两个数据集中，用绿色表示图7．非重叠实体主要归于国家组织或公司。例如，" NHS "和" HHS "分别是来自联合王国和美国的国家卫生服务和卫生与公众服务部，仅在30个最常见的英文实体中出现。“Rospotrebnadzor”是俄罗斯消费者权利监督联邦服务机构，“RDIF”和“PAH”也是俄文的，只出现在30个最常见的非英国实体中。此外，公司名称在不同的语言中是相同的，而一些国家的组织不是;例如，世界卫生组织的英文缩写是WHO，而法语缩写是OMS。

在所有新闻标题中提及疫苗制造商的频率从COVID-19之前的几乎为零增加到在疫苗宣布后的一段时间内被提及最多(表2)．因此，只在COVID-19大流行期间对疫苗制造商进行了评估。

与疫苗制造商最常见的关联表明在开发和推广方面取得了进展，并与健康相关(如副作用)。每个疫苗开发商的n克的详细分析见第2节多媒体附件1．Moderna和辉瑞的疫苗主要与n-grams有关，表示临床试验的进展和它们的推出。相比之下，与阿斯利康和强生相关的顶级n-grams与副作用报告有关(例如，不明原因的疾病，血凝块)。在整个疫情期间，斯普特尼克5号并不是在医学背景下被提及，而是经常与俄罗斯和弗拉基米尔·普京联系在一起，经常包含n-gram，比如”“苏联”、“弗拉基米尔·普京总统”和“俄罗斯苏联”。

我们调查了疫苗制造商背景的差异对新闻文章情绪的影响程度。在图8，我们绘制了疫苗公告前后对疫苗制造商实体的负面情绪和正面情绪的比例。在宣布COVID-19疫苗之前的一段时间里，实体似乎有类似的负面极化，阿斯利康和强生被认为是负面报道更多的轻微异常值。在宣布新冠疫苗后，阿斯利康的负面文章比例明显较高，正面文章比例明显较低。尽管强生与副作用有关(根据我们的n-gram分析)，阿斯利康受到的报道明显更糟糕。我们取消了阿斯利康的保险图5而且图6测试较高的负面新闻相关量是否影响了新冠肺炎疫苗公告后阶段略多的负面极化。在这两种情况下，我们没有发现阿斯利康是该时期负面极化文章的主要驱动因素(请参见表S1和S2多媒体附件1)．

图7。在(A)英语和(B)非英语数据中发现的30个最常见的实体(公司和组织)。绿色的名称是在英文和非英文数据中发现的组织和公司。

表2。根据不同的疫苗和时期创建的21个不同的子集，包括每个子集中每个不同制造商在新闻标题中提到的次数(3个时期7个疫苗制造商)。

制造商	之前COVID-19	在宣布COVID-19疫苗之前	在宣布COVID-19疫苗之后
阿斯利康	3.	747	5134
BioNTech	1	163	2118
强生公司	17	332	1050
现代化	3.	647	2256
牛津大学	3.	1010	2288
辉瑞	27	513	6042
人造卫星V	0	153	700

图8。在“2019冠状病毒病疫苗公告之前”和“2019冠状病毒病疫苗公告之后”期间，与疫苗生产相关的实体的负面情绪和正面情绪两极分化的比例:(A)负面情绪偏向“在新冠病毒疫苗宣布之前”，(B)正面情绪偏向“在新冠病毒疫苗宣布之前”，(C)负面情绪偏向“在新冠病毒疫苗宣布之后”，(D)正面情绪偏向“在新冠病毒疫苗宣布之前”。

我们使用文本挖掘来研究顶级国家新闻媒体头版的疫苗报道。我们证明，在大流行期间，关于疫苗的报道数量从头版的约0.1%增加到几乎占所有标题的4%。尽管报道了疫苗的副作用，但总体报道可以被归类为正面的，这与之前对社交媒体的研究一致，后者报告了与疫苗相关的推文的正面两极分化[7］．

新闻生态系统占人们消费信息的76% [31，这可能会影响人们的行为，比如让他们对接种疫苗更加犹豫。错误信息的传播会加剧这种情况[21以及根据党派立场报告疫苗[19］．

然而，新闻只是整个媒体生态系统的一个方面，很多信息都是通过社交媒体传播的[19-22］．社交媒体鼓励用户以点击、点赞、转发和分享的形式积极参与，这些都可以通过用户参与度进行量化。然而，在新闻领域，这种互动要微妙得多，特别是当人们只是浏览标题时，这是一种更为被动的信息消费。尽管如此，传统新闻在形成观点方面仍然至关重要，在许多情况下，它们构成了其他平台的初始话语。

我们重点分析了来自少数西方国家的头条新闻，以提供几个国家疫苗覆盖率的数据为中心的分析。在个别国家也进行了类似的研究(如巴西[22)或其他地区(如非洲)[20.])。我们的研究包括率先大规模生产和引进疫苗的国家(美国、俄罗斯、德国、英国)。在这些国家，政策制定者必须在整个开发和推广阶段通过复杂的媒体报道来应对疫苗犹豫和持续的COVID-19限制。

我们分析了COVID-19大流行期间头版头条疫苗报道的演变。为了进行分析，我们做了一组与某些限制相关的假设。我们对主要发达的西方国家的头条新闻的关注，低估了世界其他地区同样受到COVID-19影响的情况。在这些地区，疫苗制造和分配方面的不平等加剧了对疫苗的犹豫。32，33］．我们通过标准化不同新闻站点的异构长格式文本和捕捉被动扫描标题的行为来证明使用标题信息是合理的。然而，这导致了整篇文章的信息之间的脱节，可能没有反映在一个吸引眼球的标题中，从而导致读者消费不同的信息。在我们的数据集中，我们选择了一种基于关键字的方法，该方法以前用于衡量COVID-19报告的程度[23］．这种方法旨在提高已识别标题的精确度，但以牺牲召回率为代价。例如，《每日星报》的标题是“英国麻疹爆发:50万英国儿童没有接种关键疫苗”。在英国有超过50万儿童没有收到…”的疫苗数据集没有被提取出来，因为它不包含任何选择的关键词表1尽管它显然与疫苗接种有关。开发一个更复杂的主题模型并不能保证不同语言之间更好的性能和可比性，因为必须开发一个捕捉相同语言细微差别的合适模型。因此，我们求助于简单提及疫苗衍生的基本关键词，以帮助进行国家间的比较。

尽管这种方法低估了与疫苗相关的文章的数量，但COVID-19疫苗报道仍然处于中心地位，不像疫情爆发前仅零星报道疫苗。对疫苗覆盖率的研究促使我们将数据分为3个时期:COVID-19之前、COVID-19期间但接种疫苗之前和使用COVID-19疫苗之后。我们对第二和第三期的定义可能会影响我们的结果。然而，我们发现，根据2020年11月9日辉瑞和bioontech的新闻稿在疫苗头条上的相对频率大幅上升，做出这些划分是合理的。这一新闻稿影响了所有国家，而这一时期的许多其他基石则更针对特定国家。例如，英国是第一个在2020年12月2日批准辉瑞-生物技术疫苗的国家，而美国食品和药物管理局在2020年12月11日批准了辉瑞-生物技术疫苗。

我们的主题建模和情绪分析显示，在172家在线服务公司推出疫苗期间，COVID-19使疫苗头条的比例增加了一个数量级，从微不足道的0.1%上升到令人生畏的4%。COVID-19之前的疫苗报告呈负极化。相比之下，大流行期间与疫苗有关的报告呈现积极的两极分化。尽管我们注意到covid -19前后情绪极化的差异，但这可能是由于covid -19后的采样偏差，因为疫苗覆盖率明显提高了。此外，新闻标题中的情绪两极分化可能与疫苗没有直接关系，而是与切题的话题有关。因此，我们也分析了与特定概念或实体(如疫苗开发或疫苗制造商)相关的情绪倾向。

我们对阿斯利康进行了深入的情绪分析，由于广泛报道的副作用和交付问题，阿斯利康获得了更多的负面报道。然而，根据我们的分析，这种负面报道的重要性不足以改变新闻中对疫苗的整体积极叙述。虽然牛津大学参与了疫苗的研发，但它并没有像阿斯利康那样在负面新闻中占据同样大的比例，这可能反映在媒体对这2家公司关于疫苗的报道频率上。尽管阿斯利康在大流行期间被提及5881次，但牛津大学被提及3298次，主要是在宣布新冠疫苗之前，而阿斯利康的提及次数最多的是在随后的时期。因此，阿斯利康在媒体报道中比牛津更频繁地与疫苗联系在一起。

我们的研究结果研究了在线新闻媒体对疫苗的报道，也更广泛地适用于对权威和科学的普遍不信任。尽管新闻报道和疫苗接种之间的直接联系超出了本研究的范围，但我们全面描述了在线新闻媒体对COVID-19疫苗接种的情绪。未来关于疫苗犹豫的基于调查的研究有望受益于我们的工作，因为它详细说明了公众最终做出决定所依据的不断变化的信息格局。因此，我们的工作对公共卫生政策制定者也很重要，他们在设计疫苗授权时需要了解公众所消费的信息。

致谢

DL和SB感谢联合中心获得联合王国医学研究理事会和国际发展部的资助(MR/R015600/1号赠款)。DL感谢国家卫生研究所(NIHR)提供的重点新发疾病疫苗疗效评价(veep)赠款(参考NIHR:PR-OD-1017-20002)。SB承认来自诺和诺德青年研究者奖(NNF20OC0059309)、丹麦国家研究基金会主席职位和国家卫生研究所健康保护建模方法研究单元的资助。

利益冲突

没有宣布。

‎

多媒体附件1

补充信息。

PDF档案(adobepdf档案)，1476kb

在2019冠状病毒病中实现群体免疫的坎坷之路。J Immunoassay immunochem2020 Nov 01;41(6):928-945 [免费全文] [CrossRef] [Medline］
Voysey M, Clemens SAC, Madhi SA, Weckx LY, Folegatti PM, Aley PK，牛津COVID疫苗试验组。针对SARS-CoV-2的ChAdOx1 nCoV-19疫苗(AZD1222)的安全性和有效性:对巴西、南非和英国四项随机对照试验的中期分析。Lancet 2021年1月09;397(10269):99-111 [免费全文] [CrossRef] [Medline］
Polack FP, Thomas SJ, Kitchin N, Absalon J, Gurtman A, Lockhart S, C4591001临床试验组。BNT162b2 mRNA Covid-19疫苗的安全性和有效性。N Engl J Med 2020 Dec 31;383(27):2603-2615 [免费全文] [CrossRef] [Medline］
巴登LR, El Sahly HM, Essink B, Kotloff K, Frey S, Novak R，等。rna -1273 SARS-CoV-2疫苗的有效性和安全性中华医学杂志2021 Feb 04;384(5):403-416。［CrossRef］
Dubé E, Laberge C, Guay M, Bramadat P, Roy R, Bettinger JA。疫苗犹豫:概述。Hum Vaccin Immunother 2013 Aug 27;9(8):1763-1773 [免费全文] [CrossRef] [Medline］
friedman A, Gershon R, Gneezy A. COVID-19与疫苗犹豫:一项纵向研究。PLoS One 2021年4月16日;16(4):e0250123 [免费全文] [CrossRef] [Medline］
Yousefinaghani S, Dara R, Mubareka S, Papadopoulos A, Sharif S. Twitter上的COVID-19疫苗情绪和观点分析。国际传染病杂志2021年7月;108:256-262 [免费全文] [CrossRef] [Medline］
Jemielniak D, Krempovych Y.对阿斯利康COVID-19疫苗在Twitter上的错误信息和恐惧传播的分析。公共卫生2021年11月;200:4-6 [免费全文] [CrossRef] [Medline］
Raciborski F, Jankowski M, Gujski M, Pinkas J, Samel-Kowalik P.波兰成人对COVID-19疫苗的态度变化和接种意愿:2021年1月至4月连续、横断面、代表性调查分析疫苗(巴塞尔)2021年7月29日;9(8):A [免费全文] [CrossRef] [Medline］
吕红，郑铮，罗杰。推特上的假新闻和事实新闻率都与国家层面的新冠肺炎疫苗接种率呈负相关。出来了。预印本于2022年2月17日在线发布[免费全文］
葛曼妮，李晓燕，李晓燕。社交媒体上反疫苗接种信息的行为分析。PLoS One 2021;16(3):e0247642 [免费全文] [CrossRef] [Medline］
卫生政治化对在线错误信息和疫苗质量信息的影响。意大利社会学评论2021;11(2):1 [免费全文] [CrossRef］
共和党人，而不是民主党人，更有可能支持反疫苗的错误信息。美国政治研究2021年6月14日;49(5):428-438 [免费全文] [CrossRef］
Baines A, Ittefaq M, Abwao M. #Scamdemic， #Plandemic，或#Scaredemic: Parler社交媒体平台告诉我们关于COVID-19疫苗的信息。疫苗(巴塞尔)2021年4月22日;9(5):421 [免费全文] [CrossRef] [Medline］
Kalimeri KG, Beiró MG, Urbinati A, Bonanomi A, Rosina A.社会媒体中人类对疫苗接种的价值观和态度。2019年发表于:WWW’19:Web Conference;2019年5月13-17日;加利福尼亚州旧金山[CrossRef］
詹金斯MC，莫雷诺硕士。社交媒体上父母对疫苗接种的讨论:对育儿博客评论的内容分析。卫生公报2020年3月03日;25(3):232-242。［CrossRef] [Medline］
Chadwick A, Kaiser J, Vaccari C, Freeman D, Lambe S, Loe B，等。英国的网络社会支持与Covid-19疫苗犹豫。社交媒体+社会2021年04月05;7(2):205630512110088 [免费全文] [CrossRef］
Harrison M, Lancaster K, Rhodes T.“时间问题”:COVID-19媒体环境中疫苗开发的证据生成时间性。时间与社会2021年7月15日;31(1):132-154 [免费全文] [CrossRef］
Motta M, Stecula D.党派媒体在全球大流行面前的影响:新闻媒体如何影响COVID-19疫苗接种犹豫。SocArXiv。预印本于2021年9月16日发布在网上。［CrossRef］
Gbashi S, Adebo OA, Doorsamy W, Njobeh PB。系统描述非洲COVID-19疫苗的媒介极性:计算语言建模研究。JMIR Med Inform 2021年3月16日;9(3):e22916 [免费全文] [CrossRef] [Medline］
Stecula D，皮卡普M.民粹主义和保守媒体如何助长关于COVID-19的阴谋信念，以及这对COVID-19行为的意义。2月15日;8(1):205316802199397 [免费全文] [CrossRef］
de Melo T, Figueiredo CMS。比较关于巴西COVID-19的新闻文章和推特:情绪分析和主题建模方法。2021年2月10日;7(2):e24585 [免费全文] [CrossRef] [Medline］
Krawczyk K, Chelkowski T, Laydon DJ, Mishra S, Xifara D, Gibert B，等。量化网络新闻媒体对COVID-19大流行的报道:文本挖掘研究和资源。J Med Internet Res 2021 Jun 02;23(6):e28253 [免费全文] [CrossRef] [Medline］
Wagner W. Steven Bird, Ewan Klein和Edward Loper:使用Python进行自然语言处理，使用自然语言工具包分析文本。郎资源与评价2010年5月27日;44(4):421-424 [免费全文] [CrossRef］
Amri S, Zenkouar L. Amazigh使用TreeTagger的POS标记:一个独立于语言的模型。作者:Ezziyyani M，编辑。可持续发展先进智能系统(AI2SD ' 2018)。AI2SD 2018。智能系统与计算的进展，卷915。Cham，瑞士:施普林格国际出版;2019:622 - 632。
grotendorst M. Bertopic:利用bert和c-tf-idf创建易于解释的主题。2021年4月01日4日［CrossRef］
Ebeling R, Córdova Sáenz CA, Nobre J, Becker K.巴西COVID-19场景中政治两极分化对社会距离立场的影响。JIDM 2021 Aug 05;12(1):18 [免费全文] [CrossRef］
Valensise C, Cinelli M, Nadini M, Galeazzi A, Peruzzi A, Etta G，等。缺乏COVID-19信息流行与疫苗接受度之间相关性的证据。出来了。预印本于2021年9月14日在线发布[免费全文] [CrossRef］
Honnibal M, Montani I, Van LS, Boyd A.空间:python的工业强度自然语言处理。Zenodo。URL:https://spacy.io/[2022-08-20]访问
吉尔伯特·C，赫托·e·维德:基于简约规则的社交媒体文本情感分析模型。埃里克·吉尔伯特。2014.URL:http://eegilbert.org/papers/icwsm14.vader.hutto.pdf[2022-08-20]访问
Flaxman S, Goel S, Rao J.过滤气泡、回音室和在线新闻消费。PUBOPQ 2016年3月22日;80(S1):298-320 [免费全文] [CrossRef］
Mullard A. COVID疫苗如何在世界各地分配。2020年11月30日。URL:https://www.nature.com/articles/d41586-020-03370-6[2022-08-20]访问
Cioffi A, Cioffi F. COVID-19疫苗:不平等的风险和公共卫生战略的失败。伦理医学公共卫生2021年6月;17:00 100653 [免费全文] [CrossRef] [Medline］

‎

尼珥:命名实体识别

NIHR:国家健康研究所

国家统计局:在线新闻来源

RSS:相对情绪倾斜

副总统:重点新发疾病疫苗疗效评价

人:世界卫生组织

T·麦基编辑;提交22.11.21;C Williams, J Luo同行评议;对作者30.12.21的评论;修订版收到25.02.22;接受19.07.22;发表20.09.22

©Bente Christensen, Daniel Laydon, Tadeusz Chelkowski, Dariusz Jemielniak, Michaela Vollmer, Samir Bhatt, Konrad Krawczyk。最初发表在JMIR信息流行病学(https://infodemiology.www.mybigtv.com)， 20.09.2022。

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布，该协议允许在任何媒体上不受限制地使用、分发和复制，前提是必须正确引用在JMIR信息流行病学上首次发表的原始作品。必须包括完整的书目信息，https://infodemiology.www.mybigtv.com/上的原始出版物链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

量化COVID-19疫情导致主流媒体疫苗覆盖率的变化:文本挖掘研究