发表在24卷第11名(2022): 11月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/42261,首次出版
揭示塞尔维亚COVID-19疫苗犹豫背后的原因:基于情感的主题建模

揭示塞尔维亚COVID-19疫苗犹豫背后的原因:基于情感的主题建模

揭示塞尔维亚COVID-19疫苗犹豫背后的原因:基于情感的主题建模

原始论文

1塞尔维亚人工智能研究与发展研究所,塞尔维亚诺维萨德

2德国帕绍大学计算机科学与数学学院

*这些作者贡献相同

通讯作者:

Adela ljajiic博士

塞尔维亚人工智能研究与发展研究所

Fruškogorska 1

诺维萨德,21000

电话:381 652626347

电子邮件:adela.ljajic@ivi.ac.rs


背景:自第一种COVID-19疫苗出现以来,自动决定公众对它的态度的趋势越来越明显。尤其重要的是,要找到犹豫接种疫苗的原因,因为这与大流行的持续时间直接相关。自然语言处理(NLP)和公共卫生研究人员已经转向社交媒体(如Twitter、Reddit和Facebook),从用户创建的内容中判断公众对疫苗接种的意见。为了自动处理这些内容,他们使用了许多NLP技术,最著名的是主题建模。主题建模使文本中隐藏的主题能够自动发现和分组。当应用于表达对疫苗接种的负面情绪的内容时,它可以直接洞察到疫苗犹豫的原因。

摘要目的:本研究应用NLP方法对与疫苗相关的推文进行情绪极性分类,并揭示塞尔维亚语负面推文中疫苗犹豫的原因。

方法:为了研究疫苗犹豫背后的态度和信念,我们收集了两批提到COVID-19疫苗接种某些方面的推文。第一批8817条推文被手动注释为与COVID-19疫苗接种情绪相关或不相关,然后相关推文被注释为积极、消极或中性。我们使用带注释的推文从基于变压器(BERT)的分类器中训练一个连续的双向编码器表示,用于2个推文分类任务,以增加这个初始数据集。第一个分类器区分相关和不相关的推文。第二个分类器使用相关的推文,并将它们分为消极、积极和中性。该顺序分类器用于注释第二批推文。合并后的数据集产生了3286条负面情绪的推文:1770条(53.9%)来自手动注释的数据集,1516条(46.1%)来自自动分类。使用主题建模方法(潜在狄利克雷分配[LDA]和非负矩阵分解[NMF])对3286条预处理推文进行检测,以检测疫苗犹豫的原因。

结果:关联分类器实现了一个F-相关和无关推文的得分分别为0.91和0.96。情感极性分类器实现了一个F-消极、中性和积极情绪分别为0.87、0.85和0.85。通过总结两个模型中获得的主题,我们提取了疫苗犹豫的5组主要原因:对疫苗副作用的担忧,对疫苗有效性的担忧,对未充分测试的疫苗的担忧,对当局的不信任和阴谋论。

结论:本文介绍了用于寻找塞尔维亚疫苗犹豫原因的NLP方法的组合。鉴于这些原因,现在可以更好地了解人们对疫苗接种过程的关注。

中国医学杂志,2018;24(11):e42261

doi: 10.2196/42261

关键字



背景

COVID-19大流行严重扰乱了全球个人的日常生活和组织运作方式。应对COVID-19大流行的最有效战略之一是通过大规模疫苗接种实现集体免疫[12].然而,人们对全球免疫进程表现出明显的抗拒和犹豫[3.].世界卫生组织(世卫组织)将疫苗犹豫确定为2019年全球卫生保健面临的十大威胁之一[4].因此,研究公众对疫苗接种过程的态度是至关重要的。特别是,确定可能导致对疫苗接种产生负面情绪的普遍信念和态度是有用的。据世卫组织称,许多事件都有可能削弱人们对疫苗的信心。其中一些与疫苗安全和免疫后不良事件有关,但一些与社交媒体故事或谣言有关[5],这使得分析社交媒体上用户生成内容中反映的信念、态度和恐惧变得重要。

这种研究需要在全球范围内进行,因为来自世界不同地区的人们的态度差异很大[3.6].这是一个相当大的挑战,因为世界上人口不多的许多语言缺乏电子资源,塞尔维亚语就是其中之一。由于人工智能和机器自然语言处理(NLP)的快速发展,我们相信现在有可能解决这一挑战,从而以塞尔维亚语为例展示了一种可能的解决方案。我们工作的主要贡献是将自然语言处理方法与低资源语言相结合,以最少的数据注释发现与疫苗犹豫相关的隐藏主题。

研究界主要使用Twitter收集关于COVID-19疫苗接种的数据[7-22].我们还选择了社交媒体,因为在这个平台上,用户可以产生大量数据,用于分析感知和叙述。23]、与特定社会事件相关的集体经历、行为和态度[24].此外,Twitter提供了一个应用程序编程接口(API),与其他平台相比,它可以更容易地提取数据。25].使用这个API,我们收集了14,452条与塞尔维亚共和国疫苗接种相关的推文。收集的数据从第一批COVID-19疫苗发布后的2021年1月到2022年6月。我们研究的目标是在推特中寻找表达对疫苗接种消极态度的话题,我们认为这将最能揭示疫苗犹豫的原因。

数据集的一部分使用4个类别标签手动标注:不相关、积极、消极和中立。该数据集用于从基于变压器(BERT)的分类器中训练顺序双向编码器表示,然后用于自动注释其余数据。在通过手动和自动注释收集了一组对疫苗接种有相关和明确负面情绪的推文后,我们进行了主题分析,以查明疫苗犹豫的主要原因。

本研究的目的是检测塞尔维亚语推文中对COVID-19疫苗接种表达负面情绪的主要主题,假设这些主题指向塞尔维亚人犹豫接种疫苗的主要原因。这些信息可以帮助当地专家在疫苗接种方面以更知情的方式影响公众。了解人们,特别是年轻人犹豫不决的原因,可以为关键决策者提供正确的工具,以规划以疫苗接种为重点的运动。

相关工作:推文分类

COVID-19大流行的持续时间和影响导致推特上用户生成的大流行相关内容激增。当关于COVID-19疫苗的信息开始出现时,使用机器学习和深度学习方法自动对内容进行分类的能力变得尤为重要。情绪分析与人乳头瘤病毒疫苗接种的过往研究[26-28],以及一般的防疫注射[1112],作为对covid -19相关推文情绪自动分类研究的基础。

近年来,以短文本分类为目的的机器学习体系结构的设计有了重大转变。关于疫苗接种的公众意见,最传统的利用想法是静态文本嵌入与经典机器学习方法相结合[1112].最近,基于循环神经网络(RNNs)的系统开始用于这一目的[2728].2017年推出了一系列基于注意力神经网络的新方法。它们的自注意机制通过最大限度地使用并行计算算法和硬件,通过预训练过程有效地捕获长期依赖关系[29].这使得该方法在生成上下文和形态句法感知嵌入方面比之前基于rnn的方法具有显著优势。从历史上看,序列-序列转导模型是具有注意机制的原始模型[29],但不久之后,第一个仅能提供嵌入的编码器架构以首字母缩写BERT [30.].

随着计算能力的提高,许多研究人员能够将BERT应用于COVID-19和英语疫苗接种内容,并将其结果与旧方法(如双向长短期记忆、支持向量机和naïve贝叶斯)进行测试。事实证明,基于bert的架构在二进制情感、相关性或错误信息分类方面都是优越的[9131928]和三级立场或情感分类[141719],这促使我们选择这样的架构进行研究。

BERT的预训练策略通常定义为一个掩码语言建模任务,它类似于自动编码器,以及一个下句预测任务[30.].关于预训练策略的最新建议是高效学习精确分类令牌替换的编码器(ELECTRA)方法,其中BERT模型被训练为鉴别器而不是生成器。这种方法被用来训练bertiic [31],这是第一个基于bert的南斯拉夫语言模型,也是我们用来开发分类器的模型。

bertiic已经在塞尔维亚短文本分类任务中进行了测试。Batanović[32]将BERT和bertiic模型与几种线性分类器在不同电影评论分类任务上的结果进行了比较,结果表明bertiic模型是二元和四类极性分类任务的最优模型。Mochtak等人。[33]致力于克罗地亚语、塞尔维亚语和波斯尼亚语议会程序中句子的三元(消极-积极-中性)和二元(消极和其他)分类任务。他们测试了几个模型:fastText和预先训练好的CLARIN。SI词嵌入,跨语言模型-Roberta (XLM-Roberta), cseBERT和bertiic。bertiic在所有3种语言中都获得了最好的结果。据我们所知,我们的工作是第一次尝试将bertiic应用于塞尔维亚语的推文分类。

相关工作:推文主题建模

自COVID-19大流行开始以来,研究人员试图使用主题建模来确定公众对大流行各个方面的态度[71034],特别是接种疫苗[8151620.-2234-36].主题建模是一种允许将文档分组为预定数量的主题的方法。作为一种不需要任何监督或事先数据标记的方法,它被广泛用于检测大量文档中的隐藏态度。主题建模在历史上是为较长的文本设计的,近年来,它面临着在简短、非结构化和非正式的社交媒体评论中揭示主题的挑战[37].尽管提出了专门处理短文本的方法[3839],以及在应用主题建模之前,将较短的文本聚合为伪文档[40-42],经典的主题建模方法,如潜狄利克雷分配(latent Dirichlet allocation, LDA) [43]和非负矩阵分解[44,仍然是处理推文和社交媒体评论时的首选方法。

LDA是一种用于收集离散数据的生成概率模型,因此通过捕获文档级别上单词共现的模式,用于从文本语料库中发现潜在的语义结构。在COVID-19大流行期间,它被特别广泛地用于确定讨论最多的主题[710],将疫苗接种立场与媒体事件联系起来[817]或其他时空因素[1636]并确定疫苗犹豫问题[2135],对COVID-19疫苗的普遍看法[20.],并随时间变化[15].

NMF是一种基于矩阵分解的非概率方法,主要用于主题建模[4445].该方法还应用于COVID-19主题,以确定大流行对健康的主要影响[34]以及公众对疫苗接种的看法[22].与LDA相比,LDA对更广泛的主题给出了更一般的描述[46], NMF的架构使其能够找到更详细、清晰和连贯的主题[374647].陈等[18]甚至声称NMF可以像人类一样从数据中学习,这使得它的结果比LDA更容易解释。

鉴于这两个模型处理数据和主题的方法不同,我们决定使用它们的结果的组合,以确定我们研究中的最终主题列表。

尽管已经对塞尔维亚人进行了大量的情绪分析工作[48-52],据我们所知,这是第一次尝试将主题建模应用于塞尔维亚语。


研究设计

为了研究疫苗犹豫背后的态度和信念,我们首先收集了两批提到COVID-19疫苗接种某些方面的推文。我们手动将第一组推文注释为与COVID-19疫苗接种情绪相关或不相关,然后将相关推文注释为积极、消极或中性。此外,我们在负面推文中手动搜索了与疫苗犹豫相关的主题。

为了扩大这个初始数据集,我们使用带注释的推文来训练一个连续的基于bert的分类器,用于2个推文分类任务。在第一个任务中,分类器区分相关和不相关的推文。在第二个任务中,分类器将相关的推文作为输入,并将其分类为消极、积极或中立。我们使用这个顺序分类器来注释第二批推文。然后,我们将这两个数据集结合起来,并对其应用2种主题建模方法(LDA和NMF),以检测疫苗犹豫的原因。

整个管道显示在图1.每个单独的步骤将在下面的小节中详细描述。

图1。推文分类和主题建模管道。API:应用程序编程接口;BERT:来自变压器的双向编码器表示;LDA:潜狄利克雷分配;NMF:非负矩阵分解。
查看此图

数据收集和注释

我们使用TwarcPython库[53从Twitter流API中提取塞尔维亚语(西里尔和拉丁脚本)的数据。tweets的收集分为2个阶段,得到2个子集的数据。

第一个数据集包括在2021年1月1日至11月23日期间收集的8817条推文。由于此数据集的目的是反映塞尔维亚公民的意见和话题,因此查询包含了推文必须包含塞尔维亚共和国的位置或以塞尔维亚语书写的条件。我们首先使用相关标签(#COVID-19, #vakcina等)对搜索进行了测试,但没有产生足够多的推文,因为关于这一主题的塞尔维亚语标签并不常用。因此,我们基于与疫苗主题相关的关键词进行搜索。该查询包括与“或”运算符相互关联的COVID-19的所有书写和形态变体(例如,“COVID-19”或“corona”或“kovid”),以及“疫苗”和“疫苗接种”一词的所有书写和形态变体,包括拉丁和西里尔文字中的疫苗类型(“vakcina”或“moderna”或“fajzer”)。这使得搜索所有与COVID-19和疫苗有关的推文成为可能。转发被排除在搜索之外。

为了训练分类器,需要对整个数据集进行注释。我们编写了一套详细的规则,批注者根据这些规则进行标注。积极情绪和消极情绪的标签被分配给对疫苗接种持不同态度的推文。中性情绪用于对该话题的中立态度,也用于没有传达用户明确态度但包含有关该话题的一些信息的推文。这包括关于COVID-19疫苗接种的事实、可用剂量或疫苗接种日期、关于疫苗接种的客观问题(用户明显有意寻求他人的意见和信息)、没有态度的笑话,以及发布中立的媒体标题而没有额外的个人评论。此外,注释者使用了一个特殊的类来处理不相关的推文,比如那些包含不明确或模糊态度的推文。这类还包括由外部链接和一些与链接内容相关的用户评论组成的推文,这些评论不足以捕捉他们对疫苗接种的态度,因为这些链接不是本次分析的主题。注释的主题是文本内容和标签。

对于前500条(5.7%)tweets,本文所有作者对混淆的例子进行标注,并通过相互讨论修改初始规则集。数据集的其余部分由两个注释人员使用定义的指导原则分别进行注释。在整个数据集被标记后,科恩κ4个类别得分为0.57,3个情感类别得分为0.67,积极和消极类别得分为0.73。注释者之间的主要分歧在于分配“中性”与其他两种情绪标签,以及“无关”与“相关”标签(积极、消极和中性),这一分歧由本文的一位作者解决,他参与了COVID-19疫苗的讨论。结果是5791条(65.7%)相关推文(不相关推文=3026条,34.3%)的数据集,分为3个情绪类。第一个子集的统计信息可以在表1

除了定义相关推文的情绪外,注释者还单独指出了负面推文中普遍存在的主题。这些主题的数量稍后用于设置测试主题建模方法的最佳主题数量的上限。

第二个数据子集的收集时间为2021年11月23日至2022年6月6日。在第一阶段的推文收集之后,我们得出结论,通过指定位置和塞尔维亚语来过滤推文会严重限制可用于收集的推文数量,因此我们决定采用不同的方法。

表1。第1批(N=5791)中相关推文的疫苗犹豫数据集统计。
情感类 推文,n (%)
1770 (30.6)
积极的 1965 (33.9)
中性 2056 (35.5)

由于有关位置的搜索条件只有在用户分享发布推文时的位置时才能满足,而对于来自塞尔维亚的人来说,这种情况似乎并不常见,该运营商极大地限制了推文的收集,并排除了许多潜在的结果。使用语言操作符时会出现几个问题。当塞尔维亚语被指定为语言时,西里尔字母是默认的脚本,所以用拉丁语写的推文集合将被省略,如参考文献中所注意到的。[49].事实上,Twitter API将大多数tweet分类为一种未定义的语言。此外,一些用西里尔字母收集的推文是用北马其顿语而不是塞尔维亚语。因此,这次我们决定排除这2个运算符。因此,我们的初始数据集包含了接近塞尔维亚语的推文(俄语、捷克语、北马其顿语等),我们使用Python的语言识别库过滤掉了这些语言langID54].

这个干净的数据子集包括5635条塞尔维亚语推文。因为这个子集是用来测试我们的分类模型的性能的,所以它没有被人工注释器标记。这两批推文的总数为14,452条。

推文自动分类

判断哪条推文包含负面情绪不是一件简单的任务。在上一小节中描述的数据集中,收集的推文总数中约有三分之二对疫苗接种有态度,只有一部分推文有负面情绪。我们假设我们的数据集具有足够的代表性,因此得出结论,任何进一步的管道都必须包含将推文自动过滤为具有足够相关性的负面情绪推文,以便能够自动检测大量负面推文以进行进一步分析。考虑到这一点,我们决定开发一个深度学习分类器,可以检测出对疫苗接种过程持足够明确的负面态度的相关推文。为了构建这两个分类器,我们使用了bertiic,这是一个基于bert的南斯拉夫语言模型[31].我们没有在一个更大的推文语料库上从头开始对BERT进行预训练[55],我们使用带注释的数据在下游的短文本分类任务上对bertiic进行微调和测试。

分类器由两个顺序的部分组成。第一部分根据tweet与主题的相关性进行过滤,第二部分根据tweet的情绪进行过滤。第二个分类器将通过第一个相关性过滤器的推文作为输入。我们考虑将这两个分类器统一到一个BERT体系结构中,增加类的数量,但由于突出的类不平衡而放弃了这个想法。最有趣的讨论是关于无关推文和中性情绪推文之间的界限。这个边界必须通过注释过程清楚地引入。直觉上很清楚,如果我们只强制训练那些确实以疫苗为主要话题但没有明确情绪的推文,中立类和积极和消极类之间的阶级分离效率会更高。这是我们对分类器进行序列化的主要原因。

在训练之前,我们所采取的最小预处理步骤包括为所有推文切换到拉丁脚本(使用srtoolsPython库[56]);恢复变音符号(使用classlaPython库[57]);删除提及、链接、表情符号和无信息的标签;并使用正则表达式将剩余的标签转换为单词。我们只在注释过程的1次迭代中训练算法,因为我们还想分析可能的人为注释错误以及算法对注释质量的鲁棒性。

对于相关性分类器,将标注的数据集按照80%:10%:10%的比例分为训练集、验证集和测试集。这个数据集中的示例总数为8817。使用验证集从最多6个训练周期中选择最优的网络解决方案。

对于情感极性分类器,我们开发了一组5791条相关推文,按照80%:10%:10%的训练:验证:测试比例进行分割。

对于固定的验证集,选择的epoch数和批大小是最优的,这可能会导致轻微但可接受的偏差。这是由描述BERT模型的原始论文中给出的这些超参数的推荐值来证明的[30.],即4个epoch,训练批大小为16个tweets。

主题建模

为了揭示疫苗犹豫的原因,我们对负面推文数据集使用了两种主题建模方法:LDA和NMF。我们决定使用这两个模型来比较由完全不同的方法生成的主题。

对于LDA,我们使用Hoffman et al [58]和开源软件GensimPython库[59].对于NMF,我们使用sklearnNMF分解是由Cichocki和Phan [60].

在应用主题建模方法之前,我们需要经过几个预处理步骤来去除噪声,减少主题建模的空间。预处理流程包括从西里尔字母切换到拉丁字母;删除url,提及,数字,新行,表情符号,图像,特殊字符等;标记;词元化;以及停止词的删除。我们把推文转换成拉丁文字使用srtoolsPython库,而标记化和词元化是使用classla非标准塞尔维亚管道。我们使用正则表达式删除了url、提及等。我们使用了Marovac等人描述的停止词列表[61,我们扩展了COVID-19的所有替代名称以及“疫苗”一词的衍生词。这些词自然地出现在大多数推文中,因为我们将它们作为我们的Twitter搜索关键字。

构建模型

LDA和NMF都需要特定的数据集转换。创建LDA模型所需的转换首先包括以表示为整数的唯一单词列表的形式创建词汇表。下一步是修剪过程:删除低频和高频单词。最后一步是创建一个语料库,将所有推文作为单词袋功能。在这些初始步骤之后,我们应用了过滤器,排除了出现在3条以下推文中的所有单词和85%以上的推文中的所有单词,并将字典限制在1000个术语。我们选择限制字典,因为使用超过1000个术语会导致主题不那么连贯。此外,由于无法量化单词的重要性,大字典允许不太重要的单词在主题关键词中变得更重要。

对于NMF模型,我们使用归一化文本的术语频率-逆文档频率(TF-IDF)转换,并应用与LDA相同的过滤器:我们排除了出现在少于3条推文中和超过85%的推文中的单词,并将字典限制为1000个术语。我们尝试对这两个模型使用几种不同的过滤器组合,这没有导致NMF模型的主题发生重大变化,但在LDA的情况下发生了变化。总的来说,随着字典大小的变化,NMF表现出更强的主题稳定性。

每个主题建模方法都需要预定义数量的主题。我们通过调整模型参数并选择产生最高相干分值(c_v)的主题和参数的数量来计算这个数字。c_v得分范围从0到1,用于测量语料库中某个主题中单词的共现情况。我们选择c_v作为度量,因为它随着主题数量的增加而单调增加,而不像另一个习惯使用的主题相似度度量u_mass,它在较小数量的主题中达到峰值,然后随着主题数量的增加而下降。当测试模型的主题数量时,我们设置参数α到“auto”,这使得模型从语料库中学习到一个不对称先验。

除了c_v,我们还使用了另一个相似度度量,即Jaccard相似系数。Jaccard相似系数范围为0到1,用于衡量主题重叠。Jaccard相似系数越低,c_v值越高,则主题数越优。由于c_v随着主题数量的增加而增加,这并不适合我们的数据集,我们应用Jaccard相似系数来归一化主题数量。我们将两个模型的最佳主题数量的限制设置为15,因为这也是最初由人工注释人员识别的主题数量。

在应用c_v和Jaccard相似系数度量后,LDA的最佳主题数被证明是14(参见图2).

为了获得聚类分配,LDA使用2个概率值:P(单词|主题)P(主题|文档)。在Gensim模型中,参数α而且β影响这两个概率。的α参数是一个关于文档主题分布的先验信念,而β是一种关于主题-词分布的先验信念。在确定了主题的最佳数量之后,我们对这两个参数进行了调优,以获得每个主题的关键字的最佳分布(参见图3).我们为前5个排名最好的组合做了模型α而且β,通过手动比较主题,我们选择了第二个最好的主题,即α=“非对称”β= 0.91。的高价值β意味着这个主题可以被分配到更多的单词。这是合理的,因为数据集中在一个狭窄的领域,相同的单词经常出现在不同的上下文中,这使得主题根据它们所包含的单词更加相似。

在应用c_v和Jaccard相似系数度量后,得到的NMF主题的最佳数量被证明是13图4).

对于NMF模型,我们使用TF-IDF规范化的输入文档-术语矩阵。起始文档-术语矩阵分解为文档-主题矩阵和主题-术语矩阵。我们利用Belford等人提出的奇异值分解初始化方法得到了这两个矩阵的起始值[62],适用于稀疏数据。为了加快收敛速度,我们使用了坐标下降求解器sklearn.我们测试了κ参数,它决定了模型的收敛速度,并得出结论,它没有显著影响相干性(见图5).我们选择了κ学习率为0.1,迭代次数限制为500次,随机状态设置为42次。我们使用缺省值1e-4作为停止条件的容差,并且没有使用正则化参数。

图2。根据一致性评分值(c_v)和LDA的Jaccard相似系数优化主题数。LDA:潜狄利克雷分配。
查看此图
图3。不同值的c_v分数α而且β查阅14个LDA主题。“非对称”值表示为0,“对称”值表示为1。LDA:潜狄利克雷分配。
查看此图
图4。根据c_v和NMF的Jaccard相似系数的最优主题数。NMF:非负矩阵分解。
查看此图
图5。不同学习率的c_v分数和Jaccard相似系数(NMF)。NMF:非负矩阵分解。
查看此图

我们将自动分类和主题建模的单个结果分为两个单独的子部分,a自动推文分类器而且主题建模

推文自动分类器

我们设计了一个由2个bertiic分类器组成的顺序推文分类器。第一个分类器是二进制的,它决定一条推文是否与进一步分析相关,而第二个分类器执行三元分类的任务,并决定与推文相关的情感类型。

关联分类器

相关性分类器检测一条推文是否足够相关,足以被视为关于疫苗的观点。通常,不相干的推文与流行病和政治密切相关,但对疫苗接种没有明确的态度。我们发现,推特用户的政治态度往往掩盖了他们对疫苗接种的态度。我们决定把那些态度完全掩盖的极其复杂的例子标记为无关紧要的,因为很明显,用户感到沮丧的是其他一些问题,而不是疫苗本身。

该算法在总推文数量的10%上进行了测试,在这种情况下是882条推文。直接准确率为94.7%。根据35%:65%的比例,不相关的阶层是不平衡的。然而,在测试集重新注释之后,许多推文被标记为相关,这将不相关类的不平衡转移到30%以下;因此,我们得到了更低的F以及不相关类别的回忆得分,分别为0.91和0.86。的F-相关等级得分在0.96以上。所有的分数都可以在表2

最大的问题是得出一个结论,即不相干的推文和具有中立情绪的相关推文之间的准确语义边界。中性情绪也可以理解为没有情绪,因此无关紧要。

表2。混淆矩阵和F-相关分类器的分数。
无关紧要(预测) 相关(预测)
无关紧要的 225 35
有关 12 610
F分数 0.91 0.96
情感极性分类器

情绪极性分类器只输入相关的推文,输出他们对疫苗接种的情绪。

该模型在测试集上的准确性约为85.7%(见表3).

大多数混淆的例子落在中立类和其他两类之间。阳性组的回忆率最低,为0.82。通过仔细检查,我们没有发现算法或注释器混淆正类的系统错误倾向。因此,正类的召回率较低是数据集相对于正示例数量略有不平衡的结果,可以从表3

表3。混淆矩阵和F-情感分类器的得分。
负(预测) 中性(预测) 积极的(预测)
166 17 6
中性 18 197 12
积极的 10 20. 134
F分数 0.87 0.85 0.85

主题建模

我们使用总共3286条带有负面情绪的预处理推文进行主题建模:1770条(53.9%)推文来自手动注释的数据集,另外1516条(46.1%)推文来自自动分类的结果。我们在我们的GitHub存储库中提供了这个数据集[63].

数据集中的平均单词数为22个,SD为8个单词。负面推文的字数分布可以在图6.分布略有负倾斜,但总体而言,这是一个正态分布,第25百分位为16个单词,第75百分位为28个单词。

文本长度分布可以在图7.它也呈负倾斜,但比字数分布更显著,平均长度为152个字符,SD为53个字符。推文的长度通常与负面情绪的性质有关,这影响了将此类推文归类为某个主题。

图8显示预处理数据集中出现频率最高的20个单词。排名前20位的单词包括“病毒”、“欺诈”和“实验”,证明最常见的单词反映了由对疫苗接种持负面情绪的推文组成的数据集的性质。

图6。推文字数分布。
查看此图
图7。推文长度分布。
查看此图
图8。出现频率最高的20个单词。
查看此图
主题分析

我们为LDA和NMF获得的最佳主题数量分别为14和13。

两个模型的直接输出都是每个主题最突出的关键字。我们定义主题名称的方法是,首先查看每个主题的前20个关键字,然后将名称与分配给该主题的30个最突出的推文进行比较。两个模型的定义名称和每个主题的前10个单词可以在表中看到多媒体附件1.要在LDA方法中显示主题,我们使用Gensim方法“show topics”,该方法返回主题的任意顺序。对于NMF,就像在LDA的情况下,没有自然的主题顺序。主题是使用主题-单词H矩阵从每个主题的最高单词频率推断出来的,它可以让我们了解主题的内容。

由于我们对数据集中讨论最多的主题感兴趣,希望它们也能指出疫苗接种犹豫的主要原因,我们通过提取每个主题占主导地位的推文数量,根据重要性对获得的主题进行排名。该主题排名在表4,连同原来的主题号。我们根据该表中的顺序对每个主题进行了分析。

根据推文的数量表4,我们可以看到两种方法都生成了一个主主题。在LDA的情况下,692条(21.1%)推文属于主题1,而在NMF的情况下,606条(18.4%)推文属于主题13。

在前几个主要主题中出现的两个主要观点可以简要概括为对疫苗有效性和副作用的关注。这些想法经常被放在一起考虑。LDA方法的主要主题混合包含了这些主题。NMF成功地基于这两个想法提取了一个主导主题,重点是对儿童接种疫苗的关注。尽管“儿童”一词出现在LDA的关键词中,但在该主题最重要的前30条推文中,几乎没有关于儿童接种疫苗的推文。这两个主要观点后来被LDA确定为几个独立的主题(主题3、4、10、11和13)。

LDA (n=420, 12.8%)和NMF (n=279, 8.5%)的第二大主题可以描述为对COVID-19疫苗有效性的怀疑。有几个关于疫苗效力的子专题。NMF的结果指出,在由于大流行大规模爆发而迅速出现的COVID-19新毒株的背景下,对有效性的担忧。在主题3中,LDA纠结于几个子主题的混合。在第一个小主题中,我们可以看到人们认为疫苗的效果不如自然免疫,而第二个小主题更多的是关于副作用。我们再次注意到LDA未能分离这些主题。NMF将自然免疫作为单独的主题提取出来(主题8)。

NMF的第三个主要主题是对与流行病相关的政府政治的负面情绪。这并不是严格意义上的对疫苗接种的观点或态度,但由于推特用户对政府政策的总体态度,它经常看起来如此。正如在相关性分类器一节中已经提到的,很难在政治观点和疫苗接种本身之间划出严格的界限。

本专题的子专题可能包括对接种疫苗方面的行动自由和选择自由感到失望,认为政府机构在防治大流行病方面能力不足,以及认为它们的决定受到各种全球大国的影响。LDA的第三个主要话题指出了用户对失去行动自由和疫苗选择自由的沮丧,但再次被对医学科学的怀疑所混合,这形成了NMF发现的一个单独的话题(话题5)。因此,NMF发现的第四个最主要的话题是对疫苗有效性的怀疑,与对官方科学机构和专家的怀疑有关。

接下来,NMF给出的第五个主题是在自然免疫的背景下对疫苗有效性的怀疑。本文的论点是,自然免疫比通过接种过程更好。这是LDA方法给出的第二个主要主题中的一个子主题。

NMF方法给出的第6和第7个主题表达了一种担忧,即疫苗出现得很快,因此不可能得到充分的测试。这篇论文出现在LDA方法给出的许多主题中,但在主题8中最为明显。

NMF的第8个主要主题是对疫苗副作用的明显恐惧,包括死亡。在LDA发现的主题10中,特定的副作用占主导地位。同样,NMF方法给出的下一个主题概述了对如此多的加强剂量的担忧,这暗示用户要么疫苗不够有效,要么如此高的剂量可能会产生更严重的副作用,这是LDA主题11的主要担忧。

在这里,我们必须概述LDA方法分离了一个关于基于信使RNA (mRNA)疫苗的恐惧的主题(主题13)。人们的恐惧与它们的有效性有关,但主要是副作用,因为在推特上,mRNA疫苗经常与基因治疗联系在一起。这些类型的疫苗通常与阴谋论联系在一起,即某些权力中心有某种控制人口的基因突变议程。这在两个模型中都是一个明确定义的主题(LDA主题12,NMF主题7)。

对于NMF方法,最后4个主题暴露了人们的恐惧,即整个大流行和疫苗接种过程在某种程度上是由各个权力中心出于各种原因合谋的。第10个主题假设COVID-19仅存在于媒体中,第11和12个主题假设疫苗是出于各种不同的原因(利润、人口控制等)的欺诈。这些关注点出现在LDA方法的主题6、9和14中。

最后,NMF提取了一个总体主题,包括在大流行背景下对关键决策者的失望。它是LDA中主题2、5和6的更通用版本。

表4。乔治。一个和NMFb主题的推文数量(N=3286)。
乔治。 NMF
主题数 主题名称 推文,n (%) 主题数 主题名称 推文,n (%)
1 对疫苗有效性和副作用的普遍关注 692 (21.1) 13 对疫苗副作用的担忧:对儿童接种疫苗的消极态度和对其健康影响的焦虑 606 (18.4)
3. 对有效性的怀疑:天然免疫力是一种更好的保护,副作用大于好处 420 (12.8) 6 怀疑有效性,尤其是对新菌株 279 (8.5)
2 不信任科学,担心选择和行动自由受到侵犯 329 (10.0) 12 将疫苗接种与对国家政治的消极态度联系起来 272 (8.3)
8 疫苗是一种实验 314 (9.6) 5 不信任科学和专家 271 (8.2)
4 对疫苗有效性的怀疑:疫苗没有保护作用,尤其是对新毒株 264 (8.0) 8 对疫苗有效性的怀疑:自然免疫是更好的保护 263 (8.0)
7 阴谋论:新冠肺炎是骗局;疫苗改变DNA 238 (7.2) 4 疫苗是一种实验,没有得到充分的检验 251 (7.6)
6 疫苗和其他措施是传播恐惧的手段和赚钱的计划 235 (7.2) 9 由于疫苗研制时间短而引起的焦虑和疫苗副作用 243 (7.4)
12 阴谋论:疫苗是减少和控制人口的一种手段 166 (5.1) 1 对不同疫苗副作用的明显恐惧,主要是死亡 230 (7.0)
5 不信任政府和机构 146 (4.4) 10 对疫苗有效性的怀疑和因服用增强剂而产生的副作用的焦虑 218 (6.6)
13 担心副作用:疫苗测试不足,尤其是mRNAc技术 119 (3.6) 11 阴谋论:COVID-19并不存在,因此疫苗是一种骗局 209 (6.4)
9 阴谋论:疫苗是一个全球性的骗局 100 (3.0) 2 阴谋论:疫苗是骗局 199 (6.1)
14 阴谋论:将疫苗与世界大国及其议程联系起来 95 (2.9) 7 阴谋论:疫苗是减少和控制人口的一种手段 134 (4.1)
10 害怕特定的副作用 91 (2.8) 3. 对疫苗、机构和权力参与者的普遍失望 111 (3.4)
11 对有效性的怀疑:质疑助推器的必要性 77 (2.3) N/Ad N/A N/A

一个LDA:潜狄利克雷分配。

bNMF:非负矩阵分解。

cmRNA:信使RNA。

dN/A:不适用。


主要研究结果

在这项研究中,我们展示了几种NLP技术的应用,结合使用来发现关于COVID-19疫苗接种的隐藏问题,以塞尔维亚语的推文数据集。我们使用基于bert的分类器来增强手动注释的数据集,并获得对COVID-19疫苗接种过程表达负面情绪的推文的最终数据集。然后,我们使用LDA和NMF对这个子集进行主题建模,并结合两种方法获得的主题,编制了塞尔维亚疫苗犹豫的5个主要原因的列表。

推文自动分类器

除了能够根据推文的相关性和情感正确分类外,我们还想分析人为注释错误。对于这两个分类器,我们发现在某些情况下,人工注释人员会犯错误,考虑到推文的语义复杂性,这是意料之中的。然而,该算法被证明对这种综合征具有弹性,并且从大多数正确标记的示例中学习得很好。为了确认这个结论,我们仔细地修改了测试集的注释,直到我们可以断言测试集注释几乎完全正确。尽管如此,我们还是从原始测试集中得出了令人困惑的例子。

经过仔细检查,可以证实,这种类型的注释任务对人们来说很难执行,也很难客观地、极其确定地决定分配哪些标签。如前所述,该算法的性能通常比其监督器高出约12%。这导致了这样的结论:注释是一个情感和精神上困难的过程,注释者会犯典型的人为错误。然而,bertiic从统计上学习了大多数正确标记的例子。但在微调过程中存在过拟合现象,训练精度极高。这表明,更多的数据将改进算法。监督者在大约8%的例子中优于算法。这些例子通常包含复杂的情感内容和比喻性的语言。对于其中许多例子,需要更广泛的知识。明显的混合病例占12%。 These examples are mostly long tweets with multiple contradictory statements. Any disagreement is therefore justified. Further inclusion of intermediate values would likely lead to improvement on this basis.

所有这些都表明,如果我们通过所谓的主动学习方法应用一些修订的注释,算法将会改进[64].前面已经解释过的过拟合,加上注释器的错误,可能会导致分类器整体性能的轻微偏差和下降。然而,我们预计这会产生微弱的影响,因为大多数示例都是正确标记的,并且算法从大多数正确标记的示例中稳健地和统计地学习。

英语语言文献中最相似的分类器是由To等人报道的[9].本文对几种分类器进行了分析比较。据报道,基于bert的模型具有最高的性能。我们的度量值略低。这是预期的,因为我们的分类器更复杂,因为它根据相关性和情绪将推文分类为几个类,而Ref. [9),以二元方式训练,将推文分为负面情绪和其他情绪。我们的方法可能会更好地服务于未来的工作,包括对积极情绪推文的分析。

主题建模

尽管LDA是一个生成模型,但在文本挖掘中,它引入了一种将主题内容附加到文本文档的方法。它将每个文档视为多个不同主题的混合体。我们的推文不符合这一要求,因为它们通常是只有一个主要主题的短文档。此外,LDA还存在顺序效应,即当训练数据的顺序被打乱时,会产生不同的主题。此错误可能导致误导性的结果:定义主题的单词或它们的重要性顺序可能不同,从而导致定义主题名称的差异。因此,文档中主题的分布也发生了变化。

NMF是一种线性代数模型,它将高维向量分解为低维表示。与主成分分析类似,NMF利用了向量非负的事实。它最适用于较短的文本,如推文或标题,因为它不会将文档预先定义为不同主题的混合物,而是通过进一步聚类的潜在特征来描述它。

有了这些对所使用模型的简短描述,以及对前一节中给出的主题的分析,我们可以得出这样的结论:在查看输出时,NMF为我们提供了更清晰和更明确的主题:每个主题的关键字和最突出的tweet。然而,在考虑疫苗接种犹豫的原因时,不应忽略lda特异性结果,特别是因为它们突出了NMF主题中没有立即看到的一些方面。因此,我们整理了以下塞尔维亚推特用户可能对COVID-19疫苗接种犹豫不决的原因列表,并按重要性顺序总结了两种模型中的主题:

  • 对疫苗副作用的关注:(1)一般的副作用,(2)儿童的副作用,(3)许多所需剂量引起的副作用
  • 对疫苗有效性的担忧:(1)自然免疫有更好的保护,(2)疫苗对COVID-19新毒株无效,(3)疫苗因为需要太多剂量而无效
  • 对未经充分检验的疫苗的关注:(1)这类疫苗的副作用;(2)这类疫苗的有效性;(3)强行使用这类疫苗侵犯了自由
  • 对权威的不信任:(1)医学专家和机构,(2)政府和政治决策者
  • 阴谋论:(1)疫苗是一个赚钱的计划;(2)疫苗,尤其是mRNA疫苗,改变DNA;(3) COVID-19不存在;因此,疫苗是不必要的;(4)疫苗是减少和控制人口的一种手段;(5)疫苗是世界大国及其议程的工具

这两个表4表格在多媒体附件1对于任何需要更详细地了解人们对疫苗接种过程的关注的人来说,保持深刻的见解。

结论

本文提出了一种NLP方法的组合,旨在研究塞尔维亚疫苗犹豫的原因。它主要关注从Twitter收集的信息以及Twitter用户表达的信息。我们首先收集了关于COVID-19疫苗接种的关键词推文。收集到的一些推文被用来建立一个基于bert的分类器,用于自动检测对免疫过程有相关和负面意见的推文。然后,我们使用这个分类器自动对推文的第二部分进行分类。我们使用的基于变压器编码器架构bertiic的技术来构建这个分类器,显示了突出和高质量的结果。我们建立的分类器可以有效地用于未来的公众舆论研究,特别是免疫过程研究,因为世界仍然不确定大流行病将如何演变。我们的方法可以相对容易地扩展到其他世界语言。

分析的第二部分包括将主题建模方法LDA和NMF应用于负面情绪推文。我们考虑使用得到的bertiic架构来执行主题分析。然而,在聚类期间,以这种方式获得的嵌入没有像预期的那样表现。在未来的工作中,我们计划将获得的情感分类器用于主题建模任务。具体来说,我们的计划是使用句子- bert [65],以获得推文嵌入,并进一步聚类为主题。鉴于目前还没有针对南斯拉夫语建立这样的资源,我们选择结合使用更传统的技术进行主题分析。

我们分离并列出了推文中对疫苗接种持负面情绪的主要话题。本文的主要结果是对疫苗接种负面情绪背后的原因进行了充分的研究。鉴于这些原因,现在可以更好地了解人们对疫苗接种过程的关注。这将使政府和医疗和制药机构能够制定或重新定义更好地解决这些问题的教育战略。我们希望这能显著提高抗击新冠肺炎大流行的有效性。

致谢

这项工作由塞尔维亚共和国政府、美国国际开发署(USAID)和联合国开发计划署(UNDP)共同支持。

数据可用性

我们用来执行主题建模的数据集可以在我们的GitHub存储库[63].

作者的贡献

概念化、方法学和软件任务由AL和NP执行;通过AL、NP、DM和BB进行验证、形式化分析、调查和资源;基于AL和DM的数据管理与可视化;写作- AL、NP、DM撰写初稿;BB和JM的撰稿和编辑;JM的监督和资金获取;由BB负责项目管理。所有作者均已阅读并同意该手稿的出版版本。

利益冲突

没有宣布。

多媒体附件1

潜狄利克雷分配(LDA)和非负矩阵分解(NMF)检测的主题和前10个关键词。

DOCX文件,28 KB

  1. 马志强,李志强,李志强。疫苗诱导的群体免疫研究进展。中华过敏临床免疫杂志,2018年7月;42(1):64-66。[CrossRef] [Medline
  2. 柯伊拉腊A,朱永杰,哈塔米A,邱C,布里顿PN。COVID-19疫苗:现状。儿科呼吸Rev 2020 Sep;35:43-49 [免费全文] [CrossRef] [Medline
  3. Vergara RJD, Sarmiento PJD, Lagman JDN。建立公众信任:应对COVID-19疫苗犹豫困境。J公共卫生(Oxf) 2021年6月07;43(2):e291-e292 [免费全文] [CrossRef] [Medline
  4. 世界卫生组织。2019年全球卫生面临的十大威胁。2019.URL:https://www.who.int/news-room/spotlight/ten-threats-to-global-health-in-2019[2021-01-31]访问
  5. 世界卫生组织。疫苗接种和信任,2017。URL:https://www.who.int/publications/i/item/vaccination-and-trust[2021-01-31]访问
  6. Larson HJ, Cooper LZ, Eskola J, Katz SL, Ratzan S.解决疫苗信心差距。柳叶刀2011年8月;378(9790):526-535。[CrossRef
  7. Kwok SWH, Vadde SK, Wang G.澳大利亚推特用户中与COVID-19疫苗接种相关的推文主题和情绪:机器学习分析。J Med Internet Res 2021年5月19日;23(5):e26953 [免费全文] [CrossRef] [Medline
  8. 吕锦江,韩磊,吕丽GK。推特上与COVID-19疫苗相关的讨论:主题建模和情绪分析。J Med Internet Res 2021年6月29日;23(6):e24435 [免费全文] [CrossRef] [Medline
  9. 杜qg, To KG,黄维恩,Nguyen NTQ, Ngo DTN, Alley SJ,等。应用机器学习识别COVID-19大流行期间的反疫苗接种推文。国际环境与公共卫生杂志2021年4月12日;18(8):4069 [免费全文] [CrossRef] [Medline
  10. Boon-Itt S, Skunkan Y.公众对推特上COVID-19大流行的看法:情绪分析和主题建模研究。JMIR公共卫生监测2020年11月11日;6(4):e21978 [免费全文] [CrossRef] [Medline
  11. Kunneman F, Lambooij M, Wong A, Bosch AVD, Mollema L.推特信息中对疫苗接种的监测立场。BMC Med Inform Decis Mak 2020 Feb 18;20(1):33 [免费全文] [CrossRef] [Medline
  12. D'Andrea E, Ducange P, Bechini A, Renda A, Marcelloni F.从推特分析监测疫苗接种话题的公众舆论。专家系统应用2019年2月;116:209-226。[CrossRef
  13. Hayawi K, Shahriar S, Serhani M, Taleb I, Mathew S - ANTi-Vax:一种用于COVID-19疫苗错误信息检测的新型Twitter数据集。公共卫生2022年2月;203:23-30 [免费全文] [CrossRef] [Medline
  14. Villavicencio C, Macrohon JJ, Inbaraj XA,郑j, Hsieh J.使用naïve贝叶斯对菲律宾COVID-19疫苗的推特情绪分析。信息2021年5月11日;12(5):204。[CrossRef
  15. 王勇,陈勇。推特上关于COVID-19疫苗的话语特征:一种话题建模和情感分析方法。J commhealthc 2022年3月24:1-10。[CrossRef
  16. 胡涛,王松,罗伟,张敏,黄霞,闫燕,等。利用美国Twitter数据揭示对COVID-19疫苗的公众舆论:时空视角J Med Internet Res 2021 9月10日;23(9):e30854 [免费全文] [CrossRef] [Medline
  17. Cotfas L, Delcea C, Roxin I, Ioanas C, Gherai DS, Tajariol F.最长的一个月:分析第一次疫苗宣布后一个月推特上的COVID-19疫苗接种意见动态。IEEE Access 2021;9:33203-33223。[CrossRef
  18. Chen E, Lerman K, Ferrara E.跟踪关于COVID-19大流行的社交媒体话语:开发一个公共冠状病毒推特数据集。JMIR公共卫生监测2020年5月29日;6(2):e19273 [免费全文] [CrossRef] [Medline
  19. 利用迁移学习分析对COVID-19疫苗的意见、态度和行为意图:社交媒体内容和时间分析。J Med Internet Res 2021年8月10日;23(8):e30251 [免费全文] [CrossRef] [Medline
  20. 黄福林,莫燕,张鹏,曾德东,何生。COVID-19疫苗推出后的推文:基于情感的主题建模。J Med Internet Res 2022 Feb 8;24(2):e31726 [免费全文] [CrossRef] [Medline
  21. Ma P, zheng - treitler Q, Nelson S.使用两种主题建模方法来调查COVID疫苗犹豫(发表于第14届ICT、社会和人类国际会议,ICT 2021年,第18届基于网络的社区和社交媒体国际会议,WBC 2021年和第13届电子卫生国际会议,EH 2021年-在第15届计算机科学和信息系统多届会议上,MCCSIS 2021年)。2021.URL:https://www.ict-conf.org/wp-content/uploads/2021/07/04_202106C030_Ma.pdf[2022-07-11]访问
  22. Monselise M, Chang C, Ferreira G, Yang R, Yang CC. COVID-19疫苗公众关注话题和情绪:社交媒体趋势分析。J Med Internet Res 2021 10月21日;23(10):e30765 [免费全文] [CrossRef] [Medline
  23. Sanandres E, Abello R, Madariaga C.推特对话的主题建模:哥伦比亚国立大学的案例。入:Iezzi DF, Mayaffre D, Misuraca M,编辑。文本分析。可汗:施普林格;2020.
  24. Himelboim I, McCreery S, Smith M.相似的推特:整合网络和内容分析来研究推特上的跨意识形态曝光。计算机学报,2013年1月25日;18(2):40-60。[CrossRef
  25. Rathore AK Kar AK Ilavarasan PV。社交媒体分析:文献综述和未来研究方向。Decis Anal 2017 Dec;14(4):229-249。[CrossRef
  26. Shapiro GK, Surian D, Dunn AG, Perry R, Kelaher M.比较推特上对人乳头瘤病毒疫苗的关注:对澳大利亚、加拿大和英国用户的横断面研究。英国医学杂志公开赛2017年10月05日;7(10):e016869 [免费全文] [CrossRef] [Medline
  27. 杜杰,罗超,薛戈格,卞杰,RM Cunningham, Boom JA,等。利用深度学习分析社交媒体上关于人类乳头瘤病毒疫苗的讨论。美国医学会网络公开赛2020年11月02日;3(11):e2022025 [免费全文] [CrossRef] [Medline
  28. 张玲,范浩,彭超,饶刚,丛强。基于迁移学习的HPV疫苗相关推文情感分析方法。医疗保健(巴塞尔)2020年8月28日;8(3):307 [免费全文] [CrossRef] [Medline
  29. Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A。arXiv 2017。[CrossRef
  30. 戴夫林,张敏,李K, Toutanova K.伯特:深度双向转换器的语言理解预训练。arXiv 2019。[CrossRef
  31. ljubeovic N, Lauc D. bertiic:波黑语、克罗地亚语、黑山语和塞尔维亚语的转换器语言模型。arXiv 2021。[CrossRef
  32. Batanovic V.塞尔维亚语短文本的语义相似性和情感分析。2021年发表于:第29届电信论坛(TELFOR);2021年11月23日至24日;贝尔格莱德,塞尔维亚。[CrossRef
  33. Mochtak M, Rupnik P, ljubeiich N. parlast - bcs数据集,来自波斯尼亚-黑塞哥维那,克罗地亚和塞尔维亚的议会辩论。arXiv 2022。[CrossRef
  34. 米尼C, Escobar M, Moineddin R, Stukel TA, Kalia S, Aliarzadeh B,等。非负矩阵因子分解时间主题模型和临床文本数据确定了COVID-19大流行对加拿大多伦多初级卫生保健和社区卫生的影响。J Biomed Inform 2022年4月;128:104034 [免费全文] [CrossRef] [Medline
  35. Melton CA, Olusanya OA, Ammar N, Shaban-Nejad a . Reddit社交媒体平台上关于COVID-19疫苗的公众情绪分析和主题建模:加强疫苗信心的行动呼吁。J感染公共卫生2021年10月;14(10):1505-1512 [免费全文] [CrossRef] [Medline
  36. Yan C, Law M, Nguyen S,张J, Kong J.比较加拿大各城市对COVID-19疫苗的公众情绪:Reddit上的评论分析。J medical Internet Res 2021 9月24日;23(9):e32685 [免费全文] [CrossRef] [Medline
  37. 李志强,李志强。基于主题建模方法的短文本数据分析。Front Artif Intell 2020;3:42 [免费全文] [CrossRef] [Medline
  38. 王晓燕,王晓燕,王晓燕,等。基于emm的文本分类方法研究。计算机科学进展,2000;39(2):344 - 344。[CrossRef
  39. 闫旭,郭杰,兰燕,程霞。一种短文本的苦主题模型。2013年发表于:WWW '13:第22届万维网国际会议论文集;2013年5月13-17日;里约热内卢巴西,里约热内卢。[CrossRef
  40. 梅赫罗特拉,谢磊,谢磊。基于推文池和自动标记的微博LDA主题模型改进。2013年发表于:SIGIR '13:第36届国际ACM SIGIR信息检索研究与发展会议论文集;2013年7月28日至8月1日;爱尔兰都柏林,第889-892页。[CrossRef
  41. Steinskog A, Therkelsen J, Gambäck B.基于推文聚合的推文主题建模。2017年发表于:第21届北欧计算语言学会议论文集;2017年5月;瑞典哥德堡。
  42. 翁俊,林娥,姜娟,何强。推特排名:寻找话题敏感的有影响力的推特人。2010年发表于:第三届ACM网络搜索和数据挖掘国际会议论文集;2010年2月3日至6日;纽约市,第261-270页。[CrossRef
  43. Blei DM, Ng AY, Jordan MI.潜狄利克雷分配。J Mach Learn Res 2003; 3:93 -1022。[CrossRef
  44. 李德德,承宏。通过非负矩阵分解学习对象的各部分。自然杂志1999年10月21日;401(6755):788-791。[CrossRef] [Medline
  45. 杨晓明,陈晓明,陈晓明。学习主题模型的研究进展。arXiv 2012。[CrossRef
  46. 李文杰,李文杰,李文杰。主题建模中描述符的一致性分析。专家系统应用2015年8月;42(13):5645-5657。[CrossRef
  47. Egger R, Yu J. LDA, NMF, Top2Vec和BERTopic之间的主题建模比较,以消除Twitter帖子的神秘感。Front social 2022年5月6日;7:886498 [免费全文] [CrossRef] [Medline
  48. 巴塔诺维奇V nikoliic B.塞尔维亚语文档的情感分类:形态规范化和词嵌入的影响。Telfor 2017; 9(2): 104 - 109。[CrossRef
  49. 刘志刚,刘志刚。推特对塞尔维亚语的情感分析。2017发表于:第七届信息社会与技术国际会议ICIST 2017;2017;科帕尼克,塞尔维亚,第7页。
  50. 姆拉德诺维奇M,克尔斯特夫C,米特罗维奇J,斯坦科维奇R.利用词汇资源进行反讽和讽刺分类。2017年发表于:BCI '17:第八届巴尔干信息学会议论文集;2017年9月20-23日;马其顿斯科普里,第1-8页。[CrossRef
  51. 斯坦科维奇,柯普迪克,米尼奇,拉多维奇。塞尔维亚语ELTeC语料库句子情感分析。2022发表于:第二届情感分析和语言关联数据研讨会(SALLD-2) @LREC 2020;2022年6月24日;法国马赛,第31-38页。
  52. 葛洛华,李文杰,李文杰。基于n-gram模型的情感极性检测方法研究。智能数据分析2019年4月04日;23(2):279-296。[CrossRef
  53. twarc 2.12.0。URL:https://pypi.org/project/twarc/[2022-11-07]访问
  54. langid 1.1.6。URL:https://pypi.org/project/langid/[2022-11-07]访问
  55. 阮东,吴涛,段娜。BERTweet:英语推文的预训练语言模型。2020年发表于:2020年自然语言处理经验方法会议论文集:系统演示;2020年11月8日至12日;在线第9-14页。[CrossRef
  56. srtools 0.1.13。URL:https://pypi.org/project/srtools/[2022-11-07]访问
  57. ljubeovic N, Štefanec V.非标准塞尔维亚语1.1的classla - standfordnlp模型。斯洛文尼亚语言资源库。2020.URL:https://www.clarin.si/repository/xmlui/handle/11356/1351[2022-11-07]访问
  58. 李国强,李国强。潜狄利克雷分配的在线学习方法。在:拉弗蒂J,威廉姆斯C,肖泰勒J,泽梅尔R,库洛塔A,编辑。神经信息处理系统研究进展。红钩,纽约:Curran Associates;2010.
  59. Rehurek, Radim, Sojka, Petr。大型语料库主题建模软件框架。2010年发表于:LREC NLP框架新挑战研讨会论文集(NLPFrameworks 2010);2010年5月22日;马耳他瓦莱塔,第45-50页。[CrossRef
  60. 张国强,张国强。大规模非负矩阵和张量因式分解的快速局部算法。2009;E92-A(3):708-721。[CrossRef
  61. 马洛瓦茨U, avdiic A, ljajiic A.创建一个停止词词典在塞尔维亚。新帕扎尔大学A科学2021;13(2):17-25。[CrossRef
  62. 王晓明,王晓明,王晓明。基于矩阵分解的主题建模稳定性研究。专家系统与应用2018年1月;91:159-169。[CrossRef
  63. COVID-19-Vaccine-Hesitancy-Tweets。URL:https://github.com/Adelija/COVID-19-vaccine-hesitancy-tweets[2022-11-07]访问
  64. 使用自校正神经网络(ALSCN)的主动学习。应用科学2021年6月1日;52(2):1956-1968。[CrossRef
  65. 句子嵌入:使用连体bert网络的句子嵌入。arXiv 2019。[CrossRef


API:应用程序编程接口
伯特:来自变压器的双向编码器表示
LDA:潜在狄利克雷分配
信使rna:信使核糖核酸
NLP:自然语言处理
NMF:非负矩阵分解
RNN:循环神经网络
TF-IDF:术语频率-逆文档频率
人:世界卫生组织


C Basch编辑;提交29.08.22;G Muric, M Kapsetaki同行评审;对作者11.09.22的评论;修订本收到29.09.22;接受29.09.22;发表17.11.22

版权

©Adela ljajiic, Nikola prodanovic, Darija Medvecki, Bojana bararagin, Jelena mitrovic。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 17.11.2022。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map