发表在10卷7号(2022): 7月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/33678,首次出版
基于BERTweet的推特电子烟话语分类:比较深度学习研究

基于BERTweet的推特电子烟话语分类:比较深度学习研究

基于BERTweet的推特电子烟话语分类:比较深度学习研究

原始论文

1阿肯色大学计算机科学与计算机工程系,费耶特维尔,美国

2美国匹兹堡大学医学院普通内科学部,宾夕法尼亚州匹兹堡

3.美国阿肯色州费耶特维尔市阿肯色大学健康、人类表现和娱乐系

4匹兹堡大学生物医学信息系,美国宾夕法尼亚州匹兹堡市

5美国俄勒冈州科瓦利斯俄勒冈州立大学公共卫生与人类科学学院

通讯作者:

多布斯博士

健康,人类表演和娱乐部

阿肯色大学

308A HPER大楼

费耶特维尔,阿肯色州,72701

美国

电话:1476 575 8680

电子邮件:pdobbs@uark.edu


背景:推特为监督和监测公共卫生主题提供了一个宝贵的平台;然而,手动对大量Twitter数据进行分类是一项劳动密集型工作,并且在识别主要趋势和情绪方面存在障碍。此外,虽然机器学习和深度学习方法已经提出了高精度,但它们需要大量带注释的数据集。公共预训练的深度学习分类模型,如BERTweet,使用更小的带注释的训练集产生更高质量的模型。

摘要目的:本研究旨在推导和评估一个基于BERTweet的预训练深度学习模型,该模型可以识别与电子烟相关的推文、商业性质的推文(与电子烟相关)和带有provape情绪的推文。此外,BERTweet分类器的性能将与长短期记忆(LSTM)模型进行比较,以显示预训练模型对传统深度学习方法的改进。

方法:Twitter数据是在2019年8月至10月期间使用与电子烟相关的搜索词收集的。从这个集合中,随机抽取2401条英文推文的子样本,对相关性(是否与电子烟相关)、商业性质(是否商业)和情绪(积极、消极或中立)进行人工注释。使用带注释的数据,使用BERTweet构建3个独立的分类器,并使用Simple Transformer应用程序编程接口(API)定义的默认参数。每个模型都训练了20次迭代,并使用带注释的tweet的随机分割进行评估,保留10% (n=165)的tweet用于评估。

结果:相关分类器、商业分类器和情感分类器在接收者操作特征曲线(AUROC)下的面积分别为94.5%、99.3%和81.7%。此外,加权F1得分分别为97.6%、99.0%和86.1%。我们发现BERTweet在所有类别的分类上都优于LSTM模型。

结论:大型、开源的深度学习分类器,如BERTweet,可以为研究人员提供可靠的能力,确定推文是否与电子烟相关;包含商业内容;并且比传统的自然语言处理深度学习模型更准确地包含有关电子烟的积极、消极或中性内容。这种对Twitter数据利用的改进可以比传统方法(如调查、投票研究)更快地探索和传播对时间敏感的数据。

中国生物医学工程学报;2010;31 (7):563 - 567

doi: 10.2196/33678

关键字



背景

自2006年推出以来,Twitter人气爆发式增长,已成为顶级社交媒体平台之一。截至2021年,该网站在全球拥有1.92亿每日活跃用户[1]。Twitter文本帖子的280个字符的限制,被称为tweet,很适合自发和有机的互动。这些推文的坦率性质为公共卫生领域提供了宝贵的数据。患者与卫生保健专业人员相处的时间相对较少,有些人每隔一年才看一次初级保健医生,因此卫生保健工作人员很难准确地解决患者经常感到不舒服的需求或感受。2]。

虽然Twitter为监督和监测公共卫生主题提供了一个有价值的平台,但手工对Twitter的大量数据进行分类,对及时识别主要趋势和情绪提出了挑战。机器和深度学习方法先前已被提议为Twitter数据的系统和自动化处理和分析提供框架,以开发用于公共卫生的监测系统[3.]。虽然这些模型达到了很高的准确性,但它们需要训练大量带注释的数据集。相比之下,公共预训练的深度学习分类模型,如BERTweet,使用更小的带注释的训练集产生更高质量的模型[4]。在本研究中,我们推导并评估了一个基于BERTweet的预训练深度学习模型,该模型可以识别与电子烟相关的推文、商业性质的推文和带有provape情绪的推文。我们将基于bertweet的分类器的结果与长短期记忆模型(LSTM)进行比较,以显示预训练模型相对于传统深度学习方法的改进。

传统深度学习

深度学习是一类机器学习算法,它使用多层从原始输入中逐步提取更高级的特征[4]。目前存在几种类型的深度学习架构,如深度神经网络、循环神经网络(rnn)和卷积神经网络(cnn)。深度学习的应用包括计算机视觉、语音识别、自然语言处理和药物设计。

在他们的研究中,Visweswaran等[3.发现LSTM模型在相关性、情绪和商业性质的推文分类上表现得特别好[3.]。LSTM网络是一种特殊的RNN,能够学习长期依赖关系[5]。与cnn等标准前馈网络不同,lstm具有反馈连接。这种反馈连接使网络不仅可以处理单个数据点(如一个词),还可以处理整个数据序列(如句子或短语),这使得它们在分类信息情感方面非常强大。

预训练变压器模型

在过去的几年中,转换器模型对于各种各样的自然语言处理任务非常有效。首先由Colditz等人提出[6],变压器使用自关注机制来捕捉序列中哪些方面在一系列标记中是重要的。简而言之,自我关注机制旨在让机器实现真正的自然语言理解。

2018年,Google AI Language发布了来自变形金刚的双向编码器表示(two - directional Encoder Representations from Transformers, BERT)模型,该模型通过学习两个方向的token表示来改进原始的变形金刚模型[7]。在普通变压器中,从左到右或从右到左分析序列,但不是两个方向都分析。为了实现这一点,BERT使用了一种改进的预训练过程,该过程包括屏蔽语言模型和下一个句子预测目标[2]。对各种文本、语言和主题进行预训练的几个BERT模型可以免费向公众提供。这为试图为许多语言任务(包括文本分类)创建模型的研究人员提供了一种现成的方法。研究人员可以在默认设置中使用BERT,也可以对与手头任务密切相关的数据集进行微调。例如,在本研究中,在测试系统的分类准确性之前,对创建的模型在一组手工注释的tweet上进行微调。

引入BERT后,发表了“鲁棒优化的BERT预训练方法”(RoBERTa) [8]。RoBERTa是在作者对BERT的默认超参数进行实验的基础上创建的。他们发现BERT明显训练不足,并且经过一些小的改变,修改后的BERT模型能够胜过更新的甚至更大的变压器模型。RoBERTa中的预训练优化包括动态屏蔽、大型小批量、更大的字节对编码,以及在文档中使用完整的句子。我们参考Liu等人[8]以获取有关RoBERTa中执行的优化的更详细讨论。像BERT一样,RoBERTa的许多预训练版本都可以在网上找到。

BERTweet是一个使用RoBERTa预训练程序训练的基于bert的公共模型[9]。该模型于2020年发布,是第一个针对英语推文进行大规模预训练的语言模型,该模型将发布给其他研究人员,以进一步改进和开发新的应用。BERTweet是在2012年至2019年收集的8.5亿条英文推文上进行训练的,这为在一组推文上进行新的下游分类任务做好了准备。这种在大型文本语料库上进行预训练,然后为分类任务对模型进行微调的管道称为迁移学习[2]。研究表明,预训练对于下游任务中的模型性能是不可或缺的,因此,在与下游任务中的文本相似的材料上预训练模型将产生更好的性能。因此,能够访问在大量tweet语料库上训练的模型对于创建基于twitter的公共卫生监测系统是非常宝贵的。我们参考Nguyen等人[9]获取BERTweet模型如何运作的更详细解释。

客观的

我们的目标是产生一个准确的基于bertweet的深度学习分类器,可以改进现有的Twitter监控系统,这些系统专注于与电子烟相关的推文。此外,我们的目标是产生一个分类器,在评估tweet的相关性(相关与否),情绪(积极,消极或中性)和商业性质(商业与否)方面是可靠和准确的。利用Twitter作为传统监测的补充,将允许实时识别可供公共卫生从业人员使用的变化。例如,当对电子烟的积极情绪上升时,从业者可能能够确定确切的原因并做出相应的反应。同样,当有关电子烟及其对健康影响的错误信息明显激增时,健康专家将能够立即采取行动纠正这些信息。3.]。

相关工作

一些作品已经提出了分类器来根据情感对Twitter数据进行分类。此外,在过去几年里,关于创建分类器来分析Twitter上描述的公共卫生趋势的出版物激增。Gohil等[10]对目前可供研究人员使用的情绪分析工具进行了回顾。他们发现,虽然有多种方法可以分析医疗保健环境中推文的情绪,但仍然需要一种准确且经过验证的工具来分析使用医疗保健环境特定推文训练的推文的情绪。Edara等[11]开发了一种LSTM,根据推文的语气对与癌症相关的推文进行分类,并将结果与几种传统的机器学习方法进行比较。他们发现LSTM模型优于所有其他方法。Ji等[12]利用Twitter平台,通过将个人推文从新推文中分离出来,然后使用naïve贝叶斯分类器将个人推文进一步分类为负面和非负面,从而监测公众对流行病关注的传播。

对于在Twitter数据上执行情感分析的一般方法,Agarwal等[13]引入了一元图、基于特征和基于树的模型,将tweet分类为二元任务(积极或消极)或三向任务(积极、消极和中性)。Harjule等[14提出了另一种分类推文情绪的通用方法。作者在大量数据集上分析了几个基于词典和机器学习的推文情绪分类器,发现机器学习模型在情绪分类方面更准确。哈德和索纳瓦内[15]进行了类似的对比分析,并验证了Harjule等人的说法[14机器学习分类器产生更高的准确率,但需要注意的是,基于词典的方法在某些情况下可能更有效。

除了一般情绪和公共健康监测之外,还有几项研究着眼于利用Twitter来监测电子烟和电子烟的趋势[1617]。汉和卡瓦卢鲁[18]实现了几个机器学习模型,如支持向量机、逻辑回归和cnn,来识别营销和非营销的电子烟推文。此外,Myslín等[19]和Cole-Lewis等人[20.注释了与烟草相关的推文,并派生了几个机器学习分类器来预测情绪。Huang等[21使用机器学习分类器分析推文,以找到与电子烟有关的推文的商业性质的趋势。他们发现,与电子烟相关的推文约90%是商业性的,约10%提到了戒烟。雷森德和库洛塔[22]为与电子烟相关的推文导出了一个情绪分类器,该分类器识别积极和消极推文的准确率分别为96%和70%。Visweswaran等[3.]对传统机器学习分类器(回归、随机森林、线性支持向量机、多项式naïve贝叶斯)与深度学习分类器(CNN、LSTM、LSTM-CNN、双向LSTM)进行了深入比较,发现在所有被测网络中,LSTM的分类准确率最高。


数据收集

使用Twitter健康信息实时信息监测(RITHM)框架,从2019年8月至10月连续收集推文[6]。RITHM框架是一个用于收集和格式化Twitter数据的开源软件。它还提供了最大化后续人类数据编码的效率和有效性的程序。我们用于数据收集的关键字包括Vape, vapes, vaper, vapers, vaping, juul, juuls,尤尔的说法。与电子烟相关的关键词是基于之前Twitter的研究[610特别地,我们纳入了关键词来识别非常受欢迎的电子烟品牌JUUL,该品牌在收集数据时拥有最高的市场份额[23]。我们从上面的列表中识别并收集了所有与1个或多个关键字匹配的推文。

注释

数据收集后,随机抽取2401条英文推文的子样本,对相关性(是否与电子烟相关)、商业性质(是否商业)和情绪(积极、消极或中性)进行标注。此注释是按照3级分层注释模式完成的,如表1。一条推文首先被标注为相关性。然后,只有当这条推文是相关的,它才会被注释为商业性质和情感。

一个由2名训练有素的注释员组成的团队一次独立地注释了400条推文。经裁决的注释分歧是在监督研究者在场的情况下进行。所有注释代码的Cohen κ值都大于0.70,表明注释者之间的内部一致性很强。在分类器模型的训练中,使用了完整的2401个评审注释和tweet内容。注释的详细描述可以在表2

表1。用于注释电子烟相关推文的标签描述。
标签 描述 例子引用
有关
  • 这条推文是英文的吗?是否与当前的吸电子烟话题有关(例如,吸电子烟的使用或用户、吸电子烟的设备或产品)?

不相关的
  • 通常,非英语推文或专门提到吸食大麻产品的推文。

商业
  • 这条推文是电子烟产品的广告/营销吗?
  • 今天只!购买一个JUUL获得第二个半价与我们的在线优惠券代码#JUUL4LIFE
非商业性
  • 包括展示对产品的好感,但不直接提倡购买的推文。

积极的
  • 这条推文与电子烟的积极情绪或背景有关。
  • 推特者正在、或最近使用过、或将要使用电子烟:
    • 现在正在学校的浴室里狂欢!
  • 推特者对他人的使用或他人对电子烟的积极评论表示积极或中立的接受。
    • 刚让汉娜第一次尝试吸电子烟!她很喜欢。
  • 这位推特用户提到电子烟笔与社会或流行文化的其他积极方面有关。
    • 我们需要一个在严肃谈话中扯掉JUUL的迪士尼公主。
  • 推特用户用第一人称代词问了一个问题:
    • 我在哪里可以买到JUUL?
  • 这条推文与电子烟的负面情绪或背景有关。
  • 这位推特用户认为吸电子烟很恶心,不酷,或者没有吸引力。
    • 真不敢相信现在每个人都在抽juul。我觉得很恶心。
  • 推特用户批评/嘲笑其他人使用电子烟:
    • 我们的mcm说“香烟很恶心”,但通过凉爽的黄瓜味JUUL豆荚,他对尼古丁上瘾。
  • 推特者更喜欢使用不同的物质,比如香烟或大麻:
    • 今天第一次尝试了JUUL,但我还是更喜欢香烟。

中性
  • 这条推文是真实的,但不是固执己见的,或者是一个关于电子烟的公正事实/信息的问题。
    • 他们在我当地的烟草店卖JUUL笔,有兴趣的人可以买。
    • 什么是JUUL?
    • JUUL比烟草好吗?
表2。对带注释的训练和测试数据集的描述(N=2401)。一个
目标 具有积极目标的tweet数,n (%) 带有负面目标的tweet数,n (%) 具有中立目标的tweet数,n (%)
相关性 相关:
  • 总分:1802分(75.05分)
  • 培训:1637 (90.84)
  • 测试:165 (9.16)
Nonrelevant:
  • 总分:599分(24.95分)
  • 培训:524 (87.48)
  • 测试:75 (12.52)
N/Ab
商业 商业:
  • 总分:117 (4.87)
  • 培训成绩:106 (90.60)
  • 测试:11 (9.40)
非商业:
  • 总分:1685 (70.18)
  • 培训:1516 (89.97)
  • 测试:169 (10.03)
N/A
情绪 积极的:
  • 总分:172 (7.16)
  • 培训:158 (91.86)
  • 测试:14 (8.14)
负面:
  • 总分:130分(5.41分)
  • 培训:119 (91.54)
  • 测试:11 (8.46)
中性的:
  • 总数:1372 (57.14)
  • 培训:1229 (89.58)
  • 测试:143 (10.42)

一个百分比加起来可能不会达到100%,因为只有在tweet相关的情况下才会对情绪进行分类。

b情绪代码,目标中立。

LSTM模型

我们将简要叙述Visweswaran等人[3.训练和评估LSTM模型,将与电子烟相关的推文分类为相关;商业;以及情绪是积极的、消极的还是中性的。我们的LSTM模型是使用TensorFlow机器学习库的内置功能开发的。我们使用整流线性单元(ReLU)作为隐藏层的激活函数,使用sigmoid作为输出层的激活函数。此外,我们利用二元交叉熵作为损失函数,Adam作为优化器。根据Visweswaran等人的研究[3.],我们使用了非特定领域的GloVe词向量。

在首先测试了70/30分割来创建相关分类器并测试了随机分割来防止过度拟合之后,我们发现了对整个注释数据集进行90/10分割的最佳结果,因为所有tweet都被编码为相关或不相关。我们使用90%的分割(n=1637)来训练LSTM相关分类器,然后在剩余的10% (n=165)上进行测试。我们使用64个批大小训练模型5个epoch。商业分类器和情感分类器都遵循与相关分类器相同的训练和测试程序。唯一的区别是,只有标记为相关的推文被用于商业和情感数据集中。所有不相关的推文都被过滤掉并丢弃。

BERTweet

为了创建相关性分类器,将90%标记为相关(n=1637)或不相关(n=524)的推文用于微调BERTweet模型,其余10%用于测试最终模型(相关n=165;nonrelevant n = 75)。这种分割、训练和测试过程以随机分割重复多次,准确度结果是每次单独运行的平均值。BERTweet训练了20个epoch, batch大小为32,学习率为5 × 105。根据Simple Transformers API,所有其他超参数都保留默认值,这用于加速BERTweet的微调过程,并减少需要编写的专有代码的数量。输入tweet文本的标记化由Simple Transformers API处理,该API自动使用由模型创建者定义的BERTweet标记器。

为了创建商业分类器和情感分类器,首先对带注释的推文进行相关性过滤;这些分类器丢弃不相关的推文,然后将标记为相关的推文分成训练集和测试集,并使用与相关分类器相同的过程对模型进行微调。


概述

我们比较了LSTM和BERTweet分类器在F1和AUROC得分方面的性能。此外,每个分数是各自模型的3个不同测试迭代的平均值。F1是精度和召回率的函数:

F1 = 2×(精度×召回率)/(精度+召回率)(1)

精度=真阳性/(真阳性+假阳性)(2)

回忆=真阳性/(真阳性+假阴性)(3)

对于F1,在0到1的范围内接近1的值表示精度和召回率之间的良好平衡。

AUROC是模型判别的度量,也就是说,例如,分类器区分积极、消极和中性tweet的程度。AUROC分数越大,模型的性能越好。

相关性

在对tweet进行相关或不相关分类时,BERTweet分类器的F1得分为0.976,AUROC得分为0.945。LSTM分类器的F1得分为0.924,AUROC得分为0.924。BERTweet分类器的所有运行都获得了比LSTM模型更高的F1和AUROC分数。

商业

在对商业推文(商业或非商业)进行分类时,BERTweet分类器表现良好,F1得分为0.990,AUROC为0.993。在所有类别中,BERTweet在商业分类中表现最好。与BERTweet模型相比,LSTM模型的F1得分为0.727,AUROC得分为0.903 (表3).

表3。BERTweet与LSTM的比较一个F1和AUROCb分数。
分类器/指标 相关性 商业 情绪
BERTweet



F1 0.976 0.990 0.861
AUROC 0.945 0.993 0.817
LSTM



F1 0.924 0.727 0.250
AUROC 0.924 0.903 0.776

一个LSTM:长短期记忆。

bAUROC:接收机工作特性曲线下的面积。

情绪

BERTweet和LSTM模型在情绪分类(积极、消极或中性)方面表现最差。BERTweet的F1为0.861,AUROC为0.817。LSTM模型的F1为0.250,AUROC为0.776。


主要研究结果

这是第一个使用BERTweet对电子烟相关推文进行分类的研究。基于分析,我们发现BERTweet等预训练的深度学习分类器在将推文分类为与电子烟相关、关于电子烟的商业性质推文以及对电子烟的情绪方面表现得非常好。与LSTM分类器相比,BERTweet分类器的相关性、商业性和情感性的AUROC值分别为0.945、0.993和0.817。总的来说,这些结果表明,预训练的分类器可以用来监测社交媒体平台,如Twitter的公共卫生趋势。这种对Twitter数据利用的增强,可以比调查和投票研究等传统方法更快地探索和传播对时间敏感的数据。

实际上,我们的工作还有助于在Twitter上为公共卫生从业人员提供与电子烟相关的信息。例如,如果推文的积极情绪增加,公共卫生从业人员可能会发现某个特定领域已经准备好进行政策变革。通过分类结果,从业者还可以了解有多少推文与电子烟营销相关,以及人们的情绪与商业推文数量之间的关系。

限制

这项研究有几个局限性。首先,手工注释了相对较小的2401条tweet。与另一项研究[3.],这只是他们注释的数据集的一半多一点。虽然这个集合很小,但当使用BERTweet时,它足以产生准确的结果,这再次证明了预训练变压器模型的力量。然而,这一限制确实使直接与Visweswaran等人的结果进行比较变得困难[3.]。第二,当我们将关键词与Visweswaran等人的研究[3.),由于Twitter上语言的不断演变,我们的收集方法可能会忽略Twitter平台上流行的新产品或趋势。第三,我们分析了只用英语写的推文。这限制了这个分类器可以准确地对tweet进行分类的总体。例如,其他国家可能对电子烟有不同的看法,而这些看法在这项研究中没有得到支持。最后,推文的日期范围被限制为2个月的时间跨度,这限制了分类器随时间的泛化性,因此,需要执行更多的分析来发现分类器的寿命。

未来的研究

可以探索几种不同的研究工作,这些研究工作与利用预训练的深度学习模型对推文进行分类有关。首先,我们可以从只分析英语推文扩展到将这项工作扩展到全球地区和语言。此外,可以对创建等效LSTM模型所需的注释tweet的数量进行分析,以提供大量证据,证明预训练模型提供的证据不仅仅是更高的分类精度。最后,本文中开发的BERTweet模型可以扩展为创建一个实时分析平台,以更好地为公共卫生官员提供信息,使他们能够了解当前和未来政策干预的影响。

结论

在这项研究中,我们建立了一个基于BERTweet的深度学习分类模型,该模型能够根据相关性(相关与否)、商业性质(商业与否)和情绪(积极、消极或中立)等几个观点对与电子烟相关的推文进行分类。然后,我们比较了BERTweet模型和LSTM模型对2401条手工编码tweet的分类性能。我们发现,在所有分类情况下,BERTweet的准确率都更高。BERTweet的强劲表现表明,它可以提高对Twitter等社交平台关于电子烟等公共卫生趋势的准确监控能力。

致谢

作者感谢Eric Schisler、Caroline Stokenbury和Emily Abby Norton提供的数据注释。这项工作得到了美国国立卫生研究院国家癌症研究所(R01- ca225773)、美国国立卫生研究院国家医学图书馆(R01- LM012095)和美国国家科学基金会(ACI-1548562和ACI-1445606给匹兹堡超级计算中心)的资助。内容完全是作者的责任,并不一定代表美国国立卫生研究院或美国国家科学基金会的官方观点。

利益冲突

没有宣布。

  1. 2021年每个营销人员都应该知道的10个Twitter统计数据。信息图表。URL:https://www.oberlo.com/blog/twitter-statistics[2021-04-16]访问
  2. 使用大型预训练语言模型跟踪Twitter上癌症患者的情绪。计算机科学与计算机工程本科荣誉论文。URL:https://scholarworks.uark.edu/csceuht/92/[2022-05-24]访问
  3. 李建军,张建军,张建军,等。Twitter监控电子烟的机器学习分类器:比较机器学习研究。医学信息学报,2020,Aug 12;22(8):e17478 [J]免费全文] [CrossRef] [Medline]
  4. leun Y, Bengio Y, Hinton g。Nature 2015年5月28日;521(7553):436-444 [免费全文] [CrossRef] [Medline]
  5. 赵锐,闫锐,王杰,毛凯。基于卷积双向LSTM网络的机器健康监测学习。传感器2017年1月30日;17(2):273 [j]免费全文] [CrossRef] [Medline]
  6. 张建军,张建军,张建军,等。朝着实时监控Twitter健康信息的方向发展。中华卫生杂志;2018;38(8):1009-1014。[CrossRef]
  7. Devlin J, Chang M, Lee K, Toutanova K. BERT:基于深度双向变换的语言理解预训练。参见:计算语言学协会北美分会2019年会议论文集:人类语言技术。2019在:计算语言学协会;2019;明尼阿波利斯,明尼苏达州,第4171-4186页https://www.aclweb.org/anthology/N19-1423CrossRef]
  8. 刘勇,Ott M, Goyal N,杜军,Joshi M,陈东,等。罗伯塔:稳健优化的bert预训练方法。ArXiv 0219:abs/1907.1 2019:1692。[CrossRef]
  9. Nguyen D, Vu T, Nguyen A. BERTweet:英语tweet的预训练语言模型。参见:2020年自然语言处理经验方法会议论文集:系统演示。BERTweet:英语tweet的预训练语言模型。2020年自然语言处理系统演示的经验方法会议论文集。计算语言学协会2020年10月;2020年发表于:计算语言学协会;2020年7月5日至10日;虚拟p. A URL:https://www.aclweb.org/anthology/2020.emnlp-demos.2/CrossRef]
  10. Gohil S, Vuik S, Darzi A.卫生保健推文的情感分析:所用方法的回顾。JMIR公共卫生监测2018年4月23日;4(2):e43 [j]免费全文] [CrossRef] [Medline]
  11. Edara DC, Vanukuri LP, Sistla V, Kolli VKK。基于LSTM的癌症病历情感分析与文本分类。[J]环境英特尔人机计算2019年7月16日。[CrossRef]
  12. 季霞,春萨,魏志,Geller J. Twitter情感分类衡量公众健康关注。社会网络学报2015年5月12日;5(1):13 [j]免费全文] [CrossRef] [Medline]
  13. 刘建军,谢波,刘建军,刘建军。微博数据的情感分析。2011年发表于:社交媒体语言研讨会论文集;2011年6月;纽约,纽约,p. 30-38http://www.cs.columbia.edu/~julia/papers/Agarwaletal11.pdf
  14. Harjule P, Gurjar A, Seth H, Thakur P. Twitter数据的文本分类。2020发表于:第三届计算机工程新兴技术国际会议:机器学习和物联网;2020年2月7-8日;斋浦尔,印度160-164页。[CrossRef]
  15. 推特数据的情感分析:技术综述。IJCA 2016; 39(11):5-15。[CrossRef]
  16. 柯迪兹JB,韦林J,史密斯NA,詹姆斯AE,普里马克BA。世界电子烟日:使用混合方法分析在线社交媒体中的电子烟文化。混合方法研究学报,2017,09;13(2):196-215。[CrossRef]
  17. Sidani JE, Colditz JB, Barrett EL, Shensa A, Chu K, James AE,等。我一觉醒来就抽JUUL:分析推特上的JUUL尼古丁效应和依赖性。药物与酒精依赖2019年11月;204:107500。[CrossRef]
  18. 韩s, Kavuluru R. Twitter上营销和非营销电子烟主题的探索性分析。2016年11月11日发表于:社会信息学国际会议;2016;贝尔维尤。[CrossRef]
  19. Myslín M,朱s,查普曼W,康威M.使用Twitter调查吸烟行为和新兴烟草产品的认知。医学与互联网研究,2013年8月29日;15(8):e174 [J]免费全文] [CrossRef] [Medline]
  20. Cole-Lewis H, Varghese A, Sanders A, Schwarz M, Pugatch J, Augustson E.使用监督机器学习评估电子烟相关推文的情绪和内容。医学互联网研究,2015年8月25日;17(8):e208 [J]免费全文] [CrossRef] [Medline]
  21. 黄杰,孔菲德,陈晓明。推特上电子烟营销的横断面研究。Tob Control 2014 july 16;23增刊3(增刊3):iii26-iii30 [免费全文] [CrossRef] [Medline]
  22. reende, cullotta A. Twitter上电子烟信息的人口统计学和情感分析。2015年发表于:第六届ACM生物信息学、计算生物学和健康信息学会议;2015年9月9-12日;亚特兰大URL:http://cs.tulane.edu/~aculotta/pubs/resende15demographic.pdf
  23. 黄军,段志,郭军,Binns S, Vera LE, Kim Y,等。电子烟与JUUL: JUUL的非凡增长和营销如何改变了美国电子烟零售市场。卫生控制2019年3月;28(2):146-151 [j]免费全文] [CrossRef] [Medline]


API:应用程序编程接口
AUROC:接收机工作特性曲线下的面积
伯特:双向编码器表示从变压器
有线电视新闻网:卷积神经网络
LSTM:长短期记忆
ReLU:线性整流函数
RITHM:Twitter健康信息的实时监控
RNN:循环神经网络
洛蓓塔:鲁棒优化BERT预训练方法


编辑:A Mavragani, C Lovis;提交18.09.21;陈s, Doan S, Zhou X, Kim S同行评议;对作者的评论30.12.21;修订版本收到21.03.22;接受08.05.22;发表21.07.22

版权

©William Baker, Jason B Colditz, Page D Dobbs, Huy Mai, Shyam Visweswaran, Justin Zhan, Brian A Primack。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 2022年7月21日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map