这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
COVID-19大流行对人口健康造成了额外压力,可能导致睡眠行为的改变。
在这项研究中,我们假设使用自然语言处理来探索社交媒体将有助于评估COVID-19爆发后失眠患者的心理健康状况。
我们设计了一项回顾性研究,使用了Twitter上的公共社交媒体内容。我们根据时间对与失眠相关的推文进行了分类,使用了以下两个区间:大流行前(2019年1月1日至2020年1月1日)和大流行周(2020年1月1日至2021年1月1日)区间。我们使用预训练的变压器结合Dempster-Shafer理论(DST)进行了情绪分析,将情绪的极性分为
我们提取了包含这个词的305321条推文
提出的新颖的情感分析管道,通过DST结合预先训练的变压器,能够对与失眠相关的推文的情绪和情绪进行分类。在大流行期间,Twitter用户分享的关于失眠的负面推文多于大流行前。未来使用自然语言处理框架的研究可以评估关于其他类型的心理困扰、习惯改变、不活动导致的体重增加以及病毒感染对睡眠的影响的推文。
COVID-19大流行给世界人口带来了过度压力[
多项研究报告了COVID-19大流行对睡眠质量和心理健康的影响[
我们假设,使用NLP探索社交媒体可以帮助评估COVID-19大流行爆发后失眠患者的心理健康状况。心理健康是通过对推特公开数据使用NLP算法测量负面情绪来定义的。我们设计了一个基于预训练变压器架构的情感分析管道。利用Dempster-Shafer理论(DST;信念理论),以达到更高的准确性在认识的情绪。通过使用手动标注的数据集验证了该模型的准确性。随后,使用这一管道,我们分析并比较了在COVID-19大流行爆发前1年内(大流行前)和大流行期间1年内(大流行周)发布的与失眠相关的推文所固有的情绪。我们还从推文的发布时间方面比较了推文的情绪分析结果(即时间分析;午夜前和午夜后)。
这项回顾性试点研究检查了在2019日历年(大流行前间隔)和2020日历年(大流行前后间隔)发布的推文。我们通过使用Twitter应用程序编程接口来收集公开的英语推文,该接口允许我们通过匹配关键字(例如,
STROBE(加强流行病学观察性研究的报告)图表。
为了确定NLP算法性能测量所需的最小样本量,我们使用了精确功率计算方法[
为了验证模型在预测推文情绪方面的性能,我们从提取的数据中随机选择了300条推文(根据
我们设计了一个算法,它有以下三个步骤:预处理、处理和后处理。在预处理步骤中,我们通过删除特殊字符、url和标签来为处理步骤准备推文。该工艺步骤由2个单元组成。第一个单元使用多个模型进行情绪分类(即,积极、消极和中性)。第二个单元使用DST来组合几个模型的输出(即前一步的输出),以提供更准确的预测。最后,在后处理步骤中,我们量化了不同模型的情感分析性能。这些步骤将在以下部分和中进行更详细的讨论
机器学习自然语言处理算法流水线。(A)我们分别计算每个变压器的性能。(B)结合变压器的输出,使用Dempster-Shafer理论做出最终决定。BERT:变压器的双向编码器表示;来自变压器预训练方法的稳健优化双向编码器表示。
从Twitter上抓取的原始数据包含不相关的属性(例如,用户名、url、转发、表情符号等)。预处理的目的是过滤不需要的文本内容,获得推文的相关部分。
该过程步骤包括以下两个单元:基于nlp的情感分析分类器和用于组合分类器输出的DST。
为了对推文进行情感分析,我们利用了变压器,这是新一代的深度人工神经网络(也称为
带有变压器的分类程序。
总共使用了5种不同的预训练的基于变压器的推文情感分析模型。拥抱脸AI社区提供的五个预训练模型如下:
从变压器提取双向编码器表示(BERT) [
稳健优化BERT预训练方法[
BERTweet [
基于bert的多语言模型,用于以下六种语言(英语、荷兰语、德语、法语、西班牙语和意大利语)的产品评论的情感分析。它通过使用星级(1星到5星之间)来预测评论的情绪;3颗星为中性,<3颗星为阴性,≥4颗星为阳性。
罗伯塔[
提高变压器模型的性能
和
一个子集ζ
给定上述函数,我们定义组合规则。我们假设了两个基本信念赋值,
分母对于归一化很重要。
对本文中所讨论的模型进行性能评价
在进行情绪分析并将数据分为负面、正面和中性类别后,使用卡方检验和比值比(or)分析这些推文的类别特征(负面、正面和中性推文的数量)。
我们还调查了与失眠相关的推文的年表,通过检查推文的总小时数。我们提取了带有负面情绪的推文的发布次数。每天的小时数被分为以下两个时间段:午夜前(下午1点到午夜)和午夜后(凌晨1点到中午)。我们计算了每个区间内负面推文的百分比,并使用逻辑回归分析来比较午夜前后发布负面推文的几率。
我们检索到305321条包含这个词的推文
在这两名评论者注释的300条推文中,167条(55.7%)被归为负面,102条(34%)被归为中性,31条(10.3%)被归为正面。评分者间信度达到0.55 (95% CI 0.44 ~ 0.69)。
在
由于蒸馏BERT(模型1)显示了单模型分类的最佳性能,并且为了更好地理解DST如何提高管道的性能,我们分析了该模型的评估指标以及模型的最佳组合(即在
用于分析300条注释推文的模型的性能比较。
模型 | 精度(%) | ||
|
|||
|
模型1(蒸馏BERT一个) [ |
80.3 | |
|
模型2(罗伯塔b) [ |
52.7 | |
|
Model 3 (BERTweetc) [ |
53 | |
|
模型四(bert -多语种)[ |
49.3 | |
|
模型5(微调RoBERTa) [ |
45.3 | |
|
|||
|
模型1+模型2+模型3 | 81 | |
|
模型1+模型2+模型3+模型5 | 84 | |
|
模型1+模型5 | 77.2 | |
|
模型1+模型2+模型3+模型4+模型5 | 81.7 |
一个BERT:来自变压器的双向编码器表示[
b来自变压器预训练方法的鲁棒优化双向编码器表示[
cBERTweet是一种来自Transformers预训练方法模型的稳健优化的双向编码器表示,该模型经过8.5亿条英语推文的训练[
比较单个模型(从变压器提取的双向编码器表示)和基于Dempster-Shafer理论的组合模型在识别每个情感类别(积极、中性和消极)方面的性能。
情绪 | 灵敏度(%) | 精度(%) |
|
精度(%) | |||||||
|
单独的模型一个 | 组合模型b | 单独的模型 | 组合模型 | 单独的模型 | 组合模型 | 单独的模型 | 组合模型 | |||
负 | 92.8 | 93.4 | 77.9 | 81.7 | 84.7 | 87.1 | 81.3 | 84.6 | |||
中性 | 72.5 | 77.5 | 98.7 | 98.8 | 83.6 | 86.8 | 90.3 | 91.3 | |||
积极的 | 38.7 | 54.8 | 46.2 | 58.6 | 42.1 | 56.6 | 89 | 92 |
一个单个模型是从变压器中提取的双向编码器表示[
b组合模型是由transformer (BERT)的蒸馏双向编码器表示[
应用于所有推文的情绪分析的最佳组合模型的结果显示在
大流行前(2019日历年)推文和大流行前后(2020日历年)推文的消极和积极特征。
微博人气 | 推文总数(N=305,321), N (%) | 大流行前推文(n=139,561), n (%) | 大流行期间推文(n=165,760), n (%) | 大流行前vs大流行周 | ||
|
|
|
|
|
|
优势比(95% CI) |
消极的推文 | 156406 (51.3) | 65164 (46.7) | 91242 (55) | <措施 | 45.94 | 1.39 (1.37 - -1.41) |
积极的推 | 62254 (20.4) | 34633 (24.8) | 27621 (16.7) | <措施 | 55.402 | 0.60 (0.59 - -0.61) |
中性的推文 | 86661 (28.3) | 39764 (28.5) | 46897 (28.3) | 口径。 | 1.22 | 0.99 (0.97 - -1.00) |
在大流行前和大流行周发布消极、积极和中性推文的可能性。*
午夜后发布负面推文的可能性高于午夜前(OR 1.21, 95% CI 1.19-1.23;
推文的时间分析。(A)午夜前(下午1点至午夜)和午夜后(凌晨1点至中午)发布的负面推文的百分比。(B)负面推文的每小时分布。(C)大流行前和大流行周期间午夜前(下午1点至午夜)和午夜后(凌晨1点至中午)发布负面推文的可能性比较。(D)大流行前和大流行周期间午夜前(下午1点至午夜)和午夜后(凌晨1点至中午)发布负面推文的可能性的比较。
在这项回顾性队列研究中,我们表明NLP工具可以通过使用公开平台(如Twitter)上表达的情绪来监测人口健康,作为公众意识和认知的替代措施。我们观察到,COVID-19大流行与失眠相关的自我报告推文的变化呈负相关。我们设计了一种用于情感分析的新型NLP管道,该管道基于预训练的变压器组合(通过DST组合;即信仰理论)。通过使用这一基础(在手动注释的推文上得到验证),我们在大流行期间检测到的在推特上报告失眠的人的负面推文比大流行前检测到的负面推文更多。
首先,我们开发了一种新颖的基于机器学习的管道来分析情绪。为了验证模型的性能,我们手动注释了300条推文。κ分析表明,不同评分者的一致性为55%。这不是一个非常强烈的共识,这可能是由于情感分析任务固有的主观性造成的,在这种任务中,每个人都根据自己的观点为文本分配情感[
在开发了一个可靠的情绪分析管道之后,我们分析了推文的情绪。在大流行期间,我们观察到带有该关键字的推文数量显著增加
Nota和Coles之前的一项研究[
我们的研究表明,NLP工具可以用来监测人们对公共压力的态度,比如大流行造成的压力。决策者和公共卫生当局可受益于利用此类监测工具更好地为选民进行宣传[
在本研究中,我们使用Twitter作为数据收集的来源。因此,我们可能已经排除了大量使用其他社交媒体平台(如Facebook)或论坛(如Reddit)来表达他们对失眠的看法的人群。未来的研究应该调查除了推特之外,其他社交媒体平台上的公开数据。此外,由于本研究基于推特,因此缺乏效度测量,没有使用问卷调查和自我报告测量。未来的一项研究可能会使用Twitter数据和个人、卫生专业人员、研究人员和非营利组织的自我报告措施,联合评估孕妇的需求,以及在COVID-19大流行期间可获得的支持和资源。
值得注意的是,在本作品中,只有关键词
在这项研究中,我们提出了一种新的NLP管道,该管道基于使用DST的变压器组合来预测文本数据中固有的情感。我们手动注释了300条tweet,并通过DST组合了各种transformer架构。这种组合可以提高情绪分析的准确性。通过对与失眠相关的推文使用这一管道,我们的研究显示了COVID-19大流行对个人在推特上报告失眠的经历的负面影响。为了调查在COVID-19大流行背景下推特用户报告的睡眠行为的变化,我们分析了大流行之前和期间(2019年和2020年)发布的关于失眠的推文。这项研究的一个优势是使用NLP和DST来识别关于失眠的推文并分析他们的情绪。未来,我们将基于Twitter和其他社交媒体平台,评估大流行期间和之后心理健康状态其他方面(如无聊、恐惧、厌恶、惊讶等)和生活方式改变(如睡眠时间、睡眠时间表、物质使用、身体活动和睡眠药物使用)对失眠症状的影响。
变压器的简单理论。
补充表格和数字。
来自变压器的双向编码器表示
Dempster-Shafer理论
自然语言处理
优势比
基于变压器预训练方法的稳健优化双向编码器表示
这项工作得到了美国国立卫生研究院(NIH)、国家心肺和血液研究所K25基金的支持(赠款1K25HL152006-01;首席研究员:JR)和来自NIH国家护理研究所的研究经费(资助R01NR018342;主要研究员:SN)。本研究使用了质量、有效性和安全创新中心(批准号CIN 13-413)的设施和资源。本文仅代表作者个人观点,并不代表美国政府、退伍军人事务部或贝勒医学院。
HX和德克萨斯大学休斯顿健康科学中心在Melax技术公司拥有与研究相关的财务利益。