发表在10卷(2023)

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/44325,首次出版
使用情境感知转换器为基础的神经网络从即席演讲文本预测广泛性焦虑障碍:模型评估研究

使用情境感知转换器为基础的神经网络从即席演讲文本预测广泛性焦虑障碍:模型评估研究

使用情境感知转换器为基础的神经网络从即席演讲文本预测广泛性焦虑障碍:模型评估研究

原始论文

1加拿大多伦多大学电气与计算机工程系,加拿大多伦多

2成瘾和心理健康中心,加拿大安大略省多伦多

通讯作者:

Bazen gasshaw Teferra博士

爱德华罗杰斯高级电气与计算机工程系

多伦多大学

英皇书院道10号

多伦多,安大略省,M5S3G4

加拿大

联系电话:14169786992

电子邮件:bazen.teferra@mail.utoronto.ca


背景:从言语中自动检测焦虑症的能力可能是一种有用的焦虑症筛查工具。先前的研究表明,言语文本中的单个单词与焦虑严重程度有关。基于变压器的神经网络是一种最近被证明具有强大预测能力的模型,这种预测能力基于多个输入词的上下文。变形金刚可以检测语言模式,并可以单独训练,根据这些模式做出具体的预测。

摘要目的:本研究旨在确定基于转换的语言模型是否可以用于从即席演讲文本中筛选广泛性焦虑障碍。

方法:共有2000名参与者提供了即兴演讲样本,以回应修改版的特里尔社会压力测试(TSST)。他们还完成了广泛性焦虑障碍7项(GAD-7)量表。基于变压器的神经网络模型(在大型文本语料库上进行预训练)对语音转录本和GAD-7进行微调,以预测参与者是否高于或低于GAD-7的筛选阈值。我们报告了测试数据上接收者工作特征曲线(AUROC)下的面积,并将结果与使用语言查询和单词计数(LIWC)特征作为输入的基线逻辑回归模型进行了比较。使用集成梯度方法来确定强烈影响预测的特定单词,我们推断出影响预测的特定语言模式。

结果:基于基线liwc的logistic回归模型的AUROC值为0.58。经过微调的变压器模型的AUROC值为0.64。预测中经常涉及的特定词汇也取决于上下文。例如,第一人称单数代词“我”对焦虑预测的影响为88%,对非焦虑预测的影响为12%,具体取决于上下文。讲话中的沉默停顿也经常与预测有关,20%的时间会影响焦虑预测,80%的时间会影响非焦虑预测。

结论:有证据表明,与基于单词的LIWC模型相比,基于变压器的神经网络模型具有更高的预测能力。我们还发现,在特定的语境中使用特定的单词——一种语言模式——是更好的预测的部分原因。这表明这种基于变压器的模型可以在焦虑筛查系统中发挥有用的作用。

中国生物医学工程学报,2009;22 (2):344 - 344

doi: 10.2196/44325

关键字



背景

筛查、诊断和追踪精神健康障碍需要经常与精神科医生或心理学家交流。然而,高昂的成本[1精神卫生专业人员的缺乏使得频繁的互动变得困难[2]。如果有能力通过被动和频繁地收集患者数据来自动评估精神健康障碍,这一短缺问题就可以得到部分解决。一种可能的监测方法是通过语言,因为精神健康障碍的存在已被证明与人类语言的变化有关[3.4]。

在这项研究中,我们关注焦虑症,特别是广泛性焦虑症(GAD) [5]。焦虑症的特点是对即将发生的事情产生过度和无法控制的恐惧,是最常见的心理健康问题之一,在加拿大人口中的发病率约为10% [6]。使用自动化焦虑障碍测量和诊断的某些方面的方法,例如从言语中检测焦虑,可能会达到更大比例的人口。

目前诊断广泛性焦虑症的黄金标准需要与精神健康专家进行多次会谈,专家将患者表现出的不同症状与《精神疾病诊断与统计手册》第五版广泛性焦虑症诊断标准进行比较[7]。寻找症状的一个地方是病人使用的语言模式因为焦虑的人选择的词语往往与非焦虑的人不同[4]。本研究的目的是确定一种从即兴演讲文本中自动检测焦虑的方法的准确性。我们有动力追求这一目标,部分原因是有可能使用智能手机或其他可穿戴设备频繁收集语音到文本(STT)的转录本,因此,能够在治疗期间或之后监测症状的系统。

近年来,以变压器为基础的[8-12神经网络模型[13已经被证明具有很强的语言预测能力,包括下一个单词预测、机器翻译和序列分类等任务。在这项研究中,我们利用这种能力来预测参与者是高于还是低于广泛性焦虑症的筛查阈值。

本文的组织结构如下之前的工作第一部分总结了从语言预测焦虑的相关工作,并简要概述了转换语言模型。的方法部分描述了语音样本采集方法以及预测模型的构建、训练和评估。的结果节给出了预测模型的性能,而讨论本节讨论了对预测有影响的具体模式。

之前的工作

言语焦虑自动预测研究进展

之前的一些研究已经探索了从言语中自动预测焦虑。这些研究既使用了语音的声学特性,也使用了语音的语言特征,并显示出一些检测焦虑的能力。大多数先前的研究都集中在语音的声学结构上,即音频信号本身的性质。相对而言,在言语的语言学方面所做的工作较少,这是本文的重点,我们将在随后的段落中描述。

Di Matteo等[14探讨被动收集的音频数据与焦虑和抑郁之间的关系。共有84名参与者在他们的智能手机上安装了一个安卓应用程序,为期两周。在此期间,应用程序被动地从参与者的智能手机中间歇性地收集音频数据样本。然后将音频转换为文本,语言调查和单词计数(LIWC) [15]被用来将单词分为67个不同的类别。计算了社交焦虑障碍(SAD)、广谱性焦虑症(GAD)、抑郁症和功能障碍的LIWC评分与自我报告测量之间的相关性。与感知过程相关的单词(LIWC中的“See”)与SAD (r =0.31;P= .003)。此外,与奖励相关的词汇与广泛性焦虑症(r =−0.29;P= .007)。

Anderson等[16]招募了42名被诊断为SAD的参与者和27名健康对照者,以探索这两组之间使用LIWC特征的词汇差异。在一项刺激焦虑的任务中,参与者被要求写下一段自传式的和社会上痛苦的记忆,这要求他们回忆一次社会上的羞辱、尴尬或羞耻。生成了每个LIWC类别中的单词计数,包括第一人称单数代词、与焦虑相关的单词和与恐惧相关的单词。与健康对照组相比,SAD患者更多地使用第一人称单数代词(我、我和我的)、焦虑相关词汇、感官或知觉词汇以及表示身体接触的词汇,但较少提及他人。

Hofmann等[17研究了语言特征和SAD之间的关系。他们招募了24名被诊断为SAD的参与者和21名健康对照者。参与者被要求在一名实验者面前就自己选择的任何话题做一场总共4分钟的演讲,同时被录下来。为了引起参与者的压力和焦虑,他们被告知,在记录完他们的演讲后,一个评委小组将根据风度、社交自信和一般的演讲技巧对他们的演讲进行评分。对演讲内容进行转录,利用LIWC提取第一人称代词、消极情绪词和积极情绪词的词数。结果表明,SAD患者比健康对照组使用更多的积极情绪词汇。作者没有观察到其他探索的LIWC类别有任何显著差异。

Sonnenschein等[18研究了85名患者的被动治疗记录。这些患者被分为三组:被诊断为焦虑但没有抑郁的,被诊断为抑郁但没有焦虑的,被诊断为焦虑和抑郁的。从成绩单中,LIWC得分分为四类:第一人称单数、悲伤、焦虑和填充。抑郁但不焦虑的一组比焦虑但不抑郁的一组使用更多的悲伤词。焦虑但不抑郁的那一组比抑郁但不焦虑的那一组使用焦虑相关词汇的频率更高。的焦虑和抑郁与焦虑组相比,抑郁组使用“悲伤”词的频率更高。其他的LIWC分类都没有显示出显著的差异。

Rook等[19试图从语言模式来预测广泛性焦虑症,因为他们认为广泛性焦虑症的担忧行为来自于言语语言过程。研究共招募了142名大学生参与者(n= 56,39.4%的男性和n= 86,60.6%的女性),要求他们回忆并写下大学生活中的一次焦虑经历。采用广泛性焦虑障碍7项(GAD-7)量表得分和行为抑制/行为接近系统(BIS/BAS)量表得分作为每个参与者的标签。LIWC的特点[15都是从参与者写的文章中摘录出来的。通过将LIWC特征与BIS/BAS分数相结合,还使用了另一组特征。探讨了几种机器学习模型,包括线性核支持向量机(SVM)、逻辑回归、朴素贝叶斯和随机森林。他们的结果表明,使用LIWC特征构建的所有模型都明显优于随机模型(平均精度~0.61;平均查全率~0.6),当LIWC特征与BIS/BAS分数一起作为输入特征时,取得了更高的性能(除了SVM模型)(平均查全率~0.65;平均回忆~ 0.64)。

格鲁达和哈桑[20.研究了使用机器学习方法从微博(如推文)中预测焦虑。作者首先使用传统的全面状态-特质焦虑量表的简短版本,将600条推文标记为4分焦虑水平[21]。然后,使用从文本内容中提取的特征来训练机器学习模型。使用的特征包括语义嵌入向量,它是将单词映射到向量的多个单词向量的平均值。他们还将特定单词和表情符号的数量作为另一种特征。他们取得了R2经过贝叶斯脊回归训练后,人类标签与预测标签之间的差值为0.49 [22)模型。然后,作者将他们的模型与一个模型进行了比较,该模型根据焦虑型词和负面情绪型词的存在将推文分类为焦虑或不焦虑,该模型是使用LIWC库获得的。使用LIWC特征对焦虑和非焦虑推文进行分类的方法获得了一个结果R2的0.21,表示由词向量表示的词的意义的重要性。

这项工作的先驱研究[23]使用与GAD-7显著相关的LIWC识别声学特征和语言特征。利用这些特征,在另一项研究中[24],训练逻辑回归模型来预测参与者是否高于或低于基于GAD-7的筛查阈值。利用声学和语言特征,我们获得了接受者工作特征曲线下的平均面积(AUROC)为0.59。

注意之前的研究[24]和前面段落中描述的其他先前的工作,探索了单个单词的计数(使用LIWC),以找到与焦虑的联系或预测焦虑。然而,有一些研究发现特定的词汇类别与焦虑有关,而另一些研究则没有发现这种联系。例如,Di Matteo等人[14]和Anderson等人[16发现“感知过程”的词类别与焦虑有关,而之前的研究没有这样做。同样,第一人称单数代词类别只在Anderson等人的研究中与焦虑有关[16]和Teferra等人[23在其他任何地方都没有。如果考虑到特定单词的上下文,或者换句话说,如果评估模型是上下文感知的,则可以解释这些不一致。在这项研究中,我们假设使用LIWC检查多个单词的大上下文比使用单个单词检查有更大的预测能力。前者可以使用自然语言处理(NLP)的最新进展来完成[8],它拥有强大的新方法,可以将语言转换为代表意义的数字量,并学习作为这些意义模式的特征。

此外,请注意,在先前探索的研究(不包括我们自己的研究)中,样本量最大的[2324)是142。这限制了推广到更大人群的可能性。在这项研究中,我们使用了一个更大的基于2000人的语音样本的数据集。

变压器和NLP

在过去五年中,自然语言处理领域取得了重大进展[25]。一个关键的进步是有限大小字的发明向量嵌入的,研究表明,一个小尺寸(从50到300)实数向量能够表示单个单词或单词部分的含义[26-28]。请注意,有时,单词被分成子部分,然后转换为标记,可以表示完整或部分单词。这些单词或标记向量可以通过数值比较确定两个单词是否具有相似的含义,也可以通过计算确定含义的其他封装。这项发明还允许使用神经网络以更有效的方式处理语言,并导致语音识别,自然语言理解,问答和语言生成等子领域的重大进展[2629]。

另一个显著提高这些领域技术水平的重要步骤是基于变压器的神经网络模型的出现[810-1230.]。这些所谓的大型语言模型使用大量的文本语料库进行训练,这些语料库通常是从互联网上获取的。更具体地说,“学习”(在机器学习的意义上)[31])是通过预测顺序中的下一个单词或预测故意遗漏的单词来完成的。变压器式神经网络的结构有两个重要的性质。首先,它将以向量表示的单词序列或单词部分“转换”为另一个向量序列。输出向量解释了从完整的单词序列推断出的额外含义,从而创建了一个所谓的上下文嵌入序列,该序列更好地封装了完整输入序列的含义。其次,它利用了一种重要的神经网络机制,称为“注意力”[832]。在这种情况下,网络的一部分学习了句子或段落的部分与句子的其他部分相关联的几种不同方式。例如,在一个句子中,一个特定的单词或意思通常可能与特定的其他单词联系在一起。转换器学习了许多这样的关系,这使得它能够对句子或段落的更广泛的含义进行分类。在这项研究中,我们正是利用这种能力来寻找表明焦虑存在的语言模式。

现在存在许多这样的大型语言模型,它们已经在从互联网和其他地方的许多来源收集的大量文本语料库上进行了完全的“预训练”。101230.]。深度学习和NLP领域的一个常见用例是采用这种预训练模型,并对其进行“微调”,以完成以语言为输入的特定预测任务。“微调”一个模型意味着在一个(通常小得多的)数据集上训练它来学习手头的任务。下一节描述的任务是将参与者分为焦虑类和非焦虑类。


数据收集

招聘及人口统计

我们注意到,这项研究使用了与前两项研究相同的参与者和数据[2324]。本研究使用基于变压器的神经网络对这些数据进行了新颖的分析。

参与者是通过多产的[33],一个基于网络的人力参与者招聘平台。纳入标准为年龄18 - 65岁;英语流利;英语为第一语言;完成至少10项关于多产的先前研究,其中95%的这些先前的多产任务令人满意地完成(由研究作者标记)。数据集也对性别进行了平衡(n=1000, 50%为女性,n=1000, 50%为男性)。

完成这项研究的参与者每工作15分钟可获得2英镑(约合3.41加元和2.74美元)的报酬。他们使用个人电脑远程完成了整个研究。

伦理批准

这项研究得到了多伦多大学研究伦理委员会的批准(协议#37584)。

研究过程

参与者通过一个定制网站被招募来完成一项10到15分钟的任务。早期的一项研究确定了焦虑的相关性[23]详细介绍了数据收集过程。数据收集过程中与本研究目的相关的部分将在以下段落中介绍。

在高产平台上,符合纳入标准的参与者有机会参与本研究。那些希望参与研究的人点击了研究链接,他们会看到一份同意书,上面描述了研究的程序和目标,并提供了有关数据隐私的信息。如果参与者同意,一个超链接将他们带到一个外部web应用程序,该应用程序实现了随后描述的任务。

参与者被要求填写标准的GAD-7问卷[34]中有详细的描述焦虑的措施部分。然后,他们被要求完成一项演讲任务,该任务是用电脑的麦克风和摄像头录制的音频和视频。演讲任务采用了广泛使用的特里尔社会压力测试(TSST)的改进版本[35],其目的是唤起每个参与者适度的压力。过往研究[3637研究表明,在经历了由TSST引起的中度压力后,焦虑程度相对较高的参与者的激活程度更高。

在修改后的TSST测试中,参与者被要求想象自己是一名被招聘经理邀请去面试的求职者。他们被告知要想象这是一份他们真正想要的工作——他们所谓的梦想工作。他们有几分钟的准备时间来选择他们梦想的工作,并考虑如何说服面试官他们是那个职位的合适人选。参与者还被告知,录制的视频将被研究人员观看,以研究他们的行为和语言。然后,参与者被要求发言5分钟,为自己找到理想工作的理由。

请注意,在原始的TSST [35],参与者通常会在现场评委面前发表演讲。如果参与者在5分钟内完成演讲,原始TSST设计中的评委会鼓励参与者继续讲满5分钟。例如,在最初的TSST中,为了鼓励参与者,他们被问到以下问题:“你的个人优点是什么?”在修改后的TSST中,我们实施了类似的方法来鼓励参与者说话整整5分钟:当我们的系统检测到沉默(定义为没有说话超过6秒)时,它将显示几个不同的提示,邀请参与者继续谈论与任务相关的不同主题。最后,需要注意的是,修改后的TSST只包括原始TSST的第一个任务,而不包括涉及心算性能的第二个任务。

焦虑的措施

我们的目标是根据所讲语言的记录来预测参与者是高于还是低于基于GAD-7量表的GAD筛查阈值。GAD-7 [34量表是一份包含7个项目的问卷,询问参与者在过去两周内他们受到焦虑相关问题困扰的频率。虽然2周的时间表明GAD-7测量的是暂时的状况,但GAD的诊断需要症状持续6个月[738]。然而,GAD-7已被证实为GAD的诊断工具,使用10作为截止阈值,灵敏度为89%,特异性为82% [34]。因此,我们选择使用GAD-7阈值10来获得GAD的二元标签作为我们的焦虑指标。

GAD-7的7个问题中的每一个都有4个选项供参与者选择,表明他们被列出的7个问题“困扰”的频率。这些选项及其数值评级为0=根本没有,1=几天,2=超过一半的天,3=几乎每天。最终的GAD-7分数是所有问题值的总和,给出了GAD的严重程度,范围从0(无焦虑症状)到21(严重焦虑症状)。

基线分类模型的构建与评价

在本节中,将描述基线模型的输入、结构和评估。该模型的输入是使用LIWC获得的语言特征[15]。LIWC基于给定文本中属于不同预设类别的单词计数。一个例子是“negemo”,它包括与负面情绪相关的单词(如hurt、ugly和nasty)。在Pennebaker等人的研究中可以找到LIWC的全套类别[15]。

文本是使用Amazon Web Services STT系统(Amazon.com, Inc .)从语音样本生成的[39-书面文本的转录准确性平均单词错误率(WER)为7% (SD为4.6%)。在我们早期的研究中[23],我们确定了具有显著(P< 0.05)与GAD-7相关。这些特性列在表1。这些特征被用作基线预测模型的输入。

训练逻辑回归模型在焦虑和非焦虑班级之间进行预测。构建和评价步骤如下:首先,将输入特征归一化,使每个特征的均值为0,SD为1。接下来,对数据进行欠采样,以平衡焦虑和非焦虑类别的代表性。这避免了类不平衡的问题,如果发生这种情况,会导致少数类(在我们的例子中是焦虑类)的预测精度较低。为了对数据进行欠采样,随机选择样本并从多数类中移除,直到多数类的样本数量与少数类相同。

模型构建和训练步骤使用了3个数据集:一个训练数据集(占整个次采样数据的80%),用于训练模型;验证数据集(训练数据的20%),用于在训练过程中选择最佳超参数;以及一个测试数据集(未包括在训练数据集中的整个子采样数据的20%),用于使用AUROC度量来评估训练模型的性能。这种方法——从测试数据中仔细分离训练和验证数据——是机器学习社区的标准方法[31]。

表1。广泛性焦虑障碍7项量表中显著语言探究和字数特征的相关性研究。
功能 r P价值
AllPunc 0.13 <措施
字数 −0.12 <措施
0.12 <措施
同意 0.10 <措施
Negemo 0.10 <措施
Relativ −0.09 <措施
运动 −0.08 <措施
发誓 0.08 <措施
愤怒 0.08 <措施
Focusfuture −0.07 .003
副词 −0.07 04
时间 −0.07 04
函数 −0.07 .005
否定 0.07 .006
准备 −0.06 .007
WPS一个 −0.06 .007
焦虑感 0.06 .008
听到 0.06 . 01
死亡 0.06 . 01
Ipron −0.06 . 01
看到 −0.06 . 01
影响 0.06 02
0.05 02
家庭 0.05 02
悲伤的 0.05 03
Ppron 0.05 03
空间 −0.05 .04点
文章 −0.05 .04点
休闲 0.05 .04点
朋友 0.05 .047

一个WPS:每句单词数。

基于变压器的模型的构建与评价

本文讨论了基于变压器的神经网络在自然语言处理中的出现和显著的成功之前的工作部分。区分不同的转换器模型的一个属性是适合模型一次可以考虑的上下文窗口的文本单词或标记的数量,这本身受到关键注意方法的计算负担的限制[8]。这些窗口的大小从512个令牌[10]至4096个令牌[30.]。

为我们的模型提供输入的修改后的TSST要求参与者发言5分钟,这产生的抄本大小从15到1190(平均707,标准差183)不等。因此,我们的模型需要一个可以处理这个长度的序列的转换器模型。我们选择了Longformer变压器模型(从HuggingFace模型中心获得)[40]),因为它有一个大小为4096个标记的上下文窗口(记住,标记要么是单词,要么是单词的一部分)。

我们调整Longformer的预训练版本(如之前的工作节)为焦虑分类任务创建一个分类器。这个过程需要一个预训练的模型,并将其连接到一个未经训练的(小得多的)神经网络,称为“分类头”。然后将预训练模型与序列分类头结合调整基于GAD-7量表预测参与者是否高于或低于GAD筛查阈值的具体任务。

输入数据集的处理方式与基线模型的处理方式类似。从所有参与者的成绩单集开始,首先对数据进行欠采样,以平衡焦虑和非焦虑班级的代表性。模型微调步骤也使用了3个数据集:一个训练数据集(80%的完整数据);验证数据集(训练数据的20%);以及一个测试数据集(占完整数据集的20%),该数据集用于使用AUROC度量来评估训练模型的性能。

基线逻辑回归模型和基于变压器的微调模型的总体结构如图所示图1

图1所示。基线分类模型和基于变压器的微调模型的总体结构。语言探究与字数统计。

变压器模型解释

深度神经网络[13],包括本研究中使用的变压器网络,并不能简单地解释哪些特征或因素对任何具体预测都是重要的。这与逻辑回归模型(基线)形成对比,其中每个特征的权重都是信息丰富的。本研究试图对变形模型的结果提供一些解释,特别是,当给定特定的成绩单时,提供对模型预测焦虑和非焦虑班级中哪些单词或单词组最具影响力的见解。

为了实现这种模型解释,我们使用了一种称为积分梯度(IG)的方法[41]。IG为模型的每个输入(单词或令牌)计算一个分数。分数是预测相对于特定输入的变化率的函数。当特定输入的得分较高且为正时,表明该输入对产生积极分类(在我们的例子中是焦虑类)有更大的影响。同样,高的负面分数表明对消极的、非焦虑的情况有强烈的影响。这个分数被称为归因输入令牌的分数。我们使用了一个叫做Transformer Interpret的库[42来计算给定文本中每个单词的归因分数。

使用归因分数,我们可以报告对焦虑和非焦虑情况的预测都有影响的特定单词或标记。从那里,我们探索了这些单词的具体上下文,以寻找有影响力的语言模式。以下段落中的描述提供了选词和识别模式的具体方法。

首先,计算所有参与者的所有文本中每个单词或标记的归因得分。在每个得分的词数分布图中,分布的拐点出现在阈值归因得分0.05附近,这为探索提供了一个可处理的词数。分数高于0.05阈值的令牌在结果部分。获取单词列表的步骤摘要见图2

为了确定高归因词周围的语境是否存在模式,我们手动检查了每个高归因词的周围语境。我们从这些情境中观察到的模式,以及预测的具体方向(焦虑或非焦虑),呈现在结果部分。

图2。获得具有高归因分数和高计数的令牌列表的步骤,影响对焦虑和非焦虑的预测。IG:积分梯度。

招聘和数据纳入

共有4542名参与者接受了多产招聘平台的邀请参加了这项研究。其中,2212名参与者完成了研究,招聘率为48.7%。在完成研究的2212名参与者中,2000人提供了可接受的提交(因此收到了付款),提交到批准的收益率为90.4%。明确地说,征聘工作一直持续到2000年收到可接受的申请书为止。提交的作品被视为不可接受的原因包括:缺少视频,缺少或严重不完美的音频,以及未能完成任务。招聘时间为2020年11月23日至2021年5月28日。我们注意到此次招募是在COVID-19大流行期间进行的。

数据概述

在2000名参与者中,620人(31%)高于GAD-7筛查阈值10,1380人(69%)低于筛查阈值10。今后,GAD-7评分≥10分的被试称为焦虑组,GAD-7评分<10分的被试称为非焦虑组。如《方法部分,为了在焦虑和非焦虑类别中有一个平等的代表,非焦虑组的样本不足,导致在我们的分析中总共包括1240名参与者(620名焦虑和620名非焦虑)。

分类模型性能

本节介绍了两种二元分类模型的AUROC,将焦虑和非焦虑群体进行分类。第一个模型是使用LIWC特征作为输入的逻辑回归模型,这是前面描述的基线模型。使用的LIWC特征是我们早期研究中显示与GAD-7显著相关的特征[23],如所列表1。请注意,我们还探索了其他机器学习模型,如支持向量机、决策树、随机森林、多层感知器,但这些模型的表现并不比基线逻辑回归模型好。第二个模型是基于变压器的微调模型。使用LIWC特征作为输入的逻辑回归模型的AUROC曲线值为0.58,基于变压器的模型的AUROC曲线值为0.64。图34给出接收机工作特性曲线。

图3。基线logistic回归模型的受试者工作特征曲线(AUROC)下面积。
图4。基于微调变压器模型的接收机工作特性曲线下面积。

模型解释:用于预测焦虑和非焦虑的标记

变压器模型解释章节中,我们描述了用于确定文本中每个单词的归因分数的IG方法。这个分数表明了这个词在预测中对焦虑(如果是积极的)或不焦虑(如果是消极的)的影响有多大。表2表示基于IG方法的特定令牌(列在第一列)具有高归因分数(绝对值>0.05,如前所述)的次数(在所有转录本中)。中提出的令牌表2被选中是因为他们有很高的积极和消极归因得分,也就是说,在预测焦虑和非焦虑方面。注意,标记可以是单词、单词的一部分或字符(例如,我们使用的STT系统生成一个“。表示讲话中无声的停顿)。

表3展示了我们从被招募的参与者的实际记录中观察到的模式,在这些例子中,相同的标记在某些情况下影响了对焦虑的预测,在其他情况下影响了对非焦虑的预测。第一列列出了这些标记,指出了它们影响预测的方向(焦虑或非焦虑),并描述了我们使用文章中描述的定性分析推断出相关的上下文模式方法部分。第二列提供了取自转录本的该模式的特定示例,第三列提供了该模式在所有转录本中出现的次数。

表2。具有高归因分数和高预测影响计数的令牌。
令牌 对焦虑的影响次数,n (%) 对非焦虑的影响次数,n (%)
我(n = 3459) 3032 (87.65) 427 (12.35)
(沉默的停顿)一个(n = 14490) 2933 (20.24) 11557 (79.76)
(停顿了)b(n = 3434) 2039 (59.38) 1395 (40.62)
和(n = 1595) 913 (57.24) 682 (42.76)

一个[无声停顿]:由语音转文本软件确定的讲话中的无声停顿。

b[填充停顿]:由诸如“嗯”、“mm”、“呃”、“嗯”或“嗯”等填充词组成的停顿。

表3。在这些情况下,令牌会影响焦虑和非焦虑的预测。
标记、预测类和模式定义 模式示例 所有转录本的出现次数,n

焦虑


“我”后面是一个停顿一个 我我工作得很好 476


“I”是句子的第一个单词,但在文稿的中间 我和不同的群体相处得很好 1567


开始一个句子并在说“我”之后暂停 I[沉默停顿] 208


“I”与am或have连用 我能理解 1515

Nonanxious


“我”在句子中用来指称他人 我能记住他们所有人的名字 47


“我”是文字记录中的第一个单词 我想我很适合这份工作 171


“我”用来描述自己积极的一面 我很有想象力 77
(沉默的停顿)b

焦虑


[无声停顿]在[填充停顿]之前或之后使用 [沉默暂停]um mm[沉默暂停] 1740


开始一个句子并在短时间内停顿 my[沉默停顿] 2057

Nonanxious


讲话中的停顿不伴随着[填充停顿],并产生一个正确的句子 带来一个特定的(沉默停顿)功能领域的专业知识 11557年
(停顿了)一个

焦虑


[停顿]与[停顿]连用 [沉默暂停]um mm[沉默暂停] 1577


用于演讲的开始 <演讲开始>你好嗯,我只是喜欢 23

Nonanxious


在句子中间使用的没有停顿的填充停顿 多年来在聚会上演奏音乐从年龄开始 480

焦虑


用“and”结束句子 仔细想想 519


在一个句子中多次使用“和” 我被指派去做这件事我成功地做到了 187


开始一个句子,在说“and”之后停顿一下 (沉默停顿)有时候事情就是这样 282

Nonanxious


和在句子中语法正确地使用 一共8个人,工作了12年,之后我又做了一个 572

一个[填充停顿]:由诸如“嗯”、“mm”、“呃”、“嗯”或“嗯”等填充词组成的停顿。

b[无声停顿]:由语音转文本软件确定的讲话中的无声停顿。


本研究的目的是确定基于变压器的神经网络模型预测广泛性焦虑症的效果,并将其与基于liwc的逻辑回归预测器的性能进行比较。在本节中,我们将讨论研究结果的含义结果节,以及本研究的局限性。

主要研究结果

招聘和数据概述

结果显示于数据概述部分显示,广泛性焦虑症筛检呈阳性的参与者人数远多于一般人群中10%的患病率[6]。这表明从多产公司招募的参与者更有可能感到焦虑,这与之前对多产公司参与者的研究一致。234344]。焦虑参与者人数增加的另一个可能原因是招募期(2020年11月23日至2021年5月28日),恰逢COVID-19大流行。更多人口统计资料可参阅我们较早发表的论文[2324]。

分类模型性能

具有LIWC特征的逻辑回归模型是比较的基准点。该模型的表现优于随机模型(因为它的AUROC >0.5)。这表明,个体使用词汇的数量和类型确实能对他们的焦虑有所了解,这与之前的研究结果一致[1416-19研究了LIWC特征与焦虑之间的关系。

微调后的变压器模型的性能比基线模型大10%,这表明它是上下文感知的。我们认为考虑上下文的模型可以实现更高的预测性能。这表明,通过搜索多单词上下文来查找模式的转换模型可以比基于单个单词的模型提取更多的信息用于预测。研究结果显示于表23.允许我们更详细地理解微调变压器模型的预测基于什么,这将在后面的部分中讨论。

此外,我们注意到,如果测量系统的情况允许,可以通过在基于变压器的模型的预测中加入声学特征以及使用多次测量来增加正确预测的概率。如果将这种模型应用于被动收集的语音,我们可以对语音进行采样,并随着时间的推移进行测量。在这种情况下,人们可以调查多个测量并选择预测的大多数结果(焦虑或非焦虑)作为真实结果。这种方法是在假设来自不同语音样本的每个测量都是独立的情况下工作的,并且作为独立性的函数将工作得不太好。我们在较早的文件[24]。

模型的解释

在本节中,我们将讨论对变压器模型的结果进行解释的尝试。表2显示具有较高归因分数的标记,如前所述,并且在影响对焦虑和非焦虑的预测方面具有较高的计数。的第一项表3描述单数代词“i”的作用。根据上下文,“我”这个词的使用会影响要么倾向于焦虑的预测或不焦虑的预测。相比之下,先前的研究表明,“我”的使用增加只与焦虑的方向有关[16]。“我”与焦虑联系在一起的一个可能原因是,焦虑的人会试图把注意力从引起焦虑的事件转移到自己身上。这可能导致他们在讲话中频繁使用“我”。

然而,这项研究显示了围绕“我”这个词的上下文是如何起作用的——尽管它的存在影响了大多数情况下(88%)对焦虑的预测,但它也影响了12%的情况下对非焦虑的预测。当“我”被用来指代他人时(例如,“我能记住所有人”),会影响人们对“不焦虑”的预测他们的的名字”)。这与焦虑的人倾向于关注自己的情况相反,因此这可能是为什么关注他人会影响对非焦虑的预测的原因。“我”的另一种形式影响人们对不焦虑的预测的是,当它是讲话开始的第一个单词时(即,在最开始的时候)。这可能是因为自信的人在开始演讲前会先介绍自己,或者先把注意力放在自己身上,然后再开始演讲。同样,关于自信,有一个模式是“我”被用来说一些关于自己的积极的事情,这影响了对不焦虑的预测。这些案例表明,自信与不焦虑的状态有关。

沉默停顿([沉默停顿]在表23.)主要影响对非焦虑的预测,在80%的情况下。这与先前的研究一致[45研究表明,焦虑与讲话中沉默停顿次数的减少有关。作者认为,说话时的停顿代表了一种认知活动,在非焦虑个体中比在焦虑个体中观察到的更多。

然而,有时沉默的停顿也会影响对焦虑的预测。不同之处在于语境:当一个无声停顿和一个填充停顿一起使用时,在说一个单词后停顿。这些情况暗示了他们很难写出完整的句子,而是在讲话中使用填充词,或者无法完成一个句子。这可能是因为更高程度的焦虑。

中的其他两种类型的令牌表2([填充停顿]和“和”)对焦虑和非焦虑的预测都有很高的影响。我们认为它们有很高的计数,因为它们是STT转录本中常用的令牌。在两种类型的标记([填充停顿]和“和”)中,一个突出的模式是使用语法正确的语言,这在没有焦虑的参与者中表现得更多。过往工作[46]表明焦虑会导致说话不流畅,因此,这可能是焦虑参与者使用语法错误语言的一个可能的解释。我们的结果表明,该模型正在发现这种语法错误。

限制

本研究的一个局限性是STT转录的准确性。在本研究中,我们使用了亚马逊的STT程序[39],具有良好的转录准确性,平均WER为7% (SD为4.6%)。WER不为0意味着我们得到了一些单词的错误转录,我们的模型可能会根据这些单词做出错误的预测。然而,我们推测,由于STT软件每年都在改进,因此WER将越来越接近于0,因此基于这些转录本的模型预测也将得到改进。

本研究的另一个局限性是使用了改良版的TSST。在最初的TSST中,参与者被要求在现场评委面前描述为什么他们应该被雇用从事他们梦想的工作。然而,在我们的研究中,我们要求被招募的参与者在他们自己的地方对着摄像机描述为什么他们应该被雇用从事他们梦想的工作。这是实现TSST作为应激诱导任务的完全复制的限制。尽管如此,我们还是进行了一次内部检查,询问他们在TSST任务前后的焦虑程度(更多信息可以在我们之前发表的研究中找到)。23]),我们观察到,参与者的焦虑水平平均增加了25%。

另一个限制是使用自我报告方法来评估广泛性焦虑症。自我报告测量是个人对自己的主观看法,可能不能完全捕捉临床症状。理想情况下,我们希望确定参与者是否患有广泛性焦虑症的金标准标签。这是通过患者和临床医生之间的一对一会谈获得的,临床医生根据《精神疾病诊断与统计手册》第五版分析患者的行为,以识别广泛性焦虑症的可能症状[7],但收购成本显然要高得多。

另一个限制是模式检测的主观性或定性,这在表3并形成了洞察力的基础讨论部分。如《方法章节中,抄本被手工分析,我们认为在多个上下文中表现出相似模式的实例被选择。这些是我们对构成相似模式的主观看法;因此,其他研究人员可能会发现我们可能忽略的其他模式。在未来的研究中,我们的目标是发布我们的转录本,让其他研究人员像我们一样进行研究,看看是否能发现其他有趣的模式。

结论

在本文中,我们展示了一项大样本研究的结果,该研究旨在根据GAD-7量表预测提供语音样本的参与者是否低于或高于GAD的筛查阈值。更具体地说,我们调查了多词上下文在预测焦虑存在与否时的重要性。虽然之前的研究已经表明,选择单个单词是心理健康障碍的一个很好的预测指标,但我们已经表明,选择单词和上下文是一个更好的预测指标。此外,基于转换器的神经网络模型可以用来找到这样的语言模式,帮助识别给定上下文的某个单词是否会预测焦虑。最近在文献中发表了一种基于变压器的模型[47],这是一个在心理健康语料库(专注于抑郁症和自杀)上进行预训练的模型。因此,我们建议未来的研究探索使用变形模型识别的语言模式,并将其应用于不同类型精神健康障碍的筛查。

致谢

本研究由多伦多大学XSeed基金、加拿大自然科学与工程研究委员会发现基金(RGPIN-2019-04395)和社会科学与人文研究委员会合作伙伴参与基金(892-2019-0011)资助。

作者感谢Ludovic Rheault教授、Sophie Borwein教授和Danielle D DeSouza博士在启动本项目和数据收集方面所提供的精力、协助和建议。

利益冲突

没有宣布。

  1. 王晓明,王晓明,王晓明,等。焦虑障碍的经济负担研究进展。心理学报,2004;45(3):191-201。[CrossRef
  2. 刘建军,张建军,张建军,等。心理健康服务对焦虑障碍患者的影响。社会精神病学杂志,2011;46(4):321-330。[CrossRef] [Medline
  3. 对声音有影响的药物。[J] .耳鼻喉科学,1995;16(1):12-18。[CrossRef] [Medline
  4. Pennebaker JW, Mehl MR, Niederhoffer KG。自然语言的心理方面。使用:我们的语言,我们的自我。精神病学杂志2003;54:547-577。[CrossRef] [Medline
  5. 伊达尔戈RB,希恩DV。广泛性焦虑症。中华临床医学杂志,2012;26(6):343-362。[CrossRef] [Medline
  6. 精神健康-焦虑障碍。加拿大政府。URL:https://www.canada.ca/en/health-canada/services/healthy-living/your-health/diseases/mental-health-anxiety-disorders.html[2022-01-24]访问
  7. 精神疾病诊断与统计手册,第五版。美国华盛顿特区:美国精神病学协会;2013.
  8. 张建军,张建军,张建军,等。注意力就是你所需的一切arXiv 2017 [免费全文
  9. 李建军,李建军,李建军,等。变形金刚:最先进的自然语言处理。在:2020年自然语言处理经验方法会议论文集:系统演示。2020年11月8-12日;网上。[CrossRef
  10. Devlin J, Chang M, Lee K, Toutanova K. BERT:基于深度双向变换的语言理解预训练。arXiv 2019 [免费全文
  11. 吴军,刘建军,刘建军,刘建军。基于语言模型的多任务学习算法研究。GitHub。URL:https://life-extension.github.io/2020/05/27/GPT%E6%8A%80%E6%9C%AF%E5%88%9D%E6%8E%A2/language-models.pdf[2022-11-15]访问
  12. floriidi L, Chiriatti M. GPT-3:其性质、范围、限制和后果。2020年11月1日;30(4):681-694。[CrossRef
  13. leun Y, Bengio Y, Hinton g。Nature 2015 5月28日;521(7553):436-444。[CrossRef] [Medline
  14. Di Matteo D, Wang W, Fotinos K, Lokuge S, Yu J, Sternat T,等。智能手机检测到的环境语音和自我报告的焦虑和抑郁措施:探索性观察研究。JMIR Form Res 2021 Jan 29;5(1):e22723 [免费全文] [CrossRef] [Medline
  15. 彭尼贝克,刘建军,张建军,等。中国大学生心理测量学研究进展与发展趋势。德克萨斯大学奥斯汀分校。URL:https://repositories.lib.utexas.edu/bitstream/handle/2152/31333/LIWC2015_LanguageManual.pdf[2022-01-24]访问
  16. 郭文杰,郭文杰,郭文杰。社交焦虑障碍中的自我表征:自传体叙事的语言分析。行为研究,2008 Oct;46(10):1119-1125 [j]免费全文] [CrossRef] [Medline
  17. 霍夫曼SG,摩尔PM,古特纳C,周JW。社交焦虑障碍的语言相关性。中国生物医学工程学报,2012;26(4):720-726 [j]免费全文] [CrossRef] [Medline
  18. 张晓明,张晓明,张晓明,等。认知行为治疗中情绪和焦虑障碍患者的语言分析。中国生物医学工程学报,2018;47(4):315-327。[CrossRef] [Medline
  19. 李建军,张建军,李建军。广泛性焦虑障碍的语言识别研究。前数字健康2022;4:77 . 9039 [免费全文] [CrossRef] [Medline
  20. Gruda D, Hasan s感到焦虑?利用机器学习感知推文中的焦虑。计算机与人类行为学报,2019;98:245-255。[CrossRef
  21. 状态-特质焦虑量表。收录于:生活质量和幸福研究百科全书。多德雷赫特:施普林格;2014.
  22. 麦凯DJ。贝叶斯插值。神经网络计算1992;4(3):415-447。[CrossRef
  23. 张丽娟,张丽娟,张丽娟,张丽娟,张丽娟。大学生即兴演讲的语音和语言特征及其与焦虑的关系。中华医学会心理健康分会2022;08;9(7):e36828 [j]免费全文] [CrossRef] [Medline
  24. 张建军,张建军,张建军,等。广泛性焦虑障碍的语音和语言特征分析。JMIR Form Res 2022 Oct 28;6(10):e39998 [j]免费全文] [CrossRef] [Medline
  25. 李建军,李建军。语音和语言处理:自然语言处理、计算语言学和语音识别。美国新泽西州霍博肯:Pearson Prentice Hall;2008.
  26. 王志强,王志强。基于词嵌入的语音识别方法。会议报告2014:1053-1057。[CrossRef
  27. 陈凯,陈建军,陈建军。基于向量空间的词表示的高效估计。arXiv 2013 [免费全文] [CrossRef
  28. 彭宁顿J, Socher R, Manning C. GloVe:基于全局向量的词表示。参见:2014年自然语言处理(EMNLP)经验方法会议论文集。2014年自然语言处理(EMNLP)经验方法会议;10月,2014;多哈,卡塔尔。[CrossRef
  29. 李勇,杨涛。基于词嵌入的自然语言理解研究进展。见:大数据应用指南。可汗:施普林格;2018.
  30. Beltagy I, Peters M, Cohan A. Longformer:长文档转换器。arXiv 2020 [免费全文
  31. Mitchell T.机器学习。纽约:麦格劳-希尔出版社;2017.
  32. 李建平,黄丽娟,刘建平。结构化注意力网络。arXiv 2017 [免费全文
  33. 帕兰S, Schitter C.多产。一个c—A subject pool for online experiments. J Behavioral Experimental Finance 2018 Mar;17:22-27. [CrossRef
  34. 王晓明,王晓明,王晓明,Löwe .广泛性焦虑障碍量表的研究进展。中华医科大学学报(自然科学版);2006;31(3):391 - 397。[CrossRef] [Medline
  35. 王志强,王志强。“特里尔社会压力测试”——一个在实验室环境中调查心理生物压力反应的工具。Neuropsychobiology 1993; 28(1 - 2): 76 - 81。[CrossRef] [Medline
  36. Gerra G, Zaimovic A, Zambelli U, Timpano M, Reali N, Bernasconi S,等。焦虑障碍青少年心理应激的神经内分泌反应。Neuropsychobiology 2000; 42(2): 82 - 92。[CrossRef] [Medline
  37. 张丽娟,张丽娟,张丽娟,等。高特质焦虑与心理社会应激期神经内分泌活动的关系。中华精神病学杂志;2004;28(8):1331-1336。[CrossRef] [Medline
  38. Endler NS, kokowski NL。重新审视状态焦虑和特质焦虑。中国心理健康杂志;2009;31(3):391 - 391。[CrossRef] [Medline
  39. 亚马逊网络服务(AWS)——按需云计算平台概述。在:计算中的新兴技术。Cham: Springer International Publishing;2020.
  40. 刘建军,刘建军,刘建军。拥抱的脸。URL:https://huggingface.co/docs/transformers/v4.20.1/en/model_doc/longformer#longformer[2022-11-15]访问
  41. 孙达良,闫强。深度网络的公理化归因。arXiv 2017 [免费全文
  42. 皮尔斯·C.《变形金刚》解读。GitHub。URL:https://github.com/cdpierse/transformers-interpret[2022-11-15]访问
  43. Di Matteo D, Fotinos K, Lokuge S, Yu J, Sternat T, Katzman MA,等。智能手机录制的环境音频与焦虑和抑郁症状的关系:探索性研究。JMIR Form Res 2020 Aug 13;4(8):e18751 [j]免费全文] [CrossRef] [Medline
  44. Di Matteo D, Fotinos K, Lokuge S, Mason G, Sternat T, Katzman MA,等。从智能手机收集的客观数据中自动筛选社交焦虑、广泛性焦虑和抑郁:横断面研究。[J] .中国医学信息学报,2013;23(8):898 - 898 [J]免费全文] [CrossRef] [Medline
  45. Siegman哦。初次面试中沉默停顿的意义。[J] .中国生物医学工程学报(英文版);2009;32(3):444 - 444。[CrossRef] [Medline
  46. Mahl GF。在心理治疗中患者言语的紊乱和沉默。[J]中华精神病学杂志;2003;31(1):1-15。[CrossRef] [Medline
  47. 张涛,李建军,李建军,张建军。基于神经网络的心理健康预训练模型。[j] [j] [j] [j]免费全文


AUROC:接收机工作特性曲线下的面积
国际清算银行/ BAS:行为抑制/行为方法系统
迦得:广泛性焦虑症
GAD-7:广泛性焦虑障碍7项
搞笑:集成的梯度
LIWC:语言探究与字数统计
NLP:自然语言处理
悲伤:社交焦虑障碍
STT:语音识别
支持向量机:支持向量机
TSST:特里尔社会压力测试
回答:字错误率


J·托鲁斯编辑;提交15.11.22;经K Gupta, Yang Z, Zhang T同行评审;对作者的评论19.12.22;修订版本收到21.02.23;接受23.02.23;发表28.03.23

版权

©Bazen gasshaw Teferra, Jonathan Rose。最初发表于JMIR心理健康(https://mental.www.mybigtv.com), 2023年3月28日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在JMIR Mental Health上,并适当引用。必须包括完整的书目信息,到https://mental.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map