卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J医疗互联网服务

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析

加拿大多伦多

v24i11e38911

36350678

10.2196/38911

原始论文

网络传播的广泛性焦虑障碍认知行为治疗中的文本主题和治疗反应:文本挖掘研究

Kukafka

丽塔

斯凡

娜戈

Tulbure

Bogdan都铎

Myllari

桑娜

妈 1

心理与逻辑医学系“，医学院赫尔辛基大学

邮箱21,Haartmaninkatu 3 E, H218

00014年赫尔辛基

芬兰 358 407678891 sanna.myllari@helsinki.fi

https://orcid.org/0000-0003-4059-9268

Saarni

Suoma Eeva

博士学位 2

https://orcid.org/0000-0003-3555-9958

Ritola

城镇

妈 2

https://orcid.org/0000-0001-9065-4347

约菲

格里戈里·

医学博士 2

https://orcid.org/0000-0002-0782-6812

斯坦伯格

Jan-Henry

博士学位 2

https://orcid.org/0000-0003-1327-7757

Solbakken

Ole安德烈

博士学位 3.

https://orcid.org/0000-0002-8341-0560

Czajkowski

尼古拉Olavi

博士学位 3. 4

https://orcid.org/0000-0002-3713-653X

Rosenstrom

汤姆

博士学位 1

https://orcid.org/0000-0001-8277-3776

1 心理与逻辑医学系“，医学院赫尔辛基大学

赫尔辛基

芬兰 2 精神科大脑中心赫尔辛基大学医院和赫尔辛基大学

赫尔辛基

芬兰 3. 心理学系奥斯陆大学

奥斯陆

挪威 4 精神障碍科挪威公共卫生研究所

奥斯陆

挪威

通讯作者:Sanna Mylläri sanna.myllari@helsinki.fi

11 2022

9 11 2022

24 11

e38911

22 4 2022 26 7 2022 8 8 2022 28 9 2022

©Sanna Mylläri, Suoma Eeva Saarni, Ville Ritola, Grigori Joffe, Jan-Henry Stenberg, Ole André Solbakken, Nikolai Olavi Czajkowski, Tom Rosenström。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2022年11月9日。

2022

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

文本挖掘方法，如主题建模，可以提供关于互联网提供的认知行为疗法(iCBT)如何工作以及对谁工作的有价值的信息。尽管iCBT处理为主题建模提供了方便的数据，但很少在这种情况下使用。

客观的

我们的目的是将主题建模应用于来自iCBT的广泛性焦虑障碍的书面作业文本，并探索由此产生的主题与治疗反应的关联。由于主题数量的预先确定在主题建模中是一个相当大的挑战，我们还旨在探索一种新的主题数量选择方法。

方法

我们定义了两个潜在的狄利克雷分配(LDA)主题模型，使用一种新的数据驱动和一种更常用的基于可解释性的主题编号选择方法。我们使用多水平模型将主题与连续值治疗反应联系起来，连续值治疗反应定义为在整个治疗过程中GAD-7和评分的每节变化率。

结果

我们的分析包括1686例患者。我们从数据驱动的LDA模型中观察到2个与平均治疗反应相关的主题:“家庭、宠物和亲人的福祉”(B= -0.10 SD/会议/∆主题;95% CI -016至-0.03)和基于可解释性模型的“儿童，家庭问题”(B= -0.18 SD/session/∆topic;95% CI -0.31 ~ -0.05)。有两个主题与较差的治疗反应相关:来自数据驱动模型的“思想和担忧的监测”(B=0.06 SD/会议/∆主题;95% CI 0.01 ~ 0.11)和基于可解释性模型的“网络治疗”(B=0.27 SD/session/∆topic;95% CI 0.07 ~ 0.46)。

结论

两个LDA模型在可解释性和主题的广度方面有所不同，但都以可解释的方式包含与治疗反应相关的主题。我们的工作表明，主题建模非常适合iCBT研究，并有潜力在大量文本数据中暴露临床相关信息。

直肠认知行为治疗心理治疗网络疗法焦虑主题建模自然语言处理

简介

互联网提供的认知行为疗法(iCBT)是治疗广泛性焦虑症(GAD)的有效方法[ 1- 4］．此外，iCBT程序通常自动存储数据，这在计算机文本分析方法或文本挖掘方面很方便。这种方法可以极大地扩展传统的基于人的内容分析的规模[ 5］．随着数据可用性的增加，文本挖掘为个性化治疗提供了机会，并可能揭示行为改变的机制或障碍。例如，之前的一项研究分析了在广泛性焦虑症iCBT期间撰写的文本，证明了在治疗过程中负面情绪词汇和症状变化之间的共变[ 6］．

以前许多使用计算机方法分析心理治疗文本的研究都依赖于文本分类中预先确定的单词类别[ 7- 9］．为心理学研究目的而开发的词分类工具是理论驱动的，易于解释[ 10］．尽管如此，更受数据驱动的方法可能会揭示在理论驱动的分类中没有考虑到的文本方面。适用于iCBT研究的数据驱动方法的一个例子是主题建模。

主题模型，如潜在狄利克雷分配(LDA)，是一种无监督的机器学习模型，通过将文本表达为潜在主题的混合来降低数据维数[ 11］．LDA已经成功地检测了面对面心理治疗记录中出现的有意义的话题[ 12- 14］．最近一项将LDA应用于心理治疗会议记录的研究发现，描述积极体验的主题与症状减轻之间存在共变，而反映关于治疗的讨论的主题与症状加重相关[ 13］．后者也预示着治疗过程中的联盟破裂。因此，LDA可以揭示如何调整干预措施和改善治疗结果的信息。

以前的心理治疗主题建模研究使用了来自整个治疗过程的文本数据，其中言语相对自由。这种类型的数据是丰富的，并有可能揭示心理治疗过程中语言使用的广泛内容。然而，我们认为更加结构化的iCBT数据有一些好处。首先，内容范围太广的数据在探索性统计分析方面可能不是理想的，这是由于一种被称为“维度的统计诅咒:如果数据有维度。 d，那么我们需要一个样本量 n以指数方式增长 d“( 15］．简单地说，稀有词组合需要非常大的数据集才能足够频繁地出现以进行统计估计，随着话语数量的增加，大多数组合都变得罕见。由于国际英语口语考试一般由标准化作业组成，自然的国际英语口语考试数据积累迅速，适用于相对狭窄的语言空间。其次，专注于特定分配的数据可能会增加目前对特定治疗成分意义的缺乏和渴望的理解[ 16， 17］．与更传统的成分研究相比，主题建模作业文本可以揭示特定于某些个体的益处或危害，或在随机对照试验的组级比较中遗漏的内容。从主题建模的角度来看，专注于一个预定的治疗任务而不是许多文本，有助于避免主题模型在语言使用中发现与任务相关的变化。由于语言使用的意义可能是上下文特定的，使用一个作业也应该服务于寻找具有实际含义的可解释的主题-结果关联的目的。尽管有这些有益的方面，iCBT数据还没有被广泛用于主题建模(关于例外，参见Hoogendoorn等人的研究[ 18])。

不管具体的应用程序上下文如何，估计LDA主题模型都需要分析人员指定模型中潜在主题的数量。这在使用大型自然数据集(如iCBT文本)时提出了一个挑战，因为在这些数据中几乎不可能预先确定不同的语义内容。选题数量的选择需要谨慎，选题过少和过多都会影响LDA模型估计的可靠性[ 19］．以前的心理治疗研究，例如Atzil-Slonim等人的研究[ 13，采用启发式方法选取主题号。这可能会导致包含特殊主题的次优模型，从而降低心理治疗研究中主题模型的可比性和性能。然而，主题数选择的最优策略仍然是主题建模文献中尚未解决的挑战。新的、有前途的、完全数据驱动的主题号选择方法正在出现，在这里我们检查了它们在iCBT主题建模中的潜力[ 19］．

在本文中，我们将主题建模应用于来自iCBT的广泛性焦虑症的大型自然文本数据集，该数据集作为芬兰公共卫生保健的一部分提供[ 2］．由于广泛性焦虑症的核心因素是担忧，我们专注于担忧日记任务表，其中包含患者对他们担忧想法的描述。焦虑日记在治疗的早期阶段开始，并在整个治疗过程中进行，因此很好地代表了患者群体的写作行为。作为初步分析，我们检查了忧虑日记书写活动是否与治疗反应相关。我们的目标是(1)探索iCBT数据中的主题建模，特别关注于定义最佳主题数量，以及(2)调查发现的主题与治疗反应之间的关联。我们希望以可解释的方式找到与治疗反应相关的有意义的主题。我们的发现对于设计最佳的心理治疗方案和焦虑日记任务的指导，以及预测谁将从这些任务中受益，应该是有用的。

方法数据参与者

数据是作为治疗师辅助的广泛性焦虑症iCBT常规护理的一部分获得的，由HUS赫尔辛基大学医院(HUS-iCBT)制造和交付。hhs - icbt治疗广泛性焦虑症是一种标准化治疗，包括12周疗程和治疗结束后3个月的随访疗程。该治疗是芬兰公共专业精神卫生保健的一部分，针对症状轻微至中重度的成年患者和16岁及以上的未成年人。排除标准为自杀倾向、急性精神病、严重人格障碍和影响认知功能的神经或神经精神障碍。有关治疗的更详细描述，请参见Ritola等[ 2］．

原始数据集包括2218名患者，他们在2015年1月至2019年9月期间进入、完成或退出了治疗。由于我们对实际观察到的每次症状下降感兴趣，我们在多级模型中有效地使用了所有可用数据(参见治疗反应模型部分)。我们的目标是以自然的方式对完成者和辍学者的症状变化进行建模，因此我们没有归因任何缺失的数据。由于患者需要完成症状问卷，以便在每个治疗阶段继续治疗，因此可以从每个患者完成的所有治疗阶段获得完整的症状数据。

文本数据

我们的文本数据来自焦虑日记任务表，在整个治疗过程中，它被用作3个不同的会话间任务的一部分。作业是(1)简单的担忧日记，患者写下对自己的担忧和相关行为的观察，(2)通过在一天的特定时间内写担忧日记来推迟担忧，以及(3)练习解决问题的技能。患者不需要在治疗期间完成任务，他们可以随心所欲地使用任务表。有关担忧日记的更详细描述，请参见多媒体附件1．

结果测量

在每个疗程开始时，使用广泛性焦虑障碍7项量表(GAD-7)评估患者的焦虑症状[ 20.］．GAD-7和评分是一种适合测量症状严重程度的方法，具有良好的时间测量不变性[ 21， 22］．我们将连续值治疗反应定义为在整个治疗过程中GAD-7总和评分的每节变化率。该研究的排除标准是GAD-7评分低于8的基线，这是GAD筛查的推荐分界点[ 23］．

伦理批准

本研究是一项研究项目的一部分，该项目已获得HUS赫尔辛基大学医院伦理委员会使用数据的许可(批准号HUS/1861/2020)。

主题建模文本预处理

我们的文本语料库由担忧日记任务表条目( 多媒体附件1)．我们通过标记和词干来预处理文本，并删除标点符号和常见的停止词(没有什么意义的常见词，例如而且或它)．预处理采用R包语料库[ 24］．原始数据中有少量用英语或瑞典语写成的条目，这些条目已被删除。有关数据预处理的示例，请参见多媒体附件1．

潜狄利克雷分配

我们使用LDA对忧虑日记条目进行主题建模[ 11］．LDA是一种广泛使用的概率模型，它将每个文本文档表示为潜在主题的混合物，而每个潜在主题由语料库中单词的分布定义[ 25］．在我们的数据中，语料库是焦虑日记条目的整个数据集，而每个患者写的条目都是一个文档。每一篇担忧日记我给出了一个估计θ_本土知识表示主题的概率 k发生在那个条目中。日记中潜在主题的数字表示可以用来将每个主题的写作与治疗结果联系起来。我们使用R包textmineR来计算LDA模型[ 26］．有关LDA模型的技术细节和说明示例，请参见多媒体附件1．

选题数量的选择

如前所述，选题的数量 k是重要的，因为它影响后验LDA分布的可靠估计，从而影响观察到的与治疗反应相关的普遍性。我们的目标是通过使用贝叶斯方法来解决这个问题，其中数据指示理想的参数值，正如Chen和Doss的原始工作所建议的那样[ 19］．有关主题编号选择过程的更详细说明，请参见多媒体附件1．从本质上讲，该过程根据贝叶斯模型选择原则控制对数据的过拟合。

可用数据的数量会影响一个复杂模型的值有多大 k-是使用数据驱动方法找到的。因此，要更好地理解选择的效果 k，我们形成了一个额外的LDA模型，使用启发式选择过程，强调结果主题的可解释性。也就是说，我们的目标是语义一致、彼此可区分、易于从文本中识别的主题。在这种方法中，我们使用LDA模型 k从10开始，以5为间隔增加，直到增加更多的主题时，可解释性不再继续提高。

治疗反应的相关因素建模数据集

无担忧日记的患者不包括在LDA建模语料库中。为了对写作活动进行全方位建模，我们将这些患者纳入多层建模数据集。为了治疗反应效应大小的可解释性，我们根据GAD-7基线测量标准对GAD-7总和评分进行了标准化。为了便于在治疗开始时将模型截取的数据解释为焦虑，我们将治疗会话的运行次数设置为0。

为了模拟写作活动，我们为担心日记条目的数量定义了4个变量。第一个是整个治疗过程中的条目总数，标记为总条目。然后，我们根据不同的忧虑日记任务分配划分了条目的数量，并为条目的数量创建了3个额外的变量:条目1(忧虑日记)，条目2(忧虑延迟)和条目3(问题解决)。

为了使用来自LDA模型的主题作为治疗反应的相关因素，我们通过计算LDA模型的主题概率参数θ在患者担忧日记条目上的平均值来评估每个患者的主题的平均发生率。对于无条目的患者，将各主题的出现次数设为0。

治疗反应模型

我们定义了2个基线治疗反应模型，包括会话次数作为固定效应协变量，患者内时间平均焦虑水平作为随机截距[ 27］．模型0仅包含随机截距，而模型1还包含患者内部随机斜率。两种模型都根据年龄和性别进行了调整。我们使用似然比检验对模型0和模型1进行比较，并选择拟合较好的模型作为附加相关项的基础模型。为了评估治疗-反应调节效应，所有以下模型都包含了与会话相关的相互作用。

我们使用2个单独的模型估计了忧虑日记书写活动与治疗反应之间的关联。模型2将总条目作为固定效应相关项。在模型3中，我们使用其他3个条目变量作为固定效应相关来估计不同担忧日记任务分配的影响。

然后，我们估计了来自2个LDA模型的主题与治疗反应的关联。每个主题分别被添加为基础模型的固定效应相关(模型4)。然后，我们调整了3个输入变量的模型，以将不同任务下主题与治疗反应的独立关联与其与写作活动的关联分开(模型5)。在同一LDA模型中，对具有显著治疗-反应效应的主题与其他显著主题进行了额外调整，以考虑主题之间潜在的混淆效应(模型6)。所有分析均使用R(3.6.3版本，R统计计算基础)[ 28］．模型的R代码方程在多媒体附件1．

结果病人的特点

表1介绍我们数据的描述特征。经过数据预处理，最终LDA建模语料库由11897条担忧日记组成。在多层建模样本中，每位患者的日记条目数量在0到97之间变化。日记内容为0的患者平均年龄更小，完成治疗的次数更少，完成所有治疗的可能性更小，而且更有可能是男性。

表1

数据预处理后的基线特征。

			多级建模数据集(n=1686^一个）		乔治。^b建模语料库(n=1448)		0个条目的患者(n=239)
性别，n (%)
	女	1322 (78)		1155 (80)		165 (69)
	男性	364 (22)		239 (20)		74 (31)
年龄(年)，平均值(SD)			33.2 (12.0)		33.5 (12.0)		31.7 (11.7)
完成的会话数，平均值(SD)			7.8 (4.4)		8.6 (4.0)		3.2 (3.2)
完成全部12次治疗n (%)			730 (43)		712 (49)		16 (0.1)
日记条目数，平均值(SD)			7.1 (8.7)		8.2 (8.9)		0
	条目1(忧虑日记)	4.7 (5.3)		5.5 (5.4)		0
	条目2(担心延期)	1.6 (4.2)		1.9 (4.5)		0
	条目3(解决问题)	0.7 (1.6)		0.9 (1.7)		0
GAD-7^c治疗开始时，平均值(SD)			13.1 (3.6)		13.1 (3.6)		13.2 (3.4)

^一个排除背景资料缺失(n=11)或GAD-7评分< 8 (n=521)的患者。

^bLDA:潜狄利克雷分配。

^cGAD-7:广泛性焦虑障碍7项。

LDA模型

我们选择7个作为数据驱动模型的最佳主题数量，使用贝叶斯方法进行主题数量选择( 多媒体附件1，图S3和表S1)。对于基于可解释性的模型，我们选择25个作为主题的最佳数量。有关完整LDA模型的描述，请参见多媒体附件1．

连续值治疗反应模型

患者之间的症状轨迹存在异质性，模型1与模型0相比具有更好的随机斜率拟合(仅随机截距;χ²₂= 760.17; P<措施)。因此，选择模型1作为附加相关项的基础模型。在模型1中，会话次数与焦虑症状之间存在显著相关性(B= -0.14;95% CI -0.15至-0.13)。也就是说，GAD-7评分在每个治疗阶段平均下降0.14个标准差。患者症状轨迹之间的变异性很大，随机斜率标准差为0.1。

书写活动与连续值治疗反应相关

在模型2中，忧虑日记的总数具有显著的治疗-反应调节效应(B=0.001;95%置信区间0.000至0.002;对于按条目会话交互)。效应大小是适度的:在总条目数量中增加1个条目，与焦虑的平均下降速度慢0.001标准偏差相关。在模型3中，只有在治疗后期阶段写下的条目数量仍然是显著的治疗-反应调节因子(任务分配担心延迟和问题解决; 表2)．在第一个任务分配中，大量的条目平均与更严重的基线焦虑相关，这反映在条目1对焦虑的基线效应( 表2)．

表2

一个多水平回归模型，将连续值治疗反应与不同焦虑日记任务分配期间的写作活动联系起来(n=1686)。观测数(GAD-7测量)=13,205。

效果			估计^一个		95%可信区间		P价值
固定的影响
	拦截	−0.087		−0.260 ~ 0.087		.33
	会话数量	−0.147		−0.158 ~ 0.135		<措施
	治疗调节效果，条目1(变化/会话)^b	−0.001		−0.002 ~ 0.001		23)
	治疗调节效果，条目2(变化/会话)	0.002		0.000至0.003		03
	治疗调节效果，条目3(变化/会话)	0.005		0.001 ~ 0.010		02
	基线效应，条目1	0.014		0.004 ~ 0.023		.006
	基线效应，条目2	−0.003		−0.017 ~ 0.010		收
	基线效应，条目3	−0.031		−0.066 ~ 0.004		。08
	年龄	−0.009		−0.013 ~−0.005		<措施
	性	0.086		−0.029 ~ 0.201		.14点
随机效应
	剩余方差	0.64		- - - - - -^c		- - - - - -
	患者间截距标准差	0.90		- - - - - -		- - - - - -
	患者间斜率标准差	0.10		- - - - - -		- - - - - -
	Intercept-slope相关性	−0.15		- - - - - -		- - - - - -

^一个估算:回归系数。

^b会话数与每个输入变量之间的相互作用被解释为治疗调节效应。

^c不适用。

与治疗反应相关的潜在主题

两个LDA模型都包含2个调节治疗反应的主题。有关这些主题的描述，请参见表3．

表3

潜在狄利克雷分配模型中调节治疗反应的主题。

模型和主题			十大热门词汇^一个		内容解读^b		例子^c
7 .主题模型
	1	孩子，汽车，生活，儿子，父亲，狗，丈夫，家，母亲，儿子		家庭、宠物和爱人的幸福		“如果我爸爸出车祸了怎么办?”
	4	自我，事物，思想，生活，思想，事物，尝试，感觉，自己，只有		监控思想和担忧		“我再一次回想起我生命中所有的错误。”
25主题模型
	21	写作，网络治疗，治疗，担心，担心日记，写/书/信，信息，任务，这个，部分		网络疗法		“恐怕网络疗法对我不起作用。”
	24	孩子，父亲，母亲，如何，母亲的，丈夫的，儿子，女儿，孩子的，孩子		孩子，家庭问题		“因为带女儿去日托所的事和丈夫吵了一架。”

^一个词语从芬兰语翻译过来，并在潜在狄利克雷分配模型中根据其词-主题概率降序出现。

^b内容的解释是基于对日记条目的定性检查，每个主题都有很强的代表性。

^c示例由第一作者生成，并基于代表每个主题的典型日记条目。

数据驱动模型

主题1被解释为对家人和爱人福祉的担忧，与每节课的焦虑下降速度快于平均水平相关(B= -0.10 SD/节/∆θ;95% CI -016至-0.03)。也就是说，平均而言，一个只写了主题1的假设患者(主题1的平均主题概率θ =1)比一个从未写过主题的患者(主题1的平均主题概率θ =0)恢复速度快0.1 GAD-7个标准差。该主题的平均主题概率的观察范围为0.0007至0.90。主题4(思想和担忧的监测)与每节课的焦虑下降速度低于平均水平相关(B=0.06 SD/节/∆θ;95% CI 0.01 ~ 0.11)。在对不同任务分配期间的条目数量进行调整后，只有主题1仍然是治疗反应的显著调节者( 图1)．当主题1和主题4相互调整时，主题1仍然是一个重要的主持人。

图1

来自数据驱动的潜在狄利克雷分配模型的主题作为治疗反应的调节因子，在不同的担忧日记任务分配期间根据写作活动进行调整。

Interpretability-Based模型

主题21(网络治疗)与每节焦虑下降速度低于平均水平相关(B=0.27 SD/ (θ);95% CI 0.07至0.46)，而话题24(儿童，家庭问题)与焦虑的下降快于平均水平相关(B= -0.18 SD/次/∆θ;95% CI -0.31 ~ -0.05)。在调整了不同任务分配期间的条目数量后，这两个主题仍然是治疗反应的重要调节因素( 图2)．最后，当它们的治疗效果相互调整时，这两个主题仍然是治疗反应的显著调节者。

图2

来自基于可解释性的潜在狄利克雷分配模型的主题作为治疗反应的调节因子，在不同的担忧日记任务分配期间根据写作活动进行调整。

讨论主要结果

在这项研究中，我们使用主题建模来分析来自广泛性焦虑症iCBT治疗期间撰写的担忧日记的文本数据。治疗结束时较高的忧虑日记书写活动与较差的治疗反应弱相关，定义为每个疗程症状变化较慢。我们的主题模型成功地从iCBT文本中提取了有意义的主题，其中一些主题以可解释的方式与治疗反应相关。这与之前的心理治疗主题建模研究一致[ 13， 18］．我们的结果通过演示主题建模适用于特定于iCBT任务的数据，扩展了之前的工作。

主题及其与治疗反应的关系

两个LDA模型都包含一个主题，反映了对他人的担忧，并且与症状比平均水平更快的减轻有关。对于数据驱动的模型，这个主题被标记为“家庭、宠物和爱人的幸福”，基于代表该主题的条目内容。在基于可解释性的模型中，这个主题被标记为“孩子，家庭问题”，因为它更狭隘地关注与亲密家庭有关的担忧。反思性自我关注与抑郁、焦虑和消极情绪有关。 29- 31］．因此，担心他人，而不仅仅是反思与自己有关的问题，可以反映出对周围世界的健康关注。然而，对家庭成员或其他重要人物的担忧也可能表明患者生活中存在重要关系，而患有社会隔离的患者不太可能写这些话题。因此，我们的发现也与社会支持与更好的治疗成功相关联的研究相一致，而孤独和缺乏社会支持与更糟糕的结果相关[ 32， 33］．

数据驱动的模型包含了另一个调节治疗反应的主题，标记为“思想和担忧的监测”，这与较差的治疗反应有关。代表这一主题的条目通常是对患者反复关注担忧的描述，表现为反刍性自我关注的表现[ 30.］．因此，我们的发现与最近一项荟萃分析的结果一致，该分析报告了治疗后焦虑的严重程度与以沉思或持续担忧的形式出现的更高水平的重复性消极思维有关[ 34］．

然而，在控制了整体写作活动后，上述与思想监控相关的调节效应不再显著。忧虑日记的总数越多，症状减轻的速度就越慢，这可以通过治疗后期的写作活动来解释。这表明，“监测思想和担忧”主题的出现可能与持续到治疗后期的高水平写作活动有关。换句话说，晚期高度活跃的作者似乎包括一组患者，他们没有从治疗中获得最佳收益，但表现出持续的担忧监控行为。这可能部分解释了较高的写作活动和较差的治疗反应之间的反直觉联系。

除了可能表明持续的焦虑，高写作活动与“思想监控”主题的联系也可能与任务相关的问题有关。例如，一些患者可能很难坚持推迟忧虑任务，这可能会导致许多沉思条目，而条目的数量应该是有限的。对于一些患者来说，在治疗开始时使用忧虑日记也有可能导致对忧虑的关注增加，从而导致沉思的恶性循环。无论如何，我们的研究结果表明，患者写的内容可能比他们写的多少更有意义，这支持了这样一种观点，即在评估家庭作业-结果关系时，心理治疗家庭作业完成的质量是有意义的。 35］．此外，我们的研究结果表明，与单独使用其中任何一种相比，将主题建模与其他相关因素(如写作活动)一起使用可以更广泛地了解治疗效果调节因素。

基于解释的模型还包含另一个主题，调节治疗反应，称为“互联网疗法”。这与较差的治疗反应有关。这个话题通常与对治疗的抱怨或对治疗的帮助性的担忧有关。我们的发现与Atzil-Slonim等人的发现一致[ 13]，他们报告说，与治疗相关的话题与联盟破裂和更糟糕的治疗结果有关。由于这些投诉可以很容易地从iCBT文本中识别，我们的发现可能在识别患者方面具有应用价值，这些患者在恢复方面没有走上正轨，可能需要额外的支持[ 36］．

在定义主题模型时，我们特别关注于通过采用带有贝叶斯方法的数据驱动选择方法来定义无偏倚的主题数量[ 19］．得到的数据驱动模型由7个主题组成。相比之下，我们额外的基于可解释性的模型和使用启发式方法选择的主题数量由25个主题组成。基于我们对表示模型主题的担忧日记文本的定性检查，基于可解释性的模型中的主题似乎更容易从文本中识别，并且比来自数据驱动模型的主题在语义上更一致。基于可解释性的模型还包括更多样化的主题范围，为日记文本中出现的内容提供了更广阔的视角。

然而，我们基于可解释性的模型也包含了一些特殊的主题，这些主题强烈地反映了一个或少数患者的写作( 多媒体附件1，表S4和表S5)。由于主题模型本质上是描述性的，特殊主题本身并不构成问题。有人认为，在主题模型中允许一些特殊的主题，有助于将有意义或有代表性的主题与数据中的“噪音”分开[ 13］．然而，如果主题模型被认为代表更广泛的患者群体，特殊的主题可能会产生误导。此外，在将主题与治疗结果联系起来时，需要考虑到这些特质。总之，在我们的数据中，两种选择主题号的方法都没有明显的改善;相反，两者都有应该考虑的优点和缺点。然而，我们在两种截然不同的表现中观察到一些强有力的治疗反应相关性。

优势与局限

我们研究的优势包括我们数据的性质，这些数据来自作为国家公共卫生保健的一部分而提供的iCBT的自然主义和全国性设置。因此，我们的数据可能构成了目标患者群体的代表性样本。就个体患者而言，我们的数据集也相当大，与之前使用主题建模预测100例以下患者样本结果的研究相比，提高了我们结果的泛化性[ 13， 18］．我们在主题建模中使用的文本语料库由一个任务表上的条目组成，该任务表旨在编写担忧。例如，与整个心理治疗过程的数据相比，这种类型的数据提供了精确的信息。

尽管与之前的研究相比，我们的样本量很大，但对于机器学习来说，它仍然是一个相当中等大小的数据集。在主题建模方面，与之前Atzil-Slonim等人的研究相比，我们的研究中每个患者产生的文本量较少[ 13使用整个治疗记录。此外，必须指出的是，因果关系的方向不能从我们的模型中确定。例如，某些主题与症状变化的关联可能是由于写作该主题的有用性，或者它可能反映了患者的功能。

未来的研究

如前所述，主题数选择方法对主题模型估计有影响。未来的iCBT主题建模研究应注意这些对主题质量和概括性的影响及其与治疗结果的关系。此外，我们的研究表明，当使用广泛性焦虑症iCBT中的担忧日记文本时，主题建模是实用的和有信息的。在未来，主题建模可以用于不同疾病特异性或跨诊断iCBT项目的研究。主题建模也可以提供一种方法来检查和比较不同治疗方案内或跨不同的基于文本的任务的相对重要性和意义，这可以在治疗发展方面提供有价值的信息。

结论

本研究表明，主题建模是一种适合于iCBT数据的实用研究方法。我们从广泛性焦虑症iCBT的单一重复担忧日记任务中发现了与治疗结果相关的主题。写下对与患者关系密切的人的担忧与更好的治疗反应有关。相比之下，监测对治疗的担忧和担忧与较差的治疗反应相关。这种类型的内容信息具有潜在的实际意义，例如让临床医生了解患者写作行为中有意义的模式。这些主题也使其他研究变量，如患者的写作活动，更具解释性。

多媒体附件1

详细描述主题建模过程，多层模型方程和主题建模结果的补充材料。

缩写

GAD-7

广泛性焦虑障碍- 7项

HUS-iCBT

由HUS赫尔辛基大学医院制造和提供的互联网提供的认知行为疗法

直肠

互联网提供的认知行为疗法

乔治。

潜在狄利克雷分配

TR和SM由芬兰科学院资助(TR资助334057和335901)。VR、GJ和JHS得到了芬兰政府的TYH2019104和TYH2015218赠款的支持。研究所得到赫尔辛基大学医院HUS/441/2022赠款的支持。NOC得到了挪威研究委员会288083的资助。

SM、TR和SES对研究进行了概念化和规划。SM在TR的咨询支持下进行了分析。SM撰写了原始草案。SM、TR、VR、GJ、JHS、OAS、NOC、SES为手稿提供了重要内容和修改。

没有宣布。

Eilert

NgydF4y2Ba

恩里克

一个

Wogan

穆尼

Timulak

理查兹

网络治疗广泛性焦虑障碍的有效性:一项更新的系统回顾和元分析

抑制焦虑 2021 02 38 2 196 219

10.1002 / da.23115

33225589

PMC7894171

Ritola

Lipsanen

乔

Pihlaja

年代

Gummerus

斯坦伯格

Saarni

年代

约菲

互联网提供的认知行为治疗广泛性焦虑障碍在全国常规护理:有效性研究

J医疗互联网服务 2022 03 24 24 3. e29384

10.2196/29384

35323119

v24i3e29384

PMC8990365

安德鲁斯

巴苏

一个

Cuijpers

Craske

毫克

McEvoy

英语

纽比

计算机治疗焦虑和抑郁障碍是有效的，可接受的和实用的保健:一项最新的荟萃分析

J焦虑失调 2018 04 55 70 78

10.1016 / j.janxdis.2018.01.001

29422409

s0887 - 6185 (17) 30447 - 4

Etzelmueller

一个

力

Karyotaki

鲍迈斯特

季托夫

NgydF4y2Ba

伯克

米

Cuijpers

成熟

艾伯特

基于互联网的认知行为疗法在成人抑郁和焦虑治疗的常规护理中的作用:系统回顾和荟萃分析

J医疗互联网服务 2020 08 31 22 8 e18100

10.2196/18100

32865497

v22i8e18100

PMC7490682

Imel

泽

卡帕

塔纳纳河

米

阿特金斯

直流

心理治疗中技术增强的人际互动

J Couns Psychol 2017 07 64 4 385 393

10.1037 / cou0000213

28318277

2017-12467-001

PMC5491349

Dirkse

Hadjistavropoulos

高清

Hesser说道

巴拉克

一个

治疗师辅助网络认知行为治疗广泛性焦虑障碍时沟通的语言分析

congn Behav Ther 2015 09 44 1 21 32

10.1080 / 16506073.2014.952773

25244051

Smink

WAC

狐狸

曹金相

唆使

我

Westerhof

Veldkamp

英国石油公司

通过多层次建模和文本挖掘了解治疗变化过程研究

前面Psychol 2019 5 29 10 1186

10.3389 / fpsyg.2019.01186

31191394

PMC6548879

Van der Zanden

居里

范Londen

米

克莱默

Steen

Cuijpers

基于网络的抑郁症治疗:患者用词与依从性和结果的关联

J情感失调 2014 05 160 10 13

10.1016 / j.jad.2014.01.005

24709016

s0165 - 0327 (14) 00020 - 2

Zinken

威尔逊

巴特勒

斯金纳

分析句法和词语的使用，预测焦虑和抑郁的引导自助的成功参与

精神病学Res 2010 09 30. 179 2 181 186

10.1016 / j.psychres.2010.04.011

20483481

s0165 - 1781 (10) 00170 - 8

Tausczik

年

Pennebaker

词汇的心理意义:LIWC和计算机文本分析方法

心理学郎科 2009 12 08 29 1 24 54

10.1177 / 0261927 x09351676

布莱

一个

约旦

米

潜狄利克雷分配

J Mach Learn Res 2003 3. 1 30.

阿特金斯

直流

鲁宾

Steyvers

米

Doeden

妈

Baucom

克里斯坦森

一个

主题模型:夫妻和家庭文本数据建模的新方法

J Fam Psychol 2012 10 26 5 816 827

10.1037 / a0029607

22888778

2012-21651-001

PMC3468715

Atzil-Slonim

Juravski

Bar-Kalifa

Gilboa-Schechtman

Tuval-Mashiach

Shapira

NgydF4y2Ba

戈德堡

使用主题模型来确定心理治疗中客户的功能水平和联盟破裂

心理治疗(时尚) 2021 06 58 2 324 339

10.1037 / pst0000362

33734743

2021-27454-001

Imel

泽

Steyvers

米

阿特金斯

直流

计算心理治疗研究:扩大患者-提供者互动的评估

心理治疗(时尚) 2015 03 52 1 19 30.

10.1037 / a0036841

24866972

2014-21038-001

PMC4245387

沃瑟曼

所有的非参数统计 2006

纽约

施普林格

Cuijpers

Cristea

Karyotaki

Reijnders

米

Hollon

成人抑郁症心理治疗的组成研究:系统回顾和荟萃分析

Psychother Res 2019 12 29 1 15 29

10.1080 / 10503307.2017.1395922

29115185

Cuijpers

Reijnders

米

Huibers

MJH

共同因素在心理治疗结果中的作用

年度临床精神病 2019 05 07 15 207 231

10.1146 / annurev - clinpsy - 050718 - 095424

30550721

例如

米

伯杰

舒尔茨

一个

Stolz

医学信息学

基于治疗电子邮件对话预测社交焦虑治疗结果

IEEE生物医学健康信息 2017 09 21 5 1449 1459

10.1109 / JBHI.2016.2601123

27542187

PMC5613669

陈

床铺

基于贝叶斯混合建模的潜在狄利克雷分配模型主题数量推断

计算图形统计 2019 02 27 28 3. 567 585

10.1080 / 10618600.2018.1558063

20.

斯皮策

克伦克

威廉姆斯

JBW

劳

评估广泛性焦虑障碍的简单方法:GAD-7

Arch实习医生 2006 05 22 166 10 1092 1097

10.1001 / archinte.166.10.1092

16717171

166/10/1092

Rosenstrom

Ritola

Saarni

年代

约菲

斯坦伯格

测量不变但不正常的治疗反应在指导网络心理治疗抑郁症和广泛性焦虑障碍

评估 2021 12 14 10731911211062500

10.1177 / 10731911211062500

34905968

Stochl

炸

弗里茨

Croudace

Russo

达

骑士

琼斯

佩雷斯

PHQ-9和GAD-7和评分的维数、测量不变性和适用性

评估 2022 04 03 29 3. 355 366

10.1177 / 1073191120976863

33269612

普卢默

Manea

Trepel

麦克米伦

用GAD-7和GAD-2筛查焦虑症:一项系统综述和诊断荟萃分析

Gen Hosp精神病学 2016 39 24 31

10.1016 / j.genhosppsych.2015.11.005

26719105

s0163 - 8343 (15) 00240 - 6

佩里

阿宝

corpus:文本语料库分析 2021

2021-09-01

https://CRAN.R-project.org/package=corpus

Silge

罗宾逊

用R挖掘文本:一种整洁的方法 2017

波士顿

O ' reilly

琼斯

多恩

Attbom

米

用于文本挖掘和主题建模的函数 2021

2021-09-01

https://CRAN.R-project.org/package=textmineR

一个

山

使用回归和多层/分层模型进行数据分析 2007

剑桥

剑桥大学出版社

R核心团队

R:统计计算的语言和环境 2022

2021-09-01

维也纳

R统计计算基础

https://www.R-project.org/

Brockmeyer

齐默尔曼

Kulessa

Hautzinger

米

排

Friederich

赫尔佐格

Backenstrass

米

我，我自己和我:自我指涉词的使用作为与抑郁和焦虑有关的自我关注的指标

前面Psychol 2015 6 1564

10.3389 / fpsyg.2015.01564

26500601

PMC4598574

30.

铁道部

NgydF4y2Ba

Winquist

自我关注与负面影响:一项元分析

Psychol牛 2002 07 128 4 638 662

10.1037 / 0033 - 2909.128.4.638

12081086

英格拉姆

再保险

临床疾病中的自我关注:回顾和概念模型

Psychol牛 1990 03 107 2 156 176

10.1037 / 0033 - 2909.107.2.156

2181521

Roehrle

斯特劳斯

社会支持对治疗干预成功的影响:一项荟萃分析综述

心理治疗 2008 45 4 464 476

10.1037 / a0014333

22122534

2008-19012-004

王

曼恩

Lloyd-Evans

妈

约翰逊

年代

孤独感与感知社会支持和心理健康问题结果之间的关系:一项系统综述

BMC精神病学 2018 05 29 18 1 156

10.1186 / s12888 - 018 - 1736 - 5

29843662

10.1186 / s12888 - 018 - 1736 - 5

PMC5975705

Monteregge

年代

Tsagkalidou

一个

Cuijpers

Spinhoven

不同类型的焦虑治疗对重复性消极思维的影响:一项元分析

临床精神科学实践 2020 06 27 2 e12316

10.1037 / h0101777

Kazantzis

NgydF4y2Ba

惠廷顿

Zelencich

Kyrios

米

诺顿

霍夫曼

家庭作业依从性的数量和质量:与认知行为治疗结果关系的元分析

Behav其他 2016 09 47 5 755 772

10.1016 / j.beth.2016.05.002

27816086

s0005 - 7894 (16) 30029 - 6

Pihlaja

年代

拉赫蒂

Lipsanen

乔

Ritola

Gummerus

斯坦伯格

约菲

有辍学风险的抑郁症患者的互联网认知行为疗法的预定电话支持:实用的随机对照试验

J医疗互联网服务 2020 07 23 22 7 e15732

10.2196/15732

32706658

v22i7e15732

PMC7413288