JMIR心理健康-通过社交媒体数据跨平台检测精神病住院:比较研究

原始论文

¹美国佐治亚州亚特兰大市佐治亚理工学院交互计算学院

²美国纽约州格伦橡树区诺斯韦尔健康中心朱克山医院精神科

^3.美国纽约州曼哈塞特，诺斯韦尔卫生中心，范斯坦医学研究所

⁴美国纽约州亨普斯特德霍夫斯特拉/诺斯韦尔的唐纳德和芭芭拉·朱克医学院

通讯作者:

阮越强，理学士

交互计算学院

佐治亚理工学院

桃树街西北756号

亚特兰大，佐治亚州，30318

美国

电话:1 404 279 2941

电子邮件:johnny.nguyen@gatech.edu

背景:之前的研究表明，使用由单一平台(如Facebook或Twitter)的社交媒体数据训练的机器学习模型来区分诊断为精神疾病或经历不良结果的个体与健康对照组的可行性。然而，这些模型在来自训练数据中未见的新型社交媒体平台(例如Instagram和TikTok)的数据上的表现在以前的文献中没有被研究过。

摘要目的:我们的研究考察了构建机器学习分类器的可行性，该分类器可以有效地预测即将到来的精神疾病住院治疗，尽管被调查的社交媒体平台上有身份碎片化的初步证据，但这些分类器来自分类器训练数据中未见的平台的社交媒体数据。

方法:在已知住院事件之前诊断为精神分裂症谱系障碍的患者和健康对照组的窗口时间轴数据来自3个平台:Facebook(254/268, 94.8%的参与者)，Twitter(51/268, 19%的参与者)和Instagram(134/268, 50%的参与者)。然后，我们使用3 × 3组合二进制分类设计来训练机器学习分类器，并评估它们在所有可用平台的测试数据上的性能。我们进一步比较了平台内实验模型(即属于同一平台的训练和测试数据)与平台间实验模型(即属于不同平台的训练和测试数据)的结果。最后，我们使用Shapley相加解释值来提取顶级预测特征，以解释和比较每个平台上预测住院的底层结构。

结果:我们发现平台内实验中的模型平均达到了F₁-在预测因精神分裂症谱系障碍而住院的精神病患者方面得分为0.72 (SD 0.07)，这比在一个平台间实验中模型的平均值高68%F₁-得分0.428 (SD 0.11)。在研究模型之间构建有效性差异的关键驱动因素时，对平台内模型的顶部特征的分析表明，平台之间的预测特征重叠较低，平台之间的顶部特征排名之间的配对相关性较低(<0.1)。此外，与参与者之间相同的平台内数据测量相比，参与者内部平台间数据的低平均余弦相似度表明了平台间参与者身份碎片化的证据。

结论:我们证明，建立在一个平台数据上的模型，用于预测关键的心理健康治疗结果，如住院治疗，不能推广到另一个平台。在我们的案例中，这是因为不同的社交媒体平台始终反映不同的参与者身份。随着不同人群使用社交媒体的生态系统的变化，以及基于网络的身份在平台上继续变得碎片化，需要进一步研究利用这些不同数据源的整体方法。

JMIR Ment Health 2022;9(12):e39747

doi: 10.2196/39747

关键字

精神分裂症；心理健康；机器学习；临床信息学；社交媒体；移动电话

背景

尽管与其他精神健康障碍相比，其患病率相对较低，但精神分裂症谱系障碍(SSD)对患者、家庭和社会的负担是巨大的[1］．为了减轻SSD的负担，早期诊断和治疗至关重要。然而，精神障碍，包括SSD，往往得不到及时的关注和护理，导致更糟糕的健康结果[2，3.］．与此同时，重度精神障碍患者(如重度精神障碍)使用社交媒体的比例很高，尤其是青少年和年轻人，正是重度精神障碍出现的典型时期[4，5］．例如，Birnbaum等人[4]研究了患有精神病和情绪障碍的青少年和年轻人使用社交媒体的情况，发现97.5%的参与者(平均年龄18.3岁)经常使用社交媒体，每天在网上花费约2.6小时(SD 2.5小时)。同样，Miller等人[5]研究了被诊断为SSD的患者使用数字技术的情况，发现在可以上网的参与者中，98%的人报告至少使用一种社交媒体服务，57%的人每天使用社交媒体。

考虑到这些信息，已经有一个成熟的研究机构使用机器学习分类器使用社交媒体数据来识别和预测SSD社交媒体用户的精神结果[6-8］．用于训练这些分类器的最健壮的数据源包括发布在网络上的文本内容。之前对SSD患者的语音和文本分析工作已经确定了与SSD相关的可靠语言标记，这些标记已成功地用作上述分类器的特征[7，9，10］．其中包括特定的词频、词类和自指代词[11，12］．鉴于Instagram、Snapchat和TikTok等基于图像和视频的社交媒体平台的使用与年轻人有关，此前也有研究对SSD患者和健康对照组之间的图像进行比较分析[13，14］．Hänsel等[14]识别了与SSD相关的其他图像标记，如图像的色彩和饱和度以及每张图像的平均面孔数量。通过利用这些标记，Birnbaum等人先前进行的研究[15]和埃娜拉等[8]构建了分类器来区分确诊为SSD的用户和Facebook和Twitter上的健康对照组，其受试者工作特征曲线(AUROC)下的面积分数分别为0.75和0.82。

尽管这些结果证明了自动化技术在通过社交媒体数据预测SSD患者心理健康结果方面的潜力，但在精神科医生能够可靠地将这些技术用于临床目的之前，仍有许多研究空白需要解决。这一领域的大多数先前工作主要集中在单一的社交媒体数据来源上，要么完全来自Twitter或Facebook，用于下游分类和分析任务[16］．然而，之前的研究也表明，许多社交媒体用户，尤其是年轻人，由于不同的功能支持和文化，会出于不同的目的使用不同的社交媒体平台。在年轻人中，使用Facebook与与亲密或疏远的朋友保持联系有关，而使用Instagram和Snapchat则与自我表达和满足感有关。17，18］．此外，研究人员认为，社交媒体用户在不同平台上的身份都是碎片化的[19，20.］．因此，使用单一的社交媒体数据来源来建立精神病住院预测模型可能会导致低灵敏度的预测模型，使其不适合临床用途。然而，很少有研究量化了在一个社交媒体平台上训练的分类器在多大程度上可以推广到其他平台。为此，我们的研究旨在衡量基于社交媒体的分类器的泛化性，这些分类器旨在预测即将到来的精神病住院治疗，并将其用于未见过的社交媒体平台的数据。此外，我们的目标是找出反映在3个流行社交媒体平台(twitter、Facebook和instagram)上的不同碎片化身份的任何证据，这些证据可能会影响模型的泛化性。

目标

我们试图回答的研究问题如下:鉴于被调查的社交媒体平台上反映的碎片化身份的初步证据，我们能否建立分类器，利用训练数据中未见的平台上的社交媒体数据，有效地检测出有即将发生精神疾病住院风险的用户?

为了回答我们的研究问题，我们从同意参与者的Facebook、Twitter和Instagram的社交媒体数据中整理了文本和图像内容(如果可用)。然后，我们训练了特定于平台的分类器，以区分来自健康对照组的社交媒体数据和来自即将住院的SSD患者的数据。我们比较了分类器在训练数据中可见和未见的社交媒体平台测试数据上的性能。我们还比较和分析了3个平台特定分类器之间的顶级预测特征和特征重要性分布，以期为不同社交媒体平台之间的碎片化身份找到潜在的经验证据。

招聘

我们招募了临床诊断为SSD的参与者和临床验证的健康对照组，年龄在15至35岁之间。这些数据是作为一项更广泛的研究计划的一部分收集的，该计划涉及本文作者，旨在识别基于技术的健康信息，为患有SSD的年轻成年人提供早期识别、干预和治疗[6］．

对于年龄在15至35岁之间的SSD参与者(141/ 268,52.6%)，诊断基于最近发作的临床评估，并从参与者同意时的医疗记录中提取。该小组的参与者是从位于密歇根州东兰辛的诺斯韦尔健康朱克山医院和合作机构招募的。如果参与者的智商低于70(根据临床评估)、自闭症谱系障碍或物质诱发的精神障碍，则被排除在外。

此外，我们还从现有的数据库中招募了年龄在15 - 35岁之间(127/268,47.4%)的健康志愿者，这些志愿者已经通过了Zucker Hillside医院以前的研究项目的筛选，并同意重新联系以获得更多的研究机会。健康状况由过去2年内进行的《精神疾病诊断及统计手册》的结构化临床访谈或精神病学诊断筛选问卷确定[21，22］．如果在筛选过程中发现了临床显著的精神症状，则将参与者排除在外。通过一个基于网络的学生社区研究招聘网站，从东南部一所大学招募了更多的健康志愿者。最后，还从位于密歇根州东兰辛的合作机构招募了健康的志愿者。

数据收集

所有同意的参与者都被要求下载并分享他们的Facebook、Twitter和Instagram数据档案。我们从参与者的Facebook和Twitter档案中收集了所有语言内容(即Facebook上的状态更新和评论以及Twitter上分享的帖子)。此外，我们还从参与者的Facebook和Instagram档案中收集了图像内容，包括头像和故事照片。

接下来，我们还收集了每个参与者的病史(在同意并采用符合健康保险携带和责任法案的政策后)。这包括初级和次级诊断代码、住院总次数以及每个住院事件的入院和出院日期。住院数据从同意时的医疗记录中收集。由于所有自愿参与研究的患者也曾在朱克山德医院接受过治疗，医院的医疗记录是准确的，是最新的，体现了医院的最大努力。我们只计算了精神病住院(不包括其他非精神病原因的住院)。此后，研究小组访问了相应的同意患者的医疗记录，以类似于使用此数据来源的以往研究的方式提取其所有记录的住院事件[6，23］．

最后，我们从所有可用平台上收集了每个参与者的社交媒体数据，这些参与者在最近一次住院事件之前的6个月内至少有一次已知的住院事件，确保在这6个月内没有住院事件。这样做是为了确保收集的数据能够代表参与者在症状加重和随后住院治疗前的健康精神状态。6个月的期限，我们称之为窗口的数据，之所以选择它，是因为它代表了一个足够长的时间间隔，可以识别症状恶化信号的变化，同时还包含训练机器学习模型所需的足够数据。对于没有任何住院治疗的健康对照参与者，我们为每个可用的社交媒体平台随机抽取了一个非空的6个月的社交媒体数据窗口(非空意味着至少有一些社交媒体活动)。图1提供窗口过程的可视化描述。

图1。表示住院事件前用于收集参与者社交媒体数据的窗口过程的图表。粗体文本表示所选数据窗口。十字表示住院事件。X表示无效的数据窗口。A:窗户-住院;B:不用住院。

工程特性

为了对参与者的社交媒体数据进行编码，用于我们研究目标中列出的下游分类和分析任务，我们为所有3个被调查的社交媒体平台从这些数据中识别并提取了以下类别的特征:(1)n-gram语言特征(n=500)，(2)语言探究和字数统计(n=78)，(3)词汇语义特征(n=3)，(4)活动特征(n=9)，(5)图像特征(n=23;仅限Instagram和Facebook)。

具体的特征类别是根据以前的相关文献选择的，特别是与使用社交媒体数据来推断心理健康属性和精神病结果有关[7，8］．注意，所有特性都是在个体参与者级别上计算的。关于这个过程的更多细节可以在多媒体附件1［7，12，14，24-29］．

特征选择

使用上述特征，对于3个被检查的社交媒体平台，我们将参与者在Facebook和Instagram上的文本和图像数据编码为613维特征向量，并将Twitter上的文本数据编码为590维特征向量。这得到了一个维度为254 × 613的Facebook数据集，一个维度为51 × 590的Twitter数据集，以及一个维度为134 × 613的Instagram数据集。我们将这些数据集分别称为Facebook, Twitter和Instagram的F, T和I。

由于特征集可能包含有噪声和不相关的特征，分类模型可能不稳定，产生次优结果[30.］．为了最大限度地提高模型的预测能力，同时减少训练模型所需的冗余和计算资源，使用了特征选择方法[30.］．更具体地说，我们采用了方差分析F测试基于它们的特性进行排名F在之前对SSD患者的社交媒体数据进行分类的研究中，已证明该方法可以产生最佳的特征集[8，11］．

我们训练了一个随机森林模型，使用5次分层交叉验证来微调超参数，在数据集F, T和I上使用80:20的训练测试分割，只使用顶部k基于方差分析给出的排名的特征的百分比F测试上的分类，其中k在10到100之间，以10为增量。通过检查测试集上的评估指标(在分类算法和指标部分中描述)，我们确定只使用前20%的特性(基于它们的特性)F方差分析下的统计F测试)在所有3个平台上的未见数据上获得了最佳结果。我们将继续使用这个特性子集。

组合分类方法

为了回答引言部分中提出的研究问题，我们采用了3 × 3组合分类设计，其中我们使用所有可能的训练和测试数据集对精神病住院预测任务训练和测试机器学习模型。图2提供我们实验设计的视觉描述。对于平台内实验(训练和测试数据来自同一平台;例如，在Facebook数据上的训练和测试)，我们在基于Scikit-learn的80到20个训练测试标签分层分割上训练和测试模型train_test_split ()函数(版本0.24.1)[31］．对于平台间实验(训练和测试数据来自不同平台;例如，在Facebook数据上训练，在Instagram数据上测试)，我们在整个训练数据集上训练模型，并在整个测试数据集上评估它。

分类算法和度量

对于平台内和平台间的实验，由前20%的特征表示的训练数据(如特征选择部分所述)被输入到模型中来学习分类任务。我们尝试用几种算法训练模型，包括随机森林、逻辑回归、支持向量机和多层感知器[32］．我们选择这些算法是因为它们代表了各种不同类型的学习算法[32］．这确保了我们在不考虑学习算法选择的情况下，对平台内和平台间实验之间性能差异的分析是成立的。我们使用Scikit-learn实现(版本0.24.1)来实现上述所有算法[31］．对于每个算法，我们通过Scikit-learn使用5次分层交叉验证对其超参数进行了微调GridSearchCV ()管道，保留每个算法的最佳超参数进行分析[31］．为每种分类算法选择的超参数在文本框1(根据Scikit-learn规范，所有其他超参数都保留为默认值)。

我们使用中列出的度量标准来测量模型的性能文本框2，这些都是常用的二元分类模型。在这种情况下，我们将真阳性、真阴性、假阳性、假阴性的数量分别缩写为TP、TN、FP、FN [33］．

为每个分类算法选择超参数。

随机森林

max_depth: 15
n_estimators: 100
max_features:没有

逻辑回归

处罚:l2
C: 0.1

支持向量机

内核:rbf
C: 0.01
Gamma:规模

多层感知器

α:0.0001
Hidden_layer_sizes: (512, 256, 128)

文本框1。为每个分类算法选择超参数。

用于测量模型性能的度量标准。

精度

也被称为兰德准确率，正确预测与所有预测的比率

精度

正确的正面预测与正面预测总数的比率

回忆

正确的阳性预测与真实阳性实例总数的比率

F₁分数

精密度和召回率之间的调和平均值

受试者工作特征曲线下面积(AUROC)

AUROC用于绘制假阳性率与真阳性率的关系，在实践中，通常使用梯形规则和以下公式进行估计:

文本框2。用于测量模型性能的度量标准。

特征重要性选择

我们使用Shapley加法解释(SHAP)来研究某些特征是如何影响我们的模型的决策，以预测用户可能因SSD而住院的精神疾病，因为他们的社交媒体数据来自3个被检查的社交媒体平台。我们之所以决定使用SHAP而不是其他解释性方法，是因为SHAP不仅是模型不可知的，而且是可用选项中理论上最可靠的解释性框架。这是因为可以为局部样本和整个全局数据集计算SHAP特征分数[34］．SHAP基于Shapley值，这是一个博弈论概念，在考虑了所有可能的特征组合后，直观地描述了每个特征对结果的贡献[35］．

对于3 × 3组合设计中的每个平台内实验和每个机器学习模型，我们计算了测试集中所有实例中每个特征(即它们对预测的重要性)的平均SHAP值。然后，我们记录了根据每个模型测量的平均SHAP值降序排序的特征列表。对于具有原生特征重要性提取支持的模型，包括随机森林(基尼重要性)和逻辑回归(特征系数)，我们也以与SHAP值等效的方式计算和记录它们。

鲁棒性检查

为了确保当训练和测试数据集的某些方面变得更加理想时，我们关于模型之间以及平台内和平台间实验之间模型性能差异的发现仍然成立，我们进行了几次稳健性检查，在多媒体附件1。

伦理批准

该研究得到了Northwell Health(协调机构)的机构审查委员会和参与伙伴的机构审查委员会的批准(佐治亚理工学院批准H21403)。参与者在2016年6月23日至2020年12月4日期间被招募。获得成年参与者和年龄<18岁参与者的法定监护人的书面知情同意。已获得参与的未成年人的同意。

数据的特点

共有268名参与者(平均年龄24.73岁，SD 5.64岁;男性:127/268,47.4%;SSD: 141/268, 52.6%)，包括至少一个平台的非空窗口数据。在这268名参与者中，254名(94.8%;SSD: 133/254, 52.4%)拥有有效的Facebook窗口数据，51 (19%;SSD: 7/51, 13.7%)拥有有效的窗口Twitter数据，134 (50%;SSD: 42/134, 31.3%)拥有有效的窗口Instagram数据。在拥有多个平台有效数据的参与者中，17.5% (47/268;SSD: 5/47, 10.6%)拥有Facebook和Twitter的有效数据，14.2% (38/268;SSD: 4/ 38,10.5%)同时拥有Twitter和Instagram的有效数据，44.4% (119/268; SSD: 34/119, 28.6%) had valid data for both Facebook and Instagram. Finally, 14.2% (38/268; SSD: 4/38, 10.5%) of participants had valid data for all 3 platforms.表1显示了这268名参与者的人口学和临床特征。表2描述了根据临床状态分组(SSD vs对照)的3个社交媒体平台的这些窗口数据的汇总统计数据，包括平均值和中位数。图3显示三个调查平台中可供参与者使用的职位分布。

表1。参与者的人口学和临床特征(N=268)。

特征			固态硬盘^一个(n = 141)		控制(n = 127)		完整的样品
年龄(年)，平均值(SD)			24.86 (5.49)		24.57 (5.82)		24.73 (5.64)
性别，n (%)
	男性	89 (63.1)		38 (29.9)		127 (47.4)
	女	52 (36.9)		89 (70.1)		141 (52.6)
种族，n (%)
	非裔美国人或黑人	64 (45.4)		19 (15)		83 (31)
	亚洲	20 (14.2)		23日(18.1)		43 (16)
	白色	37 (26.2)		75 (59.1)		112 (41.8)
	混血儿或其他种族	15 (10.6)		5 (3.9)		20 (7.5)
	拉美裔	5 (3.5)		4 (3.1)		9 (3.4)
	太平洋岛民	0 (0)		1 (0.8)		1 (0.4)
初级诊断，n (%)
	精神分裂症	67 (47.5)		N/A^b		67 (25)
	精神分裂症样的	26日(18.4)		N/A		26日(9.7)
	分裂情感性	25 (17.7)		N/A		25 (9.3)
	未指明的ssd	23日(16.3)		N/A		23日(8.6)
	没有诊断	N/A		127 (100)		127 (47.4)

^一个SSD:精神分裂症谱系障碍。

^bN/A:不适用。

表2。对照类和精神分裂症谱系障碍(SSD)类(即因SSD住院的参与者)的窗口数据的汇总统计。在这个表格中，我们考虑了之前提到的Facebook、Twitter和Instagram的数据。

	Facebook(用户:n=254;职位:n = 169425)			Twitter(用户:n=51;职位:n = 23777)			Instagram(用户:n=134;职位:n = 23551)
	SSD类	控制类	SSD类		控制类	SSD类		控制类
总用户数，n (%)	133 (52)	121 (48)	7 (14)		44 (86)	42 (31)		92 (69)
总帖子，n (%)	114793 (68)	54632 (32)	991 (4)		22786 (96)	7111 (30)		16440 (70)
岗位，平均值(SD)	863.1 (2365.1)	451.5 (818.87)	141.6 (255)		519.9 (1166.9)	169.3 (445.4)		178.7 (234.6)
帖子,中位数	260	184	37		138	54.5		103
帖子,范围	2 - 23589	1 - 4852	1 - 758		1 - 7056	1 - 2909		1 - 1328

图3。精神分裂症谱系障碍和控制类别的用户及其每个数据集的帖子数量的累积分布函数(CDF)曲线:(A) Facebook(左)，(B) Twitter(中)，(C) Instagram(右)。

组合分类结果

我们报告了平台内实验的全部结果表3。我们还报告了平台间实验的全部结果表4来6。最后，我们报告了实验中表现最佳的逻辑回归模型的接受者工作特征曲线表3来6在图4。

详细阐述从表3，我们发现，在我们使用的4种分类算法中，逻辑回归模型在3个平台内实验中表现最好，并且都是最好的。更详细地说，对于平台内实验，使用带平均值的逻辑回归模型，性能达到峰值F₁-score为0.72 (SD 0.07)， accuracy为0.81 (SD 0.08)， AUROC为0.749 (SD 0.06)。相比之下，表现最差的模型(在这种情况下，多层感知器)获得了平均值F₁-评分0.521 (SD 0.19)，准确度0.714 (SD 0.19)， AUROC为0.623 (SD 0.16)。因此，我们将使用逻辑回归模型进一步分析平台之间的特征重要性。这些结果与之前的研究一致，因此可以被认为是这些发现的软复制[8，15］．

相比之下，通过聚合中提出的平台间实验的指标表4来6，平均F₁logistic回归模型的-score下降到0.428 (SD 0.11)，精度下降到0.559 (SD 0.06)， AUROC下降到0.533 (SD 0.03)。这构成了，平均下降40%，31.4%和28.8%F₁-评分、准确度和AUROC评分分别来自平台内实验。正如刚才所演示的，在比较平台内和平台间实验模型的有效性时，我们发现所有被调查的社交媒体平台的性能都出现了一致的下降。drop in测试F₁-score，考虑到表现最佳的逻辑回归模型，Facebook的得分最高，为0.364 (46%)，Twitter最低，为0.08(14%)，平均下降0.285(40%，标准差0.13)，从平台内实验的0.713到平台间实验的0.428。即使将数据集大小和双平台数据可用性的差异(如健壮性检查下的方法部分所述)应用于训练和测试数据(多媒体附件1）.

表3。所有平台内分类实验的分类结果。例如，在这个表格中，Facebook表示Facebook-Facebook实验。

模型	脸谱网						推特						Instagram
	Acc^一个	P^b	R^c	F₁	AUROC^d	Acc		P	R	F₁	AUROC	Acc		P	R	F₁	AUROC
随机森林	0.739	0.739	0.738	0.738	0.709	0.745		0.150	0.116	0.116	0.494	0.7		0.648	0.637	0.637	0.681
支持向量机^e	0.722	0.747	0.692	0.715	0.723	0.854		0.541	0.45	0.463	0.697	0.740		0.737	0.757	0.743	0.805
中长期规划^f	0.506	0.406	0.507	0.367	0.516	0.845		0.458	0.45	0.426	0.692	0.792		0.771	0.794	0.77	0.840
逻辑回归	0.759	0.767	0.758	0.756	0.727	0.881		0.742	0.6	0.63	0.772	0.792		0.771	0.801	0.773	0.848

^一个Acc:准确性。

^bP:精度。

^c接待员:召回。

^dAUROC:受试者工作特征曲线下的面积。

^e支持向量机:支持向量机。

^fMLP:多层感知器。

表4。Facebook训练数据平台间分类实验的分类结果。

模型	推特						Instagram
	Acc^一个	P^b	R^c	F₁	AUROC^d	Acc		P	R	F₁	AUROC
随机森林	0.392	0.221	0.88	0.354	0.579	0.379		0.328	0.952	0.488	0.537
支持向量机^e	0.545	0.253	0.72	0.373	0.612	0.432		0.337	0.860	0.483	0.550
中长期规划^f	0.587	0.240	0.55	0.334	0.573	0.435		0.332	0.812	0.471	0.539
逻辑回归	0.628	0.246	0.47	0.323	0.567	0.472		0.344	0.775	0.476	0.555

^一个Acc:准确性。

^bP:精度。

^c接待员:召回。

^dAUROC:受试者工作特征曲线下的面积。

^e支持向量机:支持向量机。

^fMLP:多层感知器。

表5所示。推特训练数据平台间分类实验的分类结果。

模型	脸谱网						Instagram
	Acc^一个	P^b	R^c	F₁	AUROC^d	Acc		P	R	F₁	AUROC
随机森林	0.531	0.569	0.378	0.452	0.536	0.628		0.331	0.207	0.252	0.512
支持向量机^e	0.514	0.53	0.537	0.530	0.513	0.563		0.340	0.42	0.373	0.523
中长期规划^f	0.533	0.561	0.440	0.492	0.536	0.557		0.325	0.395	0.356	0.512
逻辑回归	0.534	0.552	0.522	0.535	0.535	0.578		0.362	0.47	0.408	0.548

^一个Acc:准确性。

^bP:精度。

^c接待员:召回。

^dAUROC:受试者工作特征曲线下的面积。

^e支持向量机:支持向量机。

^fMLP:多层感知器。

表6所示。对Instagram训练数据进行平台间分类实验的分类结果。

模型	脸谱网						推特
	Acc^一个	P^b	R^c	F₁	AUROC^d	Acc		P	R	F₁	AUROC
随机森林	0.51	0.523	0.612	0.563	0.507	0.751		0.369	0.42	0.386	0.624
支持向量机^e	0.524	0.544	0.51	0.524	0.525	0.691		0.213	０．２５	0.229	0.521
中长期规划^f	0.554	0.584	0.48	0.526	0.557	0.683		0.201	0.23	0.214	0.51
逻辑回归	0.516	0.524	0.689	0.595	0.51	0.628		0.256	0.52	0.342	0.587

^一个Acc:准确性。

^bP:精度。

^c接待员:召回。

^dAUROC:受试者工作特征曲线下的面积。

^e支持向量机:支持向量机。

^fMLP:多层感知器。

图4。受试者工作特征(ROC)曲线为分类实验给出最佳逻辑回归模型。(A)， (B)， (C)分别是Facebook, Twitter和Instagram平台内结果的曲线表3。(D)和(E)为平台间实验的ROC曲线表4在那里，Facebook被用作训练数据。

特征重要性分析

我们假设，从平台内实验到平台间实验的性能下降，如前所述，是由模型在不同社交媒体平台的数据上训练时学习到的特征重要性的差异所驱动的(即使它们共享相同的特征集)。通过根据前面描述的方法从模型中提取SHAP特征列表，我们找到了对这一假设的支持。具体来说，我们观察到，在每个模型和平台的前25个特性中，它们之间几乎没有重叠(当保持模型不变时)。同一逻辑回归分类模型跨平台的重叠特征平均只有4.66个(基于前面讨论的最佳模型)。此外，我们发现，基于逻辑回归模型，每个平台的特征重要性列表具有非常弱的等级相关性。充分阐述肯德尔排名相关系数的统计结果，我们发现Facebook和Twitter的特征重要性排名列表之间的排名相关性非常弱(τ_b= 0.081;P=.003)， Facebook和Instagram (τ_b= 0.041;P=.01)，以及Twitter和Instagram (τ_b= 0.055;P= . 05)。我们报告了基于它们的SHAP值的前10个特征的平均SHAP值和逻辑回归系数，以及它们在SSD类和控制类中的平均值表7。

表7所示。基于Shapley附加解释(SHAP)值，每个平台的逻辑回归(LR)模型的前10个特征(语言查询和字数特征为斜体)。

平台和功能首字母缩略词		功能描述		世鹏科技电子价值		LR系数		固态硬盘^一个组平均(SD)		对照组平均(SD)
脸谱网
	Avg_post_readability	平均后可读性，使用烟雾测量^b指数	0.761		−0.268		5.6341 (2.74)		6.8048 (1.92)
	定量	“量词”范畴内的词的比例	0.4195		−0.189		0.0012 (0.0012)		0.0016 (0.0012)
	Negemo	“负面情绪”类别词汇的比例	0.0953		0.244		0.0043 (0.0035)		0.0031 (0.0022)
	钱	在“钱”范畴内的单词比例	0.0739		−0.216		0.0007 (0.001)		0.0011 (0.002)
	发誓	在“发誓”范畴内的词语比例	0.0628		0.236		0.0017 (0.0025)		0.0007 (0.001)
	Ratio_octile8	从晚上9点到午夜的活动比例	0.0443		0.077		0.1443 (0.149)		0.1241 (0.158)
	Ratio_octile7	下午6点到9点的活动比例	0.0409		0.177		0.1561 (0.1745)		0.1054 (0.125)
	愤怒	“愤怒”类词汇的比例	0.0095		0.191		0.0018 (0.002)		0.0009 (0.001)
	梦想	“梦想”在整个单词包中的比例	0.0077		0.224		0.2028 (0.468)		0.0746 (0.24)
	有趣的	“乐趣”在整个词汇包中的比例	0.0043		−0.209		0.5722 (1.19)		1.1315 (1.76)
推特
	连词	“连词”范畴内的词语比例	0.2319		−0.063		0.0001 (0.0002)		0.0003 (0.0004)
	邻接的	形容词类词汇的比例	0.1825		−0.05		0.0057 (0.004)		0.0080 (0.005)
	Avg_post_negativity	平均后负性，使用VADER计算^c图书馆	0.1509		0.082		0.071 (0.042)		0.0519 (0.036)
	男性	“男性”类词汇的比例	0.1355		0.039		0.0011 (0.0013)		0.0007 (0.001)
	Ratio_octile_8	从晚上9点到午夜的活动比例	0.1265		0.045		0.0231 (0.356)		0.1227 (0.188)
	摄取	“摄取”类别内的单词的比例	0.0627		−0.056		0.0003 (0.0007)		0.0014 (0.0018)
	洞察力	“洞察”范畴内的词语比例	0.0516		0.053		0.0044 (0.004)		0.0035 (0.003)
	权力	在“权力”范畴内的词语比例	0.0308		−0.058		0.0024 (0.0026)		0.0042 (0.0036)
	我们	“我们”类词汇的比例	0.0196		−0.056		0.0001 (0.0002)		0.0002 (0.0004)
	准备	“介词”范畴内单词的比例	0.0117		0.063		0.0028 (0.0026)		0.0017 (0.0017)
Instagram
	Avg_post_readability	平均帖子可读性，使用SMOG指数衡量	0.761		−0.203		5.1018 (1.15)		6.2564 (1.638)
	空间	“空格”范畴内的字数比例	0.733		−0.147		0.0031 (0.0025)		0.0042 (0.0025)
	联系	“隶属”范畴内的词语比例	0.6839		−0.181		0.0032 (0.0027)		0.0056 (0.0034)
	朋友	“朋友”范畴内的词语比例	0.5336		−0.159		0.0009 (0.0027)		0.0018 (0.0034)
	女	“女性”类词汇的比例	0.4576		−0.168		0.0008 (0.001)		0.0019 (0.0023)
	悲伤的	“悲伤”类词汇的比例	0.4554		0.113		0.0011 (0.0008)		0.0007 (0.0012)
	定量	量词范畴内的词的比例	0.4195		−0.118		0.0012 (0.0013)		0.0019 (0.0016)
	走了	“away”在整个单词包中的比例	0.4064		−0.105		0.0768 (0.276)		0.2505 (0.5)
	同意	“同意”范畴内的字数比例	0.3913		−0.102		0.0008 (0.0012)		0.0013 (0.0014)
	下一个	“next”在整个单词包中的比例	0.3854		−0.12		0.0957 (0.267)		0.6466 (1.236)

^一个SSD:精神分裂症谱系障碍。

^b雾霾:官样文章的简单衡量标准。

将模型的发散性结构有效性归因于网络上的发散性身份

如何解释平台内模型构建效度的观察差异?在本文的早期，我们假设这些差异可能源于人们在不同平台上的身份碎片化。为了确定这些不同的身份确实是差异跨平台模型构建有效性和性能背后的驱动因素，我们采用了一种策略来测量给定参与者在被调查平台之间提取的特征空间内的差异。由于在本研究中，所有平台上参与者的社交媒体数据都是通过特征向量编码的，因此我们使用余弦相似度[36］．更具体地说，我们计算了平台之间参与者的平均余弦相似度，并将其与所有3个平台上的SSD参与者的平台内参与者的平均余弦相似度进行了比较。考虑到，即使在同一个社交媒体平台中，不同的人也可以有独特的表达身份的模式，我们将后者作为基线，以评估代表个体的身份片段在不同平台上的差异是否比个体之间的差异更多或更少。

我们发现，Facebook-Twitter平台间、参与者内部的平均余弦相似度为0.3093,Facebook-Instagram为0.2304,Twitter-Instagram为0.3905。这低于或类似于被调查平台的平台内、参与者之间的平均余弦相似度:Facebook为0.5072,Twitter为0.5427,Instagram为0.373。即使在使用SSD参与者的数据和使用所有3个平台的数据的健康对照组的数据计算平均值时，也存在同样的趋势。

主要研究结果

我们的研究旨在衡量心理健康分类器在跨平台推广的能力(或无能)，以及SSD患者在社交媒体上碎片化身份的表面证据。总的来说，我们发现，即使在训练和测试数据之间保持特征集不变，在其他社交媒体平台的数据上评估时，使用社交媒体平台数据训练的模型的泛化性也很差。这一趋势甚至在2个健壮性测试中也是如此，其中在训练和测试数据中使用了相同的参与者和数据集大小(如方法部分所述)。即使训练数据来自数据可用性高的平台，而测试数据来自数据可用性低的平台，这种趋势也是如此。例如，最好的F₁- Twitter平台内模型的得分(0.63)比最佳模型高0.257 (69%)F₁- Twitter平台间模型的得分，其中训练数据来自Facebook(0.373)。

接下来，我们将更详细地讨论关于特征重要性的研究结果。首先，观察每个平台前10个特征的理论有效性和特征的逻辑回归系数符号的解释，我们发现与以前的文献和临床意义的证据一致[7，8，11］．例如，给定训练后的逻辑回归模型中的正系数表7在Facebook上，较高水平的消极情绪词汇使用可以高度预测SSD(参见文本框3突出“恐惧”、“失败”和“伤害”等词语)。这证实了文献中提到的感觉或表达快乐的能力降低(快感缺乏)在SSD患者中很常见[37］．同样，之前的研究发现，与愤怒相关的术语通常出现在早期精神病发作之前以及精神病住院之前的社交媒体帖子中[38］．这可能解释了为什么语言探究和字数类词汇的使用水平较高愤怒对Facebook的SSD也有很高的预测能力(例如在文本框3包含愤怒比如“狗屎”和“他妈的”)。最后，词汇和短语，如语言探究和单词计数悲伤的类别(例如，“无用”，“对不起”和“哭泣”)指向典型的SSD阴性症状[39］．它们可能表明目标感下降，对世界似乎缺乏兴趣。39］．在Instagram上接受训练的模特成功地从帖子中捕捉到了这些线索，这些词汇的使用频率越高，就意味着由于SSD即将住院治疗。

也就是说，每个平台对应的每个模型似乎从各自的训练数据中接收到相反的信号，这就是为什么我们注意到前面提到的顶级SHAP特征的低重叠。在之前报道的前10个特征中，我们发现“avg_post_readability”被Facebook和Instagram模型选为高度预测的特征，而“ratio_octile8”被Facebook和Twitter模型选为高度预测的特征。在我们的例子中，“avg_post_readability”是使用Gobbledygook索引的简单度量来计算的，该索引近似于完全理解一篇书面文本所需的教育年限。SSD组和对照组的负逻辑回归系数和平均值表明，SSD患者书写的文本本质上更简单，这表明语言功能障碍。这是一种已知的精神分裂症和相关精神障碍的阴性症状，如之前的工作所观察到的[40］．此外，在“ratio_octile8”特征中发现，深夜活动频繁，比如上网或使用社交媒体，已经被认为与心理健康状况恶化有关[41］．最后，我们发现平台之间的特征重要性分布存在显著差异，正如平台的特征重要性排名的低配对Kendall τ(<0.1)所表明的那样。这些定性和定量的结果大致表明，这些模型是在具有不同内容和使用上下文的相当不同的数据源上训练的，这可能导致跨平台模型泛化较差。

在这些差异的关键，我们发现模型在不同平台上具有固有的不同的构造有效性。每个平台上的数据只反映了个人身份的一部分——这一部分在另一个平台上可能没有。一个人在社交媒体上的身份碎片化在所有三个平台上都有数据的参与者中最为明显。在结果部分最后的分析中，我们发现平台之间参与者的平均余弦相似度较低，特别是在比较同一平台内不同参与者的余弦相似度时。这表明，即使在同一参与者的同一特征空间内，平台之间的社交媒体数据也可能发散为多个不同的方向，映射到这些身份碎片。这种差异至少等于，如果不是更大的话，在同一个社交媒体平台上，不同个人在身份呈现上的差异。因此，当在一个平台的数据上训练的模型学习这个特定的身份片段时，它们在测试捕获不同身份的数据时效率较低。

例子(释义和去识别)代表例子顶部特征的帖子，以区分精神分裂症谱系障碍和对照类。表示特征的词用斜体表示。

NegEmo

我恐惧去尝试失败，因为我不想成为统计数据的一部分失败的。它伤害了但当机会擦肩而过时。”

发誓

该死的曼氏金融#努力保持现状颗我想睡觉wtf这不公平我讨厌我该死的脖子疼成这样狗屎这种痛苦让我每天醒来该死的hr

悲伤的

我一个没用，对不起，呜咽

愤怒

你呆特遣部队离开我的房间，除非我们他妈的因为我太累了太累了狗屎我所有的狗屎最好在我放的地方

文本框3。例子(释义和去识别)代表例子顶部特征的帖子，以区分精神分裂症谱系障碍和对照类。表示特征的词用斜体表示。

与之前工作的比较

我们的发现为先前研究中的几个线索提供了复制有效性。具体而言，我们发现在具有临床验证标签(即SSD或对照)的社交媒体数据上训练的模型的性能与之前研究中提出的类似模型一致，包括在类似患者群体和临床场所上训练的模型[6，8］．此外，在我们的工作中发现的社交媒体平台之间反映严重心理健康状况的语言差异也在之前的工作中得到了阐明。例如，Guntuku等人[42他们发现，推特和脸书上表示压力的词汇几乎没有重叠。此外，我们发现，与平台内任务相比，平台间任务的模型性能较低，这与Ernala等人的研究相似[8］．在他们的研究中，他们发现，尽管在数据可用性方面具有压倒性的优势，但在临床测试数据评估时，使用自我报告标签的社交媒体数据训练的模型的表现明显低于使用临床验证标签的社交媒体数据训练的模型[8］．与我们的实验相似，在erala等人的研究中，这种性能差异[8]也被指出是由不同模型学习到的重要特征不匹配引起的，这些特征用来区分SSD患者和健康对照组使用的语言和活动模式。总体而言，我们的分析结合之前的结果表明，在不同社交媒体平台上训练的预测模型的构建有效性是不一样的，这加强了继续探索基于社交媒体的新型早期识别策略的必要性，特别强调将不同的身份片段统一起来，以进行准确的识别和干预。

临床意义

我们的发现对心理健康研究和实践具有重要意义。近年来，利用数字追踪数据对精神疾病的住院预测具有重要意义。这些先前的研究探索了智能手机传感器数据(即地理位置、身体活动、手机使用和语音)、可穿戴设备和社交媒体活动的用途，以预测症状波动，并了解诊断过程和住院识别[6，43-46］．我们的工作通过严格检查利用单一来源数据的机器学习工作如何不容易适用于在不存在相同数据源的情况下支持住院预测，从而扩展了这一研究体系。为了让这些模型在现实世界中可用，我们提倡一种全面的方法，临床医生可以通过整合不同的数据源来寻找收集到的模式，同时用来自数字跟踪数据的客观度量来增强他们的决策。社交媒体数据也日益成为咨询的一部分[47，48］．因此，我们建议临床医生考虑承认并将跨多个平台的附带信息纳入他们监测患者症状恶化的方式中，并修改治疗以防止进一步住院。

最后，那些被吹捧为由社交媒体数据驱动的数字干预措施，应该考虑到患者分散的网络身份的重要方面[49，50］．为了在正确的时间、正确的地点、对正确的人进行干预，全面了解患者的住院预测背景将是有益的。然而，我们认识到，在精神健康这样敏感的领域，对提供数据的人来说，合并数据源可能使隐私和道德风险进一步复杂化。研究表明，信息集成可以使发现原本潜在的属性成为可能，其中一些属性可能使个人产生严重的不适和违和感[51，52］．因此，我们敦促谨慎行事，并呼吁制定新的标准，以保护这一敏感人群的机密性和权利，并确保启用的技术用于为患者带来积极的结果。

局限性和未来工作

我们的工作有一些局限性，可以在未来的研究中加以解决。首先，尽管使用了数据增强技术来重新平衡每个数据集的SSD数据和控制数据之间的比例，并使3个被检查平台(即Instagram、Twitter和Facebook)的数据集大小相互比较，但我们承认，有限的可用数据可能影响了观察到的分类性能。尽管人们普遍认为收集患者社交媒体数据具有挑战性，就像本研究中的情况一样，但未来的研究可能会考虑创建大型基准数据集的潜力，这些数据集可能支持该领域更好的可重复性研究[53］．其次，我们承认SSD参与者与健康对照组之间的人口统计学差异，这可能是我们研究设计中的一个混杂因素。此外，我们的方法没有检查或提取任何与视频数据有关的特征，这些特征可以在Facebook和Instagram上获得。鉴于现在的年轻人越来越多地通过视频在社交媒体上表达自己(特别是在以视频为中心的平台上，如TikTok)，未来的研究应该致力于填补这些空白，以便我们能够确保一个人在社交媒体和其他形式的网络交流上表达的心理健康记录的完整性。沿着这些思路，未来的研究还可能考虑来自其他新型社交媒体平台的数据，这些平台越来越多地被年轻人用于实现社交目标，比如Snapchat和TikTok。最后，值得研究的是其他临床问题，如自杀风险，以探索社交媒体平台上的身份碎片化在多大程度上影响从这些数据得出的推断的质量。

结论

在这项研究中，我们表明，在新的社交媒体数据上建立有效的模型来预测SSD患者未来的精神病住院治疗是具有挑战性的，这些数据来自模型训练数据中从未见过的平台。具体来说，我们证明了建立在一个平台数据上的模型不能推广到另一个平台，因为每个平台一致地反映了参与者身份的不同部分。这种身份的碎片化在经验上得到了支持，这是由三个被调查的社交媒体平台之间平台内分类器的构造有效性和参与者内部的发散特征向量的显著差异所支持的。为了确保数字技术有效地融入早期精神病干预，特别是预防复发住院，进一步的研究必须精确探索精神疾病的症状如何通过各种平台上不断变化的语言和活动模式在网络上表现出来，以及如何设计全面、道德和有效的治疗和参与策略，使患者在碎片化的网络身份中无缝地发挥作用。

致谢

这项研究部分由国家精神卫生研究所资助R01MH117172(主要研究人员:MDC;共同首席研究员:MLB和JMK)。研究小组感谢Anna Van Meter和Asra Ali在患者数据收集的早期阶段提供的帮助。作者还感谢佐治亚理工学院社会动力学和幸福实验室的成员在研究的各个阶段提供了宝贵的反馈。

利益冲突

MLB是HearMe和Northshore Therapeutics的顾问。JMK是Alkermes, Allergan, Boehringer-Ingelheim, Cerevel, Dainippon Sumitomo, H. Lundbeck, Indivior, Intracellular Therapies, Janssen Pharmaceutical, Johnson & Johnson, LB Pharmaceuticals, Merck, Minerva, Neurocrine, Newron, Novartis, Otsuka, Roche, Saladax, Sunovion, Teva, HLS和HealthRhythms的顾问委员会成员，Click Therapeutics, Teva, Newron, Sumitomo, Otsuka, Lundbeck和Novartis。他获得了Otsuka, Lundbeck, Sunovion和Janssen的资助，并且是Vanguard Research Group的股东;LB Pharmaceuticals, Inc;以及北岸治疗公司。其他作者没有利益冲突需要声明。

‎

多媒体附件1

关于特征选择过程和健壮性检查的附加信息。

DOCX文件，9 KB

Wolthaus JE, Dingemans PM, Schene AH, Linszen DH, Wiersma D, Van Den Bosch RJ，等。新近发作的精神分裂症和谱系障碍的照顾者负担:症状和人格特征的影响神经病学杂志2002年4月;190(4):241-247。［CrossRef] [Medline］
伯奇伍德M，麦克米伦F.精神分裂症的早期干预。中华精神病学杂志1993 9月27日(3):374-378。［CrossRef] [Medline］
利伯曼JA，芬顿WS。精神病的延迟发现:原因、后果和对公共卫生的影响。美国精神病学杂志2000年11月;157(11):1727-1730。［CrossRef] [Medline］
伯恩鲍姆ML, Rizvi AF, Confino J, Correll CU, Kane JM。社交媒体和互联网在治疗患有精神病和非精神病性情绪障碍的青少年和年轻人中的作用。早期精神病学2017年8月23日;11(4):290-295 [免费全文] [CrossRef] [Medline］
Miller BJ, Stewart A, Schrimsher J, Peeples D, Buckley PF.精神分裂症患者之间的联系如何?手机、电脑、电子邮件和社交媒体的使用。精神病学杂志2015年2月28日;225(3):458-463。［CrossRef] [Medline］
Birnbaum ML, Ernala SK, Rizvi AF, Arenare E, R Van Meter A, De Choudhury M，等。利用Facebook上的患者生成和患者贡献的数字数据检测青少年精神病复发。NPJ精神分裂症2019 Oct 07;5(1):17 [免费全文] [CrossRef] [Medline］
Mitchell M, Hollingshead K, Coppersmith G.量化社交媒体中的精神分裂症语言。第二届计算语言学和临床心理学研讨会论文集:从语言信号到临床现实。2015年发表于:第二届计算语言学和临床心理学研讨会:从语言信号到临床现实;2015年6月5日;科罗拉多州丹佛市。［CrossRef］
erala S, Birnbaum M, Candan K, Rizvi A, Sterling W, Kane J，等。从社交媒体预测心理健康状态的方法差距:三角化诊断信号。2019年CHI '19: CHI计算系统中人因会议论文集。2019年5月4日至9日;苏格兰格拉斯哥。［CrossRef］
李志强，李志强，李志强。精神分裂症患者社交媒体使用的临床决定因素。PLoS One 2019 11月20日;14(11):e0225370 [免费全文] [CrossRef] [Medline］
Zomick J, Levitan S, Serper M.精神分裂症在Reddit帖子中的语言分析。第六届计算语言学与临床心理学研讨会论文集，2019年发表于:第六届计算语言学与临床心理学研讨会;2019年6月,;明尼苏达州明尼阿波利斯市。［CrossRef］
伯恩鲍姆ML，埃娜拉SK，里兹维AF，德乔杜里M，凯恩JM。通过使用机器学习和临床评估来识别精神分裂症社交媒体标记的协作方法。J Med Internet Res 2017 Aug 14;19(8):e289 [免费全文] [CrossRef] [Medline］
ernara SK, Rizvi AF, Birnbaum ML, Kane JM, De Choudhury M.精神分裂症社交媒体披露的语言标记表明治疗结果。Proc ACM人类计算交互2017年12月06日;1(CSCW):1-27。［CrossRef］
Auxier B, Anderson M. 2021年社交媒体使用情况。2021年4月7日。URL:https://www.pewresearch.org/internet/2021/04/07/social-media-use-in-2021/[2022-12-06]访问
Hänsel K, Lin IW, Sobolev M, Muscat W, Yum-Chan S, De Choudhury M，等。利用Instagram数据识别与精神分裂症谱系障碍相关的使用模式。前沿精神病学2021年8月16日;12:691327 [免费全文] [CrossRef] [Medline］
Birnbaum ML, Norel R, Van Meter A, Ali AF, Arenare E, Eyigoz E，等。利用上传到Facebook上的语言和图像识别与精神疾病相关的信号。NPJ精神分裂症2020年12月03日;6(1):38 [免费全文] [CrossRef] [Medline］
大法官S，德乔杜里M.社交媒体上心理健康状态预测技术的方法:批判性审查。NPJ数字医学2020;3:43 [免费全文] [CrossRef] [Medline］
Kircaburun K, Griffiths MD. Instagram成瘾和人格的五大特征:自赞的中介作用。J Behav addiction 2018 Mar 01;7(1):158-170 [免费全文] [CrossRef] [Medline］
拜耳JB, Ellison NB, Schoenebeck SY, Falk EB。分享小时刻:Snapchat上短暂的社交互动。通知公社社会2015年9月18日;19(7):956-977。［CrossRef］
Purwaningtyas议员，Alicya议员。碎片化的自我:印尼年轻人在Instagram上拥有多个账号。《印尼媒体报》2020年9月24日;1(2):171。［CrossRef］
Gündüz U.社交媒体对身份建构的影响。地中海社会科学，2017;8(5):85-92。
第一M，斯皮策RL，吉本M，威廉姆斯J.结构化的临床访谈DSM-IV-TR轴I障碍，研究版。纽约州:纽约州精神病学研究所生物识别研究;2002.
齐默曼M，马蒂亚JI。帮助精神病诊断的自我报告量表:精神病诊断筛查问卷。Arch Gen Psychiatry 2001 Aug 01;58(8):787-794。［CrossRef] [Medline］
张文杰，张文杰，张文杰，等。一项关于精神病住院患者心理健康状态转变的社交媒体研究。Proc ACM Hum Comput Interact 2021 Apr 13;5(CSCW1):1-32 [免费全文] [CrossRef] [Medline］
Aizawa A. tf-idf测度的信息理论视角。Inform Process Manag 2003 Jan;39(1):45-65。［CrossRef］
Tausczik YR, Pennebaker JW。词汇的心理意义:LIWC和计算机文本分析方法。语言社会心理学报2009 12月08日;29(1):24-54。［CrossRef］
Mclaughlin G. SMOG分级-一个新的可读性公式。J Reading 1969;12(8):639-646 [免费全文］
Hutto C, Gilbert E. VADER:一个节俭的基于规则的社交媒体文本情感分析模型。发表于:国际AAAI网络与社交媒体会议论文集，2014年，国际AAAI网络与社交媒体会议;2014年6月1-4日;安娜堡，密歇根州，美国。
Garimella V, Alfayad A, Weber I.公共卫生的社交媒体图像分析。2016 CHI'16: CHI计算系统中人因会议论文集。2016年5月7日至12日;美国加州圣何塞。［CrossRef］
Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP。smte:合成少数过采样技术。J Artif Intell Res 2002 6月1日;16:21 -357。［CrossRef］
Guyon I, Elisseeff A.变量和特征选择的介绍。J Mach Learn Res 2003;3:1157-1182。
Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O，等。Scikit-learn: Python中的机器学习。JMLR 2011; 12(85): 2825 - 2830。
Hastie T, Tibshirani R, Friedman J.统计学习数据挖掘，推断和预测的要素。瑞士占姆:施普林格;2009.
power DM.评价:从精密度、查全率、F-measure到ROC、知情度、标记性、相关性。Int J马赫学习技术2020:37-63。
Lundberg S, Lee S.解释模型预测的统一方法。arXiv 2017。
博弈论手册与经济应用第2卷。荷兰阿姆斯特丹:爱思唯尔;1992.
Jurafsky D, Martin JH。语音和语言处理介绍自然语言处理，计算语言学和语音识别。美国新泽西州霍博肯:皮尔逊·普伦蒂斯大厅;2000.
社交快感缺乏是精神分裂症谱系障碍发展的一个预测因子。中华精神病学杂志1998,11(4):558-565。［CrossRef］
精神分裂症谱系障碍中的愤怒表达方式:与焦虑、偏执、情绪识别和创伤史有关。中华神经病学杂志2014年12月2日(12):853-858。［CrossRef] [Medline］
刘娟，蔡俊杰，冲萨，Subramaniam M, Mahendran R.情绪失调对精神分裂症谱系障碍阳性和阴性症状的影响:一项系统综述。中华临床精神病学杂志2020年4月;76(4):612-624。［CrossRef] [Medline］
精神分裂症的语言功能障碍。:神经精神病学。费城:利平科特·威廉姆斯和威尔金斯;2003.
Palmese LB, DeGeorge PC, Ratliff JC, Srihari VH, Wexler BE, Krystal AD，等。失眠在精神分裂症患者中很常见，并与夜间进食和肥胖有关。精神分裂症决议2011年12月;133(1-3):238-243 [免费全文] [CrossRef] [Medline］
钱德拉·冈图库S，布丰A，贾伊德卡K，艾希施塔特JC，恩加尔LH。利用社交媒体理解和测量心理压力。2019年国际AAAI网络与社交媒体会议论文集，发表于:国际AAAI网络与社交媒体会议;2019年6月11日至14日;德国慕尼黑。［CrossRef］
王锐，谢海华，王志强，王志强。下一代精神病学评估:使用智能手机传感器监测行为和心理健康。精神科康复杂志2015 Sep;38(3):218-226 [免费全文] [CrossRef] [Medline］
陈晓峰，陈晓峰，陈晓峰，陈晓峰，等。利用互联网搜索活动的机器学习来支持早期精神病年轻个体的诊断过程和复发检测:可行性研究。JMIR Ment Health 2020 Sep 01;7(9):e19348 [免费全文] [CrossRef] [Medline］
艾斯纳E，布奇S，贝里N，埃姆斯利R，巴罗克劳夫C，德雷克RJ。使用智能手机应用程序评估六个月内早期症状、基本症状和精神症状的可行性:初步报告精神分裂症Res 2019 Jun;208:105-113 [免费全文] [CrossRef] [Medline］
朱鲁塔J, Piscitello A, Rasic M, Easter R, Babu P, Langenecker SA，等。用手机击键元数据预测情绪障碍严重程度:一项BiAffect数字表型研究。J Med Internet Res 2018年7月20日;20(7):e241 [免费全文] [CrossRef] [Medline］
阿佩尔鲍姆PS《超越谷歌:在精神病学实践中使用患者电子足迹的伦理》。Harv Rev Psychiatry 2017;25(4):170-179。［CrossRef］
Rieger A, Gaines A, Barnett I, Baldassano CF, Connolly Gibbons MB, Crits-Christoph P.精神科门诊患者为研究和临床目的分享社交媒体帖子和智能手机数据的意愿:调查研究。JMIR Form Res 2019年8月29日;3(3):e14329 [免费全文] [CrossRef] [Medline］
刘D, Birnbaum M, Van Meter A, Ali A, Arenare E, Abowd G，等。设计一个面向临床医生的工具，使用来自患者社交媒体活动的见解:迭代协同设计方法。JMIR Ment Health 2020年8月12日;7(8):e16969。［CrossRef] [Medline］
刘D, ernara S, Saket B, Weir D, Arenare E, Ali A，等。临床医生对从患者社交媒体活动中使用计算心理健康见解的观点:原型的设计和定性评估。JMIR Ment Health 2021 11月16日;8(11):e25455。［CrossRef] [Medline］
Terrasse M, Gorin M, Sisti D.社交媒体，电子健康和医学伦理。黑斯廷斯中心报告2019年2月21日;49(1):24-33。［CrossRef] [Medline］
Thieme A, Belgrave D, Sano A, Doherty G.机器学习应用。交互。2020。URL:https://www.scss.tcd.ie/gavin.doherty/papers/Interactions-MLinMH.pdf[2022-11-23]访问
Househ M, Grainger R, Petersen C, Bamidis P, Merolli M.参与式健康和社交媒体时代隐私和患者健康信息需求之间的平衡:范围审查。2018年8月27日(1):29-36。［CrossRef] [Medline］

‎

AUROC:接收机工作特性曲线下面积

世鹏科技电子:沙普利加法解释

固态硬盘:精神分裂症谱系障碍

编辑:J Torous;提交31.05.22;同行评议:J Zulueta, A Hudon, G Rekhi;对作者17.07.22的评论;修订版本收到06.10.22;接受28.10.22;发表30.12.22

©Viet Cuong Nguyen, Nathaniel Lu, John M Kane, Michael L Birnbaum, Munmun De Choudhury。最初发表于JMIR心理健康(https://mental.www.mybigtv.com)， 2022年12月30日。

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR精神健康杂志上的原创作品。必须包括完整的书目信息，https://mental.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

基于社交媒体数据的精神病住院跨平台检测:比较研究

基于社交媒体数据的精神病住院跨平台检测:比较研究

原始论文

通讯作者:

摘要

关键字

简介

背景

目标

方法

招聘

数据收集

工程特性

特征选择

组合分类方法

分类算法和度量

为每个分类算法选择超参数。

用于测量模型性能的度量标准。

特征重要性选择

鲁棒性检查

伦理批准

结果

数据的特点

组合分类结果

特征重要性分析

将模型的发散性结构有效性归因于网络上的发散性身份

讨论

主要研究结果

例子(释义和去识别)代表例子顶部特征的帖子，以区分精神分裂症谱系障碍和对照类。表示特征的词用斜体表示。

与之前工作的比较

临床意义

局限性和未来工作

结论

致谢

利益冲突

参考文献

缩写