中国社交媒体中的自杀风险和情绪困扰评估:文本挖掘和机器学习研究

原始论文

¹香港大学自杀研究及预防中心，中国香港(香港)

²香港大学医学院儿科及青少年医学系，中国香港(香港)

^3.中国科学院心理研究所与计算技术研究所，北京，中国

通讯作者:

程启金博士

香港赛马会自杀研究及预防中心

香港大学

香港薄扶林沙宣道5号香港赛马会交叉学科研究大楼2楼

香港,

中国(香港)

电话:852 28315232

传真:852 2549 7161

电子邮件:chengqj@connect.hku.hk

背景:早期识别和干预对预防自杀至关重要。然而，高危人群往往既不寻求帮助，也不接受专业评估。在自然环境中自动评估其风险水平的工具可以增加早期干预的机会。

摘要目的:本研究旨在探讨计算机语言分析方法是否可用于评估个人在中国社交媒体上的自杀风险和情绪困扰。

方法:对中国社交媒体(即微博)用户进行了一项基于网络的调查，以衡量他们的自杀风险因素，包括自杀概率、微博自杀传播(WSC)、抑郁、焦虑和压力水平。参与者在公共领域发布的微博帖子也在他们同意的情况下被下载。这些微博帖子被分析并归入简体中文语言查询和字数统计(SC-LIWC)类别。通过logistic回归分析SC-LIWC特征与5种自杀危险因素之间的关系。基于语言特征，应用支持向量机(SVM)模型对微博用户是否表现出上述5种风险因素中的任何一种进行自动分类。

结果:共有974名微博用户参与了此次调查。自杀概率高的人使用代词较多(优势比，OR=1.18，P=.001)，在前面加上单词(OR=1.49，P=.02)，多功能词(OR=1.12，P=.04)，动词的使用率较低(OR=0.78，P<.001)，以及更大的总字数(OR=1.007，P= .008)。第二人称复数与重度抑郁症呈正相关(OR=8.36，P=.01)和压力(OR=11，P=.005)，而与工作相关的词汇与WSC呈负相关(OR=0.71，P重度抑郁症(OR=0.56，P=.005)，焦虑(OR=0.77，P= .02点)。不一致的是，第三人称复数与WSC呈负相关(OR=0.02，P=.047)，而重度压力(OR=41.3，P= .04点)。与成就相关的词汇与抑郁呈正相关(OR=1.68，P=.003)，而健康- (OR=2.36，P与死亡相关(OR=2.60，P=.01)与重音呈正相关的词。机器分类器在完整的样本集中没有达到令人满意的性能，但可以分类高自杀概率(曲线下面积，AUC=0.61，P=.04)和严重焦虑(AUC=0.75，P<.001)。

结论:SC-LIWC有助于研究中国社交媒体中自杀风险和情绪困扰的语言标记，并可以识别不同于以前在英语文献中发现的特征。一些发现为未来的验证提供了新的假设。基于SC-LIWC特征的机器分类器很有前景，但仍需要进一步优化才能在现实生活中应用。

中国医学杂志，2017;19(7):e243

doi: 10.2196 / jmir.7276

关键字

自杀；心理压力；社交媒体；中国人；自然语言；机器学习

背景

自杀是全球15-29岁人群的第二大死因，在中国，自杀是该年龄段人群的第一大死因[1，2］．除了自杀是最极端的行为外，更多的年轻人正遭受情绪困扰，这不仅降低了他们的生活质量，而且成为严重精神障碍和自杀的危险因素[3.，4］．因此，早期识别和干预情绪困扰和自杀念头是预防自杀死亡的必要条件。

为了评估自杀风险和情绪困扰，许多工具已经被开发出来并得到验证。这类工具的例子包括成人自杀意念问卷[5]、自杀概率量表[6]、抑郁焦虑压力量表-21 (DASS-21) [7，8]，以及最近开发的自杀影响-行为-认知量表[9］．这些工具通常要求受访者填写调查问卷或参加专业面试。然而，痛苦或有自杀倾向的人往往缺乏向专业人士寻求帮助的动机[10-12］．此外，最近一项研究发现，接受自杀评估可能会导致有抑郁症状的人的负面情绪变化[13］．从自杀预防的角度来看，一种可以在自然环境中评估一个人的自杀风险和情绪困扰而不花费他或她的努力和注意力的工具是更可取的，可以增加早期识别和干预的机会。

以前的工作

基于网络的社交媒体的广泛使用为研究自杀和精神健康问题提供了一个自然的环境，可以很好地记录人与人之间的交流[14］．个人利用社交媒体表达自杀想法，寻找自杀方法，甚至直播自杀行为的案例在不同国家都有报道和研究[15-17]包括中国[18，19］．由于Twitter和Facebook在中国被屏蔽，新浪微博(以下简称微博;新浪是一个公司名称，微博字面意思是微博)是中国人口中最受欢迎的社交媒体平台之一。根据中国互联网观察的数据，截至2016年底，微博的月活跃用户超过3.13亿。20.]，这个数字接近Twitter的全球月活跃用户数[21］．最近一项实证研究表明，有自杀念头或精神状态苦恼的微博用户极有可能在微博上告诉他人自己的自杀想法[22］．这与心理语言学研究相一致，这些研究将单词或语言视为传达或预测我们思想不同方面的有意义的标记。23］．

之前的研究已经证明了使用社交媒体数据来评估自杀风险或英语抑郁症的潜力[16，24-26］．中文关于同一主题的研究相对较少，使用微博数据探索这一主题的研究也很少。这些研究有几个主要的局限性。首先，一些研究针对人类注释的自杀风险水平验证了他们的机器学习模型[27，28］．人类注释者通常是研究生，他们没有接受过系统的自杀预防训练。它们注释的有效性需要实证检验[29］．经验验证的评估工具是验证机器分类器性能的更严格的方法[24］．

其次，之前的大多数研究都人为地提高了自杀或抑郁病例在总样本中的比例[30.，31]或者他们的分类器经过训练，能够区分自杀率极高的案例和自杀率极低的案例，但排除中间的案例[32］．这样的研究设计很难应用到现实生活场景中，在现实生活中，不同风险水平的人是混合的，自杀的人通常只占总人口的一小部分。

最后，以前的中文研究使用了本地开发的词典，即简体中文微博字数词典[33]，用于分析微博帖子[32，34］．国产词典的优势在于，它可能对中文网络语言有更高的覆盖范围。然而，其缺点是结果很难与其他国家的研究进行比较，这些国家的研究经常使用标准化语言查询和单词计数字典[35］．更重要的是，当之前的工作使用本地词典对微博用户的自杀风险进行分类时，分类器的表现显示出很大的改进空间[32]或仍不清楚[31］．在这种情况下，使用标准化的LIWC词典是否能达到与使用国产词典相当甚至更好的性能，值得实证检验。

研究目的

本研究旨在探讨计算机语言分析方法能否用于评估基于微博的中国个体自杀风险和情绪困扰。具体而言，我们不仅分析了简体中文查询和字数统计(SC-LIWC)类别与自杀风险或情绪困扰相关，还应用机器学习方法自动分类社交媒体用户是否有自杀风险或情绪困扰。我们检查了计算机标记的表现与传统的自我评估工具，以评估其效用。

数据收集

对微博用户进行了一项基于网络的调查，以评估受访者的自杀风险和情绪困扰(即抑郁、焦虑和压力)。通过各种推广活动，向广大微博用户广泛发出了参与本次调查的邀请函。微博用户有资格参与这项研究，她或他必须年满18岁(自我报告)。为了提高回复率，每完成一项调查就奖励30元人民币。在受访者同意的情况下，通过调用微博API下载他们在调查前12个月内在公共领域发布的微博帖子。这项调查满足了检查表网上电子调查报告结果的核对表及程序详情已于以往刊物中公布[22，32］．此外，当多个调查反馈从相同的互联网协议地址提交时，仅使用第一次提交，以避免重复参与。与之前的研究相比[32)，这项研究排除了那些在12个月里什么都不发的人，但不包括那些发布帖子少于100条的人。最终，974名受访者提供的数据仍有待进一步分析。

这项研究已获得香港大学人类研究伦理审查委员会和中国科学院心理研究所研究所审查委员会的伦理批准。

调查以受访者的自杀概率得分、抑郁、焦虑、压力和微博自杀传播(WSC)作为结果变量。此外，将受访者微博帖子的语言特征提取为自变量或特征，用于机器学习。关于如何获得这些数据的细节将在以下小节中详细阐述。

自杀的概率

采用中文版的SPS评估受访者的自杀概率。SPS最初在美国开发，然后在中国翻译和验证[36，37］．本研究量表的Cronbach α系数为。749。

抑郁、焦虑和压力

采用中文版的DASS-21量表测量受访者的情绪困扰，该量表已在中国得到验证，并表现出良好的构念效度和标准相关效度[7，8，38］．量表包括三个子量表，分别测量抑郁、焦虑和压力。在我们的研究中，Cronbach alpha系数在抑郁子量表中为0.859，焦虑子量表中为0.767，压力子量表中为0.821。

微博自杀传播(WSC)

WSC由一个单项问题来衡量，即受访者在过去12个月里是否通过微博告诉过别人他或她想自杀。考虑到微博的多种功能，WSC可以通过发布微博，向他人发送私信，或者在群聊中表达自杀的想法来传递。对于这个问题，受访者不局限于任何特定类型的微博交流。

语言特性

微博帖子使用斯坦福分词器进行分段[39结果是349,374个单词和短语。此后，SC-LIWC [33使用字典来统计每个受访者微博中每一类词的出现次数。SC-LIWC词典包括7450个单词，分为71个类别，包括7个主要的语言学或心理学类别和64个子类别。此外，每个受访者在这12个月内发表的单词或短语的总数被计算为第72类。SC-LIWC类别的分数以总字数的百分比计算。

数据分析

简体中文查询与字数分类(SC-LIWC)作为标记

将5个自杀危险因素(SPS、抑郁、焦虑、压力和WSC)分别作为因变量，采用5轮logistic回归分析。logistic回归分析采用5种危险因素的二元分类。我们参照以往的研究，以总分80分作为SPS的分界点[6，36，40]、严重抑郁10分、严重焦虑7分、严重压力12分[7，8，38]，将受访者分别划分为“有风险”及“其他”组别。至于WSC，“有风险”组指在过去12个月内出现WSC，而“其他”组指在过去12个月内未出现WSC。对于每个自杀风险因素，SC-LIWC的所有72个语言特征都作为自变量输入，以逐步回归进行特征选择，显著性水平为0.05。

自动机器分类器作为标记

支持向量机(SVM)是一种有监督的机器学习模型，用于构建自动分类微博用户是否有自杀风险或情绪困扰的算法。支持向量机是计算机科学中一种著名的、高效的、准确率高的情感分析方法[41］．将SC-LIWC类别的得分作为SVM分类的特征。

SVM分类也要求结果变量为二元，这与逻辑回归分析一致。使用R version 3.0.0 (The R Project for Statistical Computing)，包“e1071”进行支持向量机训练[42］．

此外，由于我们之前的研究发现，表现出WSC可以用自杀意念和消极情感来解释[22]，我们进一步使用WSC变量作为过滤器。具体来说，我们只包括那些报告有WSC的受访者，然后仅对这些受访者进行支持向量机训练。预计该筛选方法可以进一步提高支持向量机模型的性能。所有分类结果都是通过免单交叉验证生成的，该验证被发现能够提供统计模型泛化属性的几乎无偏估计量[43，44］．

采用受试者工作特征(ROC)曲线分析，分析比较支持向量机分类对5种危险因素的诊断准确性。该研究的主要结果是ROC曲线下的面积、敏感性和支持向量机分类器的特异性。

表1。总受访者的逻辑回归(N=976)。

因变量	SC-LIWC^一个类别	例句中附英文翻译^b	估计	标准错误	优势比	P价值
自杀概率量表
	人称代名词	你(你[作为单数])，她们(他们[作为女性])	0.17	0.05	1.18	措施
	动词	分享(共享)，开车(驱动)，听(聆听)	−0.24	0.06	0.78	<措施
	预谋^b	之中(中间)，以上(上面)，为止(直到)	0.40	0.16	1.49	02
	多功能^c	的(属于或目标或所有格或形容词后缀)，有(拥有或拥有或存在)，是(是或确实或权利或成为或指示代词或这个或那个)	0.12	0.06	1.12	.04点
	总长度(每1000字)		0.007	0.003	1.007	.008
微博自杀传播
	人称代名词	他(他)，大家(所有)，你们(你[复数])	0.14	0.05	1.15	04
	第三人称复数	她们(他们[作为女性])，他们(他们[作为男性])	−3.88	1.95	0.02	.047
	工作	工厂(工厂)，面试(面试)，薪水(工资)	−0.34	0.13	0.71	.008
抑郁症
	第二人称复数^b	你们(you [as复数])，汝等(you [as复数])	2.12	0.82	8.36	. 01
	与工作相关的	工厂(工厂)，面试(面试)，薪水(工资)	−0.58	0.20	0.56	.005
	Achieve-related	擅长(擅长)，尽责(负责)，高手(精通)	0.52	0.18	1.68	.003
焦虑
	与工作相关的	工厂(工厂)，面试(面试)，薪水(工资)	−0.26	0.11	0.77	02
压力
	第三人称复数	她们(他们[作为女性])，他们(他们[作为男性])	3.72	1.81	41.33	.04点
	第二人称复数^b	你们(you [as复数])，汝等(you [as复数])	2.40	0.85	11.00	.005
	与健康有关	失眠(失眠)，医生(医生)，运动(运动)	0.86	0.30	2.36	04
	死亡相关	亡故(死亡)，自杀(自杀)，遗嘱(遗嘱)	0.96	0.38	2.60	. 01

^一个简体中文查询与字数统计。

^b翻译自ZDIC [45］．

^c这个类别只适用于中文，不适用于英文。

SC-LIWC类别作为标记

表1呈现SC-LIWC类别，在逐步选择后的最终回归模型中，这些类别在区分那些有风险的受访者和其他受访者方面表现出独立的影响。P<。以05为统计学意义的分界点。例如，如表1在美国，任何代词的使用增加1%，SPS水平高的风险就会增加18%(优势比，OR=1.18，P=措施)。相比之下，更频繁地使用动词与较低的风险相关(OR=0.78，P<措施)。简而言之，自杀概率高的微博用户使用代词、前置词和多功能词较多，使用动词较少，总字数较多。其余4个危险因素的标志物具有较多的共同性。例如，第二人称复数与严重抑郁和压力呈正相关，而与工作相关的词语与WSC、严重抑郁和焦虑呈负相关。同时，与不同危险因素相关的一些特殊特征。第三人称复数与WSC负相关，但与重度重音正相关。与成就相关的词汇与抑郁呈正相关，而与健康和死亡相关的词汇与压力呈正相关。

自动机器分类器作为标记

表2演示了用于判断微博用户是否处于五种风险类型之一的支持向量机分类器的auc、敏感性和特异性。对于5个危险因素，总应答者的SVM分类器没有显著的auc。然而，当我们过滤掉那些非wsc受访者时，支持向量机分类显著地识别了那些自杀概率高或严重焦虑的人。严重压力的分类略显着，而严重抑郁的分类仍然不显着。3个显著性和边缘显著性SVM分类器的性能特征如图所示图1由ROC曲线总结。

表2。微博用户自杀概率和情绪困扰的支持向量机分类器的ROC曲线分析

结果变量	n (%)	AUC^一个(95%置信区间)	P价值	灵敏度^b（％）	特异性(%)
所有受访者(N=976)
有过微博自杀传播	117 (12)	0.56 (0.50 - -0.61)	06	61	49
自杀风险高(SPS≥80)	190 (19)	0.48 (0.44 - -0.53)	点	64	32
重度抑郁症(DASS^c抑郁得分> 10)	49 (5)	0.47 (0.38 - -0.55)	.41点	63	33
严重焦虑(dass -焦虑评分>7)	140 (14)	0.45 (0.40 - -0.50)	06	58	32
严重压力(DASS -压力评分> - 12)	45 (5)	0.47 (0.39 - -0.56)	点	64	33
对于拥有微博的受访者自杀沟通(N=117)
高自杀风险(SPS^d≥80)	51 (44)	0.61 (0.51 - -0.72^）	.04点	65	58
重度抑郁(dass -抑郁评分> - 10)	23日(20)	0.57 (0.42 - -0.72)	。31	65	50
严重焦虑(dass -焦虑评分>7)	43 (37)	0.75 (0.65 - -0.84)	<措施	70	66
严重压力(dass -压力评分>12)	20 (17)	0.64 (0.52 - -0.76)	0。	65	57

^一个AUC:曲线下面积。

^b报告了最佳截止点的敏感性和特异性。

^c抑郁焦虑压力量表。

^d自杀概率量表。

图1。支持向量机(SVM)对微博自杀交流参与者的高自杀风险、严重焦虑和压力分类的受试者工作特征(ROC)曲线。

主要研究结果

该研究展示了自然语言处理(NLP)方法在评估中国社交媒体中的自杀风险和情绪困扰方面的效用。某些SC-LIWC类别与自杀风险或情绪困扰之间存在显著相关性。此外，自动机器分类器在对通过微博向他人表达自杀想法的人的自杀概率和焦虑程度进行分类时，达到了令人满意的准确性。然而，分类器在划分抑郁和压力水平方面的表现还有待提高。本研究揭示了开发基于中文自然语言处理的心理风险自动评估计算机程序的潜力和挑战。虽然研究设计是数据驱动的，而不是假设驱动的，但我们将通过将其与现有理论和先前的研究结果联系起来，进一步讨论一些关键结果。

SC-LIWC类别作为标记

值得注意的是，这项研究并没有发现第一人称单数代词(即，I, me, and my)与自杀风险或情绪困扰之间的显著关联，这与之前的一些研究不一致[46-48］．这种现象可能与中文中第一人称单数的含义不明确有关，它不仅指的是说话人自己，而且还表现出一种将其置于说话人所属的整个社区的倾向，从而给说话人带来一种共情感和友好的人际关系[49］．在这种情况下，在中文中使用第一人称单数并不一定表明一种自我关注的思维，也可能无法像在英语中那样标记出自杀风险或情绪困扰。此外，值得注意的是，最近一项研究研究了与自杀相关的推文的语言特征，发现第一人称代词可以区分强烈关注的推文和安全忽略的推文[48］．然而，他们从原始数据集中排除了可能涉及的推文，这使得他们的结果不能与我们的结果直接比较。

此外，那些抑郁和焦虑程度较高的中国社交媒体用户更有可能在公开帖子中使用第二人称复数代词。这表明，他们更喜欢在帖子中直接引用或与一群人交谈，这可能会邀请他们与他人直接交流。自杀预防专业人员可以充分利用这个机会，主动与有风险的人接触，并提供帮助和支持。第三人称复数与结局变量的相关性研究结果并不一致。与WSC呈负相关，与压力呈正相关。此前没有文献报道过类似的发现。然而，这种不一致性表明，在如何与第三方打交道方面，那些有严重压力的人可能与那些有WSC的人不同。

与死亡相关的词汇与严重压力有关，但与自杀概率无关。这一发现不同于之前在英语中发现的自杀诗更多地谈论与死亡相关的内容[47，以及日本的一项研究表明，在推特上发表“想自杀”可以预测自杀的想法和企图[16］．这种差异可能与不同的研究设计有关:我们的研究比较了自杀风险较高的人与风险较低的人，而之前的研究既比较了已死的自杀者和未自杀的活着的自杀者，也比较了有自杀企图史的人与没有自杀企图史的人。此外，我们的研究结果表明，高自杀概率的中国微博用户可能会含蓄地表达他们的自杀想法，而不是在公共领域使用死亡和自杀的词语。相比之下，那些有严重压力但不一定打算自杀的人更有可能通过使用与死亡和自杀有关的词语来透露他们的情绪困扰。

与成就相关的词汇的使用与抑郁呈正相关。这与之前的研究一致，即成就导向型往往与抑郁症状相混淆。50-53］．然而，之前一项基于美国推特用户的机器学习研究发现，推特中与成就相关的词汇的大量使用与非自杀倾向有关。24］．尽管美国的研究没有调查抑郁症，但我们的研究结果与他们的研究结果之间的差异，值得我们对成就与自杀或情绪困扰之间关系的跨文化差异进行更多的研究。

使用与工作相关的词语与抑郁、焦虑和WSC呈负相关。这一现象可以从两个不同的角度来解释。首先，它表明，这些痛苦的人可能是失业的，这是一个已知的自杀和情绪困扰的风险因素。另一种解释是，那些对工作更有动力的人会表现出更积极的精神状态。

自动机器分类器

机器学习分析的结果显示了用NLP自动评估一个人的自杀概率或情绪困扰的挑战。这与一般人群中结果变量的患病率较低有关。然而，通过增加WSC的过滤器，我们的机器分类器的性能得到了改善，尤其是自杀概率和焦虑的分类性能。这是因为WSC被发现与结局变量高度相关[22]，这有助于提高结果变量在过滤人群中的患病率。如引言部分所述，以前的研究经常人为地提高自杀或抑郁病例在总样本中的百分比[30.，31]或有意将中等风险水平的人排除在样本之外[32］．与其他研究不同的是，本研究中使用的WSC过滤器反映了通过微博向他人表达自杀想法的真实行为。在现实生活场景中，鼓励那些阅读或收到关于自杀想法的微博帖子或消息的人将这些帖子提交给我们的算法进行进一步评估是可行的。

当然还有进一步优化机器分类器的灵敏度和特异性的空间。Braithwaite及其同事最近利用美国Twitter数据进行的研究采用了与上述研究相似的研究设计，但他们的分类器在准确性方面优于我们的[24］．布雷斯韦特和同事们使用不同的量表来衡量自杀风险，并使用不同的机器学习模型来开发他们的分类器。遵循他们的方法是否也能提高中文环境下的分类性能，值得我们未来的努力。尽管如此，带滤波器的自杀概率分类器和焦虑分类器的性能还是很有前景的。重要的是，与手工操作或邀请微博用户进行问卷调查相比，应用分类器来审查和评估帖子更高效、方便、成本更低。

限制

应该注意到这项研究的一些局限性。本研究开发的机器分类器还需要进一步优化，特别是抑郁和应激分类器。我们还需要更多的重复性研究来检验我们研究结果的可转移有效性。

基于网络的调查采用了随机抽样的方法。然而，受访者可能是出于对心理学研究的兴趣而自我选择的。尽管如此，我们将调查对象的基本人口统计学特征(即年龄和性别)与普通微博用户进行了比较，并没有发现显著差异[32］．

最后但并非最不重要的是，该研究是以数据驱动的方式进行的，导致结果缺乏结构化，一些结果难以解释。事实上，这项研究为未来的研究提出了更多的问题和新的假设，而不是验证或确认现有的理论。

启示与未来研究

为了将语言标记和自动分类器应用到现实生活中，我们建议微博用户在阅读有关自杀的帖子或信息时更加谨慎。当怀疑某人可能有危险时，他们可以将此人的微博账户转到我们的分类器，该分类器将自动筛选此人的公开帖子，并进一步评估他或她的状况。如果可以开展纵向研究，将本研究开发的算法应用于微博帖子的持续筛选和评估，并将结果提供给自杀预防专业人员进行复查和跟踪，将是有益的。反过来，专家的反馈和后续结果应反馈给模型的开发人员，以进行优化[54］．

一些社交媒体平台，如Facebook和Instagram，已经开发了“报告”功能，允许用户标记那些表达自杀想法的人。该报告将由内部审查人员手动审查，以确定被标记的人是否确实处于危险之中。如果将本研究开发的自动分类器集成到这种基于web的报告功能中，将提高审查效率，并更好地使社交媒体平台和用户为预防自杀做出贡献。随着社交媒体迅速渗透到我们的日常生活中，通过社交媒体发现和参与困境的人的机会不应错过。

结论

这项研究表明，社交媒体中的自然语言可以作为区分高危人群与普通人群的标记，并且语言标记具有文化敏感性。自动计算机程序显示出帮助人类观察者评估自杀概率和焦虑的潜力，通过提高评估效率，但不影响显著的准确性。

致谢

本研究获港大基础研究种子基金(201601159010)及一般研究基金(17628916)资助。

利益冲突

没有宣布。

王长泉，陈春林，叶世平。2002 - 2011年中国自杀率:最新数据。社会精神病学精神病学流行病学2014年6月;49(6):929-941。［CrossRef] [Medline］
世界卫生组织。预防自杀:全球当务之急。日内瓦:世界卫生组织;2014.
王晓明，王晓明，王晓明，等。治疗世界各地有自杀倾向的人。中华精神病学杂志2011 july;199(1):64-70 [免费全文] [CrossRef] [Medline］
年轻人自杀念头和自残的帮助寻求:一项系统综述。自杀生命威胁行为2012 10月;42(5):507-524。［CrossRef] [Medline］
傅国强，刘凯，叶礼平。成人自杀意念问卷中文版的预测效度:心理测量特性及其简写版。精神评估2007年12月19日(4):422-429。［CrossRef] [Medline］
自杀概率量表:规范与因子结构。精神病学杂志1998年10月;83(2):637-638。［CrossRef] [Medline］
小克劳福德，亨利JD。抑郁焦虑压力量表(DASS):大量非临床样本的规范数据和潜在结构。临床精神病学杂志2003 6;42(Pt 2):111-131。［CrossRef] [Medline］
Henry JD, Crawford JR.抑郁焦虑压力量表(DASS-21)的简写版本:在大型非临床样本中构建效度和规范数据。临床精神病学杂志2005年6月;44(Pt 2):227-239。［CrossRef] [Medline］
Harris KM, Syu JJ, Lello OD, Chew YL, Willcox CH, Ho RH。自杀风险评估的ABC:将三方方法应用于个人评估。PLoS One 2015年6月1日;10(6):e0127442 [免费全文] [CrossRef] [Medline］
患有焦虑和抑郁障碍的青少年使用心理健康服务的频率和模式。抑郁焦虑2005;22(3):130-137。［CrossRef] [Medline］
里克伍德DJ，迪恩FP，威尔逊CJ。年轻人何时以及如何寻求心理健康问题的专业帮助?医学杂志2007年10月1日;187(7增刊):S35-S39。［Medline］
Zachrisson HD, Rödje K, Mykletun a .与青少年心理健康问题有关的卫生服务利用:基于人口的调查。BMC公共卫生2006年2月16日;6:34 [免费全文] [CrossRef] [Medline］
自杀评估对参与者有害吗?随机对照试验的结果。中华实用卫生杂志2017年4月26日(2):181-190。［CrossRef] [Medline］
郑强，张世生，叶淑萍。预防自杀的在线数据收集的机遇与挑战。《柳叶刀》2012年5月26日;379(9830):e53-e54。［CrossRef］
韦德伦M，哈德拉兹基G，沃瑟曼D.自杀在互联网上的表现:对临床医生的启示。J medical Internet Res 2012 9月26日;14(5):e122 [免费全文] [CrossRef] [Medline］
与自杀相关的Twitter使用与自杀行为的关联:日本年轻互联网用户的横断面研究。《情感失调》2015年1月1日;［CrossRef] [Medline］
莫克，Jorm AF, Pirkis J.自杀相关的互联网使用:综述。精神病学2015年8月;49(8):697-705。［CrossRef] [Medline］
傅国强，程强，王普文，叶淑萍。社交媒体中自我呈现自杀倾向的反应:社会网络分析。危机2013年1月1日;34(6):406-412 [免费全文] [CrossRef] [Medline］
马俊，张伟，哈里斯K，陈强，徐旭。在线死亡:中国新兴成人自杀事件的直播与危机应对行为。BMC公共卫生2016年8月11日;16(1):774 [免费全文] [CrossRef] [Medline］
《中国互联网观察》，2017。2016年第四季度微博月活跃用户增长至3.13亿https://www.chinainternetwatch.com/19847/weibo-q4-2016/[访问时间:2017-03-31][WebCite缓存］
Statista》2017。2010年第一季度至2017年第四季度全球推特月活跃用户数(百万)https://www.statista.com/statistics/282087/number-of-monthly-active-twitter-users/[访问时间:2017-03-31][WebCite缓存］
程强，郭春林，朱涛，管林，叶鹏鹏。社交媒体自杀传播及其心理机制:中国微博用户的研究。国际环境与公共卫生杂志2015年9月11日;12(9):11506-11527 [免费全文] [CrossRef] [Medline］
Pennebaker JW, Mehl MR, Niederhoffer KG。自然语言使用的心理方面:我们的语言，我们的自我。精神科学2003;54:547-577。［CrossRef] [Medline］
Braithwaite SR, Giraud-Carrier C, West J, Barnes MD, Hanson CL。验证推特数据的机器学习算法与既定的自杀措施。JMIR Ment Health 2016年5月16日;3(2):e21 [免费全文] [CrossRef] [Medline］
O’dea B, Wan S, Batterham PJ, Calear AL, Paris C, Christensen H.在Twitter上发现自杀行为。互联网互动2015年5月;2(2):183-188。［CrossRef］
Choudhury MD, Gamon M, Counts S, Horvitz E.通过社交媒体预测抑郁症。见:第七届国际AAAI博客和社交媒体会议论文集。华盛顿州雷德蒙德:人工智能发展协会;2013年发表于:第七届国际AAAI网络日志和社交媒体会议;2013;美国波士顿网址:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/icwsm_13.pdf
吕敏，李安，刘涛，朱涛。创建中文自杀词典识别社交媒体自杀风险。PeerJ 2015 12月15日;3:e1455 [免费全文] [CrossRef] [Medline］
黄霞，李霞，刘涛，赵东，朱涛，张磊。中文微博自杀意念识别的主题模型。斯特劳兹堡:计算语言学协会;2015年发表于:第29届亚太语言、信息与计算会议;2015年10月30日- 11月1日;中国上海网址:https://pdfs.semanticscholar.org/3669/f95b0a3224c62d4ddfcebc174dee613e07fc.pdf
霍曼·CM，乔哈尔·R，刘·T, Lytle M, Silenzio V, Alm CO.自杀预防的宏观视角:细粒度的痛苦分析。斯特劳兹堡:计算语言学协会;2014年发表于:计算语言学与临床心理学研讨会:从语言信号到临床现实;2014年6月27日;巴尔的摩，马里兰州，美国http://www.aclweb.org/anthology/W14-3213
Burnap P, Colombo W, scorfield J.推特上自杀相关传播的机器分类和分析。纽约:ACM;2015年发表于:第26届ACM超文本与社交媒体会议;2015年9月1-4日;Guzelyurt，北塞浦路斯http://dl.acm.org/citation.cfm?id=2791023
Kumar M, Dredze M, Coppersmith G, Choudhury MD.检测名人自杀后社交媒体上自杀内容的变化。纽约:ACM;2015年发表于:第26届ACM超文本与社交媒体会议;2015年9月1-4日;Guzelyurt，北塞浦路斯http://www.munmund.net/pubs/ht15_WertherEffect.pdf
关龙，郝斌，程强，叶培平，朱涛。基于网络特征和语言特征的中国微博自杀高概率用户识别:分类模型。JMIR Ment Health 2015年5月12日;2(2):e17。［CrossRef］
黄超，钟超，惠宁，林毅，施毅，陈伟。汉语语言探究与字数词典的发展。中华精神病学杂志2012 6月01;54(2):185-201。［CrossRef］
张磊，黄霞，刘涛，李安，陈智，朱涛。基于语言特征的中国微博用户自杀概率估计。正确的做法:以人为中心的计算。瑞士:施普林格;2014年发表于:以人为本计算国际会议;2014年11月27-29日;柬埔寨金边，p. 549-559网址:https://link.springer.com/chapter/10.1007/978-3-319-15554-8_45［CrossRef］
Pennebaker JW, Boyd RL, Jordan K, Blackburn K. LIWC2015的发展和心理测量特性。德克萨斯州奥斯汀:德克萨斯大学奥斯汀分校;2015.
梁勇，杨磊。自杀概率量表的信度与效度研究。中国健康心理杂志2010;2:225-227 [免费全文］
塔特曼SM，格林AL，卡尔LC。青少年自杀概率量表(SPS)的使用。自杀生命威胁行为，1993;23(3):188-203。［Medline］
龚霞，谢霞，徐瑞，罗艳。中国大学生DASS-21中文版本的心理测量特征。临床精神病学杂志2010;18(4):443-446。
曾海华，张鹏，张志强，陈志强。基于条件随机场的赛会分词器研究。斯特劳兹堡:计算语言学协会;2005年发表于:第四届SIGHAN中文语言处理研讨会;2005年10月14日至15日;韩国济州岛网址:http://www.aclweb.org/anthology/I/I05/I05-3027.pdf
Tausczik YR, Pennebaker JW。词汇的心理意义:LIWC和计算机文本分析方法。心理学报2010;29(1):24-54。［CrossRef］
谭松，张娟。中文文献情感分析的实证研究。专家系统应用2008年5月;34(4):2622-2629。［CrossRef］
李文杰，李志刚，李志刚，李志刚。2015。统计司的杂项职能。概率论组(以前:E1071)， TU Wien网址:http://ugrad.stat.ubc.ca/R/library/e1071/html/00Index.html[访问时间:2017-05-31][WebCite缓存］
考利GC，塔尔博特NL。核fisher判别分类器的高效留一交叉验证。模式识别2003 11月;36(11):2585-2592。［CrossRef］
考利GC，塔尔博特NL。核逻辑回归的有效近似留一交叉验证。Mach Learn 2008 Jun;71(2):243-264。［CrossRef］
ZDIC 2015。URL:http://www.zdic.net/[已访问2017-06-05][WebCite缓存］
李天明，周敏，叶碧萍，王普威。一个中国青少年自杀博客的时间和计算机心理语言学分析。危机2014年5月;35(3):168-175。［CrossRef] [Medline］
Stirman SW, Pennebaker JW。自杀诗人和非自杀诗人诗歌中的用词。中华精神病学杂志2001;29(4):517-522。［Medline］
O’dea B, Larsen ME, Batterham PJ, Calear AL, Christensen H.自杀相关推文的语言学分析。危机2017年2月23日-11日。［CrossRef] [Medline］
张松，吴霞，冯莹。从语用共情角度分析中英文第一人称指示语的文化差异。语言研究的理论与实践2013年10月1日;3(10):1868-1872。［CrossRef］
女性和男性自杀遗书中的爱和成就动机。中华精神病学杂志，2002,29(5):573-576。［CrossRef] [Medline］
Hull-Blanks EE, Kerr BA, Robinson Kurpius SE。有才华的高危女孩自杀意念和企图的危险因素。自杀生命威胁行为，2004;34(3):267-276。［CrossRef] [Medline］
李志刚，李志刚。大学生自杀倾向与性别、拖延症和成就动机的关系。死亡种种2011年8月;35(7):625-645。［Medline］
Lewis SA, Johnson J, Cohen P, Garcia M, Velez CN。青年自杀未遂:与学业成绩、教育目标和社会经济地位的关系。《变态儿童心理杂志》1988年8月;16(4):459-471。［Medline］
Agrawal PK, Alvi AS, Bamnote GR.基于自然语言的自学习反馈分析系统。见:第二届计算机与通信技术国际会议论文集。新德里:施普林格;2015年发表于:第二届计算机与通信技术国际会议;2015年7月24-26日;海得拉巴,印度。

‎

AUC:曲线下面积

樱桃:网上电子调查报告结果核对表

DASS-21:抑郁焦虑压力量表-21

LIWC:语言探究与字数统计

中华民国:接收机工作特性

SC-LIWC:简体中文语言查询与字数统计

SPS:自杀概率量表

支持向量机:支持向量机

WSC:微博自杀传播

G·艾森巴赫(G Eysenbach)编辑;提交09.01.17;同行评审:M Zhang, P Thompson, H Sueki, M Larsen, TR Soron;作者评论02.03.17;修订本收到时间为07.04.17;接受24.04.17;发表10.07.17

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

中国社交媒体的自杀风险和情绪困扰评估:文本挖掘和机器学习研究

中国社交媒体的自杀风险和情绪困扰评估:文本挖掘和机器学习研究

原始论文

通讯作者:

摘要

关键字

简介

背景

以前的工作

研究目的

方法

数据收集

自杀的概率

抑郁、焦虑和压力

微博自杀传播(WSC)

语言特性

数据分析

简体中文查询与字数分类(SC-LIWC)作为标记

自动机器分类器作为标记

结果

SC-LIWC类别作为标记

自动机器分类器作为标记

讨论

主要研究结果

SC-LIWC类别作为标记

自动机器分类器

限制

启示与未来研究

结论

致谢

利益冲突

参考文献

缩写