发表在2卷第二名(2015): 4 - 6月

基于网络特征和语言特征的中国微博高自杀概率用户识别:分类模型

基于网络特征和语言特征的中国微博高自杀概率用户识别:分类模型

基于网络特征和语言特征的中国微博高自杀概率用户识别:分类模型

原始论文

1中国科学院行为科学重点实验室,中国科学院心理研究所,中国北京

2中国科学院大学,中国北京

3.香港大学自杀研究及预防中心,中国香港特别行政区(香港)

4中国科学院智能信息处理重点实验室,中国科学院计算技术研究所,中国北京

通讯作者:

朱廷韶博士

中国科学院行为科学重点实验室

心理学研究所

中国科学院

林翠路16号合协楼821室

朝阳区

北京,100101

中国

电话:86 15010965509

传真:86 010 64851661

电子邮件:tszhu@psych.ac.cn


背景:传统的自杀概率离线评估既耗时又难以说服高危人群参与。通过在线社交媒体识别高自杀概率的个体在其效率和潜力上具有优势,可以接触到隐藏的个体,但很少有研究关注这一具体领域。

摘要目的:本研究的目的是应用简单逻辑回归(SLR)和随机森林(RF)两种分类模型,检验通过从基于互联网的数据中提取个人资料和语言特征来识别中国高自杀可能性微博用户的可行性和有效性。

方法:有900名中国微博用户完成了一项互联网调查,参与者样本中自杀概率量表(SPS)总得分高于平均值1个SD的人,以及四个子量表得分均高于平均值1个SD的人,分别被标记为高危人群。档案和语言特征被输入两种机器学习算法(SLR和RF)来训练模型,目的是在一般自杀概率和四个维度上识别高风险个体。对模型进行训练,然后进行5倍交叉验证;其中训练集和测试集都是根据分层随机抽样规则从整个样本中生成的。有三个经典的性能指标(精密度、召回率、F1测量)和一个专门定义的指标“筛选效率”被用来评估模型的有效性。

结果:单反与射频的分类性能基本匹配。考虑到分类模型的最佳性能,我们能够检索超过70%的被标记为高危个体的总体自杀概率以及四个维度。大多数模型的筛选效率在1/4 ~ 1/2之间。模型精度一般在30%以下。

结论:在中国,高自杀概率的个体可以通过微博的个人资料和基于文本的信息来识别。尽管未来分类模型的性能仍有很大的提升空间,但这项研究可能会揭示通过机器学习算法对高危个体的初步筛选,该算法可以与专家审查并肩工作,以提高在线社交媒体自杀概率大规模监测的效率。

JMIR心理健康2015;2(2):e17

doi: 10.2196 / mental.4227

关键字



高自杀概率的临床特征

早期识别有自杀倾向的个体对于自杀干预和预防至关重要。在过去的几十年里,人们一直致力于识别高自杀概率个体的特征。临床医生发现,患有身体或心理疾病(如癌症、获得性免疫缺陷综合征和抑郁症)的人自杀风险较高[1-3.].高自杀概率与某些人格特征之间存在密切联系[45];据报告,亚洲某些年龄组别的人士,如长者(特别是住在农村地区的长者)及青少年,均属潜在高风险[6-9].在情绪层面,有研究表明,敌意、自杀意念、消极自我评价和抑郁是自杀的关键指标。尽管许多危险因素已被报道与自杀概率相关,但仍难以确定自杀个体,因为自杀行为由一系列复杂因素组成,每个人都是独特的[10-12].此外,对高自杀概率个体的预防性干预往往滞后,因为在人群中追踪自杀个体的努力受到自杀概率数据收集和识别困难的阻碍[13].

网络自杀概率分析研究

随着近年来互联网成为快速发展的社交平台,有大量包含自杀相关信息的社交网络平台,为监测自杀概率提供了丰富的来源[1415].研究人员一直试图从互联网上找出自杀的特征和趋势。1316-20.],而有些人则透过社会网络分析,设法找出某些高自杀风险组别[21].然而,据我们所知,很少有研究使用互联网特征来识别高自杀概率的个体。

研究目标

在本研究中,我们考察了基于互联网可访问数据自动识别高自杀概率微博用户的可行性和有效性。作为中国占主导地位的微博服务提供商,新浪微博目前拥有1.67亿活跃用户,每天发布的帖子超过1亿条[22],为进一步分析提供了丰富的个体行为和语言信息。由于微博用户几乎都在35岁以下,这为我们研究微博青年的自杀风险提供了绝佳的机会。我们采用中文自杀概率量表(Suicide Probability Scale)来标注参与我们网络调查的微博用户的自杀概率水平,并确定我们的目标群体,例如高风险参与者。我们采用简单逻辑回归(SLR)和随机森林(RF)两种机器学习算法,训练分类器通过从新浪微博提取的个人资料和语言特征来预测个体自杀概率,并评估这些分类器在标记目标群体上的表现。我们期望性能最好的分类器能够通过微博数据正确识别高危人群,且准确率可以接受。


参与者和程序

本次网络调查通过三种方式在新浪微博上进行:(1)招聘信息在我们实验室的新浪官方微博上发布,关注人数超过5000人。有些追随者是自愿参与调查的;(2)新浪微博认证名人,中国大陆知名心理学家,粉丝超过97万,转发了我们的招聘信息,吸引了更多参与者;(3)创建了另一个非官方微博账号,在用户主页随机发送邀请信息。所有对本次调查感兴趣的参与者都被要求通过他们的新浪微博账号登录互联网调查系统。在他们阅读并签署了一份知情同意书,明确了调查的目标和他们的权利后,他们被邀请完成一项关于人口统计信息和心理健康状况的调查,包括用普通话进行的自杀概率量表(SPS)。如果他们完成了整个调查,就可以得到30元人民币的补偿。调查网页上显示了国家自杀预防热线的联系信息,并鼓励参与者在感到压力或有自杀倾向时寻求帮助。中国科学院心理研究所审查委员会已经审查并批准了本研究的伦理考虑。

参与者排除标准

为了保证整个过程的质量,我们进行了参与者筛选。首先,为了遵守道德规范,只有18岁以上的参与者才会参与。接下来,为了减少使用不同微博账号多次完成调查的可能性,研究人员检查了参与者的互联网协议(IP)地址。来自同一IP的调查报告将被淘汰,因此只使用第一次提交的调查报告。最后,为了避免出现“地板效应”,我们认为每个人都应该有足够多的微博来进行特征提取,所以我们只保留了总微博数超过100条的参与者。

2014年5月22日至7月13日,1196名微博用户参与了调查,1040人完成了全部调查,909人通过了筛选。最终的样本池包括909名新浪微博用户(561名女性,348名男性,平均年龄24.3岁,SD 5.0)。

措施

标记高风险参与者

SPS由Cull和Gill开发,用于评估成人和14岁以上青少年的自杀风险。先前的研究已证实,SPS可作为社区预防和干预个人自杀的有效筛查工具[2324].Liang等人将标准化量表翻译成普通话,并验证了其信度和效度[25].SPS由36个自我报告问题组成,采用李克特4分制,范围从“无”到“一直”。参与者将得到总体自杀概率的总分,以及四个分量表的得分:(1)敌意,(2)自杀意念,(3)消极自我评价,(4)绝望。

SPS与外部开发的自杀风险指数有很大关系;被确定为高自杀概率的个体需要进一步的专家审查,或与家人和朋友进行有条件的评估。安大略医院协会和加拿大患者安全研究所建议将78分作为高自杀风险的分割线[26].由于中国目前还没有微博用户SPS得分的标准规范,在我们的微博用户样本中,得分高于总SPS得分平均值或每个子量表得分平均值1个SD的参与者分别被标记为高危人群(详情见表1).

表1。SPS分数分布和基于分数的分类。
刻度名称 平均分数 高分班级的截止时间 低分班的截止时间
x (SD) >截止点
n (%)
<截止点
n (%)
SPS 69.4 (11.8) > 81
144/909 (15.8)
< 58
125/909 (13.8)
敌意次生氧化皮 13.0 (2.5) > 15
137/909 (15.1)
< 11
142/909 (15.6)
自杀意念分量表 11.5 (3.2) > 14
156/909 (17.2)
< 9
94/909 (10.3)
消极自我评价分量表 20.5 (4.4) > 24
173/909 (19.0)
< 17
166/909 (18.3)
绝望次生氧化皮 24.6 (4.7) > 29
135/909 (14.9)
< 20
110/909 (12.1)
从微博中提取特征

由新浪微博数据中心提供的调用应用程序编程接口,允许下载所有公开的用户数字记录,从中提取个人资料和语言特征来训练模型。

档案特征包括三种类型:(1)参与者档案或一般行为;(2)用户设置;(3)参与者微博行为。

类别(1)包括:性别;用户名长度;收藏/关注/关注/朋友总数(相互关注);自我描述的长度;域名长度;域名中的数字计数;公开发布微博数量;微博原创发文数;原创微博发照片数;带有URL的原始发布帖数; numbers of originally published posts with “@”; number of microblogs published between 22:00 and 6:00; number of times that participant used first person plural/singular words; number of total/positive/negative emoticons; and number of days that participant stayed active. To determine positive and negative emoticons, five psychology professionals were recruited to evaluate all 1983 Sina Weibo emoticons. Based on their agreement, 48 positive emoticons and 118 negative emoticons were ultimately identified.

类别(2)包括:用户是否启用私信发送;用户是否允许所有用户留言;用户是否启用其帐户的地理标签;以及用户在自我描述中是否包含“我”。

类别(3)包括:参与者单条微博平均/最大/最小/中位数;参与者单条微博平均评论数;参与者的单个微博被转发的平均次数;参与者单条微博平均点赞数;微博原创(微博原创/公共领域总微博);微博传递性(包含超链接的帖子/公共领域的帖子总数);微博互动(帖子@其他用户/公共领域帖子总数);群体引用(每篇文章第一人称复数词的平均数量);自我引用(每篇文章中第一人称单数词汇的平均数量);夜间活跃度(22:00 - 6:00发布的帖子/公共领域总帖子); adoption of positive emoticons (the average number of positive emoticons per post); adoption of negative emoticons (the average number of negative emoticons per post); and social activeness (number of friends/number of followers). Ratio data were adopted in many of the Category (3) features to eliminate the impact of time discontinuity, since participants varied in the Weibo active period.

我们根据三个标准来采用这些特征:(1)在以前的研究中提出的特征很少。例如,已经有很多研究关注自杀意图、抑郁思维和失眠之间的联系[2728],在此基础上,我们采用了“夜间活跃度”特征;(2)一些特征的定义是直观的,因为我们认为该特征与自杀风险之间可能存在某种关系(例如,每篇帖子使用的负面表情的平均数量);和(3)对于所有其他的,他们似乎是常见的,但重要的,我们应该注意他们。尽管它们从未被提及,但它们有可能被证明对识别自杀风险有用。

使用简体中文微博字数词典(SCMBWC),中文版《语言查询与字数》[29],是一种有效的微博文本分析词汇[30.],提取语言特征。本书共88个专题,涵盖了语言过程、心理过程、人际关系、口语等汉语语言学的基本范畴。中文文本分析系统TextMind [31],在本研究中用于完成语言特征提取的任务[30.].

建模

建模方法

我们在训练集上建立模型,然后在保留的测试集上评估它们。为此,我们首先将所有参与者分成三个班级。如上所述,得分高于平均值1个SD(平均值+1SD)的参与者被标记为高危人群。因此,得分低于mean-1SD的参与者被标记为低风险参与者,得分介于mean-1SD之间的参与者被标记为中风险参与者。从直观上看,高风险人群和低风险人群在行为和语言特征上可能存在显著差异,因此,基于这两个群体建立的模型可以捕捉到适当的模式来区分高风险人群和低风险人群。为了保证模型对微博一般用户人群的适用性,在一个测试集中,每个类的占比遵循整个参与者样本的相同分布,这样才能真实地反映模型的性能。

因此,训练集只来自两个极端的组,但测试集由所有三个组的参与者组成,因为我们想在现实世界场景中测试模型的性能。在这里,我们通过5倍交叉验证来运行训练和测试。每个训练集由80%的高风险和低风险个体组成(自杀概率,216/269;敌意,224/279;自杀意念,201/250;消极自我评价,272/339;以及绝望(196/245),每个测试集由20%的高风险、中等风险和低风险个体(181/909)组成。训练集和测试集从整个参与者池中随机生成5次,以平衡分层随机抽样的方差。

建模算法和性能度量

有两种机器学习算法用于训练分类模型,SLR和RF。SLR是一种概率分类模型,是二元因变量线性模型的一种特殊情况。RF是一种集成方法,训练多个决策树,最终结果是所有决策树输出的模式。在之前的研究中,这两种算法都被用于对健康问题进行分类[32-36].为了评估模型,使用了三个经典的性能指标:(1)精度(真阳性数量/预测为阳性的实例总数),(2)召回率(真阳性数量/阳性实例总数),以及(3)F1测量,它考虑了精度和召回率之间1:1的权衡,以给出平衡的观点[37].

此外,我们还定义了“筛选效率”来衡量与传统的临床自杀审查相比节省工作量的能力。筛选效率的计算公式为(总实例数-预测为正的总实例数)/总实例数。例如,如果总共有100个人,其中40人被我们的模型预筛选为高风险,那么只有40人需要继续进行专家评估,因此我们可能节省的工作量应为(100-40)/100*100%=60%。模型的训练和测试全部通过WEKA进行,WEKA是一个广泛采用的用于数据挖掘的机器学习工作台[38].


用户数据

大多数用户(873/909,96.0%)为35岁以下的成年人,这与新浪微博目前的年龄分布相一致。表1总结了总自杀概率和四个子量表维度在整个参与者样本池中的得分分布和分类。每个训练集(包含80%的高分和低分用户)的样本量总结如下:SPS总分216/269,敌意得分224/279,自杀意念得分201/250,消极自我评价得分272/339,绝望得分196/245。所有测试集的样本量为181/909(占分层抽样总用户的20%)。

评价

表2-6显示整体自杀概率模型的表现,以及四个子量表维度。SLR和RF在分类潜在危险个体的性能上基本匹配。对于总体自杀概率,最优模型输出能够达到0.82的召回值,筛选效率在0.32-0.46之间变化。对于敌意维度,最优模型输出的召回值为0.70,筛选效率在0.42 ~ 0.65之间。对于自杀意念维度,最优模型输出的Recall值为0.84,筛选效率在0.15 ~ 0.33之间。对于负自我评价维度,优化模型输出的召回值为0.74,筛选效率在0.38 ~ 0.55之间变化。对于绝望维度,除单反的两个输出倾向于将所有个体识别为高分外,最优模型输出的Recall值为0.89,筛选效率在0.21-0.48之间变化。模型输出的精度值在0.1-0.25之间变化,F1测量值在0.17-0.37之间变化。

表2。用于分类总体自杀概率的模型性能。
分类器 试验数量 性能指标


精度 回忆 F1度量 筛分效率
单反 1 0.13 0.50 0.20 0.38

2 0.14 0.54 0.23 0.42

3. 0.23 0.79 0.35 0.46

4 0.13 0.50 0.21 0.41

5 0.19 0.79 0.31 0.36
射频 1 0.13 0.57 0.21 0.32

2 0.18 0.75 0.29 0.34

3. 0.20 0.82 0.32 0.36

4 0.16 0.64 0.26 0.38

5 0.15 0.64 0.24 0.33
表3。敌意分类的模型性能。
分类器 试验数量 性能指标


精度 回忆 F1度量 筛分效率
单反 1 0.12 0.30 0.17 0.62

2 0.16 0.37 0.22 0.65

3. 0.18 0.52 0.26 0.56

4 0.16 0.44 0.24 0.60

5 0.21 0.70 0.33 0.50
射频 1 0.14 0.56 0.22 0.40

2 0.17 0.67 0.27 0.42

3. 0.14 0.48 0.21 0.47

4 0.12 0.44 0.18 0.42

5 0.14 0.52 0.22 0.44
表4。自杀意念分类的模型表现。
分类器 试验数量 性能指标


精度 回忆 F1度量 筛分效率
单反 1 0.19 0.81 0.31 0.29

2 0.22 0.84 0.34 0.33

3. 0.19 0.74 0.30 0.33

4 0.16 0.65 0.26 0.31

5 0.20 0.81 0.32 0.30
射频 1 0.17 0.84 0.28 0.15

2 0.17 0.81 0.29 0.20

3. 0.18 0.84 0.29 0.18

4 0.17 0.77 0.28 0.21

5 0.17 0.77 0.27 0.20
表5所示。对消极自我评价进行分类的绩效模型。
分类器 试验数量 性能指标


精度 回忆 F1度量 筛分效率
单反 1 0.25 0.68 0.37 0.49

2 0.24 0.59 0.34 0.53

3. 0.20 0.47 0.29 0.55

4 0.21 0.62 0.32 0.45

5 0.24 0.74 0.36 0.41
射频 1 0.22 0.71 0.33 0.39

2 0.23 0.65 0.34 0.47

3. 0.22 0.65 0.33 0.46

4 0.22 0.74 0.34 0.38

5 0.20 0.62 0.30 0.41
表6所示。绝望分类的模型表现。
分类器 试验数量 性能指标


精度 回忆 F1度量 筛分效率
单反 1 0.15 1.00 0.26 0

2 0.17 0.89 0.29 0.22

3. 0.15 1.00 0.26 0

4 0.14 0.48 0.21 0.48

5 0.15 0.63 0.24 0.36
射频 1 0.14 0.67 0.24 0.31

2 0.13 0.67 0.22 0.26

3. 0.13 0.56 0.21 0.37

4 0.10 0.44 0.17 0.37

5 0.15 0.78 0.25 0.21

主要成果及与以往工作的比较

本研究的关键发现是,通过微博用户的个人资料和文本数据,在敌意、自杀意念、消极自我评价和绝望维度上的高自杀概率可以被识别为可接受的表现。结果表明,单反与射频的分类性能基本一致。精密度为10% ~ 25%,召回率为30% ~ 89%,F1指标为17% ~ 37%,筛选效率为21% ~ 65%。分类器的性能似乎取决于训练集和测试集之间数据的随机化。例如,使用单反的敌意回忆率变化了40%(0.30-0.70),而使用射频的自杀意念回忆率仅变化了7%(0.77-0.84)。这可能表明,在子量表中测量的四个风险因素的泛化程度是不同的;例如,未来的研究可能会验证自杀意念是否在所有情绪因素中最有可能识别个体自杀风险。

对于任何高危个体而言,自杀预防和干预都是一个持续的过程,包括自杀风险评估和干预治疗的不断交替过程[39].传统的治疗过程既费时又费力,而且由于中国许多有自杀倾向的人并没有积极寻求帮助。39,他们往往超出专业服务的范围。自杀预防和干预领域的研究人员已经意识到网络干预的巨大潜力;已经开发出网络程序来帮助被诊断有自杀倾向的人。40-42].我们的研究旨在提供实证证据,证明自杀风险评估过程可以通过检查在线社交媒体内容来进行。计算机化算法评估可以与传统的问卷调查方法并肩工作,为识别潜在风险个体提供参考信息,并指导他们进一步干预。

从评价结果来看,在三个经典的绩效指标中,Recall总体上要高于其他两个。这表明,模型试图检索尽可能多的有自杀倾向的个体,即使以部分增加假警报为代价。考虑到自杀行为的严重性,我们不想错过任何一个有风险的人。因此,回忆是我们在这项研究中主要关注的问题。然而,较低的精度和F1测度表明,现有模型仅能作为自杀概率的初步筛选工具。一些最新的研究结果还表明,尽管机器学习算法预测心理问题的准确性有所提高,但它们仍然无法取代专家的审查[43-47].为了应用我们目前的发现,我们可以与自杀预防组织合作,计算机程序预先筛选微博用户的自杀风险,然后自动将高危人群推荐给这些组织。他们将根据专业评估,进一步人工检查并提供干预服务。

因此,我们特别感兴趣的是,探索通过机器学习算法对高危人群进行初步筛查,可以在多大程度上减少传统自杀风险量表评估的工作量。从我们新定义的度量“筛选效率”中可以看出,假设所提出的模型具有最佳性能,目前我们只能节省不到传统工作负载的一半。尽管与回忆法并不是直接互补的,但在许多实验试验中,在为进一步审查节省的工作量与正确检索高危个体的比例之间,已经显示出了一种权衡的迹象。结合模型评价结果,我们认为在后续的研究中,提高模型的预测能力仍有很大的进步空间。尽管如此,集中于特征提取、建模设计和分类器选择的逐步尝试已经有了一个良好的开端。

限制

为了方便我们的互联网调查系统的可用性,我们允许参与者不连续地完成调查。换句话说,如果参与者被打断并被迫暂停部分完成的调查,则可以为下一次访问保存进度。我们确实发现一些参与者的满足感时间很长,并且无法判断他们是否被打断了,或者其他可能会影响自我报告评估价值的原因。这就需要优化网络评估方法。一些研究人员已经在致力于开发简短、高质量的工具来测试互联网上的自杀行为[48],但在减轻网络自我报告评价的响应负担和提高准确性方面,仍需进一步努力。

人们很自然地想知道,在所有提出的特征中,是否有一些特征具有最强的预测能力。从本研究的模型输出来看,不同模型间的有力指标并不一致;在使用相同算法的模型中,预测特征在不同的试验中甚至会出现不同。此外,预测特征通常是不可解释的。尽管机器学习的优势之一是发现不适合当前知识系统的隐藏关系,但我们承认,目前我们对建模的整体预测能力的了解比单个特征的具体预测能力更好。我们有兴趣巩固特征系统和加强输出解释。

在这项初步研究中,我们将用户分为三类,并特别将那些平均得分为+1SD的人标记为高危人群,以表明他们更可能需要对自杀风险进行仔细的临床评估。由于在中国新浪微博用户中没有自杀概率得分的规范组,我们意识到该用户样本和高自杀概率的基准分界点可能存在潜在偏差。对于未来有意推进中国自杀网络研究的研究,他们可能会研究这种测量工具在特定互联网群体中的本地化。

结论

社交媒体目前被广泛使用。我们的研究表明,通过微博用户公开的个人资料和文本信息,可以评估高自杀概率。虽然目前我们的模型无法达到足够的准确性来提供诊断,但这种创新的方法确实揭示了监测大规模人群的价值,并能够检测出潜在的自杀个体,以便自杀预防专业人员进行进一步的随访。未来的研究需要集中在提高分类的准确性,并在更大范围的社交媒体用户上测试表现。

致谢

作者感谢国家高技术发展计划项目(2013AA01A606)、国家基础研究发展计划项目(2014CB744600)、中国科学院重点发展计划项目(KJZD-EWL04)和中国科学院战略重点发展计划项目(XDA06030800)的大力支持。这项研究亦获得研究资助局策略性公共政策补助金(hku7003 - sppr -12)的部分资助。

利益冲突

没有宣布。

  1. 伊诺斯K, Rahu K, Rahu M, Baburin A.爱沙尼亚癌症患者自杀:基于人群的研究。欧洲癌症杂志2003 Oct;39(15):2223-2228。[CrossRef
  2. 金玉坤,李文文,金帅,沈帅,韩文文,崔帅,等。重性抑郁症无自杀倾向患者和有自杀倾向患者细胞因子的差异。2008年2月15日;32(2):356-361。[CrossRef] [Medline
  3. HIV疾病进展:抑郁、压力和可能的机制。生物精神病学2003 Aug;54(3):295-306。[CrossRef
  4. 王长泉,陈春林,叶世平。2002 - 2011年中国自杀率:最新数据。精神病学流行病学2014;49(6):929-941。[CrossRef
  5. Conner KR, Meldrum S, Wieczorek WF, Duberstein PR, Welte JW。在15到20岁的男性中,易怒和冲动与自杀意念的关联。自杀威胁行为,2004;34(4):363-373。[CrossRef] [Medline
  6. 世界卫生组织。预防自杀:全球当务之急。日内瓦:世卫组织出版物;2014.
  7. 瓦田,关田,小泉Y,佐藤S,细泽A,大森K,等。日本城市老年人群自杀意念的相关因素:一项基于社区的横断面研究精神病学与临床神经科学2005;59(3):327-336。[CrossRef
  8. Bjørngaard JH, Bjerkeset O, Vatten L, Janszky I, Gunnell D, Romundstad P.母亲出生年龄、出生顺序和年轻时自杀:兄弟姐妹比较。美国流行病学杂志2014;kwt014。[CrossRef
  9. Harwood DMJ, Hawton K, Hope T, Harriss L, Jacoby R.生活问题和身体疾病是老年人自杀的危险因素:一项描述性和病例对照研究。心理医学2006;36(09):1265-1274。[CrossRef
  10. 莫ścicki艾克。利用流行病学研究鉴定自杀危险因素。北美精神病学诊所1997年9月20日(3):499-517。[CrossRef
  11. 杨刚,张艳,王玲,季红,周明。中国自杀危险因素的病例对照心理解剖研究。柳叶刀2002年11月;360(9347):1728-1736。[CrossRef
  12. 博尔赫斯G,安格斯J,诺克MK,卢西奥AM,凯斯勒RC。自杀相关结局发生率和持续性的危险因素:使用国家共病调查的10年随访研究。精神疾病杂志,2008;25(1):25-33。[CrossRef
  13. 麦卡锡乔丹。人群自杀风险的网络监测。《情感失调》杂志2010年5月;22(3):277-279 [免费全文] [CrossRef] [Medline
  14. 韦德伦M,哈德拉兹基G,沃瑟曼D.自杀在互联网上的表现:对临床医生的启示。医学互联网研究2012;14(5)。[CrossRef
  15. 坎普CG,科林斯SC,超链接自杀。危机:危机干预与自杀预防杂志2011;32(3):143-151。[CrossRef
  16. 陈萍,柴静,张玲,王东。高等信息工程与教育科学国际学术会议(ICAIEES 2013)。2013.中文网页自杀信息挖掘系统(SIMS)的开发与应用http://www.atlantis-press.com/php/download_paper.php?id=10818[已访问2014-10-30][WebCite缓存
  17. Jashinsky J, Burton SH, Hanson CL, West J, girau - carrier C, Barnes MD,等。通过推特追踪美国的自杀风险因素。2014年危机;35(1):51-59。[CrossRef] [Medline
  18. 李天明,周敏,叶碧萍,王普威。一个中国青少年自杀博客的时间和计算机心理语言学分析。危机:危机干预与自杀预防杂志2014;35(3):168-175。[CrossRef
  19. 傅国强,程强,王普文,叶淑萍。社交媒体中自我呈现自杀倾向的反应:社会网络分析。危机:危机干预与自杀预防杂志2013;34(6):406-412。[CrossRef
  20. 郑强,张松,叶淑萍。预防自杀的在线数据收集的机遇与挑战。柳叶刀2012年5月;379(9830):e53-e54。[CrossRef
  21. 谢伦齐奥V,杜伯斯坦PR,唐伟,吕宁,涂X,贺曼CM。连接看不见的点:通过在线社交网络接触有自杀风险的女同性恋、男同性恋和双性恋青少年和年轻人。社会科学与医学2009;69(3):469-474。[CrossRef
  22. 2014年新浪微博用户报告。新浪微博数据中心,2014。URL:http://www.199it.com/archives/324955.html[访问2015-04-20][WebCite缓存
  23. Naud H, Daigle MS.自杀概率量表在男性囚犯人群中的预测有效性。《精神病态行为评估》2009年9月2日;32(3):333-342。[CrossRef
  24. Gençöz T, Or P.大学生自杀的相关因素:家庭环境的重要性。2006年5月10日;28(2):261-268。[CrossRef
  25. 梁燕,杨玲。中国心理学杂志。2010。自杀概率量表的信度与效度研究http://www.cqvip.com/qk/98348a/201002/33125858.html[访问时间:2015-03-25][WebCite缓存
  26. 帕尔曼CM, Neufeld E, Martin L, Goy M, Hirdes JP。安大略省医院协会和加拿大患者安全研究所。多伦多:;2011.自杀风险评估清单:加拿大卫生保健组织资源指南网址:http://www.oha.com/KnowledgeCentre/Documents/Final%20-%20Suicide%20Risk%20Assessment%20Guidebook.pdf[访问2015-04-28][WebCite缓存
  27. Nadorff MR, Fiske A, Sperry JA, Petts R, Gregg JJ。老年人的失眠症状、噩梦和自杀意念。老年学杂志B辑:心理科学与社会科学2013;68(2):145-152。[CrossRef
  28. Woosley JA, Lichstein KL, Taylor DJ, Riedel BW, Bush AJ。绝望在失眠和自杀意念之间起中介作用。临床睡眠医学杂志2014年11月15日;10(11):1223-1230。[CrossRef] [Medline
  29. Pennebaker JW, Francis ME, Booth RJ。Mahway: Lawrence Erlbaum Associates。语言查询和字数统计:LIWC 2001http://homepage.psy.utexas.edu/HomePage/Faculty/Pennebaker/Reprints/LIWC2007_OperatorManual.pdf[访问时间:2015-03-25][WebCite缓存
  30. 高锐,郝波,李红,高原,朱涛。微博简体中文心理语言分析词典的开发。中国脑科学,2013;[CrossRef
  31. Textmind系统。2013.URL:http://ccpl.psych.ac.cn/textmind/[访问2015-04-26][WebCite缓存
  32. Díaz-Uriarte R,阿尔瓦雷斯·德Andrés萨拉。基于随机森林的微阵列数据的基因选择与分类。BMC生物信息学2006;7:3 [免费全文] [CrossRef] [Medline
  33. Kacar K, Rocca MA, Copetti M, Sala S, Mesaroš Š, opinal TS.克服多发性硬化症的临床- MR成像悖论:MR成像数据评估随机森林方法。美国神经放射学杂志2011;32(11):2098-2102。[CrossRef
  34. Gray KR, Aljabar P, Heckemann RA, Hammers A, Rueckert D,阿尔茨海默氏病神经成像倡议。阿尔茨海默病多模态分类的随机森林相似度量。神经影像2013年1月15日;65:167-175 [免费全文] [CrossRef] [Medline
  35. 低工资和失业对心理健康的影响:一个逻辑回归方法。卫生经济学杂志1998年1月;17(1):85-104。[CrossRef
  36. 李志强,李志强,李志强,等。硬皮病毛细血管镜模式的恶化是否预示着未来严重的器官受累?初步研究。安Rheum 2012 10月;71(10):1636-1639。[CrossRef] [Medline
  37. Goutte C, gasier E.精密度、召回率和F-score的概率解释,以及对评估的影响。信息检索技术进展,2005;3408:345-359。[CrossRef
  38. Frank E, Hall M, Holmes G, Kirkby R, Pfahringer B, Witten IH,等。weka是一个用于数据挖掘的机器学习工作台。数据挖掘和知识发现手册。施普林格美国2010。[CrossRef
  39. 自杀和自残。第1版。北京:人民卫生出版社;2007:196 - 197。
  40. Furber G, Jones GM, Healey D, Bidargaddi N.对危机患者的电话心理治疗之间有和没有短信支持的比较。中国医学杂志,2014;16(10):e219 [免费全文] [CrossRef] [Medline
  41. Stjernswärd S,汉森L.基于网络的抑郁症家庭支持性干预:内容分析和形成性评价。JMIR研究协议2014;3(1)。[CrossRef
  42. 李文杰,李文杰,李文杰,等。设计信息,使患者参与在线自杀预防干预:目前有自杀意念的患者的调查结果。医学互联网研究2014;16(2)。[CrossRef
  43. Wald R, Khoshgoftaar TM, Napolitano A, Sumner C.使用Twitter内容预测精神病。在机器学习和应用(ICMLA)第11届国际会议2012年12月;2:394-401。[CrossRef
  44. 杨永旭,李志刚,杨永旭。2014年3月20日。通过分析临床记录文本预测自杀风险URL:http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0085733[访问2015-04-27][WebCite缓存
  45. De Choudhury M, Gamon M, Counts S, Horvitz E.在ICWSM。2013.通过社交媒体网址预测抑郁症:http://research.microsoft.com/pubs/192721/icwsm_13.pdf[已访问2015-04-07][WebCite缓存
  46. De Choudhury M, Counts S, Horvitz E.通过社交媒体预测产后情绪和行为的变化。2013年4月发表于:SIGCHI会议关于计算系统中的人为因素。ACM;2013;巴黎,3267-3276页。[CrossRef
  47. De Choudhury M, Counts S, Horvitz EJ, Hoff A.产后抑郁症的特征和预测从共享的facebook数据。2014年出席:第17届ACM计算机支持的协作工作和社会计算会议;2014年2月;巴尔的摩626-638网址:http://www.msr-waypoint.net/en-us/um/people/horvitz/FB-cscw2014.pdfCrossRef
  48. De Beurs Derek Paul, De Vries Anton Lm, De Groot Marieke H, De KJ, Kerkhof AJ。应用计算机自适应测试优化自杀行为在线评估:一项模拟研究。中国医学杂志,2014;16(9):e207 [免费全文] [CrossRef] [Medline


中科院:中国科学院
知识产权:互联网协议
射频:随机森林
SCMBWC:简体中文微博字数词典
单反:简单逻辑回归
SPS:自杀概率量表


G·艾森巴赫(G Eysenbach)编辑;提交12.01.15;B O’dea, M Larsen同行评审;对作者18.03.15的评论;修订版本收到30.03.15;接受03.04.15;发表12.05.15

版权

©管莉,郝碧波,程启金,叶顺丰,朱廷韶。最初发表于JMIR心理健康(http://mental.www.mybigtv.com), 2015年5月12日。

这是一篇开放获取的文章,根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR精神健康杂志上的原创作品。必须包括完整的书目信息,http://mental.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map