医学互联网研究杂志-从社交媒体帖子中识别失眠:用户推文的心理语言学分析

原始论文

¹美国国际大学-孟加拉国，达卡，孟加拉国

²联合国际大学，孟加拉国达卡

^3.芬兰拉彭兰塔LUT大学

⁴孟加拉国工程技术大学，达卡，孟加拉国

通讯作者:

萨达姆·侯赛因·穆克塔博士

联合国际大学

Madani大街

Natun集市

达卡,1216

孟加拉国

电话:880 1712 095216

电子邮件:saddam@cse.uiu.ac.bd

背景:许多人患有失眠症，这是一种睡眠障碍，其特征是夜间难以入睡和保持睡眠。由于社交媒体已经成为一个无处不在的平台，可以与朋友和熟人分享用户的想法、观点、活动和偏好，这些平台上共享的内容可以用来诊断不同的健康问题，包括失眠。最近只有少数研究从Twitter数据中预测失眠，我们发现，从词汇使用模式预测失眠，以及从社交媒体互动中得出的用户失眠与他们的五大人格特征之间的相关性，研究存在空白。

摘要目的:本研究的目的是根据用户的心理语言模式构建失眠预测模型，包括从推文中衍生出的词语使用、语义和大五人格特征等元素。

方法:在本文中，我们利用从推特中获得的心理语言学和人格特征来识别失眠患者。首先，我们根据用户的词汇选择和他们tweets中单词之间的语义关系建立了用户的心理语言学概况。然后我们确定了用户的性格特征和失眠之间的关系。最后，我们建立了一个双加权集成分类模型，从用户推文中提取的心理语言和人格特征来预测失眠。

结果:我们的分类模型显示出很强的预测潜力(78.8%)，可以从推特中预测失眠。由于失眠症患者通常脾气暴躁，感到更大的压力和精神疲惫，我们观察到他们之间某些词汇使用模式的显著相关性。他们倾向于使用否定的词(例如，“不”、“不是”、“从不”)。有些人经常使用脾气暴躁的脏话(如“damn”、“piss”、“fuck”)。他们还在推特上使用焦虑(例如，“担心”，“害怕”，“紧张”)和悲伤(例如，“哭泣”，“悲伤”，“悲伤”)的词。我们还发现，在五大人格特征中，神经质和尽责性得分较高的用户可能与失眠有很强的相关性。此外，我们观察到责任心得分高的用户与失眠模式有很强的相关性，而外向性与失眠之间也存在负相关。

结论:我们的模型可以从用户的社交媒体互动中帮助预测失眠。因此，将我们的模型整合到一个软件系统中，可以帮助家庭成员在个体失眠问题恶化之前发现它们。该软件系统还可以帮助医生诊断患者可能出现的失眠症。

[J] .中国医学信息学报，2011;23(12):563 - 563

doi: 10.2196/27613

关键字

失眠；推特；字嵌入；五大人格特质；分类；社交媒体；预测模型；心理语言学

背景

失眠是睡眠障碍的一种，是无法入睡或在晚上保持睡眠状态。它是全球最普遍的心理健康症状之一[1]。一项研究[2研究表明，全世界约有30%的成年人表现出失眠症状，比如难以入睡和维持睡眠，以及醒得太早。失眠症患者可能还会遇到其他问题，如抑郁、焦虑和过度饮酒[3.]。

随着智能手机和互联网技术的空前发展，社交媒体现在已经成为一个无处不在的平台，反映了用户的日常活动、偏好和信仰。这些社交媒体平台已经成为分享健康信息的一种手段[4-9对于许多用户来说。例如，Paul等人[10]表示，推特已经成为讨论各种健康信息的常见场所，包括失眠和其他精神健康状况，如抑郁、压力和焦虑。其他几项研究[10-12也有报道称Twitter被用作分享症状的平台[11，寻求帮助，交换意见[12]。

由于失眠是一种心理健康障碍，这种疾病可能与人类的个性属性有很强的联系。事实上，之前的研究[13-15表明失眠与某些性格特征有关。因此，在本研究中，我们试图从用户的社交媒体互动中获得人格特征，并将这些特征与用户的用词模式一起用于预测失眠。据我们所知，我们的研究是第一个从社交媒体互动中调查人格特质是否与失眠有关的研究。通过分析用户的推文来预测失眠在现实生活中有很多应用。例如，朋友和父母可以识别他们所爱的人的问题，而医疗保健提供者可以使用该系统诊断失眠，并可以建立一个自动预警系统。

失眠和五大人格特征

许多成年人经历过短期(急性)失眠，持续数天或数周。急性失眠很常见，通常是由工作压力、家庭压力或创伤性事件等情况引起的。有些成年人有持续数月或数年的长期(慢性)失眠[16]。在大多数情况下，慢性失眠可能是其他问题的副作用[16]。失眠不仅会降低个人的能量水平，还会降低他们的健康、工作表现和生活质量。失眠有几种原因[16-18]，包括精神健康障碍，如创伤后应激障碍。抗抑郁药、哮喘药和降压药也会导致睡眠障碍。慢性疼痛、癌症、糖尿病、心脏病、哮喘、胃食管反流病、甲状腺过度活跃、帕金森病和阿尔茨海默病等疾病也会导致失眠。大量摄入咖啡因、尼古丁或酒精也可能妨碍睡眠并导致失眠[16]。

人格区分个体的思维、感觉和行为模式[19]。大五人格量表是一种常用的测量人格的量表[19，20.]。大五人格模型有五种不同的人格特征:开放性、严谨性、外向性、宜人性和神经质。高度开放的人倾向于反思想法、创新和欣赏价值。责任心强的人谨慎细致，有追求成就的倾向。高外向性的人倾向于寻求刺激，表现出积极的情绪。高亲和力的人往往同情、信任和仁慈他人。神经质的人表现出消极的情绪，如焦虑、压抑、愤怒和抑郁。人格特征是与精神障碍相关的重要因素[21]。例如，先前的研究发现，责任心和神经质与失眠有关[22，23]。人格也是失眠认知行为治疗中途退出和治疗抵抗的关键因素[24]。

社交媒体和失眠模式

一些研究通过分析社交媒体的内容来预测失眠。Michael等人[10描述了一种利用Twitter进行公共卫生研究的方法。他们利用疾病主题方面模型从tweet中创建结构化的疾病信息，并将其用于公共卫生指标。这些作者[25]还报告说，可以通过社交媒体数据调查疾病爆发的早期发现、用药安全、健康行为和个人福祉，并应用传统的自然语言处理工具分析社交媒体内容。Rice等[26发现年轻人可能面临新技术和网络媒体带来的负面影响的风险。因此，社交媒体平台对于衡量年轻人的心理健康状况非常重要。Andrew等人[27]进行了一项研究，从流行的社交媒体平台上确定常见的心理健康话题，并确定了常见的心理健康话题，如焦虑、抑郁和睡眠问题。Jamison-Powell等[9完成了一项关于Twitter上关于失眠的讨论的研究。通过对18901条推文的分析，他们发现，当“失眠”这个词出现在用户的推文中时，他们很可能传达了强烈的负面健康信息。这些作者主要对两个不同的主题进行了分析:应对失眠和描述失眠经历。对于第一个主题，用户在Twitter上分享症状和应对策略，而对于第二个主题，用户分享挫折感。然而，作者并没有建立预测模型，也没有探索用户的个性与失眠之间的联系。McIver等[28研究了两组Twitter用户——睡眠组和非睡眠组——在社交媒体上的活跃程度。他们发现，不睡觉的那一组在社交媒体上表现出负面情绪。Suarez等[29]通过分析54,432条推文，对西班牙语推文实时流进行失眠预测研究，并在出现失眠短语时建立分类器。他们使用术语频率逆文档频率来寻找n-gram的特征，然后应用不同的分类器，包括支持向量机和k近邻。

很明显，之前的研究存在以下缺陷:之前的研究主要是基于明确的失眠短语(例如，“失眠”，“失眠”)而不是基于语言线索和单词之间的关系来构建分类器，作者没有建立任何新的机器学习模型，并且，据我们所知，没有研究根据用户的个性来预测失眠社交媒体互动。因此，本文的目的是解决这些研究空白。

研究目标

这项研究的主要目的是通过分析用户的心理语言特征(例如，词汇使用模式)和从他们的推文中得出的大五人格特征来预测失眠。在这项研究中，我们建立了一个严格的分类模型来预测用户在Twitter上的互动。我们从1574名用户中共收集了4198,683条推文，并将我们的训练数据集分为两类:失眠个体和不失眠个体。然后，我们使用两种流行的工具对用户的推文进行了基于心理语言学的分析:30.]及语言调查及字数统计(LIWC) [31]。我们还通过使用来自变压器(BERT)的双向编码器表示来分析用户的推文[32词嵌入技术来研究词之间的语义关系。我们仔细地进行了基于心理语言学和词嵌入的分析，以找到对用户推文的见解。然后，我们将用户的个性与心理语言学模型结合起来。最后，我们结合心理语言学、词嵌入和基于个性的模型建立了双加权、基于集成的分类模型。

总之，我们的研究提供了以下贡献:一个由来自不同地理位置的1574名用户组成的大型失眠数据集;新的失眠分类模型，包括心理语言学、词嵌入和基于用户推文的大5人格属性;以及一种新颖、严格的双加权、基于集成的分类模型来预测失眠。

本文通过分析用户在推文中的用词模式，通过以下5个步骤来预测失眠:(1)用户选择-首先，利用Twitter的高级搜索技术，我们一共找到了1574个用户[33并将使用者分为两组，有睡眠障碍的使用者和无睡眠障碍的使用者;(2)语言分析——我们进行了两种不同类型的语言分析，基于心理语言学的分析和基于词嵌入的分析;(3)相关分析——我们利用Fisher’s latent Dirichlet allocation (LDA)发现了用户心理语言模式与睡眠障碍之间的相关性[34];(4)模型构建——我们利用心理语言特征、词嵌入属性和大5人格特征构建了3个不同的机器学习模型;(5)模型集成——最后，通过对前人模型的集成，建立了双权重集成模型。这些步骤将在后面的小节中进一步详细说明。

数据收集

我们总共收集了1574名用户的推文。我们使用Twitter的高级搜索技术搜索“失眠”和“失眠”等短语。我们将用户分为两组:失眠组和失眠组。然后，我们用“失眠是”和“失眠不是”标签手动注释用户推文的文件。

我们确认了随机选择的用户既不是组织也不是名人。我们手动检查了Insomnia Yes用户是否披露了自己的睡眠障碍。我们找到了用户的推文和他们的位置。以下是一些失眠症用户在推特上分享的推文样本:“我希望失眠不再是我生活的一部分”和“我的失眠是最严重的，我12点上床，睡了2个小时，早上6点半还是很清醒。”这些推文表明这些用户患有失眠症。如果我们在一个用户的新闻提要或推文中发现了几个这样的推文(平均28.60次)，我们将该用户标记为失眠是的。

对于Insomnia No用户，我们随机选择推文中没有这些搜索短语的用户。我们还手动检查了这些用户是否有任何与睡眠相关的问题，如果有，我们就将其从列表中删除。在用户的包含推文的csv文件上标记失眠是或否后，我们从用户的推文中删除了“失眠”和“失眠”等文本。通过删除这些短语，我们创建了一个无偏差的数据集，其中包含有关用户失眠的线索，而没有明确提及这些短语。使用缩略语的用户往往发音更流利，而不使用缩略语的用户大多是非母语人士。人们每天可能会收缩很多单词，但在收缩时主要集中在单词“not”上。35]。出于上述原因，我们在推文中保留了缩略词，以表明母语和非母语人士的写作模式之间的差异。后来，我们又进行了一次全面分析。

值得注意的是，我们只关注那些在Twitter上表达失眠的用户。如果他们真的患有失眠症，那么他们的用词模式可能很有见地。我们收集了用户的推文，在调查了他们的写作、地理位置和推文的不规则时间戳后，多个裁判给这些用户打上了标签。通过这种方式，我们可以确信某个用户患有失眠症。我们强调用户关注他们的推文内容，以此来决定他们的行为。当用户遇到严重的问题时，他们很可能会经常向其他人表达自己的问题。因此，如果我们发现提及失眠问题的频率很高(平均28.60次)，我们将用户标记为失眠是。我们还发现，针对上述问题，用户发布tweet数的最大值、最小值和SD分别为363、8和24.57。这些数字表明，一些患有严重失眠相关问题的用户继续在晚上发推文谈论他们的失眠。

可能还有另一群用户患有失眠，但他们不会在推特上透露这个问题。我们的研究没有考虑到这些用户。我们还发现了大量的非失眠症患者。我们再次根据地理位置手动检查了用户的数据和tweet时间，以确认这些用户是非失眠症患者。如果我们有非失眠症用户，但他们发推文的时间模式与普通用户不同，那么我们就把他们的推文从我们的研究中剔除。由于失眠症用户的数量比非失眠症用户要少，所以我们选取较少的非失眠症用户的数据来做一个平衡的数据集。

值得注意的是，可能有些用户患有失眠症，但没有在推特上透露。然而，我们认为他们的人数并不多，因为之前的研究表明，在社交媒体上，人们没有理想化地展示他们的实际行为[36]并分享私人特质[37]。

接下来，我们根据各种属性确定Twitter用户的性别，以研究用户性别与失眠行为之间的相关性。首先，我们手动检查了个人资料照片和个人简介，以确定性别，但许多用户不会在个人资料中分享他们的照片。因此，我们观察他们的写作和其他用户的回复，从第三人称代词(即“他”，“她”，“他”和“她”)确定他们的性别。如果我们无法从Twitter上识别出性别，我们就会根据特定用户的姓名和用户名进行手动搜索，从而检查该特定用户的其他社交网络账户。例如，我们可以根据Twitter用户在Instagram或Facebook个人资料上的照片来识别他们的性别。如果以上所有方法都不能确定性别，我们将用户从列表中删除。

我们搜索了那些以英语为第一语言的国家的用户，无论是母语还是非母语的用户。我们收集了来自6个不同国家的用户的推文:澳大利亚、加拿大、爱尔兰、新西兰、美国和英国。表1显示从不同地理位置收集的两组用户(有失眠和没有失眠)的数量。

表2显示描述我们数据集的tweet的统计信息。

表1。推特用户的地理位置统计。

国家	总数，n (n =1574)	失眠是用户，n (n=820)	无使用者，n (n=754)
英国	212	108	104
澳大利亚	62	31	31
加拿大	334	181	153
美国	919	473	446
新西兰	32	18	14
爱尔兰	15	9	6

表2。微博统计数据。

统计	失眠啊	失眠不
微博,	1998683年	1810567年
用户最大推文数，n	3247	3250
用户的最小推文数n	26	26
用户的平均tweet数，平均值(SD)	2437.42 (1035.42)	2401.28 (1156.65)
用户最大字数，n	67427年	65660年
用户的最小字数，n	195	191

对于原始数据预处理，我们丢弃了用户名和提及。我们保留了用户的转发，因为转发的行为可以表明用户的性格特征。我们删除了话题标签(如“#insomnia”)，并将其转换为文本(如“insomnia”)。我们还删除了url和http链接，因为这些文本数据无法通过词法方法进行分析。这些文本也不会为单词嵌入方法产生任何有意义的数字向量。我们没有删除停顿词，因为一些词嵌入技术，如BERT，表明介词有助于更好地理解上下文。我们使用Python demoji包删除了表情符号[38]。例如，我们用“火”这个词代替了“火”这个符号。我们根据Seabrook等人的建议，使用LIWC2015字典删除表情符号[39]。

模型建立

我们用3种不同的技术建立了分类模型:(1)基于心理语言学的模型(即LIWC和Empath)，(2)基于词嵌入的模型(即BERT)，以及(3)基于大5人格的模型。首先，我们描述了每个独立模型预测失眠是和失眠否的性能。然后，我们描述了从这3个独立模型构建新的集成模型的过程。由于我们在基于深度学习的模型中使用了词嵌入技术，因此我们不需要这种分类类别的特征选择方法。我们为其他两种方法精心选择了重要的特征，因为不相关的特征会削弱模型的准确性[40]。

特征选择

在我们的数据集中，我们的自变量包括由心理语言学工具(如LIWC和Empath)、词嵌入方法(如BERT)和五大人格特征生成的用户推文分析分数。我们的因变量是失眠症是和失眠症否。由于自变量为连续变量，因变量为分类变量，我们采用Fisher的线性判别分析[34]用于我们的特征选择方法。

如前所述，我们使用了两种不同的心理语言学技术，LIWC和Empath来分析用户的推文。最初，我们使用基于liwc的方法，使用LIWC2015，它将大约90个不同的文本特征分类为7个不同的类别，每个类别包含数百个单词[41]。这些类别包括总结语言变量(分析思维、影响力、真实性和情感语气)、一般描述类别(每个句子的单词、词典捕获的目标单词的百分比等)、标准语言维度(冠词、助动词等)、涉及心理构念的词类别(影响、认知等)、个人关注类别(工作、家庭、休闲活动等)、非正式语言标记(同意、填充、脏话等)、以及标点符号的分类(句号、逗号等)。

我们首先将LIWC评分作为自变量，将Insomnia Yes和Insomnia No作为因变量。我们使用SPSS统计软件(IBM Corp .)应用Fisher的线性判别分析来寻找相关特征。表3表示根据Fisher线性判别分析，用户的LIWC得分与失眠Yes和失眠No之间的相关系数。分数较大(>1.0)的预测因子是较好的预测因子。因此，在构建分类模型时，这些分数有助于决定哪些变量的影响更大[42]。

表3。费雪相关系数^一个分类和失眠分类。

LIWC类别	失眠啊	失眠不
我	48.117	47.838
否定	123.587	123.253
发誓	74.714	74.521
健康	18.731	18.466
驱动器	-31.599	-31.479
focuspresent	17.453	17.342
SemiC	16.856	16.157
cogproc	-38.140	-38.057
悲伤的	19.972	20.991
联系	37.245	37.323
焦虑感	17.692	18.524
死亡	22.654	23.873
社会	83.284	83.246
分析	-17.013	-16.901

^一个语言探究与字数统计。

其次，我们使用基于同理心的方法来解决基于liwc方法的缺点。LIWC只能分析总共6400个字典单词。使用基于动态深度学习的方法与Empath一起分析这些单词。我们使用共情-客户端Python实现包[43]。Empath通过使用基于深度学习的神经嵌入，在超过18亿个现代小说单词中提取单词和短语之间的内涵。给定一个类别的一小部分种子词，Empath使用其神经嵌入来发现新的、相关的术语，然后用一个大众驱动的过滤器来验证这个类别。Empath分析了200个内置的、预先验证的类别的文本，这些类别是我们从数据集中的常见主题中生成的，比如忽视、政府和社交媒体。我们使用Empath分析每个用户的推文，并将推文的结果作为我们的自变量;同时，以失眠症Yes或失眠症No作为因变量。虽然LIWC和Empath高度相关(r=0.906)，但我们发现Empath与我们的失眠分类类别之间没有相关性。LIWC总共有93个心理语言类别，而Empath总共有200个词类别。当这93个LIWC词类被划分到200个Empath词类中时，Empath词类在类别间的分布可能并不均匀，Empath表现出弱相关系数。因此，我们最终没有将Empath词类别与我们的组合模型集成。

第三，为了发现用户的睡眠模式与大五人格特征之间的相关性，我们首先计算了用户的人格得分。我们计算了五大人格特征[20.]通过使用IBM Watson Personality Insight API(应用程序编程接口)，从用户的推文中提取信息[44]。Arnoux等[8已经表明，与其他技术相比，IBM沃森人格洞察API表现良好。其他先前的研究[45，46]也使用了该API并展示了合理的性能。结果表明，大部分性状的最高得分为1.00，最低得分为0.01。我们还观察到，失眠症患者的开放性、严谨性、外向性、宜人性和神经质的平均得分分别为0.61、0.29、0.52、0.56和0.83。

构建分类器

在完成所有技术的特征选择后，我们首先使用LIWC构建分类模型。为了构建分类模型，我们考虑了14种不同的LIWC词类作为初始特征。表3显示了基于liwc的方法的特性。这些特征是i，否定，发誓，健康，驱动，专注，SemiC, cogproc，悲伤，隶属关系，焦虑，死亡，社交和分析。当特征之间存在共线性时，可能会出现潜在的问题。为了消除独立LIWC特征之间的共线性，我们使用R回归子集选择包“leaps”计算特征之间的相关性[47]。我们发现以下特征是共线的:驱动器，sad, SemiC, focus - present和从属关系。我们从特征列表中删除了这些共线特征。最后，我们使用10次迭代的10倍交叉验证对相关特征进行分类。我们使用朴素贝叶斯、AdaBoost、随机森林、支持向量机和高斯过程等分类器构建了我们的分类模型。

在此之后，我们使用了一个语言模型，它能够找到句子中单词之间的上下文关系。为此，我们使用BERT [32这个模型是在大量的句子语料库上进行预训练的。该模型学习产生一个强大的内部表示词作为嵌入。我们使用了句子转换器[48]库，通过使用预训练模型生成BERT向量。我们将两组预处理后的数据集进行分组，一组数据集没有使用词序化和标点符号，另一组数据集使用了所有预处理技术。

我们使用BERT向量作为基于卷积神经网络(CNN)的深度学习模型的输入[49]。由于CNN是一个非线性机器学习模型，并且BERT嵌入向量具有较大的输入特征(768 × 1)，我们使用这种基于深度学习的架构来训练我们的模型。CNN模型包含2个隐藏层。在第一个隐藏层中，我们加入了漏电的ReLU(整流线性单元)[50激活函数。在下一个隐藏层中，我们添加了一个dropout，用tanh激活函数对模型进行正则化。最后，我们添加了一个带有softmax激活函数的致密层[51]，并使用具有二值交叉熵损失的Adam优化器。我们将训练数据集和测试数据集分别分成70%和30%，并使用10次迭代的10倍交叉验证构建分类模型。在这种配置下，训练和测试数据集的准确率分别为67%和58%。

接下来，我们使用五大人格特征建立了我们的分类模型。根据总结的日期表4，我们选择了3个相关的大5特征:尽责性、神经质和宜人性。我们使用10次迭代的10倍交叉验证建立了具有相关特征的分类模型。我们使用朴素贝叶斯、AdaBoost、随机森林、支持向量机和高斯过程等分类器构建分类模型，将训练数据集和测试数据集分别分割70%和30%。

表4。人格特质与失眠症的Fisher相关系数

人格特质	是的(Fisher的分数)	失眠症号(费雪分数)
责任心	31.885	29.227
神经质	28.168	17.336
开放	-19.137	-20.785
外向性	-1.93	-1.61
和蔼可亲的	2.175	3.132

构建加权集成分类器

最后我们结合了之前的分类模型，增加了我们的预测模型的强度。为了确定一个统一的最终失眠标签，我们结合了所有独立的模型，包括LIWC, BERT和Big 5人格特征。有必要根据这些方法的执行情况对它们进行优先排序。我们通过为每个模型分配权重来排序方法。我们使用这些权重来构建最终的集成模型。为了构建我们的集成模型，我们执行了以下两个步骤:从训练和测试数据集计算每种方法的权重，并将模型与双加权线性集成技术结合起来。

然后我们确定了每种方法的权重(即W_LIWCW_伯特，和W_繁体人格特征)从训练和测试数据集。我们偶尔会观察到，一个模型在训练数据集上表现出更好的强度，而在测试数据集上表现较弱。因此，我们密切关注我们的模型在训练和测试数据集中的性能。这样，我们可以为权重带来更大的多样性，以构建我们的集成模型。为此，我们首先在944个Twitter用户(944/1574，占总数据集的60.0%)的训练数据集上运行分类模型。我们使用LIWC、BERT和五大人格特征来运行分类模型。在训练过程中，我们同时使用了线性(如随机森林、朴素贝叶斯)和非线性(如CNN)模型。我们通过检查这些分类模型的均方根误差(RMSE)得分来对它们的强度进行排名。RMSE得分越低，模型(线性或非线性)的权重越高。为了计算权重，我们从1减去RMSE得分(W=1 - RMSE)。

我们再次在630个Twitter用户(630/1574，占总数据集的40.0%)的测试数据集上运行分类模型。我们还通过使用LIWC、BERT和大五人格特质方法应用了线性和非线性技术。然后我们对这些方法的权重进行排序(测试数据集的1-RMSE)。图1显示了从训练(60%)和测试(40%)数据集生成权重的详细过程。在图中，我们将权重表示为W，这表明我们将模型的RMSE从1中减去。在我们的双加权方法中，我们使用凸组合技术将每种类型的权重组合在一起[52]用于训练和测试数据集。对于训练数据集，我们从LIWC、BERT和Big 5特征中分别获得了0.52、0.47和0.50的权重。相比之下，对于测试数据，我们分别从LIWC、BERT和Big 5性状中获得了0.38、0.50和0.36的权重。这些权重由LIWC、BERT和大5人格特质的线性和非线性分类模型生成。

图1所示。失眠预测的权重计算与集成模型构建。BERT:来自变压器的双向编码器表示;语言探究与字数统计。

最后，利用凸组合法对双加权法得到的权重进行组合。方程1给出了最终失眠集合分类结果(我_最后)，从前三个不同的模型。

在哪里Y_LIWCY_伯特,Y_繁体分别为LIWC、BERT和Big 5人格特质的失眠预测结果;和W_LIWCW_伯特，和W_繁体表示使用凸组合技术从训练数据集和测试数据集分别从LIWC、BERT和Big 5人格特征生成的权重。

概述

我们的研究是第一个通过分析大量的推文来建立一个新的集成学习模型来预测失眠的研究。过往研究[28，29通过使用有限数量的推特来研究失眠行为的模式。此外，作者在他们的数据集中明确考虑了“失眠”和“失眠”等短语。相比之下，在我们的研究中，我们在预测用户的睡眠问题时放弃了这些明确的短语，这使得我们的研究与之前的研究不同，并且更加稳健。在本节中，我们报告了我们独立的和最终的基于集成的分类器的性能，讨论了失眠用户和非失眠用户从他们的推文中结合的情绪变异性，并展示了失眠用户的分布及其大5人格得分的变异性。最后，讨论了用户性别与失眠行为的相关性。

独立分类器和集成分类器的性能

首先，我们研究了独立分类器和基于集成分类器的性能。表5显示分类器的性能。我们发现高斯过程分类器在预测用户失眠方面具有最佳的平均性能(曲线下面积[AUC] 75.3%)。

表5所示。LIWC类别与大五人格特质预测失眠的分类模型强度

分类器，失眠类		LIWC^一个				五大人格特质
分类器，失眠类		TPR^b	玻璃钢^c	AUC^d	TPR		玻璃钢	AUC
随机森林
	是的	0.716	0.334	0.747	0.686		0.475	0.649
	没有	0.678	0.270	0.747	0.525		0.314	0.649
朴素贝叶斯
	是的	0.740	0.472	0.694	0.746		0.591	0.585
	没有	0.536	0.260	0.694	0.409		0.254	0.585
支持向量机^e
	是的	0.632	0.266	0.680	0.883		0.674	0.604
	没有	0.732	0.371	0.680	0.326		0.117	0.604
演算法
	是的	0.699	0.414	0.694	0.836		0.679	0.599
	没有	0.579	0.314	0.694	0.321		0.164	0.599
高斯过程
	是的	0.747	0.383	0.754	0.765		0.542	0.666
	没有	0.713	0.376	0.754	0.457		0.234	0.666

^一个语言探究与字数统计。

^bTPR:真阳性率。

^cFPR:假阳性率。

^dAUC:曲线下面积。

^eSVM:支持向量机。

我们最后的失眠集成分类模型，我_最后，训练数据集和测试数据集的AUC分别达到78.8%和76.91%，优于之前的独立模型。当观察基于集成的分类器在训练数据集和测试数据集上的性能时，我们发现测试集的性能与训练数据集的性能相似。我们基于集成的分类器的训练和测试数据集的接收器工作特性曲线显示在图2．

失眠症患者和非失眠症患者的情绪变异性

我们的研究调查了失眠症用户和非失眠症用户之间是否存在情绪差异。从我们的观察中，我们发现用户的失眠行为和他们的心理语言类别是相关的。我们随机选择了20名失眠症患者和20名非失眠症患者。我们提取用户的焦虑相关词汇(如“担心”、“害怕”、“紧张”、“紧张”)，并使用最大最小归一化技术将其得分转换为0到1的范围。图3呈现在失眠症和非失眠症使用者之间使用这些词的可变性。我们还观察到，失眠症患者比非失眠症患者平均多使用10%的焦虑相关词汇。Carrera等[53在对200名大学生的研究中发现，睡眠困难和对死亡的恐惧之间存在着显著的联系。在我们的研究中，我们还发现失眠症用户很可能在他们的推文中发布与死亡相关的词语。我们观察到失眠症用户会写更多的“社交词”。这些用户在睡眠困难时往往会花更多的时间与他人交往。我们的研究还表明，失眠症患者往往缺乏分析性思维。

图3。(A)“焦虑”，(B)“死亡”，(C)“驱动”，(D)“分析”，(E)“悲伤”和(F)“社交”，与LIWC类别相关的单词的使用及其在失眠症和非失眠症用户之间的平均得分。语言探究与字数统计。

五大人格特征与失眠症患者相关性的可视化分析

用户的五大人格特征与失眠行为存在相关性。表6表明亲和性可能与失眠症行为有弱相关性的分布。而严谨性与失眠症行为有较强的相关性(Fisher得分为31.88)。失眠程度高的人更有可能更加认真。相比之下，Wissar等[54报告称，较低的责任心与更严重的失眠症有关。我们还发现，神经质得分高的用户更有可能患有严重的失眠。表6显示失眠症使用者在宜人性方面得分中等，可能在责任心方面得分较高，并且高度神经质。

表6所示。失眠症患者大五人格特质相关得分的分布。

按范围划分的性状		百分比，n (%) (n =820)
宜人性
	0.0 - -0.2		77 (9.4)
	0.2 - -0.4		164 (20.0)
	0.4 - -0.6		188 (22.9)
	0.6 - -0.8		214 (26.1)
	0.8 - -1.0		177 (21.6)
责任心
	0.0 - -0.2		111 (13.5)
	0.2 - -0.4		213 (26.0)
	0.4 - -0.6		376 (45.9)
	0.6 - -0.8		88 (10.7)
	0.8 - -1.0		32 (3.9)
神经质
	0.0 - -0.2		9 (1.1)
	0.2 - -0.4		38 (4.6)
	0.4 - -0.6		79 (9.6)
	0.6 - -0.8		125 (15.2)
	0.8 - -1.0		569 (69.4)

失眠与性别相关性

Seabrook等[39研究表明，性别可能与心理健康问题有关，比如抑郁症。失眠是一种心理健康问题55]并受到先前研究的启发[39，56]，我们还调查了用户的性别和他们的失眠相关问题之间的关系。我们发现失眠症和非失眠症男性用户的数量分别为309和363。我们进一步观察到，失眠症和非失眠症女性使用者的数量分别为511和391。从我们的数据集中，我们进行了卡方(P<.001)基于性别和失眠的检验，其中列联表中的自由度([行数- 1]×[列数- 1])为1。我们的研究结果表明，性别和失眠是相关的。

经过仔细观察，我们发现在511名女性用户中，有6.8% (n=35名用户)患有妊娠或产后失眠症。这些用户的推文包含与“怀孕”、“产后”和“共眠”相关的词汇。后来，我们应用了LDA [57在这些用户怀孕或产后的推特上。LDA是一种主题建模技术，可以自动组织大型语料库以发现隐藏的主题。从用户的推特模式，我们可以估计出他们怀孕的可能时间框架。表7从他们的推特中提取了5个主要话题:睡眠、夜晚、疲倦、孩子和奇怪。

表7所示。从一组失眠用户孕期或产后的推特中提取主要话题分布，包括(A)睡眠、(B)孩子、(C)夜晚、(D)疲倦、(E)怪异。

主题		分布(%)
一个话题
	睡眠	0.085
	问题	0.077
	遭受	0.075
	小	0.045
	焦虑	0.060
	梦想	0.057
	逃避	0.037
	精神上的	0.036
	随机	０．０３５
	早....	0.030
主题B
	出生	0.081
	乳房	0.071
	护理	0.070
	幸福	0.076
	幸运的	0.062
	如厕	0.079
	恐慌	0.050
	检查	0.048
	耐心	0.052
	天使	0.058
主题C
	今晚	0.072
	晚上	0.070
	晚餐	0.061
	噪音	0.060
	认为	0.072
	聚会，派对	0.048
	事件	0.051
	披萨	0.042
	担心	0.050
	携带	0.049
主题D
	累了	0.076
	遭受	0.068
	看	0.061
	有压力的	0.060
	一分钟	0.059
	打破	0.070
	剧吐	0.043
	怀孕	0.042
	战斗	0.040
	体育运动	0.039
主题E
	奇怪的	0.074
	盯着看	0.062
	厌恶	0.060
	疯狂的	0.056
	婊子	0.072
	羞愧	0.050
	人	0.070
	员工	0.049
	不喜欢	0.069
	怀孕了	0.068

情感语言与失眠症行为

如前所述，用户的语言模式与失眠症是或失眠症没有迹象密切相关。失眠症患者倾向于使用消极类别的LIWC词汇(例如，“不”，“不”，“从不”)。有些性情刚烈的人经常使用脏话(如“damn”、“piss”)。在Bonnet等人的[55研究表明，失眠症患者表现出过度觉醒(一种异常的反应状态)，这是由于皮质类固醇和肾上腺素分泌增加以及代谢率升高所致。在另一项研究中，Bonnet等[58失眠症患者经历情绪变化和慢性心理激活。以下是一位支持我们发现的失眠症用户的推文样本:“当你意识到最亲近的人是最有害的人时，你会感到很糟糕。”他们还在推特中使用焦虑(例如，担心，害怕，紧张)和悲伤(例如，哭泣，悲伤，悲伤)类别的LIWC词汇。Freeman等[59研究表明，失眠与焦虑、抑郁和担忧有关，这些人可能会使用与死亡有关的词汇(例如，“埋葬”、“棺材”、“杀死”)。Harrison等[60据报道，失眠症患者通常表现出对死亡的恐惧，并对不确定的事情表现出焦虑(例如，“也许”、“也许”、“猜测”)。下面这条推特就是一个例子:“我感觉死了，我恨所有人。”我们的研究还通过分析用户推文中发现的LIWC词汇类别与他们的睡眠模式之间的相关性，进一步证实了这些发现。Hiller等[61研究表明，认知过程(如心理生物抑制模型)在理解和治疗失眠方面起着重要作用。我们得到了一些不能直观解释的相关性，如focuspresent和SemiC。

我们没有发现词的移情类别和用户的睡眠模式之间的相关性。有趣的是，这些类别都没有显示出Empath词类别与用户睡眠习惯之间的显著相关性。Fast等[62[报道]LIWC与Empath词类别相关(r=0.906)。LIWC总共有93个单词类别，分布在Empath总共200个单词类别中。当一个词类别包含更多的单个词时，那么两个特征相关联的几率就会增加，比如LIWC和失眠类标签。相反，当一个类别中的单词数量减少时，例如在“移情”中，那么相关的可能性就会降低。在我们的研究中，我们观察到，尽管LIWC和移情是相关的，但这种相关性在传递的情况下可能不会持续。例如，虽然Empath→LIWC和LIWC→Feature_x都是真的，移情→功能_x在我们的数据集中不存在。

五大人格特征与失眠症行为

我们发现用户的性格和他们的睡眠模式有很强的相关性，高神经质的用户更容易失眠。在身体健康问题上，他们往往会经历抑郁、社会内向、压抑和不宽容。以下是一条支持这一发现的推文样本:“拉尔夫·诺瑟姆他妈的应该辞职了。我对他零容忍。”先前的研究[63也报告了类似的关于神经质和失眠之间关系的观察。对神经质的评估可能有助于早期发现失眠的灾难性情况。我们还观察到，责任心得分高的用户与失眠模式有很强的相关性。下面这条来自我们数据集的推特举例说明了这一发现:“我不能控制别人的行为，但我可以控制我自己和我的反应。”Larsgaard等[64注意到人们的责任心可能与睡眠行为减少有关，这是由于他们的自我抑制和日常活动的一丝不苟。

在我们的研究中，我们还发现了用户的亲和性和失眠之间的相关性，尽管这种相关性很弱。下面一条来自Insomnia Yes用户的推特就是一个例子:“理解那些在社交媒体上说别人坏话的人。听着，琳达，你为什么不像个成年人那样处理这件事呢?”Dekker等[65发现神经质、宜人性和开放性与失眠严重程度指数直接相关。在我们的研究中，我们发现开放性与用户的睡眠模式呈负相关。Tsaousis等[66也证明了开放性和失眠症是负相关的。然而，一些研究[67-70已经证明开放性与睡眠质量无关。

在我们的研究中，外向性与失眠呈负相关。Gray等[69发现用户的外向性和失眠模式之间没有关联。我们对五大特征与失眠之间关系的观察与先前的发现在很大程度上重叠[63-65，67-70这表明，通过社交媒体调查用户的失眠模式可以利用我们的人工努力，而无需直接询问个人的睡眠问题。此外，了解和检查一个人的人格特征可以为容易患上失眠的潜在原因提供线索。

怀孕和失眠行为

根据我们的发现，用户在怀孕期间分享他们的抑郁，在产后分享他们的经历。我们观察到，主要的支持话题是夜晚、痛苦、问题和出生等。我们还发现了一些描述父母产后焦虑的话题。我们从用户的推文中发现的重要话题有出生、乳房、疲劳、痛苦和随机等。以前的研究也支持我们的发现[71，72]。

结论

在本研究中，我们调查了使用者的心理语言和人格特征与失眠之间的关系。我们通过LIWC和BERT语言模型捕获用户推文的词性和语义，并开发了两个基于LIWC特征和BERT词嵌入的失眠预测模型。然后，我们建立了第三个机器学习模型，该模型使用衍生的人格特征来预测推文中的失眠情况。最后，我们将3个独立的模型结合起来，建立了一个严格的集成模型。集成分类器显示出较强的预测潜力(AUC为78.8%)。该分类器是通过使用一种新颖的双加权集成技术构建的，该技术优于独立分类器。我们计划通过整合更多来自社交网络的数据来改进我们的分类器，比如朋友列表、推文时间、性别、工作场所、活动时间等。我们还计划分析不同语言的推文。

利益冲突

没有宣布。

刘建军，刘建军，刘建军，等。失眠的诊断与治疗。医学圆桌会议普通医学版2012:66-74 [j]免费全文]
失眠:定义、流行、病因和后果。中华临床睡眠医学杂志2007年8月15日;3(5增刊):7-10 [J]免费全文］［Medline]
布劳尔KJ。酒精对酗酒者睡眠的影响。酒精与健康;2001;25(2):110-125 [j]免费全文］［Medline]
社会媒体与健康:对初级卫生保健提供者的影响。埃塞克斯大学研究库。:经济社会学和创新研究中心;2010.URL:http://repository.essex.ac.uk/3453[2020-10-13]访问
社交媒体与医院:从潮流到必要。见:Futurescan 2001: 2011-2016年医疗保健趋势和影响。芝加哥，伊利诺斯州，美国:保健战略和市场发展学会;2011:43-48。
王晓明，王晓明，王晓明，等。网络健康用户营养和体育活动的社会认知影响因素:社会支持、自我效能感、结果预期和自我调节的影响。[J]医学互联网研究，2011;17;13(1):e28 [J]免费全文］［CrossRef］［Medline]
刘建军，李建军，李建军，等。基于网络邮件列表的癌症幸存者支持机制研究。[J]医学互联网研究，2007;9(2):e12 [J]免费全文］［CrossRef］［Medline]
Pierre-Hadrien A, Anbang X, Neil B, Jalal M, Rama A, Vibha S. 25条推文认识你:一个用社交媒体预测个性的新模型。2017年出席:第11届AAAI网络与社交媒体国际会议(ICWSM-17);2017年5月15日至17日;加拿大蒙特利尔，QC, p. 5513https://www.icwsm.org/2017
苏J，康纳L，劳拉D，安德鲁G，肖恩L。“我睡不着”:在推特上讨论#失眠#。: ACM;2012年在SIGCHI计算机系统人为因素会议上发表;2012年5月5-12日;纽约，纽约，美国。［CrossRef]
你就是你的推特:为公共卫生分析推特。2011年发表于:第五届国际AAAI博客和社交媒体会议;2011年7月5日;巴塞罗那，加泰罗尼亚，西班牙265-272页。
苏立文，施耐德AG，陈C, Kitto E, Lee H, Redhead J，等。“发生了什么?”对Twitter上脑震荡相关流量的内容分析。中华体育杂志，2012,31(4):563 - 563。［CrossRef］［Medline]
斯坎菲尔德D，斯坎菲尔德V，拉尔森EL。通过社会网络传播卫生信息:推特和抗生素。[J]中华传染病杂志，2010;38(3):182-188 [J]免费全文］［CrossRef］［Medline]
van de Laar M, Verbeek I, Pevernagie D, Aldenkamp A, Overeem S.人格特质在失眠中的作用。睡眠医学杂志，2010,14(1):61-68。［CrossRef］［Medline]
刘建军，刘建军，刘建军，等。慢性失眠症患者的人格特征分析。人格与个体差异1995;18(3):393-403。［CrossRef]
慢性失眠症患者的人格测量与诱发反应。[J]中华精神病学杂志;2004;31(3):379 - 379。［CrossRef］［Medline]
Pruthi S.失眠。梅奥医学教育与研究基金会。2016年10月https://www.mayoclinic.org/diseases-conditions/insomnia/symptoms-causes/syc-20355167[2020-10-15]访问
陈建军，陈建军，陈建军，陈建军，陈建军，陈建军，陈建军。[J] .生物医学工程学报，2012,32(5):599 - 5103。［CrossRef]
莫林厘米。失眠症:心理评估与管理。美国纽约:吉尔福德出版社;1993.
马茂德，李建军，李建军，等。基于人格特征的同质性识别与验证。社会网络分析与挖掘2016年9月6日;6(1):1-16 [j]免费全文］［CrossRef]
走向人格属性的适当分类:同伴提名人格评定中的复制因素结构。[J]中华精神病学杂志，2003;6(6):574-583。［CrossRef］［Medline]
斯皮尔曼AJ，卡鲁索LS，格洛文斯基PB。失眠症治疗的行为学视角。北美精神病学诊所1987;Dec;10(4):541-553。［CrossRef]
Akram U, Gardani M, Akram A, Allen S.焦虑和抑郁在失眠症状与责任心和情绪稳定性人格特质的关系中起中介作用。太阳物理学报(英文版);5(6):939 [j]免费全文］［CrossRef］［Medline]
李建军，李建军。睡眠障碍、人格与特质情商的关系研究。个性与个体差异2017年3月;107:195-200。［CrossRef]
完美主义是否会增加失眠症认知行为治疗退出的风险?中华临床睡眠医学杂志2018;15;14(3):487-488 [J]免费全文］［CrossRef］［Medline]
Michael JP, Abeed S, John SB, Azadeh N, Matthew S, Karen LS等。利用社交媒体进行公共健康监测和监督。生物运算2016:468 - 479。［CrossRef]
Rice SM, Goodall J, Hetrick SE, Parker AG, Gilbertson T, Amminger GP，等。在线和社交网络干预治疗青少年抑郁症:系统综述。医学互联网研究，2014年9月16日;16(9):e206 [J]免费全文］［CrossRef］［Medline]
社交媒体挖掘了解公众心理健康。2017年发表于:VLDB医学和医疗保健数据管理和分析研讨会;2017年9月1日;慕尼黑，德国https://link.springer.com/chapter/10.1007%2F978-3-319-67186-4_6［CrossRef]
mcciver DJ, Hawkins JB, Chunara R, Chatterjee AK, Bhandari A, Fitzgerald TP，等。用Twitter描述睡眠问题。医学互联网研究2015年06月08日;17(6):e140 [J]免费全文］［CrossRef］［Medline]
苏亚雷斯D，阿拉克O，伊格莱西亚斯CA。西班牙人的睡眠质量如何?基于twitter挖掘的睡眠障碍分析。2018年出席:第五届社交网络分析、管理与安全国际会议(SNAMS);2018年10月15日;瓦伦西亚，西班牙，第11-18页。［CrossRef]
Fast E. Ejhfast/共情-客户端:用共情分析文本。移情:理解大规模文本中的主题信号。: GitHub;2016.URL:https://github.com/Ejhfast/empath-client[2020-11-20]访问
Pennebaker JW, Francis ME, Booth RJ。语言探究与字数统计:LIWC。美国新泽西州莫瓦:Lawrence Erlbaum Associates;2001.
Devlin J, Chang MW, Lee K, Toutanova K. Bert:基于深度双向变换的语言理解预训练。2019年在:计算语言学协会北美分会;2019年6月2日至7日;明尼阿波利斯，明尼苏达州，美国https://aclanthology.org/N19-1423
推特高级搜索。Twitter。URL:https://twitter.com/search-advanced[2020-07-20]访问
李建军，李建军，李建军，等。基于核函数的判别分析。1999年发表于:1999年IEEE信号处理学会研讨会。No.98TH8468);1999年8月25日;美国威斯康辛州麦迪逊市，第41-48页。［CrossRef]
牛津大学出版社的排字和阅读者规则。英国牛津:牛津大学出版社;4月1928:533 - 533。
Back MD, Stopfer JM, Vazire S, Gaddis S, Schmukle SC, Egloff B，等。Facebook的个人资料反映的是真实的个性，而不是自我理想化。心理科学2010;21(3):372-374。［CrossRef］［Medline]
科辛斯基M，斯蒂尔威尔D, Graepel T.私人特征和属性可以从人类行为的数字记录中预测出来。中国科学d辑，2013;04;110(15):5802-5805 [j]免费全文］［CrossRef］［Medline]
demoji。Python包索引。URL:https://pypi.org/project/demoji[2020-10-27]访问
brobrook EM, Kern ML, Fulcher BD, Rickard NS。从基于语言的情绪动态预测抑郁:对Facebook和Twitter状态更新的纵向分析。[J]医学互联网研究，2018;08;20(5):e168 [J]免费全文］［CrossRef］［Medline]
J.特征选择。见:机器学习的数据准备，数据清理，特征选择和Python中的数据转换。美国加州旧金山:机器学习精通;2019:110 - 211。
彭尼贝克，刘建军，张建军，等。中国大学生心理测量学研究进展与发展趋势。UT教师/研究员作品。2015。URL:https://repositories.lib.utexas.edu/bitstream/handle/2152/31333/LIWC2015_LanguageManual.pdf[2020-06-25]访问
判别分析结果的解释。OriginLab公司，2016。URL:https://www.originlab.com/doc/Origin-Help/DiscAnalysis-Result[2020-10-13]访问
empath。Python包索引。URL:https://pypi.org/project/empath[2020-12-27]访问
IBM沃森个性洞察服务。IBM Cloud。URL:https://cloud.ibm.com/docs/personality-insights[2021-03-27]访问
刘忠，王勇，Mahmud J, Akkiraju R, Schoudt J，徐安，等。买还是不买?了解人格特质在预测消费者行为中的作用。:施普林格;2016年发表于:第八届国际社会信息学会议;2016年11月11日;Bellevue, WA, USA p. 337-346。［CrossRef]
Mukta MSH, Khan EM, Ali ME, Mahmud J.从社交媒体用户的个性和价值观预测电影类型偏好。2017年出席:第十一届国际AAAI网络与社交媒体会议;2017年5月15日;montracimal, QC, Canada p. 624-627https://ojs.aaai.org/index.php/ICWSM/article/view/14910
CRAN包飞跃。R基金会的综合R档案网络(CRAN)。URL:https://cran.r-project.org/web/packages/leaps/index.html[2020-12-21]访问
李建军，李建军。基于bert网络的句子嵌入。:计算语言学协会;2019年自然语言处理经验方法会议暨第九届国际自然语言处理联合会议(EMNLP-IJCNLP);2019年11月3日至7日;香港邮编:3980-3990［CrossRef]
张建军，张建军，张建军，等。基于卷积神经网络的句子建模方法。:计算语言学协会;2014年发表于:计算语言学协会第52届年会上;2014年6月22日至27日;巴尔的摩，马里兰州，美国第655-665页https://aclanthology.org/P14-1062［CrossRef]
张欣，邹勇，石伟。基于leakyrelu的扩展卷积神经网络环境声分类。2017年出席:第22届数字信号处理(DSP)国际会议;2017年8月23-25日;伦敦,英国。［CrossRef]
李鑫，常丹，田涛，曹军。大余量正则化softmax交叉熵损失。IEEE Access 2019;7:19572-19578。［CrossRef]
李建军，李建军，李建军，等。一种线性回归的凸组合方法。:施普林格;2016年发表于:知识建模与决策中的集成不确定性国际研讨会;2016年11月30日至12月2日;岘港，越南，第469-480页http://www.jaist.ac.jp/IUKM/IUKM2016［CrossRef]
Carrera RN, Elenewski JJ。内爆疗法是治疗失眠的一种方法。j .中国。精神病学杂志1980;36(3):729-734。［CrossRef]
Rojo-Wissar, Wanigatunga AA, Simonsick EM, Terracciano A, Wu MN, Zipunnikov V，等。老年人的性格和失眠症状:巴尔的摩老龄化纵向研究。2021年9月13日;44(9):e。［CrossRef］［Medline]
Bonnet M, Arand D.过度觉醒与失眠。睡眠医学评论1997;12(2):97-108。［CrossRef]
sebrok EM, Kern ML, Rickard NS。社交网站、抑郁和焦虑:系统回顾。中华医学杂志;2016年11月23日;3(4):e50 [j]免费全文］［CrossRef］［Medline]
李建平，吴彦宏，李建平。潜在dirichlet分配。计算机学报(英文版);2003;3:993- 922 [j]免费全文］［CrossRef]
Bonnet MH, Arand DL。咖啡因是急性和慢性失眠的典型。睡眠1992;15(6):526 - 536。［CrossRef]
Freeman D, Stahl D, McManus S, Meltzer H, Brugha T, Wiles N，等。失眠、担忧、焦虑和抑郁是偏执思维发生和持续的预测因子。中华精神病学杂志，2012;47(8):1195-1203。［CrossRef］［Medline]
Harrison GE, Van Haneghan JP。天才和黑夜的阴影:Dabrowski的过度兴奋及其与失眠、死亡焦虑和对未知的恐惧的关系。《资优教育》2011年10月1日;34(4):669-697。［CrossRef]
张建军，张建军，张建军，张建军，等。失眠症与认知过程的关系:对失眠症认知模型的回顾与测量指南。睡眠医学，2015;23:46-53。［CrossRef］［Medline]
Fast E, Chen B, Bernstein MS.移情:理解大规模文本中的主题信号。美国纽约:计算机协会;2016年发表于:2016 CHI计算系统中人因会议;2016年5月7-12日;圣何塞，加州，美国第4647-4657页https://hci.stanford.edu/publications/2016/ethan/empath-chi-2016.pdf［CrossRef]
Taylor DJ, Lichstein KL, Durrence HH。失眠是一个健康风险因素。行为睡眠医学2003;11(4):227-247。［CrossRef]
王晓明，王晓明。人格特质对失眠症状的预测力:一项针对轮班工人的纵向研究。个性与个体差异2017年9月;115:35-42。［CrossRef]
范萨默伦E.失眠与人格——一个网络研究方法。脑科学2017年3月02日;7(3):1-12 [j]免费全文］［CrossRef］［Medline]
周志华。生理偏好与人格特质:一项元分析。[au:] [J] [J]; 2020年12月2日;24(4):356-373。［CrossRef]
王志强，王志强，王志强，Križan。人格与睡眠质量的关系研究。心理健康杂志2018;37(3):271-281 [j]免费全文］［CrossRef］［Medline]
DeYoung CG, Hirsh JB, Shane MS, Papademetris X, Rajeevan N, Gray JR.人格神经科学预测测试。大脑结构和五大。心理科学2010;21(6):820-828 [j]免费全文］［CrossRef］［Medline]
人格的一般特征和特殊特征及其与睡眠和学习成绩的关系。[J] .中国科学d辑(英文版);2009;31(2):397 - 396。［CrossRef］［Medline]
杰克逊洛杉矶，杰拉德地检。日常类型，“五大”人格因素和其他个人特征。心理学报;2009;11(2):344。
De Chaudhury M, Counts S, Horvitz E.通过社交媒体预测产后情绪和行为的变化。2013年在SIGCHI计算机系统人为因素会议上发表演讲;2013年4月27日至5月3日;巴黎,法国。［CrossRef]
De Choudhury M, Counts S, Horvitz EJ, Hoff A.产后抑郁症的特征与预测。: ACM;发表于:第17届ACM计算机支持的协同工作与社会计算会议;2014年2月15日至19日;巴尔的摩，马里兰州，美国第626-638页https://dl.acm.org/doi/10.1145/2531602.2531675［CrossRef]

‎

API:应用程序编程接口

AUC:曲线下面积

伯特:来自变压器的双向编码器表示

有线电视新闻网:卷积神经网络

LDA:潜在狄利克雷分配

LIWC:语言探究与字数统计

ReLU:线性整流函数

RMSE:均方根误差

编辑:R库卡夫卡，G艾森巴赫;提交30.01.21;由m.m Antoniou, PH . Makkonen同行评审;对作者的评论17.03.21;收到修订版本12.05.21;接受05.10.21;发表09.12.21

©Ahmed Shahriar Sakib, Md Saddam Hossain Mukta, Fariha Rowshan Huda, A K M Najmul Islam, Tohedul Islam, Mohammed Eunus Ali。原发表于医学互联网研究杂志(//www.mybigtv.com)， 2021年12月9日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

从社交媒体帖子中识别失眠:用户推文的心理语言学分析