JMIR医学信息学-在电子健康记录中使用通用情感词汇进行自杀风险评估:基于语料库的分析

原始论文

¹精神病学、心理学和神经科学研究所，伦敦国王学院，英国伦敦

²南伦敦和莫兹利NHS基金会信托，伦敦，英国

通讯作者:

安德鲁·比塔尔博士

精神病学、心理学和神经科学研究所

伦敦大学国王学院

德克雷斯比尼公园16号

伦敦，se58af

联合王国

电话:44 (0)20 3228 8553

电子邮件:andre.bittar@kcl.ac.uk

背景:自杀是一个严重的公共卫生问题，占全球死亡总数的1.4%。据报道，目前的风险评估工具在预测自杀方面的表现并不比偶然性好多少。研究电子病历(EHRs)动态特征的新方法正在被越来越多地探索。研究的一个途径是使用情绪分析来检查临床医生在报告患者时的主观判断。最近的几项研究使用通用情感分析工具自动识别电子病历中的消极和积极词汇，以测试从文本中提取的情感与特定医疗结果(例如，自杀风险或住院死亡率)之间的相关性。然而，在电子病历语料库中，对通用情感词汇识别的具体词进行分析的研究较少。

摘要目的:本研究旨在定量和定性地评估六个通用情感词汇对电子病历文本语料库的覆盖范围，以确定这些词汇资源适合在自杀风险评估中使用的程度。

方法:本研究的数据是198,451个电子病历文本的语料库，由两个亚语料库组成，这些文本来自一项1:4病例对照研究，比较了自杀未遂(病例，n=2913)和未自杀未遂(对照组，n=14,727)之前的临床记录。我们计算了每个子语料库中的词频分布，以确定案例和控制子语料库的代表性关键词。我们根据加权精度、召回率和F分数，量化了6个词汇相对于代表性关键词列表的相对覆盖率。

结果:6个词汇的查准率(0.53 ~ 0.68)尚可，查全率(0.04 ~ 0.36)很低。自杀相关(案例)子语料库中许多最具代表性的关键词没有被任何词典识别出来。因此，这个用例中这些关键字的情感承载状态是值得怀疑的。

结论:我们的研究结果表明，这6种情绪词汇并不适合用于自杀风险评估。我们提出了一套指导方针，用于创建更合适的词汇资源，以区分与自杀相关的电子病历文本。

中国生物医学工程学报;2011;29 (4):379 - 379

doi: 10.2196/22397

关键字

精神病学；自杀；自杀未遂；风险评估；电子健康记录；情绪分析；自然语言处理；语料库语言学

背景

世界卫生组织报告称，自杀占全球所有死亡人数的1.4%，是全球第18大死亡原因[1]。自杀未遂史是导致自杀的最重要的危险因素，而那些需要住院治疗的人则处于最严重的一端。2]。然而，据报道，目前评估病人企图自杀风险的方法并不比随机方法好多少。3.]。因此，了解住院自杀企图前电子健康记录(EHRs)动态特征的新方法，将这一时期与其他时间的临床叙述区分开来，将具有潜在的临床效用[4]。

电子病历包含结构化的患者数据(例如，年龄、性别和种族)和组成临床叙述的非结构化文本(例如，门诊信函、与患者或护理人员的会议和电话记录以及出院摘要)。非结构化文本在心理健康方面尤为重要，因为记录的大部分关于患者的内容都是在临床医生的面对面评估之后记录的，他们对患者经历和表现的观察和判断不可避免地受到他们自己的训练、经验和隐性偏见的影响，当他们在临床叙述中记录这些时，这些判断具有一定程度的主观性[5]。

文本中主观判断的自动识别和分析被称为情感分析[6，7]。这个过程通常包括将单词分类为表达积极或消极极性，并且在非临床领域已经开发了许多资源来完成这项任务，例如客户评论[8-11]和社交媒体[12-14]。研究工作还集中在分析医疗保健相关文本(如患者反馈表格)中的情绪[15，16]、网上论坛[17]，以及社交网络[18，19]。

最近的工作试图评估情感词汇在临床叙述主观判断分析中的效用。McCoy等[20.]使用通用领域情感分析工具提取单词极性特征，以模拟再入院和死亡的风险。同样的工具后来被用来检验单词极性和自杀企图风险之间的相关性[21]。最近，Weissman等[22]对六种通用领域情绪分析工具进行了全面评估，以预测重症监护患者的住院死亡率风险，跟踪临床记录中情绪的进展情况。他们的结论是，一般领域的情感工具不适合临床文本的处理，需要开发特定领域的资源。这方面的工作正在开始出现。23-25]。

这些研究主要集中在测试自动提取的情感值与特定临床结果之间的相关性。然而，据我们所知，在应用于临床文本时，还没有对通用领域情感分析工具所映射的术语进行仔细检查。

目标

以消极极性和积极极性为重点，我们旨在确定6个通用情感词汇在应用于两组精神卫生服务患者的电子病历文本语料库时的覆盖范围:(1)有自杀未遂并住院的患者(病例)和(2)没有自杀未遂史的患者(对照组)。采用语料库语言学中使用的方法，我们首先试图确定最能代表病例和对照临床叙述的单词。然后，我们旨在通过比较这两组代表性词语来测试每个情感词汇的覆盖范围。我们试图确定这两组代表词在多大程度上包含通用情感词，以及这两组代表词在多大程度上包含通用词汇中未包含的附加情感词。

语言库分析

临床队列

我们使用临床记录交互式搜索(CRIS)数据库研究了来自南伦敦和莫兹利国家卫生服务基金会信托基金的25万多名患者的未确定电子病历，该数据库包含超过350万份文本文档[26]。CRIS已与全国医院住院数据相关联安全的避风港，从而提取医院入院信息。鉴定的CRIS数据库已获得二次分析的伦理批准:Oxford REC，参考号18/SC/0372。在获得CRIS监督委员会事先批准的项目中工作的授权研究人员可根据请求获得访问权限。本研究中提供的数据可以在安全系统防火墙中查看。

我们的数据集来自17,640名患者的电子病历。该研究包括4235例与自杀未遂相关的(病例)入院和16940例与自杀未遂无关的(对照)入院，按照1:4的病例-对照比例进行抽样。病例被定义为任何入院(急性身体或专科精神健康)，其中有自杀企图(由国际疾病分类(ICD-10)中的以下任何代码表示:X6*， X7*， X80-4*， Y1*， Y2*， Y30-4*和Y87*)，入院时间至少持续24小时。从2006年4月1日或之后开始，到2017年3月31日之前或之前结束的招生将被考虑。保留在自杀企图发生日期前30天内至少有一份文件的病例入院记录。我们还删除了带有空文件的录取通知书(扫描文件中的文本在CRIS中并不总是可用)，结果总共有4235份与自杀有关的录取通知书。对照组在给定时间内没有任何指定的ICD-10代码，按性别匹配，在相应病例入院开始日期必须活着，并与同一年龄组匹配(5年年龄组:<16岁，16-19岁，20-24岁至80-84岁和>85岁)。每个对照组在匹配病例自杀未遂日期之前的30天内也至少有一份文件。选择的对照在年龄和性别方面具有病例抽取人群的代表性，比率基于流行病学原则，即进一步增加对照数量，超过每例约4个，几乎没有统计效力[27]。该队列的主要描述性特征在表1。

表1。队列患者和入院水平统计。

观测单位		情况下	控制
患者中,n (%)		2913 (16.51)	14727 (83.49)
	女	1730 (59.39)	8971 (60.92)
	男性	1183 (40.61)	5756 (39.08)
招生,n (%)		4235 (20.00)	16940 (80.00)
	女	2598 (61.35)	10392 (61.35)
	男性	1637 (38.65)	6548 (38.65)
年龄(岁)，平均(SD)		34.4 (15.3)	34.4 (15.4)

EHR语料库

我们的语料库包括临床队列中两个亚组的所有电子病历文本:(1)自杀病例入院和(2)非自杀对照。

我们使用1:4的病例对照研究设计进行招生，这意味着我们预计子语料库之间的文档数量和字数会存在差异。然而，对照文献(n=127,047)仅比病例文献(n=71,404)多77.92%(55,643/71,404)，而不是对随机患者进行1:4抽样时预期的300%差异。以下数据预处理(参考数据准备小节)，案例文档(n=117.4)的平均词汇计数高于对照文档(n=103.9)，因此整体单词(标记)计数比不是1:4，而是约为1:6 .6，而平均唯一单词(类型)计数比约为1.5。语料库的基本描述性统计数据显示在表2。每位患者的文件分布遵循非正态分布，如图多媒体附录1。

表2。电子健康记录语料库描述性统计。

观测单位	情况下	控制	总计
单词标记，n	8385643年	13198250年	21583893年
单词类型，n	109024年	162696年	206866年
Type-token比率^一个, %	1.30	1．23	0.96
文档、n	71404年	127047年	198451年
平均每篇文档字数(SD)	117.4 (219.1)	103.9 (252.7)	108.8 (241.3)

^一个字型-记号比=字型数/字记号数× 100。

数据准备

所有文本均使用自然语言处理(NLP)库spaCy (v2.0.12) [28]，应用以下步骤:单词标记化、词性标注和词素化(使用单词的基本形式)。我们使用自然语言工具包删除了停止词[29停止单词列表的英文和小写的所有单词为我们的分析。所有代码都可以在GitHub上获得[30.]。

识别代表性关键词

为了回答我们关于每个词汇覆盖范围的问题，我们采用了语料库语言学中常用的基于词频分布的方法，详见多媒体附录1(C) (31-34]。我们首先确定关键字最代表每个子语料库(自杀案例录取文本和非自杀对照文本)通过计算子语料库之间的相对词频比。以下是先前语料库语言学研究的建议[31-33]并且考虑到患者之间文件的非正态分布，然后我们应用非参数曼-惠特尼U确定词频差异统计显著性的检验(FreqDiff (w)对于一个给定的词(w)在子语料库之间。我们只保留了大小写和控制子语料库中出现的单词，总共留下了64,854种唯一的标记类型。只出现在一个或另一个子语料库中的词与两个子语料库中都出现的词相比相对较少。例如，最常见的大小写关键字是识别首字母，最高频率为20.2个/百万(wpm)，而最常见的对照关键字是人名，最高频率为34.4个/百万。

情感词汇分析

情绪词汇

我们研究了六种不同的情感词汇，这些词汇是为非临床领域开发的。人们研究了情绪和情感的不同维度，包括情绪、价-觉醒-支配和极性。我们只关注代表最后一个方面的词汇，即消极和积极的情绪极性。除了分配消极和积极极性外，一些情感分析工具还为不传达语义极性的单词分配值(例如，中性词语)。然而，我们只考虑了表达积极和消极情绪的词汇，因为并非本研究中的所有词汇都包含中性词汇。因此，我们过滤掉了任何中性词。此外，为了比较，我们只检查了二元情感值，而不是程度分数，只有一些词典提供。我们选取了以下词汇进行研究:35]， NRC情感词典(通常称为EmoLex) [36]、语言调查及字数统计(LIWC) [37]，意见词典[9]，模式词典[38]和SentiWordNet [39]。这些词汇的不同之处在于它们所包含的形式(单词、引理和正则表达式)。我们应用了每一个按原样与经过适当预处理的语料库(如单词或引理)进行比较，因为它们已在其他研究中使用。中提供了词汇的详细信息，包括预处理和过滤多媒体附录1(B) (9，35-44]。表3总结了这些词汇的一些主要特征，包括过滤掉中性条目之前的大小(原始大小)和之后的大小(过滤后的大小)。

表3。6种情感词汇的特点。

词典	源	自动术语选择	目的域	项类型	原始大小(条目)，n	过滤大小(条目数)，n (%)
AFINN	各种网络词表	没有	微博	单词形式	3478	3478 (100.00)
EmoLex	麦格理同义词词典，通用查询器，WordNet	没有	一般	单词形式	14182年	5555 (39.17)
LIWC^一个	各种各样的字典和辞典	没有	个人故事	单词形式和正则表达式	1371	1371 (100.00)
的意见	产品评论的网络抓取	是的	产品评论	单词形式	6789	6789 (100.00)
模式	WordNet的子集	没有	产品评论	前题+ POS^b	2896	2293 (79.18)
SentiWordNet	WordNet	是的	一般	同义词集前题+ POS	117659年	39746 (33.78)

^一个语言探究与字数统计。

^b词性:词性。

词汇覆盖率

我们用三种不同的方式评估每个词汇的覆盖范围:

覆盖全球:在每个子语料库的(唯一)单词列表中出现的带有情感的词汇条目的百分比。详情载于多媒体附录1(D)。
关键词覆盖率:词汇中包含情感的术语所涵盖的大小写和控制关键词的比例。首先，我们计算了每个词汇在每个子语料库中所识别的关键词的百分比。其次，我们使用了信息检索常用的度量，即加权精度(P_w)，回忆(R_w),F分数(F_w)，我们使用单词排名作为权重，对所有关键字的无序集合中的每个词典进行计算。我们的计算细节，包括公式，载于多媒体附录1(D)一个词典的精度显示了它正确识别的大小写关键字占它所包含的所有关键字的比例。因此，在词典中包含控制关键字会降低精度。相反，recall表示字典从整个case关键字列表中正确识别的case关键字的数量。字典中缺少case关键字会导致在召回时被扣分。FScore提供了前面两个指标的组合，并对词典的关键字覆盖率进行了全面的量化评估。
情绪覆盖:词汇库为每个子语料库的匹配关键字分配的情感极性(积极或消极)。

语言库分析

为每个子语料库生成代表性关键字的步骤(参见语言库分析小节)的结果是一个包含3382个关键字的列表。按频率差递减排序，排名靠前的单词(与FreqDiff>0)为具有代表性的自杀案例子语料库(2360个关键词)。类似地，按升序排序，顶部单词(withFreqDiff<0)代表非自杀控制子语料库(1022个关键词)。表4显示每个子语料库中排名靠前的10个关键词。在这个表中，我们显示了每个词在整个语料库中的排名和频率，case和对照子语料库之间的频率差异，以及该词在整个子语料库中的频率比。我们提供了一个类似的前100个关键字的列表多媒体附录2。

表4。自杀案例和非自杀控制子语料库的排序关键字列表。

自杀案件关键词					非自杀控制关键词
排名	词	频率^一个(每百万字数)	频率差异^b	频率比^c	排名	词	频率(每百万字数)	频率差异	频率比
1	QQQQQ^d	9779.1	3545.7	1.6	1	ZZZZZ^d	35657.1	−3801.4	1.1
2	自我	4278.5	2060.9	1.9	2	精神	3092.5	−1242.5	1.4
3.	伤害	2916.2	1673.4	2.4	3.	先生	1197.9	−1138.1	2.0
4	病房	5554.7	1597.1	1.4	4	任命	1583.5	−1124.5	1.7
5	过量	1717.0	1392.8	5.3	5	药物治疗	3756.5	−1017.4	1.3
6	工作人员	5670.0	1389.4	1.3	6	健康	2282.2	−771.1	1.3
7	自杀	2072.5	1256.2	2.5	7	请	1305.9	−703.6	1.5
8	说	5725.4	1137.7	1.3	8	状态	1640.3	−694.4	1.4
9	酒精	2276.2	1102.4	1.9	9	服务	1190.6	−678.1	1.6
10	急救	1534.1	1089.5	3.5	10	路	729.3	−596.2	1.8

^一个Freq:词频。

^b频差:频率差。

^c频率比:子语料库之间的频率比。

^d由电子健康记录去识别过程创建的屏蔽字符串:QQQQQ用于亲属或密切接触者标识符，ZZZZZ用于患者标识符。

对于自杀案例子语料库，最上面的关键词“QQQQQ”是由CRIS中使用的定制去识别算法创建的患者亲属或密切接触者的匿名姓名的占位符[45]。这可能表明向工作人员报告的亲属或护理人员对患者状况的担忧。其他与自杀企图直接相关的关键词(过量，自杀,急救(事故和紧急情况)。频率比表示过量是除以5乘以和急救在病例子语料库中的频率是对照子语料库的3.5倍以上。其他与住院有关的词(病房和工作人员)及自残(自我和伤害）.

目视检查显示自我和伤害经常在名词短语中同时出现，如自我伤害和自残(它被标记器错误地分割成2个标记)。此外,伤害也会出现在反身代词中，例如，伤害自己，也提到了自残事件。酒精也具有临床相关性，因为慢性酒精使用障碍和急性酒精使用都会增加自杀未遂的风险。

相反，对于控制子语料库，顶部关键字“ZZZZZ”是匿名患者标识符的占位符。这些排名靠前的关键词是更通用的术语，可以在大多数类型的临床记录中找到(例如，精神，健康,状态)，有些则可能来自通信(例如:先生，任命,请）.尽管顶部控制关键字的出现频率明显高于case子语料库中的关键字，但频率差异和比例在全局上没有case关键字那么明显。绝对频率差的中位数(FreqDiff)的值为894.2，而案例的值为1391.1。相应的中位数频率比(FreqRatio)病例为1.90，对照组为1.45。这表明自杀相关文本的关键词比对照子语料库的关键词更能代表案例子语料库。这可能反映了这样一个事实，即病例有一个明显的统一特征，即被纳入住院自杀企图，而对照入院则是来自任何时期，只要他们没有自杀企图。值得注意的是，我们没有对与这些关键词相关的情绪做出任何假设。

情感词汇分析

我们首先评估了情感词汇的全球覆盖范围(参见多媒体附录1(E)详情)。全球覆盖率的数字汇总于表5。

表5所示。在case和control子语料库和整个语料库中，每个词汇的术语类型和标记计数。控制词的百分比显示为(原始/调整)。图按字典(过滤后的)大小降序排列。

词典	过滤后的大小	词的类型			字标记
		Case, n (%)	对照，n (%)	整个语料库，n (%)	Case, n (%)	对照，n (%)	整个语料库，n (%)
SentiWordNet	39746年	9843 (9.02)	12429 (7.64/5.12)	13373 (6.46)	4234058 (50.49)	8603932 (65.19/41.42)	12837990 (59.48)
的意见	6789	3111 (2.85)	3662 (2.25/1.51)	3821 (1.85)	979804 (11.68)	1959007 (14.84/9.43)	2938811 (13.62)
EmoLex	5555	3733 (3.42)	4260 (2.62/1.75)	4426 (2.14)	1456097 (17.36)	2869472 (21.74/13.81)	4325569 (20.04)
AFINN	3478	2529 (2.32)	2781 (1.71/1.15)	2845 (1.37)	1274283 (15.20)	2532261 (19.19/12.19)	3806544 (17.64)
模式	2293	1101 (1.01)	1243 (0.76/0.51)	1296 (0.63)	910369 (10.86)	1957386 (14.83/9.42)	2867755 (13.29)
LIWC^一个	1371	3708 (3.40)	5824 (3.58/2.40)	6269 (3.03)	620546 (7.40)	1830216 (13.87/8.81)	2450762 (11.35)

^一个语言探究与字数统计。

SentiWordNet是迄今为止最大的词典，覆盖了整个语料库中约60%的所有标记(6.46%的类型)。该模式在子语料库和整个语料库中的词型覆盖率最低(0.63%)。尽管LIWC的词汇条目最少(1371个)，但它使用了捕获多个单词形式的正则表达式，这意味着它映射了更多单独的单词类型(但是标记的覆盖率最低，在整个语料库中为11.35%)。尽管EmoLex和AFINN的条目分别比Opinion少了大约1200和3300个，但它们在更大的词典中都具有更高的单词标记覆盖率。EmoLex对令牌类型的覆盖率也略高。这可能是这些词汇的构造方式和来源的结果。我们将在讨论部分。

除LIWC外，所有词典在case子语料库中的词类型覆盖率都高于控制子语料库。在考虑调整后的单词标记的百分比时，也观察到同样的趋势。这表明，普遍存在更多的问题情绪(如这些词典中定义的那样)在case子语料库中表达，而不是在控制子语料库中表达，假设每个子语料库中有相同数量的单词。但是，如果不调整子语料库之间的词频差异，则所有词汇的趋势都相反。

这种覆盖范围的概念没有考虑到所讨论的词语的代表性。为了捕捉这一关键特征，我们检查了包含每个词典的每个子语料库(关键词覆盖率;参考语言库分析分段和多媒体附录1[D])。关键词的总体比例覆盖率如图所示表6。

表6所示。出现在每个情感词典中的Case和control关键字，按词典(过滤)大小降序排列。案例子语料库的关键字总数为2360个，控制子语料库的关键字总数为1022个。

词典	过滤后的大小	Case, n (%)	对照，n (%)
SentiWordNet	39746年	604 (25.6)	231 (22.6)
的意见	6789	192 (8.1)	60 (5)
EmoLex	5555	277 (11.7)	117 (11.4)
AFINN	3478	238 (10.1)	74 (7)
模式	2293	115 (4.9)	39 (3)
LIWC^一个	1371	181 (7.7)	48 (4)

^一个语言探究与字数统计。

与全球覆盖率一样，关键字覆盖率与词典大小相关，但LIWC是例外。同样，当只检查每个子语料库中最具代表性的单词时，Opinion(第二大资源)的覆盖率远远低于EmoLex和AFINN，后者的规模较小，后者的条目中关键词数量仅为前者的一半。

从信息检索的角度对词典进行评价，揭示了每个词典在纳入大小写关键词和排除对照关键词之间取得平衡的程度，说明了识别词的代表性。如图所示表7，各词典均提供合理的加权精度(0.53-0.72)。然而，加权召回率和加权f分在不同词汇之间差异很大，非常低(0.04-0.36)。

表7所示。每个词汇的加权指标按加权F分数降序排列。

词典	加权精度	加权回忆	加权F分数
SentiWordNet	0.68	0.36	0.47
EmoLex	0.68	0.18	0.29
AFINN	0.72	0.15	0.25
的意见	0.68	0.11	0.18
LIWC^一个	0.69	0.10	0.17
模式	0.53	0.04	0.07

^一个语言探究与字数统计。

这些结果表明，在我们测试的所有词汇中，SentiWordNet在两个子语料库的关键词准确度和召回率之间提供了最好的平衡。由于它的尺寸，它获得了最高的召回率。这表明它比其他词汇资源包含更多排名最高的大小写关键字。它还达到了与其他词典相当的精度，这表明它识别的单词通常是来自自杀相关案例子语料库的高级关键词。模式词典在加权精度和查全率方面取得的结果明显低于所有其他词典，尽管它比其中一些词典更大。这表明其包含的情绪术语具有某种不同的性质，并且不能为区分代表性案例关键字和控制关键字提供明确的信号。

总的来说，作为区分自杀相关与非自杀相关的临床笔记的工具，这项评估，特别是召回数据，表明两个子语料库中最具代表性的关键词都不是所有这些词汇所定义的情感，这表明有必要进一步分析具有代表性的子语料库关键词，以更好地了解其特征。

最后，我们检查了每个子语料库(情感覆盖)中排名最高的代表性关键词之间的情感分布。图1显示每个词典包含的大小写和控制子语料库的前100个关键字的排名。除了绘制每个词典中单词的等级，我们还通过颜色和形状编码来指示与每个词汇相关的极性。

在情感覆盖方面，AFINN、EmoLex、LIWC和Opinion标志着大写关键词和控制关键词之间的明显区别。这些词汇将负面情绪分配给高级大小写关键字(例如，伤害(排名第三)风险[11],杀了[52],疼痛[78])和正面情绪对顶控关键词(如:请(七),平静[40]愉快的[49])，对某些高级控制关键词(例如，咄咄逼人的[61],疾病[63]焦虑[83])。

Pattern词典中只出现了2个高级关键词:它们是安全[51]，这是唯一一个在所有7个词典中都能找到的前100个单词过去的[68]，它只出现在Pattern中，并被归因于负极性(进一步讨论在讨论部分)。平静(40)和愉快的[49]是唯一在所有6个词典中一致发现的前100个关键字，并且除了SentiWordNet之外，这些关键字都被归为正极性。这种意想不到的情感分配(形容词)平静在SentiWordNet上的得分很低，而焦虑，边缘，切割,关注是积极的)强调了研究现成工具中的潜在假设以及在将它们应用于新用例时它们的潜在含义的重要性。

对于SentiWordNet来说，顶级关键词的情绪是混合的，在两个子语料库中，积极情绪关键词的比例更高，尽管它为对照分配了更多的消极情绪，并为更高比例的高排名关键词分配了更多的消极情绪。这表明，尽管具有较大的词汇覆盖率，但该词典的情感覆盖率可能不够一致，无法可靠地区分两个人群。

值得注意的是，case子语料库的前100个关键字中有51个没有被任何词典识别。这些措施包括自我，工作人员，说，酒精，和急救，均在前10名(表4)，以及进一步与临床高度相关(尽管不一定带有感情色彩)的词语，如对乙酰氨基酚(排名第25位，FreqDiff=524.6, FreqRatio=4.5)，简称od(在精神病学中用来表示两者中的任何一种)过量或有人死了[一天一次]在药物方面;排名第29位，FreqDiff=498.2, FreqRatio=2.2)，救护车(排名第57,FreqDiff=340.9, FreqRatio=3.3)，复数形式过量(排名第68位，FreqDiff=314.0, FreqRatio=7.6)和首字母缩略词近年来(故意自残;第83位，FreqDiff=275.1, FreqRatio=3.4)。这些词的频率比表明，它们在自杀相关案例笔记中的频率比在对照语料库中的频率高出许多倍。在整个case关键字列表中，只有33.35%(787/2360)被至少一个词汇赋予了情感值。此外，前100个控制关键词中有51个也没有出现在所有词典中，其中许多与通信有关(例如，先生，任命,传真）.我们请读者参考多媒体附录2欲知详情。

自杀风险评估词典开发的意义

从我们的语料库中提取的代表性关键词列表表明，在NLP领域中普遍采用的情感概念并不是识别自杀患者案例笔记中典型术语的最合适的语义类别。在测试的情感词汇中，许多这些术语并没有明显的消极或积极的极性。

我们的分析还表明，在应用于新用例时，需要进一步分析这些工具对情感极性的分配。

此外，我们确定的许多与自杀有关的案例笔记的代表性关键词是中性关于情绪，这是意料之中的，我们研究中提取的代表性案例关键词表明它们与对照关键词不同，但并非所有这些术语都必然带有情绪。

我们的研究结果表明，使用经过验证的词汇资源(如字典或同义词典)(如EmoLex)构建的情感词典，比在大型开放域文本语料库(如通过网络爬行构建的Opinion)上使用半自动过程获得的情感词典具有更高的组合精度和召回结果。

构建自杀风险评估情绪词汇指南

根据Deng等人的研究[24]，一般领域词汇资源不适合临床领域的一个解决方案是定义用于临床文本分析的情感概念，在目前的情况下，是心理健康(指南1)。这可以允许对在通用词汇资源中不具有特征的术语分配极性。在自杀风险评估的情况下，这可能包括负极性分配的术语，如急救，过量，酒精，近年来,计划，它们没有被我们测试的词汇赋予极性值。

根据我们的研究结果，建立自杀风险评估词典的建议策略可能是使用语料库词频作为词汇资源中词汇的包含指南，这些词汇资源将与情绪保持不可知论(指南2)，而不是将术语标记为触发或风险因素这样的策略可以避免将情绪分配给单词的问题，尽管这些单词高度代表了与自杀相关的文本，但没有明显的情绪价值。这也将避免需要分配极性的术语，可能是模棱两可的情绪表达，是积极的或消极的取决于上下文(例如，低(情感)和低[风险])，尽管更普遍的多义问题仍然存在。

对于临床相关术语，专门的精神病学词典或卫生保健术语可能有助于为自杀风险评估创建有针对性的词汇资源(指南4)。例如，某些自杀风险因素(例如，以前的自杀企图、抑郁和药物滥用)和保护因素(例如，有效的临床护理、家庭和社区支持)已经是众所周知的临床特征。因此，这些概念和相关术语应该反映在任何旨在确定临床记录中自杀风险增加时期的词典中。必须牢记的一个警告是，许多专业临床术语中包含的术语并没有由临床医生写在电子病历中[46]，这意味着术语选择应该由对典型目标语料库有一般认识的领域专家来进行。

从大型语料库中提取术语的自动化方法在NLP领域已经变得很常见，包括情感词汇的创建[47-49]。这些技术提供了一种方法来增加相关术语的覆盖范围，尽管最好实现一些机制来确保相关性标准得到遵守。结合特定于领域的基于语料库的术语概念代表性自动词汇归纳程序[50]是一种精炼术语选择的方法，过滤掉被认为不具有代表性的术语(指南5)。此外，在可行的情况下，由领域专家(指南6)进行手动验证，将进一步确保提取术语的精度，也可用于分配额外的语义类别，如情感。

指引摘要如下:

为临床领域定义情感的概念
使用语料库的词频作为词汇收录的指南
标签条款如下风险因素或触发而不是感情用事
使用专业词典和/或医疗保健术语作为来源
将基于特定领域语料库的代表性概念整合到自动词汇归纳技术中
由领域专家手工验证

总结与限制

使用语料库语言学的方法检查我们的数据显示，在入院前的EHR笔记中使用的关键词与控制期间没有自杀企图的关键词之间存在统计学上的显著差异。主题包括住院自杀企图、自残和酗酒。我们审查的通用情感词典对这些关键词的覆盖范围各不相同。虽然词典规模是整体覆盖的决定性因素，但最大的资源SentiWordNet在考虑关键词排名和情感时，并没有区分这两个子语料库以及一些较小的资源，即AFINN, EmoLex和Opinion。同样，EmoLex和AFINN的相关关键词覆盖面也比Opinion大，Opinion是3个资源中覆盖面最大的。这在一定程度上可能是用于选择单词来构建情感词典的原始采样策略的结果。EmoLex和AFINN都是建立在现有的通用词典之上的，而Opinion则是通过在互联网上抓取产品评论而半自动创建的。因此，后者的词汇表可能更特定于该领域，而前两个词汇表的术语可能更通用，这意味着它们可能更适合不同的领域。同样的3个词汇在格词和对照词之间的情感极性分配也表现出最具区别性。尽管这些资源中包含的许多术语可以说传达了适当的情感价值(例如，焦虑是负的愉快的是积极的)，但也有某些术语，这一点不那么明显，至少在与自杀风险相关的电子病历文本中是这样。例如,病房被SentiWordNet分配为负面情绪，而的想法被赋予积极的情绪。这个词计划被EmoLex赋予积极情绪，而调用是负的。以非上下文方式注释单词极性，特别是没有适当的词性消歧(我们测试的资源中只有2个包含词性信息的条目)，可能会导致新用例的下游建模中的偏差分析。临床文本的目的是写在一个客观的风格，而不是缺乏一般术语情绪尽管在现实中情况并非总是如此。通过我们的方法确定的许多高度相关的术语(例如，急救，过量,酒精)不属于通常可能被称为情绪的类别，而是属于风险因素的类别，而其他已确定的术语则更多地反映情绪。

这些观察结果使我们同意先前研究的结论。21-24需要为临床文献的分析开发特定领域的资源。我们试图通过对临床记录的分析来深入了解为什么会出现这种情况，以及这些资源可能需要包括哪些信息来解决自杀风险评估的任务。

我们的研究有一些局限性。首先，语料库不是根据刻意的抽样策略构建的，而是1:4的病例-对照选择比的结果，这在流行病学中是典型的。自杀未遂和自杀未遂比我们的样本显示的要少得多。此外，文件没有按类型抽样。这可能导致了控制语料库中字母的优势，正如最常见的关键字所表明的那样。在病例和对照亚体之间，患者之间的文件分布也不同。平均而言，病例的文件数量几乎是对照文件数量的3倍，这反映出与精神卫生服务机构的接触更加频繁。因此，生成的语料库不一定符合语料库语言学中普遍推荐的代表性和平衡性标准。

我们也承认，为了比较，我们对情感值的标准化并不一定反映所有词汇分配的情感的实际数量，并邀请读者参考以前的研究生情绪得分比较[20.-22]。同样值得注意的是，之前的研究表明，情绪，比如在社交媒体帖子中表达的快乐，可能会因人口统计、地理位置而异[51，52]，在一个地区的移动和居住状态[53]。虽然我们的工作重点是临床文本而不是社交媒体，但这些因素可能影响了我们的结果;然而，我们并没有对此进行控制。这代表了一个关于我们的结果在其他地理区域具有潜在不同社会人口结构的临床人群的普遍性的警告。

最后，我们只检查两个子语料库共有的关键字。因此，某些仅出现在案例子语料库中的自杀案例笔记的典型关键词可能会被遗漏，尽管我们确实发现仅出现在一个子语料库中的关键词与我们所检查的相比相对较少。

结论

这项工作为自杀风险评估中的情绪研究做出了一些贡献。

首先，我们的临床记录语料库是从自杀和非自杀住院的病例对照研究中提取的，据我们所知，这是电子病历在这一领域的新应用。

其次，运用语料库语言学的方法，我们确定了2个关键词列表:第一个是导致住院自杀企图的患者的临床记录的代表，第二个是那些没有自杀企图的患者的代表。我们使用这些关键字列表来衡量语料库中6个情感词汇的覆盖范围，使用了许多措施，包括信息检索指标，我们根据评估的目的进行了调整。我们的研究对这些词汇的内容及其与情绪分析相关的含义进行了新颖的检查，并对电子病历文本中区分自杀风险病例和对照的术语特征有了更深入的了解。此外，我们发现这些通用域资源分配的极性值有时没有临床意义或与临床判断一致。

最后，基于我们的研究结果，我们提出了一套简单明了的指导方针，为那些试图通过分析临床记录来评估自杀风险的人提供更有用的词汇资源。通过为基于规则的分类系统和机器学习分类系统提供判别特征，这样的目标词典有可能推进使用电子病历研究临床人群自杀风险的研究。

致谢

作者希望感谢jeffrey Lijffijt和Paul Rayson在语料库语言学方面的建议，并感谢James Pennebaker允许使用LIWC词典。任何错误都是作者自己的。RD由健康基金会与医学科学院合作的临床科学家奖学金(项目e-HOST-IT)资助，医学科学院也资助AB。这项工作也得到了英国健康数据研究的部分支持，这是由英国研究与创新、卫生和社会保障部(英格兰)、地方政府、领先的医学研究慈善机构和莫兹利慈善机构资助的一项倡议。本文代表了由南伦敦国家卫生研究所(NIHR)生物医学研究中心、莫兹利NHS基金会信托基金和伦敦国王学院部分资助的独立研究(AR、RD、SV和AB)。本文仅代表作者的观点，不一定代表NHS、NIHR或卫生与社会保障部的观点。资助者在研究设计、数据收集和分析、发表决定或手稿准备中没有任何作用。

作者的贡献

AB将数据管理、形式分析、调查、方法、软件和撰写原始草案的准备概念化。SV对方法、写作审查和编辑进行了概念化。构思并参与撰写评论和编辑。RD概念化了形式分析、资金获取、监督、写作原稿准备、写作审查和编辑。

利益冲突

研发部和SV申报以前从杨森获得的研究经费。

‎

多媒体附录1

数据和分析的技术细节。

DOCX文件，102 KB

‎

多媒体附录2

每个词典的前100个案例和控制关键词以及相关的极性。

XLSX文件(Microsoft Excel文件)，31kb

自杀数据。世界卫生组织，2016。URL:http://www.who.int/mental_health/prevention/suicide/suicideprevent/en/[2019-04-16]访问
Bostwick JM, Pabbati C, Geske JR, McKean AJ。自杀企图是自杀的危险因素:比我们所知道的更致命。中华精神病学杂志[J]; 2011; 33 (11): 391 - 391 [J]免费全文] [CrossRef] [Medline]
Franklin JC, Ribeiro JD, Fox KR, Bentley KH, Kleiman EM, Huang X，等。自杀想法和行为的危险因素:50年研究的荟萃分析。心理学报，2017年2月;143(2):187-232。［CrossRef] [Medline]
Velupillai S, Hadlaczky G, Baca-Garcia E, Gorrell GM, Werbeloff N, Nguyen D，等。预测和预防自杀行为的风险评估工具和数据驱动方法。前沿精神病学2019年2月13日;10:36 [免费全文] [CrossRef] [Medline]
J.主体性与严重精神障碍。精神分裂症学报，2011;01;37(1):8-13 [j]免费全文] [CrossRef] [Medline]
彭斌，李林。观点挖掘与情感分析。中文信息学报(英文版);2008;32(1):1- 6。［CrossRef]
刘斌。情感分析:观点、情绪和情感的挖掘。英国剑桥:剑桥大学出版社;2015.
特尼PD。赞成还是反对?:语义取向应用于评论的无监督分类。第40届计算语言学协会年会论文集- acl02。:计算语言学协会第40届年会论文集- acl02。计算语言学协会;2001年发表于第40届计算语言学学会年会(acl02);2002年7月;费城，宾夕法尼亚州，美国第417-424页。［CrossRef]
胡敏，刘波。客户评论的挖掘与总结。参见:第十届ACM SIGKDD知识发现与数据挖掘国际会议论文集。美国纽约:计算机协会;2004年在第十届ACM SIGKDD知识发现与数据挖掘国际会议上发表;2004年8月;西雅图，WA, USA第168-177页https://doi.org/10.1145/1014052.1014073［CrossRef]
刘建军，刘建军。基于情感汇总的服务评价系统。见:《信息爆炸时代的NLP论文集》(NLPIX 2008)。2008年出席:信息爆炸时代的NLP (NLPIX 2008);2008年4月;中国北京https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/34368.pdf
吴杰。基于情感树库的语义组合性递归深度模型。:计算语言学协会;2013年发表于:自然语言处理经验方法会议。在线出版?1642;2013;西雅图，WA, USA p. 1631-1642。
李建平，李建平。基于微博的情感分析与观点挖掘。参见:LREC 2010。卢森堡:欧洲语言资源协会;2010年在语言资源与评价会议(LREC 2010)上发表;2010年5月;瓦莱塔，马耳他，1320-1326页。
刘建军，谢波，刘建军，刘建军。微博数据的情感分析。见:社会媒体语言研讨会论文集。Stroudsburg, PA, USA:计算语言学协会;2011年发表于:社交媒体语言研讨会(LSM'11);2011年6月;波特兰，俄勒冈州，美国第30-38页。
Dini L, Bittar A. Twitter上的情感分析:隐藏的挑战。见:2016年LREC会议录。卢森堡:欧洲语言资源协会;2016年发表于:语言资源与评估会议(LREC 2016);2016年5月;冰岛雷克雅未克，第3953-3958页。
李建平，李建平。监督情感分析在临床领域的跨语篇发展。斯特劳兹堡，宾夕法尼亚州，美国:第三届主观性和情感分析计算方法研讨会论文集。计算语言学协会;2012年发表于:第三届主观性和情感分析计算方法研讨会;2012年7月;济州，韩国，第79-83页。
夏超，赵东，王军，刘军，马军。2018:基于LSTM的电子调查工具患者体验叙事情感分析。编辑:陈华，方强，曾丹，吴杰。ICSH 2018论文集。柏林/海德堡，德国:施普林格国际出版公司;2018:231 - 239。
Greaves F, Ramirez-Cano D, Millett C, Darzi A, Donaldson L.利用情感分析从网上发布的自由文本评论中获取患者体验。医学互联网研究;2013;15(11):e239 [j]免费全文] [CrossRef] [Medline]
王欣，张超，季艳，孙玲，吴玲，包志安。基于微博社交网络情感分析的抑郁检测模型。编辑:李俊，曹林，王超，谭克春，刘斌，裴杰，等。知识发现与数据挖掘的趋势与应用。柏林/海德堡，德国:斯普林格;2013:201 - 213。
陶霞，周霞，张军，勇俊。基于情感分析的社交网络抑郁检测。王:李,李X,年代,李J,盛求出编辑。高级数据挖掘与应用。柏林/海德堡，德国:施普林格国际出版公司;2016:807 - 810。
McCoy TH, Castro VM, Cagan A, Roberson AM, Kohane IS, Perlis RH。出院记录中测量的情绪与再入院和死亡风险相关:一项电子健康记录研究科学通报，2015;10(8):e0136341。［CrossRef]
McCoy TH, Castro VM, Roberson AM, Snapper LA, Perlis RH。利用自然语言处理改进综合医院出院后自杀和意外死亡预测。中华医学会精神病学杂志2016年10月1日;73(10):1064-1071。［CrossRef] [Medline]
Weissman GE, Ungar LH, Harhay MO, courright KR, Halpern SD。构建六种情感分析方法在危重病人病历文本中的效度。[J]中国生物医学工程学报，2019,29 (1):391 - 391 [J]免费全文] [CrossRef] [Medline]
邓玉华，张建军，张建军。基于临床叙事的情绪分析。医学信息检索(MedIR)研讨会论文集。美国纽约州纽约:计算机协会;2014年7月11日在第37届国际ACM SIGIR信息检索研究与发展会议上发表;2014年7月;黄金海岸，澳大利亚第12-15页。
邓勇，李建军，李建军。临床情感分析语料库的生成。In: Sack H, Rizzo G, Steinmetz N, mladeniki D, Auer S, Lange C，编辑。计算机科学课堂讲稿。瑞士Cham: Springer International Publishing;2016:311 - 324。
张晓明，张晓明，张晓明，等。心理健康档案中心理领域适应的研究进展。摘自:第二届临床自然语言处理研讨会论文集。斯特劳兹堡，宾夕法尼亚州，美国:计算语言学协会;2019年发表于:第二届临床自然语言处理研讨会;2019年6月;明尼阿波利斯，明尼苏达州，美国第117-123页。［CrossRef]
刘建军，刘建军，刘建军，等。南伦敦和莫兹利NHS基金会信托生物医学研究中心(SLaM BRC)病例登记:电子心理健康记录衍生数据资源的现状和近期增强。BMJ Open 2016 3月1日;6(3):e008721 [j]免费全文] [CrossRef] [Medline]
Grimes DA, Schulz KF。和什么相比?寻找病例对照研究的对照。柳叶刀2005年4月;365(9468):1429-1433。［CrossRef]
·工业强度的Python自然语言处理。URL:https://spacy.io/[2020-07-07]访问
李建军，李建军，李建军，等。基于自然语言工具箱的多学科教学。参见:第三届计算语言学教学问题研讨会论文集(TeachCL'08)。Stroudsburg, PA, USA:计算语言学协会;2008年发表于:第三届计算语言学教学问题研讨会(TeachCL'08);2008年6月;哥伦布，俄亥俄州，美国，第62-70页。［CrossRef]
KCL-Health-NLP / Suicide-Risk-Sentiment。URL:https://github.com/KCL-Health-NLP/suicide-risk-sentiment[2020-11-09]访问
Kilgarriff A.比较语料库。[j]中华医学杂志2001;6(1):97-133。［CrossRef]
杨建军。学术写作中的特色词汇:关键词提取的三种统计检验的比较。见:Jucker AH, Schreier D, Hundt M，编辑。语用学与语篇学。荷兰莱顿:布里尔;2009.
Lijffijt J, Nevalainen T, Säily T, Papapetrou P, Puolamäki K, Mannila H.语料库词频显著性检验。数字人文奖学金2014 Dec 8;31(2):374-397。［CrossRef]
语料库中的色散和调整频率。IJCL 2008; 13(4): 403 - 437。［CrossRef]
尼尔森。微博情感分析的词表评价。: arXiv;2011.URL:http://arxiv.org/abs/1103.2903[2019-02-25]访问
张建平，张建平。基于众包的词-情感关联词典研究。计算机智能;2013;29(3):436-465。［CrossRef]
Tausczik YR, Pennebaker JW。词的心理意义:LIWC与计算机文本分析方法。语言与社会心理学学报2009;08;29(1):24-54。［CrossRef]
De Smedt T, daelmans W. Python模式。[J] .中文信息学报，2012;13(3):2063-2067。
李建军，李建军，李建军，等。面向情感分析和观点挖掘的情感词汇资源。参见:第七届语言资源与评价会议论文集(LREC 2010)。2010年在语言资源与评价会议(LREC 2010)上发表;2010;瓦莱塔，马耳他
米勒GA。一个英语词汇数据库。中国计算机学报，2019;38(11):39-41。［CrossRef]
《麦格理同义词词典》。在:麦格理图书馆。澳大利亚悉尼:麦格理图书馆;1986.
张建军，张建军，张建军，等。词汇网络的情感扩展。第四届国际语言资源与评价会议论文集(LREC 2004)。2004年发表于:语言资源与评价学术会议;2004年5月;葡萄牙里斯本。
Stone P, Dunphy D, Smith M, Ogilvie D.一般询问者:内容分析的计算机方法。美国麻萨诸塞州剑桥:麻省理工学院出版社;1966.
Web 1T 5-Gram版本1。:语言数据联盟;2006.URL:http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13[2019-04-20]访问
Fernandes AC, Cloete D, Broadbent MT, Hayes RD, Chang C, Jackson RG，等。制定和评估来自精神卫生电子记录的案件登记册的去识别程序。中国医学杂志2013年7月11日;13:71 [免费全文] [CrossRef] [Medline]
Hettne KM, van Mulligen EM, Schuemie MJ, Schijvenaars BJ, Kors JA。改写和抑制UMLS术语以改进生物医学术语识别。生物医学学报(英文版);2009;31 (1):5 [J]免费全文] [CrossRef] [Medline]
戴玉军，高海燕。基于标签传播的领域情感词典自动生成。信息集成与基于web的应用与服务国际会议论文集(IIWAS'13)。美国纽约州纽约:计算机协会;2013年在信息集成与基于web的应用与服务国际会议(IIWAS'13)上发表;2013年12月;奥地利维也纳，第53-62页。［CrossRef]
李建军，李建军，李建军，等。基于语义语义的情感词汇提取方法。: arXiv URL:http://arxiv.org/abs/1606.02820[2019-04-19]访问
杨欣，张震，张震，莫勇，李磊，于磊，等。多情感词典的自动构建与全局优化。计算机学报(自然科学版);2016;33 (2):393 - 393 [j]免费全文] [CrossRef] [Medline]
李建军，沈凯，张建军。基于可解释性社会科学的词典归纳法。见:计算语言学协会北美分会2018年会议论文集:人类语言技术，第1卷(长论文)。Stroudsburg, PA, USA:计算语言学协会;2018年发表于:人类语言技术;2018年6月;新奥尔良，LA, USA p. 1615-1625。［CrossRef]
Mitchell L, Frank MR, Harris KD, Dodds PS, Danforth CM。幸福的地理:连接twitter的情绪和表达，人口统计和客观特征的地方。PLoS One 2013;8(5):e64417 [j]免费全文] [CrossRef] [Medline]
戈尔RJ，迪亚洛S，帕迪拉J.你就是你的推特:将美国肥胖率的地理差异与推特内容联系起来。科学通报，2015;10(9):e0133505 [j]免费全文] [CrossRef] [Medline]
Padilla JJ, Kavak H, Lynch CJ, Gore RJ, Diallo SY。旅游景点推特访问情绪的时空调查PLoS One 2018 Jun 14;13(6):e0198857 [j]免费全文] [CrossRef] [Medline]

‎

克里斯:临床记录交互式检索

电子健康档案:电子健康记录

频率:频率

FreqDiff:频率的区别

FreqRatio:频率比

ICD:国际疾病分类

LIWC:语言探究与字数统计

NLP:自然语言处理

C·洛维斯编辑;提交10.07.20;S . Mohammad, R . Gore的同行评议;对作者的评论20.09.20;修订版本收到26.11.20;接受05.12.20;发表13.04.21

©andr Bittar, Sumithra Velupillai, Angus Roberts, Rina Dutta。最初发表于JMIR医学信息学(http://medinform.www.mybigtv.com)， 13.04.2021。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到http://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

在电子健康记录中使用通用情感词汇进行自杀风险评估:基于语料库的分析

在电子健康记录中使用通用情感词汇进行自杀风险评估:基于语料库的分析

原始论文

通讯作者:

摘要

关键字

介绍

背景

目标

方法

语言库分析

临床队列

EHR语料库

数据准备

识别代表性关键词

情感词汇分析

情绪词汇

词汇覆盖率

结果

语言库分析

情感词汇分析

讨论

自杀风险评估词典开发的意义

构建自杀风险评估情绪词汇指南

总结与限制

结论

致谢

作者的贡献

利益冲突

参考文献

缩写