JMIR医学信息学-用基于情感的自然语言处理提高谵妄识别的准确性:混合方法研究

原始论文

¹多伦多大学机械与工业工程系，加拿大安大略省多伦多

²美国德克萨斯州圣马科斯市德州州立大学计算机科学系

^3.GEMINI -全科医学住院病人倡议，统一健康多伦多，多伦多，ON，加拿大

⁴多伦多大学精神学系，多伦多，ON，加拿大

⁵多伦多大学医学院和卫生政策、管理和评估研究所，安大略省多伦多

通讯作者:

Mark Chignell博士

机械与工业工程系“，

多伦多大学

八恒大厦8171A室

圣乔治道40号

多伦多，ON, M5S 2E4

加拿大

电话:1 6473898951

电子邮件:chignel@mie.utoronto.ca

背景:谵妄是一种急性神经认知障碍，影响多达一半的老年住院病人，可导致痴呆、住院时间延长、医疗费用增加和死亡。虽然谵妄可以预防和治疗，但很难识别和预测。

摘要目的:这项研究旨在改进机器学习模型，通过使用情感分析的自然语言处理(NLP)技术(在这种情况下，一种识别对谵妄诊断的情绪的特征)，回顾性地识别住院期间谵妄的存在(例如，测量谵妄预防干预的有效性)。

方法:利用加拿大医院数据和分析网络“全科医学住院倡议”的数据，对多伦多地区6家医院近4000例入院病例进行了详细的人工审查。此外，25.74%(994/3862)的合格住院患者被标记为谵妄。使用从这项研究中收集的数据集，我们开发了机器学习模型，有和没有应用于诊断成像报告的NLP方法的好处，我们提出了一个问题“NLP能否提高机器学习对谵妄的识别?”

结果:在符合条件的3862例住院患者中，994例(25.74%)被标记为谵妄。模型的鉴定和校准令人满意。采用NLP的主模型在独立测试数据集中的准确率和受试者工作特征曲线下面积分别为0.807和0.930。无NLP的主模型在独立测试数据集中的准确率和受试者工作特征曲线下面积分别为0.811和0.869。在实验中使用的5年期间，模型性能也被发现是稳定的，对可能的未来抵抗试验集的识别并不比对回顾性抵抗试验集的识别差。

结论:我们的机器学习模型包含了NLP(即医学图像描述文本挖掘中的情感分析)，使用情感分析对谵妄进行了有效识别，比没有NLP的模型提供了显著的额外好处。

JMIR Med Inform 2022;10(12):e38161

doi: 10.2196/38161

关键字

精神错乱诊断；数据挖掘；医学图像描述；文本挖掘与分析；情绪分析

背景

谵妄被描述为“急性脑衰竭”，被认为是一种“医疗紧急情况”和“无声的流行病”[1，2］．它是内科病人和住院病人中最常见的神经精神疾病[3.］．在加拿大、美国、英国和澳大利亚，它也被公认为护理质量指标[4-8］．谵妄的症状对病人和照顾者来说都是严重和痛苦的[9，10]是诱发因素和诱发因素之间复杂相互作用的结果[9］．精神错乱患者在医院死亡或需要安置在养老院的可能性是其他患者的两倍多，影响到50%的老年住院患者[11-14］．谵妄的长期影响是严重的，因为它与恶化的认知障碍和偶发痴呆有关[14-17］．谵妄患者住院时间更长，再入院率增加，医疗费用增加一倍多。Leslie等人的研究[18]表明与谵妄相关的1年医疗费用为每位患者16,303美元至64,421美元。最近的估计表明，它占美国每年医疗保健支出的1830亿美元[18，19］．高达40%的谵妄病例是可以预防的，许多剩余的谵妄病例可以通过实施标准化的多成分方案得到更好的管理[19，20.］．这些项目可为每位患者节省高达3800美元的住院费用，在谵妄发作后的一年内，每人每年可节省16,000美元[19，20.］．然而，在常规临床护理中，存在显著的实践差距，大多数医院没有始终如一地实施最佳实践[19-21］．

使用谵妄作为质量指标的一个关键障碍是缺乏一种可靠和可扩展的方法来早期识别谵妄病例。临床医生不善于使用临床格式塔识别谵妄，其识别率在16% - 35%之间[22］．混淆评定法[23]是众多谵妄筛查工具之一，但使用它需要时间和训练;因此，CAM等工具的使用相对较少。例如，Hogan等人[23]发现只有28%的以老年为重点的急诊科使用谵妄筛查工具。

由于谵妄很难当场识别，人们对谵妄发生后的识别很感兴趣，无论是通过行政图表复查(即寻找证据因素，如使用抗精神病药物)还是通过回顾性识别。理想情况下，谵妄的识别将是前瞻性的，证明了一种方法，以确定那些在发展谵妄的最高风险，针对这些个体的谵妄识别干预。然而，谵妄的回顾性鉴定也可以用于确定谵妄率，这可以作为质量指标和旨在改善质量的干预措施的有效性措施。

许多预测谵妄的模型都是基于已知的诱发和诱发危险因素而开发的[18］．然而，目前的模型有局限性[24］．首先，它们依赖于未作为临床护理一部分常规收集的变量，如先前存在的认知障碍和功能状态，这使得它们难以扩展[25］．例如，英国国家临床卓越研究所谵妄风险识别模型要求在电子记录中提供认知障碍和感觉障碍的信息[26-28］．其次，对谵妄识别模型的系统回顾强调了它们的识别不足，以及关于模型如何验证的许多方法学问题，如其准确性和预测能力不足。该综述的结论是，模型的表现可能被夸大了[26］．第三，先前谵妄的风险识别模型倾向于使用有限的一组机器学习方法[7，29-33]，并倾向于忽略文本数据[34］．

随着诸如本研究中使用的电子临床数据存储库的日益可用，数据挖掘和机器学习等方法可以补充或取代传统的统计模型[27，32，34-38］．医学文本挖掘需要自然语言处理(NLP)方法来提取有价值的医疗信息，并为识别模型导出可计算的变量[39］．NLP已被证明在从医学文本中提取信息为可支持临床决策的计算有用形式方面非常有效[40-47］．

情感分析使用机器学习和NLP分析作者的情感文本(例如，积极与消极，或者在我们的案例中，谵妄与非谵妄相关的文本)[46-48］．我们采用情绪分析来预测有关谵妄状态的情绪。因此，在随后的分析中，积极(有谵妄)和消极(没有谵妄)状态是一个新的(二元)情绪特征。使用这种基于谵妄的文本情感分析，我们创建了一个文本派生的特征，用于估计每次入院的谵妄状态。

客观的

我们项目的总体研究目标是回顾性地识别住院期间的谵妄病例，使用从入院到出院的所有可用数据，以估计谵妄率，从而量化与谵妄相关的质量改善干预措施的效果。在本研究中，我们将重点放在方法学目标上，即证明将NLP方法纳入谵妄回顾性鉴定的价值。

数据源

概述

全科医学住院病人计划(GEMINI)是加拿大安大略省的一个多机构研究合作项目。GEMINI开发了收集和标准化医院电子临床数据的基础设施和方法。本研究的数据来自6家医院(圣迈克尔医院、多伦多总医院、多伦多西部医院、Trillium Credit Valley医院、Trillium Mississauga医院和Sunnybrook医院)。GEMINI正在成为临床研究和质量测量的丰富资源[4，49-52］．严格的内部验证流程证明，关键数据类型的准确性为98%至100% [50］．

在GEMINI中，管理健康数据与从医院信息系统中提取的临床数据(表1）.

表1。数据包含在普通医学住院病人倡议项目。

数据类型	病人的细节	医生和房间	实验室	成像	药店	临床文档	微生物学
选择变量	人口统计资料 ‎ 并发症 ‎ 诊断 ‎ 程序 ‎ 成本 ‎	医生详细信息 ‎ 转移细节 ‎	生物化学 ‎ 血液学 ‎ 输血 ‎	放射学家诊断和介入成像报告 ‎	药物治疗 ‎ 剂量 ‎ 路线 ‎	医生命令 ‎ 生命体征 ‎	生物 ‎ 抗菌药物敏感性 ‎ 收集细节 ‎

管理数据

从医院收集患者水平的特征，并报告给加拿大健康信息出院摘要数据库和国家门诊护理报告系统。诊断数据和干预措施采用增编的《加拿大疾病和相关健康问题国际统计分类》和《加拿大健康干预分类》进行编码。

临床数据

来自GEMINI电子信息系统的数据包括实验室检测结果(生物化学、血液学和微生物学)、输血、住院药物、生命体征、成像报告和病房转移。通过统计质量控制流程和直接数据验证，确保了这些数据关键要素的质量[53］．GEMINI数据提取方法允许访问大量理想的文本处理方法的数据，包括放射科医生的诊断成像报告。

本研究报告的谵妄病例是由训练有素的医疗专业人员使用经过验证的方法通过手工病历审查确定的[54］．这种方法主要依赖于通过对医生、护士和跨专业文献的详细回顾来识别谵妄或其众多的同义词(如混乱)。与临床评估相比，该方法具有良好的敏感性(74%)和特异性(83%)，被认为是鉴别谵妄的合适金标准，用于研究和提高质量[54］．

我们使用了来自GEMINI数据集的11个数据文件，其中包含3862个根据谵妄状态手动标记的入院记录。数据文件包括临床和管理数据，如中所述表1．然而，标记谵妄是高度劳动密集型的，训练有素的审查员回答以下问题作为过程的一部分:“从急性混淆状态(例如，谵妄，精神状态改变，注意力不集中，定向障碍，幻觉，激动，不当行为等)的图表中是否有任何证据?”因此，尽管图表回顾标签可以用来训练更有效的机器学习方法，但它们太昂贵了，无法根据住院期间是否经历过谵妄来标记所有老年患者。

在我们的研究中，我们使用了图表回顾法[51]以标记我们数据集中关于谵妄的病例子集。评分者之间的可靠性是通过让第二个抽象者盲审5%的图表来评估的，达到90%的评分者之间的可靠性。这导致了在本文报告的分析中使用的3862例住院病例。数据文件包括临床和管理数据，如中所述表1．

伦理批准

多伦多学术健康科学网络的研究伦理委员会(REB)批准了GEMINI研究(REB参考编号15-087)。REB批准的延期由多伦多统一健康REB(参考编号15-087)发布。Trillium Health Partners获得了单独的REB批准。

这篇论文也是GEMINI子研究的一部分，名为“使用人工智能识别和预测住院医疗患者中的谵妄”，该研究已获得多伦多大学REB的批准(批准编号为38377)。

数据预处理

GEMINI中包含的数据表被合并为一个适合进行机器学习的表工作表。在此之前，从数据表中选择合并相关变量，如下小节所述。

实验室测试

本数据文件共纳入45项医学检测，如血尿素氮、平均细胞体积、高敏肌钙蛋白等。请注意，在每次入院时，并非所有45项医学检查都进行了，尽管有些检查在同一患者中进行了多次。在原始实验室检测数据文件中，每个医学检测实例对应一个单独的记录。我们将实验室测试表转换为每次入场的单行表，其中每列代表不同的测试。由于患者通常接受的是可用测试的一小部分，因此有许多空细胞(即稀疏性)，并且一些细胞必须代表同一测试的多个实例。为了解决稀疏变量的问题，我们将它们转换为1或0个标志变量(1表示已执行测试，0表示未执行测试)。对于经常进行的检查，我们记录了每次入院检查结果的最小值、最大值、中值和频率。如果在50%的录取中至少进行了5次测试，我们计算每次录取的测试结果的SD作为额外的汇总测量。

病人的诊断

我们首先将《国际疾病分类第十版》(ICD-10)映射到临床分类软件(CCS)的出院诊断代码，这个过程我们之前描述过[4，49，50，55］．我们使用所有可用的ICD-10代码，包括那些回顾性分配的代码，这不应被视为数据泄漏，而是利用所有可用的数据来服务于使用。医生团队确定了240个可能与谵妄相关的独特CCS代码。然后，我们为这240个独特的CCS代码创建了标志变量(布尔值)，以表明入院是否涉及每种诊断。请注意，我们没有为ICD-10代码创建标志变量，因为这将极大地增加分析中的特征数量。

临床干预措施

这套特征涵盖了一系列临床干预措施，包括按照加拿大健康干预措施分类编码的外科和内窥镜手术。使用两个变量记录每次入院的干预次数。第一个衍生变量是每次入院进行的干预次数(包括同一干预的重复)。第二个衍生变量计算每次入院的独特干预次数。数据文件中没有使用其他有关干预措施的信息。

空间转移

我们计算了每次入院的房间转移数量，这是这个数据表中使用的唯一变量。

临床风险评分

我们使用了以下临床评分，这些评分是疾病严重程度和患者不良结局风险的标志:56]、实验室急性生理评分[57和肾脏疾病:改善整体预后急性肾损伤分期[58］．

急诊分诊评分

我们对表示急诊分诊时患者病情严重程度的特征应用了单热编码，分诊采用5分量表，由加拿大分诊和敏锐度量表衡量[59］．

行政入职与离职资料

我们对表示患者根据住院、出院和转院系统入院和出院的医疗服务类型的特征应用one-hot编码。我们还计算了住院时间，并得出了一个特征来表明患者出院到哪里。

药物

这个文件每次有1行，按原样使用。

特别护理组

只有320名入院患者有特殊护理单元信息，因此我们创建了一个带有二进制编码的标记变量，以表明患者在入院期间是否在特殊护理单元接受过护理。

输血

该医疗数据表仅包含429例包含输血信息的入院病例;因此，我们用二进制编码创建了1列来表示它的存在或不存在。

放射医师诊断影像报告的NLP

医学成像数据表包含磁共振图像和计算机断层扫描的文本描述，这些图像经过过滤，仅包括脑或头部成像。与实验室测试数据文件类似，每次成像测试有1行;因此，每次准入可能有多行。如果每次入场都有多个测试，则我们首先将测试中的文本描述连接起来，然后通过清理、标记和向量化对该文件使用文本挖掘。

用于机器学习的数据集代表了从多个来源集成的数据，例如，实验室结果、药物、放射科医生报告和管理数据。我们采用情绪分析来预测有关谵妄状态的情绪。因此，积极(有谵妄)和消极(没有谵妄)状态是一个二元情感，然后在随后的分析中形成了一个新特征。使用这种基于谵妄的文本情感分析，我们创建了一个文本派生的特征，用于估计每次入院的谵妄状态。

在情感分析之前进行了初步的文本分析。文本清理包括大写字母转换、停止词删除、标点符号删除、词内分隔、标记化和词元化，并且使用nltk［39),sklearn［60)包。接下来，词频-逆文档频率，字数表示，和n-gram方法用于文本向量化。

然后训练总共8个基线机器学习分类模型进行情感分析，分别是逻辑回归、朴素贝叶斯、支持向量机(SVM)、决策树、随机森林、梯度增强、XGboost，以及多层感知器。超参数调优应用RandomSearchCV(即，通过参数设置的交叉验证搜索优化超参数的随机搜索)[60］．

最后选择梯度增强作为情感分析方法F₁-得分在8个分类中最高。最终的模型是一个随机梯度提升(0.8子样本)，使用200个估计量，以Friedman均方误差为标准，最大深度为3。然后，我们使用所选的梯度增强模型，从文本中医学图像的描述中创建一个具有预测二值情感的特征。

我们将这个新功能与10个实验室测试和电子健康记录数据集成在一起，创建了一个完整的数据文件，用于训练和测试机器学习识别模型。

模型构建与培训

共实施了12种具有预测谵妄状态任务的监督分类算法。涵盖大多数类型机器学习模型的12种机器学习算法如下:

集成机器学习模型:梯度增强分类器、AdaBoost分类器、随机森林和投票分类器软件
非参数机器学习模型:k近邻和决策树
线性参数机器学习模型:逻辑回归、线性支持向量机和线性判别分析
非线性参数机器学习模型:二次判别分析，神经网络:深度学习中的多层感知器分类器
基于贝叶斯的机器学习模型:高斯朴素贝叶斯。

为了建模，我们将集成的完整数据分为2部分，一个训练集和一个测试集。如图1，数据跨度5年，从2010年4月1日到2015年3月31日。我们将这段时间分为10个6个月的时间段。我们将前9段，即2010年4月1日至2014年9月30日作为训练集。过去6个月期间，即2014年10月1日至2015年3月1日，被用作抵抗数据(即测试集)，以估计相对于构建模型所使用的数据，模型未来可能的性能。这使我们能够评估数据中是否存在任何非平稳性，这将影响我们基于现有数据开发的模型来预测未来谵妄的能力。

在训练集中，我们使用5倍交叉验证来调整12种机器学习算法的模型参数。然后，我们使用5倍交叉验证的调优参数来确定测试组或拒绝组中每个入院患者的谵妄状态。

概述

我们在holdout测试集上测试模型性能，并计算6个评价指标来找到最佳模型，即accuracy, precision, recall或sensitivity，F₁-评分、特异性和受试者工作特征曲线下面积(ROC-AUC)。

准确性回答了我们在所有录取中正确标注了多少录取的问题。

精确性回答了一个问题，即我们预测有谵妄的人中有多少人真的患有谵妄。

敏感性代表被正确标记为患有谵妄的谵妄患者的比例。

F₁-得分是精密度或回忆的加权平均值，其中F₁-score在1时达到最佳值，在0时达到最差值。

特异性回答了有多少阴性病例(即没有谵妄的人)被正确预测的问题。

ROC曲线使用不同阈值设置下的真阳性率和假阳性率进行绘制。计算出的ROC-AUC表明，我们的二元分类器对随机选择的正实例的排名高于随机选择的负实例的概率(假设“正”的排名高于“负”)。

12种机器学习算法，以及超参数调优和交叉验证，都在Python包中实现Scikit-learn［60］．超参数调优使用RandomizedSearchCV而且GridSearchCV功能。交叉验证通过cross_val_score，cross_validate,而且cross_val_predict功能。

梯度增强分类器使用GradientBoostingClassifier函数。AdaBoost分类器使用AdaBoostClassifier函数。神经网络分类器的实现采用MLPClassifier函数。决策树分类器采用DecisionTreeClassifier函数。k -最近邻分类训练使用KNeighborsClassifier函数。逻辑回归分类器使用LogisticRegression函数。随机森林分类器采用RandomForest分类器函数。SVM方法使用了支持向量机函数。高斯朴素贝叶斯方法实现了GaussianNB函数。线性判别分析分类器的训练采用LinearDiscriminantAnalysis函数。二次判别分析分类器采用QuadraticDiscriminantAnalysis函数。带有软设置的投票分类器使用分类器投票函数。

实验结果

我们使用超参数调优和前9个时间段的5倍交叉验证来训练这些模型。我们展示了3个表现最好的模型的结果表2，其余9个模型的计算结果载于多媒体附件1．在这两个表中，我们报告了前9个时间段数据的平均性能超过5倍。

然后我们测试了我们的谵妄识别(感性或+NLP)模型，该模型将NLP纳入了训练过程。我们将+NLP模型的结果与经过训练的无NLP (-NLP)谵妄识别模型的结果进行了比较，该模型基于GEMINI数据集中最近6个月的数据。在过去6个月的数据中，3个表现最好的模型在预测谵妄标签方面的表现显示在表3．中其他9个模型的结果也有类似的表述多媒体附件2．值得注意的是，我们在测试数据上使用了来自训练数据的最佳表现模型的调优参数。

表2。3种性能最佳算法的模型比较:训练集(2010年4月1日至2014年9月30日)上使用5倍交叉验证的平均训练结果。

模型		梯度提升分级机	演算法分类器	随机森林
精度
	谵妄(+ NLP^一个）	0.868^b	0.866	0.826
	谵妄(nlp)	0.797	0.795	0.768
精度
	谵妄(+ NLP)	0.78	0.794	0.833
	谵妄(nlp)	0.747	0.75	0.8
回忆
	谵妄(+ NLP)	0.678	0.649	0.398
	谵妄(nlp)	0.341	0.329	0.141
特异性
	谵妄(+ NLP)	0.935	0.942	0.975
	谵妄(nlp)	0.957	0.958	0.988
ROC-AUC^c
	谵妄(+ NLP)	0.91	0.895	0.897
	谵妄(nlp)	0.83	0.834	0.83
F₁分数
	谵妄(+ NLP)	0.722	0.712	0.529
	谵妄(nlp)	0.463	0.452	0.239

^一个NLP:自然语言处理。

^b最高性能值用斜体表示。

^cROC-AUC:接收机工作特性曲线下面积。

表3。3种性能最佳算法中3种模型的比较:模型在抵抗集10上的表现(2014年10月1日- 2015年3月31日)。

模型		梯度提升分级机	演算法分类器	随机森林
精度
	谵妄(+ NLP^一个）	0.853^b	0.835	0.835
	谵妄(nlp)	0.807	0.811	0.776
精度
	谵妄(+ NLP)	0.742	0.725	0.866
	谵妄(nlp)	0.74	0.747	0.806
回忆
	谵妄(+ NLP)	0.669	0.594	0.436
	谵妄(nlp)	0.406	0.421	0.188
特异性
	谵妄(+ NLP)	0.918	0.92	0.976
	谵妄(nlp)	0.949	0.949	0.984
ROC-AUC^c
	谵妄(+ NLP)	0.922	0.917	0.93
	谵妄(nlp)	0.848	0.849	0.869
F₁分数
	谵妄(+ NLP)	0.704	0.653	0.58
	谵妄(nlp)	0.524	0.538	0.305

^一个NLP:自然语言处理。

^b最高性能值用斜体表示。

^cROC-AUC:接收机工作特性曲线下面积。

在训练集中，我们提出的谵妄(+NLP)模型在准确性、精密度、回忆或敏感性、率、ROC-AUC和F₁-评分，而谵妄(-NLP)模型产生最好的特异性。在测试集中，谵妄(+NLP)和谵妄(-NLP)模型的表现延续了相同的趋势。

请注意,F₁-score是灵敏度和精度的平衡，ROC-AUC是由灵敏度和特异性产生的，因此我们的谵妄(+NLP)模型在平衡灵敏度、精度和特异性方面表现最好。在谵妄等急性疾病中，敏感性尤其重要，因为未能识别疾病(漏诊)的成本高于虚假警报的成本。因此，目前的结果表明，感性(vs非感性)谵妄识别模型应该在临床实践中更有用。

我们还跨时间测试了+NLP和-NLP模型，在使用最近的时间段作为坚持集之前，在9个时间段中每次移动一个坚持集。因此，将每个时间段作为测试集，而将其他9个时间段作为滚动的训练集，如图所示图1．对应的训练数据和独立坚持或测试数据的数据分布在表4．表5而且6在数据分割中，呈现队列患者特征的数据分布。

图2显示了表现最好的机器学习算法的识别结果，即跨10个时间段的梯度增强。图中的8个面板表示使用的8个评估指标。

请注意，在8个面板中的每个面板中显示了2个不同的行图2表示2种不同类型模型(即Delirium [+NLP]和Delirium [-NLP])的相应评估指标的结果。每一行中的10个数据点显示了性能如何随着坚持时间段的时间变化而变化。总体而言，情感(+NLP)模型的识别性能优于非情感(-NLP)模型。此外，情感(+NLP)模型的性能在不同的时间段比其他方案更趋于稳定。也可以看出，精度，召回，和F₁随着时间的推移，-评分往往比其他3项指标更不稳定，即使这些性能指标在谵妄(+NLP)模型中保持相对稳定。

图3提出了梯度增压模型的校准，发现提供了最佳的整体性能。

表4。各时间段(TS)训练集和拒绝集的数据分布。注意，阳性入院表明患者在入院时被诊断为谵妄，而阴性入院则不是。

在滚动的基础上设定不同的TS	训练集				抵抗组
	入学人数	否定录取人数	积极录取人数	入学人数		否定录取人数	积极录取人数
壹空间	3541	2635	906	321		233	88
TS2	3531	2627	904	331		241	90
TS3	3494	2581	913	368		287	81
TS4	3488	2596	892	374		272	102
TS5	3526	2620	906	336		248	88
TS6	3479	2585	894	383		283	One hundred.
TS7	3446	2560	886	416		308	108
TS8	3476	2580	896	386		288	98
TS9	3424	2536	888	438		332	106
TS10	3353	2492	861	509		376	133

表5所示。在训练和测试数据集的10个时间段(TSs)中，患者年龄和性别的特征数据信息。定义了三个成人年龄组:18-44岁的年轻人，45-64岁的中年人，以及≥65岁的老年人。

TS	性别				年龄
	培训		测试		培训				测试
	男性，n (%)	女性，n (%)	男性，n (%)	女性，n (%)	青年，n (%)	中年人，n (%)	老年人，n (%)	青年，n (%)		中年人，n (%)	老年人，n (%)
TS1(训练:n=3541;测试:n = 321)	1753 (49.51)	1788 (50.49)	162 (50.5)	159 (49.5)	430 (12.14)	844 (23.84)	2267 (64.02)	36 (11.2)		81 (25.2)	204 (63.5)
TS2(训练:n=3531;测试:n = 331)	1736 (49.16)	1795 (50.84)	179 (54.1)	152 (45.9)	421 (11.92)	845 (23.93)	2265 (64.15)	45 (13.6)		80 (24.2)	206 (62.2)
TS3(训练:n=3494;测试:n = 368)	1746 (49.97)	1748 (50.03)	169 (45.9)	199 (54.1)	417 (11.93)	845 (24.18)	2232 (63.88)	49 (13.3)		80 (21.7)	239 (64.9)
TS4(训练:n=3488;测试:n = 374)	1737 (49.8)	1751 (50.2)	178 (47.6)	196 (52.4)	415 (11.9)	854 (24.48)	2219 (63.62)	51 (13.6)		71 (18.9)	252 (67.4)
TS5(训练:n=3526;测试:n = 336)	1748 (49.57)	1778 (50.43)	167 (49.7)	169 (50.3)	423 (12)	838 (23.77)	2265 (64.24)	43 (12.8)		87 (25.9)	206 (61.3)
TS6(训练:n=3479;测试:n = 383)	1728 (49.67)	1751 (50.33)	187 (48.8)	196 (51.2)	417 (11.99)	832 (23.91)	2230 (64.1)	49 (12.8)		93 (24.3)	241 (62.9)
TS7(训练:n=3446;测试:n = 416)	1700 (49.33)	1746 (50.67)	215 (51.7)	201 (48.3)	415 (12.04)	833 (24.17)	2198 (63.78)	51 (12.3)		92 (22.1)	273 (65.6)
TS8(训练:n=3476;测试:n = 386)	1724 (49.6)	1752 (50.4)	191 (49.5)	195 (50.5)	423 (12.17)	826 (23.76)	2227 (64.07)	43 (11.14)		99 (25.65)	244 (63.21)
TS9(训练:n=3424;测试:n = 428)	1702 (49.71)	1722 (50.29)	213 (48.6)	225 (51.34)	409 (11.95)	817 (23.86)	2198 (64.19)	57 (13.01)		108 (24.66)	273 (62.33)
TS10(训练:n=3353;测试:n = 509)	1661 (49.54)	1692 (50.46)	254 (49.9)	255 (50.1)	424 (12.65)	791 (23.59)	2138 (63.76)	42 (8.25)		134 (26.33)	333 (65.42)

表6所示。跨数据分割的队列特殊护理单元(SCU)患者特征的数据信息。

TS^一个	培训		测试
	在SCU文件中n (%)	不在SCU文件中，n (%)	在SCU文件中n (%)	不在SCU文件中，n (%)
TS1(训练:n=3541;测试:n = 321)	291 (8.22)	3250 (91.78)	27日(8.4)	294 (91.6)
TS2(训练:n=3531;测试:n = 331)	292 (8.27)	3239 (91.73)	26日(7.8)	305 (92.1)
TS3(训练:n=3494;测试:n = 368)	289 (8.27)	3205 (91.73)	29 (7.9)	339 (92.1)
TS4(训练:n=3488;测试:n = 374)	285 (8.17)	3203 (91.83)	33 (8.8)	341 (91.2)
TS5(训练:n=3526;测试:n = 336)	290 (8.22)	3236 (91.78)	28日(8.3)	308 (91.7)
TS6(训练:n=3479;测试:n = 383)	282 (8.11)	3197 (91.89)	36 (9.4)	347 (90.6)
TS7(训练:n=3446;测试:n = 416)	286 (8.3)	3160 (91.7)	32 (7.7)	384 (92.3)
TS8(训练:n=3476;测试:n = 386)	282 (8.11)	3194 (91.89)	36 (9.3)	350 (90.7)
TS9(训练:n=3424;测试:n = 428)	282 (8.24)	3142 (91.76)	36 (8.2)	402 (91.8)
TS10(训练:n=3353;测试:n = 509)	283 (8.44)	3070 (91.56)	35 (6.9)	474 (93.1)

^一个TS:时间段。

图2。利用梯度增强分类器显示了两种方案在10个时间段内的性能变化，其中TS1 ~ TS10为:2010年4月1日~ 2010年9月30日;2010年10月1日至2011年3月31日;2011年4月1日至2011年9月30日;2011年10月1日至2012年3月31日;2012年4月1日至2012年9月30日;2012年10月31日至2013年3月31日;2013年4月1日至2013年9月30日;2013年10月1日至2014年3月31日;2014年4月1日至2014年9月30日; and October 1, 2014, to March 31, 2015. NLP: natural language processing; ROC-AUC: area under the receiver operating characteristic curve.

与最后6个月时间段的结果一样，谵妄(+NLP)模型使用前9个时间段的数据作为坚持集也表现最佳。谵妄(+NLP)模型优于谵妄(-NLP)模型在准确性、精密度、回忆或敏感性、漏报率、ROC-AUC和F₁分数。

主要研究结果

总的来说，在预测谵妄的存在方面，包含NLP的机器学习模型要么表现得更好，要么与不包含NLP的模型竞争。谵妄(+NLP)模型的表现在特异性指标上相对较弱，但该指标在不同的坚持集上变化很大，这表明它是一种不太可靠的性能指标。如回忆测量所示，谵妄(+NLP)模型更善于发现真阳性，即对入院者或有真实谵妄标签的患者识别谵妄。谵妄(+NLP)模型在4个方案中表现最好，在灵敏度方面具有持续的高性能，F₁-score(平衡灵敏度和精度)，ROC-AUC。

先前的谵妄风险识别模型倾向于使用一套有限的机器学习方法[7，29-33]，并倾向于忽略文本数据[34］．此外，大多数用于识别谵妄的机器学习识别模型仅通过简单的数据划分(分别随机划分80%/20%用于训练和验证分类模型)或交叉验证进行评估[30.，32，33］．相比之下，我们使用独立的保留数据或测试数据(训练数据中的交叉验证和滚动基础上在时间段内完全独立的测试数据，如图所示图1)，为识别模型提供更严格的测试。

先前的研究发现，与研究的临床评估相比，使用CAM等工具的常规临床筛查少报了高达75%的谵妄病例[61-64］．虽然我们无法直接比较我们的模型与CAM结果在相同患者中的表现，但文献中有充分的记录表明，常规临床使用CAM对于研究或质量测量是不可靠的，这加强了对我们在本研究中开发的模型的需求。值得注意的是，蒙特利尔认知评估主要用于评估稳定的认知障碍，而不是谵妄。

谵妄(+NLP)模型提供了识别谵妄病例之间的最佳平衡，在他们存在的地方，而不是错误地将非谵妄病例标记为谵妄。基线谵妄方案在检测真阴性时表现更好。这可能是因为我们的GEMINI数据集不平衡，75%的入院患者为非谵妄;因此，一个差调的模型可以通过偏向于预测非谵妄获得更好的准确性。

处理精度和召回率之间权衡的一种方法是使用F₁-得分，是精密度和灵敏度或召回得分的调和平均值(平均值)。有了这个更平衡的测量，我们提出的谵妄(+NLP)模型在所有时间段都优于没有NLP的模型。

我们的谵妄(+NLP)方法将NLP派生的特征集成到多源医疗数据中，以提高模型的性能和有用性。这种方法也可以扩展到其他医疗识别环境。

这种方法有几个重要的应用，包括质量测量和质量改进，研究项目中的统计风险调整，以及回顾性队列中的大规模观察研究。目前还没有可扩展的解决方案来回顾性地识别医院中谵妄的发生，CAM没有得到充分利用，可能是因为缺乏训练有素的临床资源。我们一致认为，谵妄的前瞻性预测在临床上是有用的，关于这一主题的研究正在进行中。然而，回顾性预测对于质量管理目的和评估预防谵妄的干预措施的有效性也很重要。通常，CAM的实现很差，使用也很少[23］．

谵妄在常规数据源中未被识别的一个主要原因是它的记录经常不一致，使用了各种同义词(例如，混乱和意识水平的改变)。唯一经过验证的、高质量的回顾性识别谵妄的方法是基于图表的谵妄识别仪器复查方法，我们将其作为训练机器学习模型的金标准标记方法。这种方法是时间密集型的，每张医院图表需要1个小时。因此，它不容易应用于大型数据集。因此，开发可以使用常规收集的临床和行政卫生保健数据的模型代表了对文献的重大贡献，因为它们可以使依赖于谵妄病例回顾性识别的研究和高质量应用成为可能。

建立能够在住院时或住院期间实时预测谵妄风险的模型是可取的。开发这些模型的一个障碍是有足够大的数据集来训练它们。我们的模型试图对有谵妄或没有谵妄的住院进行回顾性准确分类，然后可以用于标记(使用模型预测)大型数据集，然后可以用于生成质量估计，并为进一步的模型预测提供基础。

结论

谵妄是一种非常普遍、可预防和可治疗的神经认知障碍，如果不治疗，其预后非常差。它的特点是急性发作的精神状态波动、精神运动障碍和幻觉，而且很难发现，因为症状通常可以归因于其他原因。通过谵妄或谵妄风险的自动识别，更好的谵妄预测将为更高质量的护理创造机会。在本文报道的研究中，我们已经证明，与没有NLP的标准机器学习方法相比，NLP方法的结合可以显著提高识别能力。我们还表明，随着时间的推移，改变坚持期可以估计模型识别的时间稳定性。这种类型的平稳性分析的另一个有用的特征是，它可以用来确定表现出非平稳性的不可靠评估标准，并确定就其有效性随时间的变化而言非平稳性的模型。在这项研究中，我们发现精度是一个不可靠的标准，在不同时期有很大的波动。

本研究的结果证明了NLP在识别重要的医疗结果方面的价值，我们建议未来的研究应集中在(1)将NLP应用于医疗记录以提取更多有价值的信息;(2)通过添加解释来增强谵妄(+NLP)模型，使所得到的模型更具消耗性，更容易集成到临床工作流程中。

致谢

作者要感谢加拿大健康研究基金会和国家科学与工程研究委员会通过合作健康研究项目赠款(申请号415033)资助这项工作。

利益冲突

没有宣布。

‎

多媒体附件1

神经网络、决策树、逻辑回归、线性支持向量机、高斯朴素贝叶斯、线性判别分析、二次判别分析、投票分类器等9种算法在训练集(2010年4月1日至2014年9月30日)上使用5倍交叉验证的模型与平均训练结果的比较。

DOCX文件，23kb

‎

多媒体附件2

3种模型在其他9种算法中的比较:模型在抵抗集10上的表现(2014年10月1日- 2015年3月31日)。

DOCX文件，23kb

急性脑衰竭:病理生理学、诊断、处理和谵妄后遗症。重症监护临床2017年7月;33(3):461-519。［CrossRef] [Medline］
韩俊华，王伟，王永强。老年急诊科病人的谵妄:一种无声的流行病。2010年8月28日(3):611-631 [免费全文] [CrossRef] [Medline］
谵妄病理生理学:急性脑衰竭病因学的最新假说。国际老年精神病学杂志2018年11月;33(11):1428-1457。［CrossRef] [Medline］
Verma AA, Masoom H, Rawal S, Guo Y, Razak F, GEMINI研究员。晕厥住院患者的肺栓塞和深静脉血栓形成:加拿大安大略省多伦多的多中心横断面研究JAMA Intern Med 2017 july 01;177(7):1046-1048 [免费全文] [CrossRef] [Medline］
康恩·DK，吉布森·M.心理健康问题评估和治疗指南。在:Conn DK, Herrmann N, Kaye A, Rewilak D, Schogt B，编辑。长期护理院的实用精神病学:工作人员手册。第三修订和扩展版。Göttingen，德国:Hogrefe and Huber出版社;2007:267 - 278。
盖奇L，霍根DB。2014 CCSMH指南更新:谵妄的评估和治疗。加拿大老年人心理健康联盟。加拿大多伦多:加拿大老年人心理健康联盟;2014.URL:https://ccsmh.ca/wp-content/uploads/2016/03/2014-ccsmh-Guideline-Update-Delirium.pdf[2022-12-07]访问
黄K，曾a，刘b, Schwartz R.安大略老年友好医院策略:谵妄和功能衰退指标-老年友好医院指标工作组报告。安大略省地方卫生综合网络，2012年11月https://www.rgptoronto.ca/wp-content/uploads/2017/12/SFH_Delirium_and_Functional_Decline_Indicators.pdf[2022-12-07]访问
澳大利亚卫生保健安全和质量委员会，2012年。URL:https://www.safetyandquality.gov.au/[2022-12-07]访问
Breitbart W, Gibson C, Tremblay A.谵妄体验:住院癌症患者、其配偶/护理人员和护士的谵妄回忆和谵妄相关痛苦心身医学2002;43(3):183 - 194。［CrossRef] [Medline］
李志强，李志强，李志强，等。谵妄和回忆对晚期癌症患者及其家庭照顾者痛苦水平的影响。巨蟹座2009 May 01;115(9):2004-2012 [免费全文] [CrossRef] [Medline］
老年人谵妄。英国医学杂志2006年3月16日;354(11):1157-1165 [免费全文] [CrossRef] [Medline］
McCusker J, Cole M, Abrahamowicz M, Primeau F, Belzile E. Delirium预测12个月死亡率。Arch实习医学2002年2月25日;162(4):457-463。［CrossRef] [Medline］
吉萨鲁，王华，施耐德EB, Nagaraja N, Yenokyan G, Damluji A，等。危重病人谵妄的结局:系统回顾和荟萃分析。英国医学杂志2015 Jun 03;350:h2538 [免费全文] [CrossRef] [Medline］
Yaffe K, Weston A，格拉夫-雷德福NR, Satterfield S, Simonsick EM, Younkin SG，等。血浆β -淀粉样蛋白水平和认知储备与随后认知能力下降的关系。美国医学杂志2011年1月19日;305(3):261-266 [免费全文] [CrossRef] [Medline］
MacLullich AM, Beaglehole A, Hall RJ, Meagher DJ。谵妄和长期认知障碍。精神病学2009年2月21日(1):30-42。［CrossRef] [Medline］
方TG, Davis D, Growdon ME, Albuquerque A, Inouye SK.老年人谵妄和痴呆之间的界面。Lancet Neurol 2015 Aug;14(8):823-832 [免费全文] [CrossRef] [Medline］
罗克伍德，科斯韦，卡佛D，贾勒特P，斯塔德尼克K，菲斯克J.谵妄后痴呆和死亡的风险。1999年10月28日(6):551-556。［CrossRef] [Medline］
张勇，张勇，李国强。老年谵妄患者一年的医疗费用分析。Arch Intern Med 2008 Jan 14;168(1):27-32 [免费全文] [CrossRef] [Medline］
杨涛，杨涛，岳军。医院老年生活计划的有效性:系统回顾和meta分析。Am J老年精神病学2018年10月;26(10):1015-1033 [免费全文] [CrossRef] [Medline］
Inouye SK, Bogardus Jr ST, Charpentier PA, Leo-Summers L, Acampora D, Holford TR，等。预防住院老年患者谵妄的多成分干预中华医学杂志1999年3月4日;39(9):669-676。［CrossRef] [Medline］
Teodorczuk A, Reynish E, Milisen K.在临床实践中提高谵妄的识别:行动的呼吁。BMC Geriatr 2012 9月14日;12:55 [免费全文] [CrossRef] [Medline］
刘易斯LM，米勒DK，莫雷JE，诺克MJ，拉萨特LC。ED老年患者不明谵妄。中华急诊医学杂志1995 3月13日(2):142-145。［CrossRef] [Medline］
Hogan TM, Olade TO, Carpenter CR.老龄化美国的急性护理概况:2013年美国老年急诊科的雪球样本识别和特征。新兴医学学院2014 3月;21(3):337-346 [免费全文] [CrossRef] [Medline］
McCoy Jr TH, Snapper L, Stern TA, Perlis RH。全州索赔数据中谵妄的漏报:对临床护理和预测模型的影响。心身医学2016;57(5):480 - 488。［CrossRef] [Medline］
林卓思，李志强，李志强，等。老年住院患者谵妄预测模型的系统回顾。BMJ公开赛2018年4月28日;8(4):e019223 [免费全文] [CrossRef] [Medline］
Pendlebury ST, Lovett NG, Smith SC, Wharton R, Rothwell PM。急性内科连续非选择入院患者谵妄风险分层:基于外部汇集数据中确定的因素验证敏感性评分，用于进入急性护理路径。年龄老龄化2017年3月1日;46(2):226-231 [免费全文] [CrossRef] [Medline］
Rudolph JL, Doherty K, Kelly B, Driver JA, Archambault E.使用电子病历信息对谵妄风险评估的验证。美国医学杂志2016年3月1日;17(3):244-248。［CrossRef] [Medline］
鲁道夫JL，哈林顿MB, Lucatorto MA，切斯特JG，弗朗西斯J，谢伊KJ，退伍军人事务和谵妄工作组。基于病历的谵妄风险评估的验证。J Am Geriatr Soc 2011 11月;59增刊2(增刊2):S289-S294 [免费全文] [CrossRef] [Medline］
关于(深度)学习医疗保健系统的前景。美国医学杂志2018年9月18日;320(11):1099-1100。［CrossRef] [Medline］
Jauk S, Kramer D, Großauer B, Rienmüller S, Avian A, berhold A，等。使用机器学习预测住院患者谵妄的风险:一项实施和前瞻性评估研究。美国医学通报协会2020年7月01日;27(9):1383-1392 [免费全文] [CrossRef] [Medline］
Buenviaje B, Bischoff JE, Roncace RA, Willy CJ。马氏-田口系统鉴别ICU谵妄的前兆指标。IEEE生物医学健康通报2016年7月;20(4):1205-1212。［CrossRef] [Medline］
Corradi JP, Thompson S, Mather JF, Waszynski CM, Dicks RS.使用随机森林分类器预测突发谵妄。中国医学杂志2018年11月14日;42(12):261。［CrossRef] [Medline］
吴杰，赵东，朴杰，罗生，金杰，许杰，等。利用心率变异性和机器学习在重症监护病房预测和早期发现谵妄。物理Meas 2018年3月27日;39(3):035004。［CrossRef] [Medline］
Hercus C, Hudaib AR.精神病学中的谵妄误诊风险:机器学习-逻辑回归预测算法。BMC Health Serv Res 2020 Feb 27;20(1):151 [免费全文] [CrossRef] [Medline］
Raghupathi W, Raghupathi V.医疗保健中的大数据分析:前景和潜力。健康科学与科学系统2014;2:3 [免费全文] [CrossRef] [Medline］
Topol EJ。高性能医学:人与人工智能的融合。中国医学2019年1月25日(1):44-56。［CrossRef] [Medline］
Hinton G.深度学习——一项有可能改变医疗保健的技术。中国医学杂志2018年9月18日;320(11):1101-1102。［CrossRef] [Medline］
Saeed M, Lieu C, Raber G, Mark RG。MIMIC II:一个大型临时ICU患者数据库，支持智能患者监测的研究。中国心血管杂志2002;29:641-644。［Medline］
Loper E, Bird S. Nltk:自然语言工具包。arXiv 2002 5月17日。［CrossRef］
李志伟，李志强，李志强，等。临床记录的自然语言处理，以确定艾滋病毒感染者中的精神疾病和药物使用:回顾性队列研究。JMIR Med Inform 2021年3月10日;9(3):e23456 [免费全文] [CrossRef] [Medline］
吴海，霍奇森，戴森，莫雷，易卜拉欣，伊克巴尔，等。自由文本电子病历中表型提及识别的自然语言处理模型的高效重用:一种表型嵌入方法。JMIR Med Inform 2019年12月17日;7(4):e14782 [免费全文] [CrossRef] [Medline］
耿伟，秦霞，杨涛，丛泽，王震，孔强，等。基于模型的中西医结合临床诊断推理:电子病历和自然语言处理方法的真实世界方法学研究。JMIR Med Inform 2020年12月21日;8(12):e23082 [免费全文] [CrossRef] [Medline］
Nakatani H, Nakao M, Uchiyama H, Toyoshiba H, Ochiai C.利用日本电子病历护理记录的自然语言处理预测住院患者跌倒:病例对照研究。JMIR Med Inform 2020年4月22日;8(4):e16970 [免费全文] [CrossRef] [Medline］
郑林，王勇，郝松，申艾，金波，吴德德，等。基于web的糖尿病患者人群健康管理的实时病例发现:基于自然语言处理的算法与全州电子病历的前瞻性验证JMIR Med Inform 2016年11月11日;4(4):e37 [免费全文] [CrossRef] [Medline］
Sheikhalishahi S, Miotto R, Dudley JT, Lavelli A, Rinaldi F, Osmani V.慢性疾病临床病历的自然语言处理:系统综述。JMIR Med Inform 2019 4月27日;7(2):e12239 [免费全文] [CrossRef] [Medline］
廖鹏鹏，蔡涛，Savova GK, Murphy SN, Karlson EW, Ananthakrishnan，等。利用电子病历并结合自然语言处理开发表型算法。英国医学杂志2015 april 24;350:h1885 [免费全文] [CrossRef] [Medline］
王勇，罗俊，郝松，徐辉，申艾，金波，等。基于NLP的充血性心力衰竭病例发现:全州电子病历的前瞻性分析。国际医学杂志2015年12月;84(12):1039-1047。［CrossRef] [Medline］
德维卡，苏尼塔，甘尼什，等。情感分析:不同方法的比较研究。计算机科学进展(英文版);［CrossRef］
郭勇，关建林，陈志强，陈志强，等。住院全科内科患者出院诊断的患病率和费用:一项多中心横断面研究。J Gen实习医学2018年11月;33(11):1899-1904 [免费全文] [CrossRef] [Medline］
魏玛AA, Pasricha SV, Jung HY, Kushnir V, Mak DY, Koppula R，等。评估从医院提取的临床和行政数据的质量:全科医学住院病人计划(GEMINI)的经验。J Am Med Inform association 2021年3月01日;28(3):578-587 [免费全文] [CrossRef] [Medline］
王玲，张勇，王涛，王志强，等。医师体验设计(PXD):更可用的机器学习预测临床决策。AMIA年度诉讼程序2022年5月23日;2021:476-485 [免费全文] [Medline］
郭勇，关建林，陈志强，陈志强，等。与全科内科住院护理相关的患者特征、资源使用和结果:全科住院患者计划(GEMINI)回顾性队列研究2017年CMAJ公开赛12月11日;5(4):E842-E849 [免费全文] [CrossRef] [Medline］
Greaves F, Ramirez-Cano D, Millett C, Darzi A, Donaldson L.使用情感分析从在线发布的自由文本评论中捕捉患者体验。J Med Internet Res 2013 Nov 01;15(11):e239 [免费全文] [CrossRef] [Medline］
Inouye SK, Leo-Summers L, Zhang Y, Bogardus ST, Leslie DL, Agostini JV。一种基于图表的鉴别谵妄的方法:验证与使用混淆评估方法的采访者评分比较。中国老年医学杂志2005年2月;53(2):312-318。［CrossRef] [Medline］
陈志强，陈志强，陈志强，等。使用自然语言处理和情感分析来增强传统的以用户为中心的设计:开发和可用性研究。JMIR Mhealth Uhealth 2020 Aug 07;8(8):e16862 [免费全文] [CrossRef] [Medline］
洪泉，李B, Couris CM, K Fushimi, Graham P, Hider P，等。使用来自6个国家的数据更新和验证出院摘要中Charlson共病指数和风险调整评分。中华流行病学杂志2011年3月15日;173(6):676-682。［CrossRef] [Medline］
Escobar GJ, Greene JD, Scheirer P, Gardner MN, Draper D, Kipnis P.利用自动化住院、门诊和实验室数据库调整医院住院患者死亡率的风险。医疗保健2008年3月46日(3):232-239。［CrossRef] [Medline］
Khwaja A. KDIGO急性肾损伤临床实践指南。肾内科临床杂志2012;40 (4):c179-c184 [免费全文] [CrossRef] [Medline］
Bullard MJ, Chan T, Brayman C, Warren D, Musgrave E, Unger B, CTAS国家工作组成员。修订了加拿大急诊科分诊和敏锐度量表(CTAS)指南。CJEM 2014 11月;16(6):485-489。［Medline］
Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O，等。Scikit-learn: Python中的机器学习。J Mach Learn Res 2011; 12:25 -2830。
Loftus CA, Wiesenfeld LA。老年谵妄护理:使用图表审计目标改善策略。Can Geriatr 2017 Dec;20(4):246-252 [免费全文] [CrossRef] [Medline］
Solberg LM, Plummer CE, May KN, Mion LC。一个质量改进计划，以增加护士在急症医疗单位谵妄的检测。老年护理杂志2013;34(1):75-79 [免费全文] [CrossRef] [Medline］
Rice KL, Bennett M, Gomez M, Theall KP, Knight M, Foreman MD.住院老年人谵妄的护士识别。临床护理杂志2011;25(6):299-311。［CrossRef] [Medline］
李志强，李志强，李志强，等。床边护士使用混淆评估法检测谵妄。中国老年医学杂志2006年4月;54(4):685-689。［CrossRef] [Medline］

‎

凸轮:混淆评估方法

CCS技术:临床分类软件

双子座:全科医学住院病人倡议

诊断结果:《国际疾病分类》第十版

NLP:自然语言处理

犹太人的尊称:研究伦理委员会

ROC-AUC:接收机工作特性曲线下面积

支持向量机:支持向量机

编辑:T Hao;提交21.03.22;M Afshar, F Carini同行评审;对作者27.06.22的评论;订正版本收到22.08.22;接受19.09.22;发表20.12.22

©Lu Wang, Yilun Zhang, Mark Chignell, baizan, Kathleen A Sheehan, Fahad Razak, Amol Verma。最初发表在JMIR医学信息学(https://medinform.www.mybigtv.com)， 20.12.2022。

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息，https://medinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

基于情感的自然语言处理提高谵妄识别的准确性:混合方法研究