这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
谵妄是一种急性神经认知障碍,影响多达一半的老年住院病人,可导致痴呆、住院时间延长、医疗费用增加和死亡。虽然谵妄可以预防和治疗,但很难识别和预测。
这项研究旨在改进机器学习模型,通过使用情感分析的自然语言处理(NLP)技术(在这种情况下,一种识别对谵妄诊断的情绪的特征),回顾性地识别住院期间谵妄的存在(例如,测量谵妄预防干预的有效性)。
利用加拿大医院数据和分析网络“全科医学住院倡议”的数据,对多伦多地区6家医院近4000例入院病例进行了详细的人工审查。此外,25.74%(994/3862)的合格住院患者被标记为谵妄。使用从这项研究中收集的数据集,我们开发了机器学习模型,有和没有应用于诊断成像报告的NLP方法的好处,我们提出了一个问题“NLP能否提高机器学习对谵妄的识别?”
在符合条件的3862例住院患者中,994例(25.74%)被标记为谵妄。模型的鉴定和校准令人满意。采用NLP的主模型在独立测试数据集中的准确率和受试者工作特征曲线下面积分别为0.807和0.930。无NLP的主模型在独立测试数据集中的准确率和受试者工作特征曲线下面积分别为0.811和0.869。在实验中使用的5年期间,模型性能也被发现是稳定的,对可能的未来抵抗试验集的识别并不比对回顾性抵抗试验集的识别差。
我们的机器学习模型包含了NLP(即医学图像描述文本挖掘中的情感分析),使用情感分析对谵妄进行了有效识别,比没有NLP的模型提供了显著的额外好处。
谵妄被描述为“急性脑衰竭”,被认为是一种“医疗紧急情况”和“无声的流行病”[
使用谵妄作为质量指标的一个关键障碍是缺乏一种可靠和可扩展的方法来早期识别谵妄病例。临床医生不善于使用临床格式塔识别谵妄,其识别率在16% - 35%之间[
由于谵妄很难当场识别,人们对谵妄发生后的识别很感兴趣,无论是通过行政图表复查(即寻找证据因素,如使用抗精神病药物)还是通过回顾性识别。理想情况下,谵妄的识别将是前瞻性的,证明了一种方法,以确定那些在发展谵妄的最高风险,针对这些个体的谵妄识别干预。然而,谵妄的回顾性鉴定也可以用于确定谵妄率,这可以作为质量指标和旨在改善质量的干预措施的有效性措施。
许多预测谵妄的模型都是基于已知的诱发和诱发危险因素而开发的[
随着诸如本研究中使用的电子临床数据存储库的日益可用,数据挖掘和机器学习等方法可以补充或取代传统的统计模型[
情感分析使用机器学习和NLP分析作者的情感文本(例如,积极与消极,或者在我们的案例中,谵妄与非谵妄相关的文本)[
我们项目的总体研究目标是回顾性地识别住院期间的谵妄病例,使用从入院到出院的所有可用数据,以估计谵妄率,从而量化与谵妄相关的质量改善干预措施的效果。在本研究中,我们将重点放在方法学目标上,即证明将NLP方法纳入谵妄回顾性鉴定的价值。
全科医学住院病人计划(GEMINI)是加拿大安大略省的一个多机构研究合作项目。GEMINI开发了收集和标准化医院电子临床数据的基础设施和方法。本研究的数据来自6家医院(圣迈克尔医院、多伦多总医院、多伦多西部医院、Trillium Credit Valley医院、Trillium Mississauga医院和Sunnybrook医院)。GEMINI正在成为临床研究和质量测量的丰富资源[
在GEMINI中,管理健康数据与从医院信息系统中提取的临床数据(
数据包含在普通医学住院病人倡议项目。
数据类型 | 病人的细节 | 医生和房间 | 实验室 | 成像 | 药店 | 临床文档 | 微生物学 |
选择变量 |
人口统计资料 并发症 诊断 程序 成本 |
医生详细信息 转移细节 |
生物化学 血液学 输血 |
放射学家诊断和介入成像报告 |
药物治疗 剂量 路线 |
医生命令 生命体征 |
生物 抗菌药物敏感性 收集细节 |
从医院收集患者水平的特征,并报告给加拿大健康信息出院摘要数据库和国家门诊护理报告系统。诊断数据和干预措施采用增编的《加拿大疾病和相关健康问题国际统计分类》和《加拿大健康干预分类》进行编码。
来自GEMINI电子信息系统的数据包括实验室检测结果(生物化学、血液学和微生物学)、输血、住院药物、生命体征、成像报告和病房转移。通过统计质量控制流程和直接数据验证,确保了这些数据关键要素的质量[
本研究报告的谵妄病例是由训练有素的医疗专业人员使用经过验证的方法通过手工病历审查确定的[
我们使用了来自GEMINI数据集的11个数据文件,其中包含3862个根据谵妄状态手动标记的入院记录。数据文件包括临床和管理数据,如中所述
在我们的研究中,我们使用了图表回顾法[
多伦多学术健康科学网络的研究伦理委员会(REB)批准了GEMINI研究(REB参考编号15-087)。REB批准的延期由多伦多统一健康REB(参考编号15-087)发布。Trillium Health Partners获得了单独的REB批准。
这篇论文也是GEMINI子研究的一部分,名为“使用人工智能识别和预测住院医疗患者中的谵妄”,该研究已获得多伦多大学REB的批准(批准编号为38377)。
GEMINI中包含的数据表被合并为一个适合进行机器学习的表工作表。在此之前,从数据表中选择合并相关变量,如下小节所述。
本数据文件共纳入45项医学检测,如血尿素氮、平均细胞体积、高敏肌钙蛋白等。请注意,在每次入院时,并非所有45项医学检查都进行了,尽管有些检查在同一患者中进行了多次。在原始实验室检测数据文件中,每个医学检测实例对应一个单独的记录。我们将实验室测试表转换为每次入场的单行表,其中每列代表不同的测试。由于患者通常接受的是可用测试的一小部分,因此有许多空细胞(即稀疏性),并且一些细胞必须代表同一测试的多个实例。为了解决稀疏变量的问题,我们将它们转换为1或0个标志变量(1表示已执行测试,0表示未执行测试)。对于经常进行的检查,我们记录了每次入院检查结果的最小值、最大值、中值和频率。如果在50%的录取中至少进行了5次测试,我们计算每次录取的测试结果的SD作为额外的汇总测量。
我们首先将《国际疾病分类第十版》(ICD-10)映射到临床分类软件(CCS)的出院诊断代码,这个过程我们之前描述过[
这套特征涵盖了一系列临床干预措施,包括按照加拿大健康干预措施分类编码的外科和内窥镜手术。使用两个变量记录每次入院的干预次数。第一个衍生变量是每次入院进行的干预次数(包括同一干预的重复)。第二个衍生变量计算每次入院的独特干预次数。数据文件中没有使用其他有关干预措施的信息。
我们计算了每次入院的房间转移数量,这是这个数据表中使用的唯一变量。
我们使用了以下临床评分,这些评分是疾病严重程度和患者不良结局风险的标志:
我们对表示急诊分诊时患者病情严重程度的特征应用了单热编码,分诊采用5分量表,由加拿大分诊和敏锐度量表衡量[
我们对表示患者根据住院、出院和转院系统入院和出院的医疗服务类型的特征应用one-hot编码。我们还计算了住院时间,并得出了一个特征来表明患者出院到哪里。
这个文件每次有1行,按原样使用。
只有320名入院患者有特殊护理单元信息,因此我们创建了一个带有二进制编码的标记变量,以表明患者在入院期间是否在特殊护理单元接受过护理。
该医疗数据表仅包含429例包含输血信息的入院病例;因此,我们用二进制编码创建了1列来表示它的存在或不存在。
医学成像数据表包含磁共振图像和计算机断层扫描的文本描述,这些图像经过过滤,仅包括脑或头部成像。与实验室测试数据文件类似,每次成像测试有1行;因此,每次准入可能有多行。如果每次入场都有多个测试,则我们首先将测试中的文本描述连接起来,然后通过清理、标记和向量化对该文件使用文本挖掘。
用于机器学习的数据集代表了从多个来源集成的数据,例如,实验室结果、药物、放射科医生报告和管理数据。我们采用情绪分析来预测有关谵妄状态的情绪。因此,积极(有谵妄)和消极(没有谵妄)状态是一个二元情感,然后在随后的分析中形成了一个新特征。使用这种基于谵妄的文本情感分析,我们创建了一个文本派生的特征,用于估计每次入院的谵妄状态。
在情感分析之前进行了初步的文本分析。文本清理包括大写字母转换、停止词删除、标点符号删除、词内分隔、标记化和词元化,并且使用
然后训练总共8个基线机器学习分类模型进行情感分析,分别是逻辑回归、朴素贝叶斯、支持向量机(SVM)、决策树、随机森林、梯度增强、
最后选择梯度增强作为情感分析方法
我们将这个新功能与10个实验室测试和电子健康记录数据集成在一起,创建了一个完整的数据文件,用于训练和测试机器学习识别模型。
共实施了12种具有预测谵妄状态任务的监督分类算法。涵盖大多数类型机器学习模型的12种机器学习算法如下:
集成机器学习模型:梯度增强分类器、AdaBoost分类器、随机森林和投票分类器软件
非参数机器学习模型:k近邻和决策树
线性参数机器学习模型:逻辑回归、线性支持向量机和线性判别分析
非线性参数机器学习模型:二次判别分析,神经网络:深度学习中的多层感知器分类器
基于贝叶斯的机器学习模型:高斯朴素贝叶斯。
为了建模,我们将集成的完整数据分为2部分,一个训练集和一个测试集。如
在滚动的基础上进行模型训练和测试的数据分割。TS:时间段。
在训练集中,我们使用5倍交叉验证来调整12种机器学习算法的模型参数。然后,我们使用5倍交叉验证的调优参数来确定测试组或拒绝组中每个入院患者的谵妄状态。
我们在holdout测试集上测试模型性能,并计算6个评价指标来找到最佳模型,即accuracy, precision, recall或sensitivity,
准确性回答了我们在所有录取中正确标注了多少录取的问题。
精确性回答了一个问题,即我们预测有谵妄的人中有多少人真的患有谵妄。
敏感性代表被正确标记为患有谵妄的谵妄患者的比例。
特异性回答了有多少阴性病例(即没有谵妄的人)被正确预测的问题。
ROC曲线使用不同阈值设置下的真阳性率和假阳性率进行绘制。计算出的ROC-AUC表明,我们的二元分类器对随机选择的正实例的排名高于随机选择的负实例的概率(假设“正”的排名高于“负”)。
12种机器学习算法,以及超参数调优和交叉验证,都在Python包中实现
梯度增强分类器使用
我们使用超参数调优和前9个时间段的5倍交叉验证来训练这些模型。我们展示了3个表现最好的模型的结果
然后我们测试了我们的谵妄识别(感性或+NLP)模型,该模型将NLP纳入了训练过程。我们将+NLP模型的结果与经过训练的无NLP (-NLP)谵妄识别模型的结果进行了比较,该模型基于GEMINI数据集中最近6个月的数据。在过去6个月的数据中,3个表现最好的模型在预测谵妄标签方面的表现显示在
3种性能最佳算法的模型比较:训练集(2010年4月1日至2014年9月30日)上使用5倍交叉验证的平均训练结果。
模型 | 梯度提升分级机 | 演算法分类器 | 随机森林 | |
|
||||
|
谵妄(+ NLP一个) |
|
0.866 | 0.826 |
|
谵妄(nlp) | 0.797 | 0.795 | 0.768 |
|
||||
|
谵妄(+ NLP) | 0.78 | 0.794 |
|
|
谵妄(nlp) | 0.747 | 0.75 | 0.8 |
|
||||
|
谵妄(+ NLP) |
|
0.649 | 0.398 |
|
谵妄(nlp) | 0.341 | 0.329 | 0.141 |
|
||||
|
谵妄(+ NLP) | 0.935 | 0.942 | 0.975 |
|
谵妄(nlp) | 0.957 | 0.958 |
|
|
||||
|
谵妄(+ NLP) |
|
0.895 | 0.897 |
|
谵妄(nlp) | 0.83 | 0.834 | 0.83 |
|
||||
|
谵妄(+ NLP) |
|
0.712 | 0.529 |
|
谵妄(nlp) | 0.463 | 0.452 | 0.239 |
一个NLP:自然语言处理。
b最高性能值用斜体表示。
cROC-AUC:接收机工作特性曲线下面积。
3种性能最佳算法中3种模型的比较:模型在抵抗集10上的表现(2014年10月1日- 2015年3月31日)。
模型 | 梯度提升分级机 | 演算法分类器 | 随机森林 | |
|
||||
|
谵妄(+ NLP一个) |
|
0.835 | 0.835 |
|
谵妄(nlp) | 0.807 | 0.811 | 0.776 |
|
||||
|
谵妄(+ NLP) | 0.742 | 0.725 |
|
|
谵妄(nlp) | 0.74 | 0.747 | 0.806 |
|
||||
|
谵妄(+ NLP) |
|
0.594 | 0.436 |
|
谵妄(nlp) | 0.406 | 0.421 | 0.188 |
|
||||
|
谵妄(+ NLP) | 0.918 | 0.92 | 0.976 |
|
谵妄(nlp) | 0.949 | 0.949 |
|
|
||||
|
谵妄(+ NLP) | 0.922 | 0.917 |
|
|
谵妄(nlp) | 0.848 | 0.849 | 0.869 |
|
||||
|
谵妄(+ NLP) |
|
0.653 | 0.58 |
|
谵妄(nlp) | 0.524 | 0.538 | 0.305 |
一个NLP:自然语言处理。
b最高性能值用斜体表示。
cROC-AUC:接收机工作特性曲线下面积。
在训练集中,我们提出的谵妄(+NLP)模型在准确性、精密度、回忆或敏感性、率、ROC-AUC和
请注意,
我们还跨时间测试了+NLP和-NLP模型,在使用最近的时间段作为坚持集之前,在9个时间段中每次移动一个坚持集。因此,将每个时间段作为测试集,而将其他9个时间段作为滚动的训练集,如图所示
请注意,在8个面板中的每个面板中显示了2个不同的行
各时间段(TS)训练集和拒绝集的数据分布。注意,阳性入院表明患者在入院时被诊断为谵妄,而阴性入院则不是。
在滚动的基础上设定不同的TS | 训练集 | 抵抗组 | |||||
|
入学人数 | 否定录取人数 | 积极录取人数 | 入学人数 | 否定录取人数 | 积极录取人数 | |
壹空间 | 3541 | 2635 | 906 | 321 | 233 | 88 | |
TS2 | 3531 | 2627 | 904 | 331 | 241 | 90 | |
TS3 | 3494 | 2581 | 913 | 368 | 287 | 81 | |
TS4 | 3488 | 2596 | 892 | 374 | 272 | 102 | |
TS5 | 3526 | 2620 | 906 | 336 | 248 | 88 | |
TS6 | 3479 | 2585 | 894 | 383 | 283 | One hundred. | |
TS7 | 3446 | 2560 | 886 | 416 | 308 | 108 | |
TS8 | 3476 | 2580 | 896 | 386 | 288 | 98 | |
TS9 | 3424 | 2536 | 888 | 438 | 332 | 106 | |
TS10 | 3353 | 2492 | 861 | 509 | 376 | 133 |
在训练和测试数据集的10个时间段(TSs)中,患者年龄和性别的特征数据信息。定义了三个成人年龄组:18-44岁的年轻人,45-64岁的中年人,以及≥65岁的老年人。
TS | 性别 | 年龄 | |||||||||
|
培训 | 测试 | 培训 | 测试 | |||||||
|
男性,n (%) | 女性,n (%) | 男性,n (%) | 女性,n (%) | 青年,n (%) | 中年人,n (%) | 老年人,n (%) | 青年,n (%) | 中年人,n (%) | 老年人,n (%) | |
TS1(训练:n=3541;测试:n = 321) | 1753 (49.51) | 1788 (50.49) | 162 (50.5) | 159 (49.5) | 430 (12.14) | 844 (23.84) | 2267 (64.02) | 36 (11.2) | 81 (25.2) | 204 (63.5) | |
TS2(训练:n=3531;测试:n = 331) | 1736 (49.16) | 1795 (50.84) | 179 (54.1) | 152 (45.9) | 421 (11.92) | 845 (23.93) | 2265 (64.15) | 45 (13.6) | 80 (24.2) | 206 (62.2) | |
TS3(训练:n=3494;测试:n = 368) | 1746 (49.97) | 1748 (50.03) | 169 (45.9) | 199 (54.1) | 417 (11.93) | 845 (24.18) | 2232 (63.88) | 49 (13.3) | 80 (21.7) | 239 (64.9) | |
TS4(训练:n=3488;测试:n = 374) | 1737 (49.8) | 1751 (50.2) | 178 (47.6) | 196 (52.4) | 415 (11.9) | 854 (24.48) | 2219 (63.62) | 51 (13.6) | 71 (18.9) | 252 (67.4) | |
TS5(训练:n=3526;测试:n = 336) | 1748 (49.57) | 1778 (50.43) | 167 (49.7) | 169 (50.3) | 423 (12) | 838 (23.77) | 2265 (64.24) | 43 (12.8) | 87 (25.9) | 206 (61.3) | |
TS6(训练:n=3479;测试:n = 383) | 1728 (49.67) | 1751 (50.33) | 187 (48.8) | 196 (51.2) | 417 (11.99) | 832 (23.91) | 2230 (64.1) | 49 (12.8) | 93 (24.3) | 241 (62.9) | |
TS7(训练:n=3446;测试:n = 416) | 1700 (49.33) | 1746 (50.67) | 215 (51.7) | 201 (48.3) | 415 (12.04) | 833 (24.17) | 2198 (63.78) | 51 (12.3) | 92 (22.1) | 273 (65.6) | |
TS8(训练:n=3476;测试:n = 386) | 1724 (49.6) | 1752 (50.4) | 191 (49.5) | 195 (50.5) | 423 (12.17) | 826 (23.76) | 2227 (64.07) | 43 (11.14) | 99 (25.65) | 244 (63.21) | |
TS9(训练:n=3424;测试:n = 428) | 1702 (49.71) | 1722 (50.29) | 213 (48.6) | 225 (51.34) | 409 (11.95) | 817 (23.86) | 2198 (64.19) | 57 (13.01) | 108 (24.66) | 273 (62.33) | |
TS10(训练:n=3353;测试:n = 509) | 1661 (49.54) | 1692 (50.46) | 254 (49.9) | 255 (50.1) | 424 (12.65) | 791 (23.59) | 2138 (63.76) | 42 (8.25) | 134 (26.33) | 333 (65.42) |
跨数据分割的队列特殊护理单元(SCU)患者特征的数据信息。
TS一个 | 培训 | 测试 | ||
|
在SCU文件中n (%) | 不在SCU文件中,n (%) | 在SCU文件中n (%) | 不在SCU文件中,n (%) |
TS1(训练:n=3541;测试:n = 321) | 291 (8.22) | 3250 (91.78) | 27日(8.4) | 294 (91.6) |
TS2(训练:n=3531;测试:n = 331) | 292 (8.27) | 3239 (91.73) | 26日(7.8) | 305 (92.1) |
TS3(训练:n=3494;测试:n = 368) | 289 (8.27) | 3205 (91.73) | 29 (7.9) | 339 (92.1) |
TS4(训练:n=3488;测试:n = 374) | 285 (8.17) | 3203 (91.83) | 33 (8.8) | 341 (91.2) |
TS5(训练:n=3526;测试:n = 336) | 290 (8.22) | 3236 (91.78) | 28日(8.3) | 308 (91.7) |
TS6(训练:n=3479;测试:n = 383) | 282 (8.11) | 3197 (91.89) | 36 (9.4) | 347 (90.6) |
TS7(训练:n=3446;测试:n = 416) | 286 (8.3) | 3160 (91.7) | 32 (7.7) | 384 (92.3) |
TS8(训练:n=3476;测试:n = 386) | 282 (8.11) | 3194 (91.89) | 36 (9.3) | 350 (90.7) |
TS9(训练:n=3424;测试:n = 428) | 282 (8.24) | 3142 (91.76) | 36 (8.2) | 402 (91.8) |
TS10(训练:n=3353;测试:n = 509) | 283 (8.44) | 3070 (91.56) | 35 (6.9) | 474 (93.1) |
一个TS:时间段。
利用梯度增强分类器显示了两种方案在10个时间段内的性能变化,其中TS1 ~ TS10为:2010年4月1日~ 2010年9月30日;2010年10月1日至2011年3月31日;2011年4月1日至2011年9月30日;2011年10月1日至2012年3月31日;2012年4月1日至2012年9月30日;2012年10月31日至2013年3月31日;2013年4月1日至2013年9月30日;2013年10月1日至2014年3月31日;2014年4月1日至2014年9月30日;2014年10月1日至2015年3月31日。 NLP: natural language processing; ROC-AUC: area under the receiver operating characteristic curve.
梯度增强分类器的标定图。
与最后6个月时间段的结果一样,谵妄(+NLP)模型使用前9个时间段的数据作为坚持集也表现最佳。谵妄(+NLP)模型优于谵妄(-NLP)模型在准确性、精密度、回忆或敏感性、漏报率、ROC-AUC和
总的来说,在预测谵妄的存在方面,包含NLP的机器学习模型要么表现得更好,要么与不包含NLP的模型竞争。谵妄(+NLP)模型的表现在特异性指标上相对较弱,但该指标在不同的坚持集上变化很大,这表明它是一种不太可靠的性能指标。如回忆测量所示,谵妄(+NLP)模型更善于发现真阳性,即对入院者或有真实谵妄标签的患者识别谵妄。谵妄(+NLP)模型在4个方案中表现最好,在灵敏度方面具有持续的高性能,
先前的谵妄风险识别模型倾向于使用一套有限的机器学习方法[
先前的研究发现,与研究的临床评估相比,使用CAM等工具的常规临床筛查少报了高达75%的谵妄病例[
谵妄(+NLP)模型提供了识别谵妄病例之间的最佳平衡,在他们存在的地方,而不是错误地将非谵妄病例标记为谵妄。基线谵妄方案在检测真阴性时表现更好。这可能是因为我们的GEMINI数据集不平衡,75%的入院患者为非谵妄;因此,一个差调的模型可以通过偏向于预测非谵妄获得更好的准确性。
处理精度和召回率之间权衡的一种方法是使用
我们的谵妄(+NLP)方法将NLP派生的特征集成到多源医疗数据中,以提高模型的性能和有用性。这种方法也可以扩展到其他医疗识别环境。
这种方法有几个重要的应用,包括质量测量和质量改进,研究项目中的统计风险调整,以及回顾性队列中的大规模观察研究。目前还没有可扩展的解决方案来回顾性地识别医院中谵妄的发生,CAM没有得到充分利用,可能是因为缺乏训练有素的临床资源。我们一致认为,谵妄的前瞻性预测在临床上是有用的,关于这一主题的研究正在进行中。然而,回顾性预测对于质量管理目的和评估预防谵妄的干预措施的有效性也很重要。通常,CAM的实现很差,使用也很少[
谵妄在常规数据源中未被识别的一个主要原因是它的记录经常不一致,使用了各种同义词(例如,混乱和意识水平的改变)。唯一经过验证的、高质量的回顾性识别谵妄的方法是基于图表的谵妄识别仪器复查方法,我们将其作为训练机器学习模型的金标准标记方法。这种方法是时间密集型的,每张医院图表需要1个小时。因此,它不容易应用于大型数据集。因此,开发可以使用常规收集的临床和行政卫生保健数据的模型代表了对文献的重大贡献,因为它们可以使依赖于谵妄病例回顾性识别的研究和高质量应用成为可能。
建立能够在住院时或住院期间实时预测谵妄风险的模型是可取的。开发这些模型的一个障碍是有足够大的数据集来训练它们。我们的模型试图对有谵妄或没有谵妄的住院进行回顾性准确分类,然后可以用于标记(使用模型预测)大型数据集,然后可以用于生成质量估计,并为进一步的模型预测提供基础。
谵妄是一种非常普遍、可预防和可治疗的神经认知障碍,如果不治疗,其预后非常差。它的特点是急性发作的精神状态波动、精神运动障碍和幻觉,而且很难发现,因为症状通常可以归因于其他原因。通过谵妄或谵妄风险的自动识别,更好的谵妄预测将为更高质量的护理创造机会。在本文报道的研究中,我们已经证明,与没有NLP的标准机器学习方法相比,NLP方法的结合可以显著提高识别能力。我们还表明,随着时间的推移,改变坚持期可以估计模型识别的时间稳定性。这种类型的平稳性分析的另一个有用的特征是,它可以用来确定表现出非平稳性的不可靠评估标准,并确定就其有效性随时间的变化而言非平稳性的模型。在这项研究中,我们发现精度是一个不可靠的标准,在不同时期有很大的波动。
本研究的结果证明了NLP在识别重要的医疗结果方面的价值,我们建议未来的研究应集中在(1)将NLP应用于医疗记录以提取更多有价值的信息;(2)通过添加解释来增强谵妄(+NLP)模型,使所得到的模型更具消耗性,更容易集成到临床工作流程中。
神经网络、决策树、逻辑回归、线性支持向量机、高斯朴素贝叶斯、线性判别分析、二次判别分析、投票分类器等9种算法在训练集(2010年4月1日至2014年9月30日)上使用5倍交叉验证的模型与平均训练结果的比较。
3种模型在其他9种算法中的比较:模型在抵抗集10上的表现(2014年10月1日- 2015年3月31日)。
混淆评估方法
临床分类软件
全科医学住院病人倡议
《国际疾病分类》第十版
自然语言处理
研究伦理委员会
接收机工作特性曲线下面积
支持向量机
作者要感谢加拿大健康研究基金会和国家科学与工程研究委员会通过合作健康研究项目赠款(申请号415033)资助这项工作。
没有宣布。