原始论文
摘要
背景:低血糖是糖尿病治疗中常见的不良事件。为了有效地应对低血糖,需要开发有效的低血糖预测模型。
摘要目的:本研究的目的是开发和验证机器学习模型,以预测2型糖尿病成人患者发生低血糖的风险。
方法:我们使用了2019年11月至2021年12月期间在华西医院住院的所有2型糖尿病成年患者的电子健康记录。基于XGBoost和自然语言处理技术建立了预测模型。采用F1评分、受试者工作特征曲线下面积(AUC)和决策曲线分析(DCA)作为评价模型性能的主要标准。
结果:我们纳入29843例2型糖尿病患者,其中2804例(9.4%)发生低血糖。在本研究中,嵌入机器学习模型(XGBoost3)表现出了最好的性能。XGBoost的AUC和准确率分别为0.82和0.93。XGboost3在DCA方面也优于其他型号。
结论:段落向量分布式记忆模型可以有效提取特征,提高XGBoost模型的性能,进而有效预测2型糖尿病患者的低血糖。
doi: 10.2196/36958
关键字
简介
糖尿病是一种严重的长期疾病。据估计,到2021年,全球20-79岁人群中的糖尿病患病率为10.5%(5.366亿人),到2045年将升至12.2%(7.832亿人)。2021年与糖尿病相关的全球卫生支出估计为9,660亿美元,预计到2045年将达到1,0540亿美元[
].糖尿病仍然是一个主要的临床和公共卫生问题[ ].低血糖(血糖<3.9 mmol/L或70 mg/dL)是糖尿病治疗中常见的不良事件。3%-18%的住院糖尿病患者发生医院低血糖[
].严重的低血糖通常会引起潜在的危及生命的并发症,并与住院时间延长和死亡率增加有关[ , ].低血糖在老年糖尿病患者中尤为常见[ 60岁以后,患病风险每10年翻一番[ ].许多因素可导致老年患者发生低血糖的高风险,包括药物代谢的生理变化、与年龄相关的肾功能下降、认知能力下降、共病增加和潜在的过度治疗[ , ].由于诱发糖尿病患者低血糖的危险因素很多,有些危险因素在住院期间也可能发生变化,因此识别和预防糖尿病患者的低血糖是一项挑战[ , ].近年来,机器学习被广泛应用于低血糖预测。例如,施罗德等[
]采用Cox预测模型预测6个月低血糖风险。卡特等人[ 开发了一种工具,可以识别出有高血糖风险的2型糖尿病患者。Plis等[ ]描述了预测低血糖事件的支持向量回归模型。此外,Jin等[ 已经将深度学习与自然语言处理(NLP)相结合,可以从电子健康记录(EHR)记录中自动检测低血糖事件。虽然低血糖预测模型已经开发了很多,但仍然需要提高低血糖预测的准确性和有效性。在这项研究中,我们开发了XGBoost集成NLP来预测住院2型糖尿病患者的低血糖风险,使用的数据在电子病历中现成。
方法
我们的队列包括来自四川大学华西医院的2型糖尿病患者。所有患者数据均来自医院的电子病历系统。
伦理批准
本研究获得四川大学华西医院医学伦理委员会(2020-608)批准。华西医院是一所拥有4300张床位的大型教学医院,是中国西部领先的医疗中心[
].病人
我们对2019年11月至2021年12月期间在华西医院住院的所有2型糖尿病患者的可用电子病历进行了回顾性分析。在保护患者隐私的情况下,只检索了与患者住院有关的数据,并根据《国际疾病分类》第10版(ICD-10)确定诊断。采用以下纳入标准:(1)所有基于ICD-10、E11(2型糖尿病)、住院时间为>24小时的2型糖尿病患者;(2) 18岁及以上患者。缺失值超过30%的患者被排除在分析之外[
].患者选择过程如图所示 .![](https://asset.jmir.pub/assets/a53d315649a4ed072615a34505d0720f.png)
变量分析
用于预测2型糖尿病患者低血糖风险的变量包括各种人口统计学、实验室和临床变量,以及EHR记录。变量的提取是基于专家的意见和我们的研究[
- ].这些变量是在入院后的24小时内收集的。通过数据预处理,我们分析了一些缺失的值( ).采用随机森林回归处理所有缺失的数值变量。特性 | 缺失数据,n (%) |
红细胞计数 | 1860 (6.2) |
血红蛋白 | 1858 (6.2) |
血小板计数 | 1883 (6.3) |
白细胞计数 | 1858 (6.2) |
血清总蛋白 | 1791 (6.0) |
白蛋白 | 1768 (5.9) |
球蛋白 | 1812 (6.1) |
尿素 | 1755 (5.9) |
丙氨酸转氨酶 | 1821 (6.1) |
天冬氨酸转氨酶 | 1809 (6.1) |
胆固醇 | 2126 (7.1) |
高密度脂蛋白 | 2128 (7.1) |
低密度脂蛋白 | 2131 (7.1) |
钠 | 1516 (5.1) |
氯 | 1585 (5.3) |
凝血酶时间 | 3970 (13.3) |
肌酸酐 | 1749 (5.9) |
尿酸 | 1769 (5.9) |
c反应蛋白 | 18249 (61.1) |
原降钙素 | 20101 (67.3) |
糖化血红蛋白或HbA1 c一个 | 14410 (48.3) |
凝血酶原时间 | 3725 (12.5) |
激活部分凝血活酶时间 | 3779 (12.7) |
一个HbA1 c:糖化血红蛋白。
变量的选择
在提取完所有变量后,利用XGBoost中的特征重要性参数对重要变量进行筛选[
].参数设置为:估计器数量为100,最大深度设置为6。最终从176个变量中筛选出37个预测变量及其权重( ).![](https://asset.jmir.pub/assets/6ea075fc8597359e80b8e8bc3e89c831.png)
数据不平衡
为了克服低血糖组与血糖正常对照组之间的数据不平衡,我们采用自适应合成(Adaptive Synthetic, ADASYN)采样方法[
过量摄取低血糖组的数据,以生成与血糖正常组的数据相当的部分数据。采用不平衡学习的方法产生低样本量,以改善类的不平衡。我们使用ADASYN对每个分层训练集进行5倍交叉验证和样本平衡。ADASYN是在Python中使用Imblearn实现的(Version 0.9.0;imbalanced-learn文档)( ].采样比设为1。嵌入模型
我们使用了Gensim上的段落向量模型的Python实现[
并在我们的语料库上训练100维向量。由于训练这些语料库的计算时间大,且它们是无标记语料库,我们训练了段落向量或段落向量分布式记忆(PV-DM)的分布式记忆模型[ ]基于糖尿病患者的文献资料( ).使用doc2vec模型对EHR中的主诉(CCs)、当前病史(HPI)和家族史(FH)进行训练和特征映射。将结果融合到XGBoost模型中[
]生成XGBoost1 (XGBoost+CC)、XGBoost2 (XGBoost+CC+HPI)、XGBoost3 (XGBoost+CC+HPI+FH)。![](https://asset.jmir.pub/assets/b71ffc0ca0b16ca777f2b65a535fc1b0.png)
统计分析
作为临床指标,分类变量以计数和百分比表示,连续变量以平均值和SDs表示。组间比较采用双尾分析t连续变量检验和分类变量卡方检验。所有统计分析均在R软件(4.1.2版本;R核心团队)。统计学显著性为P< . 05。本研究的计算环境包括中央处理器i7-7800x;内存16 GB;操作系统Windows 11,编译22598.200;和Python编程语言。
结果
参与者的特征
该队列包括29843例2型糖尿病患者,其中2804例(9.4%)患者出现低血糖。29843例患者中,低血糖组女性患者比例(n=1065, 38.0%)高于正常血糖组(n=9479, 35.1%;P= .002)。低血糖组和正常血糖组患者BMI分别为23.6 (SD 5.24)和24.3 (SD 4.26)。统计上,正常血糖组患者BMI显著高于低血糖组(P<措施)。低血糖组患者使用胰岛素的比例(n=1575, 56.2%)明显高于正常血糖组(n=7306, 27.0%)。低血糖组服用磺酰脲类或那格列奈的患者比例(n=1382, 49.3%)也高于正常血糖组(n=9273, 34.3%),差异有统计学意义(P<措施)。血糖正常组和低血糖组患者的人口统计数据见
.变量 | 血糖正常(血糖>3.9 mmol/L;n = 27039) | 低血糖(血糖<3.9 mmol/L;n = 2804) | P值 | ||
性,n (%) | .002 | ||||
女 | 9479 (35.1) | 1065 (38) | |||
男性 | 17560 (64.9) | 1739 (62) | |||
年龄(年),平均值(SD;范围) | 64.2 (12.3;18 - 104) | 64.8 (12.6;19 - 98) | 03 | ||
BMI,意味着(SD) | 24.3 (4.26) | 23.6 (5.24) | <措施 | ||
胰岛素,n (%) | <措施 | ||||
没有 | 19733 (73) | 1229 (43.8) | |||
是的 | 7306 (27) | 1575 (56.2) | |||
磺酰脲或那格列奈,n (%) | <措施 | ||||
没有 | 17766 (65.7) | 1422 (50.7) | |||
是的 | 9273 (34.3) | 1382 (49.3) |
特征选择
我们应用XGBoost及其集成模型进行特征选择,以丢弃非信息特征并保留重要特征(
).最后,从176个特征中筛选出37个特征。在XGBoost模型中,胰岛素是所有预测变量中最重要的预测变量,其次是性别、呼吸频率、降钙素原和血红蛋白( ).然而,这些变量在XGBoost1、XGBoost2和XGBoost3 ( ).![](https://asset.jmir.pub/assets/3381caf9f2bd400b95c628542b8e287e.png)
模型的性能
展示了4种机器学习方法经过5次交叉验证后的结果。XGBoost3的接收器工作特性曲线下面积(AUC=0.822)和准确性(0.934)均高于其他所有型号。通过AUC和决策曲线分析对XGboost3模型的性能进行评价[ ) ( ).
过采样可能会影响测试集的准确性。在完成模型训练后,我们从2022年1月至3月在华西医院抽取了138例2型糖尿病成年患者(低血糖28例,非低血糖110例)进行验证。结果表明,预测准确率达89.86%。混淆矩阵如
.模型 | 嵌入方法 | AUC,意味着(SD) | 准确性,意味着(SD) | P价值 |
XGBoost | XGBoost | 0.718 (0.0014) | 0.892 (0.002) |
|
XGBoost1 | XGBoost + CCb | 0.785 (0.0012) | 0.919 (0.002) |
|
XGBoost2 | 现病史XGBoost + CC +c | 0.817 (0.0023) | 0.928 (0.001) |
|
XGBoost3 | XGBoost + CC +快乐+跳频d | 0.822 (0.0024) | 0.934 (0.002) |
|
一个N / A:不适用。
b答:主要的投诉。
cHPI:既往病史。
dFH:家族史。
![](https://asset.jmir.pub/assets/03362aead21e5f99fe551395bace5e1c.png)
![](https://asset.jmir.pub/assets/55c36b488556919e2bf7c2bfc3ab29eb.png)
讨论
主要研究结果
在本研究中,我们仅使用患者入院后24小时内的一些常见类型的特征来建立低血糖预测模型,因为低血糖的预测或检测越早,我们越能更好地避免低血糖。这项研究发现,在女性、老年患者、BMI较低的患者以及使用胰岛素或各种降糖药的患者中,2型糖尿病发生低血糖的风险增加。有统计学差异(P<措施)。一些研究表明,这些因素在2型糖尿病患者的低血糖发生率中显著增加[
- ].这可能与女性发生磺酰脲相关低血糖的风险高于男性有关[ ].一个可能的原因是磺酰脲类药物在女性体内的药代动力学和药效学[ ].在2型糖尿病患者中,低BMI可能与胰岛素抵抗降低有关[ ].肥胖患者可以从低体重或正常体重患者使用的相同类型的抗糖尿病药物中获益[ ].这种现象被称为“肥胖悖论”,但其机制尚不清楚。 ].这表明标准BMI或超重是降低2型糖尿病患者严重低血糖风险的关键决定因素[ ].我们开发了基于XGBoost集成PV-DM的低血糖风险预测模型,可应用于2型糖尿病患者。结果表明,XGBoost3预测低血糖的AUC最大,准确率最高。该模型与其他模型有显著差异(P<措施)。与先前的研究一致[
],将数值变量与来自EHR的文本数据相结合,可以有效提高模型的预测性能。将该模型应用于临床,可以帮助医生根据患者特点和低血糖危险因素调整降糖药物。本研究表明,纳入EHR提高了糖尿病患者低血糖的预后准确性,为预测低血糖事件提供了一种更全面和优化的方法。本研究也有一定的局限性。首先,研究是在单一机构中进行的,当应用于不同机构的样本时,模型的性能和协变量的分布可能会不同。第二,本研究涉及中国患者。由于民族差异,本研究结果需要在其他民族中进一步验证。
结论
我们开发了一个多变量风险预测模型来预测2型糖尿病患者低血糖的发生。在该预测模型中,PV-DM模型可以有效地提取EHR笔记,提高XGBoost模型的性能。
该预测模型可帮助预测2型糖尿病患者低血糖的发生,为临床医生提供预防糖尿病患者低血糖的有效方法。在未来的研究中,我们将专注于在更大的2型糖尿病患者队列中对该模型进行外部验证,并探索将最先进的NLP方法与深度学习相结合,以增强模型的预测能力。
作者的贡献
J Liu, HY,和J Li提出了研究的概念。刘j、HY、李j、SL、XY等人对文献和资料进行了收集和分析,并起草了手稿。HY和J Li都是这项研究的第一作者。所有作者审阅并批准了手稿的最终版本。
的利益冲突
没有宣布。
参考文献
- 孙H, Saeedi P, Karuranga S, Pinkepank M, Ogurtsova K, Duncan BB,等。IDF糖尿病地图集:2021年全球、区域和国家层面的糖尿病流行率估计和2045年的预测。糖尿病临床实践2022年1月;183:109119。[CrossRef] [Medline]
- Khan MAB, Hashim MJ, King JK, Govender RD, Mustafa H, Al Kaabi J. 2型糖尿病的流行病学——全球疾病负担和预测趋势。2020年3月10日(1):107-111 [免费的全文] [CrossRef] [Medline]
- 阮艳,谭广光,Lumb A, Rea RD.住院低血糖的重要性:影响、预测和预防。糖尿病医学2019年4月36(4):434-443。[CrossRef] [Medline]
- 尹娟,高珊珊。2型糖尿病患者严重低血糖的避免和应对。韩国J Intern Med 2015年1月30日(1):6-16 [免费的全文] [CrossRef] [Medline]
- Pathak RD, Schroeder EB, Seaquist ER, Zeng C, Lafata JE, Thomas A, SUPREME-DM研究组。2005-2011年,在美国综合卫生保健提供系统中接受治疗的成年糖尿病患者中出现严重低血糖,需要进行医疗干预。糖尿病护理2016年3月39日(3):363-370 [免费的全文] [CrossRef] [Medline]
- 黄ES, Laiteerapong N,刘建勇,John PM, Moffet HH, Karter AJ。老年糖尿病患者的并发症和死亡率:糖尿病和衰老研究。JAMA Intern Med 2014 Feb 01;174(2):251-258 [免费的全文] [CrossRef] [Medline]
- 老年人使用胰岛素:低血糖的风险和护理策略。J Am Geriatr social 2012 Aug;60(8):1564-1570。[CrossRef] [Medline]
- 美国糖尿病协会。老年人:糖尿病医疗护理标准-2020。糖尿病护理2020年1月43日(增刊1):S152-S162。[CrossRef] [Medline]
- 李志军,李志军,李志军,等。了解住院患者的低血糖情况。糖尿病管理杂志(Lond) 2014 3月4日(2):165-176 [免费的全文] [CrossRef] [Medline]
- Mathioudakis NN, Abusamaan MS, Shakarchi AF, Sokolinsky S, Fayzullin S, McGready J,等。预测住院患者医源性低血糖近期风险的机器学习模型的开发和验证JAMA Netw Open 2021年01月04日;4(1):e2030913 [免费的全文] [CrossRef] [Medline]
- 施罗德EB,许s,古德里奇GK,尼科尔斯GA,奥康纳PJ,施泰纳JF。预测成人糖尿病患者6个月严重低血糖的风险:预测模型的发展和外部验证糖尿病并发症杂志2017 july;31(7):1158-1163 [免费的全文] [CrossRef] [Medline]
- Karter AJ, Warton EM, Lipska KJ, Ralston JD, Moffet HH, Jackson GG,等。开发和验证一种工具,以确定急诊或医院使用与低血糖相关的高风险2型糖尿病患者。JAMA Intern Med 2017 Oct 01;177(10):1461-1470 [免费的全文] [CrossRef] [Medline]
- Plis K, Bunescu R, Marling C, Shubrook J, Schwartz F.一种预测糖尿病血糖水平的机器学习方法。AAAI研讨会:现代人工智能健康分析2014年6月18日[免费的全文]
- 金燕,李芳,Vimalananda VG,于浩。糖尿病患者电子病历记录中低血糖事件的自动检测:实证研究。JMIR Med Inform 2019年11月08;7(4):e14340 [免费的全文] [CrossRef] [Medline]
- 四川大学华西医院。URL:http://www.wchscu.cn/Home.html[2022-03-25]访问
- 刘娟,吴娟,刘松,李明,胡坤,李坤。应用XGBoost模型预测ICU急性肾损伤患者死亡率。PLoS One 2021;16(2):e0246306 [免费的全文] [CrossRef] [Medline]
- Silbert R, Salcido-Montenegro A, Rodriguez-Gutierrez R, Katabi A, McCoy RG。2型糖尿病患者的低血糖:流行病学,危险因素和预防策略。Curr Diab Rep 2018年6月21日;18(8):53 [免费的全文] [CrossRef] [Medline]
- Ravaut M, Sadeghi H, Leung KK, Volkovs M, Kornas K, Harish V,等。利用管理健康数据,利用机器学习预测糖尿病并发症的不良结果。NPJ Digit Med 2021 Feb 12;4(1):24 [免费的全文] [CrossRef] [Medline]
- Arvind V, Kim JS, Oermann EK, Kaji D, Cho SK.用机器学习预测成人前路颈椎椎间盘切除术和融合手术的并发症。神经脊柱2018年12月15日(4):329-337 [免费的全文] [CrossRef] [Medline]
- 李凯,石青,刘松,谢艳,刘杰。基于梯度增强决策树的脓毒症ICU住院死亡率预测。医学(巴尔的摩)2021 5月14日;100(19):e25813 [免费的全文] [CrossRef] [Medline]
- Chen T, guestin C. Xgboost:一种可扩展的树提升系统。在:第22届ACM SIGKDD国际会议关于知识发现和数据挖掘的论文集。2016年发表于:KDD '16;8月13 - 17;加利福尼亚州旧金山,785-794页。
- 杨斌,杨海波。基于自适应综合抽样的非平衡学习方法。见:2008年IEEE神经网络国际联合会议(IEEE计算智能世界大会)。2008年发表于IEEE;6月1 - 8;香港第1322-1328页。
- Lemaître G, Nogueira F, Aridas CK。不平衡学习:一个python工具箱,用来解决机器学习中不平衡数据集的诅咒。JMLR 2017 1月18日(1):559-563 [免费的全文]
- Řehůřek R, Sojka P. gensim -统计语义在Python. 2011发表于:EuroScipy;8月25 - 28;巴黎URL:https://www.fi.muni.cz/usr/sojka/posters/rehurek-sojka-scipy2011.pdf
- Le Q, Mikolov T.句子和文档的分布表征。: PMLR。2014年参加:第31届机器学习国际会议;6月,第21到26中国北京p. 1188-1196网址:http://proceedings.mlr.press/v32/le14.pdf
- 维克斯AJ,埃尔金EB。决策曲线分析:一种评价预测模型的新方法。2006;26(6):565-574 [免费的全文] [CrossRef] [Medline]
- 韩凯,尹杰,朴勇,安勇,赵杰,车思,等。成人2型糖尿病患者严重低血糖风险预测模型的开发和验证:一项基于全国人群的队列研究。临床流行病学2018;10:1545-1559 [免费的全文] [CrossRef] [Medline]
- 李世士,金凯,孙凯杰,宋索,朴赫,朴硕,等。韩国2型糖尿病患者严重低血糖的趋势和危险因素。糖尿病Res clinin Pract 2021 Aug;178:108946 [免费的全文] [CrossRef] [Medline]
- Gonzalez C, Monti C, Pinzon A, Monsanto H, Ejzykowicz F,阿根廷Recap集团。阿根廷磺酰脲治疗2型糖尿病患者的低血糖患病率:糖尿病管理(recapa - dm)研究的现实有效性和护理模式内分泌糖尿病杂志2018年12月;65(10):592-602。[CrossRef] [Medline]
- 佳原A,喜多A, Saruwatari J, Oniki K, Morita K, Yamamura M,等。2型糖尿病女性磺酰脲相关低血糖症状的风险更高临床药物调查2015 09;35(9):593-600。[CrossRef] [Medline]
- 药代动力学和药效学的性别差异。临床药学通报2009;48(3):143-157 [免费的全文] [CrossRef] [Medline]
- 蔡涛,李聪,程斌,龚聪,陈峰,沈峰,等。重度低血糖2型糖尿病患者的体重指数-死亡率关系Am J Med science 2015年3月;349(3):192-198 [免费的全文] [CrossRef] [Medline]
- 蔡鑫,杨伟,高鑫,周丽,韩鑫,季磊。基线体重指数与2型糖尿病降糖治疗疗效的meta分析。PLoS One 2016;11(12):e0166625 [免费的全文] [CrossRef] [Medline]
- Gravina G, Ferrari F, Nebbiai G.肥胖悖论与糖尿病。饮食体重失调2021年5月;26(4):1057-1068。[CrossRef] [Medline]
- 王晓燕,王晓燕,王晓燕。肥胖悖论与危重症患者低血糖的关系。Crit Care 2021年11月01日;25(1):378 [免费的全文] [CrossRef] [Medline]
- Arnaud E, Elbattah M, Gignon M, Dequen G.深度学习在分诊时预测住院:结构化数据和非结构化文本的集成。: IEEE。出席:2020 IEEE大数据国际会议(大数据);12月10日;亚特兰大,佐治亚州,4836-4841页。
缩写
ADASYN:自适应合成 |
AUC:接收器工作特性曲线下的面积 |
答:主要的投诉 |
DCA:决策曲线分析 |
电子健康档案:电子健康记录 |
FH:家族病史 |
现病史:现病史 |
诊断结果:《国际疾病分类》第十版 |
NLP:自然语言处理 |
PV-DM:段Vector-Distributed记忆 |
C·洛维斯编辑;提交31.01.22;M Elbattah, A Staffini, E Sükei;对作者27.04.22的评论;修订版收到08.05.22;接受31.05.22;发表16.06.22
版权©杨浩,李佳曦,刘思如,杨晓玲,刘佳林。最初发表在JMIR医学信息学(https://medinform.www.mybigtv.com), 16.06.2022。
这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是必须正确引用最初发表在《JMIR医学信息学》上的原始作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。