发表在gydF4y2Ba在gydF4y2Ba第3卷第1期(2022):1 - 12月gydF4y2Ba

本文的预印本(早期版本)可在gydF4y2Bahttps://preprints.www.mybigtv.com/preprint/37951gydF4y2Ba,首次出版gydF4y2Ba.gydF4y2Ba
使用排序模型预测糖尿病患者的治疗中止:机器学习模型开发gydF4y2Ba

使用排序模型预测糖尿病患者的治疗中止:机器学习模型开发gydF4y2Ba

使用排序模型预测糖尿病患者的治疗中止:机器学习模型开发gydF4y2Ba

原始论文gydF4y2Ba

1gydF4y2Ba日本电报电话公司,东京,日本gydF4y2Ba

2gydF4y2Ba东京大学医院医疗保健信息管理系,日本东京gydF4y2Ba

3.gydF4y2BaNTT DOCOMO,株式会社,日本东京gydF4y2Ba

4gydF4y2BaNTT-AT IPS公司,神奈川,日本gydF4y2Ba

5gydF4y2Ba国家儿童健康与发展中心,日本东京gydF4y2Ba

*这些作者贡献相同gydF4y2Ba

通讯作者:gydF4y2Ba

Kayo Waki,公共卫生硕士,医学博士gydF4y2Ba

医疗保健信息管理部gydF4y2Ba

东京大学医院gydF4y2Ba

本哥7-3-1,文教区gydF4y2Ba

东京,113 - 8655gydF4y2Ba

日本gydF4y2Ba

电话:81 3 5800 9077gydF4y2Ba

电子邮件:gydF4y2Bakwaki-tky@m.u-tokyo.ac.jpgydF4y2Ba


背景:gydF4y2Ba治疗中断(TD)是糖尿病治疗中的主要预后问题之一,已经提出了一些模型来预测糖尿病患者可能导致TD的错过预约,通过使用二元分类模型来早期发现TD并为患者提供干预支持。然而,由于二元分类模型输出的是在预先确定的时间段内发生错过预约的概率,因此它们在估计预约间隔不一致的患者TD风险程度方面的能力有限,因此很难优先考虑应该为哪些患者提供干预支持。gydF4y2Ba

摘要目的:gydF4y2Ba本研究旨在开发一种机器学习预测模型,该模型可以输出TD风险评分,评分由TD发生的时间长短决定,并根据TD风险对患者进行优先干预。gydF4y2Ba

方法:gydF4y2Ba该模型包括2012年9月3日至2014年5月17日在东京大学医院接受糖尿病诊断的患者。从2014年5月18日到2016年1月29日,该模型在同一家医院的患者中进行了内部验证。本研究使用的数据包括7551名2004年1月1日后就诊的患者,他们的诊断代码表明患有糖尿病。特别是使用了2012年9月3日至2016年1月29日期间在电子病历中记录的数据。主要结果是患者的TD,其定义为错过了预定的临床预约,并且在患者就诊之间的平均天数的3倍内和60天内没有去医院就诊。TD风险评分是通过使用从机器学习排名模型中得出的参数来计算的。除使用校准图外,还使用带有患者排序性能c指数、受试者工作特征曲线下面积和区分精度-召回曲线下面积的测试数据来评估预测能力。gydF4y2Ba

结果:gydF4y2BaTD风险评分的c指数、受试者工作特征曲线下面积和精度-召回曲线下面积的均值(95%置信限)分别为0.749(0.655,0.823)、0.758(0.649,0.857)和0.713(0.554,0.841)。观测到的和预测的概率与校准图相关。gydF4y2Ba

结论:gydF4y2Ba通过将机器学习方法与电子病历相结合,为糖尿病患者开发了TD风险评分。积分计算可以整合到病历中,以识别TD的高风险患者,这将有助于支持糖尿病护理和预防TD。gydF4y2Ba

JMIR Bioinform生物技术2022;3(1):e37951gydF4y2Ba

doi: 10.2196/37951gydF4y2Ba

关键字gydF4y2Ba



背景gydF4y2Ba

糖尿病是一种慢性疾病,需要自我管理和长期管理。血糖控制不良会增加并发症的风险,包括心脑血管疾病以及大血管和微血管疾病,如肾病、视网膜病变和神经病变[gydF4y2Ba1gydF4y2Ba-gydF4y2Ba4gydF4y2Ba].为了防止这些并发症的发展,坚持饮食、锻炼和药物治疗是必要的。gydF4y2Ba5gydF4y2Ba].非依从性已被证明会增加发病风险[gydF4y2Ba4gydF4y2Ba]和全因死亡率[gydF4y2Ba6gydF4y2Ba].gydF4y2Ba

停止治疗(TD),定义为停止常规医疗护理,可能导致血糖控制恶化和并发症进展[gydF4y2Ba3.gydF4y2Ba,gydF4y2Ba4gydF4y2Ba].糖尿病患者的TD比率相当高,在英国为4%至19% [gydF4y2Ba3.gydF4y2Ba,gydF4y2Ba4gydF4y2Ba],美国为12%至50% [gydF4y2Ba7gydF4y2Ba,gydF4y2Ba8gydF4y2Ba],而日本则为13.5%至56.9% [gydF4y2Ba9gydF4y2Ba,gydF4y2Ba10gydF4y2Ba].此外,先前停止治疗的患者重复TD的风险比从未停止治疗的患者高3倍[gydF4y2Ba11gydF4y2Ba].gydF4y2Ba

之前的工作gydF4y2Ba

预防TD在糖尿病的管理中至关重要,一些研究已经统计分析了TD的相关因素[gydF4y2Ba6gydF4y2Ba-gydF4y2Ba8gydF4y2Ba,gydF4y2Ba12gydF4y2Ba].先前确定的因素包括年龄较低[gydF4y2Ba6gydF4y2Ba,gydF4y2Ba13gydF4y2Ba]、吸烟[gydF4y2Ba6gydF4y2Ba,gydF4y2Ba14gydF4y2Ba],血糖控制不佳[gydF4y2Ba6gydF4y2Ba,gydF4y2Ba13gydF4y2Ba,gydF4y2Ba15gydF4y2Ba,gydF4y2Ba16gydF4y2Ba]、高血压[gydF4y2Ba13gydF4y2Ba]、肥胖[gydF4y2Ba9gydF4y2Ba]、药物[gydF4y2Ba12gydF4y2Ba,gydF4y2Ba16gydF4y2Ba]、就业状况[gydF4y2Ba8gydF4y2Ba,gydF4y2Ba17gydF4y2Ba],区域[gydF4y2Ba18gydF4y2Ba]、交通障碍[gydF4y2Ba7gydF4y2Ba,gydF4y2Ba19gydF4y2Ba,gydF4y2Ba20.gydF4y2Ba]、临床预约[gydF4y2Ba20.gydF4y2Ba],以及并发症[gydF4y2Ba21gydF4y2Ba].最常用的统计假设检验是gydF4y2BatgydF4y2Ba检验和卡方检验。然而,回顾[gydF4y2Ba22gydF4y2Ba]指出了与TD相关的多种多层次因素,但结果不一致。临床医生很难仔细辨别每个病人TD的风险。gydF4y2Ba

机器学习(ML)可能通过考虑各种各样的因素来预测每个患者的TD风险。统计数据集中在gydF4y2Ba用数据解释结果gydF4y2Ba,而ML则专注于gydF4y2Ba用数据预测结果gydF4y2Ba[gydF4y2Ba23gydF4y2Ba].尽管ML不能识别一致的因素,但它可以告诉临床医生谁是TD的高危患者。它可以帮助临床医生把花在识别高风险患者上的时间转移到鼓励他们继续治疗上。根据Carreras-García等人的系统回顾[gydF4y2Ba24gydF4y2Ba],大多数研究将其模型设计为二元分类问题[gydF4y2Ba25gydF4y2Ba该系统根据预约是否按时完成来对预约进行分类。此外,最常用的模型是逻辑回归,最常用的指标是受试者工作特征曲线下面积(AUROC)。然而,由于二元分类输出了在预定的时间段后发生漏诊(MA)的概率,因此它在估计预约间隔不一致的患者TD风险程度方面的能力有限。即使患者错过了预约,如果保持就诊频率,使其病情此后没有恶化,患者的TD风险也会很低。MA是TD的必要条件,但不是充分条件。gydF4y2Ba

本研究的目的gydF4y2Ba

在这项研究中,我们旨在开发一种通过ML计算TD风险的新方法。我们设计了一个TD的预测模型,作为一个数据不平衡的排名问题,根据患者到TD的时间长短进行比较。排名问题[gydF4y2Ba26gydF4y2Ba]是生存时间分析的应用[gydF4y2Ba27gydF4y2Ba].考克斯回归[gydF4y2Ba28gydF4y2Ba]通常用于统计分析,而ML则使用排序模型[gydF4y2Ba29gydF4y2Ba-gydF4y2Ba31gydF4y2Ba].Cox回归是一种风险函数模型,其中解释变量对结果的影响是预先确定的,需要假设它们随时间保持不变[gydF4y2Ba28gydF4y2Ba].相比之下,排名模型不需要这样的假设,并灵活地使用变量。此外,由于人们担心学习模型对TD病例比对继续治疗(TC)病例有更大的偏向,因此采样是根据不平衡数据的发现设计的。gydF4y2Ba

本工作的贡献如下:gydF4y2Ba

  1. 本研究将TD的预测模型设计为数据不平衡的排序问题,允许将患者TD的风险与TD前剩余时间进行比较。这是第一个使用机器学习排名模型来预测TD的研究。gydF4y2Ba
  2. 该模型得到的TD风险评分c指数的平均值(95%置信限)为0.749(0.655,0.823)。高于Cox回归模型得到的0.662 (0.574,0.748);AUROC和精确召回曲线下面积(AUPRC)的结果相似。gydF4y2Ba

伦理批准gydF4y2Ba

本研究由东京大学医学研究生院和医学院的研究伦理委员会批准(批准号:10705),并根据赫尔辛基宣言进行。获得知情同意,并提供选择不参与的机会。gydF4y2Ba

研究人群gydF4y2Ba

所有数据均来自东京大学医院的电子健康记录(EHRs),其中包括7551名在2004年1月1日之后就诊的患者,他们的诊断代码表明患有糖尿病。患者在训练和测试数据中的特征显示在gydF4y2Ba表1gydF4y2Ba.gydF4y2Ba

表1。患者特征的训练和测试数据。gydF4y2Ba
特征gydF4y2Ba 训练数据(n=6509)gydF4y2Ba 试验数据(n=1042)gydF4y2Ba
集团gydF4y2Ba 道明gydF4y2Ba一个gydF4y2Ba3.13% (n = 204)gydF4y2Ba TCgydF4y2BabgydF4y2Ba96.86% (n = 6305)gydF4y2Ba TD (n=38, 3.65%)gydF4y2Ba TC (n=1004, 96.35%)gydF4y2Ba
预约次数,平均值(SD)gydF4y2Ba 4.8 (3.3)gydF4y2Ba 10.4 (5.0)gydF4y2Ba 3.1 (2.6)gydF4y2Ba 5.8 (4.1)gydF4y2Ba
缺席预约次数,平均值(SD)gydF4y2Ba 1.6 (1.2)gydF4y2Ba 1.6 (1.2)gydF4y2Ba 1.2 (0.5)gydF4y2Ba 1.3 (0.7)gydF4y2Ba
年龄(年),平均值(SD)gydF4y2Ba 62.6 (15.9)gydF4y2Ba 66.0 (12.6)gydF4y2Ba 59.9 (15.0)gydF4y2Ba 61.1 (14.1)gydF4y2Ba

<20, n (%)gydF4y2Ba 0 (0)gydF4y2Ba 3 (0.05)gydF4y2Ba 0 (0)gydF4y2Ba 1 (0.10)gydF4y2Ba

20-30, n (%)gydF4y2Ba 5 (2.50)gydF4y2Ba 45 (0.71)gydF4y2Ba 1 (3)gydF4y2Ba 25 (2.49)gydF4y2Ba

30-40, n (%)gydF4y2Ba 14 (6.90)gydF4y2Ba 204 (3.24)gydF4y2Ba 4 (11)gydF4y2Ba 63 (6.27)gydF4y2Ba

40-50, n (%)gydF4y2Ba 28日(13.70)gydF4y2Ba 452 (7.17)gydF4y2Ba 6 (16)gydF4y2Ba 117 (11.65)gydF4y2Ba

50-60, n (%)gydF4y2Ba 31 (15.20)gydF4y2Ba 883 (14)gydF4y2Ba 6 (16)gydF4y2Ba 188 (18.73)gydF4y2Ba

60-70, n (%)gydF4y2Ba 47 (23)gydF4y2Ba 1950 (30.93)gydF4y2Ba 8 (21)gydF4y2Ba 310 (30.88)gydF4y2Ba

≥70,n (%)gydF4y2Ba 79 (38.70)gydF4y2Ba 2768 (43.90)gydF4y2Ba 13 (34)gydF4y2Ba 300 (29.88)gydF4y2Ba
性别,n (%)gydF4y2Ba

男性gydF4y2Ba 127 (63.30)gydF4y2Ba 3777 (59.90)gydF4y2Ba 25 (66)gydF4y2Ba 594 (59.16)gydF4y2Ba

女gydF4y2Ba 77 (37.70)gydF4y2Ba 2528 (40.10)gydF4y2Ba 13 (34)gydF4y2Ba 410 (40.84)gydF4y2Ba
住院时间间隔(天),平均值(SD)gydF4y2Ba 65.9 (33.1)gydF4y2Ba 57.3 (23.9)gydF4y2Ba 56.2 (65.5)gydF4y2Ba 49.0 (21.0)gydF4y2Ba

<30, n (%)gydF4y2Ba 4 (2)gydF4y2Ba 283 (4.49)gydF4y2Ba 7 (18)gydF4y2Ba 127 (12.65)gydF4y2Ba

30-60, n (%)gydF4y2Ba 72 (35.30)gydF4y2Ba 3237 (51.34)gydF4y2Ba 15 (39)gydF4y2Ba 511 (50.90)gydF4y2Ba

60-90, n (%)gydF4y2Ba 66 (32.30)gydF4y2Ba 2140 (33.94)gydF4y2Ba 3 (8)gydF4y2Ba 177 (17.63)gydF4y2Ba

≥90,n (%)gydF4y2Ba 26日(12.80)gydF4y2Ba 415 (6.58)gydF4y2Ba 2 (5)gydF4y2Ba 39 (3.88)gydF4y2Ba
首次到访n (%)gydF4y2Ba 36 (17.70)gydF4y2Ba 230 (3.65)gydF4y2Ba 11 (29)gydF4y2Ba 150 (14.94)gydF4y2Ba
HbAgydF4y2Ba1 cgydF4y2BacgydF4y2Ba(NGSPgydF4y2BadgydF4y2Ba),%,平均值(SD)gydF4y2Ba 7.1 (1.2)gydF4y2Ba 7.0 (1.0)gydF4y2Ba 7.0 (1.1)gydF4y2Ba 7.0 (1.1)gydF4y2Ba

<6, n (%)gydF4y2Ba 31 (15.20)gydF4y2Ba 770 (12.21)gydF4y2Ba 6 (16)gydF4y2Ba 118 (11.75)gydF4y2Ba

6-7, n (%)gydF4y2Ba 64 (31.40)gydF4y2Ba 2281 (36.18)gydF4y2Ba 12 (32)gydF4y2Ba 382 (38.05)gydF4y2Ba

7-8, n (%)gydF4y2Ba 48 (23.50)gydF4y2Ba 1788 (28.36)gydF4y2Ba 9 (24)gydF4y2Ba 285 (28.39)gydF4y2Ba

≥8,n (%)gydF4y2Ba 33 (16.20)gydF4y2Ba 632 (10.02)gydF4y2Ba 4 (11)gydF4y2Ba 148 (14.74)gydF4y2Ba

缺失值,n (%)gydF4y2Ba 28日(13.70)gydF4y2Ba 834 (13.23)gydF4y2Ba 7 (18)gydF4y2Ba 71 (7.07)gydF4y2Ba
TGgydF4y2BaegydF4y2Ba, mg/dL,平均值(SD)gydF4y2Ba 182.2 (167.4)gydF4y2Ba 143.5 (96.5)gydF4y2Ba 199.0 (239.1)gydF4y2Ba 160.5 (120.9)gydF4y2Ba

<30, n (%)gydF4y2Ba 0 (0)gydF4y2Ba 4 (0.06)gydF4y2Ba 0 (0)gydF4y2Ba 0 (0)gydF4y2Ba

30-150, n (%)gydF4y2Ba 91 (44.60)gydF4y2Ba 3601 (57.11)gydF4y2Ba 15 (39)gydF4y2Ba 550 (54.78)gydF4y2Ba

150-300, n (%)gydF4y2Ba 65 (31.90)gydF4y2Ba 1631 (25.87)gydF4y2Ba 10 (26)gydF4y2Ba 291 (28.98)gydF4y2Ba

300-750, n (%)gydF4y2Ba 16 (7.80)gydF4y2Ba 213 (3.38)gydF4y2Ba 3 (8)gydF4y2Ba 72 (7.17)gydF4y2Ba

≥750,n (%)gydF4y2Ba 3 (1.50)gydF4y2Ba 11 (0.17)gydF4y2Ba 1 (3)gydF4y2Ba 6 (0.60)gydF4y2Ba

缺失值,n (%)gydF4y2Ba 29 (14.20)gydF4y2Ba 845 (13.40)gydF4y2Ba 9 (24)gydF4y2Ba 85 (8.47)gydF4y2Ba
高密度脂蛋白gydF4y2BafgydF4y2Ba, mg/dL,平均值(SD)gydF4y2Ba 58.6 (15)gydF4y2Ba 60.6 (16.9)gydF4y2Ba 54.4 (20.3)gydF4y2Ba 56.6 (16.8)gydF4y2Ba

<20, n (%)gydF4y2Ba 0 (0)gydF4y2Ba 2 (0.03)gydF4y2Ba 0 (0)gydF4y2Ba 0 (0)gydF4y2Ba

20到<40,n (%)gydF4y2Ba 15 (7.40)gydF4y2Ba 387 (6.14)gydF4y2Ba 8 (21)gydF4y2Ba 130 (12.95)gydF4y2Ba

40到<100,n (%)gydF4y2Ba 159 (77.90)gydF4y2Ba 4882 (77.43)gydF4y2Ba 20 (52)gydF4y2Ba 759 (75.60)gydF4y2Ba

≥100,n (%)gydF4y2Ba 3 (1.50)gydF4y2Ba 126 (2)gydF4y2Ba 1 (3)gydF4y2Ba 15 (1.49)gydF4y2Ba

缺失值,n (%)gydF4y2Ba 27日(13.20)gydF4y2Ba 908 (14.40)gydF4y2Ba 9 (24)gydF4y2Ba 100 (9.96)gydF4y2Ba
低密度脂蛋白gydF4y2BaggydF4y2Ba, mg/dL,平均值(SD)gydF4y2Ba 121.6 (31.3)gydF4y2Ba 111.6 (26.8)gydF4y2Ba 119.9 (33.7)gydF4y2Ba 113.0 (35.0)gydF4y2Ba

<60, n (%)gydF4y2Ba 2 (1)gydF4y2Ba 107 (1.70)gydF4y2Ba 1 (3)gydF4y2Ba 26日(2.59)gydF4y2Ba

60-120, n (%)gydF4y2Ba 64 (31.40)gydF4y2Ba 2700 (42.82)gydF4y2Ba 7 (18)gydF4y2Ba 338 (33.67)gydF4y2Ba

120-140, n (%)gydF4y2Ba 36 (17.70)gydF4y2Ba 988 (15.67)gydF4y2Ba 2 (5)gydF4y2Ba 125 (12.45)gydF4y2Ba

≥140,n (%)gydF4y2Ba 32 (15.70)gydF4y2Ba 532 (8.44)gydF4y2Ba 5 (13)gydF4y2Ba 120 (11.95)gydF4y2Ba

缺失值,n (%)gydF4y2Ba 70 (34.30)gydF4y2Ba 1978 (31.37)gydF4y2Ba 23 (61)gydF4y2Ba 395 (39.34)gydF4y2Ba
TChogydF4y2BahgydF4y2Ba, mg/dL,平均值(SD)gydF4y2Ba 201.6 (44.5)gydF4y2Ba 189.5 (32.8)gydF4y2Ba 193.3 (36.6)gydF4y2Ba 192.9 (43.4)gydF4y2Ba

<130, n (%)gydF4y2Ba 2 (1)gydF4y2Ba 152 (2.41)gydF4y2Ba 1 (3)gydF4y2Ba 50 (4.98)gydF4y2Ba

130-220, n (%)gydF4y2Ba 111 (54.40)gydF4y2Ba 4202 (66.65)gydF4y2Ba 20 (53)gydF4y2Ba 650 (64.74)gydF4y2Ba

220-240, n (%)gydF4y2Ba 23日(11.30)gydF4y2Ba 516 (8.18)gydF4y2Ba 6 (16)gydF4y2Ba 97 (9.66)gydF4y2Ba

240-280, n (%)gydF4y2Ba 15 (7.40)gydF4y2Ba 246 (3.90)gydF4y2Ba 1 (3)gydF4y2Ba 77 (7.67)gydF4y2Ba

≥280,n (%)gydF4y2Ba 5 (2.50)gydF4y2Ba 43 (0.68)gydF4y2Ba 0 (0)gydF4y2Ba 29 (2.89)gydF4y2Ba

缺失值,n (%)gydF4y2Ba 48 (23.50)gydF4y2Ba 1146 (18.18)gydF4y2Ba 10 (26)gydF4y2Ba 101 (10.06)gydF4y2Ba

一个gydF4y2BaTD:停止治疗。gydF4y2Ba

bgydF4y2BaTC:继续治疗。gydF4y2Ba

cgydF4y2BaHbAgydF4y2Ba1 cgydF4y2Ba:血红蛋白AgydF4y2Ba1 cgydF4y2Ba.gydF4y2Ba

dgydF4y2Ba国家糖蛋白标准化项目。gydF4y2Ba

egydF4y2BaTG:甘油三酸酯。gydF4y2Ba

fgydF4y2BaHDL:高密度脂蛋白。gydF4y2Ba

ggydF4y2BaLDL:低密度脂蛋白。gydF4y2Ba

hgydF4y2BaTCho:总胆碱。gydF4y2Ba

这些数据记录于2012年9月3日至2016年1月29日期间的电子病历中。如gydF4y2Ba图1gydF4y2Ba,基于日历日期,三分之二的数据(天数:828/1243,66.6%)用于培训(2012年9月3日至2014年5月17日),其余三分之一(天数:415/1243,33.4%)用于测试(2014年5月18日至2016年1月29日)。用于训练的记录不用于测试,以确保同一患者不包括在两组中。训练组共6509例(204例TD),试验组共1042例(38例TD)。gydF4y2Ba

‎gydF4y2Ba
图1。病人选择和数据预处理说明。TD:停止治疗。gydF4y2Ba
查看此图gydF4y2Ba

TD的定义gydF4y2Ba

患者的TD定义为错过预定的临床预约,并且在患者就诊之间平均天数的3倍内和60天内没有去医院就诊。每位患者的平均访视天数从最近3天开始计算。换句话说,如果访问间隔的平均天数的3倍大于60天,则使用60天作为阈值。否则,以平均访问天数的3倍作为阈值。gydF4y2Ba

其他研究将TD定义为超过特定时间阈值(1天至6个月之间)的医院就诊次数不足[gydF4y2Ba6gydF4y2Ba-gydF4y2Ba8gydF4y2Ba,gydF4y2Ba12gydF4y2Ba-gydF4y2Ba21gydF4y2Ba].当阈值设置为60天时,训练数据中检出TD 336例,测试数据中检出TD 65例,但有就诊间隔时间越长的患者更容易被判断为TD病例的趋势。对于就诊间隔不一致的门诊患者来说,设置适当的阈值并不容易。接下来,当阈值设置为平均访视天数的3倍时,在训练数据中检测到218例TD,在测试数据中检测到54例TD,但访视间隔较短的患者往往更容易被判断为TD病例或判断为有TD风险。因此,我们在定义中包含了这两个条件。gydF4y2Ba

为了确保TD的准确检测,合著者之一的医生验证了上述定义是符合的,并排除了患者死亡或护理环境变化的情况。gydF4y2Ba

治疗至停药时间gydF4y2Ba

治疗时间用两种方法测量。首先,TD (gydF4y2BapgydF4y2Ba米gydF4y2BatgydF4y2Ba米gydF4y2Ba)定义为离该日期的天数gydF4y2BatgydF4y2Ba米gydF4y2Ba与患者因TD而错过的临床预约有关gydF4y2BapgydF4y2Ba米gydF4y2Ba患有TD(或可能患有TD)的人。在第二种方式中,TC (gydF4y2BapgydF4y2BangydF4y2BatgydF4y2BangydF4y2Ba)定义为离该日期的天数gydF4y2BatgydF4y2BangydF4y2Ba到病人最近的就诊记录gydF4y2BapgydF4y2BangydF4y2Ba没有TD。gydF4y2Ba

例如,如gydF4y2Ba图2gydF4y2Ba,在患者A的情况下,有30天gydF4y2BatgydF4y2Ba一个gydF4y2Ba转至最近的访视记录,因此TC (gydF4y2BapgydF4y2Ba一个gydF4y2BatgydF4y2Ba一个gydF4y2Ba)设定为30天。在患者C的情况下,有60天gydF4y2BatgydF4y2BaCgydF4y2Ba与TD相关的错过临床预约,因此TD (gydF4y2BapgydF4y2BaCgydF4y2BatgydF4y2BaCgydF4y2Ba)设定为60天。gydF4y2Ba

‎gydF4y2Ba
图2。停止治疗(TD)风险价值的例子。TC:继续治疗;W:权向量;X:特征向量。gydF4y2Ba
查看此图gydF4y2Ba

类的设计gydF4y2Ba

的分类gydF4y2BaygydF4y2Bam, ngydF4y2Ba是基于一对治疗长度的差异。在这里,gydF4y2BaygydF4y2Bam, ngydF4y2Ba=+1对TD (gydF4y2BapgydF4y2Ba米gydF4y2BatgydF4y2Ba米gydF4y2Ba)gydF4y2BapgydF4y2Ba米gydF4y2Ba还有日期gydF4y2BatgydF4y2Ba米gydF4y2Ba及TD (gydF4y2BapgydF4y2BangydF4y2BatgydF4y2BangydF4y2Ba)gydF4y2BapgydF4y2BangydF4y2Ba还有日期gydF4y2BatgydF4y2BangydF4y2Ba如果TD (gydF4y2BapgydF4y2Ba米gydF4y2BatgydF4y2Ba米gydF4y2Ba)比TD (gydF4y2BapgydF4y2BangydF4y2BatgydF4y2BangydF4y2Ba)gydF4y2Ba和一对TD (gydF4y2BapgydF4y2Ba米gydF4y2BatgydF4y2Ba米gydF4y2Ba)及TC (gydF4y2BapgydF4y2BangydF4y2BatgydF4y2BangydF4y2Ba)如果TD (gydF4y2BapgydF4y2Ba米gydF4y2BatgydF4y2Ba米gydF4y2Ba)比TC (gydF4y2BapgydF4y2BangydF4y2BatgydF4y2BangydF4y2Ba).gydF4y2BaygydF4y2Bam, ngydF4y2Ba= -1对TD (gydF4y2BapgydF4y2Ba米gydF4y2BatgydF4y2Ba米gydF4y2Ba)及TD (gydF4y2BapgydF4y2BangydF4y2BatgydF4y2BangydF4y2Ba)如果TD (gydF4y2BapgydF4y2Ba米gydF4y2BatgydF4y2Ba米gydF4y2Ba)比TD (gydF4y2BapgydF4y2BangydF4y2BatgydF4y2BangydF4y2Ba)及配对的TC (gydF4y2BapgydF4y2Ba米gydF4y2BatgydF4y2Ba米gydF4y2Ba)及TD (gydF4y2BapgydF4y2BangydF4y2BatgydF4y2BangydF4y2Ba)如果TC (gydF4y2BapgydF4y2Ba米gydF4y2BatgydF4y2Ba米gydF4y2Ba)比TD (gydF4y2BapgydF4y2BangydF4y2BatgydF4y2BangydF4y2Ba).gydF4y2Ba

只有当患者在TD之前的时间不同,或者当一个患者TD而另一个患者TC时,才进行分类,其中TC (gydF4y2BapgydF4y2BangydF4y2BatgydF4y2BangydF4y2Ba)比TD (gydF4y2BapgydF4y2Ba米gydF4y2BatgydF4y2Ba米gydF4y2Ba).在其他情况下没有进行分类,因为无法比较2例患者在TD之前的时间差异。中所示的示例gydF4y2Ba图2gydF4y2Ba,对TC (gydF4y2BapgydF4y2Ba一个gydF4y2BatgydF4y2Ba一个gydF4y2Ba)及TD (gydF4y2BapgydF4y2BaDgydF4y2BatgydF4y2BaDgydF4y2Ba)及TC (gydF4y2BapgydF4y2BaBgydF4y2BatgydF4y2BaBgydF4y2Ba)及TD (gydF4y2BapgydF4y2BaDgydF4y2BatgydF4y2BaDgydF4y2Ba), tc (gydF4y2BapgydF4y2BaBgydF4y2BatgydF4y2BaBgydF4y2Ba)及TD (gydF4y2BapgydF4y2BaCgydF4y2BatgydF4y2BaCgydF4y2Ba)及TD (gydF4y2BapgydF4y2BaCgydF4y2BatgydF4y2BaCgydF4y2Ba)及TD (gydF4y2BapgydF4y2BaDgydF4y2BatgydF4y2BaDgydF4y2Ba)均设置为−1。gydF4y2Ba

功能设计gydF4y2Ba

为了确保包含TD的相关因素,我们设计了一个特征向量gydF4y2BaxgydF4y2BangydF4y2Ba对病人gydF4y2BapgydF4y2BangydF4y2Ba在时间gydF4y2BatgydF4y2BangydF4y2Ba,表示从初次就诊开始一直持续到就诊前的临床情况gydF4y2BatgydF4y2BangydF4y2Ba.总共使用了149,699个特征,51,778个定性特征和97,921个定量特征。gydF4y2Ba表2gydF4y2Ba描述用于预测的特性。gydF4y2Ba

我们使用3类表示法来设计特征。第一项包括详细的人口统计和临床条件(性别、年龄、以前咨询过的医疗部门、诊断出的疾病和处方药物)。它们具有许多特征,其中大多数特征的值为0,这导致了非常稀疏的表示。gydF4y2Ba

第二类包括患者治疗期间发生的变化,以确定每次医院就诊时TD的风险。例如,我们使用了累计的医院就诊次数、处方时间长度、处方药物数量、实验室结果、安排预约的星期几、进行临床预约的日期与预定预约日期之间的间隔,以及预约当天的天气状况。详细的医院就诊历史被包括在内,因为在我们之前的工作中,与预约时间和方式相关的特征影响了预测MAs的准确性[gydF4y2Ba25gydF4y2Ba].gydF4y2Ba

第三类包括来自电子卫生档案以外的公共数据库的数据。例如,为了表示从病人家到医院的距离,我们使用了地理信息系统并测量了距离和旅行时间。我们还使用了有关患者职业的信息。对每个定量变量的观测值,如血液检测结果,进行线性变换(归一化),使每个变量的方差等于1。然后将转换后的变量赋值给向量。gydF4y2Ba

表2。描述用于预测的解释变量。gydF4y2Ba
主要和次要类别gydF4y2Ba 定性变量(n= 51778), n (%)gydF4y2Ba 定量变量(n=97,921), n (%)gydF4y2Ba 特征特征(参考)gydF4y2Ba
属性gydF4y2Ba

性别和年龄gydF4y2Ba 4 (0.01)gydF4y2Ba 5 (0.01)gydF4y2Ba 性别和年龄gydF4y2Ba

地址gydF4y2Ba 492 (0.95)gydF4y2Ba 492 (0.50)gydF4y2Ba 从家到医院乘坐公共交通工具的距离和时间(地理信息系统)gydF4y2Ba

保险gydF4y2Ba 67 (0.13)gydF4y2Ba 3 (0)gydF4y2Ba 业务类型类别(公司健康保险协会)gydF4y2Ba
咨询gydF4y2Ba

内科,门诊和住院gydF4y2Ba 267 (0.52)gydF4y2Ba 514 (0.52)gydF4y2Ba 以前和最近都咨询过医疗部门gydF4y2Ba

主题gydF4y2Ba 8021 (15.49)gydF4y2Ba 13108 (13.39)gydF4y2Ba 各科室指定的会诊科目类别gydF4y2Ba

时间gydF4y2Ba 33 (0.06)gydF4y2Ba 105 (0.11)gydF4y2Ba 约会迟到gydF4y2Ba

预约(间隔和变动)gydF4y2Ba 74 (0.14)gydF4y2Ba 197 (0.20)gydF4y2Ba 临床预约日期与预定预约日期之间的间隔gydF4y2Ba
医学gydF4y2Ba

每种药物使用说明gydF4y2Ba 10346 (19.98)gydF4y2Ba 17678 (18.05)gydF4y2Ba 每天吃几次药gydF4y2Ba

每种药物的剂量gydF4y2Ba 4570 (8.83)gydF4y2Ba 33403 (34.11)gydF4y2Ba 每天用药总量gydF4y2Ba

组件gydF4y2Ba 2332 (4.50)gydF4y2Ba 5082 (5.19)gydF4y2Ba 组成部分(由厚生劳动省规定的药品代码)gydF4y2Ba

内科,门诊和住院gydF4y2Ba 324 (0.63)gydF4y2Ba 678 (0.69)gydF4y2Ba 糖尿病及代谢性疾病门诊用药gydF4y2Ba

疾病(已康复并正在治疗中)gydF4y2Ba 21977 (42.44)gydF4y2Ba 22012 (22.48)gydF4y2Ba 正在护理和康复的疾病类别(ICD-10)gydF4y2Ba一个gydF4y2Ba)gydF4y2Ba
实验室测试gydF4y2Ba

内科,门诊和住院gydF4y2Ba 170 (0.33)gydF4y2Ba 357 (0.36)gydF4y2Ba HbAgydF4y2Ba1 cgydF4y2BabgydF4y2Ba,高密度脂蛋白胆固醇gydF4y2BacgydF4y2Ba,低密度gydF4y2BadgydF4y2Ba, TGgydF4y2BaegydF4y2BaTChogydF4y2BafgydF4y2Ba等gydF4y2Ba

顺序,检查和间隔gydF4y2Ba 219 (0.42)gydF4y2Ba 462 (0.47)gydF4y2Ba 测试间隔gydF4y2Ba

结果gydF4y2Ba 297 (0.57)gydF4y2Ba 658 (0.67)gydF4y2Ba 根据标准分类结果(糖尿病医学指南)gydF4y2Ba

生理测试(顺序、检查和间隔)gydF4y2Ba 2237 (4.32)gydF4y2Ba 2801 (2.86)gydF4y2Ba 测试间隔gydF4y2Ba

手术(过程)gydF4y2Ba 336 (0.65)gydF4y2Ba 338 (0.35)gydF4y2Ba 过程名gydF4y2Ba

营养指导(内科、门诊和住院)gydF4y2Ba 12 (0.05)gydF4y2Ba 28日(0.03)gydF4y2Ba 糖尿病及代谢性疾病科住院病人指南gydF4y2Ba

一个gydF4y2BaICD-10:国际疾病分类,第十版gydF4y2Ba

bgydF4y2BaHbAgydF4y2Ba1 cgydF4y2Ba:血红蛋白AgydF4y2Ba1 cgydF4y2Ba.gydF4y2Ba

cgydF4y2BaHDL-C:高密度脂蛋白。gydF4y2Ba

dgydF4y2BaLDL-C:低密度脂蛋白。gydF4y2Ba

egydF4y2BaTG:甘油三酯。gydF4y2Ba

fgydF4y2BaTCho:总胆碱。gydF4y2Ba

所有特征都是通过从电子病历中获得的处理变量生成的。变量数量最多的类别是医药。提取药物名称、成分、单位、住院和门诊类别、开药部门等原始分类变量。提取原始数值变量,如量、剂量和天数或次数。此外,通过组合类别变量和数值变量生成新的数值变量,如药名和数量对、药名和剂量对、药名和天数或次数对。生成了药品名称对、住院门诊类别、药品名称对、科室等新的分类变量。特征数量第二多的类别是疾病。原始分类变量,如疾病名称;《国际疾病分类》第十版确定的疾病类别;治疗情况(正在治疗和康复中); and disease type (primary disease and secondary disease) were extracted. In addition, new categorical variables such as pairs of disease name and treatment status and pairs of disease name and disease type were generated. New numerical variables were also generated by counting the number of diseases that were under treatment and recovered for each disease category. The variables of the other categories were as follows. From the attribute category, categorical variables such as sex, names of regions and cities, insurance categories, and business-type categories were extracted. Numerical variables such as age and copayment rates were extracted. Distance and travel time were generated as new numerical variables using geographic information system from region and city names, as described in the third representation class. From the consultation category, categorical variables such as department, inpatient and outpatient category, and subject name of the reservation slot were extracted. Numerical variables such as time of arrival, appointment, clinic start, and clinic end were extracted. These time intervals were generated as new numerical variables. From the appointment category, categorical variables such as department and appointment status (new, change, and cancellation) were extracted. Numerical variables such as time of registration and reservation were extracted. The new numerical variables were generated, as described in the second representation class. From the laboratory and physiological tests categories, categorical variables such as test name, department, and inpatient and outpatient category were extracted. Numerical variables such as test values were extracted. From the surgery category, categorical variables such as operative name were extracted. From the nutritional guidance category, categorical variables such as department and inpatient and outpatient categories were extracted.

大多数功能是通过以下3步过程生成的。首先,从每个类别中提取原始变量,将其与记录的时间联系起来,并将其分类为类别变量(如诊断疾病的名称)和数值变量(如处方药物的数量)。其次,将分类变量进一步分为原始分类变量和频率变换分类变量。第三,在不同的窗口大小下,计算原始分类变量的组合和频率转换分类变量的统计量,分别生成定性特征和定量特征。数值变量转换为线性和对数尺度,其统计数据计算与不同的窗口大小,以产生定量特征。4个统计数据用于特征生成:最小值,最大值,平均值和SD。为了将环境的最新趋势与TD风险评分联系起来,将目标时间前3个月、6个月和1年的时间段作为窗口大小。如果一个特征出现的时间比窗口大小的时间短,还添加了一个分类变量来指示缺失的数据。gydF4y2Ba

例如,从属性类别中提取性别、年龄、地址和保险等特征来表达人口统计条件。性别特征包括1个定性变量代表男性或女性,3个定量变量代表其频率与3个窗口大小,3个定性变量代表其缺失值。性别变量的频率本身没有任何意义,但因为它是一个总是列在每个EHR中的变量,所以它被用来表示窗口大小中的EHR数量。年龄特征由线性尺度和对数尺度两个定量变量组成。住址特征由患者家到医院3个窗口大小的距离和旅行时间2个尺度的4个统计量中的48个定量变量组成,48个定性变量代表其缺失值,444个定量和定性变量代表地区和城市名称及其频率。保险特征包括67个代表保险类别和业务类型类别的定性变量和3个代表共同支付率的定量变量。gydF4y2Ba

模型设计gydF4y2Ba

我们建立了一种基于机器学习排名模型参数的TD风险预测方法。排名模型有几种目标函数设计[gydF4y2Ba32gydF4y2Ba,gydF4y2Ba33gydF4y2Ba].特别是点[gydF4y2Ba26gydF4y2Ba]、成对[gydF4y2Ba34gydF4y2Ba-gydF4y2Ba36gydF4y2Ba],以及按顺序[gydF4y2Ba37gydF4y2Ba,gydF4y2Ba38gydF4y2Ba已经提出了许多方法。此外,已经开发了几种学习算法,包括使用逻辑回归、神经网络[gydF4y2Ba39gydF4y2Ba],以及boosting [gydF4y2Ba40gydF4y2Ba].gydF4y2Ba

我们在两两方法的基础上设计了模型,并使用了逻辑回归。成对的方法是合适的,因为学习的唯一评级量表是TD风险评分。之所以选择逻辑回归,是因为它是相关工作中最常用的方法[gydF4y2Ba24gydF4y2Ba]也因为我们之前的工作中使用了它[gydF4y2Ba25gydF4y2Ba].gydF4y2Ba

我们假设患者TD的风险gydF4y2BapgydF4y2Ba米gydF4y2Ba能从特征向量中计算出来吗gydF4y2BaxgydF4y2Ba米gydF4y2Ba它包含了各种不同的病人信息gydF4y2BatgydF4y2Ba米gydF4y2Ba.因此,我们假设标量TD风险可以用权重向量与特征向量的内积表示,即:gydF4y2BawgydF4y2Ba⋅gydF4y2BaxgydF4y2Ba米gydF4y2Ba.得到权向量gydF4y2BawgydF4y2Ba,我们建立了病人死亡的概率模型gydF4y2BapgydF4y2Ba米gydF4y2Ba在时间gydF4y2BatgydF4y2Ba米gydF4y2Ba是否会早于gydF4y2BapgydF4y2BangydF4y2Ba在gydF4y2BatgydF4y2BangydF4y2Ba,gydF4y2BaxgydF4y2Ba米gydF4y2Ba而且gydF4y2BaxgydF4y2BangydF4y2Ba归因于gydF4y2BaygydF4y2Bam, ngydF4y2Ba用逻辑回归:gydF4y2Ba

PgydF4y2Ba(gydF4y2BaygydF4y2Ba米gydF4y2Ba ,gydF4y2Ba ngydF4y2Ba|gydF4y2BaxgydF4y2Ba米gydF4y2Ba,gydF4y2BaxgydF4y2BangydF4y2Ba;gydF4y2BawgydF4y2Ba) = 1 / {1 + exp [-gydF4y2BaygydF4y2Ba 米gydF4y2Ba ,gydF4y2Ba ngydF4y2BawgydF4y2Ba(gydF4y2BaxgydF4y2Ba米gydF4y2Ba- - - - - -gydF4y2BaxgydF4y2BangydF4y2Ba)}gydF4y2Ba

的符号gydF4y2BawgydF4y2Ba(gydF4y2BaxgydF4y2Ba米gydF4y2Ba- xgydF4y2BangydF4y2Ba)表示的标量积gydF4y2BawgydF4y2Ba而且gydF4y2BaxgydF4y2Ba米gydF4y2Ba- xgydF4y2BangydF4y2Ba.gydF4y2Ba

毫升设计gydF4y2Ba

基于成对方法的排序方法需要成对数据来优化模型的参数。一般来说,gydF4y2BangydF4y2Ba(gydF4y2BangydF4y2Ba-1)/2对gydF4y2BangydF4y2Ba没有审查的记录。由于本研究包含截尾数据为tc,因此所有用于优化的配对都必须满足上述组合规则。还有一种担忧是,该模型对TD病例的偏倚比TC病例更大。根据调查文件[gydF4y2Ba41gydF4y2Ba-gydF4y2Ba43gydF4y2Ba]对于有偏差的数据,通常尝试抽样作为解决这个问题的一种方法[gydF4y2Ba44gydF4y2Ba,gydF4y2Ba45gydF4y2Ba].我们采取从每个患者中抽取1条记录的方法,以防止在少数患者上进行偏误学习。当gydF4y2BawgydF4y2Ba计算估计数,我们随机为每位患者选择1个医院就诊的记录日期并使用该日期gydF4y2BatgydF4y2Ba米gydF4y2Ba或gydF4y2BatgydF4y2BangydF4y2Ba作为计算TD的起始点或TC (gydF4y2BapgydF4y2Ba米gydF4y2BatgydF4y2Ba米gydF4y2Ba)或TC (gydF4y2BapgydF4y2BangydF4y2BatgydF4y2BangydF4y2Ba).训练数据中满足上述组合规则的所有配对数为867,574,测试数据为17,038。基于成对的排序学习的计算复杂度为O(ngydF4y2Ba2gydF4y2Ba).采样的结果在计算成本略有降低。gydF4y2Ba

当训练数据大小,gydF4y2BaNgydF4y2Ba,小于特征向量的维数,或者当训练数据的采样有偏差时,极大似然估计往往会使逻辑回归模型与训练数据过拟合,导致模型对许多新患者的排名不准确。我们使用l2范数正则化方法[gydF4y2Ba23gydF4y2Ba]以缓解过拟合并提高模型的可泛化性,正如我们在之前的研究中所做的那样[gydF4y2Ba25gydF4y2Ba].gydF4y2Ba

使用训练数据[(gydF4y2BaxgydF4y2Ba1gydF4y2Ba,gydF4y2BaxgydF4y2Ba2gydF4y2Ba,gydF4y2BaygydF4y2Ba1、2gydF4y2Ba),…, (gydF4y2BaxgydF4y2Ba1gydF4y2Ba,gydF4y2BaxgydF4y2BaNgydF4y2Ba,gydF4y2BaygydF4y2Ba1, NgydF4y2Ba),…, (gydF4y2BaxgydF4y2Ba2gydF4y2Ba,gydF4y2BaxgydF4y2Ba3.gydF4y2Ba,gydF4y2BaygydF4y2Ba2、3gydF4y2Ba),…, (gydF4y2BaxgydF4y2Ba米gydF4y2Ba,gydF4y2BaxgydF4y2BangydF4y2Ba,gydF4y2BaygydF4y2Ba米gydF4y2Ba,gydF4y2BangydF4y2Ba),…, (gydF4y2BaxgydF4y2Ban - 1gydF4y2Ba,gydF4y2BaxgydF4y2BaNgydF4y2Ba,gydF4y2BaygydF4y2BaN - 1, NgydF4y2Ba)],我们估计gydF4y2BawgydF4y2Ba如下:gydF4y2Ba

的l2模的平方在哪里gydF4y2BawgydF4y2Ba,gydF4y2Ba,是一种l2范数正则化器,它作为一种减轻惩罚,仅对训练数据中频繁出现的特征提供较大的绝对权重值。gydF4y2Ba

符号gydF4y2BaλgydF4y2Ba是一个用于正则化的超参数,调整如下:将训练数据随机分成2组数据,用于2倍交叉验证测试;对于每个测试,使用一组用于训练的数据和另一组用于测试的数据来评估预测准确性gydF4y2BaλgydF4y2Ba取值为0.1、0.2、0.5、1、2、5、10、20、50、100。的价值gydF4y2BaλgydF4y2Ba选取2个试验的平均预测精度最高的时间点。gydF4y2Ba

TD风险评分设计gydF4y2Ba

患者TD风险评分gydF4y2BapgydF4y2Ba米gydF4y2Ba在时间gydF4y2BatgydF4y2Ba米gydF4y2Ba由logit值表示gydF4y2BawgydF4y2Ba⋅gydF4y2BaxgydF4y2Ba米gydF4y2Ba.TD风险值越高,预测TD发生的时间越早。gydF4y2Ba图2gydF4y2Ba显示一个TD风险值的例子。gydF4y2Ba

统计分析gydF4y2Ba

我们在C和Python 3.7中实现了模型和ML优化,并在所有实验中使用了它。gydF4y2Ba


TD和TC分布gydF4y2Ba

详细的人口统计数据见gydF4y2Ba表1gydF4y2Ba.训练组TD和TC患者的平均预约次数分别为4.8次和10.4次,试验组分别为3.1次和5.8次。分布的差异是因为培训和测试数据是根据2014年5月17日之前是否有医院就诊史进行分类的,并且培训数据的持续时间(828天)大约是测试数据(415天)的两倍。此外,如图所示gydF4y2Ba图3gydF4y2Ba,训练数据包括2012年9月3日之前在该院就诊的患者,这是实验的起点;因此,训练数据中TC患者往往有更多的预约。相比之下,测试数据中的TC患者往往有更少的预约,因为这些数据仅限于自2014年5月17日以来在医院就诊的患者。然而,无论是培训数据还是测试数据,TD患者的预约次数都很低,因为TD患者通常住院时间较短。训练组TD和TC患者平均ma数分别为1.6和1.6,试验组分别为1.2和1.3。gydF4y2Ba

‎gydF4y2Ba
图3。访问和约会日期的分配示例。TC:继续治疗;TD:停止治疗。gydF4y2Ba
查看此图gydF4y2Ba

对TD的预测性能gydF4y2Ba

的hyperparametergydF4y2BaλgydF4y2Ba对机器学习排名模型进行了2次交叉验证,并在测试阶段设置为10次。预测排名的c指数为正确排名的配对数除以可比配对总数。在测试过程中,算法生成的TD风险评分表现良好,c指数(95%置信限)为0.749(0.655,0.823),优于Cox回归模型,c指数(95%置信限)为0.662(0.574,0.748)。如图中的Kaplan-Meier曲线所示gydF4y2Ba图4gydF4y2Ba,它能够正确地模拟TD高风险人群。10.3%(36/349)校准风险评分≥0.5的患者在100天内停止治疗,93.9%(651/693)校准风险评分<0.5的患者继续治疗1年以上。gydF4y2Ba

在本研究中使用的数据中,TD病例的数量比没有中断就诊的患者数量要少得多。由于仅使用c指数进行验证可能不足以评估数据不平衡情况下的性能[gydF4y2Ba45gydF4y2Ba,gydF4y2Ba46gydF4y2Ba],在AUROC的基础上,采用AUPRC来评估风险评分是否能够预测特定时期的TD,如gydF4y2Ba表3gydF4y2Ba.TD风险评分的AUROC和AUPRC均高于Cox回归模型。gydF4y2Ba

6个月内的TD预测AUROC(95%置信限)为0.741 (0.641,0.833),AUPRC(95%置信限)为0.335(0.193,0.499)。1年的这些值分别为0.758(0.649,0.857)和0.713(0.554,0.841)。gydF4y2Ba

随后,TD风险评分转换为0至1的范围,以验证风险分层的表现。如图所示的校准图中使用的测试数据gydF4y2Ba图5gydF4y2Ba时,观测到的TD率与预测TD率相对相关。这些结果表明,TD风险评分可以为临床医生提供TD风险的提前信息,具有良好的预测性能,并通过提供干预空间以避免中断来改善患者的结果。gydF4y2Ba

‎gydF4y2Ba
图4。Kaplan-Meier曲线显示两组测试数据的治疗中断概率(TD)除以从训练数据中获得的TD风险评分中位数。gydF4y2Ba
查看此图gydF4y2Ba
表3。对TD的预测性能gydF4y2Ba一个gydF4y2Ba.gydF4y2Ba
个月gydF4y2Ba AUROCgydF4y2BabgydF4y2Ba,平均值(95%置信限)gydF4y2Ba AUPRCgydF4y2BacgydF4y2Ba,平均值(95%置信限)gydF4y2Ba

排名模型gydF4y2Ba Cox模型gydF4y2Ba 排名模型gydF4y2Ba Cox模型gydF4y2Ba
2gydF4y2Ba 0.747 (0.607, 0.868)gydF4y2Ba 0.668 (0.544, 0.787)gydF4y2Ba 0.081 (0.024, 0.299)gydF4y2Ba 0.035 (0.016, 0.071)gydF4y2Ba
3.gydF4y2Ba 0.776 (0.666, 0.870)gydF4y2Ba 0.691 (0.581, 0.793)gydF4y2Ba 0.228 (0.090, 0.412)gydF4y2Ba 0.136 (0.052, 0.262)gydF4y2Ba
4gydF4y2Ba 0.748 (0.637, 0.844)gydF4y2Ba 0.641 (0.531, 0.746)gydF4y2Ba 0.290 (0.139, 0.470)gydF4y2Ba 0.156 (0.072, 0.278)gydF4y2Ba
5gydF4y2Ba 0.751 (0.651, 0.843)gydF4y2Ba 0.666 (0.557, 0.768)gydF4y2Ba 0.309 (0.163, 0.483)gydF4y2Ba 0.215 (0.107, 0.360)gydF4y2Ba
6gydF4y2Ba 0.741 (0.641, 0.833)gydF4y2Ba 0.645 (0.533, 0.751)gydF4y2Ba 0.335 (0.193, 0.499)gydF4y2Ba 0.236 (0.127, 0.379)gydF4y2Ba
7gydF4y2Ba 0.746 (0.645, 0.841)gydF4y2Ba 0.660 (0.547, 0.764)gydF4y2Ba 0.414 (0.254, 0.576)gydF4y2Ba 0.308 (0.172, 0.468)gydF4y2Ba
8gydF4y2Ba 0.752 (0.650, 0.846)gydF4y2Ba 0.677 (0.565, 0.781)gydF4y2Ba 0.478 (0.311, 0.635)gydF4y2Ba 0.384 (0.227, 0.544)gydF4y2Ba
9gydF4y2Ba 0.756 (0.654, 0.850)gydF4y2Ba 0.675 (0.561, 0.785)gydF4y2Ba 0.510 (0.337, 0.670)gydF4y2Ba 0.438 (0.269, 0.601)gydF4y2Ba
10gydF4y2Ba 0.750 (0.646, 0.846)gydF4y2Ba 0.691 (0.569, 0.800)gydF4y2Ba 0.570 (0.402, 0.726)gydF4y2Ba 0.562 (0.389, 0.708)gydF4y2Ba
11gydF4y2Ba 0.732 (0.625, 0.830)gydF4y2Ba 0.680 (0.561, 0.793)gydF4y2Ba 0.609 (0.442, 0.757)gydF4y2Ba 0.597 (0.426, 0.742)gydF4y2Ba
12gydF4y2Ba 0.758 (0.649, 0.857)gydF4y2Ba 0.687 (0.569, 0.798)gydF4y2Ba 0.713 (0.554, 0.841)gydF4y2Ba 0.645 (0.485, 0.784)gydF4y2Ba

一个gydF4y2BaTD:停止治疗。gydF4y2Ba

bgydF4y2BaAUROC:受试者工作特征曲线下的面积。gydF4y2Ba

cgydF4y2BaAUPRC:精确召回曲线下的面积。gydF4y2Ba

‎gydF4y2Ba
图5。预测概率和观察到的停止治疗概率的分布显示在折线图中。每个点代表测试总体20个部分中每个部分的观测和预测概率。gydF4y2Ba
查看此图gydF4y2Ba

系数值最大的项目gydF4y2Ba

对系数值最大的项进行检查,以检查泄漏,其中使用非预期信息进行预测并降低模型的性能。5个最高和5个最低的项目显示在gydF4y2Ba表4gydF4y2Ba.目前很难讨论每个项目对预测的贡献的具体机制,但在前5名中,没有一个项目表明有明显的泄漏。gydF4y2Ba

表4。上5个和下5个解释变量从训练集中获得。gydF4y2Ba
类别gydF4y2Ba 重量大小gydF4y2Ba 功能gydF4y2Ba
前1gydF4y2Ba 8.1gydF4y2Ba 3个月内在心血管内科预约就诊的次数gydF4y2Ba
前2gydF4y2Ba 5.2gydF4y2Ba 在六个月内没有推荐信的探访次数gydF4y2Ba
前三gydF4y2Ba 5.2gydF4y2Ba 在三个月内没有推荐信的探访次数gydF4y2Ba
前4gydF4y2Ba 5.2gydF4y2Ba 心血管内科手术前预约就诊的频率gydF4y2Ba
前5名gydF4y2Ba 5.2gydF4y2Ba 6个月内化验尿液蛋白质的次数gydF4y2Ba
底1gydF4y2Ba −28gydF4y2Ba 3个月内的血压测试频率gydF4y2Ba
底2gydF4y2Ba −25gydF4y2Ba 3个月内颈动脉超声检查预约频次gydF4y2Ba
底部3gydF4y2Ba −16gydF4y2Ba 3个月内颈动脉回声检查频率gydF4y2Ba
底4gydF4y2Ba −15gydF4y2Ba HbA的实验室测试频率gydF4y2Ba1 cgydF4y2Ba一个gydF4y2Ba6个月内gydF4y2Ba
底部5gydF4y2Ba −15gydF4y2Ba HbA的实验室测试频率gydF4y2Ba1 cgydF4y2Ba一年内gydF4y2Ba

一个gydF4y2BaHbAgydF4y2Ba1 cgydF4y2Ba:血红蛋白AgydF4y2Ba1 cgydF4y2Ba.gydF4y2Ba


主要研究结果gydF4y2Ba

在这项研究中,我们使用从电子病历和先进的机器学习技术中提取的大约150,000个解释变量,生成了TD风险的预测模型。模型预测的准确性得到了验证。gydF4y2Ba

与之前工作的比较gydF4y2Ba

ML已被用于糖尿病研究的几乎所有方面,特别是在生物标志物鉴定和诊断预测[gydF4y2Ba47gydF4y2Ba-gydF4y2Ba50gydF4y2Ba].预测医疗访问中断需要使用生存时间分析来建立模型。然而,很少有研究将ML用于此目的。在我们的研究中,为了避免Cox回归模型的比例风险假设和由于数据不平衡而导致的学习困难,我们实施了一种排名方法,并表明使用从训练数据中获得的参数为每个患者计算的分数对于预测TD是有用的,如图所示gydF4y2Ba表3gydF4y2Ba.gydF4y2Ba

我们的方法是一种构建生存回归模型的新方法,我们的实验评估表明,它在c指数和AUROC和AUPRC测量方面优于现有的Cox模型,对于TD等不平衡数据,它将是一个有用的选择。在ci方面,所获得的性能水平并不显著优于Cox回归模型。尽管如此,它并不逊色。临床领域的许多预测任务要求使用生存时间分析的预测模型来解决不平衡数据。我们的建模方法不需要Cox回归模型的比例风险假设,避免了从不平衡数据中学习的问题。它没有可变的假设,这允许我们使用大约150,000个特征。因此,我们认为我们的方法是临床领域生存回归模型的一种新的选择。gydF4y2Ba

限制gydF4y2Ba

我们的研究有几个必须提及的重要局限性。首先,这些数据仅来自一家医院。此外,测试数据是通过分离一家医院的数据获得的。由于糖尿病护理的实施和程度不同,它们可能不能完全代表其他地区。因此,本研究的结果不足以评估我们的方法的泛化性;需要使用来自不同医院的更多数据进行研究。gydF4y2Ba

其次,本研究中有TD病史的参与者仅代表了1个亚组患者。有些人可能会暂时停止治疗,我们无法在这项研究中捕获这些患者。此外,如果患者在没有通知的情况下更换了诊所,并在没有任何EHR证据的情况下继续在其他地方治疗,他们的病例将被判定为TD病例,即使这并不准确。尽管如此,由于本研究依赖于EHR信息,研究结果的目的是使用真实数据评估模型的准确性。gydF4y2Ba

第三,我们的方法使用了大量的特征,并用l2范数正则化器对它们进行优化,这使得很难找到有助于预测的高度重要的特征。在未来,我们打算研究提高可解释性的方法,例如使用可解释的人工智能和Lasso正则化。gydF4y2Ba

第四,在预定义的程序中产生了大量的特征,没有充分考虑每个特征本身的内在趋势和意义。需要更适当地设计特征,以提高结果的可解释性。gydF4y2Ba

第五,我们的方法优于二元分类模型,因为它可以比较患者TD的风险与TD的剩余时间。然而,它需要O(ngydF4y2Ba2gydF4y2Ba)对来学习模型参数,而二进制分类只需要O(n)条记录对n个训练数据。我们需要减少计算成本。gydF4y2Ba

最后,需要注意的是,由于ML通常反映了大多数人的特征,因此我们的结果表明,本研究中获得的预测性能不能应用于人群中的少数聚类,如儿科患者。gydF4y2Ba

结论gydF4y2Ba

我们开发了一种新的预测模型,通过将机器学习的排名模型应用于EHR数据来计算TD风险评分。该评分表现出较高的预测性能,优于Cox回归模型。我们的模型可以提前提醒临床医生TD的风险,并通过提供干预空间来避免中断和支持糖尿病护理,有助于改善患者的结果。除了估计TD风险评分外,我们还在研究预测糖尿病患者血糖控制的方法,以进一步改善他们的护理。gydF4y2Ba

致谢gydF4y2Ba

这项工作由东京大学和日本电报电话公司在一个联合研究项目中资助,该项目由东京大学创新中心、可持续生命护理和不老社会进行,致力于日本老龄化社会的自我管理医疗保健。资金来源在研究的设计和实施中没有任何作用;数据的收集、管理、分析和解释;手稿的准备、审查或批准;并决定将手稿提交出版。内容仅为作者的责任,并不代表东京大学创新中心的官方观点。gydF4y2Ba

数据可用性gydF4y2Ba

由于批准这项研究的研究伦理委员会施加的限制,本研究中的数据无法公开。gydF4y2Ba

利益冲突gydF4y2Ba

HK、KH和AF是日本东京NTT (Nippon Telegraph and Telephone Corporation)的雇员。AC曾是NTT的员工,现在是日本东京NTT DOCOMO, Inc的员工。TH曾是NTT的雇员,现在是日本神奈川NTT- at IPS Corporation的首席执行官。gydF4y2Ba

  1. 糖尿病控制和并发症试验研究小组。强化糖尿病治疗对青少年胰岛素依赖型糖尿病长期并发症发生和进展的影响:糖尿病控制和并发症试验中华儿科杂志1994年8月2日(2):177-188。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  2. Stratton IM, Adler AI, Neil HA, Matthews DR, Manley SE, Cull CA,等。血糖与2型糖尿病大血管和微血管并发症的关系(UKPDS 35):前瞻性观察研究英国医学杂志2000 Aug 12;321(7258):405-412 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  3. 阿奇博尔德LK,吉尔GV。糖尿病诊所的违约者——他们是谁?他们为什么违约?实用糖尿病杂志1992年1月;9(1):13-14。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  4. Hammersley MS, Holland MR, Walford S, Thorn PA。糖尿病诊所的违约者怎么办?中华医学杂志(临床研究)1985 Nov 09;291(6505):1330-1332 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  5. 美国糖尿病协会。糖尿病医疗护理标准- 2020年初级保健提供者删节。临床糖尿病2020 Jan;38(1):10-38 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  6. Currie C, Peyrot M, Morgan C, Poole CD, Jenkins-Jones S, Rubin RR,等。治疗不依从性对2型糖尿病患者死亡率的影响糖尿病护理2012 Jun;35(6):1279-1284 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  7. Graber A, Davidson P, Brown A, McRae J, Woolridge K.糖尿病治疗期间的退出和复发。糖尿病护理1992年11月;15(11):1477-1483。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  8. Gucciardi E, Demelo M, Offenheim A, Stewart DE.糖尿病自我管理项目中影响损耗行为的因素:混合方法方法。BMC Health Serv Res 2008 Feb 04;8:33 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  9. Kawahara R, Amemiya T, Yoshino M, Miyamae M, Sasamoto K, Omori Y.从糖尿病护理中退出的年轻非胰岛素依赖型糖尿病患者。糖尿病临床研究1994 july;24(3):181-185。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  10. 张志刚,张志刚,张志刚。2型糖尿病患者1年专科护理预后的多中心前瞻性调查[j] .中国临床医学杂志,2006;29 (4):589-597 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  11. Noda M, Yamazaki K, Hayashino Y, Izumi K, Goto A.日本实践指导提高糖尿病患者对预约的依从性。人类数据,2019年7月15日。URL:gydF4y2Bahttps://human-data.or.jp/wp/wp-content/uploads/2018/07/dm_jushinchudan_guide43_e.pdfgydF4y2Ba[2022-01-31]访问gydF4y2Ba
  12. 李瑞荣,Samsudin MI, Thirumoorthy T, Low LL,关永华。影响2型糖尿病和高血压患者随访不出席的因素:一项系统综述。新加坡医学杂志2019 May;60(5):216-223 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  13. 增田Y,久保A,高泽A,吉田M,关口K,福原N,等。个人特点和糖尿病护理的退出。环境卫生预防医学2006年5月;11(3):115-119 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  14. Benoit SR, Ji M, Fleming R, Philis-Tsimikas a .圣地亚哥糖尿病项目退出的预测因素:病例对照研究。先前慢性疾病2004年10月;1(4):A10 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  15. Karter AJ, Parker MM, Moffet HH, Ahmed AT, Ferrara A, Liu JY,等。错过约会和血糖控制不佳:一个识别高危糖尿病患者的机会。医学护理2004 Feb;42(2):110-115。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  16. Díaz EG, Medina DR, López AG, Porras M. 2型糖尿病患者坚持降糖药和就医的决定因素。中国糖尿病杂志2017年12月27日(10):531-538。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  17. lee MK, Slocum W, Ziemer DC, Culler SD, Cook CB, El-Kebbi IM,等。患者坚持治疗可改善血糖控制。糖尿病教育杂志2005;31(2):240-250。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  18. 富勒顿B, Erler A, Pöhlmann B, Gerlach FM。德国2型糖尿病疾病管理计划中退出的预测因素BMC Health Serv Res 2012 1月10日;12(1):8 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  19. 购买KC, Selleck C,购买DR.评估免费糖尿病诊所的留存率。护士从业者2019年4月15日(4):301-5.e1。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  20. Wong M, Haswell-Elkins M, Tamwoy E, McDermott R, d'Abbs P.托雷斯海峡群岛和北部半岛地区糖尿病患者门诊就诊、用药和足部护理的展望。Aust J Rural Health 2005 Jun;13(3):172-177。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  21. 在美国成人糖尿病患者中,在两年的时间里,每年推荐的糖尿病预防保健服务中,错过初级保健和眼科保健提供者的频率和预测因素。Prev Med 2017 12月;105:257-264。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  22. 孙晨,刘志刚,刘志刚,刘志刚。成人2型糖尿病患者失诊的相关因素分析。BMJ Open Diabetes Res Care 2021 march 05;9(1):e001819 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  23. 主教厘米。模式识别与机器学习。纽约州纽约:施普林格;2006.gydF4y2Ba
  24. Carreras-García D, Delgado-Gómez D, Llorente-Fernández F, Arribas-Gil a .患者不露面预测:系统的文献综述。熵(巴塞尔)2020年6月17日;22(6):675 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  25. 仓泽H,林林K,藤野A,高杉K,羽贺T, Waki K,等。基于机器学习的糖尿病患者错过临床预约的预测。糖尿病科学技术2016 5月;10(3):730-736 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  26. 刘涛。学习信息检索的排序。FNT信息检索2009;3(3):225-331。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  27. 王鹏,李勇,李志强。生存分析的机器学习。ACM计算调查2019年11月30日;51(6):1-36。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  28. 回归模型和生命表。J皇家统计学会系列B(方法学)2018年12月05日;34(2):187-202。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  29. Raykar V, Steck H, Krishnapuram B, Dehing-Oberije C, Lambin P.在生存分析中的排名:一致性指数的界限。见:神经信息处理系统进展20 (NIPS 2007)。2007年发表于:神经信息处理系统进展20 (NIPS 2007);2007年12月3日至6日;温哥华,不列颠哥伦比亚省。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  30. Van Belle V, Pelckmans K, Van Huffel S, Suykens JA。生存分析的支持向量方法:排序和回归方法的比较。Artif Intell Med 2011 Oct;53(2):107-118。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  31. 陈华,科戴尔,程凯峰,陈俊杰。癌症预后生存预测模型的性能评估。BMC医学Res Methodol 2012 7月23日;12:102 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  32. Burges C, Ragno R, Le Q.学习使用非光滑代价函数进行排序。见:神经信息处理系统的进展美国马萨诸塞州剑桥:麻省理工学院出版社;2006.gydF4y2Ba
  33. Donmez P, Svore K, Burges CJ。关于LambdaRank的局部最优性。在:第32届国际ACM SIGIR信息检索研究与发展会议论文集。2009年发表于:SIGIR '09:第32届国际ACM SIGIR信息检索研究与开发会议;2009年7月19日至23日;美国马萨诸塞州波士顿。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  34. 曹喆,秦涛,刘涛,蔡明,李华。学习排序:从成对方法到列表方法。见:第24届机器学习国际会议论文集。2007年发表于:ICML '07 & ILP '07:第24届国际机器学习年度会议与2007年国际归纳逻辑编程会议联合举行;2007年6月20日至24日;美国俄勒冈州科瓦利斯。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  35. 陈晓明,陈晓明,陈晓明,等。偏好学习与排序的比较研究。正确的做法:偏好学习。柏林,海德堡:施普林格;2010.gydF4y2Ba
  36. Usunier N, Buffoni D, Gallinari P.排序加权成对分类。第26届机器学习国际会议论文集,2009年发表于:ICML '09:第26届机器学习国际会议暨2007年归纳逻辑编程国际会议;2009年6月14日至18日;加拿大魁北克省蒙特利尔。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  37. 夏峰,刘涛,王娟,张伟,李慧。基于Listwise的排序学习方法:理论与算法。见:第25届机器学习国际会议论文集。2008年发表于:ICML '08:第25届机器学习国际年会与2007年归纳逻辑编程国际会议联合举行;2008年7月5日至9日;芬兰赫尔辛基。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  38. 史勇,王志强,王志强。基于矩阵分解的协同过滤算法。见:第四届ACM推荐系统会议记录。2010年发表于:RecSys '10:第四届ACM推荐系统会议;2010年9月26日至30日;西班牙巴塞罗那。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  39. Burges C, Shaked T, Renshaw E, Lazier A, Deeds M, Hamilton N,等。学习使用梯度下降进行排名。见:第22届机器学习国际会议论文集。2005年发表于:ICML '05:第22届机器学习国际会议论文集;2005年8月7日至11日;德国波恩。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  40. Freund Y, Iyer R, Schapire R, Singer Y.一种有效的组合偏好的增强算法。J Mach Learn Res 2003; 4:33 -969。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  41. 何H, Garcia E.从不平衡数据中学习。IEEE知识数据学报2009年9月21日(9):1263-1284。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  42. 孙勇,王安佳,王晓明。基于非平衡数据的分类方法研究进展。[J] Patt recognition Artif Intell 2011年11月21日;23(04):687-719。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  43. 阶级失衡问题的系统研究。智能数据分析2002 11月15日;6(5):429-449。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  44. 布兰科P,多哥L,里贝罗RP。不平衡域预测建模研究综述。ACM计算调查2016年11月11日;49(2):1-50。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  45. López V, Fernández A, García S, Palade V, Herrera F.对不平衡数据分类的洞察:使用数据内在特征的经验结果和当前趋势。Inform Sci 2013年11月;250:113-141。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  46. Saito T, Rehmsmeier M.在不平衡数据集上评估二元分类器时,精度-召回图比ROC图更有信息。PLoS One 2015;10(3):e0118432 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  47. Gulshan V, Peng L, Coram M, Stumpe MC, Wu D, Narayanaswamy A,等。开发和验证的深度学习算法检测糖尿病视网膜病变的视网膜眼底照片。美国医学杂志2016年12月13日;316(22):2402-2410。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  48. Kavakiotis I, Tsave O, Salifoglou A, Maglaveras N, Vlahavas I, Chouvarda I.糖尿病研究中的机器学习和数据挖掘方法。中国生物工程学报(英文版);2017;26 (3):387 - 387 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  49. 苏harsan B, Peeples M, Shomali M.使用机器学习模型预测2型糖尿病患者的低血糖。中华糖尿病杂志2015 Jan;9(1):86-90 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  50. 郑涛,谢伟,徐林,何欣,张勇,尤敏,等。基于机器学习的框架,通过电子健康记录识别2型糖尿病。国际医学杂志2017年1月;97:120-127 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba


‎gydF4y2Ba
AUPRC:gydF4y2Ba精度-召回曲线下的面积gydF4y2Ba
AUROC:gydF4y2Ba接收机工作特性曲线下面积gydF4y2Ba
电子健康档案:gydF4y2Ba电子健康记录gydF4y2Ba
HbAgydF4y2Ba1 cgydF4y2Ba:gydF4y2Ba血红蛋白的gydF4y2Ba1 cgydF4y2Ba
马:gydF4y2Ba错过了约会gydF4y2Ba
ML:gydF4y2Ba机器学习gydF4y2Ba
日本电报电话公司:gydF4y2Ba日本电报电话公司gydF4y2Ba
TC:gydF4y2Ba治疗的延续gydF4y2Ba
道明:gydF4y2Ba治疗停药gydF4y2Ba


A Mavragani编辑;提交28.03.22;R Bellazzi, G Nneji, G Lim同行评审;对作者29.05.22的评论;修订本收到19.06.22;接受02.09.22;发表23.09.22gydF4y2Ba

版权gydF4y2Ba

©仓泽久、若木佳代、千叶秋宏、关友久、林克吉、藤野明纪、羽贺恒之、野口隆、大和和彦。最初发表在JMIR生物信息学和生物技术(https://bioinform.www.mybigtv.com), 23.09.2022。gydF4y2Ba

这是一篇开放获取的文章,根据创作共用署名许可协议(http://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用首次发表在JMIR生物信息学和生物技术上的原创作品。必须包括完整的书目信息,https://bioinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba


Baidu
map