这是一篇开放获取的文章,根据创作共用署名许可协议(http://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是必须正确引用最初发表在《JMIR生物信息学和生物技术》上的原始作品。必须包括完整的书目信息,https://bioinform.www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。gydF4y2B一个
治疗中断(TD)是糖尿病护理中的主要预后问题之一,一些模型已经被提出,通过使用二元分类模型来预测糖尿病患者可能导致TD的错过预约,并为患者提供干预支持。然而,由于二元分类模型输出的是在预定时间内错过预约的概率,它们在评估预约时间间隔不一致的患者TD风险程度方面的能力有限,因此很难对应该提供干预支持的患者进行优先排序。gydF4y2B一个
本研究旨在开发一种机器学习预测模型,该模型可以输出TD风险评分,由TD到TD的时间长度定义,并根据TD风险对患者进行干预的优先级。gydF4y2B一个
该模型包括东京大学医院2012年9月3日至2014年5月17日诊断代码显示为糖尿病的患者。该模型在同一家医院2014年5月18日至2016年1月29日的患者中进行了内部验证。在这项研究中使用的数据包括7551名在2004年1月1日后到医院就诊的患者,他们的诊断代码显示有糖尿病。特别是使用了2012年9月3日至2016年1月29日期间电子病历记录的数据。主要结果是患者的TD,定义为错过预定的临床预约和在患者就诊之间的平均天数的3倍和60天内没有去医院就诊。利用从机器学习排名模型中得到的参数计算TD风险得分。通过使用带有c指数的测试数据(用于对患者进行分级)、受试者工作特征曲线下面积、精确回忆曲线下面积(用于区分)以及校准图来评估预测能力。gydF4y2Ba
TD风险评分的c指数、受试者工作特征曲线下面积和精确回忆曲线下面积的均值(95%置信限)分别为0.749(0.655,0.823)、0.758(0.649,0.857)和0.713(0.554,0.841)。观测概率和预测概率与校正图相关。gydF4y2B一个
将机器学习方法与电子病历相结合,为糖尿病患者开发TD风险评分。该评分计算可以整合到医疗记录中,以识别TD的高危患者,这将有助于支持糖尿病护理和预防TD。gydF4y2B一个
糖尿病是一种慢性疾病,既需要自我管理,也需要长期管理。血糖控制不良会增加并发症的风险,包括心脑血管疾病以及大血管和微血管疾病,如肾病、视网膜病变和神经病变[gydF4y2B一个
停止治疗(TD),定义为停止正常医疗护理,很可能导致血糖控制恶化和并发症进展[gydF4y2B一个
预防TD在糖尿病管理中至关重要,一些研究对TD相关因素进行了统计分析[gydF4y2B一个
通过考虑各种各样的因素,机器学习(ML)可能有助于预测每个患者患TD的风险。统计重点gydF4y2B一个
在本研究中,我们旨在开发一种通过ML计算TD风险的新方法。我们设计了TD的预测模型,作为数据不平衡的排序问题,以比较患者到TD的时间长度。排名问题[gydF4y2B一个
本工作的贡献如下:gydF4y2B一个
本研究将TD的预测模型设计为一个数据不平衡的排序问题,允许将患者TD的风险与TD前的剩余时间进行比较。这是第一个使用机器学习排名模型来预测TD的研究。gydF4y2B一个
用该模型得到的TD风险评分c指数的均值(95%置信限)为0.749(0.655,0.823)。高于Cox回归模型得出的0.662 (0.574,0.748);AUROC和精确召回曲线下面积(AUPRC)的结果相似。gydF4y2B一个
该研究得到了东京大学医学院和医学院研究伦理委员会的批准(批准号:10705),并根据《赫尔辛基宣言》进行。获得知情同意,并提供选择不参与的机会。gydF4y2B一个
所有数据来自东京大学医院的电子健康记录(EHRs),其中包括7551名在2004年1月1日之后到该医院就诊的患者,他们的诊断代码显示有糖尿病。患者在训练和测试数据中的特点见gydF4y2B一个
患者的训练特征和测试数据。gydF4y2B一个
特征gydF4y2B一个 | 训练数据(n=6509)gydF4y2B一个 | 测试数据(n=1042)gydF4y2B一个 | |||||||
集团gydF4y2B一个 | 道明gydF4y2B一个一个gydF4y2B一个3.13% (n = 204)gydF4y2B一个 | TCgydF4y2B一个bgydF4y2B一个96.86% (n = 6305)gydF4y2B一个 | TD (n=38, 3.65%)gydF4y2B一个 | TC (n=1004, 96.35%)gydF4y2B一个 | |||||
平均预约次数(SD)gydF4y2B一个 | 4.8 (3.3)gydF4y2B一个 | 10.4 (5.0)gydF4y2B一个 | 3.1 (2.6)gydF4y2B一个 | 5.8 (4.1)gydF4y2B一个 | |||||
失约次数,平均值(SD)gydF4y2B一个 | 1.6 (1.2)gydF4y2B一个 | 1.6 (1.2)gydF4y2B一个 | 1.2 (0.5)gydF4y2B一个 | 1.3 (0.7)gydF4y2B一个 | |||||
|
62.6 (15.9)gydF4y2B一个 | 66.0 (12.6)gydF4y2B一个 | 59.9 (15.0)gydF4y2B一个 | 61.1 (14.1)gydF4y2B一个 | |||||
|
<20, n (%)gydF4y2B一个 | 0 (0)gydF4y2B一个 | 3 (0.05)gydF4y2B一个 | 0 (0)gydF4y2B一个 | 1 (0.10)gydF4y2B一个 | ||||
|
20-30, n (%)gydF4y2B一个 | 5 (2.50)gydF4y2B一个 | 45 (0.71)gydF4y2B一个 | 1 (3)gydF4y2B一个 | 25 (2.49)gydF4y2B一个 | ||||
|
30-40, n (%)gydF4y2B一个 | 14 (6.90)gydF4y2B一个 | 204 (3.24)gydF4y2B一个 | 4 (11)gydF4y2B一个 | 63 (6.27)gydF4y2B一个 | ||||
|
40-50, n (%)gydF4y2B一个 | 28日(13.70)gydF4y2B一个 | 452 (7.17)gydF4y2B一个 | 6 (16)gydF4y2B一个 | 117 (11.65)gydF4y2B一个 | ||||
|
50-60, n (%)gydF4y2B一个 | 31 (15.20)gydF4y2B一个 | 883 (14)gydF4y2B一个 | 6 (16)gydF4y2B一个 | 188 (18.73)gydF4y2B一个 | ||||
|
60-70, n (%)gydF4y2B一个 | 47 (23)gydF4y2B一个 | 1950 (30.93)gydF4y2B一个 | 8 (21)gydF4y2B一个 | 310 (30.88)gydF4y2B一个 | ||||
|
≥70,n (%)gydF4y2B一个 | 79 (38.70)gydF4y2B一个 | 2768 (43.90)gydF4y2B一个 | 13 (34)gydF4y2B一个 | 300 (29.88)gydF4y2B一个 | ||||
|
|||||||||
|
男性gydF4y2B一个 | 127 (63.30)gydF4y2B一个 | 3777 (59.90)gydF4y2B一个 | 25 (66)gydF4y2B一个 | 594 (59.16)gydF4y2B一个 | ||||
|
女gydF4y2B一个 | 77 (37.70)gydF4y2B一个 | 2528 (40.10)gydF4y2B一个 | 13 (34)gydF4y2B一个 | 410 (40.84)gydF4y2B一个 | ||||
|
65.9 (33.1)gydF4y2B一个 | 57.3 (23.9)gydF4y2B一个 | 56.2 (65.5)gydF4y2B一个 | 49.0 (21.0)gydF4y2B一个 | |||||
|
<30, n (%)gydF4y2B一个 | 4 (2)gydF4y2B一个 | 283 (4.49)gydF4y2B一个 | 7 (18)gydF4y2B一个 | 127 (12.65)gydF4y2B一个 | ||||
|
30-60, n (%)gydF4y2B一个 | 72 (35.30)gydF4y2B一个 | 3237 (51.34)gydF4y2B一个 | 15 (39)gydF4y2B一个 | 511 (50.90)gydF4y2B一个 | ||||
|
60-90, n (%)gydF4y2B一个 | 66 (32.30)gydF4y2B一个 | 2140 (33.94)gydF4y2B一个 | 3 (8)gydF4y2B一个 | 177 (17.63)gydF4y2B一个 | ||||
|
≥90,n (%)gydF4y2B一个 | 26日(12.80)gydF4y2B一个 | 415 (6.58)gydF4y2B一个 | 2 (5)gydF4y2B一个 | 39 (3.88)gydF4y2B一个 | ||||
第一次访问,n (%)gydF4y2B一个 | 36 (17.70)gydF4y2B一个 | 230 (3.65)gydF4y2B一个 | 11 (29)gydF4y2B一个 | 150 (14.94)gydF4y2B一个 | |||||
|
7.1 (1.2)gydF4y2B一个 | 7.0 (1.0)gydF4y2B一个 | 7.0 (1.1)gydF4y2B一个 | 7.0 (1.1)gydF4y2B一个 | |||||
|
<6, n (%)gydF4y2B一个 | 31 (15.20)gydF4y2B一个 | 770 (12.21)gydF4y2B一个 | 6 (16)gydF4y2B一个 | 118 (11.75)gydF4y2B一个 | ||||
|
6-7, n (%)gydF4y2B一个 | 64 (31.40)gydF4y2B一个 | 2281 (36.18)gydF4y2B一个 | 12 (32)gydF4y2B一个 | 382 (38.05)gydF4y2B一个 | ||||
|
7-8, n (%)gydF4y2B一个 | 48 (23.50)gydF4y2B一个 | 1788 (28.36)gydF4y2B一个 | 9 (24)gydF4y2B一个 | 285 (28.39)gydF4y2B一个 | ||||
|
≥8,n (%)gydF4y2B一个 | 33 (16.20)gydF4y2B一个 | 632 (10.02)gydF4y2B一个 | 4 (11)gydF4y2B一个 | 148 (14.74)gydF4y2B一个 | ||||
|
缺少值,n (%)gydF4y2B一个 | 28日(13.70)gydF4y2B一个 | 834 (13.23)gydF4y2B一个 | 7 (18)gydF4y2B一个 | 71 (7.07)gydF4y2B一个 | ||||
|
182.2 (167.4)gydF4y2B一个 | 143.5 (96.5)gydF4y2B一个 | 199.0 (239.1)gydF4y2B一个 | 160.5 (120.9)gydF4y2B一个 | |||||
|
<30, n (%)gydF4y2B一个 | 0 (0)gydF4y2B一个 | 4 (0.06)gydF4y2B一个 | 0 (0)gydF4y2B一个 | 0 (0)gydF4y2B一个 | ||||
|
30-150, n (%)gydF4y2B一个 | 91 (44.60)gydF4y2B一个 | 3601 (57.11)gydF4y2B一个 | 15 (39)gydF4y2B一个 | 550 (54.78)gydF4y2B一个 | ||||
|
150-300, n (%)gydF4y2B一个 | 65 (31.90)gydF4y2B一个 | 1631 (25.87)gydF4y2B一个 | 10 (26)gydF4y2B一个 | 291 (28.98)gydF4y2B一个 | ||||
|
300-750, n (%)gydF4y2B一个 | 16 (7.80)gydF4y2B一个 | 213 (3.38)gydF4y2B一个 | 3 (8)gydF4y2B一个 | 72 (7.17)gydF4y2B一个 | ||||
|
≥750,n (%)gydF4y2B一个 | 3 (1.50)gydF4y2B一个 | 11 (0.17)gydF4y2B一个 | 1 (3)gydF4y2B一个 | 6 (0.60)gydF4y2B一个 | ||||
|
缺少值,n (%)gydF4y2B一个 | 29 (14.20)gydF4y2B一个 | 845 (13.40)gydF4y2B一个 | 9 (24)gydF4y2B一个 | 85 (8.47)gydF4y2B一个 | ||||
|
58.6 (15)gydF4y2B一个 | 60.6 (16.9)gydF4y2B一个 | 54.4 (20.3)gydF4y2B一个 | 56.6 (16.8)gydF4y2B一个 | |||||
|
<20, n (%)gydF4y2B一个 | 0 (0)gydF4y2B一个 | 2 (0.03)gydF4y2B一个 | 0 (0)gydF4y2B一个 | 0 (0)gydF4y2B一个 | ||||
|
20到<40,n (%)gydF4y2B一个 | 15 (7.40)gydF4y2B一个 | 387 (6.14)gydF4y2B一个 | 8 (21)gydF4y2B一个 | 130 (12.95)gydF4y2B一个 | ||||
|
40到<100,n (%)gydF4y2B一个 | 159 (77.90)gydF4y2B一个 | 4882 (77.43)gydF4y2B一个 | 20 (52)gydF4y2B一个 | 759 (75.60)gydF4y2B一个 | ||||
|
≥100,n (%)gydF4y2B一个 | 3 (1.50)gydF4y2B一个 | 126 (2)gydF4y2B一个 | 1 (3)gydF4y2B一个 | 15 (1.49)gydF4y2B一个 | ||||
|
缺少值,n (%)gydF4y2B一个 | 27日(13.20)gydF4y2B一个 | 908 (14.40)gydF4y2B一个 | 9 (24)gydF4y2B一个 | 100 (9.96)gydF4y2B一个 | ||||
|
121.6 (31.3)gydF4y2B一个 | 111.6 (26.8)gydF4y2B一个 | 119.9 (33.7)gydF4y2B一个 | 113.0 (35.0)gydF4y2B一个 | |||||
|
<60, n (%)gydF4y2B一个 | 2 (1)gydF4y2B一个 | 107 (1.70)gydF4y2B一个 | 1 (3)gydF4y2B一个 | 26日(2.59)gydF4y2B一个 | ||||
|
60-120, n (%)gydF4y2B一个 | 64 (31.40)gydF4y2B一个 | 2700 (42.82)gydF4y2B一个 | 7 (18)gydF4y2B一个 | 338 (33.67)gydF4y2B一个 | ||||
|
120-140, n (%)gydF4y2B一个 | 36 (17.70)gydF4y2B一个 | 988 (15.67)gydF4y2B一个 | 2 (5)gydF4y2B一个 | 125 (12.45)gydF4y2B一个 | ||||
|
≥140,n (%)gydF4y2B一个 | 32 (15.70)gydF4y2B一个 | 532 (8.44)gydF4y2B一个 | 5 (13)gydF4y2B一个 | 120 (11.95)gydF4y2B一个 | ||||
|
缺少值,n (%)gydF4y2B一个 | 70 (34.30)gydF4y2B一个 | 1978 (31.37)gydF4y2B一个 | 23 (61)gydF4y2B一个 | 395 (39.34)gydF4y2B一个 | ||||
|
201.6 (44.5)gydF4y2B一个 | 189.5 (32.8)gydF4y2B一个 | 193.3 (36.6)gydF4y2B一个 | 192.9 (43.4)gydF4y2B一个 | |||||
|
<130, n (%)gydF4y2B一个 | 2 (1)gydF4y2B一个 | 152 (2.41)gydF4y2B一个 | 1 (3)gydF4y2B一个 | 50 (4.98)gydF4y2B一个 | ||||
|
130-220, n (%)gydF4y2B一个 | 111 (54.40)gydF4y2B一个 | 4202 (66.65)gydF4y2B一个 | 20 (53)gydF4y2B一个 | 650 (64.74)gydF4y2B一个 | ||||
|
220-240, n (%)gydF4y2B一个 | 23日(11.30)gydF4y2B一个 | 516 (8.18)gydF4y2B一个 | 6 (16)gydF4y2B一个 | 97 (9.66)gydF4y2B一个 | ||||
|
240-280, n (%)gydF4y2B一个 | 15 (7.40)gydF4y2B一个 | 246 (3.90)gydF4y2B一个 | 1 (3)gydF4y2B一个 | 77 (7.67)gydF4y2B一个 | ||||
|
≥280,n (%)gydF4y2B一个 | 5 (2.50)gydF4y2B一个 | 43 (0.68)gydF4y2B一个 | 0 (0)gydF4y2B一个 | 29 (2.89)gydF4y2B一个 | ||||
|
缺少值,n (%)gydF4y2B一个 | 48 (23.50)gydF4y2B一个 | 1146 (18.18)gydF4y2B一个 | 10 (26)gydF4y2B一个 | 101 (10.06)gydF4y2B一个 |
一个gydF4y2B一个TD:停止治疗。gydF4y2B一个
bgydF4y2B一个TC:继续治疗。gydF4y2B一个
cgydF4y2B一个HbAgydF4y2B一个1 cgydF4y2B一个:血红蛋白AgydF4y2B一个1 cgydF4y2B一个.gydF4y2B一个
dgydF4y2B一个国家糖蛋白标准化计划。gydF4y2B一个
egydF4y2B一个TG:甘油三酸酯。gydF4y2B一个
fgydF4y2B一个HDL:高密度脂蛋白。gydF4y2B一个
ggydF4y2B一个LDL:低密度脂蛋白。gydF4y2B一个
hgydF4y2B一个总胆碱。gydF4y2B一个
这些数据记录于2012年9月3日至2016年1月29日之间。如gydF4y2B一个
病人选择和数据预处理的说明。TD:停止治疗。gydF4y2B一个
患者的TD定义为错过预定的临床预约和在患者就诊间隔至60天的平均天数的3倍内没有去医院就诊。每名患者两次就诊的平均天数由最近3天计算。换句话说,如果3倍的平均访问天数大于60天,则以60天作为阈值。否则,以3倍的平均访问天数作为阈值。gydF4y2B一个
其他研究将TD定义为超过特定时间阈值(1天至6个月)的住院次数不足[gydF4y2B一个
为了确保TD的准确检测,合作者之一的一名医生验证了上述定义的满足,并排除了患者死亡或护理环境改变的情况。gydF4y2B一个
用两种方法测量治疗时间。首先,TD (gydF4y2B一个
例如,如图所示gydF4y2B一个
治疗中止(TD)风险价值的例子。TC:继续治疗;W:权向量;X:特征向量。gydF4y2B一个
的分类gydF4y2B一个
只有当患者有不同的时间直到TD,或当一个患者有TD和另一个患者有TC时,才进行分类,其中TC (gydF4y2B一个
为了确保包含TD相关因素,我们设计了一个特征向量gydF4y2B一个
我们使用3类表示来设计特征。第一个包括详细的人口统计和临床情况(性别、年龄、以前看过的医疗部门、诊断的疾病和处方药物)。它们有许多特征,其中大多数都是0值,导致非常稀疏的表示。gydF4y2B一个
第二类包括患者在每次就诊时识别TD风险的治疗过程中发生的变化。例如,我们使用了累计的医院就诊次数、处方时间、开出的药物数量、实验室结果、预约的星期几、预约的日期和预约日期之间的间隔,以及预约当天的天气情况。详细的医院就诊历史被包括在内,因为在我们之前的工作中,与预约时间和方式相关的特征影响了预测MAs的准确性[gydF4y2B一个
第三类数据来自EHR以外的公共数据库。例如,为了表示从病人的家到医院的距离,我们使用了地理信息系统并测量了距离和旅行时间。我们还使用了关于患者职业的信息。对各定量变量的观测值(如血液检测结果)进行线性变换(归一化),使各变量的方差等于1。然后将转换后的变量赋值给向量。gydF4y2B一个
用于预测的解释变量的描述。gydF4y2B一个
一级和二级类别gydF4y2B一个 | 定性变量(n=51,778), n (%)gydF4y2B一个 | 定量变量(n=97,921), n (%)gydF4y2B一个 | 特征特征(参考)gydF4y2B一个 | |
|
||||
|
性别和年龄gydF4y2B一个 | 4 (0.01)gydF4y2B一个 | 5 (0.01)gydF4y2B一个 | 性别和年龄gydF4y2B一个 |
|
地址gydF4y2B一个 | 492 (0.95)gydF4y2B一个 | 492 (0.50)gydF4y2B一个 | 从住所到医院乘坐公共交通的距离和时间(地理信息系统)gydF4y2B一个 |
|
保险gydF4y2B一个 | 67 (0.13)gydF4y2B一个 | 3 (0)gydF4y2B一个 | 业务类型类别(公司健康保险协会)gydF4y2B一个 |
|
||||
|
内科门诊和住院gydF4y2B一个 | 267 (0.52)gydF4y2B一个 | 514 (0.52)gydF4y2B一个 | 以前和最近咨询过医疗部门gydF4y2B一个 |
|
主题gydF4y2B一个 | 8021 (15.49)gydF4y2B一个 | 13108 (13.39)gydF4y2B一个 | 各医疗部门指定的会诊科目类别gydF4y2B一个 |
|
时间gydF4y2B一个 | 33 (0.06)gydF4y2B一个 | 105 (0.11)gydF4y2B一个 | 约会迟到gydF4y2B一个 |
|
预约(间隔和变更)gydF4y2B一个 | 74 (0.14)gydF4y2B一个 | 197 (0.20)gydF4y2B一个 | 预约就诊日期与预约就诊日期之间的间隔时间gydF4y2B一个 |
|
||||
|
每种药物使用说明gydF4y2B一个 | 10346 (19.98)gydF4y2B一个 | 17678 (18.05)gydF4y2B一个 | 一天服用多少次药物gydF4y2B一个 |
|
每种药物的剂量gydF4y2B一个 | 4570 (8.83)gydF4y2B一个 | 33403 (34.11)gydF4y2B一个 | 每天的用药总量gydF4y2B一个 |
|
组件gydF4y2B一个 | 2332 (4.50)gydF4y2B一个 | 5082 (5.19)gydF4y2B一个 | 组成部分(厚生劳动省制定的药品法典)gydF4y2B一个 |
|
内科门诊和住院gydF4y2B一个 | 324 (0.63)gydF4y2B一个 | 678 (0.69)gydF4y2B一个 | 糖尿病和代谢性疾病科门诊用药gydF4y2B一个 |
|
疾病(已康复和正在治疗中)gydF4y2B一个 | 21977 (42.44)gydF4y2B一个 | 22012 (22.48)gydF4y2B一个 | 护理和康复的疾病类别(ICD-10)gydF4y2B一个一个gydF4y2B一个)gydF4y2B一个 |
|
||||
|
内科门诊和住院gydF4y2B一个 | 170 (0.33)gydF4y2B一个 | 357 (0.36)gydF4y2B一个 | HbAgydF4y2B一个1 cgydF4y2B一个bgydF4y2B一个,高密度脂蛋白胆固醇gydF4y2B一个cgydF4y2B一个,低密度gydF4y2B一个dgydF4y2B一个, TGgydF4y2B一个egydF4y2B一个TChogydF4y2B一个fgydF4y2B一个等gydF4y2B一个 |
|
顺序,检查和间隔gydF4y2B一个 | 219 (0.42)gydF4y2B一个 | 462 (0.47)gydF4y2B一个 | 测试之间的间隔gydF4y2B一个 |
|
结果gydF4y2B一个 | 297 (0.57)gydF4y2B一个 | 658 (0.67)gydF4y2B一个 | 按标准分类结果(糖尿病医学指南)gydF4y2B一个 |
|
生理测试(顺序、检查和间隔时间)gydF4y2B一个 | 2237 (4.32)gydF4y2B一个 | 2801 (2.86)gydF4y2B一个 | 测试之间的间隔gydF4y2B一个 |
|
手术(过程)gydF4y2B一个 | 336 (0.65)gydF4y2B一个 | 338 (0.35)gydF4y2B一个 | 过程名gydF4y2B一个 |
|
营养指导(内科、门诊和住院)gydF4y2B一个 | 12 (0.05)gydF4y2B一个 | 28日(0.03)gydF4y2B一个 | 糖尿病和代谢性疾病科住院病人指南gydF4y2B一个 |
一个gydF4y2B一个ICD-10:国际疾病分类,第十版。gydF4y2B一个
bgydF4y2B一个HbAgydF4y2B一个1 cgydF4y2B一个:血红蛋白AgydF4y2B一个1 cgydF4y2B一个.gydF4y2B一个
cgydF4y2B一个HDL-C:高密度脂蛋白。gydF4y2B一个
dgydF4y2B一个LDL-C:低密度脂蛋白。gydF4y2B一个
egydF4y2B一个TG:甘油三酯。gydF4y2B一个
fgydF4y2B一个总胆碱。gydF4y2B一个
所有的特征都是通过从EHRs中获得的处理变量生成的。变量数量最多的类别是医药。提取药品名称、成分、单位、住院门诊类别、处方科室等原始分类变量。提取了原始的数值变量,如量、剂量和天数或次数。此外,结合类目变量和数字变量,如药名和数量对、药名和剂量对、药名和天数或次数对,生成新的数字变量。此外,还生成了药品名称对和住院门诊类别对、药品名称对和科室对等新的分类变量。特征数量第二多的类别是疾病。原始分类变量,如疾病名称;《国际疾病分类》第十版定义的疾病类别;治疗状况(正在治疗和康复中); and disease type (primary disease and secondary disease) were extracted. In addition, new categorical variables such as pairs of disease name and treatment status and pairs of disease name and disease type were generated. New numerical variables were also generated by counting the number of diseases that were under treatment and recovered for each disease category. The variables of the other categories were as follows. From the attribute category, categorical variables such as sex, names of regions and cities, insurance categories, and business-type categories were extracted. Numerical variables such as age and copayment rates were extracted. Distance and travel time were generated as new numerical variables using geographic information system from region and city names, as described in the third representation class. From the consultation category, categorical variables such as department, inpatient and outpatient category, and subject name of the reservation slot were extracted. Numerical variables such as time of arrival, appointment, clinic start, and clinic end were extracted. These time intervals were generated as new numerical variables. From the appointment category, categorical variables such as department and appointment status (new, change, and cancellation) were extracted. Numerical variables such as time of registration and reservation were extracted. The new numerical variables were generated, as described in the second representation class. From the laboratory and physiological tests categories, categorical variables such as test name, department, and inpatient and outpatient category were extracted. Numerical variables such as test values were extracted. From the surgery category, categorical variables such as operative name were extracted. From the nutritional guidance category, categorical variables such as department and inpatient and outpatient categories were extracted.
大多数特性都是通过以下3个步骤生成的。首先,从每个类别中提取原始变量,与它们记录的时间相关联,并分为类别变量(如诊断疾病的名称)和数字变量(如处方药物的数量)。其次,将分类变量进一步划分为原始分类变量和频率转换分类变量。第三,在不同窗口大小下计算原始分类变量的组合和频率变换分类变量的统计量,分别生成定性特征和定量特征。数值变量被转换为线性和对数尺度,它们的统计数据被计算与不同的窗口大小,以产生定量特征。特征生成使用4个统计量:最小值、最大值、平均值和标准差。为了将环境的最新趋势与TD风险评分联系起来,将目标时间前3个月、6个月和1年的时间段作为窗口大小。如果一个特征出现的时间比窗口大小短,还会添加一个分类变量来指示缺失的数据。gydF4y2Ba
例如,从属性类别中提取特征性别、年龄、地址和保险,以表示人口统计条件。性别特征由1个表征男性或女性的定性变量、3个表征其频率的定量变量和3个表征其缺失值的定性变量组成。性别变量的频率本身没有意义,但是因为它是一个变量,总是列在每个EHR中,所以它被用来表示窗口大小中的EHR数量。年龄特征由线性和对数两个定量变量组成。地址特征由患者从家到医院的距离和旅行时间2个尺度的4个统计量的48个定量变量组成,3个窗口大小,48个定性变量代表其缺失值,444个定量和定性变量代表地区和城市名称及其频率。保险特征由67个代表保险类别和业务类型类别的定性变量和3个代表共同支付费率的定量变量组成。gydF4y2B一个
建立了一种基于机器学习排序模型参数的输配电风险预测方法。有几种排名模型的目标函数设计[gydF4y2B一个
我们在两两方法的基础上设计模型,并使用逻辑回归。两两方法是合适的,因为学习的唯一评级尺度是TD风险评分。选择逻辑回归是因为它是相关工作中最常用的方法[gydF4y2B一个
我们假设患者TD的风险gydF4y2B一个
的符号gydF4y2B一个
基于成对方法的排序方法需要成对数据来优化模型参数。一般来说,gydF4y2B一个
当训练数据大小,gydF4y2B一个
使用培训数据[(gydF4y2B一个
²l2范数在哪里gydF4y2B一个
符号gydF4y2B一个
患者TD风险评分gydF4y2B一个
我们在C和Python 3.7中实现了模型和ML优化,并在所有的实验中使用了它。gydF4y2B一个
详细的人口统计数据见gydF4y2B一个
分配探访及预约日期的例子。TC:继续治疗;TD:停止治疗。gydF4y2B一个
的hyperparametergydF4y2B一个
在本研究中使用的数据中,TD病例的数量比没有中断就诊的患者数量要少得多。由于在数据不平衡的情况下,仅用c指数进行验证可能不足以评估性能[gydF4y2B一个
6个月内TD预测AUROC(95%置信限)为0.741 (0.641,0.833),AUPRC(95%置信限)为0.335(0.193,0.499)。1年的平均值分别为0.758(0.649,0.857)和0.713(0.554,0.841)。gydF4y2B一个
随后,将TD风险评分转换为0 ~ 1的范围,以验证风险分层的效果。所示的校准图使用的测试数据gydF4y2B一个
Kaplan-Meier曲线显示两组试验数据的治疗中断概率(TD)除以从训练数据中获得的TD风险得分中位数。gydF4y2B一个
TD的预测性能gydF4y2B一个一个gydF4y2B一个.gydF4y2B一个
个月gydF4y2B一个 | AUROCgydF4y2B一个bgydF4y2B一个,平均值(95%置信限)gydF4y2B一个 | AUPRCgydF4y2B一个cgydF4y2B一个,平均值(95%置信限)gydF4y2B一个 | ||
|
排名模型gydF4y2B一个 | Cox模型gydF4y2B一个 | 排名模型gydF4y2B一个 | Cox模型gydF4y2B一个 |
2gydF4y2B一个 | 0.747 (0.607, 0.868)gydF4y2B一个 | 0.668 (0.544, 0.787)gydF4y2B一个 | 0.081 (0.024, 0.299)gydF4y2B一个 | 0.035 (0.016, 0.071)gydF4y2B一个 |
3.gydF4y2B一个 | 0.776 (0.666, 0.870)gydF4y2B一个 | 0.691 (0.581, 0.793)gydF4y2B一个 | 0.228 (0.090, 0.412)gydF4y2B一个 | 0.136 (0.052, 0.262)gydF4y2B一个 |
4gydF4y2B一个 | 0.748 (0.637, 0.844)gydF4y2B一个 | 0.641 (0.531, 0.746)gydF4y2B一个 | 0.290 (0.139, 0.470)gydF4y2B一个 | 0.156 (0.072, 0.278)gydF4y2B一个 |
5gydF4y2B一个 | 0.751 (0.651, 0.843)gydF4y2B一个 | 0.666 (0.557, 0.768)gydF4y2B一个 | 0.309 (0.163, 0.483)gydF4y2B一个 | 0.215 (0.107, 0.360)gydF4y2B一个 |
6gydF4y2B一个 | 0.741 (0.641, 0.833)gydF4y2B一个 | 0.645 (0.533, 0.751)gydF4y2B一个 | 0.335 (0.193, 0.499)gydF4y2B一个 | 0.236 (0.127, 0.379)gydF4y2B一个 |
7gydF4y2B一个 | 0.746 (0.645, 0.841)gydF4y2B一个 | 0.660 (0.547, 0.764)gydF4y2B一个 | 0.414 (0.254, 0.576)gydF4y2B一个 | 0.308 (0.172, 0.468)gydF4y2B一个 |
8gydF4y2B一个 | 0.752 (0.650, 0.846)gydF4y2B一个 | 0.677 (0.565, 0.781)gydF4y2B一个 | 0.478 (0.311, 0.635)gydF4y2B一个 | 0.384 (0.227, 0.544)gydF4y2B一个 |
9gydF4y2B一个 | 0.756 (0.654, 0.850)gydF4y2B一个 | 0.675 (0.561, 0.785)gydF4y2B一个 | 0.510 (0.337, 0.670)gydF4y2B一个 | 0.438 (0.269, 0.601)gydF4y2B一个 |
10gydF4y2B一个 | 0.750 (0.646, 0.846)gydF4y2B一个 | 0.691 (0.569, 0.800)gydF4y2B一个 | 0.570 (0.402, 0.726)gydF4y2B一个 | 0.562 (0.389, 0.708)gydF4y2B一个 |
11gydF4y2B一个 | 0.732 (0.625, 0.830)gydF4y2B一个 | 0.680 (0.561, 0.793)gydF4y2B一个 | 0.609 (0.442, 0.757)gydF4y2B一个 | 0.597 (0.426, 0.742)gydF4y2B一个 |
12gydF4y2B一个 | 0.758 (0.649, 0.857)gydF4y2B一个 | 0.687 (0.569, 0.798)gydF4y2B一个 | 0.713 (0.554, 0.841)gydF4y2B一个 | 0.645 (0.485, 0.784)gydF4y2B一个 |
一个gydF4y2B一个TD:停止治疗。gydF4y2B一个
bgydF4y2B一个AUROC:接收器工作特性曲线下的面积。gydF4y2B一个
cgydF4y2B一个AUPRC:精度-召回曲线下的面积。gydF4y2B一个
中止治疗的预测概率和观察概率的分布用折线图表示。每个点代表了20个测试群体中每个部分的观察到的和预测的概率。gydF4y2B一个
对系数值最大的项进行检查,以检查是否存在泄漏,其中使用了意料之外的信息进行预测,降低了模型的性能。5个最高的和5个最低的项目显示在gydF4y2B一个
前5和后5个解释变量从训练集中获得。gydF4y2B一个
类别gydF4y2B一个 | 重量大小gydF4y2B一个 | 功能gydF4y2B一个 |
前1gydF4y2B一个 | 8.1gydF4y2B一个 | 3个月内到心血管内科预约就诊的频率gydF4y2B一个 |
前2gydF4y2B一个 | 5.2gydF4y2B一个 | 6个月内没有推荐信的探访次数gydF4y2B一个 |
前三gydF4y2B一个 | 5.2gydF4y2B一个 | 3个月内没有推荐信的探访次数gydF4y2B一个 |
前4gydF4y2B一个 | 5.2gydF4y2B一个 | 心血管内科手术前预约就诊的频率gydF4y2B一个 |
前5名gydF4y2B一个 | 5.2gydF4y2B一个 | 6个月内尿液蛋白质化验频率gydF4y2B一个 |
底1gydF4y2B一个 | −28gydF4y2B一个 | 3个月内测血压的频率gydF4y2B一个 |
底2gydF4y2B一个 | −25gydF4y2B一个 | 3个月内颈动脉超声检查预约频率gydF4y2B一个 |
底部3gydF4y2B一个 | −16gydF4y2B一个 | 3个月内颈动脉回声测试频率gydF4y2B一个 |
底4gydF4y2B一个 | −15gydF4y2B一个 | HbA的实验室测试频率gydF4y2B一个1 cgydF4y2B一个一个gydF4y2B一个6个月内gydF4y2B一个 |
底部5gydF4y2B一个 | −15gydF4y2B一个 | HbA的实验室测试频率gydF4y2B一个1 cgydF4y2B一个一年内gydF4y2B一个 |
一个gydF4y2B一个HbAgydF4y2B一个1 cgydF4y2B一个:血红蛋白AgydF4y2B一个1 cgydF4y2B一个.gydF4y2B一个
在这项研究中,我们使用从电子病历和先进的机器学习技术中提取的约15万个解释变量,生成了TD风险的预测模型。验证了模型预测的准确性。gydF4y2B一个
ML已被用于糖尿病研究的几乎所有方面,特别是在生物标志物识别和诊断预测[gydF4y2B一个
我们的方法是一种构建生存回归模型的新方法,我们的实验评估表明,它在c指数、AUROC和AUPRC度量方面优于现有的Cox模型,对于TD等不平衡数据将是一个有用的选择。在ci方面,所得的绩效水平并不显著优于Cox回归模型。尽管如此,它并不逊色。临床领域的许多预测任务要求使用生存时间分析的预测模型来处理不平衡的数据。我们的建模方法不需要Cox回归模型的比例风险假设,避免了从不平衡数据中学习的问题。它没有可变的假设,这允许我们使用大约15万个特征。因此,我们认为我们的方法是临床领域生存回归模型的一种新的选择。gydF4y2Ba
我们的研究有几个必须提到的重要局限性。首先,数据仅来自一家医院。此外,测试数据是通过分离来自一家医院的数据获得的。由于糖尿病护理的实施和程度不同,它们可能并不完全具有其他地区的代表性。因此,本研究的结果并不足以评估我们的方法的推广性;需要进行一项来自不同医院的更多数据的研究。gydF4y2B一个
其次,本研究中有TD病史的参与者仅代表了1个亚组患者。有些人可能会暂时停止治疗,我们无法在这项研究中捕获这些患者。此外,如果患者在没有通知的情况下换了诊所,并在EHR中没有任何证据的情况下继续在其他地方治疗,他们的病例将被判定为TD病例,即使这并不准确。尽管如此,由于这项研究依赖于电子病历信息,研究结果的目的是使用真实世界的数据评估模型的准确性。gydF4y2B一个
第三,我们的方法使用了大量的特征,并使用l2范数正则化器对它们进行优化,这使得很难找到对预测有重要贡献的特征。在未来,我们打算研究提高可解释性的方法,例如使用可解释的人工智能和Lasso正则化。gydF4y2B一个
第四,在预定义的过程中产生了大量的特征,没有充分考虑每个特征本身的内在趋势和意义。需要对特征进行更适当的设计,以提高结果的可解释性。gydF4y2B一个
第五,我们的方法优于二元分类模型,因为它可以比较患者TD的风险与TD的剩余时间。然而,它需要O(ngydF4y2B一个2gydF4y2B一个)对学习模型参数,而二元分类对n个训练数据只需要O(n)条记录。我们需要减少计算成本。gydF4y2B一个
最后,应该注意的是,由于ML通常反映了大多数人的特征,我们的结果表明,本研究中获得的预测性能不能应用于人群中的少数群体,如儿科患者。gydF4y2B一个
我们开发了一种新的预测模型,通过将机器学习的排名模型应用到EHR数据中来计算TD风险评分。该评分具有较高的预测性能,优于Cox回归模型。我们的模型可以提前提醒临床医生TD的风险,并通过提供干预空间来避免中断和支持糖尿病治疗,有助于改善患者的预后。除了估计TD风险评分,我们正在研究预测糖尿病患者血糖控制的方法,以进一步改善他们的护理。gydF4y2B一个
精度-召回曲线下的面积gydF4y2B一个
接收器工作特性曲线下的面积gydF4y2B一个
电子健康记录gydF4y2B一个
血红蛋白的gydF4y2B一个1 cgydF4y2B一个
错过了约会gydF4y2B一个
机器学习gydF4y2B一个
日本电报电话公司gydF4y2B一个
治疗的延续gydF4y2B一个
治疗停药gydF4y2B一个
这项工作由东京大学和日本电报电话公司资助,在东京大学创新中心、可持续生命护理和不老社会进行的一个联合研究项目中,致力于日本老龄化社会的自我管理医疗保健。资金来源在研究的设计和实施中没有任何作用;数据的收集、管理、分析和解释;稿件的准备、审阅或批准;并决定投稿出版。内容仅为作者的责任,并不代表东京大学创新中心的官方观点。gydF4y2B一个
由于批准本研究的研究伦理委员会的限制,本研究中的数据无法公开获取。gydF4y2B一个
HK、KH和AF是日本东京日本电报电话公司(NTT)的雇员。AC曾是NTT的雇员,现在是日本东京NTT DOCOMO公司的雇员。TH曾是NTT的雇员,现在是日本神奈川NTT- at IPS公司的首席执行官。gydF4y2B一个