JMIR医学信息学-一种迁移学习方法来纠正临床预测模型的时间表现漂移:回顾性队列研究

原始论文

¹暨南大学大数据决策研究所，中国广州

²暨南大学信息科学与技术学院，中国广州

^3.暨南大学管理学院，中国广州

⁴美国堪萨斯城堪萨斯大学医学中心内科医学信息部

这些作者的贡献相同

通讯作者:

胡勇博士

大数据决策研究院

暨南大学

黄埔西路601号

广州,510632

中国

电话:86 02085223261

电子邮件:henryhu200211@163.com

背景:随着时间的推移，患者群体的变化，临床预测模型会出现性能漂移。非常需要能够有效地利用新旧数据的模型更新方法或建模框架。

摘要目的:基于迁移学习的范式，我们旨在开发一种新的建模框架，将旧知识转移到预测任务的新环境中，并有助于性能漂移校正。

方法:所提出的预测建模框架维护了一个基于逻辑回归的2个梯度增强机(GBM)模型的叠加集合，分别代表从旧数据和新数据中学习到的新旧知识(称为迁移学习梯度增强机[TransferGBM])。集成学习过程可以实现新旧知识的动态平衡。利用2010-2017年141,696名患者的回顾性队列电子健康记录数据，我们验证了TransferGBM用于医院获得性急性肾损伤预测的有效性。

结果:在2010年和2011年数据上训练的基线模型(即传输模型)在2012-2017年数据的时间验证中显示出显著的性能漂移。在几乎所有情况下，使用更新后的样本重新配置这些模型都会带来性能提升。所提出的TransferGBM模型的性能均优于改进后的模型。

结论:在人口转移的情况下，吸收新知识的同时保留旧知识是保持稳定绩效的必要条件。迁移学习与叠加集成学习相结合，即使在新数据不足的情况下，也能以灵活和自适应的方式实现新旧知识的平衡。

中国生物医学工程学报;2010;31 (1):389 - 391

doi: 10.2196/38053

关键字

转移学习；临床预测模型；性能漂移；概念漂移；急性肾损伤

临床风险预测模型可以为治疗干预和资源配置提供决策支持，从而改善患者预后，降低医疗成本[j]。1]。随着电子健康记录(EHR)数据的可用性和数量的增加，这些模型正在从基于规则的工具演变为基于数据驱动的基于概率的工具，例如，基于机器学习的患者预后预测模型[2]。其中一个关键的挑战是性能随时间的推移而漂移，这是由患者群体中逐渐或快速的数据变化引起的，例如患者转归率的变化、临床实践的发展和测量精度的提高[3.]。

为了纠正时间性能漂移，有一系列可用的模型更新方法，包括重新校准、模型特定自适应(例如，在随机森林[RF]模型中重新加权每棵树的叶节点和神经网络模型的增量学习方法)、模型扩展(例如，纳入新的预测因子)和全模型修正[1]。这些更新方法在分析复杂性、旧数据和更新样本要求以及计算需求方面各不相同。通常，全模型改装不是主要选择，特别是在临床应用中，因为单独使用新数据(通常较小)时存在过拟合的风险，而旧数据则被完全丢弃[1]。模型更新的本质是创建不断更新和适应新传入数据的模型，同时在新旧知识之间取得平衡[4-7]。

急性肾损伤(Acute kidney injury, AKI)是一种可能危及生命的临床综合征，目前唯一有效的治疗方法是支持治疗和透析，影响10%-15%的住院患者和50%以上的重症监护患者，死亡率很高[8，9]。对于AKI预测，Davis等[2]开发了7种常见的回归和机器学习模型，并发现歧视性能的下降在统计上显着，但对所有模型来说都很小。由于他们只收集了美国退伍军人事务部医院的数据，所以这不是人口流动的典型情况。利用从拥有欧洲最大肾脏治疗设施的皇家伦敦医院收集的数据，Haines等[10]建立了创伤后AKI的风险预测模型，受试者工作特征曲线下面积(AUROC)从开发组(2012年2月至2014年10月)的0.77(0.72-0.81)下降到验证组(2014年11月至2016年5月)的0.70(0.64-0.77)，且时间漂移显著。

在这项研究中，我们建立了一个医院获得性AKI的临床风险预测模型。该模型被命名为迁移学习梯度增强机(TransferGBM)，该模型基于迁移学习范式，并保持2个基梯度增强机(GBM)学习者的堆叠集成。迁移学习已被证明是处理数据稀缺(例如，在新数据不足或成本低的情况下)和许多领域数据分布差异的最有效方法之一[11-17]。迁移学习旨在选择性地重用源领域的数据或知识来辅助目标领域的建模过程，并将旧数据作为源领域，将新数据作为目标领域来解决性能漂移问题。由于现有的迁移学习方法只关注目标领域的性能优化，我们仍然需要一个精心设计的机制来整合和平衡从源领域和目标领域学习到的新旧知识。

AKI的定义

根据肾脏疾病改善全球结局(KDIGO) AKI临床实践指南，我们采用基于血清肌酐(SCr)的标准来分级AKI的严重程度[18]。我们没有使用尿量来定义AKI，因为它在重症监护环境之外不太可能准确[19，20.]。轻度AKI(“AKI 1期”)定义为7天内SCr升高至基线值的1.5至1.9倍，或48小时内SCr升高至0.3 mg/dL (26.5 μmol/L)或更高。基线肌酐值定义为最近的SCr(如果有);否则，它是入场SCr。中度AKI(“AKI 2期”)被定义为7天内SCr比基线值增加2.0 - 2.9倍。最严重的AKI(“AKI 3期”)被定义为7天内SCr增加基线值的3.0倍或更多，或在48小时内急性增加至少0.3 mg/dL或开始肾脏替代治疗后SCr增加到4mg /dL (353.5 μmol/L)。

研究群体

该研究使用堪萨斯大学医学中心2010年至2017年未确定的电子病历数据构建了一个回顾性队列。这些数据在之前的一项研究中使用过[20.]共纳入141696例成人患者(121537例非aki患者;20159例AKI患者;3150例≥2期AKI患者;1491例AKI 3期患者)。为了反映住院患者群体的变化，不同年份入组的患者被视为不同的个体(即，我们在患者接触水平上处理数据)。

如图所示表1老年患者(即年龄≥65岁)的比例总体呈逐年上升趋势，从2010年的31.7%上升到2017年的36.5%。46 ~ 55岁患者比例逐年下降，其他年龄段患者比例保持不变。男女患者的比例随时间变化不大，基本维持在1:1。白人患者的比例一直排在第一位，占每年样本总数的70%以上，而夏威夷原住民的比例最少(仅为0.1%)。只有不同种族患者的比例保持稳定，没有明显变化。非裔美国人的比例在2010年高于其他所有年份，白人患者的比例在2010年略低于其他所有年份。此外，AKI(任何AKI)的发病率呈明显下降趋势，从2010年的16.9%下降到2017年的12.8%。

表1。人口统计信息。

功能		一年
		2010 (N = 14946)	2011 (N = 15422)	2012 (N = 16682)	2013 (N = 17450)	2014 (N = 18701)	2015 (N = 20094)	2016 (N = 20399)	2017 (N = 18002)
年龄组别(岁)，n (%)
	年龄在18岁至25岁之间	869 (5.8)	886 (5.7)	923 (5.5)	918 (5.3)	1077 (5.8)	1082 (5.4)	1086 (5.3)	1001 (5.6)
	26 - 35周不等	1290 (8.6)	1275 (8.3)	1468 (8.7)	1567 (9.0)	1717 (9.7)	1814 (9.0)	1823 (8.9)	1664 (9.2)
	36-45	1640 (11.0)	1727 (11.2)	1696 (10.2)	1861 (10.7)	1819 (9.7)	2136 (10.6)	2196 (10.8)	1919 (10.7)
	46-55	3025 (20.2)	2998 (19.4)	3203 (19.2)	3133 (19.0)	3150 (16.8)	3482 (17.3)	3259 (16.0)	2762 (15.3)
	56 - 65	3383 (22.6)	3659 (23.7)	3951 (23.7)	4161 (23.8)	4558 (24.4)	4897 (24.4)	4840 (23.7)	4088 (22.7)
	> 65	4739 (31.7)	4877 (31.6)	5441 (32.6)	5810 (33.3)	6380 (34.1)	6683 (33.3)	7195 (35.3)	6568 (36.5)
性别，n (%)
	男性	7547 (50.5)	7635 (49.5)	8432 (50.5)	8640 (49.5)	9307 (49.8)	10114 (50.3)	10250 (50.2)	9045 (50.2)
	女	7399 (49.5)	7787 (50.5)	8250 (49.5)	8810 (50.5)	9394 (50.2)	9980 (49.7)	10149 (49.8)	8957 (49.8)
种族，n (%)
	美国印第安人	53 (0.4)	52 (0.3)	46 (0.3)	79 (0.5)	68 (0.4)	87 (0.4)	80 (0.4)	63 (0.3)
	亚洲	125 (0.8)	128 (0.8)	153 (0.9)	167 (1.0)	210 (1.1)	184 (0.9)	254 (1.2)	149 (0.8)
	非裔美国人	2286 (15.3)	2240 (14.5)	2255 (13.5)	2510 (13.4)	2685 (14.4)	2883 (14.3)	2896 (14.2)	2614 (14.5)
	本土的夏威夷	11 (0.1)	20 (0.1)	9 (0.1)	9 (0.1)	15 (0.1)	10 (0.1)	18 (0.1)	14 (0.1)
	白色	10915 (72.9)	11485 (74.5)	12691 (76.1)	13331 (76.4)	14322 (76.6)	15378 (76.5)	15522 (76.1)	13689 (76.0)
	多个种族	22日(0.1)	24 (0.2)	51 (0.3)	46 (0.3)	53 (0.3)	38 (0.2)	41 (0.2)	28日(0.2)
	其他人	1534 (10.3)	1473 (9.6)	1477 (8.9)	1308 (7.5)	1348 (7.2)	1514 (7.5)	1588 (7.8)	1445 (8.0)
标签，n (%)
	Non-AKI^一个	12414 (83.1)	12937 (83.9)	14097 (84.5)	15124 (86.7)	16165 (86.4)	17435 (86.8)	17660 (86.6)	15705 (87.2)
	任何阿基	2532 (16.9)	2485 (16.1)	2585 (15.5)	2326 (13.3)	2536 (13.6)	2659 (13.2)	2739 (13.4)	2297 (12.8)
	AKI分期≥2期	353 (2.4)	356 (2.3)	359 (2.1)	371 (2.1)	419 (2.2)	471 (2.3)	444 (2.2)	377 (2.1)
	AKI第三期	146 (1.0)	149 (1.0)	171 (1.0)	184 (1.1)	187 (1.0)	241 (1.2)	219 (1.1)	194 (1.1)

^一个AKI:急性肾损伤。

数据预处理

对于每个患者，我们收集了PCORNet公共数据模型(CDM)模式中所有当前填充的变量，包括人口统计细节(即年龄、性别和种族);结构化临床变量，包括合并症(《国际疾病分类》第9号和《国际疾病分类》第10号代码)、程序(《国际疾病分类》和现行程序术语代码)、实验室测试(逻辑观察标识名称和代码)和药物(RxNorm和国家药物代码);以及一些生命体征(如血压、身高、体重和体重指数)[21]。所有变量都有时间戳，数据集中的每个样本都由一系列每日汇总的临床观察向量表示。因此，前一天或当天的数据所形成的特征集t可在数天内预测AKI [t，t+1]用于24小时预报(或几天内预报)[t+ 1,t+2]用于48小时预测)。

我们对数据集进行如下预处理。首先，对于数值特征，如实验室测量值和生命体征，我们系统地去除了超过1%和99%的极值。其次，我们对分类变量(如诊断和程序)执行one-hot编码，将它们转换为二进制表示。第三，对于药物代码，我们将数据转换为预测时间之前的累积暴露天数，而不是二进制表示。第四，当在一定时间间隔内有重复记录时，选择最近的测量值。第五，我们使用“采样-保持”方法来检索早期可用的测量值，当测量值在一定的时间跨度内丢失时。第六，我们引入了额外的特征，如每日血压趋势或住院时间，这些已被证明对预测AKI有用[22]。第七，我们排除了所有形式的SCr和血尿素氮，因为它们与AKI诊断有很高的相关性，不适合连续预测。最后，共获得28,306个特征用于模型开发。

我们采用了离散时间生存框架[23]对带时间戳的电子病历数据进行预处理，如图图1．我们把病人的整个住院时间分为l不重叠的日常窗口(即l=Δt2Δt、……T),T是住院时间的长短或特定的检查点。基于专家知识，我们选择了一个检查点T=7，表示入院7天。间隔值Δt是根据临床需要选择的预测窗口。例如:Δt=1表示1天(24小时)预测，Δt=2表示2天(48小时)预测。我们将使用所有可用的数据t——Δt及时预测AKI风险t．我们根据不同预测任务的标准将AKI发病日对应的数据作为阳性样本处理，而第一个阳性样本日之后和不同AKI分期天数之间的数据被丢弃，因为我们无法判断这些时间段内的真实AKI分期，因为医生可能进行了干预，患者的病情可能已经改善。其余数据均为负样本。对于住院期间未发生AKI的患者，采用入院后7天内可获得的所有数据构建阴性样本，其余入院后7天的数据丢弃，以减轻数据不平衡。在离散时间生存框架下，我们可以训练一个更符合现实世界临床实践的模型，其中每天滚动预测患者的AKI风险是必不可少的[24]。

图1所示。基于离散时间生存框架的数据处理策略。红色三角形代表急性肾损伤(AKI)的实际阶段。“Δt”表示提前预测时间，“-”表示阴性样本，“+”表示阳性样本，“*”表示排除样本。

TransferGBM建模框架

为了纠正时间性能漂移，我们提出了一个基于迁移学习的建模框架，名为TransferGBM，如图所示图2．

从迁移学习范式的角度来看，我们将旧数据视为源域或源数据，将新数据视为目标域或目标数据。我们基于几个基本思想设计了TransferGBM。首先，基础学习器是GBM，它已广泛应用于临床预测建模研究[25，26]。选择GBM是因为(1)它对高维和共线性数据具有鲁棒性;(2)它可以自动处理缺失值;(3)它在模型训练过程中嵌入了独特的特征选择方案，使其输出更具可解释性[20.，27]。其次，我们对新旧数据进行了不同的处理，用2个独立的GBM模型分别代表新旧知识。第三，我们将旧知识转移到目标领域，同时通过上述2个GBM模型的集成来平衡预测中的新旧知识。第四，利用目标数据定期更新2个GBM模型及其在预测函数中的相对权重，以适应数据分布的变化。

TransferGBM建模框架包括5个步骤。首先，我们使用所有源数据构建源模型(即源梯度增强机[SourceGBM])，并使用基于交叉验证的过程搜索最优特征工程方案和GBM的超参数(如树的深度、学习率、最小子权重和早期停止)。其次，我们将上述最优特征工程方案应用于目标数据，然后利用内置的增量学习机制对处理后的目标数据进行SourceGBM适配，得到自适应模型(即自适应梯度增强机[AdaptedGBM])。第三，我们使用目标域的原始开发集构建目标模型(即改装的梯度增强机[RefittedGBM])，同时重用SourceGBM中GBM的最优特征工程方案和超参数。第四，构建了用于叠加集成学习的预测概率值矩阵[28]，通过将目标域开发集中每个样本的AdaptedGBM和RefittedGBM的预测概率值与样本的真实标签组合成一个向量，并将所有向量池化成一个矩阵H．第五，将基于逻辑回归(LR)学习器的叠加集成学习方法应用于矩阵H，得到最终的预测模型，该模型分别集成了AdaptedGBM和RefittedGBM模型的新旧知识。

从目标域的角度来看，建模过程涉及3个不同的特征集，包括(1)表示源域和目标域特征相交的公共特征，(2)表示属于目标域而不属于源域的唯一特征，以及(3)由GBM学习器从目标数据中选择的重要特征。在对SourceGBM进行适配时，我们将从目标数据中提取的公共特征与源领域特定特征的缺失值相结合，从而将SourceGBM的旧知识转移到目标领域。考虑到目标领域特定知识(即新知识)的价值，我们允许GBM学习器从目标数据的共同特征和唯一特征中选择最重要的特征，从而在不受特征空间约束的情况下获得目标领域的新知识。TransferGBM建模框架的伪代码见图3．

图3。TransferGBM建模框架的伪代码。AdaptedGBM:自适应梯度增压机;GBM:梯度增压机;RefittedGBM:改进型梯度增压机;TransferGBM:迁移学习梯度增强机。

实验设计

我们设计了以下3个预测任务:任何AKI预测(即AKI分期≥1)、中重度AKI预测(即AKI分期≥2)和重度AKI预测(AKI分期3)。根据一般临床需要，任何AKI预测窗口设置为48小时，其他2个任务设置为24小时。

我们汇集了2010年和2011年的数据，并将它们作为旧数据(即固定的源域)使用。2012 - 2017年的数据独立作为新数据，得到6个目标域。我们分别对源域和目标域进行分层随机抽样，分为开发集(80%)和验证集(20%)。我们在训练集上使用10倍交叉验证调整了GBM的超参数，包括树的深度(2-10)、学习率(0.01-0.1)、最小子权重(1-10)和通过早期停止确定的树的数量。我们用AUROC来衡量模型的性能[29]，取95% CI的平均值。

应该注意的是，SourceGBM在目标域的验证集上的性能表明了时间验证，而RefittedGBM(使用目标域的开发集进行训练)在目标域的验证集上的性能表明了内部验证。为了验证TransferGBM，我们首先研究了性能是否随时间推移而漂移，然后研究了TransferGBM是否能够保持性能。

道德的考虑

该研究不需要机构审查委员会的批准，因为所使用的数据符合《健康保险流通与责任法案隐私规则》中规定的去识别标准[30.]。HERON数据请求监督委员会批准了该数据请求。

基础模型选择

我们检查了5种常见的机器学习模型，这些模型基于对任何AKI预测的每年数据的5倍交叉验证。这些模型包括LR、决策树(DT)、RF、k近邻(KNN)和GBM。模型参数定制如图表2，除了scikit-learn包中提供的默认参数[31]。5个模型在不同年份的内部验证AUROC性能见图4．GBM和RF的auroc均达到0.7以上，说明这些模型对AKI有一定的预测能力，而其他3个模型(DT、LR和KNN)的预测能力普遍较差。考虑到GBM表现最好，我们在后续的实验中选择了它作为基础学习器。

表2。模型参数设置。

模型	参数设置(默认值除外)
梯度增压机(XGBoost)	调整超参数(树的深度:2-10;学习率:0.01-0.1;基于10倍交叉验证的最小儿童体重:1-10)
逻辑回归	点球= " L2;“max_iter = 300;C = 3.0
随机森林	n_estimators = 400;引导= True
再	n_neighbors = 40
决策树	标准= "熵"

图4。不同机器学习模型的内部验证。AUROC:受者工作特性曲线下面积;DT:决策树;GBM:梯度增压机;KNN: k近邻;LR:逻辑回归;随机森林。

业绩随时间变化

图5描述了RefittedGBM的内部验证与SourceGBM在3个预测任务中的时间验证之间的AUROC增益(即ΔAUROC)。ΔAUROC随时间呈线性增长趋势，这意味着由于数据分布随时间的变化，传输模型(即直接将SourceGBM传输到目标域而不进行任何自适应)不是新数据的最佳选择。从另一个角度来看，性能增益在0.051以内，这意味着传输的模型仍然包含一些可以在新数据中重用的一般知识。

图5。通过重新调整模型来提高性能。AKI:急性肾损伤;AUROC:接收机工作特性曲线下的面积。

TransferGBM的性能验证

TransferGBM维护了一个由2个GBM模型组成的叠加集合，分别代表从新数据和旧数据中学习到的新知识和旧知识，前者使用2010年和2011年的数据训练，后者使用2012年至2017年每年更新的数据训练。利用2012 - 2017年目标域的验证集，我们比较了TransferGBM、TransportedGBM(即直接将SourceGBM传输到目标域而不进行任何适配)和RefittedGBM(即使用目标域数据对SourceGBM进行适配)的模型性能。为了更好地模拟临床应用中电子病历的积累过程，我们进一步研究了不同大小的可用训练集(即更新数据)，范围从目标域开发集的25%到100%，通过分层随机抽样而不进行替换。多媒体附录1显示了TransportedGBM, RefittedGBM和TransferGBM在不同目标年和不同训练集大小的3个预测任务中的AUROC (95% CI)表现。

我们从建模框架选择的角度评估了不同规模的可用训练集对模型性能的影响。图6以2012年为例进行了说明。当训练集规模较小时，TransportedGBM的性能优于RefittedGBM。随着训练数据量的增加，RefittedGBM逐渐改进，最终优于TransportedGBM。总体而言，无论可用训练集的大小如何，TransferGBM的性能始终优于TransportedGBM和RefittedGBM。

接下来，在建模框架选择方面，我们研究了训练集大小和数据分布位移对模型性能的共同影响，如下所示图7．

对于任何AKI预测，当训练集大小为25%时，TransportedGBM在前3年(2012年至2014年)的表现优于RefittedGBM。然而，在随后的3年(2015 - 2017)中，TransportedGBM的预测迅速下降，表现落后于RefittedGBM。在整个6年中，TransferGBM始终优于TransportedGBM和RefittedGBM, AUROC范围从0.759 (95% CI 0.732-0.766)到0.804 (95% CI 0.778-0.812)，与RefittedGBM相比，平均AUROC增益为0.03，与TransportedGBM相比为0.02。当训练集大小为100%时，RefittedGBM在所有6年中显著优于TransportedGBM，但仍低于TransferGBM。TransferGBM的AUROC范围从0.783 (95% CI 0.757-0.792)到0.828 (95% CI 0.802-0.834)，与RefittedGBM相比，平均AUROC增加0.04，与TransportedGBM相比，平均AUROC增加0.02。

对于AKI≥2期预测，尽管训练集大小仅为25%，但RefittedGBM优于TransportedGBM(除了2012年的目标年)，并且更大的训练集与更好的预测相关。这意味着目标域的数据分布与源域的数据分布存在显著差异，直接将外部模型传输到目标域并不是明智的选择。同样，无论训练集大小和目标年份如何，TransferGBM都是3个模型中最好的模型。当训练集大小为25%时，TransferGBM的AUROC范围为0.830 (95% CI 0.795-0.851) ~ 0.921 (95% CI 0.893-0.932)，当训练集大小为100%时，其AUROC范围为0.866 (95% CI 0.835-0.877) ~ 0.946 (95% CI 0.920-0.959)。

对于AKI阶段3预测，当训练集大小为25%或50%时，RefittedGBM在前3年(2012年至2014年)显著低于TransportedGBM，但在随后的3年(2015年至2017年)预测接近。当训练集大小为50%或100%时，RefittedGBM和TransportedGBM的表现非常接近。这个结果意味着直接传输外部模型是一个很好的选择(即不需要重新构建模型，特别是当目标域上的训练数据不够时)。TransferGBM仍然是最好的模型，当训练集大小为25%时，AUROC范围为0.920 (95% CI 0.890-0.936) ~ 0.948 (95% CI 0.921-0.962)，当训练集大小为100%时，AUROC范围为0.866 (95% CI 0.854-0.911) ~ 0.959 (95% CI 0.932-0.973)。

图6。训练集大小对性能的影响(目标年为2012年)。AKI:急性肾损伤;AUROC:受者工作特性曲线下面积;RefittedGBM:改进型梯度增压机;TransferGBM:迁移学习梯度增强机;TransportedGBM:输送梯度提升机。

图7。训练集大小和数据分布位移对性能的共同影响。AKI:急性肾损伤;AUROC:受者工作特性曲线下面积;RefittedGBM:改进型梯度增压机;TransferGBM:迁移学习梯度增强机;TransportedGBM:输送梯度提升机。

主要研究结果

实验结果表明，无论目标域的可用训练数据有多少，TransferGBM都能始终优于TransportedGBM和RefittedGBM。我们也确认旧数据很重要，不应该被丢弃，特别是在新数据不足的情况下。新旧知识之间存在差异，因此需要达到平衡。

对于所提出的基于迁移学习的建模框架的候选基学习器，我们考虑了几种常用的线性和非线性机器学习算法，其中RF对过拟合和高维特征变量具有良好的鲁棒性[32，33]。XGBoost可以同时考虑多个潜在的相关预测因子，并可以处理潜在的非线性相关性[34-36]。DT是一种计算速度快、精度高的非参数学习算法，可以处理连续字段和类型字段，非常适用于高维数据[j]。32]。LR是一种非常适合稀疏数据集的线性算法，当模型中只有少数变量是有价值的预测因子时，模型性能保持稳定。KNN实现简单，不需要数据训练过程，非常适合高维数据。实验结果表明，XGBoost算法具有较好的性能。RF的性能与XGBoost非常接近，并且都是基于树的集成方法。DT可能会忽略变量之间的相关性，经历一些较大的噪声，导致模型性能很差[33]。LR表现不佳可能与AKI危险因素之间的非线性相关有关。KNN可能会受到EHR数据中大量噪声的影响，导致性能很差。

TransportedGBM、RefittedGBM或TransferGBM的选择取决于或受数据分布、建模成本、目标域可用训练数据等实际情况的影响。TransportedGBM在源数据上进行训练，然后直接应用于目标数据，不需要任何适应和额外成本，适合于源域和目标域之间分布非常相似的临床场景。当分布不相似时，RefittedGBM将是比TransportedGBM更好的选择，它只需要在目标数据上重新修正模型，除了需要从目标域获得足够的训练数据。TransferGBM无疑是一个更复杂的解决方案，它需要适应一个现有的模型，重新构建一个新的模型，并构建这两个模型的集合。这使得TransferGBM更适合于源域与目标域分布部分相似或相似程度变化显著的临床场景。

关于TransferGBM的适应性，很明显，TransferGBM是AdaptedGBM和RefittedGBM组合的灵活自适应扩展(AdaptedGBM是通过将TransportedGBM/SourceGBM更新到目标域获得的)。这也意味着在某些情况下，由于堆叠集成学习机制，TransferGBM可能会降级为AdaptedGBM或RefittedGBM。以一些极端情况为例，当目标域与源域处于相同分布时，由于使用目标域的新数据更新模型后几乎没有变化，TransferGBM会退化为AdaptedGBM甚至TransportedGBM。相反，当目标域与源域处于完全不同的分布时，TransferGBM会退化为RefittedGBM，因为在这种情况下，在叠加集成学习过程中，AdaptedGBM几乎是无用的，甚至是负的和被抑制的。在TransferGBM设计的大多数情况下，即当源域和目标域的分布或多或少相似但不完全不同时，TransferGBM将自适应地实现AdaptedGBM和RefittedGBM之间的平衡。

动机

传统上，迁移学习应用于数据稀缺和分布不均的场景，其基本思想是有选择地重用源领域的数据或知识来辅助目标领域的建模过程。对于时间性能漂移的场景，我们提出将旧数据作为源域，新数据作为目标域，这可能适合迁移学习，并试图验证其有效性。

我们认为，与重新校准和增量训练等常见方法相比，迁移学习可以从另一个角度为纠正时间性能漂移提供见解。例如，当数据分布发生显著变化时，迁移学习可以立即丢弃旧的知识/模型，并从源域重新选择新的合适的训练样本进行学习，而增量训练则存在缓慢的渐进适应。

由于我们研究的主要目的不是在常见的建模场景下建立高性能的AKI预测模型，因此我们将数据划分为不同的年份，采用简单清晰的建模过程，没有进行全面的特征工程、类平衡、超参数搜索等。

限制

我们的研究有几个局限性。首先，我们在模型训练和验证中使用回顾性数据，并且没有外部验证我们的模型。因此，我们的结果并不能说明在实际临床实践中的表现。其次，我们没有采用最先进的迁移学习算法，如gapBoost、远域迁移学习、选择性学习算法、多线性关系网络和传递性迁移学习，这些算法已经在系统综述中讨论过[37，38]。这些算法可能会产生更好的预测性能。第三，我们没有将我们的方法与其他时间性能漂移的校正方法和时间性能漂移的检测机制进行比较，例如Davis等人提出的方法[1，2，39]。第四，我们没有考虑流行的时间序列模型，如循环神经网络和长短期记忆[40，41]，以及添加历史汇总特征表示(例如，过去48小时的平均实验室测试结果和生命体征)[42]。这些方法可能产生与迁移学习方法相同的效果。

结论

本研究解决了临床预测模型中表现漂移的问题。我们提出了一种新的基于迁移学习的建模框架，并使用堪萨斯大学医学中心的真实电子病历数据对其进行验证，用于AKI预测。提出的TransferGBM模型通过对旧知识的转移和新旧知识模型的整合，克服了目标数据不足和数据分布漂移的问题。结果表明，TransferGBM优于运输模型和改装模型。

致谢

国家自然科学基金重大研究计划(重点专项，批准号:91746204)、广东省科学技术发展计划(先进关键技术创新重大专项，批准号:2017B030308008)、广东省大数据精准医疗工程技术研究中心(批准号:603141789047)资助。ML由美国国立卫生研究院(NIH)/美国国家糖尿病、消化和肾脏疾病研究所(奖励R01DK116986)、美国国家科学基金会智能与互联健康(奖励2014554)和美国国立卫生研究院/国家促进转化科学中心(NCATS)临床转化科学奖(CTSA;资助号UL1TR002366)。本研究中使用的临床数据集来自堪萨斯大学医学中心的HERON临床数据库，该数据库由机构资助和NIH/NCATS CTSA(授权号UL1TR002366)支持。

作者的贡献

YH和ML发起了这个项目，并设计了整个研究。ML提取本研究中使用的数据。XZ和KL设计了算法。YX, SC和XS设计了初始的训练和测试设置，并进行了实验。YX起草了论文，YH、ML、XZ、KL和WC进行了重要的修改。

利益冲突

没有宣布。

‎

多媒体附录1

不同实验设置下的详细性能对比。

DOCX文件，30kb

Davis SE, Greevy RA, Fonnesbeck C, Lasko TA, Walsh CG, Matheny ME。一种修正临床预测模型漂移的非参数更新方法。医学信息学报，2019,01,26(12):1448-1457 [J]免费全文] [CrossRef] [Medline］
Davis SE, Lasko TA, Chen G, Siew ED, Matheny ME。急性肾损伤的回归和机器学习模型的校准漂移。医学信息学报，2017,11,24(6):1052-1061 [J]免费全文] [CrossRef] [Medline］
Debray TPA, Vergouwe Y, Koffijberg H, Nieboer D, Steyerberg EW, Moons KGM。一个新的框架，以加强临床预测模型的外部验证研究的解释。中华流行病学杂志，2015;68(3):279-289 [J]免费全文] [CrossRef] [Medline］
Adibi A, Sadatsafavi M, Ioannidis JPA。临床预测模型的验证和效用检验:是时候改变方法了。中国医学杂志2020年7月21日;324(3):235-236。［CrossRef] [Medline］
Moons KGM, Kengne AP, Grobbee DE, Royston P, Vergouwe Y, Altman DG，等。风险预测模型:外部验证、模型更新和影响评估。心脏2012年5月;98(9):691-698。［CrossRef] [Medline］
moonkgm, Altman DG, Vergouwe Y, Royston P.预后和预后研究:预后模型在临床实践中的应用和影响。英国医学杂志2009年6月04日;338:b606。［CrossRef] [Medline］
Siregar S, Nieboer D, Vergouwe Y, Versteegh MI, Noyez L, Vonk AB，等。通过动态建模改进预测。Circ:心血管质量与预后2016年3月9日(2):171-181。［CrossRef］
曾晓，McMahon GM, Brunelli SM, Bates DW, Waikar SS.住院患者AKI的发病率、结局和不同定义的比较。中华临床医学杂志，2014;9(1):12-20 [J]免费全文] [CrossRef] [Medline］
Hoste EAJ, Bagshaw SM, Bellomo R, Cely CM, Colman R, Cruz DN，等。危重患者急性肾损伤的流行病学:多国AKI-EPI研究。重症监护医学2015;41(8):1411-1423。［CrossRef] [Medline］
海恩斯RW，林S，休森R, Kirwan CJ, Torrance HD, O'Dwyer MJ，等。急性肾损伤的创伤患者入院重症监护:发展和验证的诊断预测模型。科学通报2018年2月26日;8(1):3665 [免费全文] [CrossRef] [Medline］
戴伟，陈毅，薛刚，杨强，余宇。翻译学习:跨不同特征空间的迁移学习。第21届国际神经信息处理系统会议论文集，发表于:第21届国际神经信息处理系统会议;2008年12月8日至10日;温哥华，不列颠哥伦比亚，加拿大，第353-360页。［CrossRef］
戴伟，杨强，薛刚，于勇。迁移学习的助推方法。In: ICML '07:第24届国际机器学习会议录。2007年6月20日至24日;美国俄勒冈州科瓦利斯，第193-200页。［CrossRef］
龙明，王杰，丁刚，孙军，于平。基于联合分布自适应的迁移特征学习。2013，发表于:IEEE计算机视觉国际会议;2013年12月1日至8日;悉尼，新南威尔士州，澳大利亚。［CrossRef］
潘世杰，杨强。迁移学习研究综述。IEEE反式。"。数据工程2010;22(10):1345-1359。［CrossRef］
李建军，李建军，李建军，等。基于源学习和目标优化的随机森林迁移学习框架。IEEE反式。模式肛门。马赫。英特尔2017年9月1日;39(9):1811-1824。［CrossRef］
Weiss K, Khoshgoftaar TM, Wang D.迁移学习研究综述。大数据学报2016年05月28日;3(1):9。［CrossRef］
Wiens J, Guttag J, Horvitz E.迁移学习研究:利用多家医院的数据来增强医院特异性预测。中华医学杂志，2014;21(4):699-706 [J]免费全文] [CrossRef] [Medline］
KDIGO急性肾损伤临床实践指南。中华肾外科杂志;2012;29 (4):559 - 564 [j]免费全文] [CrossRef] [Medline］
徐超，刘超，谭颖，郭超，林颖。基于电子病历的社区获得性急性肾损伤住院风险预测机器学习模型的开发与验证研究。[J]互联网研究与发展，2020年8月24日;22(8):869 - 869 [J]免费全文] [CrossRef] [Medline］
宋翔，余ASL, Kellum JA, Waitman LR, Matheny ME, Simpson SQ，等。急性肾损伤预测的可解释人工智能模型的跨部位可移植性。Nat comm 2020 Nov 09;11(1):5668 [j]免费全文] [CrossRef] [Medline］
Rosenbloom ST, Carroll RJ, Warner JL, Matheny ME, Denny JC。在卫生系统中一致地代表知识。医学通报2017年8月;26(1):139-147 [j]免费全文] [CrossRef] [Medline］
Koyner JL, Carey KA, Edelson DP, Churpek MM.机器学习住院急性肾损伤预测模型的建立。中华医学杂志，2018;46(7):1070-1077。［CrossRef] [Medline］
歌手JD，威利特JB。这与时间有关:使用离散时间生存分析来研究事件的持续时间和时间。教育统计2016年11月23日;18(2):155-195。［CrossRef］
何军，胡勇，张欣，吴丽，Waitman LR，刘敏。基于电子病历的综合医院人群急性肾损伤多视角预测模型。2019年4月2日(1):115-122 [免费全文] [CrossRef] [Medline］
金凯，杨海，易军，孙海，刘军，金玉成，等。基于循环神经网络的院内急性肾损伤实时临床决策支持:外部验证和模型解释。[J]中国医学信息学报，2011;23(4):563 - 568 [J]免费全文] [CrossRef] [Medline］
宋敏，韩晨，李建民，李俊，刘杰，等。重症监护病房电子病历中考虑时间和输入错误的事件预测模型:回顾性研究。中国医学信息学报(英文版);2011;9(11):e26426 [j]免费全文] [CrossRef] [Medline］
魏超，张丽，冯勇，马安，康勇。危重患者急性肾损伤进展的机器学习预测模型。中国医学杂志，2022,01,22(1):17 [j]免费全文] [CrossRef] [Medline］
沃伯特DH。堆叠泛化。神经网络学报(英文版);2005(2):241-259。［CrossRef］
jim - nez- valverde a .在物种分布模型中，接收者工作特征曲线下面积(AUC)作为一种判别措施的见解。全球生态学报;2012;21(4):498-507。［CrossRef］
关于根据《健康保险流通与责任法案》(HIPAA)隐私规则对受保护健康信息进行去识别的方法指南。美国卫生与公众服务部，人类研究保护办公室。URL:https://www.hhs.gov/hipaa/for-professionals/privacy/special-topics/de-identification/index.html[2022-11-03]访问
Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O，等。Scikit-learn: Python中的机器学习。机器学习研究学报2011;12:2825-2830。［CrossRef］
张建军，张建军，张建军。基于随机森林分类器的谵妄事件预测。[J]医学系统2018年11月14日;42(12):261。［CrossRef] [Medline］
李建军，李建军。随机森林分类器的加权混合决策树模型。工业工程印度爵士。[j] .中国科学:自然科学学报;2015;37(2):559 - 561。［CrossRef］
陈涛，何涛，Benesty M, Khotilovich V，唐勇，Cho H. XGBoost:极限梯度增强，R包版本04-2。R项目。2015。URL:https://cran.r-project.org/src/contrib/Archive/xgboost/[2022-10-19]访问
陈涛，陈志军。XGBoost:一种可扩展的树提升系统。第22届ACM SIGKDD知识发现与数据挖掘国际会议论文集，发表于:第22届ACM SIGKDD知识发现与数据挖掘国际会议;2016年8月13-17日;旧金山，加利福尼亚，美国，第785-794页。［CrossRef］
王强。XGBoost模型在慢性肾脏病诊断中的应用。[j] .计算机工程学报，2016;17(6):661 - 661。［CrossRef] [Medline］
庄峰，祁忠，段康，席东，朱勇，朱华，等。迁移学习研究综述。电子工程学报，2011,31(1):444 - 444。［CrossRef］
牛生，刘宇，王健，宋华。迁移学习十年研究进展(2010-2020)。IEEE反式。Artif。[j] .计算机工程学报，2016,31(2):551 - 561。［CrossRef］
Davis SE, Greevy RA, Lasko TA, Walsh CG, Matheny ME。检测临床预测模型中的校准漂移，为模型更新提供信息。[J]中国生物医学工程学报，2010;12:391 - 391 [J]免费全文] [CrossRef] [Medline］
Shickel B, Tighe PJ, Bihorac A, Rashidi P.深度EHR:电子健康记录(EHR)分析的深度学习技术进展综述。IEEE生物医学学报，2018;22(5):1589-1604 [J]免费全文] [CrossRef] [Medline］
Yadav P, Steinbach M, Kumar V, Simon G.采矿电子健康记录(EHRs)。ACM第一版。2018年11月30日;50(6):85。［CrossRef］
Tomašev N, Glorot X, Rae JW, Zielinski M, Askham H, Saraiva A，等。一种临床适用的持续预测未来急性肾损伤的方法。Nature 2019 Aug 31;572(7767):116-119 [j]免费全文] [CrossRef] [Medline］

‎

AdaptedGBM:自适应梯度增压机

阿基:急性肾损伤

AUROC:接收机工作特性曲线下的面积

DT:决策树

电子健康档案:电子健康记录

“绿带运动”:梯度增压机

资讯:再

LR:逻辑回归

RefittedGBM:改装的梯度增压机

射频:随机森林

可控硅:血清肌酐

SourceGBM:源梯度增强机

TransferGBM:迁移学习梯度增强机

TransportedGBM:输送式梯度提升机

郝编辑;提交17.03.22;李海、郑凯、孙海同行评议;对作者的评论15.05.22;修订版本收到31.07.22;接受12.10.22;发表09.11.22

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到https://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

用迁移学习方法纠正临床预测模型的时间表现漂移:回顾性队列研究