卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMI

JMIR Med Inform

JMIR医学信息学

2291 - 9694

卡塔尔世界杯8强波胆分析

加拿大多伦多

v9i4e21043

33818396

10.2196/21043

原始论文

基于权重的无数据共享非迭代通信多数据库预测建模框架:多机构研究的隐私保护分析方法

Eysenbach

冈瑟

段

鲁伊

佩雷拉

塔尼亚

Mohammad Gholi Mezerji

nas

公园

霁Ae

MSc 1

https://orcid.org/0000-0002-8717-1587

唱

分钟董

医学博士 1

https://orcid.org/0000-0002-5217-8877

金

何鸿燊Heon

二元同步通信 1

https://orcid.org/0000-0001-7260-7504

公园

余响了

博士学位 1

生物医学系统信息学系延世大学医学院

西大门区延世路50-1号

首尔

大韩民国 82 2228 2493 yurangpark@yuhs.ac

https://orcid.org/0000-0002-4210-2094

1 生物医学系统信息学系延世大学医学院

首尔

大韩民国

通讯作者:Yu Rang Park yurangpark@yuhs.ac

4 2021

5 4 2021

9 4

e21043

7 6 2020 21 9 2020 16 11 2020 3. 3. 2021

©Park Ji Ae, Min Dong Sung, Ho Heon Kim, Yu Rang Park。最初发表于JMIR医学信息学(http://medinform.www.mybigtv.com)， 05.04.2021。

2021

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到http://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

背景

确保研究人群的代表性在生物医学研究中至关重要，以确保高普遍性。在这方面，使用多机构数据在医学上具有优势。然而，由于生物医学数据的机密性会导致隐私问题，因此很难对数据进行物理合并。因此，在使用多机构医疗数据进行研究时，有必要采用方法学方法来开发模型，而不需要在机构之间共享数据。

客观的

本研究旨在开发一种基于权重的多机构数据集成预测模型，该模型不需要机构之间的迭代通信，通过增加模型在隐私保护条件下的泛化性来提高平均预测性能，而无需共享患者级数据。

方法

基于权重的集成模型为每个机构模型生成一个权重，并基于这些权重构建多机构数据的集成模型。我们进行了3次模拟，以显示权重特性，并确定获得稳定值所需的权重重复次数。我们还使用真实的多机构数据进行了实验，以验证所开发的基于权重的集成模型。我们从电子重症监护病房合作研究数据库中选择10家医院(共2845个重症监护病房)，用11个特征预测重症监护病房的死亡率。为了评估我们的模型的有效性，与合并10家医院的所有数据开发的集中式模型相比，我们使用了比例重叠(即0.5或更小表示在0.05水平上存在显著差异;2表示2个CIs完全重叠)。两个模拟和实验分别采用标准和第五逻辑回归模型。

结果

这些模拟结果表明，每个机构的权重由两个因素决定(即每个机构的数据大小以及每个机构模型与整体机构数据的匹配程度)，并且每个机构需要重复生成200个权重。实验中，集中式模型和基于权重的综合模型的受试者工作特征曲线下估计面积(AUC)和95% ci分别为81.36%(79.37% ~ 83.36%)和81.95%(80.03% ~ 83.87%)。基于权重的综合模型与集中式模型的AUC ci的比例重叠约为1.70，除1例外，11例估计比值比的重叠均大于1。

结论

在使用真实多机构数据的实验中，我们的模型与没有机构间迭代通信的集中式模型的结果相似。此外，与集中式模型相比，我们基于权重的集成模型通过整合10个过拟合或欠拟合的模型，提供了一个加权平均模型。所提出的基于权重的集成模型有望提供一种高效的分布式研究方法，因为它增加了模型的可泛化性，并且不需要迭代通信。

多机构研究分布式数据数据共享当中的方法

介绍

多机构研究有许多优点，因为它们可以增加临床结果的普遍性和可重复性。利用多机构数据对地理上和人口上不同的人口进行的研究越来越普遍，而且有必要提高概括性[ 1]。这增加了研究结果对其他设置或其他样本的适用性，因为抽样偏差减少了。当患者和疾病特征与所代表的患者群体不同时，就会发生抽样偏倚，由于患者群体反映了当地的社会经济环境或医院的专业兴趣，这种偏倚通常发生在来自单一机构的电子健康记录衍生数据库中。 2]。

共享多个机构积累的数据，发挥大数据在医学领域的潜力。生物医学大数据网络，如以患者为中心的可扩展国家有效性研究网络临床数据研究网络[ 3.，联邦翻译查询网络的可扩展架构[ 4]，以及电子医疗记录和基因组学(eMERGE)网络[ 5]，以便进行跨机构的生物医学研究[ 6]。由于大数据与数量、种类和速度有关，因此其可服务性取决于通过这些数据网络对存储在不同地方的快速增长的数据源进行组合和分析。

然而，如此大量数据的可用性与隐私问题有关。当敏感的生物医学数据被用于研究目的时，必须保护隐私，这需要实施几项保障措施[ 7]。为了克服隐私和数据使用这两个相互冲突的问题，应该考虑在不共享数据的情况下分析所有分区数据的方法解决方案。目前，通过解决跨机构分布的患者级数据的隐私问题来构建基于多机构数据的模型的方法主要可分为分布式计算方法和通信效率方面不需要迭代过程的方法。

在使用分布式计算的方法中，联邦学习最近被认为是一种很有前途的解决方案。它是一种分布式计算方法，其中多个客户端在中央服务器的协调下协同训练共享的全局模型[ 8]。客户端可以是移动设备或边缘设备，而不是机构;然而，如果客户是一个可靠的机构，则将其归类为跨竖井联合学习[ 9]。跨筒仓联邦学习旨在通过设定目标函数来解决优化问题[ 10]用于集中式模型。一般来说，这种优化问题可以用随机梯度下降法来解决。每个客户端计算本地梯度并将其返回给服务器进行聚合，并相应地更新全局参数[ 8]。重复这个过程，直到参数收敛。各种研究也开发了建立统计模型的算法，如GLORE(网格二元逻辑回归)[ 11]用于逻辑回归，网格多类别响应逻辑模型[ 12]用于有序和多项逻辑回归，以及WebDISCO(用于分布式Cox模型学习的web服务)[ 13]。在这些研究中，集中式模型的全局似然函数被划分为每个机构的局部似然函数;利用Newton-Raphson方法在中央服务器和机构之间迭代交换非敏感中介结果，以估计全局似然函数最大化的参数[ 14]。这些方法可以保证模型的精度;然而，在迭代模型学习过程中，由于信息矩阵和评分向量的披露，解决方案可能会泄露患者信息[ 6]。

非迭代方法聚合了构建全局模型所需的中间结果，而不需要迭代过程。一种典型的方法是元分析[ 15]，这是一种传统的统计分析。荟萃分析用于估计整个制度的效应大小(如相关系数、比值比和风险比)，而不是建立预测模型。总体效应量是通过对每个机构估计的效应量取平均值来估计的;该方法已广泛应用于各种研究[ 16- 19]基于观察性卫生数据科学和信息学联盟采用的通用数据模型[ 20.]。进一步，通过构建代理似然，ODAL(单次分布式算法执行逻辑回归)[ 21]和ODAC (Cox模型的单次分布式算法)[ 22]分别适用于logistic模型和Cox模型;这些模型可以在不使用牛顿-拉夫森方法的情况下以非迭代的方式估计全局参数。相比之下，MCCG(多中心协作网关)[ 23， 24]，其重点是开发预测模型，以提高特定目标机构的预测绩效。该算法没有构建集中式模型，而是提出了一种将每个机构的模型聚集在一起的方法，以便在单个目标机构中进行训练，以提高该目标机构的预测性能。

在本研究中，我们专注于开发一种非迭代算法，该算法可以从不同的来源构建预测模型，而无需共享水平分区数据，其中患者级别的数据被划分为相同的医疗信息。所提出的模型被称为基于权重的集成模型，是一种在不损害隐私的情况下反映多个机构中不同人群特征的预测模型。我们从两个方面对所提出的基于权重的综合模型进行了评价:(1)为了验证所提出的综合模型是否能够提供一个涵盖多机构数据所有特征的加权平均模型，我们从预测能力和参数估计两方面对其与综合所有机构数据的集中式模型的相似性进行了评价，并与不同机构的模型进行了比较。(2)为了验证所提出的基于权重的综合模型是否通过构建具有概括性的预测模型来提高平均预测性能，我们通过外部验证将基于权重的综合模型的预测能力与中心模型以及用于构建基于权重的综合模型的各机构模型的预测能力进行了比较。

方法基于权重的集成模型

建议的基于权重的综合模型包括四个步骤( 图1）.在步骤1中，每一方生成2个数据集来估计预测模型并评估性能。在步骤2中，各方所估计的参数在各方之间共享。在步骤3中，通过将模型拟合到整个参与方的数据集，计算每个参与方模型的损失值。每一方的模型损失值越大，该模型的权重越小。第4步，根据各方的权重，构建基于权重的集成模型。为了详细描述这4个步骤，假设 K分区数据，每个分区的大小 n_k ，让 P_k ， 1≤ k≤ K，表示 k分区数据。

图1

(A)基于权重的综合模型总体流程。(B)基于权重的综合模型的步骤3，展示了在逻辑回归模型中以对数损失作为衡量模型性能的标准计算权重的过程。

步骤1

随机分割 k大党 n_k 分为两部分，第一部分是 Z^（1）尺寸( n_kx) / ( x+1)，第二部分是 Z^（2）尺寸( n_k ) / ( x+ 1)。在这里, Z^（1）用来估计任何预测模型 f,而 Z^（2）是用来衡量估计模型的预测性能的 f̂获得 Z^（1）。数据集( Z^（1）， Z^（2）生成)。米每次的次数 P_k 。让我， 1≤ 我≤ 米，表示数据集的个数。代表了我数据集( Z^（1）， Z^（2）) P_k 。

步骤2

是我的模型 P_k _，估计使用,一个参数向量是从。的 K方分享米参数向量，，彼此。

步骤3

在 k派对，适合的 K模型,，包括他们的模型，，由并从步骤2发送到我th。随后，计算每个的损失值 K模型。

表示损失拟合来。损失总额的计算为和代表。损失函数可以根据模型的不同而变化。对于二元分类模型(如逻辑回归模型)，下面的对数损失函数[ 25]，可以用概率预测的负对数似然来计算。逻辑回归模型的对数损失函数(或负对数似然函数) N患者表示为

在哪里 p_我 = 1/(1 + exp [-] β^Tx_我 ])为利息结果的概率， β^T 是一个参数向量， x_我特征向量是我病人，和 y_我是二进制的结果吗我病人。图1B给出了计算损失的过程我第一方的模式(即:)，使用日志丢失函数。

为了使权重随着损失的减小而增大，我们定义作为的倒数,代表了适合所有人的善良 K各方对模型的相应权重。

步骤4

的，代表为我的划分模型的权值 P_k 对于集成模型，计算如下:

在哪里表示基于的分区模型的最终权重 P_k 的平均值，可以得到。基于权重的综合模型，的估计如下，使用的分区模型的预测值 P_k 基于总数 n_k 数据。请注意,。

基于权重的综合模型计算的权重由两个因素决定:一方的数据大小(即数据大小与中心数据的比例)和一方的模型与其他各方数据的拟合程度(即每一方模型对所有各方的拟合优度)。以防聚会 k具有比较大的数据，如当事人的数据比例 k在总数中的增加,政党的典范 k变小，并且变得比其他政党更大。换句话说，拥有大数据集的一方拥有大权重，而拥有小数据集的一方拥有小权重。进一步说，政党的模式越好 k拟合到其他方的数据时，损失值越小，权重越大。基于仿真和实际数据的实验验证了权值的这些特性。

在基于权重的综合模型过程中，还可以根据权重估计模型的参数。在步骤3中，的模型和权重 K每个人都有自己的派对我重复。进一步，基于权重的参数可以根据我权重,, 我参数的向量，，从每个 Kparty (I = 1,2，…，米）.让是我基于权重的参数向量。然后,是使用;即基于权重的综合模型中的参数估计，是根据各机构模型的权重，计算各机构模型估计的参数的加权平均。可以使用的平均值和(低2.5%，高97.5%)来进行基于权重参数的点估计和95% CI估计米分别为基于权重的参数。

模拟研究

我们进行了3次模拟。第一个模拟旨在验证权重的最佳重复次数。通过第二次和第三次仿真，展示了基于权重的综合模型计算的权重的特点，并与其他加权方法进行了比较。所有模拟均采用标准逻辑回归模型，设置5个特征。从二项(1,0.5)中采样3个特征，从正态(0,1)中采样2个特征。结果从二项(1， p),，给定5个特征( X)及6个参数( β）.我们将6个参数设置为从-2到2的值。设置参数值以调整各方之间的同质或异质特征。

在第一次模拟中，要设置一个最优米与每一方重量的重复次数相关联，我们通过调整重复来检查重量的变化米在每个分区数据大小下 n适用于以下尺寸:200,400,600,800和1000。总共考虑了23个场景，重复次数从5到50为5个单位，从100到700为50个单位。考虑了三方(A、B、C)。在这个模拟中，调整每一方的同质或异质特征并不是一个重要因素。因此，我们统一从[- 2,2]为每一方生成6个参数。

通过调整每一方的数据大小和模型的拟合优度2个因素，进行第二次仿真，以确定权重的变化规律。在这个模拟中，我们考虑了两种场景。在第一个场景中，我们生成了数据大小为1000的3个参与方(A、B和C)。通过调整采样参数，生成了一个带有偏置特征的三方。甲乙双方的6个参数均设置相同。通过设置5个参数条件，从参数1到参数5，从参数1调整到参数5，丙方的偏倚程度增加。A方和B方的6个参数在5个条件下均设为1,C方的参数在参数1条件下设为1，在参数2条件下设为0.5，在参数3条件下设为-0.5，在参数4条件下设为-1，在参数5条件下设为-2。即在数据量相同的情况下，通过对有偏差的c方的整个数据的拟合优度逐渐恶化来确定权重的变化程度。在第二种场景中，在将3方中的一方设置为偏倚后，我们改变数据量的条件，根据数据量来检查权重的变化程度。A、B方6个参数设为1,C方全部设为-2。

在第三个仿真中，我们将基于权重的集成模型的权重与其他可比较的权重方法进行了比较，以显示基于权重的集成模型的独特特征。本次仿真的目的是验证使用每种加权方法的集成模型的预测性能与集中式模型的预测性能的相似程度。我们参考了一种方法[ 26]的加权策略，通过在不同研究中训练的预测模型的集合作为比较中使用的权重，来调查预测者在不同研究中的表现的可复制性。我们在方法中选择了3个可比权重[ 26]的加权策略:简单平均(Avg)、按研究样本量加权的平均值(n-Avg)和按交叉研究绩效加权的平均值(CS-Avg)。为 K各方，总数据大小为N和 k大党 n_k ， Avg的权重为1/ K， n-Avg的权重为 n_k / N给每一方。此外，CS-Avg与基于权重的集成模型的权重相似，为每一方构建一个预测模型，然后根据其他各方的预测性能计算权重。在计算每一方的模型性能时，模型中使用的一方被排除在外。此外，性能越小，分配的权重越小，并且为性能最低的模型分配权重为0。一个平均值，如均方误差，用于性能测量。为了应用于CS-Avg的逻辑模型，我们通过将对数损失函数除以数据大小来衡量性能。

我们在相同的条件下进行了200次模拟。构建4个方(A、B、C和D)来构建预测模型，另外构建4个验证方来测量预测性能。此外，我们假设了2个场景，类似于第二个模拟，以显示每个权重的特征。通过调整相同数据规模下各方的数据特征，以及相同数据特征下各方的数据规模，我们观察了各加权方法的权重变化规律和预测性能。在第一个场景中，4方的数据大小都设置为500。6个参数，[ β₀， β₁， β₂， β_3.， β₄， β₅]，将A方和B方的数据特征设为[0,2,2,2,2,2]，在以下3种条件下调整C方和D方的数据特征:(1)6个参数-[0,2,2,2,2]，结果生成:二项(1， p);(2) 6个参数-[0，- 2，- 2,2,2，- 2]，结果生成:二项(1， p);(3) 6个参数-[0，- 2，- 2,2,2，- 2]，结果生成:二项[1,min(0.5， p)]。第一个条件,即(1),代表党A和B一样的特征(2)通过调整参数和参数,并生成一个事件的概率在(3)中,政党C和D的特点逐渐生成与政党异构A和B在第二个场景中,第三个条件下的第一个场景中,A和B方的数据大小设置为500,而只有政党C和D的数据大小改为500年,750年和1000年。

4个验证方的数据量均固定为500，数据特征与第一种和第二种场景的每个条件相同。例如，将第一个场景条件(1)的4个验证方的参数与A、B、C、d方相同设置为[0,2,2,2,2]，测量4个验证方的受试者工作特征(ROC)曲线下的平均面积(AUC)，比较各加权方法的性能与集中式模型的相似度。

使用实际水平分区数据进行实验

我们使用了重症监护病房(eICU)电子合作研究数据库[ 28]来评估权重模型的有效性。eICU合作研究数据库是美国eICU项目的多机构ICU数据库，包含由208家医院监测的约20万例ICU入院病例(数据收集于2014年至2015年)。

拟应用的模型为基于权重的综合模型，采用logistic回归模型预测ICU入院后死亡率。作为特征，考虑了急性生理、年龄和慢性健康评估(APACHE)分类系统中的27个变量。APACHE评分是一种疾病严重程度分类系统[ 29]是ICU评分系统之一。因此，我们考虑了APACHE系统中的27个变量作为ICU患者的死亡率预测因子。在eICU数据库中计算APACHE III评分，并列出27个用于计算评分的变量。

我们从208家医院200,859个ICU住院日中选取10家医院共2845个ICU住院日作为我们水平分割的数据集( 图2）.选取10家医院的水平分区数据，选取死亡率和27个特征值同时存在的123家医院6269次ICU住院。我们在ICU住院率低于90%的患者中选择死亡频率最高的前10家医院，所有27项特征均缺失。对10家医院2592次ICU住院的27个特征进行正向选择，选出11个特征(显著性水平:0.01)。选择的11个特征是格拉斯哥昏迷评分、pH值、血尿素氮、吸入氧分数、温度、胆红素、白蛋白、年龄、二氧化碳分压、氧气分压和脉搏率。

图2

医院和重症监护病房(ICU)住院的选择程序。

在建立预测模型时，事件数量与预测者数量的比较是决定逻辑回归模型性能的关键因素[ 30.]。应用于每个变量的低事件数据的模型产生不准确和有偏差的结果[ 31]。每个变量总共有10个事件被广泛用作逻辑回归模型的标准[ 32， 33]。大多数医院不满足基于上述11个特征的每个变量标准的10个事件。因此，第5个逻辑回归模型[ 34]，可以在低事件频率的数据中估计无偏参数，在应用基于权重的综合模型时，用于医院之间准确的参数共享。

基于权重的综合模型的验证与评价

模拟数据采用逻辑回归模型，真实数据采用第五逻辑回归模型。为了计算2种逻辑模型的损失，我们按照详细的过程进行图1B用log损失函数- lnl (p)每个分区模型中所有数据的对数损失风险的倒数作为计算权重的准则。我们还使用第一次模拟的结果作为计算权重所需的重复次数。的比率 Z^（1）来 Z^（2）所有模拟都是3:1。此外，在低事件频率的实际数据中， Z^（1）和 Z^（2）在死病例和活病例中以1:1的比例生成，以便在 Z^（1）。

为了评价基于权重的综合模型，我们比较了基于权重的综合模型和采用eICU数据库中10家医院的集中式模型在11个特征上的ROC曲线、AUC和估计OR的结果。此外，我们使用了Hosmer-Lemeshow检验[ 35), P<。05我ndicates poor calibration, to assess the calibration of the proposed weight-based integrated model and centralized model for central data, along with the 10 models of each hospital.

根据95% ci的重叠比例评估两种模型的auc和or的比较。重叠比例定义为两个95% CI在误差范围内的重叠之比，即长度较长的95% CI的半宽。如果一个CI非常短，并且包含在另一个要比较的CI中，那么根据较短的CI计算的重叠比例为2，无论较长的CI值如何，这两个CI之间都是完美匹配的。因此，基于较长的CI计算重叠比例，以获得更保守的评价标准。对于独立小组来说 t比较2个均值的检验，当重叠的比例约为0.5或更小时，说明是双尾的 P值小于0.05 [ 36]。当重叠比例大于0.5时，我们确定了2个ci在0.05的显著性水平上没有显著差异，并确认了重叠比例与2的接近程度。

基于11个特征的OR估计结果，我们比较了基于权重的综合模型和传统meta分析的结果(对于使用效应估计方差的倒数作为权重的固定效应模型)。虽然meta分析的权重计算方法与基于权重的综合模型有所不同，但它与基于权重的综合模型相似，即通过设置机构特定权重并根据权重平均每个机构的OR来估计多机构的OR。我们比较了基于权重的综合模型和荟萃分析的集中式模型的95% CI的比例重叠和点估计的相对偏差。

为了进行外部验证，我们在选择10家医院作为中心数据后，选择前5家医院作为外部验证医院(即死亡率高、ICU住院率低于90%且27个特征全部缺失的医院)。通过总结外部验证结果的AUC，我们确认基于权重的综合模型对各外部验证医院的预测性能是否与集中式模型相似。我们还通过5次外部验证的平均AUC，评估了基于权重的综合模型与单一医院的模型相比，是否最终提高了平均预测性能。此外，采用CS-Avg、n-Avg和Avg 3种加权方法进行外部验证，并与基于权重的综合模型进行比较。

采用r3.6.0 (R Foundation for Statistical Computing)软件对实际水平分区数据进行仿真研究和实验。

结果模拟1:最优重复

在模拟1中，提出最优的重复米在基于权重的综合模型中，各方的规模分别模拟为200、400、600、800和1000，随着重复次数的增加，权重值趋于稳定( 图3）.此外，作为数据大小 n每一方减少，根据重复次数的权重模式的变化变得相对较大。对于所有数据大小 n，图表图3重复200次后，体重呈现相对平稳的模式。因此，我们设米到200年。即在第二次和第三次模拟以及使用真实数据的实验中，我们计算了每个分区模型的权重，并估计了基于200次重复的基于权重的集成模型的参数。

图3

根据大小为200,400,600,800和1000的重复次数计算3方的权重。垂直线代表200次重复。

仿真2:基于权重的综合模型计算权重的特点

为了确认使用基于权重的综合模型计算的权重的特征，在3个参与方中，C方被认为是有偏见的一方。图4显示第一个场景的结果，根据拟合优度确认权重的变化。所有各方的参数1都得到相同的权重0.3333，其中A、B和C都有相同的数据。此后，随着丙方的偏倚程度逐渐增大(即从参数2到参数5)，丙方的权重减小。也就是说，在相同的数据量下，具有不同特征的分区模型的总体拟合优度越小，权重越小。

图4

根据中心数据的拟合优度改变权值模式(模拟2场景1)，调整规模为1000的A、B、C三方的5个特征参数。

的结果显示图5(场景2)，在参数5的设置下，根据数据量逐渐增加偏方C的数据量来检验权重的变化。当三方数据量均为1000时，丙方的权重为0.1181，与甲、乙方相比，丙方的权重相对较小。但随着丙方数据量的逐渐增加，丙方的权重也随之增加。特别是当C方的数据量达到4000/6000(占集中数据的66.67%)后，偏倚的C方的权重大于其他两方。也就是说，即使在有偏见的一方，如果数据大小与集中数据的比例增加，权重也可以增加。

图5

根据数据量与中心数据的比例(模拟2场景2)、调整后的丙方数据量、甲、乙、丙方数据量与集中数据的比例，改变权重模式。

仿真2的两个结果表明，基于权重的综合模型的权重不仅考虑了中心数据的拟合优度，而且考虑了数据大小与中心数据的比值。

仿真3:与替代加权方法的比较分析

多媒体附录6和 7给出了基于权重的综合模型与其他3种赋权方法(CS-Avg、n-Avg和Avg)的200次仿真对比结果。在每个模拟设置中，我们总结了4个验证方200个平均AUC的分布，每种加权方法与集中式模型的平均AUC差异，以及4个验证方(A、B、C和D)在200个模拟中的平均权重。

第一个场景的结果显示在多媒体附录6。C方和D方的数据特征随着左、中、右三个方向的变化，与A、B方的数据特征逐渐异质。当4方的数据量和特征都相同时(左图) 多媒体附录6)，各加权方法和集中模型的200个平均AUC的分布基本相同，A、B、C、D方的平均权重约为0.25，基本相等。然而，由于C方和D方的数据特征与A方和B方的数据特征差异较大(从左到右)，因此4种加权方法的预测性能差异明显。CS-Avg的平均AUC分布与集中式模型差异最大，基于权重的综合模型的平均AUC分布与集中式模型最相似。在第一种场景中，由于4方的数据量相同，因此将4方在n-Avg和Avg中的权重设置为0.25，并且两种加权方法的平均AUC分布相同。随着数据特征的变化，基于权重的综合模型和CS-Avg逐渐赋予C方和d方更大的权重，但由于CS-Avg赋予a方或B方中的一方的权重为0，因此4方之间的权重差异大于基于权重的综合模型。

第二个场景的结果总结在多媒体附录7。4方的数据特征设置与第一种场景(3)对应的条件相同，C方和D方的数据量向左、中、右三个方向递增。与第一种情况的结果相似，基于权重的综合模型的平均AUC分布与集中式模型最相似，CS-Avg分布差异最大。由于n-Avg反映的是数据量的变化，所以平均AUC的分布与Avg向右的分布不同，比第一种情况更接近集中式模型的分布。由于CS-Avg不能反映数据量，所以即使C方和D方的数据量增加，4方的权重也基本保持不变。然而，基于权重的集成模型逐渐为数据量大的C方和D方提供了较大的权重。此外，由于n-Avg反映的是数据的大小，而不是数据的特征，因此与同时反映两者的基于权重的综合模型的权重存在差异。在任何情况下，Avg给4方分配了0.25的固定权重。

水平分区eICU数据的验证结果

共安排10家医院ICU住院2845例(死亡525例，活着2320例)。在2845例ICU住院病例中，共有 Z^（1）占全院ICU住院1430人次，合计ICU住院1430人次 Z^（2）1415次ICU住院(参考多媒体附录1）. 表1给出了10家医院第五次logistic回归模型的AUC结果。各医院模型的预测能力从最小的预测能力80.93%(医院6)到最大的预测能力92.00%(医院10)不等。

总共200个日志丢失值 Z^（2）(n=1415)，每个医院模型的最终权重由200个重复( 表1）.一家医院的损失分布较大，说明医院模型的拟合优度对10家医院的所有数据的拟合优度并不好。因此，损失分布相对较小的医院的权重计算为小。此外，数据大小与中心数据(2845 ICU住院)之比较小的医院往往权重较小。以医院1为例，损失分布最小，数据量与中心数据的比值最大(510/2845,17.93%)。因此，医院1的权重最大，为0.1188。相反，医院10的损失分布最大，数据量与中心数据的比值最小(125/2845,4.39%)。因此，10号医院的权重最小，为0.0583。医院3和医院4的权重相同，均为0.1109。但3号医院的数据量占中心数据的比例(268/2845,9.42%)小于4号医院(338/2845,11.88%)，3号医院的损失分布略小。 As observed in the results of simulation 2, the weight of the weight-based integrated model is affected by both the ratio of the central data and the goodness of fit to the central data.

表1

每个机构10个模型的AUC、对数损失和权重(N=2845)。

医院数量	n / n (%)	AUC^一个(95%置信区间)	200次重复的日志丢失		重量
医院数量	n / n (%)	AUC^一个(95%置信区间)	中位数	(最小,最大)	重量
1	510/2845 (17.93)	83.81% (79.99% - -87.63%)	575.18	(535.45, 668.13)	0.1188
2	387/2845 (13.60)	82.14% (76.82% - -87.47%)	577.40	(536.59, 754.68)	0.1181
3.	268/2845 (9.42)	86.67% (81.57% - -91.78%)	616.63	(547.65, 755.15)	0.1109
4	338/2845 (11.88)	86.48% (81.43% - -91.53%)	617.14	(552.61, 787.62)	0.1109
5	231/2845 (8.12)	86.29% (80.19% - -92.4%)	723.90	(572.31, 1814)	0.0929
6	316/2845 (11.11)	80.93% (74.02% - -87.83%)	626.65	(539.71, 978.16)	0.1076
7	308/2845 (10.83)	85.95% (78.23% - -93.67%)	665.89	(561.92, 1071.16)	0.1024
8	197/2845 (6.92)	83.81% (75.88% - -91.73%)	712.29	(569.31, 7280.35)	0.0912
9	165/2845 (5.79)	86.63% (79.2% - -94.05%)	758.66	(566.39, 1774.99)	0.0890
10	125/2845 (4.39)	92% (86.66% - -97.34%)	1008.64	(634.35, 13722)。	0.0583

^一个AUC:接收机工作特性曲线下的面积。

Hosmer-Lemeshow拟合优度检验表明，基于权重的综合模型和集中式模型与中心数据拟合较好，各医院的10个模型与各医院的数据拟合较好 P> . 05; 多媒体附录3）.

图6为2个模型、基于权重的综合模型和基于中心数据(2845例住院)的集中式模型的ROC和AUC，以及2家医院中AUC最低的医院6和AUC最高的医院10(基于各医院数据)。结果表明，基于权重的综合模型与集中式模型的ROC曲线模式基本相同。集中式模型和基于权重的综合模型的估计AUC值和95% ci分别为81.36%(79.37% ~ 83.36%)和81.95% (80.03% ~ 83.87%)( 图6）.在基于权重的综合模型和集中式模型中，AUC的ci重叠比例约为1.70。这个值远远大于0.5，这是我们认为在0.05的显著性水平上表示显著性差异的水平，并且接近于2，这是2个ci完全匹配的标准。因此，两种模型的AUC计算ci几乎相等。AUC最大的医院10模型为过拟合模型，AUC比2个模型(基于权重的综合模型和集中式模型)的AUC值大10%，医院6模型的AUC值与2个模型的AUC值差异不大。

图6

接收器工作特性曲线下的面积(AUC)， 200次重复的对数损失和权重。WIM:基于权重的集成模型。

共选择535个ICU病房作为5家外部验证医院。外部验证医院1、2、3、4、5的发病频次和死亡率分别为20/155(12.9%)、19/67(28.36%)、24/226(10.62%)、11/47(23.4%)和8/40(20%)。图7给出了各外部验证医院的AUC和5个外部验证医院的平均AUC。多媒体附录4表示AUC (95% CI)值图7，以及权重综合模型与集中式模型95% CI的比例重叠。在5次外部验证中，基于权重的综合模型与集中式模型具有相似的预测性能。各外部验证医院1、2、3、4、5的集中式模型与基于权重的综合模型95% CI的比例重叠度分别为1.59、1.82、1.92、1.74、1.93。集中式模型和基于权重的综合模型的平均AUC分别为84.74%和85.09%。在5家外部验证医院中，10个模型中单个医院模型的AUC均高于基于权重的综合模型。然而，基于权重的综合模型在5家外部验证医院中显示出最高的平均预测性能( 图7）.

图7

集中模型、WIM和各医院10个模型的外部验证AUC结果(误差条:95% CI)。黑色、深灰色、浅灰色分别表示WIM、集中式模型、各医院10个模型。AUC:接收机工作特性曲线下面积;WIM:基于权重的集成模型。

多媒体附录8图中为基于权重的综合模型与CS-Avg、n-Avg、Avg三种加权方法的外部验证比较结果。与基于权重的综合模型相似，这三种加权方法的95% CI在AUC上的比例重叠也很高。此外，各加权方法对5家外部验证医院的平均auc相似(加权综合模型，0.8509;CS-Avg 0.8519;n-Avg 0.8502;Avg 0.8507)。

图8显示了使用基于权重的综合模型和集中式模型估计的11个特征的OR和95% CI，基于中心数据(2845次住院)和2家医院(AUC最低的医院6和AUC最高的医院10)。这11个特征在集中式模型和基于权重的综合模型中均显著，OR显著性方向在两种模型中一致。图8A表示OR < 1的显著特征结果，而图8B表示OR > 1的显著特征的结果。基于权重的综合模型与集中式模型的OR 95% CI比例重叠，除胆红素外，10个特征的结果均超过1(显著性水平为0.05，差异为0.5)，2个模型估计的OR无显著性差异。在胆红素方面，两种模型的95% CI不重叠。对于11个特征中的每一个，10家医院(包括图中所示的6号医院和10号医院)的ORs估计不同(参见多媒体附录2）.使用基于权重的综合模型估计的or与集中式模型的估计结果最相似，与各医院模型估计的or相比较。

图8

第5个逻辑回归模型中11个特征的估计OR和95% CI的比较:(A) OR < 1的特征和(B) OR < 0 1的特征。图右侧的数字是WIM和集中式模型之间95% CI (OR)的比例重叠。AUC:接收机工作特性曲线下面积;BUN:血尿素氮;FiO2:吸入氧的分数;GCS:格拉斯哥昏迷量表;OR:优势比;PaO2:氧分压;pCO2:二氧化碳分压;PR:脉搏率; WIM: weight-based integrated model.

通过与荟萃分析的比较，基于权重的综合模型与荟萃分析在95% CI的比例重叠和相对偏倚( 多媒体附录5）.根据95% CI的比例重叠标准，基于权重的综合模型与pH的meta分析的重叠度分别为1.64和1.33。对于格拉斯哥昏迷量表、pH值、温度和二氧化碳分压，基于权重的综合模型的相对偏差小于荟萃分析。这些结果表明，基于权重的综合模型比荟萃分析更接近集中式模型。然而，胆红素在基于体重的综合模型中比例重叠为0，在meta分析中比例重叠为1.69。此外，在基于体重的综合模型和meta分析中，胆红素的相对偏倚分别为10.94%和0.66%。

讨论主要研究结果

该模型(基于权重的集成模型)是为了在不需要物理数据共享的情况下，从水平分区的数据中构建一个集成的预测模型。基于权重的集成模型是一种不需要迭代过程的算法，并且可以通过引入分区模型的柔性权重概念来扩展模型的应用。与以往在隐私保护条件下建立中心数据模型的方法不同，该模型具有以下新颖之处。

首先，基于权重的集成模型不需要迭代通信来构建接近集中式模型的模型。使用分布式计算的方法需要在机构和中央服务器之间反复交换信息，这在实践中是耗时和劳动密集型的[ 20.]。这种实际限制可能成为分布式算法在研究联盟中应用的障碍[ 20.]。在跨筒仓联合学习中[ 8在迭代过程中，所有客户都是可用的，并且应该参与每次迭代。换句话说，如果在迭代过程的中间没有一方可用，那么整个过程将停止。相反，基于权重的集成模型可以通过调整权重来构建集成模型，即使在此过程中一方不可用。在沟通效率方面，naïve应用以前的方法可能产生产生过高沟通成本的程序[ 37]。

其次，基于权重的综合模型的权重是由数据大小和各方模型对整个数据的拟合优度两个因素( 图4和 5）.随着中心数据中各方数据大小的比例增加，分区模型将更接近集中式模型。因此，在对分区模型进行加权时应考虑数据的大小。如果分区模型很好地适合中心数据，那么它就是一个很好地描述中心数据的模型。因此，拟合优度还应与数据大小一起考虑。基于权重的综合模型的一个关键特点是每个划分模型的权重是同时考虑这两个因素得出的。此外，在基于权重的集成模型中，在构建基于权重的集成预测模型时，生成模型各方的权重米时报》( 图1)，平均值为米权重被设置为派对模型的最终权重。因此，要看如何米时，各方模型的最终权重各不相同。在模拟1中，我们找到了最优米，在增大尺寸的同时，最终重量几乎保持不变米在三方不同的数据量下。结果表明，当。时，最终重量变化不大米双方的所有数据量均超过200 ( 图3）.

第三，基于权重的集成模型在应用模型的可扩展性方面是一种灵活的算法。由于所提出的模型是独立建立各个划分模型，然后根据权重进行整合，因此只需根据模型的不同，改变步骤2的参数形式和步骤3的损失函数。

基于权重的综合模型的验证与评价

与集中式模型相比，我们在预测能力和参数估计方面评估了基于权重的综合模型的有效性。实际水平分割数据的实验结果表明，基于权重的集成模型与集中式模型接近，提高了平均预测性能。

在预测能力方面，基于权重的综合模型与基于ROC曲线和AUC结果的集中式模型基本相似。基于权重的集成模型通过对每个过拟合或欠拟合的分区模型进行积分，与集中式模型( 图6）.多机构预测模型旨在建立一个通用模型，以提高模型中未使用的数据的预测性能。为了确认所提出的模型是否满足这一目标，我们选择了5家未用于基于权重的综合模型的医院，并进行了外部验证。因此，对于每个外部验证医院的AUC估计，基于权重的综合模型与集中式模型的结果几乎相似。5家外部验证医院的平均AUC均高于各医院10种模型的平均AUC ( 图7，多媒体附录4）.

在参数估计方面，基于比例重叠的结果(0.5及以下表示差异显著，显著性水平为0.05;2表示两个CI完全重叠)，95% CI为OR ( 图8)，超过1或1.5的特征有10个。基于权重的综合模型与集中式模型的参数估计结果非常相似。然而，胆红素的95% CI在两种模型之间没有重叠;胆红素的估计在5%的显著性水平上存在差异。各医院10个模型的胆红素95% CI(见多媒体附录2)，权重为0.0929的医院5和权重为0.0583的医院10与集中式模型无重叠。基于权重的综合模型与集中式模型的胆红素OR不同的原因是权重较大的医院5的比例重叠为0。此外，与其他医院相比，医院10的估计OR不稳定且有偏差。集中式模型和基于体重的综合模型胆红素的OR和95% CI分别为1.07(1.04-1.10)和1.18 (1.11-1.27)( 多媒体附录2）.虽然权重综合模型的95% CI与集中式模型没有重叠，但在2个模型中，OR的统计显著性和解释方向是一致的，与10个医院模型的CI相比，权重综合模型的整体CI与集中式模型相差不大。

在使用真实数据的实验中与meta分析的比较结果表明，对于11个特征中4个特征的OR估计，基于权重的综合模型的相对偏差略小于meta分析的相对偏差。基于权重的综合模型在ORs的估计方面与meta分析的结果大致相似。然而，根据不同的特征，由于meta分析和基于权重的综合模型在权重计算上的差异，95% CI的比例重叠和相对偏倚存在差异。meta分析的权重具有机构特异性。然而，由于它是根据OR估计量的方差进行调整的，因此即使对于同一机构，根据估计的特征OR也会产生不同的权重。相比之下，由于我们提出的基于权重的综合模型中的权重分配给了每个机构的模型，即使待估计的特征不同，也会给同一个机构赋予相同的权重。虽然meta分析的权重比基于权重的综合模型的权重具有更多的特征特异性特征，但与基于权重的综合模型不同，它并不代表机构模型的权重。因此，不能将其视为包含构建预测模型目的的权重。

在应用基于权重的综合模型时，需要考虑以下几点:为了计算基于权重的综合模型中各机构的权重，将各机构的数据分为 Z^（1），以建立每个机构的模型，以及 Z^（2），用于衡量所有机构模型的预测性能。如果某一机构的数据量(尤其是感兴趣的结果出现的频率)不足，则由 Z^（1）会不会不稳定，并且很难准确地计算出预测性能从中 Z^（2）。因此，每个机构的数据量应该足够大，以便进行划分 Z^（1）和 Z^（2）。此外，从外部验证结果来看，5家外部验证医院在单一医院模型下的预测性能均优于基于权重的综合模型。换句话说，基于权重的集成模型可能不是一个很好的选择，以提高特定医院(5家医院)的预测性能。相比之下，基于权重的综合模型以提高5家医院的平均预测绩效为目的，可以提供一个鲁棒的统一模型。在实际数据实验中，基于权重的综合模型对5家外部验证医院的平均预测性能最好。然而，在某些情况下，基于权重的集成模型可能没有显示出最佳的平均预测性能。例如，当权重集成模型所包含的医院之间存在相对异质的模型，且该医院对所有外部医院都表现出异质特征时，如果该异质医院的模型在所有外部验证医院中的预测性能较低，则权重集成模型的平均预测性能可能较差。由于基于权重的综合模型是基于权重对各医院的模型进行平均，因此在基于权重的综合模型中，虽然权重较小，但由于纳入了外部验证医院预测性能较差的异质医院，整体预测性能可能较低。为了避免这种情况的发生，有必要形成基于权重的综合模式医院，以保证采用基于权重的综合模式的医院的整体特征得到均匀的体现。

基于权重的综合模型与MCCG算法类似[ 23， 24]，因为它不需要机构之间的迭代沟通过程，并且基于每个机构的权重，通过整合每个机构的模型来构建一个广义的预测模型。然而，两种模型的泛化过程是不同的。通过衡量各机构各模型中心数据预测效果的异质性，计算基于权重的综合模型的权重，从而对集中模型进行估计。相反，MCCG的权重是通过衡量源机构模型对特定目标机构预测绩效的异质性来计算的，该模型用于开发多机构预测模型，以提高目标机构的预测绩效。由于权重计算方法的差异，基于权重的综合模型通过建立一个统一的模型来反映多个机构的所有特征，从而提供了一个广义模型，而MCCG则根据目标医院通过权重调整来改变模型，从而提供了一个广义模型。在基于权重的集成模型中，机构之间在算法过程中只发生一次通信。相反，MCCG要求在目标机构发生变化时进行沟通，因为源机构和目标机构之间发生了沟通。特别是，如果目标是建立一个统一的预测模型，应用于多个机构，基于权重的集成模型可以提供一个健壮的模型。然而，如果目标是为特定的目标机构建立预测模型，MCCG可以提供更好的模型。因此，要根据目标有策略地选择算法。

与其他加权方法的比较

通过与其他可比较的加权方法(CS-Avg、n-Avg和Avg)的对比分析，我们论证了基于权重的综合模型的权重特征[ 26]。基于权重的集成模型的权重具有综合考虑各方数据规模和由各方组成的中心数据预测性能计算得出的特征，这些特征与其他权重有明显区别，如第三次模拟研究( 多媒体附录6）.

在基于权重的集成模型中，在相同数据规模下，权重随各方数据特征的变化而调整，在相同数据特征下，权重随各方数据规模的变化而调整。相比之下，Avg总是分配一个固定的权重，并不反映各方的不同特征和数据量，n-Avg分配的权重只反映各方数据量的变化。此外，CS-Avg并没有反映数据大小的变化，而是反映了各方之间数据特征的变化。由于CS-Avg将权重为0的一方分配给其他各方绩效最低的一方，因此该权重为0的一方未被纳入模型。因此，与其他权重相比，CS-Avg的预测性能与集中式模型的预测性能差异最大。基于权重的集成模型的权重区别于其他权重，反映了中心数据中各方在数据规模和各方数据特征方面的特征。结合这些特征的基于权重的综合模型，与其他加权方法相比，可以构建出与集中式模型预测性能相近的模型。

在我们使用真实数据的实验中，基于权重的综合模型与其他加权方法的外部验证结果差异不大，每种加权方法赋予10家医院的权重仅略有差异( 多媒体附录8）.在实际数据的应用中，各加权方法的特点并没有体现出来。然而，通过第三次仿真研究可以证实，每种加权方法的权重推导的概念存在差异，基于权重的综合模型的权重具有估计集中模型的特征。

限制

指出基于权重的集成模型是一种不需要迭代过程的模型，具有新颖性。然而，由于在真实的分布式环境中缺乏迭代过程，我们没有对其效率进行评估。此外，本研究使用2个逻辑回归模型验证了所提出的方法，我们没有使用其他模型来验证基于权重的综合模型的有效性。结果显示胆红素的OR值图7，与集中式模型相比，基于权重的综合模型在估计参数时可能提供不准确的信息。由于该方法的参数估计是通过对每一方的系数赋权来实现的，因此参数估计可能会受到某一方特征的影响。这一限制表明，当一个特征估计在一方中高度偏倚，而一方的权重相对于另一方并不小时，需要从基于权重的集成模型中仔细解释估计值。未来，我们将以本研究中未应用的模型为基础，探索基于权重的集成模型在真实分布式环境中的应用和效率。

结论

在本研究中，我们开发了一个基于权重的集成模型，该模型可以构建机构间非迭代通信的集成预测模型。基于权重的集成模型采用每个机构的权重概念，是一种可以减轻分布式计算负担，提高外部验证机构平均预测性能的隐私保护分析方法。所提出的基于权重的集成模型为提高多机构数据的利用率提供了一种高效的分布式研究算法。

多媒体附录1

10家医院的总事件、Z(1)和Z(2)的发生频率和发生率。

多媒体附录2

集中式模型、基于权重的综合模型、实验中各医院10个模型使用真实数据进行OR估计。

多媒体附录3

采用Hosmer-Lemeshow拟合优度检验评估权重综合模型和中心数据集中式模型以及各医院10个模型的校准情况。

多媒体附录4

5家外部验证医院的平均AUC、集中模型、权重综合模型和10家医院各10个模型中每家外部验证医院的AUC (95% CI)。

多媒体附录5

基于权重的综合模型与meta分析的11个特征的OR (95% CI)比较结果。

多媒体附录6

将模拟研究结果与其他加权方法进行比较，根据相同数据规模下数据特征的变化进行加权。

多媒体附录7

将仿真研究结果与其他加权方法进行比较，根据相同数据特征下数据大小的变化进行加权。

多媒体附录8

采用eICU数据加权法对外部验证结果进行对比分析。

缩写

APACHE

急性生理、年龄和慢性健康评估

AUC

接收机工作特性曲线下的面积

eICU

电子重症监护病房

璀璨光辉

网格二元逻辑回归

加护病房

MCCG

多中心协作网关

或

优势比

中华民国

接收机工作特性

本研究由韩国健康技术研发项目通过韩国健康产业发展研究所(KHIDI)资助，由大韩民国卫生和福利部资助(批准号HI19C1015)。

没有宣布。

Kukull

佤邦

Ganguli

米

概括性:树木、森林和低垂的果实

神经学 2012 06 04 78 23 1886 1891

10.1212 / wnl.0b013e318258f812

Katzan

伊尔

Rudick

类风湿性关节炎

是时候整合临床和研究信息学了

科学与医学 2012 11 28 4 162 162年fs41 162年fs41

10.1126 / scitranslmed.3004583

23197569

4/162/162fs41

Ohno-Machado

大官

贝尔

达姆

一天

我

医生

约

盖伯瑞尔

Kahlon

可

金

乐

贺加斯

米

Matheny

我

米克

Nebeker

小

pSCANNER团队

pSCANNER:以患者为中心的可扩展的国家有效性研究网络

美国医学信息协会 2014 21 4 621 6

10.1136 / amiajnl - 2014 - 002751

24780722

amiajnl - 2014 - 002751

PMC4078293

先令

关颖珊

Drolshagen

细川

布兰德

速度

Uhrich

麦克理科

米

彩旗

一个

佩恩

公关

史蒂芬斯

我们

乔治

万斯

米

Giacomini

布拉迪

绿色

可

卡恩

毫克

面向分布式数据网络的联邦转换查询网络(SAFTINet)技术基础设施的可扩展体系结构

EGEMS(华盛顿特区) 2013 07 10 1 1 1027

10.13063 / 2327 - 9214.1027

25848567

egems1027

PMC4371513

马克卡迪

奇泽姆

斜槽

Kullo

贾维克

全科医生

拉森

海尔哥哥

李

玛萨斯说

博士

里奇

医学博士

登

Struewing

摩根大通

狼

佤邦

出现的团队

涌现网络:一个与进行基因组研究的电子医疗记录数据相关联的生物储存库联盟

BMC Med Genomics 2011 01 26 4 1 13

10.1186 / 1755-8794-4-13

21269473

1755-8794-4-13

PMC3038887

史

姜

戴

姜

唐

Ohno-Machado

王

年代

安全多方计算网格逻辑回归(SMAC-GLORE)

BMC Med Inform Decis mark 2016 7 25 16 S3 89

10.1186 / s12911 - 016 - 0316 - 1

27454168

10.1186 / s12911 - 016 - 0316 - 1

PMC4959358

普拉斯

Kohlmayer

库恩

卡

健康数据去识别化的高效和有效的修剪战略

BMC Med Inform Decis mark 2016 04 30. 16 1 49

10.1186 / s12911 - 016 - 0287 - 2

27130179

10.1186 / s12911 - 016 - 0287 - 2

PMC4851781

冯

杨

方

实用的双边隐私保护联合学习

arXiv 2021

Kairouz

EBP

麦克马汉

乙肝

联邦学习的进展与开放性问题

机器学习中的FNT 2021 14 1 02406503

10.1561 / 2200000083

Adby

优化方法简介 2013

柏林,德国

b施普林格科学与商业媒体

吴

姜

金

Ohno-Machado

网格二元逻辑回归(GLORE):在不共享数据的情况下构建共享模型

美国医学信息协会 2012 09 01 19 5 758 64

10.1136 / amiajnl - 2012 - 000862

22511014

amiajnl - 2012 - 000862

PMC3422844

吴

姜

王

年代

姜

李

Ohno-Machado

网格多类别响应逻辑模型

BMC Med Inform Decis mark 2015 03 18 15 1 10

10.1186 / s12911 - 015 - 0133 - y

25886151

10.1186 / s12911 - 015 - 0133 - y

PMC4342889

陆

王

年代

霁

吴

元

熊

李

姜

全新课题

Ohno-Machado

Lucila

WebDISCO:用于分布式cox模型学习的web服务，没有患者级数据共享

美国医学信息协会 2015 11 22 6 1212 9

10.1093 /地点/ ocv083

26159465

ocv083

PMC5009917

Kalbfleisch

普伦蒂斯

故障时间数据的统计分析 2011

新泽西州霍博肯,

约翰威利父子公司

DerSimonian

Laird

临床试验中的荟萃分析

对照临床试验 1986 9 7 3. 177 188

10.1016 / 0197 - 2456 (86) 90046 - 2

博兰

米

Parhi

李

Miotto

里卡多。

卡罗尔

罗伯特。

伊克巴尔

乌斯曼

阮

Phung-Anh亚历克斯

Schuemie

卡坦

你

生陈

史密斯

多纳休

穆尼

肖恩

瑞安

帕特里克

李

林玉娟杰克

公园

Rae Woong

丹尼

杰克

达德利

乔尔·T

Hripcsak

乔治

Gentine

皮埃尔

Tatonetti

尼古拉斯·P

揭示对出生季节疾病影响负责的暴露:一项全球研究

美国医学信息协会 2018 03 01 25 3. 275 288

10.1093 /地点/ ocx105

29036387

4265709

PMC7282503

杜克大学

瑞安

Suchard

妈

Hripcsak

金

帝国

Schwalm

米

Khoma

吴

徐

沙阿

班达

Schuemie

乔丹

与苯妥英相比，左乙拉西坦与血管性水肿相关的风险:观察性健康数据科学和信息学研究网络的发现

Epilepsia 2017 08 06 58 8 e101 e106

10.1111 / epi.13828

28681416

PMC6632067

Vashisht

荣格

舒勒

一个

班达

公园

金

年代

李

达德利

约翰逊

千瓦

Shervey

毫米

徐

吴

Natrajan

Hripcsak

金

凡·赞德

米

Reckard

一个

帝国

韦弗

Schuemie

乔丹

瑞安

卡拉汉

一个

沙阿

在接受二甲双胍治疗的2型糖尿病患者中，使用磺脲类药物、二肽基肽酶4抑制剂和噻唑烷二酮类药物与血红蛋白A1c水平的关系:来自观察性健康数据科学和信息学倡议的分析

JAMA网络公开赛 2018 08 03 1 4 e181755

10.1001 / jamanetworkopen.2018.1755

30646124

2698083

PMC6324274

瑞安

Buse

简森-巴顿

Schuemie

乔丹

DeFalco

元

刺

体育

柏林

晶澳

罗森塔尔

卡格列净、SGLT2抑制剂和非SGLT2抑制剂对2型糖尿病患者心力衰竭和截肢住院风险的比较疗效:4个观察性数据库的真实meta分析(OBSERVE-4D)

糖尿病与糖尿病 2018 11 25 20. 11 2585 2597

10.1111 / dom.13424

29938883

PMC6220807

20.

Overhage

瑞安

帝国

Hartzema

AG)

刺

体育

一个用于主动安全监测研究的通用数据模型的验证

美国医学信息协会 2012 01 01 19 1 54 60

10.1136 / amiajnl - 2011 - 000376

22037893

amiajnl - 2011 - 000376

PMC3240764

段

博兰

先生

摩尔

陈

ODAL:一种一次性分布式算法，用于对来自多个临床站点的电子健康记录数据执行逻辑回归

2019太平洋生物计算研讨会 2019

2021-03-28

https://psb.stanford.edu/psb-online/proceedings/psb19/duan.pdf

段

从局部到全局的学习——一种高效的建模时间到事件数据的分布式算法

bioRxiv 2021 1036

10.1101 / 2020.03.04.977298

田

商

通

气

年代

李

香港

丁

李

POPCORN:一种基于多中心临床数据协作的个人预后预测网络服务，无需患者层面的数据共享

J生物医学信息 2018 10 86 1 14

10.1016 / j.jbi.2018.08.008

30103028

s1532 - 0464 (18) 30163 - 1

田

陈

上海市高级人民法院

周

Tianshu

李

荣格ydF4y2Ba

丁

Kefeng

李

精松

支持模型泛化和持续改进的多中心协同预测模型构建框架的建立与评价

国际医学通报 2020 09 141 104173

10.1016 / j.ijmedinf.2020.104173

32531725

s1386 - 5056 (20) 30136 - 2

Brownlee

用Python进行不平衡分类:更好的度量，平衡偏类，成本敏感学习 2020

圣胡安，PR

机器学习精通计划。有限公司

帕蒂尔

Parmigiani

在多个研究中训练可复制的预测因子

美国国家科学基金委 2018 03 13 115 11 2578 2583

10.1073 / pnas.1708283115

29531060

1708283115

PMC5856504

波拉德

约翰逊

AEW

Raffa

附加评论

拉

马克

巴达维

eICU合作研究数据库，一个免费提供的多中心数据库，用于重症监护研究

科学数据 2018 09 11 5 1 180178

10.1038 / sdata.2018.178

30204154

sdata2018178

PMC6132188

Le Gall

基于欧洲/北美多中心研究的新的简化急性生理评分(SAPS II

《美国医学会杂志》 1993 12 22 270 24 2957

10.1001 / jama.1993.03510240069035

30.

哈勒尔

菲

李

吉隆坡

卡利夫

普赖尔

Rosati

类风湿性关节炎

改善预后预测的回归建模策略

地中海统计 1984 04 3. 2 143 52

10.1002 / sim.4780030207

6463451

朱厄尔

匹配集比值比点估计的小样本偏差

生物识别技术 1984 06 40 2 421

10.2307 / 2531395

卫星

KGM

de Groot

耶和华

Bouwmeester

Vergouwe

最高级别

年代

奥特曼

Reitsma

简森-巴顿

柯林斯

预测模型研究系统审查的关键评估和数据提取:CHARMS检查表

科学硕士 2014 10 14 11 10 e1001744

10.1371 / journal.pmed.1001744

25314315

pmedicine - d - 14 - 00436

PMC4196729

范Smeden

米

de Groot

耶和华

卫星

KGM

柯林斯

奥特曼

Eijkemans

澳门赛马会

Reitsma

简森-巴顿

二元逻辑回归分析的每10个事件1个变量标准没有基本原理

BMC医学研究方法 2016 11 24 16 1 163

10.1186 / s12874 - 016 - 0267 - 3

27881078

10.1186 / s12874 - 016 - 0267 - 3

PMC5122171

Doerken

年代

阿瓦洛斯

米

拉加德

舒马赫

米

惩罚逻辑回归与低流行暴露超过高维设置

《公共科学图书馆•综合》 2019 5 20. 14 5 e0217057

10.1371 / journal.pone.0217057

31107924

玉米饼- d - 18 - 31200

PMC6527211

Lemeshow

年代

Hosmer

D W

拟合优度统计在逻辑回归模型发展中的应用综述

流行病学杂志 1982 01 115 1 92 106

10.1093 / oxfordjournals.aje.a113284

7055134

杰夫

霏欧纳

统计通信的间隔估计:问题和可能的解决方案

IASE卫星 2005

2021-03-28

https://iase-web.org/documents/papers/sat2005/cumming.pdf?1402524993

约旦

心肌梗死

李

杨

高效通信分布式统计推断

美国统计协会杂志 2018 11 13 114 526 668 681

10.1080 / 01621459.2018.1429274