JMIR医学信息学-通过可查找、可访问、可互操作和可重用(FAIR)数据的联邦机器学习架构预测慢性阻塞性肺疾病患者30天再入院风险:开发和验证研究

原始论文

¹计算健康信息学组，塞维利亚生物医学研究所，virgin del Rocío大学医院，高等调查委员会Científicas，塞维利亚大学，塞维利亚，西班牙

²西班牙塞维利亚圣母大学医院Rocío内科

^3.伏伊伏丁那省肺病研究所，斯列姆斯卡-卡梅尼卡

⁴诺维萨德大学医学院，诺维萨德

⁵软件研发与咨询公司，安卡拉，土耳其

通讯作者:

Celia Alvarez-Romero理学硕士

计算健康信息学小组

塞维利亚生物医学研究所，维珍德尔Rocío大学医院

高等调查委员会Científicas，塞维利亚大学

阿夫达·曼努埃尔·西洛特(Avda Manuel Siurot

塞维利亚

西班牙

电话:34 955013313

电子邮件:celia.alvarez@juntadeandalucia.es

背景:由于卫生数据的性质，它们的共享和用于研究的再利用受到法律、技术和伦理影响的限制。从这个意义上说，为了应对这一挑战，促进和促进科学知识的发现，可查找、可访问、可互操作和可重用(FAIR)原则帮助组织以安全、适当和有用的方式为其他研究人员共享研究数据。

摘要目的:本研究的目的是对现有的健康研究数据集进行公平化，并在不同健康研究执行组织的公平化数据集之上应用联邦机器学习架构。整个FAIR4Health解决方案通过评估慢性阻塞性肺疾病(COPD)患者30天再入院风险的联合模型得到验证。

方法:FAIR原则在3个不同医疗机构的健康研究数据集上的应用，使一项回顾性多中心研究能够开发特定的联合机器学习模型，用于COPD患者30天再入院风险的早期预测。该预测模型是在FAIR4Health平台上生成的。最后，在来自不同国家的2个卫生保健中心进行了为期30天的观察性前瞻性研究。回顾性和前瞻性研究采用相同的纳入和排除标准。

结果:临床验证是通过在来自不同健康研究执行组织的标准化数据集之上实施联合机器学习模型来演示的。预测30天住院再入院风险的联合模型使用4944例COPD患者的回顾性数据进行训练。在2021年4月至2021年9月进行的观察性前瞻性研究中，从2070名观察(查看记录)患者中招募了100名患者(22名来自西班牙，78名来自塞尔维亚)，对预测模型进行了评估。在FAIR4Health平台上生成的预测模型具有显著的准确性(0.98)和精密度(0.25)。因此，生成的30天再入院风险预测在87%(87/100)的病例中得到证实。

结论:在发现、获取、整合和分析卫生研究数据之后，在卫生研究执行组织中实施公平数据政策以促进数据共享和重用是相关的，也是必要的。FAIR4Health项目提出了卫生领域的技术解决方案，以促进与FAIR原则保持一致。

中国生物医学工程学报，2011;30 (6):563 - 567

doi: 10.2196/35307

关键字

公平的原则；研究数据管理；临床验证；慢性阻塞性肺疾病；保护隐私的分布式数据挖掘；早期预测模型

概述

FAIR4Health是一个获得欧盟地平线2020研究与创新计划拨款824666资助的项目。该项目于2018年12月开工，2021年11月结束。该欧洲项目的主要目标是促进和鼓励欧盟卫生研究界应用可查找、可获取、可互操作和可重复使用(FAIR)原则[1通过在欧盟层面实施有效的外展战略，制定一套指导方针，为公平数据认证路线图奠定基础，开发一个直观的平台，并通过验证2个探路者案例研究，展示对健康研究和健康结果的潜在影响。在高层次上，该项目旨在促进卫生研究数据的共享和重用。该项目汇集了卫生研究、数据管理人员、医疗信息学、软件开发人员、标准和律师等关键利益攸关方的专业知识，以正确实现这一主要目标。FAIR4Health联盟有来自11个欧盟和非欧盟国家的17个合作伙伴。

尽管在卫生研究数据共享方面存在强烈关切和挑战[2，3.]和接下来的努力来区分的概念开放数据(4，5),合理的数据(6，7，很明显，数据共享是科学进步的支柱之一。不同国家和文化之间的合作是收集宝贵知识和应对诸如当前大流行病等挑战的最快途径[8，9]．鉴于全球对科学研究和国际合作的高度重视，在卫生研究组织中采用和实施公平数据政策是一项强烈要求。因此，在大数据和开放研究出版时代，实施公平数据倡议和在卫生领域公平化过程中吸取的经验教训对于支持循证临床实践和研究透明度至关重要[10]．

FAIR4Health项目的目的[11是设计一个工作流程[12]并制定一个框架，以实现卫生研究数据集的公平化，处理敏感数据的相关法律、技术和伦理考虑和要求。为此，FAIR4Health公平化工具在FAIR4Health联盟的不同卫生研究执行组织中实施和部署。然后，利用FAIR4Health平台上实施的保护隐私的分布式数据挖掘(PPDDM)架构，开展了2个探索性案例研究，以展示FAIR策略应用对健康结果和健康与社会护理研究的潜在影响。PPDDM架构使用了一种联邦机器学习方法，在这种方法中，当模型在数据托管站点之间传输时，健康研究数据不会离开其场所。本文描述了FAIR4Health用例的性能和验证，该用例的重点是开发慢性阻塞性肺疾病(COPD)患者30天再入院风险的早期预测模型。

背景

公平数据原则

公平资料原则的目的[1是确保数据以一种能够促进人和机器重用的方式共享。虽然FAIR数据来自生命科学界的一个研讨会，但FAIR原则旨在应用于所有学科的数据和元数据。

自FORCE11社群正式发布以来[13]， FAIR数据原则已被世界各地的一些资助者和政府采用。欧盟委员会的数据管理指南于2017年更新，引入了公平原则。同样，在2017年6月的峰会之后，发布了《欧洲开放科学云宣言》[14]．相比之下，最近的工作文件提出了欧洲开放科学云的实施路线图[15]．这两份相关文件强调了公平数据的核心作用。

FAIR原则正被广泛的研究学科所采用，如经济学、语义网和环境。几个小组评估了迄今为止的吸收情况和遇到的挑战。FAIR4Health [11]和其他项目通过记录良好实践并在可能的情况下将其应用于其他领域(如医学领域)来增加最新技术。

FAIR4Health增加了公平原则在卫生研究领域应用的分析和经验，特别是在COPD卫生研究数据集方面。

慢性阻塞性肺病和再入院

COPD是一种以持续症状和慢性气流受限为特征的呼吸系统疾病。众所周知，这种疾病未得到充分诊断，尽管它影响了全世界近10%的成年人[16随着人口的老龄化，其患病率继续上升。Mannino等的研究[17显示>50%肺功能受损的成年人不知道自己被诊断为COPD [17]．慢性阻塞性肺病经常伴有其他合并症，如心血管疾病、高血压和糖尿病[18，19]．已有研究表明，COPD患者的其他合并症出现在较年轻的年龄[20.]．Anecchino等人进行的横断面研究[21]和Holguin等[22研究表明，68%的COPD患者至少有一种合并症，16%有2种或以上合并症，30%有4种或以上合并症。它也是世界上第三大死亡原因[23]．这意味着对使用保健服务的需求很大[24，25]．因此，使用公平战略的必要性和重要性将促进数据共享，从而促进科学发现，符合公平4health所述的目标。

既往研究表明，与COPD患者再入院相关的危险因素有几个，如肺功能明显恶化、脉搏血氧饱和度低、活动水平下降、合并症、住院期间缺乏药物调节等[26]．再入院通常会对患者及其家属的生活质量产生负面影响，并给卫生保健系统带来相当大的经济负担。此外，先前的研究结果支持对过去经常住院的患者的高再入院风险的认识，以及其他可能有助于更好地预测患者住院期间再入院风险的评估[27]．

关于合并症，值得注意的是，一些研究一致认为，合并症的数量越多，COPD患者再入院的风险就越大[28，29]．出院后30天内的再入院率在很多情况下被用来判断所接受的医院护理质量。根据医疗保险受益人的数据，估计约有五分之一因慢性阻塞性肺病出院的患者在30天内再次入院[30.，31]．Gershon等人最近发表的一项研究[24]分析了252,756名因慢性阻塞性肺病住院的患者，并显示在此期间再入院的危险因素是以前入院的人数、修改后的医学研究委员会呼吸困难评分、年龄和慢性心力衰竭(右、左)。

因此，慢性阻塞性肺病是一个必须解决和分析的重大健康问题[32]．一些研究已经评估了这些患者再入院率的风险[30.，33，34]，但很少有研究在30天内考虑到这种风险。此外，很少有研究成功地考虑了这些患者的合并症、功能和护理数据。由于所有这些原因，FAIR4Health探路者案例研究包括开发COPD患者30天再入院风险的早期预测模型。本研究旨在了解这些数据对出院后30天内再入院率的影响。解决这些在出院计划期间具有高风险的方面，可以帮助预防再入院，并建立一个模型，帮助预测哪些患者表现出更大的虚弱，从而有更高的再入院风险。

本研究目的

本文描述了FAIR4Health解决方案的临床验证，包括开发和选择最合适的模型来预测COPD患者30天再入院风险，并对该模型进行评估。本研究建立在不同健康研究执行组织的健康研究数据集的公平化基础上，并在不同组织的公平化数据集之上建立了联邦机器学习架构。整个FAIR4Health解决方案通过本文中描述的临床用例在实际环境中进行了验证。

研究设计与招募

本研究设计的验证FAIR4Health解决方案的用例由两个阶段组成:(1)回顾性多中心观察性研究，包括在FAIR4Health平台中训练预测模型;(2)观察性前瞻性研究，随访30天。

回顾性研究

在回顾性研究中，考虑到COPD相关合并症在更年轻的人群中观察到，人群包括年龄>18岁诊断为COPD的患者[20.]．出院后30天内在任何医院科室计划住院的患者、精神疾病患者和神经退行性疾病患者均被排除在研究之外。根据本研究确定的临床方案，第一阶段包括从以下指定的相关数据源收集回顾性数据。

在训练联合机器学习模型的第一阶段，三个不同的组织参与了他们的医疗保健(医院、初级保健和疗养院)和健康研究数据集:(1)瑞士日内瓦大学提供了来自日内瓦大学医院电子健康记录(EHR)的医疗保健数据;(2)西班牙安达卢西亚卫生服务中心(安达卢西亚卫生服务中心[SAS])下属的维珍·德尔Rocío大学医院提供了来自塞维利亚维珍·德尔Rocío大学医院电子病历的医疗保健数据;(3)西班牙的阿拉贡-萨鲁德科学研究所和Investigación卫生研究所Aragón提供了基于EpiChron队列的健康研究数据集[20.，35]，这是由阿拉贡-萨鲁德科学研究所进行的一项研究。

对于从以前的研究项目中提供健康研究数据集的组织，样本量是通过考虑以前研究中数据集的原始大小来定义的，而对于从电子病历中提供医疗保健数据集的组织，样本量是根据满足纳入和排除标准的患者数量来定义的。

训练和预测过程的变量与人口统计学、多病、合并症、多种药物、实验室和住院数据有关。主要的因变量是再入院，定义为出院30天内因任何与COPD相关的原因而非计划住院。

前瞻性研究

根据本研究确定的临床方案，在回顾性研究之后进行了一项观察性前瞻性研究，通过收集一组招募的患者的数据，评估早期预测模型的影响。年龄≥18岁、诊断为慢性阻塞性肺病(COPD)且因该疾病入院(非计划住院)并签署知情同意书(ICF)的患者被纳入观察性前瞻性研究，符合与回顾性研究相同的纳入和排除标准。

两个卫生保健组织参加了这项观察性前瞻性研究，其中对训练好的预测模型进行了测试:(1)西班牙安达卢西亚卫生服务中心(SAS)塞维利亚维珍德尔Rocío大学医院内科部和(2)塞尔维亚伏伊伏丁那肺病研究所(IPBV)阻塞性肺病和急性肺病诊所。在这两种情况下，样本量都是通过考虑前瞻性研究期间入院的患者数量来定义的，从而满足纳入和排除标准。

关于研究变量，前瞻性研究中每个患者纳入时收集的变量与回顾性研究中收集的变量相同。作为监测变量，为了评估模型对患者再入院风险的预测性能，分析COPD患者出院后30天内是否再入院。

伦理批准

在让所有参与的卫生研究组织参与案例研究之前，根据区域法规获得了本研究的伦理批准(瑞士日内瓦大学和日内瓦大学医院:2020-02683;西班牙安达卢西亚保健服务中心的圣母医院Rocío大学医院:1269-M1-20;西班牙的阿拉贡-萨鲁德科学研究所和Investigación卫生研究所Aragón, 1269-M1-20)。

制定了技术和组织措施，以保障数据参与者的权利和自由，包括数据最小化原则。确定了知情同意程序，包括知情同意和信息表。每个数据拥有人机构都任命了一名数据保护干事。为了加强对这些伦理方面的适当覆盖，在研究开始时，成立了一个外部伦理咨询委员会，包括审查可交付成果、生成报告和执行演示以支持FAIR4Health Consortium。

标准化工作流程和工具

公平对待卫生数据开辟了新的视野，特别是在卫生保健的二次使用和卫生研究数据集的重复使用方面。FAIR4Health项目提出了一个公平化工作流程[12]用于使现有的卫生数据集公平。此工作流包括一系列可操作的步骤以及每个步骤的技术设计和实现指南。

为了应对健康领域的挑战，提议的工作流程采用了GO FAIR定义的通用公平流程[36]．首先，此工作流将通用步骤置于上下文中。其次，FAIR4Health工作流程引入了新的步骤，并充分考虑了重复使用卫生数据集可能产生的法律、技术和伦理影响。

这些步骤是(1)原始数据分析，(2)数据管理和验证，(3)数据去识别和匿名化，(4)语义建模，(5)使数据可链接，(6)许可归属，(7)数据版本控制，(8)索引，(9)元数据聚合，(10)发布。

步骤2、3、7和8是FAIR4Health farification工作流中新引入的。图1显示此工作流的可视化表示。

图1所示。FAIR4Health公平化工作流程(根据Sinaci等人的研究重新定义)[12])。公平:可查找、可访问、可互操作和可重用。

标准化工作流基于HL7快速医疗保健互操作性资源(FHIR) [37]．通过使用诸如HL7之类的成熟标准使数据公平，FHIR不仅有助于公平化，而且还帮助数据所有者组织遵守广泛采用的标准。FAIR4Health项目围绕HL7 FHIR开发了一套软件工具，作为farification工作流的实现，即所谓的farification工具。除了方法和FHIR的使用之外，这些工具，即onFHIR。IO资料库[38]、数据管理工具(DCT) [39]及资料私隐工具(DPT) [40]，在回顾性研究的三个数据源组织中分别进行了部署和使用。一套FHIR概况作为通用数据模型[41]，以涵盖用例的数据需求。onFHIR。FAIR4Health项目的所有安装都随FAIR4Health配置文件一起发货;因此，一旦在每个回顾性研究组织中完成公平化，FAIR4Health设计导致统一、可互操作和可重用的数据集。

还有onFHIR。在每个组织的数据库中，都安装了DCT和DPT，数据管理人员和FAIR4Health研究人员使用这些工具对其现有数据集进行公平化，并协作以适当地处理数据库。按照farification工作流，通过DCT创建相关的FHIR资源，首先将原始数据转换为HL7 FHIR。结果表明，DCT是一种有效的软件工具，可以应对原始数据分析、管理和验证步骤的挑战[42]．一旦数据被迁移到onFHIR。在io存储库中，DPT用于根据组织的策略需求确定资源。FHIR资源的使用和非FHIR。IO存储库帮助我们成功地覆盖了其他工作流步骤，如版本控制、索引和许可归属。在每个组织的FAIRification过程结束时，FAIR数据已经准备好供联邦机器学习算法使用，以便可以在回顾性数据的基础上构建预测模型。

联邦机器学习模型

FAIR4Health项目通过设计和实现联邦机器学习架构来实现PPDDM理念。该体系结构的最终目标是解决健康数据所有者具有挑战性的安全和隐私问题。PPDDM体系结构不允许数据离开它们的服务器。在每个组织的每个FAIRified数据集上训练部分机器学习模型，然后使用这些部分模型在FAIR4Health中央平台上开发增强的机器学习模型。该平台为研究人员提供了一个基于web的图形用户界面，这样他们就可以定义他们的特征，创建分布式数据集，然后训练联合模型。PPDDM体系结构由代理实现组成。然后，将代理部署在每个数据源组织的FAIRified数据集之上。这些代理人与他们相关的fhir进行沟通。每个部署站点的IO存储库。将管理器部署为FAIR4Health平台图形用户界面的后端，以便可以对这些代理进行编排，以在这些分布式数据集之上构建分布式数据集和联邦预测模型。图2显示FAIR4Health联邦体系结构的图形表示。

图2。FAIR4Health联邦架构。GUI:图形用户界面;PPDDM:保护隐私的分布式数据挖掘。

在回顾性研究期间，数据所有者组织的研究人员使用该平台在回顾性数据集上训练联邦机器学习模型，这些数据集之前使用farification工具进行了FAIR。PPDDM实现为研究人员提供了一套以联邦方式执行的机器学习算法。这些算法分为(1)支持向量机，(2)逻辑回归，(3)决策树，(4)随机森林和(5)梯度增强树。

模型生成与平差

在回顾性研究中，通过使用上面列出的预测算法以及尝试不同参数(例如，imputation策略，分类阈值，树的最大深度和特征子集策略)的不同值，生成了许多机器学习模型。由于代理中的数据向一个方向倾斜，因此更多地关注基于树的算法，并且当数据不平衡时，基于树的方法比其他方法产生更好的结果。此外，采用k-fold交叉验证将数据分割成一组不重叠的训练集和测试集，以获得更准确的结果。

在实验中，使用随机森林算法生成的预测模型获得了较好的结果。该平台的一个示例截图显示在图3．在创建模型时，提供了树的最大深度(范围5-15)，最小信息增益(0.0和0.5之间)，杂质(基尼或熵)和树的数量(范围25-100)的不同值。FAIR4Health平台用网格搜索功能尝试了所有这些值，以确定最佳组合。因此，考虑到具有此类算法专家背景的FAIR4Health研究人员的知识，生成准确率为98.6%的最佳模型，并选择如下值:

用受试者工作特性评价指标曲线下面积进行3次交叉验证
插入策略:中值-使用特征的近似中值替换缺失值
树的最大深度:5
最小信息增益:0.0
杂质:基尼
树的数量:50
特征子集策略:自动计算每个树节点上的特征数量，作为分类算法中特征总数的平方根。

临床验证

选择算法参数后，使用4.944例COPD患者的回顾性数据集生成预测模型。随后，进行了一项观察性前瞻性研究，以验证和评估COPD患者30天再入院风险的早期预测模型。

从2021年4月至2021年9月，共招募了100名患者并将其纳入观察性前瞻性研究，随访30天，包括招募和随访。在此期间，研究参与者通过每周进行患病率降低来招募，其中系统评估所有因COPD住院的患者，将所有符合纳入标准且不符合任何排除标准的患者纳入本研究。

临床医生和研究人员在观察性前瞻性研究中对FAIR4Health溶液进行了功能和临床验证。由于这是一项多中心观察性研究，因此研究中患者的招募和纳入方法如下所述。

对于SAS，临床团队在研究期间回顾了711例住院患者，其中53例(7.5%)符合纳入标准，不符合任何排除标准。最后，22名COPD患者签署了ICF，并被纳入这项观察性前瞻性研究。在SAS的总招募患者中，18%(4/22)为女性，82%(18/22)为男性。

在IPBV病例中，在2070例住院患者中，113例(5.46%)患者因COPD加重而住院，83例(73.5%)患者符合所有纳入标准，不符合任何排除标准并签署了ICF。这项观察性前瞻性研究共纳入78例患者。

在研究期间招募的患者中，47%(37/78)为女性，53%(41/78)为男性。

从COPD患者收集的所有数据被输入FAIR4Health平台，以获得由预测模型生成的30天再入院风险预测并评估其性能。

评价结果

当使用FAIR4Health平台获得预测结果时，进行一致性分析，将真实数据与预测值进行比较。针对入选的100例患者再入院的现实情况，两例患者均在住院期间进行随访，随访时间为30天。在SAS共招募的22例患者中，3例(14%)在出院后30天内(即随访期间)再次入院。在IPBV共招募的78例患者中，10例(15%)在随访期间再次入院。最后，从100名招募的患者中，(1)由FAIR4Health平台生成的预测的准确性在87%(87/100)的病例中得到证实;即患者在现实生活中因COPD再次入院，该算法预测患者存在早期30天再入院风险，或者患者未再次入院，该算法预测不存在早期30天再入院风险，(2)13%(13/100)的病例未证实该预测;即在现实生活中，患者在30天内再次入院，平台预测患者无早期30天再入院风险或患者未再次入院，平台预测患者有早期30天再入院。

主要研究结果

将公平原则应用于来自不同国家的卫生研究执行组织的卫生研究数据集，使联合数据分析能够加速发现科学产出。因此，在数据标准化过程中，对卫生研究数据的法律、技术和伦理要求进行了分析。此外，基于先前发现的风险因素，使用数据挖掘方法，实现、部署和验证了用于预测COPD患者出院时30天再入院风险的临床决策支持模型。最后，通过一项多中心研究，分析COPD患者出院后30天内再入院率，临床合作伙伴可以达到用例目标，获得早期30天再入院风险预测模型。有关FAIR4Health先导项目个案研究的进一步详情，可参阅FAIR4Health有关示范项目表现的公开报告[43]．

需要强调的是，FAIR4Health解决方案是根据实际的可扩展性能力实现的，因此可以使用该解决方案解决其他研究问题，而无需执行调整。此外，为了提高研究的可重用性，同时使用GitHub中免费提供的开源代码和生成的元数据[44]，该研究可以被复制。

限制

首先，在数据收集过程中解决了与数据相关的重大跨领域挑战。从电子医疗纪录中提取数据和其他类型的卫生保健资源调整这提取FAIR4Health共同数据模型并不简单,需要大量的概念和技术的努力,因为(1)原始数据的复杂性(电子医疗纪录的来源通常非常复杂的包括多个表中的信息在源数据库),(2)自由文本在某些领域用于原始数据来源,和(3)的原始数据类型之间的差异来源。为了解决原始数据的复杂性，参与数据提取的来自不同国家的每个卫生研究组织都有各自源数据模型专家的同事参与。为了处理自由文本字段中的信息，评估了自然语言处理技术。最后，在某些情况下，进行人工自然语言处理，从非结构化信息中提取结构化信息。为了管理原始数据源性质之间的差异，在每个临床合作伙伴和技术合作伙伴之间的协作中，对每个原始数据集进行了深入分析，以达到FAIR4Health解决方案中所需的配置，实现所有原始数据的公平化，并最终使用所有来源实现PPDDM模型的生成。

其次，对于本研究生成的预测模型，如果对数据集中再入学变量的分布进行更好的调整，则可以生成更有效的预测参数(具有更好的准确度、精密度和召回率值)。作为因变量的再入院变量在回顾性研究的数据集(用于本前瞻性研究的预测模型的数据集)中没有得到平衡，导致生成的结果是好的，但没有达到预期的完美。为了获得更有效的模型，未来将利用更多患者的数据集更好地调整再入院变量的分布，以促进预测模型在临床实践中的应用。大多数基于机器学习的预测模型研究表明，方法质量很差，并且存在很高的偏差风险。研究规模小、缺失数据管理不善以及未能解决过拟合问题是导致偏倚风险的因素[45]．

相比之下，必须补充的是，本研究是在这两家医疗机构正在经历COVID-19大流行的后果时进行的，临床研究人员必须做出重大努力才能正确地完成这项前瞻性研究:

IPBV作为医疗机构被纳入国家COVID-19医疗机构系统，负责照顾COVID-19阳性患者和严重临床困难患者。由于塞尔维亚卫生保健系统的重组，自2020年3月以来，慢性阻塞性肺病患者住院的可能性已经降低。在前瞻性研究中，负责患者招募的研究人员中有许多从事COVID-19科室的工作，其余研究人员在研究期间工作过度。
SAS方面，该医疗机构参与了疑似COVID-19患者和临床困难严重的COVID-19阳性患者的护理。SAS的所有卫生专业人员在卫生保健方面的工作量都较高。事实上，参与这项观察性研究的不同临床研究人员在项目期间被转移到塞维利亚(西班牙)的COVID-19急诊医院，相互接替，优先考虑基本的医疗保健，并照顾不符合本研究纳入标准且无法招募的患者。临床研究人员发现慢性阻塞性肺病患者使用医疗保健服务(包括急诊和咨询)的比例较低;可能是因为害怕接触新冠病毒感染者，所以等到症状更严重的时候才去医院。此外，与其他疾病类似，COPD患者的住院治疗受到限制，以避免患者通过医疗保健中心。

下一个步骤

考虑到FAIR4Health解决方案的最终版本和本研究的主要结果，可以考虑一些未来的进展:

使用FAIR4Health公共数据模型验证了FAIRification工具和FAIR4Health平台。该解决方案的设计和开发考虑了其他数据模型的广泛能力，因此在未来的临床验证中继续使用其他数据模型进行验证和测试是合适的。
整个FAIR4Health解决方案涵盖了与相关标准的一致性:HL7 FHIR，国际疾病分类，SNOMED临床术语，逻辑观察标识名称和代码，以及解剖治疗化学分类系统。如果可行，可以考虑集成其他标准，如其他HL7标准、流行病学标准和W3C标准。
FAIR4Health平台使用以下机器学习算法进行验证:频繁模式生长、支持向量机、逻辑回归、决策树、随机森林和梯度增强树。在未来的研究中可以考虑深度学习算法，如神经网络，以提高FAIR4Health平台的能力。

从科学的角度来看，FAIR4Health联盟的一些研究人员参与了欧洲开放科学云、欧洲医学信息学联合会、研究数据联盟、GO FAIR倡议和HL7国际的国际工作组，为公平原则在健康研究领域的应用做出了贡献。

结论

尽管存在上述局限性，但本研究的目标还是实现了:通过评估联邦模型来验证FAIR4Health解决方案，该模型是在不同健康研究执行组织的FAIRified数据集上应用联邦机器学习架构生成的，用于实时预测COPD患者30天再入院风险。

FAIR4Health解决方案的临床、技术和功能验证是通过以下方式实现的:(1)通过FAIR4Health公平化工具在不同健康研究执行机构的健康研究数据集中应用公平原则，并对4944名COPD患者的数据进行公平化;(2)在联邦数据集基础上开发和使用联邦机器学习架构;(3)联合模型的临床、技术和功能开发和评估，用于预测COPD患者30天再入院风险，准确率为0.98，精确度为0.25,87%(87/100)的病例预测得到证实。

在回顾性研究中，有3个不同的组织参与了他们的医疗保健(医院、初级保健和养老院)和健康研究数据集，生成的联合模型的准确率为98.6%，精度为25%。在两家医疗机构参与的观察性前瞻性研究中，招募了100名患者进行联合模型，以预测他们在30天内因COPD再入院的风险。因此，在87%(87/100)的病例中，该模型和FAIR4Health平台所产生的预测的准确性得到了证实。

开展卫生研究的组织意识到有必要实施公平数据政策，以便在发现、访问、整合和分析卫生研究数据后促进数据共享和重用。一个明显的例子是2019冠状病毒病大流行，国际合作使快速测序和流行病学研究得以开展，从而表明了数据共享对加速卫生研究的必要性和重要性[46，47]．出于这个目的，组织通常会努力使自己与FAIR原则保持一致。这是FAIR4Health项目在患者管理和健康规划方面的真实和实际的结果:在健康数据的情况下，通过可查找性、可访问性、互操作性和可重用性增强的特性，改进对特定病理的健康研究。

FAIR4Health项目提出了一种卫生领域的技术解决方案，以促进使用更大、更异构的数据集，从而增加数据的可变性和数据集的规模。因此，将获得研究范围的增加，并显著提高生成更准确的预测模型的能力。

致谢

这项工作得到了FAIR4Health项目的支持[10]，该项目获得了欧盟“地平线2020”研究与创新项目824666的资助。这项研究还得到了卡洛斯三世国家卫生研究所的共同支持，通过Precisión医学基础设施数据科学计划(IMPaCT-Data，代码IMP/00019)和Tecnología计划(IMPaCT-Data，代码IMP/00019)以及西班牙国家卫生系统工业能力的活力化和创新平台及其向生产部门的有效转移(代码PT20/00088)。这两个项目都是由欧洲区域发展基金(Fondo Europeo de Desarrollo Regional)“创造欧洲的一种方式”共同资助的。作者要感谢该项目的临床研究人员，他们来自FAIR4Health联盟的一部分组织:日内瓦大学(瑞士)、日内瓦大学医院(瑞士)、圣心天主教大学(意大利)、波尔图大学(葡萄牙)、阿拉贡-萨鲁德科学研究所(西班牙)、Bolesti Vojvodine研究所(塞尔维亚)和Andaluz De Salud服务中心(西班牙)。

利益冲突

没有宣布。

Wilkinson M, Dumontier M, Aalbersberg IJ, Appleton G, Axton M, Baak A，等。科学数据管理和管理的公平指导原则。科学数据2016年3月15日;3:160018-160019 [j]免费全文] [CrossRef] [Medline］
Parra-Calderón李建军，李建军，李建军。公平原则在生物医学研究中的应用。方法中华医学杂志2020年8月22日;59(4-05):117-118。(CrossRef] [Medline］
李建军，李建军。基于公平原则的基因组信息安全与隐私分析。《科学通报》2020年11月23日;275:37-41。(CrossRef] [Medline］
Dijkers MP。数据管理和数据共享的初学者指南。脊髓杂志，2019;57(3):169-182。(CrossRef] [Medline］
Couture JL, Blake RE, McDonald G, Ward CL。资助机构强加的数据发布要求很少能激发数据共享。科学通报，2018;13(7):e0199789 [j]免费全文] [CrossRef] [Medline］
王晓明，王晓明，王晓明，等。基于数据集的医疗卫生研究进展[j]。医学港口学报2020 Dec 02;33(12):828-834 [j]免费全文] [CrossRef] [Medline］
Holub P, Kohlmayer F, Prasser F, Mayrhofer MT, schl nder I, Martin GM，等。加强医学研究中数据和生物材料的再利用:从公平到公平-健康。生物储备生物库2018年4月;16(2):97-105 [j]免费全文] [CrossRef] [Medline］
梅洛MM，刘伟V，古德曼SN。临床试验参与者对数据共享的风险和收益的看法。中华医学杂志2018;37 (3):391 - 391 [J]免费全文] [CrossRef] [Medline］
里奥斯R，郑基，郑明辉。COVID-19大流行期间的数据共享:吸取什么教训。国际肝病杂志，2020;14(12):1125-1130。(CrossRef] [Medline］
李建军，李建军，李建军，李建军。卫生数据管理实践中FAIR(可查找、可访问、可互操作和可重用)数据原则的倡议、概念和实施实践:范围审查协议。JMIR Res Protoc 2021 Feb 02;10(2):e22505 [j]免费全文] [CrossRef] [Medline］
为科学界提供的健康关键产出。FAIR4Health。URL:https://www.fair4health.eu/[2022-05-11]访问
Sinaci A, Núñez-Benjumea FJ, Gencturk M, Jauer ML, Deserno T, Chronaki C，等。从原始数据到公平数据:卫生研究的公平化工作流程。方法国际医学杂志2020年6月;59(S 01):e21-e32 [j]免费全文] [CrossRef] [Medline］
FAIR数据原则。FORCE11。URL:https://www.force11.org/group/fairgroup/fairprinciples[2022-05-11]访问
EOSC声明。URL:https://eosc-portal.eu/sites/default/files/eosc_declaration.pdf[2022-05-11]访问
欧洲开放科学云(EOSC)战略实施计划。欧洲委员会。URL:https://ec.europa.eu/info/publications/european-open-science-cloud-eosc-strategic-implementation-plan_en[2022-05-11]访问
李建军，李建军，李建军，李建军，中国卫生流行病学研究进展[j]。全球和区域COPD患病率估计:系统回顾和荟萃分析。全球健康杂志，2015;5(2):020415 [J]免费全文] [CrossRef] [Medline］
Mannino D, Gagnon R, Petty T, Lydick E.美国成人阻塞性肺疾病和肺功能低下:来自1988-1994年全国健康与营养调查的数据。中华医科大学学报(自然科学版);2009;31(4):563 - 563。(CrossRef] [Medline］
Baty F, Putora P, Isenring B, Blum T, Brutsche M.慢性阻塞性肺病的共病和负担:一项基于人群的病例对照研究。科学通报，2013;8(5):663 - 668 [j]免费全文] [CrossRef] [Medline］
Divo M, Cote C, de Torres JP, Casanova C, Marin JM, Pinto-Plata V，等。慢性阻塞性肺疾病患者的合并症和死亡风险[J]中华呼吸与急救医学杂志，2012;16(2):555 - 561。(CrossRef］
Divo MJ, Celli BR, Poblador-Plou B, Calderón-Larrañaga A, de-Torres JP, Gimeno-Feliu LA, epicron - bode协作组。慢性阻塞性肺疾病(COPD)作为一种早衰疾病:来自EpiChron队列的证据PLoS One 2018 Feb 22;13(2):e0193143 [j]免费全文] [CrossRef] [Medline］
Anecchino C, Rossi E, Fanizza C, De Rosa M, Tognoni G, Romero M，工作组ARNO项目。普通人群中慢性阻塞性肺疾病的患病率和合并症的模式中华肺科杂志2007;2(4):567-574 [J]免费全文] [Medline］
王晓明，王晓明，王晓明。慢性阻塞性肺疾病住院治疗的临床研究进展。Chest 2005 Oct;128(4):2005-2011。(CrossRef] [Medline］
Lozano R, Naghavi M, Foreman K, Lim S, Shibuya K, Aboyans V，等。1990年和2010年20个年龄组235个死因造成的全球和区域死亡率:2010年全球疾病负担研究的系统分析。柳叶刀2012年12月15日;380(9859):2095-2128。(CrossRef] [Medline］
Gershon A, Thiruchelvam D, Aaron S, Stanbrook M, Vozoris N, Tan W，等。慢性阻塞性肺(COPD)疾病的社会经济地位(SES)和30天住院再入院:一项基于人群的队列研究PLoS One 2019;14(5):e0216741 [j]免费全文] [CrossRef] [Medline］
约金。全球慢性阻塞性肺病倡议。URL:http://goldcopd.org/[2022-05-11]访问
陈建军，李建军，李建军，等。慢性阻塞性肺病患者早期出院后再入院的社会心理风险因素研究。中华医学杂志2011年11月4日;11:49 [免费全文] [CrossRef] [Medline］
Jiang W, Siddiqui S, Barnes S, Barouch LA, Korley F, Martinez DA，等。心衰患者再入院风险轨迹动态预测方法的回顾性研究中华医学杂志2019年9月16日;7(4):e14756 [j]免费全文] [CrossRef] [Medline］
张建军，张建军，张建军，等。慢性阻塞性肺疾病、慢性心力衰竭和糖尿病患者再入院情况分析。实习医学杂志2005;35(5):296-299。(CrossRef] [Medline］
慢性疾病和再入院的自我管理:护理转型策略。护理卫生与慢性病2011;3(1):4-11。(CrossRef］
《柳叶刀呼吸医学》。减少慢性阻塞性肺病再入院——个人和政治优先事项。柳叶刀呼吸医学2013;1(5):347。(CrossRef］
Jencks SF, Williams MV, Coleman EA。医疗服务收费项目中患者的再住院情况。中华医学杂志2009年4月2日;36(4):1418-1428。(CrossRef］
李建军，张建军，李建军，等。(CrossRef］
陈芳，黄芳，任超，张伟，黄娥，梁明，等。香港慢性阻塞性肺病患者住院和再入院的危险因素:住院记录分析医疗卫生服务，2011,8;11:19 6 [免费全文] [CrossRef] [Medline］
赵军，赵建军，赵建军，赵建军，赵建军，赵建军。慢性阻塞性肺疾病急性加重后的早期住院再入院在全国再入院数据库。Annals ATS 2018;15(7):837-845。(CrossRef］
普拉多斯-托雷斯A，波布拉多尔-普洛B，吉梅诺-米格尔A, Calderón-Larrañaga A, Poncel-Falcó A, Gimeno-Feliú LA等。队列概况:慢性病和多病的流行病学。Epichron队列研究。国际流行病学杂志2018,01;47(2):382-34f [J]免费全文] [CrossRef] [Medline］
GO FAIR倡议。去公平。URL:https://www.go-fair.org[2022-05-11]访问
欢迎来到FHIR。HL7 FHIR。URL:http://hl7.org/fhir/[2022-05-11]访问
基于HL7 FHIR®的安全数据存储库。onFHIR.io。URL:https://onfhir.io[2022-05-11]访问
FAIR4Health数据管理和验证工具。GitHub。URL:https://github.com/fair4health/data-curation-tool[2022-05-11]访问
FAIR4Health数据隐私工具。GitHub。URL:https://github.com/fair4health/data-privacy-tool[2022-05-11]访问
Fair4health /公共数据模型。GitHub。URL:https://github.com/fair4health/common-data-model[2022-05-11]访问
李建军，李建军，李建军，李建军，等。最终用户对FAIR4Health数据管理工具的评估。种马健康技术通知2021年5月27日;281:8-12。(CrossRef] [Medline］
D5.5。演示的报告performance_v2_vf.pdf。OSF的家。URL:https://osf.io/tfnqa/[2022-05-11]访问
FAIR4Health。GitHub。URL:https://github.com/fair4health/[2022-05-11]访问
Andaur Navarro CL, Damen JA, Takada T, Nijman SW, Dhiman P, Ma J，等。使用监督机器学习技术开发的预测模型研究中的偏差风险:系统评价。中国医学杂志[j]; 2010; 21 (3): 391 - 391 [j]免费全文] [CrossRef] [Medline］
Kinsella C, Santos PD, Postigo-Hidalgo I, Folgueiras-González A, Passchier TC, Szillat KP，等。防范工作需要研究:基础科学和国际合作如何加速应对COVID-19。中华医学杂志，2020;16(10):e1008902 [j]免费全文] [CrossRef] [Medline］
besanon L, Peiffer-Smadja N, Segalas C, Jiang H, Masuzzo P, Smout C，等。开放科学拯救生命:2019冠状病毒病大流行的教训BMC医学研究方法2021;05;21(1):117-118 [j]免费全文] [CrossRef] [Medline］

‎

慢性阻塞性肺病:慢性阻塞性肺疾病

DCT:数据管理工具

DPT:数据隐私保护工具

电子健康档案:电子健康记录

欧盟:欧盟

公平:可查找、可访问、可互操作和可重用

FHIR:快速医疗保健互操作性资源

ICF:知情同意书

IPBV:伏伊伏丁那省肺病研究所

PPDDM:保护隐私的分布式数据挖掘

情景应用程序:安达卢兹服务中心

C·洛维斯编辑;提交30.11.21;H Abaza, JJ Mira的同行评审;对作者的评论26.12.21;修订版本收到16.03.22;接受21.04.22;发表02.06.22

©Celia Alvarez-Romero, Alicia Martinez-Garcia, ara Ternero Vega, Pablo Díaz-Jimènez, Carlos jim - nez- juan, María Dolores Nieto-Martín, Esther Román Villarán, Tomi Kovacevic, Darijo Bokan, Sanja Hromis, Jelena Djekic Malbasa, Suzana beslaki, Bojan Zaric, Mert Gencturk, A Anil Sinaci, Manuel Ollero bataturone, Carlos Luis Parra Calderón。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com)， 02.06.2022。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到https://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

通过可查找、可访问、可互操作和可重复使用(FAIR)数据的联邦机器学习架构预测慢性阻塞性肺疾病患者30天再入院风险:开发和验证研究