JMIR J Med Internet Res 医学互联网研究杂志 1438 - 8871 卡塔尔世界杯8强波胆分析 加拿大多伦多 v25i1e42289 36972116 10.2196/42289 审查 审查 生物医学研究中的数据来源:范围审查 蒂芙尼 Curcin “瓦萨”号 Zrubka Zsombor 航空公司 Jean-Daniel 约翰 马可 MSc 1
医学信息学组 柏林慈善机构健康研究所- Universitätsmedizin柏林 Chariteplatz 1 柏林,10117 德国 49 15147112798 marco.johns@charite.de
https://orcid.org/0000-0003-4706-6595
Meurers 亨利 MSc 1 https://orcid.org/0000-0001-8168-7067 德国沃斯公司 Felix N MSc 1 https://orcid.org/0000-0002-6418-2806 哈伯 安娜C 该数学 1 https://orcid.org/0000-0002-1495-6033 穆勒 阿明 MSc 1 https://orcid.org/0000-0003-3566-8687 Halilovic Mehmed MSc 1 https://orcid.org/0000-0003-2508-2180 鲍尔泽 费利克斯 医学博士 2 https://orcid.org/0000-0003-1575-2056 普拉斯 费边 博士学位 1 https://orcid.org/0000-0003-3172-3095
医学信息学组 柏林慈善机构健康研究所- Universitätsmedizin柏林 柏林 德国 医学信息学研究所 慈善机构 - Universitätsmedizin柏林 柏林 德国 通讯作者:Marco Johns marco.johns@charite.de 2023 27 3. 2023 25 e42289 30. 8 2022 23 11 2022 14 12 2022 23 12 2022 ©Marco Johns, Thierry Meurers, Felix N Wirth, Anna C Haber, Armin m, Mehmed Halilovic, Felix Balzer, Fabian Prasser。原发表于《医学互联网研究杂志》(//www.mybigtv.com), 2023年3月27日。 2023

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。

背景

数据来源是指数据的来源、处理和移动。关于数据来源的可靠和精确的知识具有极大的潜力,可以提高生物医学研究的可重复性和质量,从而促进良好的科学实践。然而,尽管文献中对数据来源技术及其在其他学科中的应用越来越感兴趣,但这些技术尚未广泛应用于生物医学研究。

客观的

本次范围审查的目的是通过系统化涵盖为该应用领域开发或使用的数据溯源技术的文章,对生物医学研究中溯源方法的知识体系进行结构化概述;描述和比较所使用的溯源技术的功能和设计;并找出文献中的空白,这可以为未来的技术研究提供机会,这些技术可以得到更广泛的采用。

方法

根据范围界定研究的方法学框架和PRISMA-ScR(系统评价和荟萃分析扩展范围评价的首选报告项目)指南,通过搜索PubMed, IEEE Xplore和Web of Science数据库确定文章,并随后筛选其资格。我们收录了2010年至2021年间发表的基于软件的科学研究来源管理的原创文章。沿着以下五个轴定义了一组数据项:发布元数据、应用程序范围、涵盖的来源方面、数据表示和功能。从文章中提取数据项,存储在图表电子表格中,并在表格和图形中进行汇总。

结果

我们确定了2010年至2021年间发表的44篇原创文章。我们发现所描述的解在所有轴上都是不均匀的。我们还确定了使用来源信息、特征集(捕获、存储、检索、可视化和分析)和实现细节(如所使用的数据模型和技术)的动机之间的关系。我们发现的重要差距是,只有少数出版物解决了来源数据的分析或使用既定的来源标准,例如PROV。

结论

文献中发现的来源方法、模型和实现的异质性表明对生物医学数据的来源概念缺乏统一的理解。提供一个共同框架、生物医学参考和基准数据集可以促进制定更全面的来源解决方案。

数据来源 生物医学研究 范围审查 系统化 比较
介绍 背景

重复危机暴露出许多科学研究缺乏可重复的结果,包括生物医学领域的研究[ 1].这一现象表明,只有一小部分已发表的研究成果能够被可靠地、完全地复制。然而,提高研究的可重复性的必要性不仅在复制危机出现之后才被认识到[ 1但在过去的十年中,通过可查找、可访问、可互操作和可重用原则等倡议,也已经受到越来越多的关注[ 2].研究项目及其结果的可重复性问题可能有许多不同的原因,因此可以通过许多方法加以缓解。重要的例子包括缺乏关于实验参数的文件,以及缺乏以定义良好和结构化元数据的形式对数据进行下游处理,这是解释和复制所需要的[ 3.].这两个方面都与数据来源密切相关,数据来源指的是数据的来源、处理和移动。关于数据来源的可靠和精确的知识具有很大的潜力,可以评估和改进生物医学研究的可重复性和质量,从而促进良好的科学实践[ 4 5].

尽管数据来源信息的定义在某些方面有所不同,但它通常被理解为元数据,描述影响数据集的所有事件。数据集可以被某些进程更改,从而导致状态更改。我们认为状态发生变化的数据集是一个新数据集。数据来源跟踪有关其概念的信息(例如,谁或什么创建了数据)以及可能已应用的所有转换和处理操作[ 6].这可用于识别潜在无效的处理步骤、数据质量下降或二次使用的限制[ 3. 4 6].在某些文献中,数据谱系和数据系谱等术语的含义可能略有不同(例如,系谱有时也被理解为捕获有关数据源质量或可信度的信息[ 3. 4]),但也经常与出处互换使用(例如,Simmhan等人的研究[ 6]和Baum等人[ 7]),这是我们在本文中采用的方法。

在生物医学方面,收集数据的形式和类型多种多样,目的也不同,包括保健和研究。通常,这些数据包括有关治疗、病情和患者结果的信息,这些信息通常通过测量或更抽象的观察来描述。这些观察的来源和收集它们的背景可能不同,这可能对它们的意义和可靠性产生影响。例如,观察结果可以由人手动捕获(例如,医疗保健专业人员测量患者的心率)或由设备自动捕获(例如,已经放置在患者手指上的数字脉搏血氧计),从而影响其精度。另一个例子是从临床文件中获取结构化的研究数据,这可能是一个涉及管理的手动过程,也可能是一个由机器执行的自动化过程,这会影响可靠性。考虑到前面提到的对这些数据的处理以及在此过程中可能引入的错误或不准确,对数据来源元数据的评估(例如,通过可视化或分析)可以帮助临床医生或研究人员了解信息的质量,并帮助信息学家在出现问题时找到根本原因。

图1显示了一个基于常用的来源数据模型的来源图示例,如PROV [ 8 9]及开放来源模式(OPM) [ 10],它由数据节点、处理节点和用户或实体节点(有时也称为代理节点)组成,它们由有向边连接,表示节点之间的关系(例如,负责创建各自数据的处理节点或表示负责的实体)。

在此图中,输入数据节点表示上的数据 观察 遇到例如,从电子健康记录系统。在第一个处理步骤中,观察结果是 映射到相应的遭遇在将它们加载到数据仓库之前。这属于a的职责范围 数据工程师。不能被分配到一次遭遇的观察结果被处理成 创建质量报告,这是由监管 数据管理实体,导致 数据质量评估数据节点。遇到的观察结果被加载到数据仓库中,从而产生 数据仓库观察数据节点。例如,在这种数据质量评估中指出,拥有完整和可信的数据在研究中是很重要的。这不仅适用于来自精心规划的研究的数据,也适用于来自其他情况的数据(例如,用于次要目的的卫生保健数据),因为它们可能包含需要对数据进行检查和清理的意外问题[ 11].此外,越来越多的数据是由传感器和其他设备以自动化的方式收集的,这些设备应准确地报告其来源,以全面了解数据的概念以及有关其质量和适用性的所有因素[ 12].

相对于数据处理发生的时间,可以前瞻性和回顾性地获取数据的来源[ 3. 13 14].前瞻性生成的优点是,可以将来源捕获方法直接集成到数据生成、转换和分析管道中,自动准确地收集这些过程中必要细节的完整信息。追溯地看,仍有可能获得一些来源信息,但这通常在可包括的细节方面受到限制[ 14].例如,来源元数据可以追溯地从日志文件中派生,日志文件可能不包含关于每个处理步骤的所有信息,或者包含细节不足的信息,因为日志文件通常是为了便于人们进行故障排除而可读的。

一个简单的示例来源图,其中观察结果被映射到要加载到数据仓库中的遭遇。

客观的

虽然数据来源跟踪在某些学科中是一种常见的做法,例如物理学、地球科学、地理学(特别是地理信息系统)、材料科学、水文科学和环境建模[ 15- 19],它尚未被广泛应用于许多其他数据驱动的研究学科,包括生物医学研究[ 7].因此,以前的综述要么侧重于生物医学背景之外的来源(例如,Simmhan等人的研究[ 6]和Herschel等[ 3.])或研究了更广泛的数据生成和准备活动,而来源只是一个方面(例如,de Lusignan等人的研究[ 4])。这就提出了一个问题,即迄今为止提出的方法是否存在弱点或缺乏重要功能,从而阻碍了它们在生物医学研究中的应用。为了弥补这一差距,我们认为重要的是研究文献,只关注为生物医学领域开发或使用的来源管理方法,以及它们之间的异同(参见《生物医学文献》) 相关工作节进行更详细的讨论)。

在本文中,我们提出了一个范围审查:(1)提供了详细的研究概述,描述了为生物医学研究开发或使用的数据来源技术(例如,用于成像数据,健康记录和组学数据);(2)描述和比较支持的功能(例如,创建、存储、查询、分析或可视化数据来源信息)以及方法的设计(例如,使用标准或数据存储类型);(3)使用这些信息来识别文献中的空白(例如,很少支持的功能组合),这可以为未来的技术研究提供机会,这些技术可以得到更广泛的采用。

方法 研究方法

这项系统的范围审查是按照Arksey和O 'Malley [ 20.]并使用PRISMA-ScR(系统评价和元分析扩展范围评价的首选报告项目)指南进行报告[ 21].由于本研究分析了以前研究的数据,因此没有寻求伦理批准。该综述的方案没有发表,因为《国际前瞻性系统评价登记册》不包括范围评价[ 22].此外,本综述不产生或报告生物医学研究成果,而是侧重于生物医学领域数据来源的方法和技术方面。

纳入和排除标准

在确定纳入标准之前,我们对数据来源进行了非结构化文献检索,发现文献主体中包含了许多不在本综述范围内的领域的研究。在此基础上,我们建立了一个初始版本的标准,以区分关于在生物医学研究中使用来源方法的文章与关于在其他能力或学科(如药品供应链或动物分类)中使用来源方法的文章。对标准的描述经过初步的样本筛选,以减轻作者之间解释的差异。

我们纳入了以下文章:(1)描述了在生物医学研究或相关科学学科中使用数据来源、数据谱系或数据谱系信息;(2)描述了基于软件的方法(即,专注于纯手工来源跟踪的文章不符合条件)。此外,文章需要(3)发表在同行评议期刊或会议论文集上的原创论文,(4)用英文撰写,(5)发表于2010年至2021年之间。

排除标准是类似地制定的。我们排除了以下文章:(1)不涉及数据来源,而是关注其他背景下的来源(例如,历史、地质或物流);(2)没有关注数据来源的数字技术、数据、软件、方法或模型;(3)没有将重点放在生物医学或与健康相关的研究或数据上(例如,如果生物医学领域只是作为众多示例性应用领域中的一个);(4)没有描述数据的来源,而是使用了来源数据(例如,用于跟踪供应链中的产品)。

来源和搜索策略

“出处”存在近义词,例如“谱系”或“血统”,因此必须将其包含在搜索条件中。此外,如前一节所述,我们需要歧视不属于生物医学范围或背景的文章。为此,我们纳入了关键词“生物医学”、“医学”和“健康”。

我们搜索了Web of Science、PubMed和IEEE explore数据库,因为这个主题是医学和计算机科学的交叉。检索字符串使用要求的文章标题或摘要,包含两个主题中的每个主题的至少1个关键字和反映审查范围的相应关键字:

主题“来源”由以下术语捕获(“数据来源”或“数据谱系”或“数据系谱”)

"生物医学"专题的关键词为("医学"或"生物医学"或"健康")

中提供了用于不同数据库的确切搜索字符串 多媒体附录1。最后的搜索是在2022年2月7日进行的,使用的是德国柏林Charité-Universitätsmedizin网络中的一台计算机。

选择和数据收集过程

选择过程通过两个连续的筛选步骤进行:(1)筛选所有结果论文的标题和摘要;(2)筛选第一步中选择的所有论文的全文。每篇文章由第一作者和一名共同作者进行筛选。分歧由最后一位作者解决。不包括物品的原因也有记录,并载于 多媒体附录2 要收集的数据项(请参阅下一节)是通过阅读完整的文章来确定的,连续地确定所提供信息之间的相似或不相似模式。数据提取由所有作者完成,分歧由最后一位作者解决。

数据项目及分析

我们沿着五个轴定义数据项,以对我们的研究问题(RQs)产生见解:(1)发表元数据,(2)应用范围,(3)涵盖的来源方面,(4)数据表示,(5)功能。中提供了类别、单个项和值集的概述 表1。从文章中提取数据项,存储在图表电子表格中,并在表格和图形中进行汇总。由于论文中描述的许多方法和解决方案的异构性和特定于用例的性质,将它们的属性系统化为特定的数据元素是一个相当大的挑战。在原始数据元素列表的基础上,主要描述了方法和解决方案的定性属性,在上述样本筛选期间进行了调整,以便以可比的方式捕获基本信息。

可以看出,我们收集了出版物 元数据能够研究兴趣的发展相对于时间或研究人员的位置的主题。我们进一步收集了有关情况 应用范围调查是否有特定的背景或类型的数据进行研究的来源,并获得对一般研究来源的动机的见解。信息 来源方面(“为什么”,“如何”,“在哪里”和“谁”遵循赫歇尔等人在研究中提出的术语[ 3.])被绘制成图表,以便更好地理解所收集信息的具体类型。接下来,我们对数据进行信息汇编 表示和存储使用的模型,如抽象和具体数据模型,以及中间处理结果是否物化。此外,我们绘制了用于出处元数据的最常见标准的使用图表,例如OPM [ 10]和万维网联盟(W3C)的PROV标准[ 8].最后,我们收集了有关所建议的解决方案的功能的一系列信息,包括数据生命周期中的哪些步骤[ 23以及如何准确地捕获、检索、分析和可视化种源信息。

用于全文图表的数据项。

名字 描述
发布元数据
出版年份 出版物出版的年份
作者的位置 第一作者和最后作者所在机构所在的国家
应用范围
应用领域 该贡献是否可应用于生物医学研究或直接应用于卫生保健实践
焦点 是否处理数据来源问题是出版物的主要焦点,或者来源方面是否只是间接提及或作为内在必要性的补充
动机 使用数据来源背后的动机
数据类型 管理来源信息的数据类型(选项包括结构化临床和健康数据、组学数据、成像数据、传感器或设备数据、自由文本和其他类型的数据)或贡献是否与数据类型无关(即通用数据)
来源方面
在哪里起源 该贡献解决了数据来源方面的问题
如何起源 该贡献解决了如何产生特定结果的方面(即前面的处理步骤)。
谁出处 贡献说明了谁(或哪个实体,如组织、软件或设备)对数据或数据处理负责或声称拥有所有权
为什么出处 该贡献解决了为什么产生某个结果或数据点的问题,这需要捕获所有先前的处理步骤和数据源
数据表示和存储
抽象数据模型 用于表示来源信息的抽象数据模型;例如图形、列表、引用和复合对象
具体数据模型 用于存储出处信息的具体数据模型;例如区块链、命名图、关系模型和基于文件的存储
标准数据模型 数据模型是否与常见的来源标准(如PROV或OPM)兼容一个
不变性 来源信息是否不可变
物质化 来源信息是虚拟的还是物化的,即中间处理结果是否被显式存储为完整的数据集
功能
创建和捕获 数据来源信息是如何捕获的,或者由什么类型的实体捕获的;我们区分了通过独立软件进行额外捕获,通过一些基于中间件或触发器的方法集成,固有地使用区块链,或从外部来源提取
查询和检索 如何查询或检索来源信息;选项是通过API检索b或GUIc、结构化查询、选择性查询或非结构化搜索查询
分析 如何对来源信息进行分类分析,这有助于识别具有相似特征集的贡献;这些类别是“通用的”或与用例无关的(例如,描述性统计)和“特定的”或与用例相关的(例如,推理或错误跟踪)。
可视化 识别与数据来源有关的信息的来源信息的可视化方式的可视化类型或者方法;细节包括可视化是基于图形还是流网络来检查基于其原生结构的种源可视化模式,以及是否使用特定工具进行可视化
产生时间 元数据生成时间;我们区分了前瞻性生成和回顾性生成,前者是在数据处理期间生成元数据,后者是在过去完成数据处理,并且元数据是基于以前生成的工件(如日志文件)生成的

一个OPM:开放来源模型。

bAPI:应用程序编程接口。

cGUI:图形用户界面。

结果 概述

通过数据库检索共鉴定出138篇文章(45篇,32.6%来自PubMed;40,29 %来自IEEE explore;53.38.4%来自Web of Science)。选择过程的概述见 图2

从138篇文章中,我们在第一次筛选过程中排除了42篇(30.4%)重复和36篇(26.1%)文章。在60篇符合条件的全文文章中,3篇(5%)无法检索。在剩下的57篇文章中,13篇(23%)被排除在第二次筛选过程中。最终纳入综述的文献有44篇,并在数据制图步骤中进行处理(参见 表2获取完整列表)。每篇文章的结果数据项显示在 多媒体附录2

PRISMA(系统评价和荟萃分析首选报告项目)选择过程流程图(基于Page等人的研究)[ 24])。

符合条件的项目列表(n=44)。

序列号 一年 标题 参考
1 2021 区块链上医生应用程序和助手代理的个人健康记录智能去中心化:平台设计与实现研究 25]
2 2021 医疗数据管理的区块链:机遇、挑战和未来建议 26]
3. 2021 调整基于电子健康记录的研究中由于缺失数据导致的选择偏差 27]
4 2021 物联网中的风险与合规性——健康数据传播:基于安全意识的来源方法 28]
5 2021 使用智能合约的区块链远程医疗服务 29]
6 2021 网格有效的数据和任务管理在VA百万退伍军人计划 30.]
7 2020 利用委托身份管理在云上实现患者数据可移植性的实用通用联盟区块链范式 31]
8 2020 基于区块链的临床研究同意管理 32]
9 2020 医疗保健数据的分散来源 33]
10 2020 通过元数据框架增强临床研究数据的可追溯性 34]
11 2020 安全和来源增强的健康物联网框架:区块链管理的联邦学习方法 35]
12 2019 here:用于生物医学实体扩展、排名和探索的Web服务器 36]
13 2019 FHIR的临床文本挖掘 37]
14 2019 使用区块链的电子卫生系统增强安全框架 38]
15 2019 neuroproof:用于神经成像分析的来源数据可视化 39]
16 2019 医学图像计算中的多形态分割表示 40]
17 2019 生物医学本体的RDF和Git来源 41]
18 2019 基于智能合约的个人健康数据来源及权利确认研究 42]
19 2019 临床研究的通用数据模型 43]
20. 2018 数据来源在医疗分析软件中的应用:用户活动的信息可视化 44]
21 2018 应用区块链技术进行卫生信息交换和临床试验的持续监测 45]
22 2018 通过OpenMSl对质谱成像数据进行可共享和可重复的分析和可视化 46]
23 2018 FHIR医疗保健目录:采用共享接口实现可互操作的医疗设备数据集成 47]
24 2018 ProvCaRe语义来源知识库:评估科学研究的可重复性 48]
25 2018 使用漫画可视化个人数据的来源 49]
26 2017 一种电子健康数据质量评估方法:启用数据来源 5]
27 2017 MediSyn:支持药物治疗选择的多种生物医学数据集的不确定性感知可视化 50]
28 2017 MeDShare:通过区块链在云服务提供商之间共享无信任的医疗数据 51]
29 2017 模板作为决策支持系统中实现数据来源的方法 52]
30. 2016 医疗保健环境中具有来源的访问控制管理 53]
31 2016 解决大数据全基因组关联研究(GWAS)中的来源问题 54]
32 2016 牛油果:可重复生物医学研究的工作流派生数据来源的可视化 55]
33 2016 食品安全生物信息学MCAW计算服务的设计 56]
34 2016 TCGA远征:TCGA数据采集与管理系统 57]
35 2015 利用下一代测序用于常规微生物学和公共卫生的平台 58]
36 2015 基于路径来源数据的循证医学应用建模 59]
37 2014 探索HPC云分子对接流程中的大规模受体-配体对 60]
38 2014 使用无线链路指纹保护穿戴式设备的第一跳数据来源 61]
39 2013 普适医疗监控系统中事故来源的模糊推理 62]
40 2013 移动医疗的来源框架 63]
41 2013 对现有资源的原始和衍生神经成像数据的结构化共享 64]
42 2012 利用语义注释改进系统化学生物学数据的集成检索 65]
43 2012 XCEDE:生物医学数据的可扩展模式 66]
44 2011 网格基础设施上科学实验溯源方法研究 67]
发布元数据 随时间的分布

文章发表年份从2011年到2021年不等。约三分之二(29/ 44,66%)的文章发表于2017年至2021年,三分之一(15/ 44,34%)的文章发表于此时间框架之前,即2011年至2016年,呈现增加趋势( 图3).

每年的出版物数量。

地理分布

大多数第一作者和高级作者工作在美国(34/ 90,38%),其次是中国(8/ 90,9%)、德国(8/ 90,9%)、英国(6/ 90,7%)、澳大利亚(6/ 90,7%)、加拿大(4/ 90,4%)和阿拉伯联合酋长国(4/ 90,4%)。我们注意到,出现次数少于4次的国家被归为“其他”(20/90,22%),一些作者隶属于多个组织。结果与SCImago国家排名的前几名大致相当[ 68](“一般”和“医学”两类),因此大致对应于各自国家的基本出版物产出。

应用范围 应用领域

分析的大多数论文(34/44,77%)只关注研究数据处理中的出处,而一些(8/44,18%)关注出处在研究和医疗保健中的应用,只有5%(2/44)通过提出监测系统的反向推理算法,专门关注出处在医疗保健实践中的应用[qh] 62或使远程医疗服务透明、不可变和可信[ 29].

焦点

在大约一半的出版物(23/44,52%)中,数据来源是主要的研究主题,而另一半(21/44,48%)则间接地或作为更广泛的方法或解决方案所描述的固有属性来处理数据来源。

动机

对来源数据需求背后的动机被分类为“有效性”、“可再现性”、“监管需求”、“可重用性”和“透明度”,并且每个出版物被分配到与所描述的动机相匹配的类别中。

解决来源最常见的原因是有效性(22/44,50%),其次是可重复性(15/44,34%)和遵守法规要求的需要(15/44,34%),可重用性(11/44,25%),然后是透明度(8/44,18%)。一些论文没有详细说明为什么要考虑出处(3/ 44,7 %)。在 数据表示和存储第一部分,我们考察了所使用的技术和所描述的动机之间的关系。

处理的数据类型

最常提到的(可能多次提到)支持的数据类型是 结构化的临床和健康数据,例如来自eHealth记录的数据(17/44,39%),其次是 组学(8/44, 18%), 图像数据(7/44, 16%), 传感器和设备数据(5/44, 11%), 引用来源(4/ 44,9 %) 自由文本(2/44, 5%)。共有9%(4/44)的论文聚焦于 其他数据类型,包括元数据或本体、临床路径、远程医疗会话数据和管理数据。最后,5%(2/44)的论文表示所提出的方法是 通用的并且适用于广泛的数据类型。

所关注的数据类型的共现和所提出的动机在 图4

值得注意的是,研究组学和成像数据来源的论文往往是出于可重复性方面的考虑。这是有道理的,因为这两种类型的数据本质上都相当庞大和复杂,而处理操作,例如生物信息学管道或基于人工智能的图像分析,有时很难复制[ 69 70[参考… 主要研究结果节进行进一步讨论)。

针对特定数据类型并提及特定动机的论文百分比。

来源方面

关于所描述的方法或解决方案所支持的来源方面,我们确定了以下部分提供的覆盖范围。

所有论文(44/44,100%)均支持 在哪里出处,即关于数据来源的信息。这并不奇怪,因为它可以被视为来源管理背后的中心点。此外,大约有一半的论文支持 如何出处(25/ 44,57 %),即关于如何产生某一结果的信息(即前面的处理步骤);来源(26/ 44,59%),即谁(或什么)对数据或数据处理负责或声称拥有所有权的信息;和 为什么出处(20/ 44,45 %),即关于为什么产生某个结果或数据点的信息。

数据表示和存储 抽象数据模型

确定了以下用于表示来源信息的抽象数据模型:是最常见的(18/44,41%),其次是 列表(12/44, 27%), 参考文献(例如,id或哈希值;3/ 44,7 %),组合 图表和字典(1/ 44,2 %),和 复合对象(1/44, 2%)。总共有7%(3/44)的出版物没有具体说明所使用的确切抽象数据模型。

具体数据模型

所描述的抽象数据模型是使用以下具体数据模型和相关存储解决方案实现的: 区块链(11/ 44,23%) 资源描述框架(8/ 44,18 %)存储在triplestore中用于图表示,和 关系模型(5/44, 11%)或 XML(2/ 44,5 %)。三种解决方案(3/ 44,7 %)使用其他文件格式,如二进制或层次数据格式,版本5 (HDF5) [ 71].许多论文(7/44,16%)没有提供所使用的具体数据模型的具体信息。

当交叉引用动机类别与贡献是基于区块链还是使用其他技术时( 图5),有一张清晰的图片显示,描述基于区块链的解决方案的论文并没有提到可重复性或可重用性。考虑到区块链的不可变、透明和不可否认的性质,它特别适合于关注有效性或满足监管要求的应用程序,这似乎反映在实施这项技术的动机上(参见 主要研究结果节进行进一步讨论)。

动机组的频率表,以及解决方案是否基于区块链。

出处标准的使用

共有23%(10/ 44,23%)的论文声称与PROV数据模型兼容,而7%(3/ 44,7%)的论文声称与OPM兼容。大多数出版物(31/ 44,70 %)没有说明与任何一个标准的兼容性。在所有表示与任何一种标准兼容的论文中,2018年以来发表的所有论文(7/ 44,16 %)都倾向于使用PROV模型。没有论文提到与两个标准的兼容性。

不变性

一旦创建或捕获就不能更改的数据被认为是不可变的。27%(12/44, 27%)的出版物中提出的方法和解决方案提供了不变性或不可否认性,其中92%(11/12,92%)基于区块链技术,其本质上是不可变的。一篇论文提出了基于加密方法的不可否认的来源[ 61].

物质化

我们进一步分析了所描述的方法或解决方案是否将中间结果存储为完整数据集,即: 实现这样的数据,或者只存储导致这些结果的元数据,从而虚拟地表示中间步骤。大多数方法和溶液没有实现中间结果(31/ 44,70%),20%(9/ 44,20%)实现了中间结果。有趣的是,这些论文描述了专注于组学(5/44,11%)和成像数据(4/44,9%)的解决方案,这是有意义的,因为处理和数据生成对于这些复杂类型的数据特别昂贵(另见) 主要研究结果部分)。

功能 概述

数据来源方法、模型和实现支持的技术活动是数据来源信息的创建或捕获、存储、检索或查询、分析和可视化,这是数据生命周期中的常见活动。当查看所分析的方法和解决方案为这些活动提供的支持时,对数据生命周期后期执行的任务的支持明显减少,如所示 图6(另见 主要研究结果部分)。

一些出版物(39/ 44,89%)描述了支持数据生命周期中多个活动的方法。支持单个步骤的频率按升序排列: 创建(39/44, 89%;例如,所有包含支持生命周期这一特定步骤的信息的出版物), 商店(34/44, 77%), 查询(24/44, 55%), 可视化(9/ 44,20 %)和 分析(9/44, 20%)。在前一节中已经分析了数据存储。因此,在本节中,我们将更详细地描述对起源数据生命周期中剩余活动的支持。

数据生命周期的步骤支持的方法和解决方案进行了分析。

创建或捕获

在描述支持创建或获取来源信息的方法或解决方案的论文中(39/ 44,89%),大多数论文(16/ 39,41%)通过更改用于数据生成或处理的较大程序、框架或脚本来获取来源信息和元数据 另外捕捉所需的数据。捕获来源信息的第二种最常见的方法是基于区块链的解决方案所独有的 固有的捕获使用智能合约的来源信息(10/39,26%)。一些论文,包括1篇使用基于区块链的解决方案,描述了 集成的捕获解决方案,如中间件或基于触发器的方法,对应用程序或持久层是透明的(8/ 39,21 %),而其他方法则描述基于来源信息的方法 外部资源例如研究数据库(6/ 39,15 %)。

查询或检索

在描述支持查询或检索出处信息的方法或解决方案的论文中(24/44,55%),25%(11/44)的论文依赖于结构化查询,使用SQL、SPARQL、GraphQL或类似的查询语言。总共有42%(10/24)的解决方案提供了图形用户界面或应用程序编程界面来检索来源元数据。总的来说,4%(1/24)的文章描述了使用非结构化查询(即搜索字符串)进行检索,另外(1/ 24,4%)的文章描述了使用使用唯一标识符的选择性查询的方法。共有13%(3/24)的论文没有明确检索方法。

分析

对数据来源解决方案分析的支持可以有多种形式。在这项研究中,如果分析涉及到普遍适用的方法,如提供描述性统计和度量以及简单的比较,则分析被归类为“通用”。在描述支持分析种源信息的方法或解决方案的论文中(9/44,20%),44%(4/9)的论文属于这一类。当分析被裁剪为特定于来源的用例时,例如推理、验证任务和错误跟踪,分析被认为是“特定的”。共有44%(4/9)的论文属于这一类:22%(2/9)的论文描述了验证数据来自可信赖设备的方法[ 28 61], 11%(1/9)的论文描述了逆向推理,以识别来自监测系统的数据中有关来源的问题[ 62], 11%(1/9)的论文描述了临床研究数据可追溯性缺口的验证和识别[ 34].此外,11%(1/9)的附加文章描述了分析来源元数据的一系列方法,包括 通用的 具体的方法( 39].

可视化

一般分析的结果通常使用常见的可视化类型进行可视化,例如条形图和折线图。在描述支持种源信息可视化的方法或解决方案的论文中(9/ 44,20 %),大多数论文(7/ 9,78 %)是基于某种基于图或流网络的可视化。总共22%(2/9)的出版物没有使用这样的基础,而是描述了在条形图和箱形图中显示消化信息的方法或解决方案。

可视化技术或方法包括多种可视化和度量的仪表板风格组合、Sankey图、图节点的聚合、力导向图、表和非正式的流程的漫画风格可视化。实现通常基于常见的可视化库或程序,如D3.js、Gephi、yEd、sigma.js、Dagre、GraphViz或Google Datalab。

产生时间

在捕获或创建来源信息的解决方案和方法中(39/ 44,89%),大多数(31/ 39,79%)的解决方案和方法与数据处理时的预期接近。少数人(6/ 39,15 %)在处理结束后,基于创建的工件,如日志文件,回顾性地捕获了来源信息。总共有5%(2/39)的文章描述了追溯性和前瞻性捕获来源信息的选项,其中一种解决方案允许为先前完成的过程重建来源元数据[ 46],另一个从日志文件中捕获来源信息,同时还通过工作流管理系统的插件功能提供前瞻性捕获[ 67].

讨论 大纲

在本研究中,我们概述了为生物医学领域开发或使用的数据来源方法和技术的研究。识别文献中描述的方法和解决方案是异构的。因此,所支持的功能和方法的设计被描述为导航异构景观的系统化,并支持基于几个特征的功能和设计的比较。此外,我们在系统化的基础上发现了文献中的空白,包括缺乏对某些功能的覆盖,例如对来源元数据的分析。主要发现、相关工作和局限性将在以下章节中介绍。

主要研究结果

尽管在生物医学研究中使用数据溯源技术具有潜在的优势,如《 介绍章节(例如,改进的再现性和数据质量),以及对文献的兴趣日益增加,如出版物元数据的结果所示,这些技术仍未在该领域广泛采用。这个范围审查的结果揭示了方法、模型和实现的异质图景,它们具有非常不同的目标,因此也有非常不同的特性集。

关于起源方面(在哪里、如何、为什么和谁),本综述中分析的每个解决方案都捕获了的方面 在哪里数据来源于。出处是出处的核心属性,可以被认为是文献中最相关的方面。其他方面需要在来源元数据中包含更多的细节,但可能不是所有用例都需要,因此,大约一半的研究论文不支持这些细节,可能是为了减少复杂性。然而,在生物医学研究中,如何以及为什么改变数据集的问题的答案对于确保数据的可靠性和可审计性尤为重要。

在查看所使用的逻辑和具体数据模型时,图和图数据库是最普遍的,这是合理的,因为它们是来源信息的自然表示。也经常使用广泛的通用数据模型,如关系模型或XML,因为它们足够通用,可以支持来自各种实现的来源元数据。尽管已经采用了一些方法,或者至少与最常见的来源标准(PROV和OPM)兼容,但许多论文没有解决与标准的兼容性问题,这阻碍了来源元数据的互操作性。

PROV模式近年来越来越受欢迎。OPM是“第一个社区驱动的来源模型”,它比OPM稍微更新,也更全面。[ 72].PROV更为成熟,由几个描述概念、符号、本体和互操作性选项的文档组成,例如,与现有的元数据标准,如都柏林核心[ 8 9].此外,PROV允许对实体或代理的关系进行更详细的建模[ 73].对PROV模型的一贯支持可以促进解决方案的兼容性并扩大应用领域。例如,一个解决方案收集的来源元数据可以使用完全不同的解决方案进行分析,只要两个解决方案都是PROV兼容的。

处理或生成大型和复杂的数据,如组学或图像,是昂贵的[ 74],而且在许多情况下,如果需要的话,重复整个过程可能是不可行的。存储一个完整的间歇结果数据集有助于节省时间和资源,如果处理过程发生变化和被复制,或者应该探索其他处理路径。因此,为此目的,中间处理步骤的具体化通常在管道中实现。此外,各篇文章中处理这类数据的方法通常是由可再现性方面驱动的,这可能归因于处理的复杂性和数据的绝对数量,这增加了再现结果和处理本身的难度。

最近,区块链已经成为一种支持数据来源某些方面的技术。区块链本质上通过促进共识算法和加密方法来维护单个块列表,从而提供来源和不可变性,其中所有相关方都同意任何给定块的前身和后继。这些块通常包含事务信息,从而启用包含或引用数据的来源。不幸的是,我们在本综述中确定和分析的基于区块链的解决方案通常没有超出其固有属性,并且在这个阶段,几乎没有覆盖其他方面,例如生物医学研究中非常需要的可重复性和可重用性。然而,由于它们支持明确定义和不可变的沿袭,它们可以很好地满足法规要求(例如,提供审计跟踪)。

数据来源信息的创建或捕获在逻辑上是使用它的第一步。因此,在所分析的所有方法或解决方案中,创建和捕获是来源数据生命周期中最常支持的活动,这并不奇怪。出处数据分析和可视化较少得到处理,这可能是数据出处在生物医学研究中仍未得到充分利用这一事实的直接结果,因此开发或研究出处信息"使用"的方法更为罕见。我们认为,领域特定分析和可视化方法的发展可能是实际展示来源跟踪的附加价值并帮助增加其采用的重要一步。此外,我们没有发现任何参考数据集的迹象,可用于开发和评估来源数据的分析或可视化方法。

最后,我们发现分析的大多数解决方案或方法依赖于额外捕获来源数据的方法,而只有少数方法依赖于对用户或处理环境透明的集成捕获方法。这意味着在捕获来源数据信息方面需要付出相当多的努力,这可能指向一个有前途的研究领域,即如何透明地捕获来源信息,而不会给数据处理框架的用户或开发人员带来额外的工作。

相关工作

一些相关的论文对数据来源进行了研究和系统化的研究,尽管通常侧重于一般概念或应用,而不是生物医学。2005年,Simmhan等[ 6]介绍了溯源技术的属性分类,它显示了与本综述定义的数据项的一些相似之处,例如溯源的具体使用(参见 动机)、种源传播方法(参见 检索或查询),以及所使用的来源表示(参见 数据模型).此外,作者还关注了更多的技术属性,例如所使用的来源元数据的粒度和细节级别,以及其管理的可伸缩性或存储开销。

Herschel等人最近(2017年)的一项调查[ 3.]指出,由于不同的应用和技术要求,可以以不同的方式解释来源的定义,并概述了研究领域。虽然调查并不局限于生物医学领域,但在我们的结果中也可以看到使用来源的动机(即应用和技术要求)的广谱性和异质性。这包括来源的应用程序、内存占用和互操作性、查询表达性、应用程序集成以及现有结果的数据来源(参见 动机 数据模型、功能和来源方面)。作者确定的一个核心挑战是需要对来源数据的分析和可视化进行更多的研究:“虽然查询来源数据已经与来源数据模型一起研究,但在以用户友好的方式适当地可视化,探索和分析来源数据方面只存在很少的工作”[ 3.].考虑到我们的结果,在生物医学背景下的来源也是如此(参见 功能).

de Lusignan等[ 4回顾了使用常规临床数据的研究,以确定数据准备的关键概念,其中还包括数据质量和来源。他们的结论之一是,在卫生保健和卫生保健信息学的背景下,元数据的描述应该形式化,以有利于"基于常规收集数据的研究结果的有效性"。作者进一步介绍了主要和次要数据来源之间的区别:主要来源是指数据的来源(即,在此之前不知道应用的处理),而次要数据来源是指在检索原始数据后进行的处理[ 4].在我们的工作中,这些被称为 在哪里起源 如何, 为什么分别出处。

Goble [ 75]提供了非正式但全面的讨论和来源概述。这篇论文涵盖了“7w’s (Who, What, Where, Why, When, Which, (W)how)”来源的各个方面,这些方面仍然未被指定,以及促进来源的一般用例或动机。此外,它还分阶段讨论了来源元数据是否本质上不可变的问题,我们在本综述中从技术角度对此进行了研究(参见 不变性).本文还讨论了来源数据模型,以及来源元数据应该如何伴随它们所描述的数据沿着处理路径进行处理 来源方面和数据 表示和存储在这篇综述中。

去年,Gierend等人[ 76]发表了一份关于生物医学数据来源范围审查的协议。实际的评论尚未发表。根据所述的RQ和列出的数据项,综述将重点关注用例和方面,如来源信息的价值和可用性(RQ 2),遇到的挑战和问题(RQ 3),生物医学领域的来源指南和要求(RQ 4),以及有关来源信息完整性的问题(RQ 5)。相比之下,我们的综述更侧重于系统化和比较生物医学中来源数据管理的技术方面。这与Gierend等人提出的第一个RQ部分重叠[ 76],这是为了确定分类和追踪来源标准的方法。然而,很有可能我们的分析提供了更多的深度,因为我们特别关注方法和技术角度,例如,在我们的搜索中包括IEEE Xplore数据库也反映了这一点。

限制

由于选择的搜索策略,发现和纳入的文章的异质性,以及其中描述的方法和解决方案,本研究有一定的局限性。最重要的是,搜索策略被设计为专门捕捉生物医学研究中的来源主题,并且所使用的术语没有明确包括特定的研究领域,如心理学或其他行为科学。然而,我们认为我们的文献选择策略可能只错过了相关的文章,这些文章的摘要没有涉及更广泛的背景,这意味着在我们的搜索过程中提到了一个关键词。此外,我们认为不太可能存在具有这些特征的大量文献。大约46%(44/96)的唯一参考文献被纳入本综述,这一事实可以视为来源跟踪尚未成为生物医学研究平台的共同特征。如果是这样的话,可以预期,更大比例的文献会将出处作为旁注提到,由于缺乏对出处技术的关注而导致其被排除在外。相比之下,许多在标题或摘要中提到出处的文章都特别关注这个主题。

所选文章中描述的方法和解决方案被系统化,重要属性被定性识别,它们的发生被评估和报告,个别例子被包括在特殊情况下,看起来相当独特。所报告的统计数据存在不确定性。它们应该被理解为指示,而不是绝对确定地描述整个领域。

结论

尽管人们对文献越来越感兴趣,但在生物医学领域,关于数据来源技术的发展几乎没有取得进展,这有助于减轻可重复性问题。一个重要的原因可能是缺乏通用和透明的解决方案来轻松捕获或创建来源数据,从而导致潜在的大量来源跟踪工作。我们发现的另一个差距是缺乏分析和可视化来源数据的具体方法,这可能会使充分利用所提供的附加价值变得困难。我们还观察到在生物医学应用的来源跟踪方法的动机、范围和功能上存在相当大的异质性,指出潜在的缺乏对潜在概念的统一理解和对特定用例的狭隘关注。提供通用数据集和应用程序场景,以及基准测试机制,可以帮助在未来克服这一挑战。

我们的工作特别集中在生物医学领域的论文上,以调查这一特定应用领域的最新技术。在未来的工作中,可能值得研究通用方法、模型和实现,并调查它们对生物医学用例的适用性。

用于数据库搜索的查询。

选择过程和收集的数据。

缩写 HDF5

分层数据格式,版本5

OPM

开放来源模型

PRISMA-ScR

系统评价和荟萃分析的首选报告项目扩展范围评价

中移动

研究问题

W3C

万维网联盟

FB, FP和MJ对研究的概念化和启动做出了贡献。ACH、AM、FP、FNW、MJ和TM有助于资格筛选。ACH、AM、FP、FNW、MH、MJ和TM参与数据收集和制图。FB, FP和MJ参与了数据分析。FB, FP和MJ对手稿的起草做出了贡献。所有的作者都阅读并批准了最终的手稿。

没有宣布。

Curcin V 将数据来源嵌入学习卫生系统,以促进可重复的研究 学习健康系统 2017 04 27 1 2 e10019 10.1002 / lrh2.10019 31245557 LRH210019 PMC6516719 威尔金森 医学博士 Dumontier Aalbersberg IJ 阿普尔顿 G Axton Baak 一个 显得过于 N Boiten J 达席尔瓦·桑托斯 伯恩 体育 Bouwman J 布鲁克斯 AJ 克拉克 T Crosas Dillo Dumon O 埃德蒙兹 年代 Evelo CT Finkers R Gonzalez-Beltran 一个 灰色的 AJ Groth P Goble C Grethe JS Heringa J ' t Hoen 巴勒斯坦权力机构 Hooft R 库恩 T R J 酒鬼 SJ Martone 蒙斯 一个 封隔器 艾尔 皮尔森 B Rocca-Serra P 鲁斯 van Schaik R 桑松 年代 舒尔特 E Sengstag T 斯莱特 T - G Swertz 汤普森 范德雷 J 范Mulligen E Velterop J Waagmeester 一个 Wittenburg P Wolstencroft K J 蒙斯 B 科学数据管理和管理的公平指导原则 科学数据 2016 03 15 3. 1 160018 10.1038 / sdata.2016.18 26978244 sdata201618 PMC4792175 赫歇尔 Diestelkamper R 本Lahmar H 关于产地的调查:为什么?什么形式?从什么? VLDB J 2017 10 16 26 6 881 906 10.1007 / s00778 - 017 - 0486 - 1 de Lusignan 年代 Liaw 年代 克劳斯 P Curcin V 韦森特 Michalakidis G Agreus l 莱森 P N Mendis K 评估国际研究数据准备情况的关键概念:数据质量、血统和来源、提取和处理错误、可追溯性和管理。IMIA初级卫生保健信息学工作组的贡献 医学年鉴 2011 6 112 20. 21938335 me11010112 太阳 Y T N 电子健康数据质量评估方法:启用数据来源 2017 IEEE第21届计算机支持协同设计国际会议论文集(CSCWD) 2017 2017 IEEE第21届计算机支持设计协同工作国际会议(CSCWD) 2017年4月26日至28日 惠灵顿,新西兰 10.1109 / cscwd.2017.8066700 Simmhan YL型 Plale B 甘农 D 电子科学中的数据来源调查 SIGMOD矩形 2005 09 34 3. 31 6 10.1145/1084805.1084812 鲍姆 B 鲍尔 C 因特网 T 库施 H Parciak Rottmann T Umbach N Sax U 意见文件:生物医学研究中的数据来源挑战 It Inform technology 2017 59 4 10.1515 /它- 2016 - 0031 密斯耶 P Belhajjame K 切尼 J 用于对来源元数据建模的W3C PROV系列规范 第十六届扩展数据库技术国际会议论文集 2013 第16届数据库扩展技术国际会议论文集 2013年3月18日至22日 意大利的热那亚 10.1145/2452376.2452478 PROV-Overview - PROV文档家族的概述 W3C工作组 2022-07-22 https://www.w3.org/TR/prov-overview/ 男人 l 克利福德 B Freire J Futrelle J 吉尔 Y Groth P Kwasnikowska N 英里 年代 密斯耶 P 迈尔斯 J Plale B Simmhan Y 斯蒂芬 E 窝Bussche 合资企业 开放来源模型核心规范(v1.1) 下一代计算机系统 2011 6 27 6 743 56 10.1016 / j.future.2010.07.005 Maletzky 一个 一杯啤酒 C Tschoellitsch T 罗兰 T 路德维希 H Thumfart 年代 Giretzlehner Hochreiter 年代 迈耶 J 提升医院电子病历数据宝藏:挑战与机遇 JMIR Med Inform 2022 10 21 10 10 e38557 10.2196/38557 36269654 v10i10e38557 PMC9636533 年代 C 卡恩 毫克 Natarajan K 识别个人生成的可穿戴设备数据的数据质量维度:多方法研究 移动医疗Uhealth 2021 12 23 9 12 e31618 10.2196/31618 34941540 v9i12e31618 PMC8738984 Lim C 年代 Chebotko 一个 Fotouhi F 在科学的工作流程环境中进行前瞻性和回顾性的来源收集 2010年IEEE服务计算国际会议论文集 2010 2010 IEEE服务计算国际会议 2010年7月05-10日 迈阿密,佛罗里达州,美国 10.1109 / scc.2010.18 戴维森 年代 Freire J 来源和科学工作流程:挑战和机遇 2008年ACM SIGMOD数据管理国际会议论文集 2008 2008年ACM SIGMOD数据管理国际会议论文集 2008年6月9日至12日 加拿大温哥华 10.1145/1376616.1376772 Dolgert 一个 吉本斯 l 琼斯 CD “库兹涅佐夫” V Riedewald 莱利 D 锋利的 GJ Wittich P 高能物理工作流程中的溯源 计算机科学与工程 2008 05 10 3. 22 9 10.1109 / mcse.2008.81 l P Ramapriyan 香港 RL 地球科学数据来源综述 IEEE Trans Geosci遥感 2013 11 51 11 5065 72 10.1109 / tgrs.2013.2242478 Pizzi G 多哥 一个 Kozinsky B 材料科学中的来源、工作流程和晶体学工具:AiiDA、spglib和seekpath 牛夫人 2018 09 10 43 9 696 702 10.1557 / mrs.2018.203 Y 泰勒 K Hapuarachchi P 彼得斯 C 水文科学中的物源模拟:以水流预报为例 J Hydroinformatics 2012 10 14 4 944 59 10.2166 / hydro.2012.134 Spiekermann R 快乐的 B 赫齐格 一个 伯利 T Medyckyj-Scott D 实现细粒度的自动化数据来源,以支持透明的环境建模 环境模型软件 2019 08 118 134 45 10.1016 / j.envsoft.2019.04.009 Arksey H 奥马利 l 范围界定研究:朝向方法论框架 国际社会研究方法 2005 02 8 1 19 32 10.1080 / 1364557032000119616 Tricco 交流 莉莉· E Zarin W O ' brien Colquhoun H Levac D 莫赫 D 彼得斯 医学博士 霍斯利 T l 亨佩尔 年代 阿克勒说道 EA C 麦高文 J 斯图尔特 l 哈特尔 l Aldcroft 一个 威尔逊 毫克 Garritty C 列文 年代 戈弗雷 厘米 麦克唐纳 Langlois 电动汽车 Soares-Weiser K 莫里亚蒂 J 克利福德 T Tuncalp 施特劳斯 SE PRISMA范围审查扩展(PRISMA- scr):清单和解释 Ann实习医生 2018 10 02 169 7 467 73 10.7326 / m18 - 0850 展位 一个 克拉克 杜利 G Ghersi D 莫赫 D Petticrew 斯图尔特 l 一年的普洛斯彼罗:对其效用的评估 系统加速 2013 01 15 2 1 4 10.1186 / 2046-4053-2-4 23320413 2046-4053-2-4 PMC3563608 JM 数据生命周期 哈佛数据科学版 2019 06 23 10.1162 / 99608 f92.e26845b4 页面 乔丹 麦肯齐 Bossuyt Boutron 霍夫曼 TC Mulrow CD Shamseer l Tetzlaff JM 阿克勒说道 EA 布伦南 SE R 一个被 J Grimshaw JM Hrobjartsson 一个 涵碧楼 毫米 T 洛德 电子战 Mayo-Wilson E 麦当劳 年代 麦吉尼斯 斯图尔特 托马斯。 J Tricco 交流 韦尔奇 弗吉尼亚州 怀廷 P 莫赫 D PRISMA 2020声明:更新的系统审查报告指南 BMJ 2021 03 29 372 n71 10.1136 / bmj.n71 33782057 PMC8005924 H HH Ku H KD 年代 公园 沪江 K KH JH 区块链上医生应用和助手代理的个人健康记录智能去中心化:平台设计与实现研究 JMIR Med Inform 2021 06 07 9 6 e26230 10.2196/26230 34096877 v9i6e26230 PMC8218219 Yaqoob 沙拉 K Jayaraman R Al-Hammadi Y 医疗数据管理的区块链:机遇、挑战和未来建议 神经计算机公司 2021 01 07 34 14 11475 90 10.1007 / s00521 - 020 - 05519 - w Peskoe 某人 Arterburn D 科尔曼 KJ Herrinton LJ 丹尼尔斯 乔丹 Haneuse 年代 调整基于电子健康记录的研究中由于缺少数据而导致的选择偏差 统计方法 2021 10 30. 10 2221 38 10.1177 / 09622802211027601 34445911 Jaigirdar F 鲁道夫 C 贝恩 C 物联网中的风险和合规性——健康数据传播:基于安全意识的来源方法 2021 IEEE国际数字健康会议论文集(ICDH) 2021 2021 IEEE数字健康国际会议(ICDH) 2021年9月05-10日 芝加哥,伊利诺伊州,美国 10.1109 / icdh52753.2021.00015 哈桑 人力资源 沙拉 K Jayaraman R Yaqoob 奥马尔 Ellahham 年代 使用智能合约的区块链远程医疗服务 IEEE访问 2021 9 151944 59 10.1109 / access.2021.3126025 罗斯 PB 首歌 J PS C 网格用于VA百万退伍军人计划中的有效数据和任务管理 Sci代表 2021 12 01 11 1 23229 10.1038 / s41598 - 021 - 02569 - 5 34853358 10.1038 / s41598 - 021 - 02569 - 5 PMC8636485 萨比尔 一个 Fetais N 一个实用的通用联盟区块链范例,利用委托身份管理在云上实现患者数据可移植性 2020 IEEE信息学、物联网与使能技术国际会议论文集(ICIoT) 2020 2020 IEEE信息学、物联网与使能技术国际会议 2020年2月2日- 5日 卡塔尔多哈 10.1109 / iciot48696.2020.9089583 荣格 HH 斯特 调频 支持区块链的临床研究同意管理 科技创新管理Rev 2020 02 29 10 2 14 24 10.22215 / timreview / 1325 Margheri 一个 马西 夫人 一个 Sassone V 罗森茨维格 J 医疗保健数据的分散来源 国际医学通报 2020 09 141 104197 10.1016 / j.ijmedinf.2020.104197 32540775 s1386 - 5056 (19) 31203 - 1 休谟 年代 Sarnikar 年代 Noteboom C 通过元数据框架增强临床研究数据的可追溯性 方法: 2020 05 07 59 2-03 75 85 10.1055 / s - 0040 - 1714393 32894879 拉赫曼 侯赛因 女士 伊斯兰教 女士 Alrajeh NA 默罕默德 G 安全和来源增强的健康物联网框架:区块链管理的联邦学习方法 IEEE访问 2020 8 205071 87 10.1109 / access.2020.3037474 Z 开松机 C Hjelmeland 一个 J BEERE:用于生物医学实体扩展、排名和探索的web服务器 核酸类 2019 07 02 47 W1 W578 86 10.1093 / nar / gkz428 31114876 5494748 PMC6602520 Daumke P Heitmann KU Heckmann 年代 Martinez-Costa C 舒尔茨 年代 FHIR的临床文本挖掘 Stud健康技术信息 2019 08 21 264 83 7 10.3233 / SHTI190188 31437890 SHTI190188 Kubendiran 辛格 年代 Sangaiah 一个 加强使用区块链的电子卫生系统的安全框架 J通知处理系统 2019 4 15 2 239 50 10.3745 / JIPS.04.0106 艾尔沙德 B 姆尼尔 K McClatchey R Shamdasani J Z neuroproof:用于神经成像分析的来源数据可视化 J计算机语言 2019 06 52 72 87 10.1016 / j.cola.2019.04.004 品特 C 套索 一个 Fichtinger G 医学图像计算中的多态分割表示 计算方法程序 2019 04 171 19 26 10.1016 / j.cmpb.2019.02.011 30902247 s0169 - 2607 (18) 31303 - 8 Stohr 先生 冈瑟 一个 马吉德 RW 生物医学本体的RDF和Git来源 Stud健康技术信息 2019 09 03 267 230 7 10.3233 / SHTI190832 31483277 SHTI190832 J 年代 J 基于智能合约的个人健康数据来源及权利确认研究 2019 IEEE第四届先进信息技术、电子与自动化控制会议论文集(IAEAC) 2019 2019 IEEE第四届先进信息技术、电子与自动化控制会议(IAEAC) 2019年12月20日至22日 成都,中国 10.1109 / iaeac47372.2019.8997930 Danese 医学博士 霍尔柏林 杜伊 J 杜伊 R 临床研究的通用数据模型 BMC Med Inform Decis mark 2019 06 24 19 1 117 10.1186 / s12911 - 019 - 0837 - 5 31234921 10.1186 / s12911 - 019 - 0837 - 5 PMC6591926 年代 罗杰斯 T 费尔韦瑟 E 格伦 一个 J Curcin V 数据来源在医疗分析软件中的应用:用户活动的信息可视化 中国科学院国际学术会议 2018 2017 263 72 29888084 PMC5961786 壮族 Y l Shae Z JJ Shyu C 应用区块链技术进行卫生信息交换和临床试验的持续监测 AMIA年度会议进程 2018 2018 1167 75 30815159 PMC6371378 鲁贝尔 O 博文 英国石油公司 通过OpenMSI对质谱成像数据进行可共享和可重复的分析和可视化 IEEE视觉计算机图形 2018 1 24 1 1025 35 10.1109 / tvcg.2017.2744479 廷德尔 T 廷德尔 一个 FHIR医疗保健目录:采用共享接口实现可互操作的医疗设备数据集成 Stud健康技术信息 2018 249 181 4 29866978 瓦尔迪兹 J Rueschman 苏格拉底 V 取消 年代 Sahoo 党卫军 ProvCaRe语义来源知识库:评估科学研究的可重复性 AMIA年度会议进程 2017 2017 1705 14 29854241 PMC5977728 以下两 一个 Struminksi R 使用漫画可视化个人数据的来源 电脑 2018 02 01 7 1 12 10.3390 / computers7010012 C 失物 l 5 Z Kaski 年代 Aittokallio T Jacucci G MediSyn:多种生物医学数据集的不确定性感知可视化,以支持药物治疗选择 BMC生物信息学 2017 09 13 18 增刊10 393 10.1186 / s12859 - 017 - 1785 - 7 28929971 10.1186 / s12859 - 017 - 1785 - 7 PMC5606218 Sifah 海尔哥哥 阿萨莫阿 KO J X Guizani MeDShare:通过区块链在云服务提供商之间共享无信任的医疗数据 IEEE访问 2017 5 14757 67 10.1109 / ACCESS.2017.2730843 Curcin V 费尔韦瑟 E 危险 R 科里根 D 模板作为在决策支持系统中实现数据来源的方法 J生物医学信息 2017 01 65 1 21 10.1016 / j.jbi.2016.10.022 27856379 s1532 - 0464 (16) 30159 - 9 T H J J Y 医疗保健环境中具有来源的访问控制管理 IEEE第20届计算机支持的设计协同工作国际会议论文集 2016 IEEE第20届计算机支持协同设计国际会议(CSCWD) 2016年5月04-06日 南昌,中国 10.1109 / cscwd.2016.7566048 Lauzon D Kanzki B Dupuy称:"现在 V 4月 一个 菲利普斯 加拿大 J 原作者 P 解决大数据全基因组关联研究(GWAS)中的来源问题 IEEE首届互联健康国际会议论文集:应用、系统和工程技术(CHASE) 2016 IEEE首届互联健康国际会议:应用、系统和工程技术(CHASE) 2016年6月27-29日 美国华盛顿特区 10.1109 / chase.2016.79 Stitz H 鲁格尔手枪 年代 斯特雷特 Gehlenborg N 牛油果:可重复生物医学研究的工作流派生数据来源的可视化 计算图论坛 2016 06 04 35 3. 481 90 10.1111 / cgf.12924 29973745 PMC6027754 Edlund 某人 贝克 吉隆坡 Haiminen N Parida LP DB 魏玛 公元前 考夫曼 JH DD 食品安全生物信息学MCAW计算服务的设计 IBM jres Dev 2016 9 60 5/6 2:1 : 12 10.1147 / jrd.2016.2584798 Chandran 你的 Medvedeva 人事处 巴曼达 毫米 PD Chakka 一个 Luthra 年代 费雷拉 一个 KF AV Z Budden R 斯科特 Berndt 一个 伯格 JM 雅各布森 RS TCGA探险:TCGA数据采集与管理系统 《公共科学图书馆•综合》 2016 10 27 11 10 e0165395 10.1371 / journal.pone.0165395 27788220 玉米饼- d - 16 - 11187 PMC5082933 Rusu 吉隆坡 Reumann 奎罗斯 C Bojovschi 一个 康威 T Garg 年代 爱德华兹 DJ 霍格 G 霍尔特 利用下一代测序进行常规微生物学和公共卫生应用的平台 健康信息科学系统 2015 2 24 3. S1 S7 10.1186 / 2047 - 2501 - 3 - s1 s7 Yildiz U Belhajjame K 格里戈里· D 基于路径来源数据的循证医学应用建模 第九届医疗普及计算技术国际会议论文集(PervasiveHealth) 2015 第九届医疗普及计算技术国际会议(PervasiveHealth) 2015年5月20-23日 土耳其伊斯坦布尔 10.4108 / icst.pervasivehealth.2015.260251 Ocana K Benza 年代 De Oliveira D 迪亚斯 J Mattoso 探索HPC云中分子对接流程中的大规模受体-配体对 2014 IEEE国际并行与分布式处理研讨会论文集 2014 2014 IEEE国际并行与分布式处理研讨会 2014年5月19-23日 菲尼克斯,亚利桑那州,美国 10.1109 / ipdpsw.2014.65 阿里 Sivaraman V o D Tsudik G 杰哈 年代 使用无线链路指纹保护穿戴设备的第一跳数据来源 IEEE transinform法医安全 2014 12 9 12 2193 204 10.1109 / tifs.2014.2357998 Y X 普适医疗监控系统中事故来源的模糊推理 IEEE J Biomed Health Inform 2013 11 17 6 1015 22 10.1109 / jbhi.2013.2274518 普拉萨德 一个 彼得森 R 母马 年代 吸附 J 保罗 K 科孜 D 移动医疗的来源框架 2013第五届通信系统与网络国际会议论文集(COMSNETS) 2013 2013第五届通信系统与网络国际会议(COMSNETS) 2013年1月07-10日 印度班加罗尔 10.1109 / comsnets.2013.6465599 Keator D 赫尔默 K 史蒂芬 J 特纳 J 范Erp T Gadde 年代 阿施施 N 伯恩斯 G 尼克尔斯 B 对现有资源的原始和衍生神经成像数据进行结构化共享 科学杂志 2013 11 15 82 647 61 10.1016 / j.neuroimage.2013.05.094 23727024 s1053 - 8119 (13) 00596 - x PMC4028152 B Y 野生 DJ 利用语义注释改进系统化学生物学数据的集成搜索 J Cheminform 2012 03 08 4 1 6 10.1186 / 1758-2946-4-6 22401035 1758-2946-4-6 PMC3320537 Gadde 年代 Aucoin N Grethe JS Keator DB 马库斯 DS 皮珀尔 年代 喂,喂,喂,喂 XCEDE:用于生物医学数据的可扩展模式 Neuroinformatics 2012 01 9 10 1 19 32 10.1007 / s12021 - 011 - 9119 - 9 21479735 PMC3836560 Benabdelkader 一个 Santcroos Madougou 年代 范Kampen 一个 Olabarriaga 年代 一种在网格基础设施上追踪科学实验的溯源方法 IEEE第七届国际电子科学会议论文集 2011 IEEE第七届电子科学国际会议 2011年12月05-08日 斯德哥尔摩,瑞典 10.1109 / escience.2011.27 sci期刊&国家排名 SCImago 2022-05-12 https://www.scimagojr.com/countryrank.php 坎瓦尔 年代 FZ Lonie 一个 总指挥 罗依 调查再现性和追踪来源——一个基因组工作流程案例研究 BMC生物信息学 2017 07 12 18 1 337 10.1186 / s12859 - 017 - 1747 - 0 28701218 10.1186 / s12859 - 017 - 1747 - 0 PMC5508699 Haibe-Kains B 亚当 遗传算法 Hosny 一个 Khodakarami F 大规模分析质量控制(MAQC)协会董事会 沃尔德伦 l B 麦金托什 C 戈登伯格 一个 Kundaje 一个 格林 CS 布罗德里克 T 霍夫曼 毫米 韭菜 JT Korthauer K 休伯 W Brazma 一个 Pineau J Tibshirani R 黑斯蒂 T 埃尼迪斯 摩根大通 Quackenbush J Aerts 沪江 人工智能的透明度和可重复性 自然 2020 10 14 586 7829 E14灯头 6 10.1038 / s41586 - 020 - 2766 - y 33057217 10.1038 / s41586 - 020 - 2766 - y PMC8144864 Koranne 年代 分层数据格式5:HDF5 开源工具手册 2011 波士顿 施普林格 男人 l Groth P 切尼 J 直到 T 英里 年代 PROV的基本原理 J Web语义 2015 12 35 235 57 10.1016 / j.websem.2015.04.001 Nunes Da Cunha FJ Sirqueira 特遣部队 Viana 毫升 De Lucena CJ 多智能体系统中的数据来源:相关性、益处和研究机会 Int J元数据语义控制 2018 13 1 9 10.1504 / ijmso.2018.10017845 Mangul 年代 马丁 LS 提单 正义与发展党 Distler 毫克 Zelikovsky 一个 Eskin E 弗林特 J 组学计算工具的系统基准测试 Nat Commun 2019 03 27 10 1 1393 10.1038 / s41467 - 019 - 09406 - 4 30918265 10.1038 / s41467 - 019 - 09406 - 4 PMC6437167 Goble C 立场声明:对生物信息学的来源、工作流程和(语义网)注释的思考 Studylib 2022-07-22 https://studylib.net/doc/15380026/carole-goble-position-statement--musings-on-provenance--w Gierend K 克鲁格 F Waltemath D Funfgeld Ganslandt T Zeleke AA 生物医学数据集和工作流程中来源的方法和标准:范围审查方案 JMIR Res协议 2021 11 22 10 11 e31750 10.2196/31750 34813494 v10i11e31750 PMC8663663
Baidu
map