发表在25卷(2023)

这是…的成员刊物Charite -柏林媒体大学,德国媒体图书馆

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/42289,首次出版
生物医学研究中的数据来源:范围审查

生物医学研究中的数据来源:范围审查

生物医学研究中的数据来源:范围审查

审查

1柏林慈善健康研究所医学信息学组- Universitätsmedizin柏林,德国柏林

2医学信息学研究所,慈善机构 - Universitätsmedizin,德国柏林

通讯作者:

马可·约翰斯理学硕士

医学信息学组

柏林慈善机构健康研究所- Universitätsmedizin柏林

Chariteplatz 1

柏林,10117

德国

电话:49 15147112798

电子邮件:marco.johns@charite.de


背景:数据来源是指数据的来源、处理和移动。关于数据来源的可靠和精确的知识具有极大的潜力,可以提高生物医学研究的可重复性和质量,从而促进良好的科学实践。然而,尽管文献中对数据来源技术及其在其他学科中的应用越来越感兴趣,但这些技术尚未广泛应用于生物医学研究。

摘要目的:本次范围审查的目的是通过系统化涵盖为该应用领域开发或使用的数据溯源技术的文章,对生物医学研究中溯源方法的知识体系进行结构化概述;描述和比较所使用的溯源技术的功能和设计;并找出文献中的空白,这可以为未来的技术研究提供机会,这些技术可以得到更广泛的采用。

方法:根据范围界定研究的方法学框架和PRISMA-ScR(系统评价和荟萃分析扩展范围评价的首选报告项目)指南,通过搜索PubMed, IEEE Xplore和Web of Science数据库确定文章,并随后筛选其资格。我们收录了2010年至2021年间发表的基于软件的科学研究来源管理的原创文章。沿着以下五个轴定义了一组数据项:发布元数据、应用程序范围、涵盖的来源方面、数据表示和功能。从文章中提取数据项,存储在图表电子表格中,并在表格和图形中进行汇总。

结果:我们确定了2010年至2021年间发表的44篇原创文章。我们发现所描述的解在所有轴上都是不均匀的。我们还确定了使用来源信息、特征集(捕获、存储、检索、可视化和分析)和实现细节(如所使用的数据模型和技术)的动机之间的关系。我们发现的重要差距是,只有少数出版物解决了来源数据的分析或使用既定的来源标准,例如PROV。

结论:文献中发现的来源方法、模型和实现的异质性表明对生物医学数据的来源概念缺乏统一的理解。提供一个共同框架、生物医学参考和基准数据集可以促进制定更全面的来源解决方案。

[J] .中国医学信息学报,2009;25:422 - 422

doi: 10.2196/42289

关键字



背景

重复危机暴露出许多科学研究缺乏可重复的结果,包括生物医学领域的研究[1]。这一现象表明,只有一小部分已发表的研究成果能够被可靠地、完全地复制。然而,提高研究的可重复性的必要性不仅在复制危机出现之后才被认识到[1但在过去的十年中,通过可查找、可访问、可互操作和可重用原则等倡议,也已经受到越来越多的关注[2]。研究项目及其结果的可重复性问题可能有许多不同的原因,因此可以通过许多方法加以缓解。重要的例子包括缺乏关于实验参数的文件,以及缺乏以定义良好和结构化元数据的形式对数据进行下游处理,这是解释和复制所需要的[3.]。这两个方面都与数据来源密切相关,数据来源指的是数据的来源、处理和移动。关于数据来源的可靠和精确的知识具有很大的潜力,可以评估和改进生物医学研究的可重复性和质量,从而促进良好的科学实践[45]。

尽管数据来源信息的定义在某些方面有所不同,但它通常被理解为元数据,描述影响数据集的所有事件。数据集可以被某些进程更改,从而导致状态更改。我们认为状态发生变化的数据集是一个新数据集。数据来源跟踪有关其概念的信息(例如,谁或什么创建了数据)以及可能已应用的所有转换和处理操作[6]。这可用于识别潜在无效的处理步骤、数据质量下降或二次使用的限制[3.46]。在某些文献中,数据谱系和数据系谱等术语的含义可能略有不同(例如,系谱有时也被理解为捕获有关数据源质量或可信度的信息[3.4]),但也经常与出处互换使用(例如,Simmhan等人的研究[6]和Baum等人[7]),这是我们在本文中采用的方法。

在生物医学方面,收集数据的形式和类型多种多样,目的也不同,包括保健和研究。通常,这些数据包括有关治疗、病情和患者结果的信息,这些信息通常通过测量或更抽象的观察来描述。这些观察的来源和收集它们的背景可能不同,这可能对它们的意义和可靠性产生影响。例如,观察结果可以由人手动捕获(例如,医疗保健专业人员测量患者的心率)或由设备自动捕获(例如,已经放置在患者手指上的数字脉搏血氧计),从而影响其精度。另一个例子是从临床文件中获取结构化的研究数据,这可能是一个涉及管理的手动过程,也可能是一个由机器执行的自动化过程,这会影响可靠性。考虑到前面提到的对这些数据的处理以及在此过程中可能引入的错误或不准确,对数据来源元数据的评估(例如,通过可视化或分析)可以帮助临床医生或研究人员了解信息的质量,并帮助信息学家在出现问题时找到根本原因。

图1显示了一个基于常用的来源数据模型的来源图示例,如PROV [89]及开放来源模式(OPM) [10],它由数据节点、处理节点和用户或实体节点(有时也称为代理节点)组成,它们由有向边连接,表示节点之间的关系(例如,负责创建各自数据的处理节点或表示负责的实体)。

在此图中,输入数据节点表示上的数据观察遇到例如,从电子健康记录系统。在第一个处理步骤中,观察结果是映射到相应的遭遇在将它们加载到数据仓库之前。这属于a的职责范围数据工程师.不能被分配到一次遭遇的观察结果被处理成创建质量报告,这是由监管数据管理实体,导致数据质量评估数据节点。遇到的观察结果被加载到数据仓库中,从而产生数据仓库观察数据节点。例如,在这种数据质量评估中指出,拥有完整和可信的数据在研究中是很重要的。这不仅适用于来自精心规划的研究的数据,也适用于来自其他情况的数据(例如,用于次要目的的卫生保健数据),因为它们可能包含需要对数据进行检查和清理的意外问题[11]。此外,越来越多的数据是由传感器和其他设备以自动化的方式收集的,这些设备应准确地报告其来源,以全面了解数据的概念以及有关其质量和适用性的所有因素[12]。

相对于数据处理发生的时间,可以前瞻性和回顾性地获取数据的来源[3.1314]。前瞻性生成的优点是,可以将来源捕获方法直接集成到数据生成、转换和分析管道中,自动准确地收集这些过程中必要细节的完整信息。追溯地看,仍有可能获得一些来源信息,但这通常在可包括的细节方面受到限制[14]。例如,来源元数据可以追溯地从日志文件中派生,日志文件可能不包含关于每个处理步骤的所有信息,或者包含细节不足的信息,因为日志文件通常是为了便于人们进行故障排除而可读的。

图1所示。一个简单的示例来源图,其中观察结果被映射到要加载到数据仓库中的遭遇。

客观的

虽然数据来源跟踪在某些学科中是一种常见的做法,例如物理学、地球科学、地理学(特别是地理信息系统)、材料科学、水文科学和环境建模[15-19],它尚未被广泛应用于许多其他数据驱动的研究学科,包括生物医学研究[7]。因此,以前的综述要么侧重于生物医学背景之外的来源(例如,Simmhan等人的研究[6]和Herschel等[3.])或研究了更广泛的数据生成和准备活动,而来源只是一个方面(例如,de Lusignan等人的研究[4])。这就提出了一个问题,即迄今为止提出的方法是否存在弱点或缺乏重要功能,从而阻碍了它们在生物医学研究中的应用。为了弥补这一差距,我们认为重要的是研究文献,只关注为生物医学领域开发或使用的来源管理方法,以及它们之间的异同(参见《生物医学文献》)相关工作节进行更详细的讨论)。

在本文中,我们提出了一个范围审查:(1)提供了详细的研究概述,描述了为生物医学研究开发或使用的数据来源技术(例如,用于成像数据,健康记录和组学数据);(2)描述和比较支持的功能(例如,创建、存储、查询、分析或可视化数据来源信息)以及方法的设计(例如,使用标准或数据存储类型);(3)使用这些信息来识别文献中的空白(例如,很少支持的功能组合),这可以为未来的技术研究提供机会,这些技术可以得到更广泛的采用。


研究方法

这项系统的范围审查是按照Arksey和O 'Malley [20.]并使用PRISMA-ScR(系统评价和元分析扩展范围评价的首选报告项目)指南进行报告[21]。由于本研究分析了以前研究的数据,因此没有寻求伦理批准。该综述的方案没有发表,因为《国际前瞻性系统评价登记册》不包括范围评价[22]。此外,本综述不产生或报告生物医学研究成果,而是侧重于生物医学领域数据来源的方法和技术方面。

纳入和排除标准

在确定纳入标准之前,我们对数据来源进行了非结构化文献检索,发现文献主体中包含了许多不在本综述范围内的领域的研究。在此基础上,我们建立了一个初始版本的标准,以区分关于在生物医学研究中使用来源方法的文章与关于在其他能力或学科(如药品供应链或动物分类)中使用来源方法的文章。对标准的描述经过初步的样本筛选,以减轻作者之间解释的差异。

我们纳入了以下文章:(1)描述了在生物医学研究或相关科学学科中使用数据来源、数据谱系或数据谱系信息;(2)描述了基于软件的方法(即,专注于纯手工来源跟踪的文章不符合条件)。此外,文章需要(3)发表在同行评议期刊或会议论文集上的原创论文,(4)用英文撰写,(5)发表于2010年至2021年之间。

排除标准是类似地制定的。我们排除了以下文章:(1)不涉及数据来源,而是关注其他背景下的来源(例如,历史、地质或物流);(2)没有关注数据来源的数字技术、数据、软件、方法或模型;(3)没有将重点放在生物医学或与健康相关的研究或数据上(例如,如果生物医学领域只是作为众多示例性应用领域中的一个);(4)没有描述数据的来源,而是使用了来源数据(例如,用于跟踪供应链中的产品)。

来源和搜索策略

“出处”存在近义词,例如“谱系”或“血统”,因此必须将其包含在搜索条件中。此外,如前一节所述,我们需要歧视不属于生物医学范围或背景的文章。为此,我们纳入了关键词“生物医学”、“医学”和“健康”。

我们搜索了Web of Science、PubMed和IEEE explore数据库,因为这个主题是医学和计算机科学的交叉。检索字符串使用要求的文章标题或摘要,包含两个主题中的每个主题的至少1个关键字和反映审查范围的相应关键字:

  1. 主题“来源”由以下术语捕获(“数据来源”或“数据谱系”或“数据系谱”)
  2. "生物医学"专题的关键词为("医学"或"生物医学"或"健康")

中提供了用于不同数据库的确切搜索字符串多媒体附录1.最后的搜索是在2022年2月7日进行的,使用的是德国柏林Charité-Universitätsmedizin网络中的一台计算机。

选择和数据收集过程

选择过程通过两个连续的筛选步骤进行:(1)筛选所有结果论文的标题和摘要;(2)筛选第一步中选择的所有论文的全文。每篇文章由第一作者和一名共同作者进行筛选。分歧由最后一位作者解决。不包括物品的原因也有记录,并载于多媒体附录2要收集的数据项(请参阅下一节)是通过阅读完整的文章来确定的,连续地确定所提供信息之间的相似或不相似模式。数据提取由所有作者完成,分歧由最后一位作者解决。

数据项目及分析

我们沿着五个轴定义数据项,以对我们的研究问题(RQs)产生见解:(1)发表元数据,(2)应用范围,(3)涵盖的来源方面,(4)数据表示,(5)功能。中提供了类别、单个项和值集的概述表1.从文章中提取数据项,存储在图表电子表格中,并在表格和图形中进行汇总。由于论文中描述的许多方法和解决方案的异构性和特定于用例的性质,将它们的属性系统化为特定的数据元素是一个相当大的挑战。在原始数据元素列表的基础上,主要描述了方法和解决方案的定性属性,在上述样本筛选期间进行了调整,以便以可比的方式捕获基本信息。

可以看出,我们收集了出版物元数据能够研究兴趣的发展相对于时间或研究人员的位置的主题。我们进一步收集了有关情况应用范围调查是否有特定的背景或类型的数据进行研究的来源,并获得对一般研究来源的动机的见解。信息来源方面(“为什么”,“如何”,“在哪里”和“谁”遵循赫歇尔等人在研究中提出的术语[3.])被绘制成图表,以便更好地理解所收集信息的具体类型。接下来,我们对数据进行信息汇编表示和存储使用的模型,如抽象和具体数据模型,以及中间处理结果是否物化。此外,我们绘制了用于出处元数据的最常见标准的使用图表,例如OPM [10]和万维网联盟(W3C)的PROV标准[8]。最后,我们收集了有关所建议的解决方案的功能的一系列信息,包括数据生命周期中的哪些步骤[23以及如何准确地捕获、检索、分析和可视化种源信息。

表1。用于全文图表的数据项。
名字 描述
发布元数据

出版年份 出版物出版的年份

作者的位置 第一作者和最后作者所在机构所在的国家
应用范围

应用领域 该贡献是否可应用于生物医学研究或直接应用于卫生保健实践

焦点 是否处理数据来源问题是出版物的主要焦点,或者来源方面是否只是间接提及或作为内在必要性的补充

动机 使用数据来源背后的动机

数据类型 管理来源信息的数据类型(选项包括结构化临床和健康数据、组学数据、成像数据、传感器或设备数据、自由文本和其他类型的数据)或贡献是否与数据类型无关(即通用数据)
来源方面

在哪里起源 该贡献解决了数据来源方面的问题

如何起源 该贡献解决了如何产生特定结果的方面(即前面的处理步骤)。

谁出处 贡献说明了谁(或哪个实体,如组织、软件或设备)对数据或数据处理负责或声称拥有所有权

为什么出处 该贡献解决了为什么产生某个结果或数据点的问题,这需要捕获所有先前的处理步骤和数据源
数据表示和存储

抽象数据模型 用于表示来源信息的抽象数据模型;例如图形、列表、引用和复合对象

具体数据模型 用于存储出处信息的具体数据模型;例如区块链、命名图、关系模型和基于文件的存储

标准数据模型 数据模型是否与常见的来源标准(如PROV或OPM)兼容一个

不变性 来源信息是否不可变

物质化 来源信息是虚拟的还是物化的,即中间处理结果是否被显式存储为完整的数据集
功能

创建和捕获 数据来源信息是如何捕获的,或者由什么类型的实体捕获的;我们区分了通过独立软件进行额外捕获,通过一些基于中间件或触发器的方法集成,固有地使用区块链,或从外部来源提取

查询和检索 如何查询或检索来源信息;选项是通过API检索b或GUIc、结构化查询、选择性查询或非结构化搜索查询

分析 如何对来源信息进行分类分析,这有助于识别具有相似特征集的贡献;这些类别是“通用的”或与用例无关的(例如,描述性统计)和“特定的”或与用例相关的(例如,推理或错误跟踪)。

可视化 识别与数据来源有关的信息的来源信息的可视化方式的可视化类型或者方法;细节包括可视化是基于图形还是流网络来检查基于其原生结构的种源可视化模式,以及是否使用特定工具进行可视化

产生时间 元数据生成时间;我们区分了前瞻性生成和回顾性生成,前者是在数据处理期间生成元数据,后者是在过去完成数据处理,并且元数据是基于以前生成的工件(如日志文件)生成的

一个OPM:开放来源模型。

bAPI:应用程序编程接口。

cGUI:图形用户界面。


概述

通过数据库检索共鉴定出138篇文章(45篇,32.6%来自PubMed;40,29 %来自IEEE explore;53.38.4%来自Web of Science)。选择过程的概述见图2

从138篇文章中,我们在第一次筛选过程中排除了42篇(30.4%)重复和36篇(26.1%)文章。在60篇符合条件的全文文章中,3篇(5%)无法检索。在剩下的57篇文章中,13篇(23%)被排除在第二次筛选过程中。最终纳入综述的文献有44篇,并在数据制图步骤中进行处理(参见表2获取完整列表)。每篇文章的结果数据项显示在多媒体附录2

图2。PRISMA(系统评价和荟萃分析首选报告项目)选择过程流程图(基于Page等人的研究)[24])。
表2。符合条件的项目列表(n=44)。
序列号 一年 标题 参考
1 2021 b区块链上医生应用和助手代理的个人健康记录智能去中心化:平台设计与实现研究 (25
2 2021 区块链医疗保健数据管理:机遇、挑战和未来建议 (26
3. 2021 调整基于电子健康记录的研究中由于缺失数据导致的选择偏差 (27
4 2021 物联网中的风险与合规性——健康数据传播:基于安全意识的来源方法 (28
5 2021 使用智能合约的区块链远程医疗服务 (29
6 2021 网格有效的数据和任务管理在VA百万退伍军人计划 (30.
7 2020 一个实用的通用联盟区块链范例,利用委托身份管理在云上实现患者数据可移植性 (31
8 2020 基于区块链的临床研究同意管理 (32
9 2020 医疗保健数据的分散来源 (33
10 2020 通过元数据框架增强临床研究数据的可追溯性 (34
11 2020 安全和来源增强的健康物联网框架:区块链管理的联邦学习方法 (35
12 2019 here:用于生物医学实体扩展、排名和探索的Web服务器 (36
13 2019 FHIR的临床文本挖掘 (37
14 2019 使用区块链的电子卫生系统增强安全框架 (38
15 2019 neuroproof:用于神经成像分析的来源数据可视化 (39
16 2019 医学图像计算中的多形态分割表示 (40
17 2019 生物医学本体的RDF和Git来源 (41
18 2019 基于智能合约的个人健康数据来源及权利确认研究 (42
19 2019 临床研究的通用数据模型 (43
20. 2018 数据来源在医疗分析软件中的应用:用户活动的信息可视化 (44
21 2018 区块链技术在卫生信息交换和临床试验持续监测中的应用 (45
22 2018 通过OpenMSl对质谱成像数据进行可共享和可重复的分析和可视化 (46
23 2018 FHIR医疗保健目录:采用共享接口实现可互操作的医疗设备数据集成 (47
24 2018 ProvCaRe语义来源知识库:评估科学研究的可重复性 (48
25 2018 使用漫画可视化个人数据的来源 (49
26 2017 一种电子健康数据质量评估方法:启用数据来源 (5
27 2017 MediSyn:支持药物治疗选择的多种生物医学数据集的不确定性感知可视化 (50
28 2017 MeDShare:通过区块链在云服务提供商之间共享无信任的医疗数据 (51
29 2017 模板作为决策支持系统中实现数据来源的方法 (52
30. 2016 医疗保健环境中具有来源的访问控制管理 (53
31 2016 解决大数据全基因组关联研究(GWAS)中的来源问题 (54
32 2016 牛油果:可重复生物医学研究的工作流派生数据来源的可视化 (55
33 2016 食品安全生物信息学MCAW计算服务的设计 (56
34 2016 TCGA远征:TCGA数据采集与管理系统 (57
35 2015 利用下一代测序用于常规微生物学和公共卫生的平台 (58
36 2015 基于路径来源数据的循证医学应用建模 (59
37 2014 探索HPC云分子对接流程中的大规模受体-配体对 (60
38 2014 使用无线链路指纹保护穿戴式设备的第一跳数据来源 (61
39 2013 普适医疗监控系统中事故来源的模糊推理 (62
40 2013 移动医疗的来源框架 (63
41 2013 对现有资源的原始和衍生神经成像数据的结构化共享 (64
42 2012 利用语义注释改进系统化学生物学数据的集成检索 (65
43 2012 XCEDE:生物医学数据的可扩展模式 (66
44 2011 网格基础设施上科学实验溯源方法研究 (67

发布元数据

随时间的分布

文章发表年份从2011年到2021年不等。约三分之二(29/ 44,66%)的文章发表于2017年至2021年,三分之一(15/ 44,34%)的文章发表于此时间框架之前,即2011年至2016年,呈现增加趋势(图3)。

图3。每年的出版物数量。
地理分布

大多数第一作者和高级作者工作在美国(34/ 90,38%),其次是中国(8/ 90,9%)、德国(8/ 90,9%)、英国(6/ 90,7%)、澳大利亚(6/ 90,7%)、加拿大(4/ 90,4%)和阿拉伯联合酋长国(4/ 90,4%)。我们注意到,出现次数少于4次的国家被归为“其他”(20/90,22%),一些作者隶属于多个组织。结果与SCImago国家排名的前几名大致相当[68](“一般”和“医学”两类),因此大致对应于各自国家的基本出版物产出。

应用范围

应用领域

分析的大多数论文(34/44,77%)只关注研究数据处理中的出处,而一些(8/44,18%)关注出处在研究和医疗保健中的应用,只有5%(2/44)通过提出监测系统的反向推理算法,专门关注出处在医疗保健实践中的应用[qh]62或使远程医疗服务透明、不可变和可信[29]。

焦点

在大约一半的出版物(23/44,52%)中,数据来源是主要的研究主题,而另一半(21/44,48%)则间接地或作为更广泛的方法或解决方案所描述的固有属性来处理数据来源。

动机

对来源数据需求背后的动机被分类为“有效性”、“可再现性”、“监管需求”、“可重用性”和“透明度”,并且每个出版物被分配到与所描述的动机相匹配的类别中。

解决来源最常见的原因是有效性(22/44,50%),其次是可重复性(15/44,34%)和遵守法规要求的需要(15/44,34%),可重用性(11/44,25%),然后是透明度(8/44,18%)。一些论文没有详细说明为什么要考虑出处(3/ 44,7 %)。在数据表示和存储第一部分,我们考察了所使用的技术和所描述的动机之间的关系。

处理的数据类型

最常提到的(可能多次提到)支持的数据类型是结构化的临床和健康数据,例如来自eHealth记录的数据(17/44,39%),其次是组学(8/44, 18%),图像数据(7/44, 16%),传感器和设备数据(5/44, 11%),引用来源(4/ 44,9 %)自由文本(2/44, 5%)。共有9%(4/44)的论文聚焦于其他数据类型,包括元数据或本体、临床路径、远程医疗会话数据和管理数据。最后,5%(2/44)的论文表示所提出的方法是通用的并且适用于广泛的数据类型。

所关注的数据类型的共现和所提出的动机在图4

值得注意的是,研究组学和成像数据来源的论文往往是出于可重复性方面的考虑。这是有道理的,因为这两种类型的数据本质上都相当庞大和复杂,而处理操作,例如生物信息学管道或基于人工智能的图像分析,有时很难复制[6970[参考…主要研究结果节进行进一步讨论)。

图4。针对特定数据类型并提及特定动机的论文百分比。

来源方面

关于所描述的方法或解决方案所支持的来源方面,我们确定了以下部分提供的覆盖范围。

所有论文(44/44,100%)均支持在哪里出处,即关于数据来源的信息。这并不奇怪,因为它可以被视为来源管理背后的中心点。此外,大约有一半的论文支持如何出处(25/ 44,57 %),即关于如何产生某一结果的信息(即前面的处理步骤);来源(26/ 44,59%),即谁(或什么)对数据或数据处理负责或声称拥有所有权的信息;和为什么出处(20/ 44,45 %),即关于为什么产生某个结果或数据点的信息。

数据表示和存储

抽象数据模型

确定了以下用于表示来源信息的抽象数据模型:是最常见的(18/44,41%),其次是列表(12/44, 27%),参考文献(例如,id或哈希值;3/ 44,7 %),组合图表和字典(1/ 44,2 %),和复合对象(1/44, 2%)。总共有7%(3/44)的出版物没有具体说明所使用的确切抽象数据模型。

具体数据模型

所描述的抽象数据模型是使用以下具体数据模型和相关存储解决方案实现的:区块链(11/ 44,23%)资源描述框架(8/ 44,18 %)存储在triplestore中用于图表示,和关系模型(5/44, 11%)或XML(2/ 44,5 %)。三种解决方案(3/ 44,7 %)使用其他文件格式,如二进制或层次数据格式,版本5 (HDF5) [71]。许多论文(7/44,16%)没有提供所使用的具体数据模型的具体信息。

当交叉参考动机类别与贡献是否基于区块链或使用其他技术时(图5),有一张清晰的图片显示,描述基于区块链的解决方案的论文并没有提到可重复性或可重用性。鉴于区块链的不可变、透明和不可否认的性质,它特别适合于关注有效性或满足监管要求的应用程序,这似乎反映在实现该技术的动机中(请参阅主要研究结果节进行进一步讨论)。

图5。动机组的频率表,以及解决方案是否基于区块链。
出处标准的使用

共有23%(10/ 44,23%)的论文声称与PROV数据模型兼容,而7%(3/ 44,7%)的论文声称与OPM兼容。大多数出版物(31/ 44,70 %)没有说明与任何一个标准的兼容性。在所有表示与任何一种标准兼容的论文中,2018年以来发表的所有论文(7/ 44,16 %)都倾向于使用PROV模型。没有论文提到与两个标准的兼容性。

不变性

一旦创建或捕获就不能更改的数据被认为是不可变的。27%(12/44, 27%)的出版物提出的方法和解决方案提供了不变性或不可抵赖性,其中92%(11/12,92%)基于区块链技术,该技术本身是不可变的。一篇论文提出了基于加密方法的不可否认的来源[61]。

物质化

我们进一步分析了所描述的方法或解决方案是否将中间结果存储为完整数据集,即:实现这样的数据,或者只存储导致这些结果的元数据,从而虚拟地表示中间步骤。大多数方法和溶液没有实现中间结果(31/ 44,70%),20%(9/ 44,20%)实现了中间结果。有趣的是,这些论文描述了专注于组学(5/44,11%)和成像数据(4/44,9%)的解决方案,这是有意义的,因为处理和数据生成对于这些复杂类型的数据特别昂贵(另见)主要研究结果部分)。

功能

概述

数据来源方法、模型和实现支持的技术活动是数据来源信息的创建或捕获、存储、检索或查询、分析和可视化,这是数据生命周期中的常见活动。当查看所分析的方法和解决方案为这些活动提供的支持时,对数据生命周期后期执行的任务的支持明显减少,如所示图6(另见主要研究结果部分)。

一些出版物(39/ 44,89%)描述了支持数据生命周期中多个活动的方法。支持单个步骤的频率按升序排列:创建(39/44, 89%;例如,所有包含支持生命周期这一特定步骤的信息的出版物),商店(34/44, 77%),查询(24/44, 55%),可视化(9/ 44,20 %)和分析(9/44, 20%)。在前一节中已经分析了数据存储。因此,在本节中,我们将更详细地描述对起源数据生命周期中剩余活动的支持。

图6。数据生命周期的步骤支持的方法和解决方案进行了分析。
创建或捕获

在描述支持创建或获取来源信息的方法或解决方案的论文中(39/ 44,89%),大多数论文(16/ 39,41%)通过更改用于数据生成或处理的较大程序、框架或脚本来获取来源信息和元数据另外捕捉所需的数据。捕获来源信息的第二种最常见的方法是基于区块链的解决方案所独有的固有的捕获使用智能合约的来源信息(10/39,26%)。一些论文,包括1篇使用基于区块链的解决方案,描述了集成的捕获解决方案,如中间件或基于触发器的方法,对应用程序或持久层是透明的(8/ 39,21 %),而其他方法则描述基于来源信息的方法外部资源例如研究数据库(6/ 39,15 %)。

查询或检索

在描述支持查询或检索出处信息的方法或解决方案的论文中(24/44,55%),25%(11/44)的论文依赖于结构化查询,使用SQL、SPARQL、GraphQL或类似的查询语言。总共有42%(10/24)的解决方案提供了图形用户界面或应用程序编程界面来检索来源元数据。总的来说,4%(1/24)的文章描述了使用非结构化查询(即搜索字符串)进行检索,另外(1/ 24,4%)的文章描述了使用使用唯一标识符的选择性查询的方法。共有13%(3/24)的论文没有明确检索方法。

分析

对数据来源解决方案分析的支持可以有多种形式。在这项研究中,如果分析涉及到普遍适用的方法,如提供描述性统计和度量以及简单的比较,则分析被归类为“通用”。在描述支持分析种源信息的方法或解决方案的论文中(9/44,20%),44%(4/9)的论文属于这一类。当分析被裁剪为特定于来源的用例时,例如推理、验证任务和错误跟踪,分析被认为是“特定的”。共有44%(4/9)的论文属于这一类:22%(2/9)的论文描述了验证数据来自可信赖设备的方法[2861], 11%(1/9)的论文描述了逆向推理,以识别来自监测系统的数据中有关来源的问题[62], 11%(1/9)的论文描述了临床研究数据可追溯性缺口的验证和识别[34]。此外,11%(1/9)的附加文章描述了分析来源元数据的一系列方法,包括通用的具体的方法(39]。

可视化

一般分析的结果通常使用常见的可视化类型进行可视化,例如条形图和折线图。在描述支持种源信息可视化的方法或解决方案的论文中(9/ 44,20 %),大多数论文(7/ 9,78 %)是基于某种基于图或流网络的可视化。总共22%(2/9)的出版物没有使用这样的基础,而是描述了在条形图和箱形图中显示消化信息的方法或解决方案。

可视化技术或方法包括多种可视化和度量的仪表板风格组合、Sankey图、图节点的聚合、力导向图、表和非正式的流程的漫画风格可视化。实现通常基于常见的可视化库或程序,如D3.js、Gephi、yEd、sigma.js、Dagre、GraphViz或谷歌databab。

产生时间

在捕获或创建来源信息的解决方案和方法中(39/ 44,89%),大多数(31/ 39,79%)的解决方案和方法与数据处理时的预期接近。少数人(6/ 39,15 %)在处理结束后,基于创建的工件,如日志文件,回顾性地捕获了来源信息。总共有5%(2/39)的文章描述了追溯性和前瞻性捕获来源信息的选项,其中一种解决方案允许为先前完成的过程重建来源元数据[46],另一个从日志文件中捕获来源信息,同时还通过工作流管理系统的插件功能提供前瞻性捕获[67]。


大纲

在本研究中,我们概述了为生物医学领域开发或使用的数据来源方法和技术的研究。识别文献中描述的方法和解决方案是异构的。因此,所支持的功能和方法的设计被描述为导航异构景观的系统化,并支持基于几个特征的功能和设计的比较。此外,我们在系统化的基础上发现了文献中的空白,包括缺乏对某些功能的覆盖,例如对来源元数据的分析。主要发现、相关工作和局限性将在以下章节中介绍。

主要研究结果

尽管在生物医学研究中使用数据溯源技术具有潜在的优势,如《介绍章节(例如,改进的再现性和数据质量),以及对文献的兴趣日益增加,如出版物元数据的结果所示,这些技术仍未在该领域广泛采用。这个范围审查的结果揭示了方法、模型和实现的异质图景,它们具有非常不同的目标,因此也有非常不同的特性集。

关于起源方面(在哪里、如何、为什么和谁),本综述中分析的每个解决方案都捕获了的方面在哪里数据来源于。出处是出处的核心属性,可以被认为是文献中最相关的方面。其他方面需要在来源元数据中包含更多的细节,但可能不是所有用例都需要,因此,大约一半的研究论文不支持这些细节,可能是为了减少复杂性。然而,在生物医学研究中,如何以及为什么改变数据集的问题的答案对于确保数据的可靠性和可审计性尤为重要。

在查看所使用的逻辑和具体数据模型时,图和图数据库是最普遍的,这是合理的,因为它们是来源信息的自然表示。也经常使用广泛的通用数据模型,如关系模型或XML,因为它们足够通用,可以支持来自各种实现的来源元数据。尽管已经采用了一些方法,或者至少与最常见的来源标准(PROV和OPM)兼容,但许多论文没有解决与标准的兼容性问题,这阻碍了来源元数据的互操作性。

PROV模式近年来越来越受欢迎。OPM是“第一个社区驱动的来源模型”,它比OPM稍微更新,也更全面。[72]。PROV更为成熟,由几个描述概念、符号、本体和互操作性选项的文档组成,例如,与现有的元数据标准,如都柏林核心[89]。此外,PROV允许对实体或代理的关系进行更详细的建模[73]。对PROV模型的一贯支持可以促进解决方案的兼容性并扩大应用领域。例如,一个解决方案收集的来源元数据可以使用完全不同的解决方案进行分析,只要两个解决方案都是PROV兼容的。

处理或生成大型和复杂的数据,如组学或图像,是昂贵的[74],而且在许多情况下,如果需要的话,重复整个过程可能是不可行的。存储一个完整的间歇结果数据集有助于节省时间和资源,如果处理过程发生变化和被复制,或者应该探索其他处理路径。因此,为此目的,中间处理步骤的具体化通常在管道中实现。此外,各篇文章中处理这类数据的方法通常是由可再现性方面驱动的,这可能归因于处理的复杂性和数据的绝对数量,这增加了再现结果和处理本身的难度。

最近,区块链已经成为一种支持数据来源某些方面的技术。区块链本质上通过促进共识算法和加密方法来维护单个块列表,从而提供来源和不可变性,其中所有相关方都同意任何给定块的前身和后继。这些块通常包含事务信息,从而启用包含或引用数据的来源。不幸的是,我们在本综述中确定和分析的基于区块链的解决方案通常没有超出其固有属性,并且在这个阶段,几乎没有覆盖其他方面,例如生物医学研究中非常需要的可重复性和可重用性。然而,由于它们支持明确定义和不可变的沿袭,它们可以很好地满足法规要求(例如,提供审计跟踪)。

数据来源信息的创建或捕获在逻辑上是使用它的第一步。因此,在所分析的所有方法或解决方案中,创建和捕获是来源数据生命周期中最常支持的活动,这并不奇怪。出处数据分析和可视化较少得到处理,这可能是数据出处在生物医学研究中仍未得到充分利用这一事实的直接结果,因此开发或研究出处信息"使用"的方法更为罕见。我们认为,领域特定分析和可视化方法的发展可能是实际展示来源跟踪的附加价值并帮助增加其采用的重要一步。此外,我们没有发现任何参考数据集的迹象,可用于开发和评估来源数据的分析或可视化方法。

最后,我们发现分析的大多数解决方案或方法依赖于额外捕获来源数据的方法,而只有少数方法依赖于对用户或处理环境透明的集成捕获方法。这意味着在捕获来源数据信息方面需要付出相当多的努力,这可能指向一个有前途的研究领域,即如何透明地捕获来源信息,而不会给数据处理框架的用户或开发人员带来额外的工作。

相关工作

一些相关的论文对数据来源进行了研究和系统化的研究,尽管通常侧重于一般概念或应用,而不是生物医学。2005年,Simmhan等[6]介绍了溯源技术的属性分类,它显示了与本综述定义的数据项的一些相似之处,例如溯源的具体使用(参见动机)、种源传播方法(参见检索或查询),以及所使用的来源表示(参见数据模型)。此外,作者还关注了更多的技术属性,例如所使用的来源元数据的粒度和细节级别,以及其管理的可伸缩性或存储开销。

Herschel等人最近(2017年)的一项调查[3.]指出,由于不同的应用和技术要求,可以以不同的方式解释来源的定义,并概述了研究领域。虽然调查并不局限于生物医学领域,但在我们的结果中也可以看到使用来源的动机(即应用和技术要求)的广谱性和异质性。这包括来源的应用程序、内存占用和互操作性、查询表达性、应用程序集成以及现有结果的数据来源(参见动机数据模型、功能和来源方面)。作者确定的一个核心挑战是需要对来源数据的分析和可视化进行更多的研究:“虽然查询来源数据已经与来源数据模型一起研究,但在以用户友好的方式适当地可视化,探索和分析来源数据方面只存在很少的工作”[3.]。考虑到我们的结果,在生物医学背景下的来源也是如此(参见功能)。

de Lusignan等[4回顾了使用常规临床数据的研究,以确定数据准备的关键概念,其中还包括数据质量和来源。他们的结论之一是,在卫生保健和卫生保健信息学的背景下,元数据的描述应该形式化,以有利于"基于常规收集数据的研究结果的有效性"。作者进一步介绍了主要和次要数据来源之间的区别:主要来源是指数据的来源(即,在此之前不知道应用的处理),而次要数据来源是指在检索原始数据后进行的处理[4]。在我们的工作中,这些被称为在哪里起源如何,为什么分别出处。

Goble [75]提供了非正式但全面的讨论和来源概述。这篇论文涵盖了“7w’s (Who, What, Where, Why, When, Which, (W)how)”来源的各个方面,这些方面仍然未被指定,以及促进来源的一般用例或动机。此外,它还分阶段讨论了来源元数据是否本质上不可变的问题,我们在本综述中从技术角度对此进行了研究(参见不变性)。本文还讨论了来源数据模型,以及来源元数据应该如何伴随它们所描述的数据沿着处理路径进行处理来源方面和数据表示和存储在这篇综述中。

去年,Gierend等人[76]发表了一份关于生物医学数据来源范围审查的协议。实际的评论尚未发表。根据所述的RQ和列出的数据项,综述将重点关注用例和方面,如来源信息的价值和可用性(RQ 2),遇到的挑战和问题(RQ 3),生物医学领域的来源指南和要求(RQ 4),以及有关来源信息完整性的问题(RQ 5)。相比之下,我们的综述更侧重于系统化和比较生物医学中来源数据管理的技术方面。这与Gierend等人提出的第一个RQ部分重叠[76],这是为了确定分类和追踪来源标准的方法。然而,很有可能我们的分析提供了更多的深度,因为我们特别关注方法和技术角度,例如,在我们的搜索中包括IEEE Xplore数据库也反映了这一点。

限制

由于选择的搜索策略,发现和纳入的文章的异质性,以及其中描述的方法和解决方案,本研究有一定的局限性。最重要的是,搜索策略被设计为专门捕捉生物医学研究中的来源主题,并且所使用的术语没有明确包括特定的研究领域,如心理学或其他行为科学。然而,我们认为我们的文献选择策略可能只错过了相关的文章,这些文章的摘要没有涉及更广泛的背景,这意味着在我们的搜索过程中提到了一个关键词。此外,我们认为不太可能存在具有这些特征的大量文献。大约46%(44/96)的唯一参考文献被纳入本综述,这一事实可以视为来源跟踪尚未成为生物医学研究平台的共同特征。如果是这样的话,可以预期,更大比例的文献会将出处作为旁注提到,由于缺乏对出处技术的关注而导致其被排除在外。相比之下,许多在标题或摘要中提到出处的文章都特别关注这个主题。

所选文章中描述的方法和解决方案被系统化,重要属性被定性识别,它们的发生被评估和报告,个别例子被包括在特殊情况下,看起来相当独特。所报告的统计数据存在不确定性。它们应该被理解为指示,而不是绝对确定地描述整个领域。

结论

尽管人们对文献越来越感兴趣,但在生物医学领域,关于数据来源技术的发展几乎没有取得进展,这有助于减轻可重复性问题。一个重要的原因可能是缺乏通用和透明的解决方案来轻松捕获或创建来源数据,从而导致潜在的大量来源跟踪工作。我们发现的另一个差距是缺乏分析和可视化来源数据的具体方法,这可能会使充分利用所提供的附加价值变得困难。我们还观察到在生物医学应用的来源跟踪方法的动机、范围和功能上存在相当大的异质性,指出潜在的缺乏对潜在概念的统一理解和对特定用例的狭隘关注。提供通用数据集和应用程序场景,以及基准测试机制,可以帮助在未来克服这一挑战。

我们的工作特别集中在生物医学领域的论文上,以调查这一特定应用领域的最新技术。在未来的工作中,可能值得研究通用方法、模型和实现,并调查它们对生物医学用例的适用性。

作者的贡献

FB, FP和MJ对研究的概念化和启动做出了贡献。ACH、AM、FP、FNW、MJ和TM有助于资格筛选。ACH、AM、FP、FNW、MH、MJ和TM参与数据收集和制图。FB, FP和MJ参与了数据分析。FB, FP和MJ对手稿的起草做出了贡献。所有的作者都阅读并批准了最终的手稿。

利益冲突

没有宣布。

多媒体附录1

用于数据库搜索的查询。

DOCX文件,46 KB

多媒体附录2

选择过程和收集的数据。

XLSX文件(Microsoft Excel文件),157kb

  1. Curcin V.将数据来源嵌入到学习卫生系统中,以促进可重复的研究。学习健康系统2017年4月27日;1(2):e10019 [j]免费全文] [CrossRef] [Medline
  2. Wilkinson MD, Dumontier M, Aalbersberg IJ, Appleton G, Axton M, Baak A,等。科学数据管理和管理的公平指导原则。科学数据2016;3(1):160018 [j]免费全文] [CrossRef] [Medline
  3. Herschel M, Diestelkämper R, Ben Lahmar H.来源调查:为什么?什么形式?从什么?VLDB学报,2017;26(6):881-906。(CrossRef
  4. de Lusignan S, Liaw S, Krause P, Curcin V, Vicente MT, Michalakidis G,等。评估国际研究数据准备情况的关键概念:数据质量、血统和来源、提取和处理错误、可追溯性和管理。IMIA初级卫生保健信息学工作组的贡献。医学杂志2011;6:112-120。(Medline
  5. 孙艳,陆涛,顾宁。电子健康数据质量评估方法:使能数据溯源。参见:2017年IEEE第21届计算机支持协同设计国际会议论文集(CSCWD)。2017 IEEE第21届计算机支持设计协同工作国际会议(CSCWD);2017年4月26日至28日;惠灵顿,新西兰。(CrossRef
  6. Simmhan YL, Plale B, Gannon D.电子科学数据来源调查。计算机工程学报,2005;34(3):31-36。(CrossRef
  7. Baum B, Bauer C, frank T, Kusch H, Parciak M, Rottmann T,等。意见文件:生物医学研究中的数据来源挑战。信息科技,2017;59(4)。(CrossRef
  8. miss P, Belhajjame K, Cheney J.用于建模来源元数据的W3C PROV规范家族。第16届扩展数据库技术国际会议论文集。2013提交于:EDBT '13:第16届扩展数据库技术国际会议论文集;2013年3月18 - 22日;意大利热那亚。(CrossRef
  9. PROV-Overview - PROV文档家族的概述。W3C工作组。URL:https://www.w3.org/TR/prov-overview/[2022-07-22]访问
  10. Moreau L, Clifford B, Freire J, Futrelle J, Gil Y, growth P,等。开放来源模型核心规范(v1.1)。下一代计算机系统,2011;27(6):743-756。(CrossRef
  11. Maletzky A, Böck C, Tschoellitsch T, Roland T, Ludwig H, Thumfart S,等。提升医院电子病历数据宝藏:挑战与机遇。中国医学信息学报(英文版);2010;10(10):888 - 888 [j]免费全文] [CrossRef] [Medline
  12. 赵绍林,王春华,王晓明。基于多方法的可穿戴设备数据质量维度识别研究。JMIR Mhealth Uhealth 2021 Dec 23;9(12):e31618 [j]免费全文] [CrossRef] [Medline
  13. 林春华,陆绍平,李建平,等。物源采集技术的研究进展。发表于:2010年IEEE国际服务计算会议;2010年7月05-10日;迈阿密,佛罗里达州,美国(CrossRef
  14. 李建军,李建军,李建军,等。来源与科学工作流程:挑战与机遇。参见:2008年ACM SIGMOD数据管理国际会议论文集。2008年发表于:SIGMOD '08: 2008年ACM SIGMOD数据管理国际会议论文集;2008年6月9日至12日;加拿大温哥华。(CrossRef
  15. 杜格特A,吉本斯L,琼斯CD,库兹涅佐夫V, Riedewald M,赖利D,等。高能物理工作流程中的溯源。计算机科学,2008;10(3):22-29。(CrossRef
  16. 迪丽,岳平,Ramapriyan HK, King RL。地球科学数据来源综述。遥感学报,2013,31(11):5065-5072。(CrossRef
  17. Pizzi G, Togo A, Kozinsky B.材料科学中的来源、工作流程和晶体学工具:AiiDA、spglib和seekpath。2018年9月10日;43(9):696-702。(CrossRef
  18. 刘建军,张建军,张建军,等。水文学中物源模拟的研究进展。水文信息学报,2012;14(4):944-959。(CrossRef
  19. Spiekermann R, Jolly B, Herzig A, Burleigh T, Medyckyj-Scott D.实现细粒度自动化数据来源以支持透明的环境建模。环境工程学报(英文版);2019;18(3):344 - 344。(CrossRef
  20. Arksey H, O'Malley L.范围研究:走向方法论框架。国际医学杂志2005;8(1):19-32。(CrossRef
  21. 崔科,李丽娟,李建平,李建平,等。PRISMA范围审查扩展(PRISMA- scr):清单和解释。实习医学2018年10月2日;169(7):467-473。(CrossRef
  22. Booth A, Clarke M, Dooley G, Ghersi D, Moher D, petticcrew M,等。一年的普洛斯彼罗:对其效用的评估。系统通讯2013年1月15日;2(1):4 [j]免费全文] [CrossRef] [Medline
  23. 翼JM。数据生命周期。哈佛数据科学Rev 2019年6月23日。(CrossRef
  24. Page MJ, McKenzie JE, Bossuyt PM, Boutron I, Hoffmann TC, Mulrow CD等。PRISMA 2020声明:更新的系统审查报告指南。英国医学杂志2021年3月29日;372:n71 [j]免费全文] [CrossRef] [Medline
  25. 金海,金海,具海,柳kd,李诗,朴智,等。b区块链上医生应用和助手代理的个人健康记录智能去中心化:平台设计与实现研究。JMIR Med Inform 2021 Jun 07;9(6):e26230 [j]免费全文] [CrossRef] [Medline
  26. Yaqoob I, Salah K, Jayaraman R, Al-Hammadi Y.区块链医疗数据管理:机遇、挑战和未来建议。神经网络计算应用2021年1月07日;34(14):11475-11490。(CrossRef
  27. 张建军,张建军,张建军,张建军。电子病历研究中数据缺失的影响因素分析。中国医学杂志,2010;30(10):2221-2238。(CrossRef] [Medline
  28. 刘建军,刘建军,刘建军,等。物联网健康数据传播中的风险与合规性:基于安全意识的溯源方法。参见:2021年IEEE国际数字健康会议(ICDH)论文集。2021年IEEE国际数字健康会议(ICDH);2021年9月05-10日;芝加哥,伊利诺伊州,美国。(CrossRef
  29. Hasan HR, Salah K, Jayaraman R, Yaqoob I, Omar M, Ellahham S.使用智能合约的区块链远程医疗服务。IEEE Access 2021;9:151944-151959。(CrossRef
  30. Ross PB, Song J, Tsao PS, Pan C.基于网格的退伍军人百万计划的高效数据和任务管理。Sci Rep 2021 Dec 01;11(1):23229 [免费全文] [CrossRef] [Medline
  31. 王晓明,王晓明。基于委托身份管理的云上患者数据可移植性的实用通用联盟区块链范式。参见:2020年IEEE信息学、物联网和使能技术国际会议论文集(ICIoT)。2020年IEEE信息学、物联网和使能技术国际会议(ICIoT);2020年2月02-05日;多哈,卡塔尔。(CrossRef
  32. Jung HH, Pfister FM。支持区块链的临床研究同意管理。科技创新管理Rev 2020 Feb 29;10(2):14-24。(CrossRef
  33. 马格里,马西M,米拉迪A, Sassone V, Rosenzweig J.医疗数据的分散来源。中华医学杂志,2020;41(1):481 - 481。(CrossRef] [Medline
  34. 李建军,张建军,张建军。基于数据集的临床研究数据可追溯性研究。方法中华医学杂志2020年5月07日;59(2-03):75-85。(CrossRef] [Medline
  35. Rahman MA, Hossain MS, Islam MS, Alrajeh NA, Muhammad G.安全和来源增强的健康物联网框架:b区块链管理的联邦学习方法。IEEE Access 2020;8:205071-205087。(CrossRef
  36. 岳忠,陈杰。BEERE:生物医学实体扩展、排名和探索的web服务器。中国生物医学工程学报,2019;47(1):578- 586 [j]免费全文] [CrossRef] [Medline
  37. 王晓明,王晓明,王晓明,Martínez-Costa C .基于FHIR的临床文本挖掘。畜牧兽医学报2019年8月21日;264:83-87。(CrossRef] [Medline
  38. Kubendiran M, Singh S, Sangaiah A.使用区块链增强的电子卫生系统安全框架。[J] .信息系统学报,2019;15(2):239-250。(CrossRef
  39. 张建军,张建军,张建军,张建军。神经影像数据可视化的研究进展。[J] .计算机工程学报;2009;32(2):742 - 745。(CrossRef
  40. 张建军,张建军。基于多态分割的医学图像分割算法。计算方法程序生物学报2019年4月;171:19-26。(CrossRef] [Medline
  41. Stöhr MR, g nther A, Majeed RW。生物医学本体的RDF和Git来源。Stud Health technology Inform 2019年9月3日;267:230-237。(CrossRef] [Medline
  42. 龚静,林松,李静。基于智能合约的个人健康数据来源及权利确认研究。参见:2019年IEEE第四届先进信息技术、电子和自动化控制会议(iaaeac)论文集。2019 IEEE第四届先进信息技术、电子与自动化控制会议(iaaeac);2019年12月20日至22日;成都,中国。(CrossRef
  43. 李建军,李建军,李建军,等。临床研究数据模型的研究进展。中国医学杂志2019年6月24日;19(1):117 [j]免费全文] [CrossRef] [Medline
  44. 徐绍平,李建军,张建军,张建军。数据来源在医疗保健分析软件中的应用:用户活动信息可视化。中国生物工程学报,2018;17 (1):457 - 457 [j]免费全文] [Medline
  45. 庄勇,张磊,薛忠,蔡建军。区块链技术在健康信息交换及临床试验持续监测中的应用。中国生物医学工程学报,2018;18 (2):1169 -1175 [j]免费全文] [Medline
  46. 鲁贝尔O,鲍文BP。通过OpenMSI对质谱成像数据进行可共享和可重复的分析和可视化。计算机工程学报,2018,24(1):1025-1035。(CrossRef
  47. FHIR医疗目录:采用共享接口实现可互操作的医疗设备数据集成。动物卫生通报2018;249:181-184。(Medline
  48. 引用本文:李建军,李建军,李建军,李建军。基于语义来源知识库的科学研究可重复性评价。中国生物医学工程学报,2017;17 (2):1705-1714 [j]免费全文] [Medline
  49. Schreiber A, Struminksi R.使用漫画可视化个人数据的来源。计算机2018年2月1日;7(1):12。(CrossRef
  50. 何建平,李建军,李建军,李建军,李建军。基于多生物医学数据集的药物治疗方案可视化研究。BMC Bioinformatics 2017 Sep 13;18(增刊10):393 [j]免费全文] [CrossRef] [Medline
  51. 夏强,李建平,高军,杜鑫,Guizani M. MeDShare:基于区块链的云服务提供商间无信任医疗数据共享。IEEE Access 2017;5:14757-14767。(CrossRef
  52. Curcin V, Fairweather E, Danger R, Corrigan D.模板作为决策支持系统中实现数据来源的方法。[J]中国生物医学工程学报,2017,25 (5):391 - 391 [J]免费全文] [CrossRef] [Medline
  53. 王马T H,曹J,勇J,赵y在医疗环境中访问控制管理与出处。参见:IEEE第20届计算机支持协同设计国际会议论文集(CSCWD)。2016年在IEEE第20届计算机支持协同设计国际会议(CSCWD)上发表;2016年5月04-06日;中国南昌。(CrossRef
  54. 李建军,李建军,李建军,等。解决大数据全基因组关联研究(GWAS)中的来源问题。IEEE首届互联健康国际会议论文集:应用、系统和工程技术(CHASE)。2016年IEEE首届互联健康国际会议:应用、系统和工程技术(CHASE);2016年6月27-29日;美国华盛顿特区。(CrossRef
  55. 李建军,李建军,李建军,等。基于工作流的生物医学研究数据来源可视化。计算图论坛2016 june 04;35(3):481-490 [j]免费全文] [CrossRef] [Medline
  56. Edlund SB, Beck KL, Haiminen N, Parida LP, Storey DB, Weimer BC,等。食品安全生物信息学MCAW计算服务的设计。IBM J Res Dev 2016 Sep;60(5/6):2:1-:12。(CrossRef
  57. Chandran UR, Medvedeva OP, Barmada MM, Blood PD, Chakka A, Luthra S等。TCGA探险:TCGA数据采集与管理系统。PLoS One 2016;11(10):e0165395 [j]免费全文] [CrossRef] [Medline
  58. Rusu LI, Wyres KL, Reumann M, Queiroz C, Bojovschi A, Conway T,等。利用下一代测序进行常规微生物学和公共卫生应用的平台。卫生信息科学系统,2015年2月24日;3(增刊1):7。(CrossRef
  59. 杨建军,杨建军,张建军,等。循证医学应用的研究进展。第9届医疗普及计算技术国际会议论文集(PervasiveHealth)。2015年出席:第九届医疗普及计算技术国际会议(PervasiveHealth);2015年5月20-23日;伊斯坦布尔,土耳其。(CrossRef
  60. 李建军,张建军,李建军,等。基于分子对接的HPC云计算模型研究。发表于:2014 IEEE国际并行与分布式处理研讨会;2014年5月19-23日;菲尼克斯,亚利桑那州,美国(CrossRef
  61. 李建军,李建军,李建军。基于无线链路指纹的首跳数据溯源技术研究。计算机科学与技术学报,2014,31(12):393 - 394。(CrossRef
  62. 王勇,胡鑫。普适医疗监控系统中事故来源的模糊推理。生物医学学报,2013;17(6):1015-1022。(CrossRef
  63. 张建军,张建军,张建军,张建军。移动医疗的研究进展。参见:2013年第五届通信系统与网络国际会议论文集(COMSNETS)。2013年第五届通信系统与网络国际会议(COMSNETS);2013年1月07-10日;印度班加罗尔。(CrossRef
  64. Keator D, Helmer K, Steffener J, Turner J, Van Erp T, Gadde S,等。对现有资源的原始和衍生神经成像数据进行结构化共享。神经影像2013年11月15日;82:647-661 [j]免费全文] [CrossRef] [Medline
  65. 陈B,丁颖,Wild DJ。利用语义注释改进系统化学生物学数据的集成搜索。化学通报2012年3月08日;4(1):6 [J]免费全文] [CrossRef] [Medline
  66. Gadde S, Aucoin N, Grethe JS, Keator DB, Marcus DS, Pieper S, FBIRN, MBIRN, BIRN-CC。XCEDE:用于生物医学数据的可扩展模式。神经信息学2012;1 (1):19-32 [j]免费全文] [CrossRef] [Medline
  67. 张建军,张建军,张建军,等。网格基础设施科学实验溯源方法研究。参见:IEEE第七届国际电子科学会议论文集。2011年发表于:IEEE第七届电子科学国际会议;2011年12月05-08日;斯德哥尔摩,瑞典。(CrossRef
  68. sci期刊&国家排名。SCImago。URL:https://www.scimagojr.com/countryrank.php[2022-05-12]访问
  69. 甘华S,可汗FZ, Lonie A, Sinnott RO。调查再现性和追踪来源——一个基因组工作流程案例研究。生物信息学2017年7月12日;18(1):337 [j]免费全文] [CrossRef] [Medline
  70. 贺建军,张建军,张建军,大规模分析质量控制(MAQC)学会董事会,王德龙,等。人工智能的透明度和可重复性。《自然》2020 Oct 14;586(7829):E14-E16 [j]免费全文] [CrossRef] [Medline
  71. 分层数据格式5:HDF5。在:开源工具手册。马萨诸塞州波士顿:b施普林格;2011.
  72. 莫罗L,格罗思P,切尼J,勒博T,迈尔斯s。[J] .中文信息学报(英文版);2015;35(5):557 - 557。(CrossRef
  73. 李建军,李建军,李建军,李建军。多智能体系统中的数据来源:相关性、益处和研究机会。[J] .元数据语义控制,2018;13(1):9。(CrossRef
  74. Mangul S, Martin LS, Hill BL, Lam AK, Distler MG, Zelikovsky A,等。组学计算工具的系统基准测试。中华医学会2019年3月27日;10(1):1393 [j]免费全文] [CrossRef] [Medline
  75. 立场声明:对生物信息学的来源、工作流程和(语义网)注释的思考。Studylib。URL:https://studylib.net/doc/15380026/carole-goble-position-statement--musings-on-provenance--w[2022-07-22]访问
  76. 郭建军,郭建军,郭建军,陈建军,陈建军,陈建军。生物医学数据集和工作流程中来源的方法和标准:范围审查方案。JMIR Res协议2021 11月22日;10(11):e31750 [j]免费全文] [CrossRef] [Medline


HDF5:分层数据格式,版本5
人事管理局:开放来源模型
PRISMA-ScR:系统评价和荟萃分析的首选报告项目扩展范围评价
中移动:研究问题
W3C:万维网联盟


编辑:梁涛;提交30.08.22;V Curcin、Z Zrubka、JD Carrier同行评议;对作者23.11.22的评论;修订版本收到14.12.22;接受23.12.22;发表27.03.23

版权

©Marco Johns, Thierry Meurers, Felix N Wirth, Anna C Haber, Armin m, Mehmed Halilovic, Felix Balzer, Fabian Prasser。原发表于《医学互联网研究杂志》(//www.mybigtv.com), 2023年3月27日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map