这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。
数据来源是指数据的来源、处理和移动。关于数据来源的可靠和精确的知识具有极大的潜力,可以提高生物医学研究的可重复性和质量,从而促进良好的科学实践。然而,尽管文献中对数据来源技术及其在其他学科中的应用越来越感兴趣,但这些技术尚未广泛应用于生物医学研究。
本次范围审查的目的是通过系统化涵盖为该应用领域开发或使用的数据溯源技术的文章,对生物医学研究中溯源方法的知识体系进行结构化概述;描述和比较所使用的溯源技术的功能和设计;并找出文献中的空白,这可以为未来的技术研究提供机会,这些技术可以得到更广泛的采用。
根据范围界定研究的方法学框架和PRISMA-ScR(系统评价和荟萃分析扩展范围评价的首选报告项目)指南,通过搜索PubMed, IEEE Xplore和Web of Science数据库确定文章,并随后筛选其资格。我们收录了2010年至2021年间发表的基于软件的科学研究来源管理的原创文章。沿着以下五个轴定义了一组数据项:发布元数据、应用程序范围、涵盖的来源方面、数据表示和功能。从文章中提取数据项,存储在图表电子表格中,并在表格和图形中进行汇总。
我们确定了2010年至2021年间发表的44篇原创文章。我们发现所描述的解在所有轴上都是不均匀的。我们还确定了使用来源信息、特征集(捕获、存储、检索、可视化和分析)和实现细节(如所使用的数据模型和技术)的动机之间的关系。我们发现的重要差距是,只有少数出版物解决了来源数据的分析或使用既定的来源标准,例如PROV。
文献中发现的来源方法、模型和实现的异质性表明对生物医学数据的来源概念缺乏统一的理解。提供一个共同框架、生物医学参考和基准数据集可以促进制定更全面的来源解决方案。
重复危机暴露出许多科学研究缺乏可重复的结果,包括生物医学领域的研究[
尽管数据来源信息的定义在某些方面有所不同,但它通常被理解为元数据,描述影响数据集的所有事件。数据集可以被某些进程更改,从而导致状态更改。我们认为状态发生变化的数据集是一个新数据集。数据来源跟踪有关其概念的信息(例如,谁或什么创建了数据)以及可能已应用的所有转换和处理操作[
在生物医学方面,收集数据的形式和类型多种多样,目的也不同,包括保健和研究。通常,这些数据包括有关治疗、病情和患者结果的信息,这些信息通常通过测量或更抽象的观察来描述。这些观察的来源和收集它们的背景可能不同,这可能对它们的意义和可靠性产生影响。例如,观察结果可以由人手动捕获(例如,医疗保健专业人员测量患者的心率)或由设备自动捕获(例如,已经放置在患者手指上的数字脉搏血氧计),从而影响其精度。另一个例子是从临床文件中获取结构化的研究数据,这可能是一个涉及管理的手动过程,也可能是一个由机器执行的自动化过程,这会影响可靠性。考虑到前面提到的对这些数据的处理以及在此过程中可能引入的错误或不准确,对数据来源元数据的评估(例如,通过可视化或分析)可以帮助临床医生或研究人员了解信息的质量,并帮助信息学家在出现问题时找到根本原因。
在此图中,输入数据节点表示上的数据
相对于数据处理发生的时间,可以前瞻性和回顾性地获取数据的来源[
一个简单的示例来源图,其中观察结果被映射到要加载到数据仓库中的遭遇。
虽然数据来源跟踪在某些学科中是一种常见的做法,例如物理学、地球科学、地理学(特别是地理信息系统)、材料科学、水文科学和环境建模[
在本文中,我们提出了一个范围审查:(1)提供了详细的研究概述,描述了为生物医学研究开发或使用的数据来源技术(例如,用于成像数据,健康记录和组学数据);(2)描述和比较支持的功能(例如,创建、存储、查询、分析或可视化数据来源信息)以及方法的设计(例如,使用标准或数据存储类型);(3)使用这些信息来识别文献中的空白(例如,很少支持的功能组合),这可以为未来的技术研究提供机会,这些技术可以得到更广泛的采用。
这项系统的范围审查是按照Arksey和O 'Malley [
在确定纳入标准之前,我们对数据来源进行了非结构化文献检索,发现文献主体中包含了许多不在本综述范围内的领域的研究。在此基础上,我们建立了一个初始版本的标准,以区分关于在生物医学研究中使用来源方法的文章与关于在其他能力或学科(如药品供应链或动物分类)中使用来源方法的文章。对标准的描述经过初步的样本筛选,以减轻作者之间解释的差异。
我们纳入了以下文章:(1)描述了在生物医学研究或相关科学学科中使用数据来源、数据谱系或数据谱系信息;(2)描述了基于软件的方法(即,专注于纯手工来源跟踪的文章不符合条件)。此外,文章需要(3)发表在同行评议期刊或会议论文集上的原创论文,(4)用英文撰写,(5)发表于2010年至2021年之间。
排除标准是类似地制定的。我们排除了以下文章:(1)不涉及数据来源,而是关注其他背景下的来源(例如,历史、地质或物流);(2)没有关注数据来源的数字技术、数据、软件、方法或模型;(3)没有将重点放在生物医学或与健康相关的研究或数据上(例如,如果生物医学领域只是作为众多示例性应用领域中的一个);(4)没有描述数据的来源,而是使用了来源数据(例如,用于跟踪供应链中的产品)。
“出处”存在近义词,例如“谱系”或“血统”,因此必须将其包含在搜索条件中。此外,如前一节所述,我们需要歧视不属于生物医学范围或背景的文章。为此,我们纳入了关键词“生物医学”、“医学”和“健康”。
我们搜索了Web of Science、PubMed和IEEE explore数据库,因为这个主题是医学和计算机科学的交叉。检索字符串使用要求的文章标题或摘要,包含两个主题中的每个主题的至少1个关键字和反映审查范围的相应关键字:
主题“来源”由以下术语捕获(“数据来源”或“数据谱系”或“数据系谱”)
"生物医学"专题的关键词为("医学"或"生物医学"或"健康")
中提供了用于不同数据库的确切搜索字符串
选择过程通过两个连续的筛选步骤进行:(1)筛选所有结果论文的标题和摘要;(2)筛选第一步中选择的所有论文的全文。每篇文章由第一作者和一名共同作者进行筛选。分歧由最后一位作者解决。不包括物品的原因也有记录,并载于
我们沿着五个轴定义数据项,以对我们的研究问题(RQs)产生见解:(1)发表元数据,(2)应用范围,(3)涵盖的来源方面,(4)数据表示,(5)功能。中提供了类别、单个项和值集的概述
可以看出,我们收集了出版物
用于全文图表的数据项。
名字 | 描述 | |
|
||
|
出版年份 | 出版物出版的年份 |
|
作者的位置 | 第一作者和最后作者所在机构所在的国家 |
|
||
|
应用领域 | 该贡献是否可应用于生物医学研究或直接应用于卫生保健实践 |
|
焦点 | 是否处理数据来源问题是出版物的主要焦点,或者来源方面是否只是间接提及或作为内在必要性的补充 |
|
动机 | 使用数据来源背后的动机 |
|
数据类型 | 管理来源信息的数据类型(选项包括结构化临床和健康数据、组学数据、成像数据、传感器或设备数据、自由文本和其他类型的数据)或贡献是否与数据类型无关(即通用数据) |
|
||
|
在哪里起源 | 该贡献解决了数据来源方面的问题 |
|
如何起源 | 该贡献解决了如何产生特定结果的方面(即前面的处理步骤)。 |
|
谁出处 | 贡献说明了谁(或哪个实体,如组织、软件或设备)对数据或数据处理负责或声称拥有所有权 |
|
为什么出处 | 该贡献解决了为什么产生某个结果或数据点的问题,这需要捕获所有先前的处理步骤和数据源 |
|
||
|
抽象数据模型 | 用于表示来源信息的抽象数据模型;例如图形、列表、引用和复合对象 |
|
具体数据模型 | 用于存储出处信息的具体数据模型;例如区块链、命名图、关系模型和基于文件的存储 |
|
标准数据模型 | 数据模型是否与常见的来源标准(如PROV或OPM)兼容一个 |
|
不变性 | 来源信息是否不可变 |
|
物质化 | 来源信息是虚拟的还是物化的,即中间处理结果是否被显式存储为完整的数据集 |
|
||
|
创建和捕获 | 数据来源信息是如何捕获的,或者由什么类型的实体捕获的;我们区分了通过独立软件进行额外捕获,通过一些基于中间件或触发器的方法集成,固有地使用区块链,或从外部来源提取 |
|
查询和检索 | 如何查询或检索来源信息;选项是通过API检索b或GUIc、结构化查询、选择性查询或非结构化搜索查询 |
|
分析 | 如何对来源信息进行分类分析,这有助于识别具有相似特征集的贡献;这些类别是“通用的”或与用例无关的(例如,描述性统计)和“特定的”或与用例相关的(例如,推理或错误跟踪)。 |
|
可视化 | 识别与数据来源有关的信息的来源信息的可视化方式的可视化类型或者方法;细节包括可视化是基于图形还是流网络来检查基于其原生结构的种源可视化模式,以及是否使用特定工具进行可视化 |
|
产生时间 | 元数据生成时间;我们区分了前瞻性生成和回顾性生成,前者是在数据处理期间生成元数据,后者是在过去完成数据处理,并且元数据是基于以前生成的工件(如日志文件)生成的 |
一个OPM:开放来源模型。
bAPI:应用程序编程接口。
cGUI:图形用户界面。
通过数据库检索共鉴定出138篇文章(45篇,32.6%来自PubMed;40,29 %来自IEEE explore;53.38.4%来自Web of Science)。选择过程的概述见
从138篇文章中,我们在第一次筛选过程中排除了42篇(30.4%)重复和36篇(26.1%)文章。在60篇符合条件的全文文章中,3篇(5%)无法检索。在剩下的57篇文章中,13篇(23%)被排除在第二次筛选过程中。最终纳入综述的文献有44篇,并在数据制图步骤中进行处理(参见
PRISMA(系统评价和荟萃分析首选报告项目)选择过程流程图(基于Page等人的研究)[
符合条件的项目列表(n=44)。
序列号 | 一年 | 标题 | 参考 |
1 | 2021 | 区块链上医生应用程序和助手代理的个人健康记录智能去中心化:平台设计与实现研究 | [ |
2 | 2021 | 医疗数据管理的区块链:机遇、挑战和未来建议 | [ |
3. | 2021 | 调整基于电子健康记录的研究中由于缺失数据导致的选择偏差 | [ |
4 | 2021 | 物联网中的风险与合规性——健康数据传播:基于安全意识的来源方法 | [ |
5 | 2021 | 使用智能合约的区块链远程医疗服务 | [ |
6 | 2021 | 网格有效的数据和任务管理在VA百万退伍军人计划 | [ |
7 | 2020 | 利用委托身份管理在云上实现患者数据可移植性的实用通用联盟区块链范式 | [ |
8 | 2020 | 基于区块链的临床研究同意管理 | [ |
9 | 2020 | 医疗保健数据的分散来源 | [ |
10 | 2020 | 通过元数据框架增强临床研究数据的可追溯性 | [ |
11 | 2020 | 安全和来源增强的健康物联网框架:区块链管理的联邦学习方法 | [ |
12 | 2019 | here:用于生物医学实体扩展、排名和探索的Web服务器 | [ |
13 | 2019 | FHIR的临床文本挖掘 | [ |
14 | 2019 | 使用区块链的电子卫生系统增强安全框架 | [ |
15 | 2019 | neuroproof:用于神经成像分析的来源数据可视化 | [ |
16 | 2019 | 医学图像计算中的多形态分割表示 | [ |
17 | 2019 | 生物医学本体的RDF和Git来源 | [ |
18 | 2019 | 基于智能合约的个人健康数据来源及权利确认研究 | [ |
19 | 2019 | 临床研究的通用数据模型 | [ |
20. | 2018 | 数据来源在医疗分析软件中的应用:用户活动的信息可视化 | [ |
21 | 2018 | 应用区块链技术进行卫生信息交换和临床试验的持续监测 | [ |
22 | 2018 | 通过OpenMSl对质谱成像数据进行可共享和可重复的分析和可视化 | [ |
23 | 2018 | FHIR医疗保健目录:采用共享接口实现可互操作的医疗设备数据集成 | [ |
24 | 2018 | ProvCaRe语义来源知识库:评估科学研究的可重复性 | [ |
25 | 2018 | 使用漫画可视化个人数据的来源 | [ |
26 | 2017 | 一种电子健康数据质量评估方法:启用数据来源 | [ |
27 | 2017 | MediSyn:支持药物治疗选择的多种生物医学数据集的不确定性感知可视化 | [ |
28 | 2017 | MeDShare:通过区块链在云服务提供商之间共享无信任的医疗数据 | [ |
29 | 2017 | 模板作为决策支持系统中实现数据来源的方法 | [ |
30. | 2016 | 医疗保健环境中具有来源的访问控制管理 | [ |
31 | 2016 | 解决大数据全基因组关联研究(GWAS)中的来源问题 | [ |
32 | 2016 | 牛油果:可重复生物医学研究的工作流派生数据来源的可视化 | [ |
33 | 2016 | 食品安全生物信息学MCAW计算服务的设计 | [ |
34 | 2016 | TCGA远征:TCGA数据采集与管理系统 | [ |
35 | 2015 | 利用下一代测序用于常规微生物学和公共卫生的平台 | [ |
36 | 2015 | 基于路径来源数据的循证医学应用建模 | [ |
37 | 2014 | 探索HPC云分子对接流程中的大规模受体-配体对 | [ |
38 | 2014 | 使用无线链路指纹保护穿戴式设备的第一跳数据来源 | [ |
39 | 2013 | 普适医疗监控系统中事故来源的模糊推理 | [ |
40 | 2013 | 移动医疗的来源框架 | [ |
41 | 2013 | 对现有资源的原始和衍生神经成像数据的结构化共享 | [ |
42 | 2012 | 利用语义注释改进系统化学生物学数据的集成检索 | [ |
43 | 2012 | XCEDE:生物医学数据的可扩展模式 | [ |
44 | 2011 | 网格基础设施上科学实验溯源方法研究 | [ |
文章发表年份从2011年到2021年不等。约三分之二(29/ 44,66%)的文章发表于2017年至2021年,三分之一(15/ 44,34%)的文章发表于此时间框架之前,即2011年至2016年,呈现增加趋势(
每年的出版物数量。
大多数第一作者和高级作者工作在美国(34/ 90,38%),其次是中国(8/ 90,9%)、德国(8/ 90,9%)、英国(6/ 90,7%)、澳大利亚(6/ 90,7%)、加拿大(4/ 90,4%)和阿拉伯联合酋长国(4/ 90,4%)。我们注意到,出现次数少于4次的国家被归为“其他”(20/90,22%),一些作者隶属于多个组织。结果与SCImago国家排名的前几名大致相当[
分析的大多数论文(34/44,77%)只关注研究数据处理中的出处,而一些(8/44,18%)关注出处在研究和医疗保健中的应用,只有5%(2/44)通过提出监测系统的反向推理算法,专门关注出处在医疗保健实践中的应用[qh]
在大约一半的出版物(23/44,52%)中,数据来源是主要的研究主题,而另一半(21/44,48%)则间接地或作为更广泛的方法或解决方案所描述的固有属性来处理数据来源。
对来源数据需求背后的动机被分类为“有效性”、“可再现性”、“监管需求”、“可重用性”和“透明度”,并且每个出版物被分配到与所描述的动机相匹配的类别中。
解决来源最常见的原因是有效性(22/44,50%),其次是可重复性(15/44,34%)和遵守法规要求的需要(15/44,34%),可重用性(11/44,25%),然后是透明度(8/44,18%)。一些论文没有详细说明为什么要考虑出处(3/ 44,7 %)。在
最常提到的(可能多次提到)支持的数据类型是
所关注的数据类型的共现和所提出的动机在
值得注意的是,研究组学和成像数据来源的论文往往是出于可重复性方面的考虑。这是有道理的,因为这两种类型的数据本质上都相当庞大和复杂,而处理操作,例如生物信息学管道或基于人工智能的图像分析,有时很难复制[
针对特定数据类型并提及特定动机的论文百分比。
关于所描述的方法或解决方案所支持的来源方面,我们确定了以下部分提供的覆盖范围。
所有论文(44/44,100%)均支持
确定了以下用于表示来源信息的抽象数据模型:
所描述的抽象数据模型是使用以下具体数据模型和相关存储解决方案实现的:
当交叉引用动机类别与贡献是基于区块链还是使用其他技术时(
动机组的频率表,以及解决方案是否基于区块链。
共有23%(10/ 44,23%)的论文声称与PROV数据模型兼容,而7%(3/ 44,7%)的论文声称与OPM兼容。大多数出版物(31/ 44,70 %)没有说明与任何一个标准的兼容性。在所有表示与任何一种标准兼容的论文中,2018年以来发表的所有论文(7/ 44,16 %)都倾向于使用PROV模型。没有论文提到与两个标准的兼容性。
一旦创建或捕获就不能更改的数据被认为是不可变的。27%(12/44, 27%)的出版物中提出的方法和解决方案提供了不变性或不可否认性,其中92%(11/12,92%)基于区块链技术,其本质上是不可变的。一篇论文提出了基于加密方法的不可否认的来源[
我们进一步分析了所描述的方法或解决方案是否将中间结果存储为完整数据集,即:
数据来源方法、模型和实现支持的技术活动是数据来源信息的创建或捕获、存储、检索或查询、分析和可视化,这是数据生命周期中的常见活动。当查看所分析的方法和解决方案为这些活动提供的支持时,对数据生命周期后期执行的任务的支持明显减少,如所示
一些出版物(39/ 44,89%)描述了支持数据生命周期中多个活动的方法。支持单个步骤的频率按升序排列:
数据生命周期的步骤支持的方法和解决方案进行了分析。
在描述支持创建或获取来源信息的方法或解决方案的论文中(39/ 44,89%),大多数论文(16/ 39,41%)通过更改用于数据生成或处理的较大程序、框架或脚本来获取来源信息和元数据
在描述支持查询或检索出处信息的方法或解决方案的论文中(24/44,55%),25%(11/44)的论文依赖于结构化查询,使用SQL、SPARQL、GraphQL或类似的查询语言。总共有42%(10/24)的解决方案提供了图形用户界面或应用程序编程界面来检索来源元数据。总的来说,4%(1/24)的文章描述了使用非结构化查询(即搜索字符串)进行检索,另外(1/ 24,4%)的文章描述了使用使用唯一标识符的选择性查询的方法。共有13%(3/24)的论文没有明确检索方法。
对数据来源解决方案分析的支持可以有多种形式。在这项研究中,如果分析涉及到普遍适用的方法,如提供描述性统计和度量以及简单的比较,则分析被归类为“通用”。在描述支持分析种源信息的方法或解决方案的论文中(9/44,20%),44%(4/9)的论文属于这一类。当分析被裁剪为特定于来源的用例时,例如推理、验证任务和错误跟踪,分析被认为是“特定的”。共有44%(4/9)的论文属于这一类:22%(2/9)的论文描述了验证数据来自可信赖设备的方法[
一般分析的结果通常使用常见的可视化类型进行可视化,例如条形图和折线图。在描述支持种源信息可视化的方法或解决方案的论文中(9/ 44,20 %),大多数论文(7/ 9,78 %)是基于某种基于图或流网络的可视化。总共22%(2/9)的出版物没有使用这样的基础,而是描述了在条形图和箱形图中显示消化信息的方法或解决方案。
可视化技术或方法包括多种可视化和度量的仪表板风格组合、Sankey图、图节点的聚合、力导向图、表和非正式的流程的漫画风格可视化。实现通常基于常见的可视化库或程序,如D3.js、Gephi、yEd、sigma.js、Dagre、GraphViz或Google Datalab。
在捕获或创建来源信息的解决方案和方法中(39/ 44,89%),大多数(31/ 39,79%)的解决方案和方法与数据处理时的预期接近。少数人(6/ 39,15 %)在处理结束后,基于创建的工件,如日志文件,回顾性地捕获了来源信息。总共有5%(2/39)的文章描述了追溯性和前瞻性捕获来源信息的选项,其中一种解决方案允许为先前完成的过程重建来源元数据[
在本研究中,我们概述了为生物医学领域开发或使用的数据来源方法和技术的研究。识别文献中描述的方法和解决方案是异构的。因此,所支持的功能和方法的设计被描述为导航异构景观的系统化,并支持基于几个特征的功能和设计的比较。此外,我们在系统化的基础上发现了文献中的空白,包括缺乏对某些功能的覆盖,例如对来源元数据的分析。主要发现、相关工作和局限性将在以下章节中介绍。
尽管在生物医学研究中使用数据溯源技术具有潜在的优势,如《
关于起源方面(在哪里、如何、为什么和谁),本综述中分析的每个解决方案都捕获了的方面
在查看所使用的逻辑和具体数据模型时,图和图数据库是最普遍的,这是合理的,因为它们是来源信息的自然表示。也经常使用广泛的通用数据模型,如关系模型或XML,因为它们足够通用,可以支持来自各种实现的来源元数据。尽管已经采用了一些方法,或者至少与最常见的来源标准(PROV和OPM)兼容,但许多论文没有解决与标准的兼容性问题,这阻碍了来源元数据的互操作性。
PROV模式近年来越来越受欢迎。OPM是“第一个社区驱动的来源模型”,它比OPM稍微更新,也更全面。[
处理或生成大型和复杂的数据,如组学或图像,是昂贵的[
最近,区块链已经成为一种支持数据来源某些方面的技术。区块链本质上通过促进共识算法和加密方法来维护单个块列表,从而提供来源和不可变性,其中所有相关方都同意任何给定块的前身和后继。这些块通常包含事务信息,从而启用包含或引用数据的来源。不幸的是,我们在本综述中确定和分析的基于区块链的解决方案通常没有超出其固有属性,并且在这个阶段,几乎没有覆盖其他方面,例如生物医学研究中非常需要的可重复性和可重用性。然而,由于它们支持明确定义和不可变的沿袭,它们可以很好地满足法规要求(例如,提供审计跟踪)。
数据来源信息的创建或捕获在逻辑上是使用它的第一步。因此,在所分析的所有方法或解决方案中,创建和捕获是来源数据生命周期中最常支持的活动,这并不奇怪。出处数据分析和可视化较少得到处理,这可能是数据出处在生物医学研究中仍未得到充分利用这一事实的直接结果,因此开发或研究出处信息"使用"的方法更为罕见。我们认为,领域特定分析和可视化方法的发展可能是实际展示来源跟踪的附加价值并帮助增加其采用的重要一步。此外,我们没有发现任何参考数据集的迹象,可用于开发和评估来源数据的分析或可视化方法。
最后,我们发现分析的大多数解决方案或方法依赖于额外捕获来源数据的方法,而只有少数方法依赖于对用户或处理环境透明的集成捕获方法。这意味着在捕获来源数据信息方面需要付出相当多的努力,这可能指向一个有前途的研究领域,即如何透明地捕获来源信息,而不会给数据处理框架的用户或开发人员带来额外的工作。
一些相关的论文对数据来源进行了研究和系统化的研究,尽管通常侧重于一般概念或应用,而不是生物医学。2005年,Simmhan等[
Herschel等人最近(2017年)的一项调查[
de Lusignan等[
Goble [
去年,Gierend等人[
由于选择的搜索策略,发现和纳入的文章的异质性,以及其中描述的方法和解决方案,本研究有一定的局限性。最重要的是,搜索策略被设计为专门捕捉生物医学研究中的来源主题,并且所使用的术语没有明确包括特定的研究领域,如心理学或其他行为科学。然而,我们认为我们的文献选择策略可能只错过了相关的文章,这些文章的摘要没有涉及更广泛的背景,这意味着在我们的搜索过程中提到了一个关键词。此外,我们认为不太可能存在具有这些特征的大量文献。大约46%(44/96)的唯一参考文献被纳入本综述,这一事实可以视为来源跟踪尚未成为生物医学研究平台的共同特征。如果是这样的话,可以预期,更大比例的文献会将出处作为旁注提到,由于缺乏对出处技术的关注而导致其被排除在外。相比之下,许多在标题或摘要中提到出处的文章都特别关注这个主题。
所选文章中描述的方法和解决方案被系统化,重要属性被定性识别,它们的发生被评估和报告,个别例子被包括在特殊情况下,看起来相当独特。所报告的统计数据存在不确定性。它们应该被理解为指示,而不是绝对确定地描述整个领域。
尽管人们对文献越来越感兴趣,但在生物医学领域,关于数据来源技术的发展几乎没有取得进展,这有助于减轻可重复性问题。一个重要的原因可能是缺乏通用和透明的解决方案来轻松捕获或创建来源数据,从而导致潜在的大量来源跟踪工作。我们发现的另一个差距是缺乏分析和可视化来源数据的具体方法,这可能会使充分利用所提供的附加价值变得困难。我们还观察到在生物医学应用的来源跟踪方法的动机、范围和功能上存在相当大的异质性,指出潜在的缺乏对潜在概念的统一理解和对特定用例的狭隘关注。提供通用数据集和应用程序场景,以及基准测试机制,可以帮助在未来克服这一挑战。
我们的工作特别集中在生物医学领域的论文上,以调查这一特定应用领域的最新技术。在未来的工作中,可能值得研究通用方法、模型和实现,并调查它们对生物医学用例的适用性。
用于数据库搜索的查询。
选择过程和收集的数据。
分层数据格式,版本5
开放来源模型
系统评价和荟萃分析的首选报告项目扩展范围评价
研究问题
万维网联盟
FB, FP和MJ对研究的概念化和启动做出了贡献。ACH、AM、FP、FNW、MJ和TM有助于资格筛选。ACH、AM、FP、FNW、MH、MJ和TM参与数据收集和制图。FB, FP和MJ参与了数据分析。FB, FP和MJ对手稿的起草做出了贡献。所有的作者都阅读并批准了最终的手稿。
没有宣布。