发表在25卷(2023)

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/40554,首次出版

原始论文

1应用数学学院,巴西里约热内卢,巴西

2全球公共卫生研究与分析网络,日内瓦,瑞士

3.Laboratório de mosquito transsores de Hematozoários,奥斯瓦尔多克鲁兹研究所,奥斯瓦尔多克鲁兹基金会,巴西里约热内卢

4国家公共卫生学院,奥斯瓦尔多·克鲁兹基金会,巴西,里约热内卢

5法国蒙彼利埃的Geomatys公司

6日内瓦大学医学院全球健康研究所,日内瓦,瑞士

通讯作者:

Flávio Coelho,理学硕士,博士

应用数学学院

格图里奥·巴尔加斯基金会

普拉亚·德·博塔弗戈,1999,508

巴西,22250-900

巴西

电话:55 37995735

电子邮件:fccoelho@fgv.br


背景:保证开放数据集的持久性、来源、可访问性和可信度,对于依赖流行病学和其他健康分析关键数据公共存储库的研究人员和组织来说是一项挑战。所需的数据存储库通常难以定位,并且可能需要转换为标准数据格式。数据托管网站也可能在没有任何警告的情况下改变或变得不可用。对一个存储库中的规则的单个更改可能会妨碍更新依赖于从外部数据源提取的数据的公共指示板。这些关切在国际一级尤其具有挑战性,因为旨在协调卫生和相关数据的系统政策通常由各国政府决定,以满足其个人需要。

摘要目的:在本文中,我们介绍了一个综合的公共卫生数据平台EpiGraphHub,旨在为开放的健康和相关数据提供一个单一的可互操作的存储库。

方法:该平台由国际研究界策划,允许敏感数据的安全本地集成,同时促进数据驱动应用程序和决策者报告的开发。它的主要组件包括集中管理的数据库,具有对数据的细粒度访问控制,完全自动化和文档化的数据收集和转换,以及强大的基于web的数据探索和可视化工具。

结果:EpiGraphHub已经被用于托管越来越多的开放数据集,并在此基础上自动进行流行病学分析。该项目还发布了一个开源软件库,其中包含平台中使用的分析方法。

结论:该平台是完全开源的,对外开放。它正在积极发展,目标是使其在大规模公共卫生研究中的价值最大化。

[J] .中国生物医学工程学报,2009;25:591 - 591

doi: 10.2196/40554

关键字



2019冠状病毒病大流行两年来,全球卫生界不得不克服意想不到的新挑战。除了迫切需要防止疾病传播和检测和治疗病人的材料之外,最大的挑战可能是向当局提供及时和翔实的证据,以便作出有效的公共卫生决定[1]。确保关于该流行病的临床和实验室信息的科学和统计准确数据的自由流动仍然是一项挑战,即使对资源丰富的国家也是如此。这一持续的挑战涉及有效和及时地传播这类信息,以支持有效地防治病毒传播[2-4]。处理这种技术数据海啸的困难来自许多因素:

  • 报告卫生数据的基础设施缓慢——在本次大流行之前,疾病监测数据的共享往往缓慢,需要数周或数月的时间[56来获取国家级的数据存储库。COVID-19的欧米克隆变体在被发现后大约一个月内传播到89个国家[7]。
  • 检测能力不足——自大流行开始以来,检测包的生产大幅增加,但大规模检测的成本和后勤保障对许多国家来说仍然遥不可及[8]。
  • 缺乏疾病报告的通用全球数据模型——监测数据集的可比性对于在全球范围内管理风险至关重要[910]。
  • 国家间数据交换缺乏互操作性。

改善前两个项目严格取决于国家资助的基础设施,但后两个项目可以通过非政府行为体和全球卫生研究界的协调行动来解决[11]。开发监测数据流在线分析工具生态系统,产生了对高质量原始数据的需求,这可以激励各国加大对卫生数据监测基础设施的投资。虽然我们不能直接影响各国提供数据的决定,但我们可以加快全球可及性。

在本文中,我们提出了一项由世界卫生组织(WHO)共同资助的倡议,旨在建立一个用于持续流行病学数据分析的开源平台。它旨在填补当前公共卫生数据分析生态系统中的多个空白,同时为决策者提供一个易于使用和响应迅速的工具。我们称这个平台为EpiGraphHub (EGH)。它提供了自动化的数据集成、清理和协调,并结合了一个web界面,可以轻松地进行数据探索和构建实时交互式仪表板。我们将介绍该平台的高级概述和一些关键示例,以说明其适用性。

所提出的平台与其他开放数据平台有一些相似之处,如下所示表1;然而,它的不同之处在于提供了额外的功能,并侧重于公共卫生数据和流行病学数据分析。我们将EGH与其他工具和框架进行比较(表1)的目的略有不同。例如,我们的数据世界(OWID) [12]与EGH数据聚合平台非常相似,不同之处在于它是一个数据丰富文章的集合。EGH使用OWID作为其数据源之一。其次,综合知识档案网络(CKAN) [13是一个联邦数据平台,主要用于对具有语义注释功能的异构数据资源进行编目。EGH数据集可以作为CKAN目录的一部分。Socrata [14的功能与《CKAN》非常相似。最后,谷歌数据工作室,也被称为Looker工作室[15],类似于EGH的数据探索组件。它是一个非常强大的商业智能工具,为那些需要创建关于任何主题的分析报告的人利用谷歌生态系统。

本文的其余部分分为七个部分:(1)系统架构,其中描述了平台的架构及其设计目标;(2)数据收集,其中详细介绍了数据收集模块的总体设计;(3)数据转换,其中描述了用于干净和预处理数据集的转换集;(4)数据探索和可视化,其中提供了用于可视化分析的交互式web界面;(5)数据分析;(6)应用程序托管,其中描述了EGH平台作为web和移动应用程序的通用后端的可用性,最后,(7)讨论部分,其中讨论了平台在类似计划背景下的相关性和适用性。

为了使这种连续分析成为可能,必须将来自多个来源的数据集成到一致的数据模型中,然后才能将其用于分析。还提供了一个本地存储层,以保证分析中使用的数据的持久性。此外,对于动态数据集(定期更新),可以创建快照,以便还可以维护与已发布分析相关联的数据集的确切版本。

表1。EpiGraphHub与其他开放数据平台工具的特性比较。这种比较并不是对其他工具的完整评估,只是对EpiGraphHub的选定功能进行比较。
功能 EpiGraphHub 我们的数据世界 综合知识档案网 Socrata 谷歌数据工作室
自动的、用户定义的数据收集 是的 没有 没有 没有 没有
连接到外部数据库 是的 没有 部分一个 部分一个 是的
仪表板创造 是的 没有 部分b 部分一个 是的
无代码的使用 是的 是的 是的 是的 是的
用户特定的数据处理和分析 是的 没有 是的 是的 部分
开源 是的 部分 是的 是的 没有
云或本地部署 是的 没有 是的 是的 部分
集成结构化查询语言开发环境 是的 没有 没有 没有 是的
流行病学分析图书馆 是的 没有 没有 没有 没有

一个可以跨实例联合。

b可以创建“数据预览”图表。


系统架构

EGH,它建立在开源商业智能平台Apache Superset之上[16],包含了使其更适合流行病学数据分析的附加功能,例如能够很好地横向扩展,允许它在分布式计算基础设施上服务于繁重的负载。该平台的组件将在以下小节中详细介绍,包括为流行病学相关数据集开发分布式数据收集引擎,为用户提供数据协调服务,托管具有访问EGH数据库特权的分析仪表板,以及提供Python和R的分析软件库,以优化平台上可用的数据。

该平台的架构有助于在完全开源的软件堆栈上自动收集、转换、存储、分析和可视化数据(图1).每个数据集的收集和转换阶段都是定制的,并记录在平台的在线文档中[1718]。整个堆栈的可移植性和复制性是平台设计的重要方面,它将每个软件服务放在Docker容器中(Docker, Inc;图2).容器是一个标准的软件单元,它将代码及其所有依赖项打包,这样应用程序就可以在不同的计算环境中快速部署并可靠地运行。

为了最大限度地提高代码的可重用性和开源社区的价值,所有用于数据收集、转换和分析的工具都是作为EGH软件库开发的,可以在Python和r中使用。这些库都有完整的文档,可以从EGH平台独立使用。图3展示了如何使用Python代码完成简单的数据上传到平台。

该项目提供了一个持续集成(CI)工作流。基于GitHub操作工具,CI由预配置的测试脚本组成,这些脚本在任何贡献可以合并到我们的存储库的主分支之前运行。CI例程构建所有容器,检查错误配置,并在EGH库上运行单元测试。CI是防止贡献破坏平台的关键。所有拉取请求在合并到主分支之前都必须通过CI测试。

持续部署(CD)工作流目前正在开发中,以使GitHub上的新版本能够自动触发指定部署服务器上的更新。CD工作流是一个重要的工具,可以有效地向用户交付新特性。

图1所示。EpiGraphHub平台的总体结构,包括4个主要模块。通过平台的数据流遵循图中箭头所示的顺序。每个数据集都根据其特定需求进行处理,但上述4个阶段始终可用。地理信息系统。
图2。平台架构基于Docker容器。在这张图中,平台的两个关键组件被表示为带有绿色盖子的盒子。容器被连接到主机环境中的虚拟网络中,并且可以交换数据。外部web应用程序可以直接连接到容器,通过公开的应用程序编程接口请求数据。
图3。一旦建立了加密的安全外壳连接,将数据上传到EpiGraphHub的Python脚本。

数据收集

由于许多健康数据存储库是可公开访问的[19-21],数据集的长期可用性和不变性是在一组广泛的数据源上构建数据分析平台时的一个关键挑战,这些数据源在不同的治理系统下运行,并由各种不同的来源提供资金。Lin等[22定义了开放数据集的信任原则(透明度、责任、用户关注、可持续性和技术)。开放数据储存库的另一套原则称为FAIR(可查找、可访问、可互操作和可重用)数据原则[23]。EGH遵循所有这些原则,但也保证用于特定分析的所有数据保持固定和可访问,就像进行分析时一样。

为了做到这一点,如果许可条款允许,我们会在服务器上保留原始数据的副本。在复制的实现中,我们对静态数据集和动态数据集进行了区分。静态数据集是不需要更新和修订的数据集——这些数据集只导入一次。另一方面,动态数据集必须定期更新或扩展。COVID-19病例计数等疾病监测数据库就是一个很好的例子。对于这些数据集,我们定义了它们的更新周期,由平台自动触发。与数据收集和集成相关的整个工作流程是使用Apache气流实现的[24]。Apache Airflow是一个分布式任务调度器,它允许将计算任务定义为工作流定向无环图的一部分,并有效地调度和监控。

选择应该收集哪些数据集的标准首先是基于我们的合作伙伴的研究项目的相关性,这是一种合作伙伴关系的存在,其次是基于我们的用户社区的请求。这种优先次序的一个直接例子是,由于我们与世卫组织合作应对这一全球挑战,目前COVID-19数据集占主导地位。

所有进入平台的数据集都被完整地记录下来,包括它们的内容、来源和收集时间。这允许用户确保数据质量,并将我们的数据版本与其来源处可用的版本进行比较。

所有数据集,无论是原始数据还是转换数据,都存储在PostgreSQL关系数据库服务器(PostgreSQL Global Development Group)中,该服务器具有可扩展的存储容量,以处理突然增长的需求。在此数据库服务器中,数据根据访问级别进行组织,其中公共和限制访问的数据集保存在完全独立的数据库中(图4).这保证了在我们基于web的可视化分析工具上公开公共数据集的全部内容,而不会损害非公共数据集的安全性。

该平台的一个关键方面是它能够连接并从广泛使用的卫生信息管理系统(HIMS)中提取数据,例如区域卫生信息系统2(奥斯陆大学)、GoData(世卫组织)等。政府和私人HIMS通常是封闭的平台,只有授权人员才能访问数据。因此,EGH的目标是提供开源软件,以便根据数据所有者的数据访问授权规则,方便地从这些平台提取数据。我们的云端服务[25]还包括开源Kobo工具箱服务器的集成部署[26]向需要收集原始数据的合作伙伴免费提供。

EGH数据收集功能的重要性通过减轻数据孤岛的限制得到了体现。此功能使决策者及其数据分析团队能够轻松地从单一来源获取所有相关数据进行全面分析,同时受益于我们的工作,以定位,收集,转换或清理,并存储多个数据集。

图4。EpiGraphHub数据库服务器中数据集的组织。可以根据每个数据集的需求配置对数据集的访问控制。

数据转换

作为数据集成管道的组成部分,一些数据集在插入数据库进行存储之前可能需要进行一些转换。该步骤在数据收集完成后,PostgreSQL数据库中还没有可用数据时执行。这种转换的例子包括将日期简单地规范化为一致的标准,或将国际标准化组织(ISO)地理编码添加到空间数据集中,以促进地图的生成。只要转换可以在Python或R脚本中实现,就可以将无尽的转换应用于数据集。这些转换的目的是保留数据的语义或它们的范围,而不改变它们。相反,他们专注于丰富数据或使其与数据表示标准保持一致。由于数据收集和转换脚本记录了原始数据的来源和应用的转换,因此所有转换对用户来说都是清晰的,用户可以修改它们以供个人使用。数据下载和转换过程的完整源代码可以在我们的GitHub存储库中获得。

在数据经历了初始转换并存储在平台中之后,可以通过创建数据库表的用户定义视图继续进行转换。这样的视图在创建可视化之前转换数据,并且不改变它们从中提取数据的原始表,通过web界面作为结构化查询语言(SQL)代码创建。这些视图可以在用户之间共享,并使每个额外的转换在平台上完全透明。

在数据进入平台时或在稍后阶段转换数据的重要性的一个例子是,随着平台上的数据集收集的增长,促进或启用与其他数据集的链接。

在用户之间存储和共享视图和其他转换可以成为初级数据分析人员的强大学习工具,也是建立转换和连接数据集的最佳实践的简单方法。

数据探索和可视化

设有一个网页介面,供互动查询及显示平台的数据集[25来帮助没有编程技能的用户从数据查询中创建可视化。然后可以发布、共享查询结果,或将其集成到实时仪表板中,只要底层数据发生变化,仪表板就会更新。该界面基于开源可视化分析平台Apache Superset。图5显示在平台上创建的仪表板。

平台内构建的可视化的共享和发布可以通过多种方式完成。用户创建和保存的所有图表、SQL查询和仪表板都有一个永久的URL,可以与平台外的用户共享。此外,仪表板可以标记为已发布,允许所有用户以及未在EGH平台上注册的任何人查看它们。

这个web平台允许对数据集进行细粒度的访问控制,方法是向在平台上创建帐户的用户授予可定制的用户权限。

EGH的web界面的另一个优点是,它提供了一个可访问的环境,通过将平台上执行的基于指向和点击的查询转换为等效的SQL代码,可以轻松地介绍SQL。用户可以保存、共享和进一步修改这些文件。

图5。显示瑞士各州COVID-19病例和住院情况的仪表板,完全通过在EpiGraphHub平台上点击创建。

数据导出和互操作性

存储在我们平台上的所有数据都可以被技术和非技术用户访问和导出。没有编码技能的用户可以使用我们的数据探索web界面对可用数据集应用过滤器,然后下载或共享它们作为JavaScript Object Notation (JSON)或逗号分隔值(CSV)文件。此外,还可以将每个图表(包括仪表板中的图表)中使用的数据导出为CSV文件。技术上更精明的用户可以使用我们的Python或R库访问存储在我们数据库中的数据,并在平台之外将其用于自己的项目。

由于在系统中创建的任何查询的结果都附加了一个永久的URL,因此结果表可以被外部分析环境引用,例如电子表格、R脚本或Python脚本,或者可以加载到外部数据库中。同样的模式也适用于将图表合并到外部web文档中,允许它们保持“活动”,也就是说,允许它们反映底层数据集中的更新。也可以在任何时候生成图表的静态图像快照。

道德的考虑

存储在我们数据库中的所有公开可用数据都来自公共数据源。我们还可以存储包含敏感信息的私人数据集。这些数据集将仅供与数据提供者达成协议的特定用户使用。


数据分析

在EGH平台上可以进行不同级别的分析。一层是数据清理和转换过程,它应用于平台数据库中的数据收集和存储之间。另一个层次是通过web界面在数据库中执行的分析。这可以通过图形界面或编写在服务器上运行的任意SQL代码来完成。最后,我们通过EGH Python和R库提供了更高级的分析应用程序编程接口。这些软件库公开了许多分析方法,以及数据访问功能,帮助用户基于EGH的可用数据创建自己的分析应用程序。

EGH平台内数据分析工作流程的一个例子是在COVID-19大流行的第一年对世卫组织非洲区域办事处的支持[1127]。来自成员国的个案数据以国家线路列表的形式收到,存储在Excel(微软公司)文件中。对每个国家线清单进行数据质量检查,然后对数据集进行统一,使其具有标准化变量。接下来的步骤是使用我们的库将所有数据集集成到EGH数据库中。这些数据集包含所有国家的个人信息。然后使用国家、地区和省级的ISO 3166-1 alpha-3代码对与病例地理定位相关的所有变量(如居住地、感染地点和报告地点等)进行标准化。在这些协调程序之后,将与全球行政区域项目提供的数据结合起来[28]。人口数据通过栅格世界人口(GPW;版本四)[29],为所分析国家的地区和省份内的人口统计提供了精细的解决方案。在所有这些数据协调步骤之后,编制了每周和每月分析报告,其中包括探索性流行病学分析。这个项目的数据集不能公开共享;尽管如此,EGH平台的效用并没有减少,因为如上所述,它被设计为托管公共和受限制的数据集。这允许具有适当权限的分析人员在同一分析报告或仪表板上组合公共和私有数据集。由于各种各样的分析可能性是相当广泛的,是由基于我们基于web的工具和软件库的用户定义代码定义的,我们建议读者参考我们的GitHub存储库中列出的文档[26]查阅详情。

应用程序托管

EGH还为基于该平台的web或移动应用程序的快速部署提供了一个工作流程。这个工作流允许从GitHub存储库进行CI和部署。它目前支持基于python的Streamlit (Snowflake Inc .), H20-wave (H20. wave)。ai公司)和基于Python/ r的Shiny (Posit公司)应用程序。将来可能会支持其他应用程序框架。

应用程序封装在托管在我们服务器上的Docker容器中。这允许访问中心托管数据集的低延迟。应用程序开发人员可以使用Docker模板在本地测试和部署他们的应用程序,而无需担心部署细节。生产中的应用程序通过CD工作流进行更新,该工作流允许在GitHub存储库中创建新版本时重新构建容器。这种方法有助于部署多个应用程序,而不会使平台管理员负担过重。


近年来,特别是为应对COVID-19大流行,开发了许多卫生数据汇总平台。通过EGH,我们创建了一个平台,由于每个步骤的透明度和对其他用户已经执行的分析步骤的重做需求最小化,以增强数据分析任务的再现性的方式,促进了数据收集、转换、存储和可视化探索的步骤。

这些数据管理问题并不新鲜。在巴西,Infodengue和Infogripe项目多年来一直分别监测虫媒病毒和流感,并向公众公开数据和流行病学分析[30.31]。h rliman等[32]在2011年谈到需要建立一个全球数据库来监测被忽视的热带病,但10多年后,没有这样的数据库存在。

在2019冠状病毒病大流行期间,开发了一些新的疾病监测数据库。例如,牛津大学牵头的OWID不仅专注于疾病监测,而且在大流行期间发挥了重要作用,以确保对SARS-CoV-2及其变体的传播有一个公开的全球视角[33]。此外,OWID维护实时仪表板,用于对其数据集进行交互式探索。谷歌通过其公共数据集计划,构建了细粒度的COVID-19数据集,也进入了这一领域[20.]。谷歌的数据集在易用性和内置功能方面表现出色,可以快速可视化地探索数据。

COVID-19大流行也促使许多国家在网上提供自己的COVID-19数据。然而,我们怀疑这种态度在大流行病结束后将不复存在。最能说明这一点的是,对COVID-19数据的开放尚未扩展到其他传染病。显然,需要在与公共卫生有关的数据方面实现更广泛的透明度。数据透明度应成为政府卫生数据管理基础设施的一个组成部分,而不应仅在应对可见的卫生紧急情况时才实现。因此,EGH的最终用户是政府和非政府的数据创造者和分析师,他们应该将EGH平台视为一个完全自动化和无麻烦的数据中心。因此,我们希望通过满足用户群的新需求,该平台能够继续增长。

EGH的数据整合方面不仅支持开放数据,还促进有效的公共卫生政策[34]。此外,由于它是一个完全开源的软件包,可以很容易地在一个国家部署,它填补了作为易于部署和低成本的卫生数据分析解决方案的一个重要空白。

尽管EGH平台提供了很多好处,但也存在一些限制。在平台上进行的分析的质量取决于其所依据的健康数据的质量。验证它聚合的所有数据集中包含的信息超出了EGH的固有能力。因此,为了提高生成数据的质量,我们与合作伙伴进行互动,向他们提供反馈,从而能够从源头上持续改进数据质量。来自我们的分析师社区的反馈是一个独特的优势,因为它关系到当前状态下数据的可用性,并支持对基于证据的政策制定至关重要的高级分析。

EGH平台虽然仍在开发中,但已被用于支持许多国家的COVID-19应对工作[112735]。Graph课程平台在EGH上的在线入门课程正在帮助扩大我们的用户基础。36]。随着对当前大流行做出紧急反应的压力最终减弱,我们希望我们的平台能够准备好继续为全球的疾病监测项目提供价值,并成为公开获取公共卫生数据的一个主要例子。

致谢

该项目得到了瑞士国家科学基金会(赠款31CA30_196270和PP00P3_202660)和世界卫生组织的支持。我们感谢Sabina Rodriguez编辑了这份手稿。

数据可用性

EpiGraphHub中存储的所有数据都可以通过web平台或加密的安全壳连接进行访问。任何人都可以创建一个账户并下载数据,但安全壳连接仅限于该平台的分析师。

利益冲突

没有宣布。

  1. Coelho FC, Lana RM, Cruz OG, Villela DAM, Bastos LS, Pastore y Piontti A,等。评估COVID-19在巴西的传播:流动性、发病率和社会脆弱性PLoS ONE 2020 Sep 18;15(9):e0238214 [j]免费全文] [CrossRef] [Medline]
  2. Budd J, Miller BS, Manning EM, Lampos V, Zhuang M, Edelstein M,等。数字技术在公共卫生应对COVID-19中的应用。中华医学杂志,2016,26(8):1183-1192。[CrossRef] [Medline]
  3. Whitelaw S, Mamas MA, Topol E, Van Spall HGC。数字技术在COVID-19大流行规划和应对中的应用。《柳叶刀·数字健康》2020;2(8):e435-e440 [j]免费全文] [CrossRef] [Medline]
  4. Intawong K, Olson D, Chariyalertsak S.应用技术抗击COVID-19大流行:泰国的经验教训。生物化学与生物工程学报[j]; 2011; 33 (4): 833 -836 [j]免费全文] [CrossRef] [Medline]
  5. 李建平,李建平。传染病公共卫生监测系统报告及时性评价。中华医学杂志2004;04:29 [j]免费全文] [CrossRef] [Medline]
  6. Bastos LS, Economou T, Gomes MFC, Villela DAM, Coelho FC, Cruz OG等。纠正疾病监测数据报告延迟的建模方法。统计医学2019年9月30日;38(22):4363-4377 [j]免费全文] [CrossRef] [Medline]
  7. 世卫组织表示,欧米克隆病毒在89个国家传播迅速。2021年12月18日URL:https://www.theguardian.com/world/2021/dec/18/who-says-omicron-in-89-countries-and-spreading-rapidly[2023-02-14]访问
  8. Seidu A, Hagan JE, Ameyaw EK, Ahinkorah BO, Schack T.检测在抗击COVID-19中的作用:非洲当前发生的事情和未来的道路。中华流行病学杂志[J]; 2009; 28 (3): 391 - 391 [J]免费全文] [CrossRef] [Medline]
  9. Cobarsí J, Calvet L. 2019冠状病毒病死率定量数据及其国家间可比性:以西班牙为例。2021,发表于:第18届危机应对与管理信息系统国际会议,ISCRAM 2021;2021年5月23日;弗吉尼亚州布莱克斯堡。
  10. 新冠肺炎的发病率和死亡率:数据可比性问题。人口统计,2020;7(1):6-26 [j]免费全文] [CrossRef]
  11. James A, Dalal J, Kousi T, Vivacqua D, castara DCP, Dos Reis IC,等。对世卫组织非洲区域COVID-19大流行最初传播的深入统计分析。中华医学杂志;2009;7(4):391 - 391 [j]免费全文] [CrossRef] [Medline]
  12. 我们的数据世界。全球变化数据实验室。URL:https://ourworldindata.org[2022-12-27]访问
  13. CKAN——开源数据管理系统。CKAN。URL:https://ckan.org/[2023-02-22]访问
  14. Socrata开发者。Socrata。URL:https://dev.socrata.com/[2022-12-27]访问
  15. Looker工作室概述。谷歌。URL:https://datastudio.google.com/[2022-12-27]访问
  16. Apache超集。Apache软件基金会。URL:https://superset.apache.org/[2022-03-10]访问
  17. 欢迎来到EpiGraphHub的文档。EpiGraphHub。URL:https://epigraphhub.readthedocs.io/en/latest/index.html[2022-01-13]访问
  18. EpigraphHub。欢迎来到EpigraphHub图书馆文档。URL:https://epigraphhub-libraries.readthedocs.io/en/latest/[2022-12-26]访问
  19. Coelho FC, codecadeo CT, Cruz OG, Camargo S, Bliman P.巴西流行病学数据可及性。《柳叶刀与感染杂志》2016;16(5):524-525。[CrossRef] [Medline]
  20. COVID-19开放数据存储库。谷歌健康。URL:https://health.google.com/covid-19/open-data/[2023-02-22]访问
  21. 欢迎来到healthdata。gov。HealthData.gov。URL:https://healthdata.gov/[2022-02-22]访问
  22. 林丹,刘建军,李建军,等。数字存储库的信任原则。Sci Data 2020年5月14日;7(1):144 [j]免费全文] [CrossRef] [Medline]
  23. Wilkinson MD, Dumontier M, Aalbersberg IJ, Appleton G, Axton M, Baak A,等。科学数据管理和管理的公平指导原则。科学数据2016年3月15日;3:160018 [j]免费全文] [CrossRef] [Medline]
  24. KoBoToolbox。EpiGraphHub。URL:https://kobo.epigraphhub.org[2023-02-15]访问
  25. 欢迎来到EpiGraphHub。EpiGraphHub。URL:https://epigraphhub.org/superset/welcome/[2022-06-27]访问
  26. GRAPH网络。GRAPH网络GitHub存储库。2021。URL:https://github.com/thegraphnetwork[2023-02-15]访问
  27. 刘建军,刘建军,刘建军,等。撒哈拉以南非洲女性和男性COVID-19死亡率:一项横断面研究。中华医学杂志,2011;6(11):e007225 [j]免费全文] [CrossRef] [Medline]
  28. GADM。GADM地图和数据。URL:https://gadm.org/[2023-02-22]访问
  29. 网格世界人口(GPW), v4:人口计数,v4.11。国际地球科学信息网络中心。URL:https://sedac.ciesin.columbia.edu/data/set/gpw-v4-population-count-rev11[2023-02-14]访问
  30. Codeco C, Coelho F, Cruz O, Oliveira S, Castro T, Bastos L. Infodengue:巴西虫媒病毒监测的临近预报系统。中华流行病学杂志2018年7月1日;391 - 391。[CrossRef]
  31. INFOGripe。Fiocruz。URL:http://info.gripe.fiocruz.br/[2022-12-18]访问
  32. h rlimann E, Schur N, Boutsika K, Stensgaard A, Laserna de Himpsl M, Ziegelbauer K,等。建立一个开放获取的全球数据库,用于绘制、控制和监测被忽视的热带病。中国生物医学工程学报,2011;5(12):893 [j]免费全文] [CrossRef] [Medline]
  33. matthieu E, Ritchie H, rod - guirao L, Appel C, Hasell J, Macdonald B,等。我们的数据世界。冠状病毒大流行(COVID-19) 2020:1-1。
  34. 为了消除疟疾,印度需要一个数据整合平台。中国生物医学工程杂志,2016,31 (5):349 - 349 [j]免费全文] [CrossRef] [Medline]
  35. Coelho FC, Araújo EC, Keiser O.瑞士COVID-19实时流行病学分析Sci Data 2022; 11月17日;9(1):707 [j]免费全文] [CrossRef] [Medline]
  36. EpiGraphHub简介(测试版)。图网络。URL:https://thegraphcourses.org/courses/intro-to-epigraphhub/[2022-12-27]访问


CD:持续部署
置信区间:持续集成
CKAN:综合知识档案网
CSV:逗号分隔值
EGH:EpiGraphHub
希姆斯:卫生信息管理系统
ISO:国际标准化组织
JSON:JavaScript对象符号
OWID:我们的数据世界
SQL:结构化查询语言
人:世界卫生组织


编辑:A Mavragani;提交27.06.22;S Pesälä, G de Oliveira Almeida的同行评审;对作者16.11.22的评论;修订版收到27.12.22;接受17.01.23;发表06.03.23

版权

©Flávio Coelho, Daniel Cardoso Portela c马拉,Eduardo Correa Araújo, Lucas Monteiro Bianchi, Ivan Ogasawara, Jyoti Dalal, Ananthu James, Jessica L Abbate, Aziza Merzouki, Izabel Cristina dos Reis, Kene David Nwosu, Olivia Keiser。原发表于医学互联网研究杂志(//www.mybigtv.com), 06.03.2023。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map