发表在10卷, 4号(2022): 4月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/36481,首次出版
面向大型医院的多源异构数据集成、海量高维数据治理的大数据医疗平台:设计、开发与应用

面向大型医院的多源异构数据集成、海量高维数据治理的大数据医疗平台:设计、开发与应用

面向大型医院的多源异构数据集成、海量高维数据治理的大数据医疗平台:设计、开发与应用

原始论文

1四川大学华西医院医学信息技术教育部工程研究中心,四川省成都

2四川大学华西医院,MAGIC中国中心,Cochrane中国中心,内分泌代谢科

通讯作者:

黄勇,理学硕士

医学信息技术工程研究中心

四川大学华西医院

教育部

华西医院信息中心

武侯区国学路37号

四川成都,610041

中国

电话:86 18980601030

电子邮件:huangyong@wchscu.cn


背景:随着数据密集型科学的到来,大数据科学与医疗健康的全面融合,将给中国医学界带来一场跨领域的革命。这个概念大数据不仅代表一种技术,也代表一种资源和一种方法。无论是在国家层面还是在医疗机构层面,大数据都被视为重要的战略资源,因此医疗大数据平台的建设受到高度重视。

摘要目的:我们的目标是开发和实施大型医院大数据平台,解决多源异构数据的标准化集成、计算、存储和管理难题,确保医疗数据安全。

方法:四川大学华西医院大数据平台建设项目于2017年启动。四川大学华西医院大数据平台从2008年1月开始对医院各科室数据进行提取、整合和治理。采用主从模式实现多源异构海量数据的实时集成,构建异构特征数据存储与计算过程分离的环境。完善基于业务的数据质量控制元数据模型,构建规范的医疗数据治理体系和科学闭环的数据安全生态。

结果:经过3年的设计、开发和测试,四川大学华西医院大数据平台于2020年11月正式上线。形成了庞大的多维数据资源库,患者1249万余人次,访问量7567万次,数据变量8475个。与医院运营数据一起,新生成的数据实时输入平台。平台上线以来,支持了20多个重大项目,为多个科研团队提供了数据服务、存储和计算能力支持,推动了数据支持模式从传统的人工提取向自助检索(月检索量达到8561次)的转变。

结论:平台可以将医院各科室的运营系统数据结合起来,形成海量高维高质量的医疗数据库,使电子病历得到有效利用,挖掘数据价值,全面支持临床服务、科研、运营管理。四川大学华西医院大数据平台能够成功生成多源异构数据存储和计算能力。四川大学华西医院大数据平台通过对来自多个来源的海量多维数据进行有效治理,提供了高可用性的数据资产,在医疗领域具有很高的应用价值。四川大学华西医院大数据平台使电子病历数据更简单、更高效地用于现实研究。

中国生物医学工程学报;2010;31 (4):563 - 567

doi: 10.2196/36481

关键字



背景

大数据、物联网、云计算、人工智能等新兴技术正在深刻改变医疗卫生服务模式。健康医疗数据集规模大、增长快、数据结构多样、价值密度多维、对数据可信度要求高、对数据安全关注度高,通常被称为健康医疗大数据。这个词大数据不仅代表一种技术,而且代表一种资源和一种方法——大数据平台是一个集数据、工具、应用和服务于一体的系统和工具。

在国家政策的推动下,欧洲的高收入国家,如英国[1],而在北美,如美国[2],率先打造医疗大数据平台[3.]。例如,英国的综合平台整合并应用了包括健康、医疗、交通、环境等12个类别的数据,以支持政府决策[3.]。捷克建设的大数据分析平台满足国家公共卫生服务的数据分析需求[4]。近年来,中国建立了国家级卫生信息平台,可与省级卫生信息平台对接,进行数据整合[5]。

除了国家层面的医疗大数据平台受到政策的推动外,大型医疗机构也根据自身的管理需求构建了大数据平台。目前,中国一家中型医疗机构每年产生的医疗数据量为1 ~ 20tb,大型医疗机构每年产生的医疗数据量为300tb ~ 1pb。一些医院利用大数据技术搭建了院级科研平台,如英国Ninewells医院和医学院开发了科研数据管理平台[6],韩国峨山医疗中心开发了基于综合数据的临床试验管理系统[7],中国北京大学人民医院开发了全院临床研究大数据平台[8]——或者建立全院范围的数据集成平台,例如北京大学第三医院[9]和广州中医药大学第二附属医院[10]。大多数医院在疾病分析平台(如鼻咽癌)中使用大数据技术[11])、肠胃疾病[12],癌症[13]和心肌病[14]。

荟萃分析(15-18]研究发现,医疗大数据平台对医疗技术、医疗服务质量、医疗成本产生了巨大影响,但实际建设过程并不容易,在数据的结构化、安全性、标准化、存储、处理、管理等方面都存在挑战[1516]。因此,从这种类型的数据中挖掘的价值目前是有限的[17],而在中国,医疗数据利用仍处于初级阶段[18],这就需要完善医疗大数据治理。

目标

大型医院产生的医疗保健数据包括:(1)临床诊断和治疗电子病历,包含诊断、处方、手术治疗和检查结果;(2)来自健康管理或临床研究活动的数据,包括随访信息、基因测序数据、体检数据;(3)医院管理相关数据,包括患者等待时间、床位周转率、医疗设备利用效率、收入等;(4)基于网络的诊疗服务数据[19]。要更好地利用医疗数据,首先要搭建数据采集和治理的大数据平台,生成高质量的数据资产。这将使深入的数据分析和挖掘,以及知识规则的形成,使大数据方法受益于临床实践,科学研究和医院管理。

除了平台建设的技术考虑外,大型医院的数据管理也必须从数据服务管理方面考虑。应特别注意患者隐私保护和数据使用的伦理问题。医院数据平台一般是为特定目的而构建的,如科研、运营、数据集成或分析,但大型医院往往需要一个综合的数据平台,满足医疗、教育、科研和管理的需求。

本研究的总体目标是以数据治理为核心理念,开发并实现中国某大型医院医疗大数据平台,解决多源异构医疗数据的集成、计算、存储、标准化和安全等难题。该平台将整合医院各运营系统的数据,生成高质量的数据资产,形成一个能够全面支持医院临床活动、科研和管理的海量高维医学数据库。

从技术层面来看,构建大数据平台需要解决以下医疗行业特有的问题:(1)整合医院内部多个独立信息系统的多源异构数据;(2)数据应用过程中机器学习和深度学习的发展带来的计算能力需求;(3)信息数据分析和利用困难(由于数据标准不统一,主患者索引的使用不一致,以及中国大多数电子病历以自然语言编写,不可能直接分析和利用现有信息数据,因此必须通过使用医学术语来提高语义互操作性);(4)数据安全性和患者隐私保护。


概述

四川大学华西医院(WCH)建立了一个医疗大数据平台,简称WCH- bdp这个平台从今以后。华西医院是世界知名的大型医院,拥有4800多张床位,平均每天约有15000名门诊病人。WCH的电子病历系统于2007年建成;因此,它已经使用了14年。医院有100多个科室,他们的临床活动产生了大量的数据。

传统信息技术已经无法处理不断增长的海量数据,导致多源异构数据难以有效整合,数据孤岛问题严重,数据存储和计算存在瓶颈,中文语义病历难以结构化利用,图像、视频、文件数据挖掘技术壁垒高。2017年,WCH启动了全院医疗大数据平台项目,以解决这些困难。

本项目重点是平台架构的设计和开发,不涉及临床数据的研究,因此不适用伦理声明。

项目组织

平台建设的第一步是组建项目管理团队。为了保证平台的性能,WCH成立了两个工作组,一个负责平台建设,一个负责平台管理。构建工作组包括首席平台架构师、信息技术专家、系统工程师和数据工程师。该平台由医院信息中心负责搭建。建设工作组重点研究了:(1)平台应用目标,(2)数据集成方法与范围,(3)主患者索引策略,(4)医学术语参考标准,(5)主数据范围,(6)数据模型结构,(7)系统实施与培训。每周召开项目会议,每月召开状态会议,总结各阶段进展,直至平台上线。这些会议中的讨论为平台设计和开发提供了坚实的基础。平台上线后,建设工作组还对系统功能、维护、帮助手册进行了定期培训。

管理工作组包括所有利益相关者,如首席信息官、医院管理用户、临床用户和科研用户。管理小组是数据治理委员会,负责在平台启动后组织和监督所有与数据相关的工作,包括数据定义、数据基准测试、数据质量控制和数据安全。该委员会负责制定相关管理制度、工作协作机制和程序标准化。

WCH-BDP框架设计策略

为了最终向不同的医疗服务提供数据,医院所有操作系统的多源异构数据的融合是必要的(图1)。因此,设计策略是使用具有足够容量的计算和存储设备将数据整合到相应的物理资源中,并根据模态的特征(如临床数据、图像数据或基因组数据)进行单独的存储和计算过程。使用数据治理方法构建数据存储库,以满足不同主题领域的需求。平台必须能够结合所有数据服务支持,例如数据安全服务、数据治理术语服务、搜索引擎服务、虚拟化服务和人工智能服务,所有这些都依赖于物理设备和数据资源的计算能力和存储容量。数据集成和治理的解决方案是构建过程的核心方面。数据治理包括主索引数据治理、主数据治理、元数据治理、数据安全管理、数据质量控制管理等,是数据管理的核心,是将无序数据规范化为高可用数据的基础[1020.21]。

图1所示。大数据平台架构。
查看此图

数据存储与计算

海量数据集中存储在WCH-BDP的存储设备中。为了更好地支持数据分析,根据每种数据模式的特点设计和提供了存储和计算环境。一般来说,数据结构化的数量与存储空间和计算能力呈负相关关系(即数据结构化越大,对存储空间和计算能力的要求越低)(图2)。因此,结构较差的数据需要更多的存储空间和更强的计算能力。

高度结构化的数据不需要太多的存储空间。它们可以存储在分布式存储设备上,计算可以通过传统的中央处理单元有效地运行。

中国电子病历中患者的主要主诉、病史记录、检查结果、检查结论等半结构化数据占用的存储空间不大,可以存储在分布式存储设备中。然而,这些数据需要自然语言处理进行分析;因此,需要通用图形处理单元(gpu)和中央处理单元来提供足够的计算能力。

总体积大而单个体积小的非结构化数据(如放射学、超声等薄层扫描检查产生的DICOM格式的原始图像数据)需要较高的存储空间,必须存储在集中存储设备中(多为网络附加存储),以节省资源。为了分析和挖掘这些数据,主要使用机器学习或深度学习技术进行特征建模,这需要大量GPU功率和专用GPU资源的支持。

个体容量大的非结构化数据,如基因组数据,通常直接存储在基于对象的存储中。基因组测序不仅产生了大量的原始测序数据,还产生了生物信息研究中涉及多个过程的大量数据。因此,基因组数据集通常非常大,所需的存储空间大多以pb为单位。对象存储中存储的数据类型的分析和挖掘需要多个高性能GPU提供大量的集群计算能力,这就需要部署GPU集群支持的加速超级计算能力。

传统的大数据平台是统一规划和实施的,存储和计算一体化。WCH-BDP的设计是实现存储与计算分离。WCH-BDP首次解决了海量基因组数据文件的有效存储和管理问题。其次,当研究人员使用遗传数据进行分析时,WCH-BDP提供的调度软件将分析数据加载到超级计算机环境中进行分析。分析完成后,保留分析结果,并释放分析进程占用的临时存储空间。

图2。数据的结构化程度与存储和计算能力的关系。
查看此图

数据集成

目前国内医疗机构运营信息数据库系统主要有Microsoft SQL Server、Oracle数据库、MySQL数据库、cache数据库、MongoDB等;其他非结构化数据大多以文件的形式存储。WCH-BDP通过实时和非实时数据输入实现数据集成。为了实现实时数据集成,生成一个主从数据库,并实时解析和捕获从数据库的日志数据。实时数据集成适用于以结构化数据为主的作战信息系统。解析从数据库中的信息不会消耗太多的物理资源,因此不会影响主数据库的性能,从而保证了数据集成的安全性和稳定性。通过使用DICOM协议直接读取图像文件,可以完成图像数据的集成和输入。基因组数据和其他文件形式的数据没有实时集成,而是通过文件传输协议输入。

主索引治理

企业主患者索引是医疗机构中患者的唯一标签。同一患者在医院不同的操作系统中可能有不同的企业主患者指标,因为这些系统是独立构建的。这就需要一个主患者指标治理来规范企业主患者指标。通过主索引治理系统实现对主索引数据的治理。治理系统包括4个阶段:数据准备、标准化策略、数据处理以及跟踪或反馈(图3)。

WCH-BDP的数据治理策略主要关注3个关键值:身份证号码、姓名和电话号码。这3个关键值的配置和数据处理见下表(表1)。

主索引数据处理不能只靠系统自动完成。例如,在第五排表1,姓名和电话号码都是平等的,但身份证号码是不平等的这可能是因为同一名患者使用了不同的身份证进行登记。在这种情况下,标准化主索引的最后一步至关重要,在此过程中,可以通过日志分析后的手动调整或参考实际操作流程来确保每个主索引的唯一性。

图3。主索引治理流程图。
查看此图
表1。企业主病人指数治理策略。
身份证号码 名字 电话号码 结果
平等的 平等的 平等的 接受
平等的 平等的 不平等的 接受
平等的 不平等的 平等的 接受
平等的 不平等的 不平等的 否认
不平等的 平等的 平等的 接受
不平等的 平等的 不平等的 否认
不平等的 不平等的 平等的 否认
不平等的 不平等的 不平等的 否认

主数据治理

主数据包括数据字典中列出的所有相关数据项,如医疗机构代码、药品代码、诊断代码、麻醉方法等[22) (表2)。主数据治理的目的是映射和处理由不同系统标准引起的主数据差异。确定要处理的主数据的分类和参考标准,并使用它们来映射数据库中数据之间的关系。结果发布给用户订阅和应用。

表2。WCH-BDP主数据参考标准示例。
主数据分类 参考标准的数量 例子
疾病分类 5 ICD-10GB /t14396-2016《疾病分类与编码》gb /t15657-1995《中医病证分类与编码》
行业基本情况 6 GB 11714-1997组织表示编码规则b /t13745-2009学科分类与代码gb /t2260-2007中华人民共和国行政区划代码
卫生信息学 20. GB /t21715-2020卫生信息学-患者健康卡数据[b] /t24465-2009卫生信息。健康指标概念框架gb /t25512-2010卫生信息学——促进个人健康信息跨境流动的数据保护准则b /t30107-2013卫生信息学。HL7版本3。参考信息模型gb /Z 24464-2009卫生信息学——电子健康记录——定义、范围和背景gb /Z 28623-2012卫生信息学。消息传递和通信标准中的互操作性和兼容性。关键特性
个人信息 12 GB /t2261-2003个人基本信息分类与编码b /t4658-2006《正规学校备案规范》gb /t4761-2008家庭关系规范t6565-2009《职业分类与代码》gb /t8561-2001专业技术岗位规范
信息技术 3. GB /t34960.1-2017信息技术服务治理GB/t39725-2020信息安全技术——卫生数据安全指南

元数据管理

元数据治理流程

元数据是数据和数据用户之间的桥梁。它们描述了数据的内容(什么)、覆盖范围(何时何地)、质量、管理方法、所有者(谁)和提供方法(如何提供)。WCH-BDP使用的元数据治理方法见图4

在WCH-BDP中,基于对象管理组通用仓库元模型的标准,设计并构建了用于标识注册原始数据的统一元数据模型。基于元数据目录,配置数据映射关系,启动数据提取。将映射结果按配置的关系保存,并与元数据管理系统中的标准术语和标签进行比较。所有提取的数据都存储在平台的数据存储库中,该存储库使用标准化的元数据、术语和标记向应用层提供数据服务。

图4。元数据治理体系结构。
查看此图
术语标准化

术语标准化是元数据治理中的一个重要步骤。WCH-BDP使用来自中国开放医疗保健联盟的医学术语来标准化元数据系统中的术语。

标签数据的治理

标记也是用于数据治理的更有效的方法之一。与术语同义词不同,the标签是反映数据应用的属性[23]。标签数据更适合于比较或计算大量数据的预处理场景,例如手术前后检测结果值的变化,或者患者服药前后血压变化的范围。标签数据的管理应该考虑应用程序的目标,并持续跟踪和维护标签数据。

自然语言处理治理

由于中文的独特特点,许多用中文描述的医疗记录和报告难以处理。目前,在中国,一种主流的后结构化数据处理方法是利用机器学习技术结合医疗保健术语从中文文本中分词提炼概念[11]。通常的做法是通过将分词结果与标准词进行比较,并对比较结果进行汇总,从而优化分词算法模型,从而开发出更全面的语料库和更准确的分词算法。算法模型和语料库的内容可能取决于疾病类型、地域文化,甚至写作习惯;因此,在施工过程中必须考虑这些因素。

数据安全管理

概述

数据利用与安全是相互矛盾的。为确保数据的正确和安全使用,各国都颁布了有关卫生和医疗数据安全的法律法规。参考国际和国内有关安全保护的法律法规,WCH-BDP采用了5 s(即数据安全、应用安全、使用安全、管理安全、所有权安全)科技成果的数据存储、访问、使用和转化控制体系。

数据安全

数据安全是指数据分类和分级管理的安全。哈佛大学学者根据《健康保险流通与责任法案》的法律法规和相关科研伦理法规,提出建立数据分类制度,保障数据安全[2425]。在WCH-BDP中,数据安全分为5个级别,分别为受影响对象、受影响程度、受影响范围3个维度。为每个级别提供了具有相应限制的数据访问接口(表3)。

表3。大数据平台的数据安全策略。
安全等级 安全级别 描述 例子 预防措施
1级 最机密 高度敏感的信息 财务数据,个人认证数据 供特定个人使用的特定环境
2级 保密 高度敏感信息 信用数据,个人健康隐私数据 指定的环境,供指定的单个角色使用
3级 秘密 一般敏感信息 员工诊疗过程中的个人信息、合同信息、员工管理数据 角色组授权后使用
4级 仅限内部使用 未公开披露的信息 组织结构,员工基本信息,脱敏后的一般数据 内部授权后使用
5级 向公众开放 可以公开披露的数据 总结统计分析所得结果 公众查阅或使用
应用程序安全

应用安全是指对系统运行过程中的数据应用进行安全管理。在WCH-BDP中,为用户提供统一的主数据认证服务,每个应用系统只管理本系统需要的角色和应用权限。实际角色用户使用应用时,通过统一的平台服务接口完成数据脱敏和加密,确保数据应用的安全性。

使用安全

使用安全是指对数据处理、使用和分析过程中的安全管理。美国国立卫生研究院强调,应特别注意数据应用程序中的隐私保护[26]。需要脱敏的患者信息一般包括所有与患者直接或间接联系或用于定位患者的信息,包括姓名、身份证件、电话号码、地址、联系方式、与传染病有关的信息[27]。WCH-BDP通过脱敏、加密(表4),以及多方计算。

多方计算是图灵奖获得者姚启智为解决数据滥用问题而提出的一种可控、可测量的方法[28]。在对海量数据进行统计分析之前,部署WCH-BDP中的多方计算业务网关,完成安全域中的所有数据计算,并通过平台服务将最终的计算结果提供给用户。这个过程可以有效地管理数据的使用安全。

表4。大数据平台的数据脱敏与加密策略。
策略名称 涉及的数据范围 脱敏和加密策略的设计
数字数据 营业收入、关键数量…… 模糊四舍五入法或模糊百分比法
固定长度的结构化数据 身份证号码、电话号码、姓名…… 替换或加密从起始位到指定长度范围的末尾
可变长度的文本数据 地址、电子病历、描述性诊断(传染病) 定位敏感内容,然后替换或加密敏感字符
图像数据 放射学、超声和病理成像资料 在图像文件中,使用加密算法进行脱敏,并配置水印
文件数据 基因组学,分子蛋白质数据 定位敏感内容和重命名敏感字符
管理安全

平台数据管理安全要求包括数据服务在内的所有平台业务都在安全的闭环管理下完成。在WCH-BDP中,所有任务——数据访问、管理和治理;数据分析、利用和挖掘;通过数据资源、存储、计算能力、网络接入等平台服务,完成科研成果的转化和实现。建立管理安全制度,可以有效保障数据利用过程的安全。

所有权的安全

目前,大多数研究成果都是在实验室或科研环境中获得的,难以在实际生产环境中应用,这直接导致了研究成果的转化率低,对知识产权的认识不足。在WCH-BDP中,通过连接真实服务运营场景的集成服务网关,将发表的研究成果直接引入临床实践,实现科研成果向临床的转化。在此过程中,综合业务网关管理系统的设计可以有效地保证科研人员的所有权安全。

数据质量管理

概述

数据质量管理是一个持续的过程,是数据治理的重要环节。WCH-BDP的卫生保健数据质量管理包括以下步骤:(1)建立数据质量标准体系;(2)评估当前数据质量;(3)分析数据质量问题;(4)详细制定和优化解决问题的方案;(5)建立数据质量控制知识库,供今后参考。以上步骤不断迭代,形成医疗数据质量管理闭环系统。

数据质量标准

常见的数据质量问题包括数据异常值、重复、没有任何明确关系的数据、孤立的数据记录以及在医学上没有逻辑意义的数据。充分参照中国国家卫生健康委员会发布的电子病历评价分级标准和卫生保健领域专家的研究成果[29-31],我们开发了一个使用维度进行数据质量控制的标准系统一致性完整性可积性及时性,稳定作为评估的参数(表5)。

表5所示。数据质量标准体系。
维度的内容 质量指标 规则
一致性 检查数据值是否在字典域中 一致性比率 高于90%
完整性 检查所需数据的完整性 完整性百分比 高于80%
相关性 检查关键数据之间的关系 相关度 高于95%
及时性 检查时间类型数据的逻辑有效性 及时性比 高于80%
独特性 检查是否存在重复数据 重复率 低于0.01%
稳定 检查数据量波动是否异常 波动比 低于20%
工艺质量控制

除了对原始数据的数据质量控制外,还包括对操作过程的质量控制管理[21]。数据质量问题反映了操作过程中的问题。WCH-BDP通过完善管理和操作协议,制定优化数据质量的方案,实现了控制操作质量,获得高质量数据输出的目标。数据质量管理是一个持续优化的过程,需要所有相关人员的参与。

数据服务支持

WCH-BDP是一种能够有效支持数据服务的环境,具有大量的数据存储库和用于数据计算和存储的强大物理资源。在数据安全管理的整体生态下,平台可以为计算、存储、虚拟化等数据服务提供支持。搜索引擎服务、术语服务和人工智能服务可以有效整合,以满足所有医疗保健业务的需求。


一般

经过3年的建设,WCH-BDP于2020年11月正式启动,进行需求调查、平台设计、模块开发和试运行。迄今为止,该平台已经形成了一个庞大的高维数据库,拥有超过1249万患者,7567万人次,8475个数据变量。该平台将医院信息化提升到一个新的水平,大大提高了医院的整体大数据能力。

计算能力

WCH-BDP具有20pb以上的数据存储容量,运行在由252台物理服务器组成的服务器集群上,其中117台物理服务器用于计算和分析,38台物理服务器配备1块以上GPU卡。计算专用服务器集群的CPU核数为320,GPU卡数为149。该平台的临床数据计算能力超过300 TFLOPS,图像数据计算能力超过600 TFLOPS,基因组数据计算能力超过1000 TFLOPS。

数据集成范围

WCH-BDP集成了来自临床信息系统的诊断和治疗数据、来自科研信息系统的临床研究数据和来自管理信息系统的管理活动数据。在134个医院系统中,自2008年1月以来,该平台整合了27个系统的数据,包括医院信息系统、实验室信息系统、放射科、超声、网上预约、人力资源、设备和供应管理、互联网医疗服务等。此外,图片和通信系统中的所有图像数据以及2万多名患者的基因组数据已输入平台。

数据库

采用快速医疗互操作资源参考信息模型3.0标准,结合中国医疗系统的特点,根据业务活动类型对集成到WCH-BDP中的数据进行重组和排列。最后,开发了一个数据库,其中包括18个主题领域的134个数据图表。中列出了负责数据库中最多数据的前5个主题字段表6。迄今为止,该数据库包含8475个数据变量和62.72亿行数据记录。

表6所示。按数据行数排列的前5个主题字段。
数量 主题领域 表、n 数据变量,n 行(10000×n) 系统涉及
1 医疗记录 10 476 369824.53 医院信息系统,在线诊疗系统
2 医疗技术 6 502 115073.35 心电图系统、放射学信息系统、超声心动图系统、内镜系统、动态心电图系统、病理信息系统、超声系统、实验室信息系统、介入手术工作站、医疗技术预约信息系统、门诊信息系统、体检信息系统
3. 8 440 60855.24 医院信息系统、体检信息系统、在线诊疗系统
4 医学上的建议 3. 395 21366.64 医院信息系统,在线诊疗系统
5 工作人员 13 802 18138.94 医院信息系统,体检信息系统,电子数据采集,人力资源系统

数据资产目录

平台通过对主数据、元数据、术语和自然语言处理的治理,进一步规范数据,为用户构建了数据资产目录。为了简化查询过程,目录具有层次树结构,允许用户使用模糊搜索选择他们需要的数据项。为了尽量减少理解困难,目录尽可能使用与相应操作系统接口中的名称一致的数据变量命名方案;此外,用户还可以看到数据源、内容和值范围的信息。

数据资产目录包含13个字段和1488个数据变量(表7)。13个字段中,9个字段的原始数据变量为结构化变量,3个字段(病历、影像检查、护理记录)的原始数据变量为半结构化文本。通过分词、实体提取和语义识别等方法,将半结构化数据转换为后结构化的派生变量。对于患者标签信息,使用数据挖掘算法生成面向应用程序的后结构化派生变量。

表7所示。数据资产列表。
数量 目录字段 数据变量(单位) 变量的类型 例子
1 人口 91 结构化 性别、年龄、职业、现住址、国籍、身高、体重、血型
2 基本医疗信息 410 结构化 预约日期、就诊日期、门诊科室、门诊类型、指导医生、转诊科室、入院日期、出院日期、出院状态
3. 医疗记录信息 123 非结构化 入院记录,进度记录,出院记录
4 临床诊断信息 47 结构化 临床诊断、急诊诊断、入院诊断、出院诊断、医保诊断、病理诊断
5 外科手术信息 138 结构化 手术名称,程序名称,外科医生,手术等级,麻醉分级,切口类型,愈合程度
6 诊疗信息 166 结构化 医嘱的种类、药品名称、用法、用量、次数、执行时间
7 实验室测试数据 147 结构化 白细胞计数,红细胞计数,钠水平,尿酸水平,血糖水平,肌酐水平
8 成像结果 124 非结构化 磁共振成像、计算机断层扫描、x射线、超声波、数字射线照相
9 护理记录信息 53 非结构化 入院评估、日常记录、护理记录
10 生理监测数据 50 结构化 生命体征
11 尺度评价数据 50 结构化 情绪指数,压疮评估,从床上摔下来的风险评估
12 医疗费用信息 65 结构化 收费项目名称、收费项目金额、结算时间
13 患者标签信息 24 非结构化 术后检查结果较低的患者,服药后血压较高的患者

WCH-BDP性能评估

主要项目的服务支援

在平台数据服务的支持下,各科研团队针对不同研究目的构建了120多个疾病数据库,其中包括多个国家级多中心疾病数据库。平台上线以来,共支持临床和医院管理科研项目20余项,其中3项获中国国家科学技术进步二等奖、四川省科学技术进步一、二等奖。

四川大学国家重点实验室开展的G蛋白偶联受体变构调控与信号转导机制研究项目,体现了平台对基础研究的支持;利用WCH-BDP提供的存储和计算能力,研究小组揭示了变抗调节过程中关键氨基酸的微转化,为G蛋白偶联受体靶向小分子变抗调节因子的设计和筛选奠定了基础(未发表,X. Yang, PhD, 2022)。

该平台支持临床研究的另一个例子是WCH的肺癌研究项目。肺癌研究团队利用平台提供的数据资源、存储资源、计算能力和探索环境,鉴定并验证了肺癌早期诊断的高灵敏度、高特异性标志物[32],团队进一步开发了国内首个肺癌数据库及肺结节诊断人工智能辅助产品[33];这些文件[3233在《基本科学指标》中列出细胞(影响因子41.582)和信号转导和靶向治疗(影响因子18.187)。研究成果也发表在国际知名学术期刊上,如医学图像分析(影响因子11.148)[34),自然生物医学工程(影响因子25.671)[35]。

肺结节诊断人工智能辅助产品通过人工智能技术可检测出3 mm ~ 5 mm的肺结节,准确率为98.8%,明显优于国内外专家(北京协和医学院高级经验医生79.9%,初级经验医生仅40.9%),且平均每台胸部CT可节省3 ~ 5分钟的阅读时间[33]。到2020年,该系统已在全国100多家医院使用,其中包括四川大学华西医院。不仅提高了胸部CT图像的读取效率,而且降低了肺小结节的漏诊率。对实现肺癌早期诊断的同质化也有重要作用。

利用该平台,对CT图像中肾上腺的分割进行了研究[36],利用WCH-BDP平台提供的数据资源、存储资源、计算能力和勘探环境,提出了一种新的端到端肾上腺分割的两阶段深度神经网络。研究数据集包含来自348名患者的348个CT体积,用于验证新方法的性能,并表明新的级联框架在准确性方面优于最先进的肾上腺分割深度学习[36]。

传统数据服务模型中的变化

WCH-BDP的推出,使医院的数据服务模式发生了巨大的变化(表8)。用户过去依赖信息系统人员进行数据使用,现在可以在整个过程中自行分析数据。利用平台提供的搜索引擎服务,研究人员可以快速从数据库中检索数据,形成适合现实世界研究的疾病数据库,然后将其引入信息探索环境中进行数据统计分析和挖掘。

表8所示。传统数据服务与当前数据服务的变化。

传统数据服务 基于平台的数据服务
数据可视化 数据不可见 用户可以直观地查看可用的数据目录
数据检索 数据工程师通过经验开发代码 用户可以通过搜索引擎自定义搜索格式和输出格式,并预览搜索结果
数据批准 数据在伦理审查和临床研究项目批准后可用 数据在伦理审查和临床研究项目批准后可用
数据挖掘 用你自己的电脑分析数据 平台可使用R、SPSS、Python等开发环境和工具,通过数据挖掘算法调用平台提供的计算能力
数据下载和访问 下载数据工程师开发并加密的数据 该平台为注册用户创建具有不同权限的帐户。在经过安全认证的网络环境下,授权用户可以通过虚拟桌面基础架构登录大数据平台统一门户。平台为每个授权用户提供不同容量的私有存储空间。用户可以将自己的研究成果直接存储在这个空间中,也可以在个人电脑上安装我院开发的软件,将研究成果转移到个人电脑上

WCH-BDP的推出大大提高了数据服务的容量(表9)。平台可用数据范围是上一层的3.37倍,从上一层数据仓库覆盖的8个操作系统增加到大数据平台覆盖的27个系统。可用数据维度是前一层次的1.8倍,从803个数据变量增加到1488个变量。可用数据量是以前的2.4倍,从68亿行数据记录增加到164.9亿行。

在平台上线前的6个月里,工程师们完成了996次人工数据服务(平均每月166次)。相比之下,该平台推出后,每月完成8561次自助数据检索,服务效率提高了51倍。在平台上线之前,每个人每天可以完成2个实例的数据服务,而在平台上线后,由于自动搜索引擎的帮助,每个人每天可以完成65个实例的数据服务,增加了37倍。此外,平台将每次数据服务的平均持续时间缩短了30倍,从4.5小时缩短到0.15小时。该平台大大提高了数据服务的数量和效率。

表9所示。数据业务能力对比。
发布前 发布后
涵盖的业务系统数量 8 27
数据维数 803 1488
数据量(亿) 6.8 16.49
每月服务次数 166 8561
每个请求的时间(小时) 4.5 0.15
数据应用安全提升

数据安全是该平台关注的重点。过去,数据安全主要依赖于数据工程师的职业道德。相比之下,在这个自动管理数据、提供数据服务的平台中,由于所有的操作活动都会在系统中留下足迹,数据安全管理主要是基于系统的,人工辅助的。这样可以防止个人权限被滥用,有效保证数据安全。


WCH-BDP的性能表明,数据资源可以有效地融合和治理,形成高可用性的数据资产,在该领域具有极高的应用价值。

医疗大数据平台建设的成功取决于以下几点:(1)项目管理具有强大的组织结构,具有自上而下、多方参与的数据治理委员会。该委员会领导并监督数据治理职责。(2)项目由信息技术部门牵头,提供技术支持。信息技术团队应具备优秀的技能,熟悉医院各系统的操作和数据内涵。(3)医院各科室参与项目,进行详细的需求调查和分析。(4)项目需要具备足够的医学信息学、管理学、工程学的科学知识,保证医学、管理学、信息学的顺利融合,进行整体框架设计。(5)医院伦理办公室和临床研究管理部门参与项目,确保患者隐私保护和数据安全。(6)建设项目需要经验丰富、能提供足够技术支持的供应商。(7)需要足够数量的服务器进行数据存储和计算。(8)项目需要足够的资金支持。

WCH-BDP与其他数据平台的相似之处[1-14是通过数据集成提供数据服务,需要完成数据集成,拥有各种医疗数据,可以提供结构化的数据服务,可以提供海量的数据检索。然而,有6个不同之处:(1)WCH-BDP集成了所有业务系统数据,而其他大多数平台都是按需集成数据。(2)我们的平台解析数据库日志,并以主从数据库同步模式将完整的业务数据迁移到数据中心。有些平台使用API接口来实现数据迁移。(3) WCH-BDP持续、实时地访问数据。然而,其他一些数据平台经常按天访问数据。(4)大多数数据平台只整合临床数据,而WCH-BDP将临床数据和医院管理数据整合在一起。(5)大多数其他数据平台可能不具备超级计算能力。集成超级计算能力后,WCH-BDP存储容量可达20pb以上,计算速度可达1900 TFLOPS以上。(6)大多数其他平台只能按病种提供常规的数据存储和处理功能。 The WCH-BDP provides an analysis environment equipped with data mining tools, including open-source tools, such as R and Python, and paid apps, such as SAS and SPSS. Researchers can use distributed clusters for data mining.

WCH-BDP可以通过以下方式进一步完善和优化:(1)将医院更多的运营系统接入平台,不断优化数据治理策略;(2)进一步利用和挖掘数据(如探索医疗保健领域的多模式人工智能应用);(3)通过开展跨学科、跨医院、跨地区的合作,纳入更多的医疗信息数据,使平台成为多中心的公共平台;(4)为医院提供进一步的全周期标准化+安全+服务大数据服务。

致谢

本研究由国家卫健委(四川大学华西医院大数据集成与应用平台建设)资助。感谢医疗信息技术工程研究中心、华西公共医疗信息服务有限公司、上海ClinBrain有限公司、新华三科技有限公司在数据集成和数据治理方面的协助。

利益冲突

没有宣布。

  1. 寻找开放数据。英国政府数字服务。URL:https://www.data.gov.uk[2010-10-20]访问
  2. 美国卫生与公众服务部。URL:http://www.healthdata.gov/[2010-09-01]访问
  3. 吴敏,甄天明,顾建林,何玉青,穆勇,宋克明,等。国内外医疗大数据发展及在医疗决策支持中的应用前景。软科学健康2019 Feb 17;33(2):76-79。[CrossRef
  4. Štufi M, ba iki B, Stoimenov L.捷克医疗保健大数据分析与处理平台。应用科学(巴塞尔)2020年3月02日;10(5):1705-1705.23。[CrossRef
  5. 周国光,徐晓东,张晓光,胡太平。基于国家卫生信息平台建设的数据治理体系设计。中国卫生信息管理杂志;2019;16(2):131-134。[CrossRef
  6. 张建军,刘建军,刘建军,等。研究数据管理平台(RDMP):一种新颖的、流程驱动的、开源的工具,用于管理临床数据的纵向队列。科学通报2018;01;7:1-12 [j]免费全文] [CrossRef] [Medline
  7. 朴玉良,尹玉杰,具辉,刘顺,崔翀,贝克生,等。利用临床试验管理系统作为临床试验全过程的综合数据库:系统开发。医学互联网研究,2018年4月24日;20(4):e103-e103 [J]免费全文] [CrossRef] [Medline
  8. 引用本文:吴艳,李敏,丁彦军,董生,梁国文,王宝涛。面向临床研究的大型医疗数据库系统开发与医疗数据治理实践[j]。中国医学科学管理杂志2021年4月21日;02(34):81-86。[CrossRef
  9. 季宏,李伟,贾明。基于大数据的集成平台与数据集成应用。中国卫生信息管理学报,2017,Aug 20;04(14):525-529。[CrossRef
  10. 付华,徐飞,范敏。浅谈医院卫生大数据治理与体系建设。中国传统医学杂志2019年6月15日;03(43):1-5。[CrossRef
  11. 林丽,梁伟,李春芳,黄晓东,吕建伟,彭辉,等。鼻咽癌研究电子病历动态更新大数据智能平台的开发与实现。[J]中华放射医学杂志,2019;32 (1):1 - 4 [J]免费全文] [CrossRef] [Medline
  12. 闫磊,黄伟,王磊,冯森,彭勇,彭杰。数据支持的消化医学:一个新的大数据分析平台。IEEE/ACM计算机科学与工程学报(英文版);2011;18(3):922-931。[CrossRef
  13. 车合生,郑建明,申世贤,张彦明,朴鹏,李建伟,等。韩国癌症研究大数据平台(K-CBP)。国际环境与公共卫生杂志2019年6月28日;16(13):16,2290 [J]免费全文] [CrossRef] [Medline
  14. Sammani A, Jansen M, Linschoten M, Bagheri A, de Jonge N, Kirkels H,等。解开:大数据分析研究数据平台,通过常规电子健康记录和标准化生物银行改善心肌病患者的护理。Neth Heart杂志2019年5月27日;27(9):426-434 [J]免费全文] [CrossRef] [Medline
  15. Kruse CS, Goswamy R, Raval Y, Marawi S.医疗保健大数据的挑战与机遇:系统综述。中华医学杂志2016年11月21日;4(4):e38 [j]免费全文] [CrossRef] [Medline
  16. 王伟,Krishnan E.大数据与临床医生:科学现状综述。中华医学杂志,2014,1;2(1):1 [j]免费全文] [CrossRef] [Medline
  17. 李锐,牛勇,Scott SR,周超,兰丽,梁震,等。在医疗信息与管理系统学会(HIMSS)中使用电子病历数据进行研究,分析电子病历采用模型(EMRAM)在北京某医院的第7阶段:横断面研究。中华医学杂志,2013;9(8):e24405-e24405 [p]。101年(免费全文] [CrossRef] [Medline
  18. 李鹏,谢超,Pollard T, Johnson AEW,曹东,康辉,等。促进中国电子病历的二次分析:PLAGH-MIT关键数据会议和健康数据马拉松综述。中华医学杂志2017年11月14日;5(4):e43 [j]免费全文] [CrossRef] [Medline
  19. 刘利,刘志强。大数据在医疗卫生领域的发展与应用研究。智慧健康。2020 2020 8月15日;6(23):1-10。[CrossRef
  20. Khatri V, Brown CV。设计数据治理。通讯学报,2010,01;53(1):148-152。[CrossRef
  21. 常震,陈敏。大数据时代医疗资源治理方法研究。中国数字医学2016年9月15日;09(11):2-5。[CrossRef
  22. 费翔,李军,黄燕,魏磊,梁铮。医疗大数据应用中的数据治理。中国卫生信息管理杂志2018 Oct 20;15(05):554-558。[CrossRef
  23. 王鑫,徐鑫,周刚,杨铮,张勇。医疗大数据标签体系构建方法研究。中国卫生信息管理[J] . 2021; 2021年4月;02(18):189-193。[CrossRef
  24. 杜勇,龚超,傅安,王迪,尹生,张杰。哈佛数据标签系统研究及其对中国的启示。图书馆学报2019年8月15日;38(08):17-26。[CrossRef
  25. Bar-Sinai M, Sweeney L, Crosas M.数据标签,数据处理策略空间和标签语言。2016年11月发表于:IEEE安全与隐私研讨会;2016年5月22日至26日;圣何塞,加利福尼亚,第1-8页。[CrossRef
  26. 张宁,石红霞,谢强,王斌,周华伟,张磊,等。大数据背景下医疗数据共享的伦理问题中华中医药杂志2018年7月18日;25(08):9-11。[CrossRef
  27. 辛海燕,李鹏,张国强。医院医学研究大数据平台的建设与应用。中国卫生信息管理杂志2019年4月;16(02):206-209。[CrossRef
  28. 安全计算协议。1982年发表于第23届计算机科学基础年会;1982年11月3-5日;芝加哥,伊利诺伊州,美国。
  29. Stausberg J, naseh D, Nonnemacher M.测量数据质量:2005 - 2013年文献综述。猪健康技术通报2015;21:712-716。[CrossRef] [Medline
  30. 王晓明,王志强。电子病历数据质量评估的方法与维度:支持临床研究的重用。中华医学杂志,2013,20(1):144-151 [J]免费全文] [CrossRef] [Medline
  31. 孟荣国,杨勇,张立新。卫生医学大数据数据质量评估方法与展望中国卫生信息管理杂志2019 Dec 20;16(06):677-681。[CrossRef
  32. 王超,王忠,王刚,刘建勇,张凯,李伟。2021年初新冠肺炎疫情防控现状与展望。信号传导目标[j] 2021年3月08日;6(1):114 [免费全文] [CrossRef] [Medline
  33. 张凯,刘霞,沈健,李忠,桑勇,吴旭,等。临床应用的AI系统,利用计算机断层扫描对COVID-19肺炎进行准确诊断、定量测量和预后。Cell 2020; 6(6):1423-1433。e11 [免费全文] [CrossRef] [Medline
  34. 徐旭,王超,郭军,甘勇,王杰,白华,等。MSCS-DeepLN:使用多尺度成本敏感神经网络评估肺结节恶性肿瘤。医学影像肛门2020年10月;65:101772。[CrossRef] [Medline
  35. 王刚,刘霞,沈健,王超,李志,叶磊,等。基于胸片图像的病毒性、非病毒性和COVID-19肺炎诊断与鉴别的深度学习管道。生物医学工程学报,2011;5(6):509-521 [j]免费全文] [CrossRef] [Medline
  36. 罗刚,杨强,陈涛,郑涛,谢伟,孙华。一种优化的两阶段级联深度神经网络在CT图像上的肾上腺分割。中国生物医学工程学报(英文版);2009;36:104749-104749。[CrossRef] [Medline


CT:计算机断层扫描
GPU:图形处理单元
需了解:四川大学华西医院
WCH-BDP:四川大学华西医院大数据平台


C·洛维斯编辑;提交16.01.22;雷杰、孟伟同行评议;对作者04.02.22的评论;收到17.02.22修订版本;接受25.02.22;发表13.04.22

版权

©王宓晔,李社玉,郑涛,李楠,石青科,卓学军,丁仁鑫,黄勇。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 13.04.2022。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map