发表在gydF4y2Ba在gydF4y2Ba第十卷第十期(2022年):10月gydF4y2Ba

本文的预印本(早期版本)可在gydF4y2Bahttps://preprints.www.mybigtv.com/preprint/38936gydF4y2Ba,首次出版gydF4y2Ba.gydF4y2Ba
特征提取过程的标准化描述,将原始数据转换为有意义的信息,以增强数据重用:共识研究gydF4y2Ba

特征提取过程的标准化描述,将原始数据转换为有意义的信息,以增强数据重用:共识研究gydF4y2Ba

特征提取过程的标准化描述,将原始数据转换为有意义的信息,以增强数据重用:共识研究gydF4y2Ba

原始论文gydF4y2Ba

1gydF4y2Ba里尔大学,CHU里尔,ULR 2694 - METRICS: Évaluation des Technologies de santé et des Pratiques médicales,里尔,法国gydF4y2Ba

2gydF4y2BaFédération régionale de recherche en psychiatry et santé mentale (F2RSM Psy),上法兰西,Saint-André-Lez-Lille,法国gydF4y2Ba

3.gydF4y2BaInterHop,法国雷恩gydF4y2Ba

4gydF4y2Ba法国鲁昂大学医院麻醉科和重症监护室gydF4y2Ba

5gydF4y2Ba法国亚眠-皮卡第大学医院医疗信息部gydF4y2Ba

6gydF4y2Ba法国亚眠-皮卡第大学医院数字服务部gydF4y2Ba

7gydF4y2Ba国家研究中心santé和研究中心médicale (INSERM), LTSI-UMR 1099,雷恩大学,CHU雷恩,雷恩,法国gydF4y2Ba

8gydF4y2Ba任务数据,高级Autorité de Santé,圣德尼,法国gydF4y2Ba

9gydF4y2BaSoDa项目组,国家数字科学与技术研究所(INRIA),萨克莱-Île de France, Gif-sur-Yvette,法国gydF4y2Ba

通讯作者:gydF4y2Ba

安东尼·拉默博士gydF4y2Ba

大学。里尔gydF4y2Ba

楚里尔gydF4y2Ba

ULR 2694 - METRICS: Évaluation des Technologies de santé et des Pratiques médicalesgydF4y2Ba

凡尔登1号gydF4y2Ba

里尔59000gydF4y2Ba

法国gydF4y2Ba

电话:33 320626969gydF4y2Ba

电子邮件:gydF4y2Baantoine.lamer@univ-lille.frgydF4y2Ba


背景:gydF4y2Ba尽管数据重用提供了许多机会,但它的实现存在许多困难,原始数据不能直接重用。信息并不总是在源数据库中直接可用,需要在定义算法时使用原始数据进行计算。gydF4y2Ba

摘要目的:gydF4y2Ba本文的主要目的是在进行回顾性观察研究时,对特征提取过程中所需的步骤和转换进行标准化描述。第二个目标是确定如何在数据仓库的模式中存储特性。gydF4y2Ba

方法:gydF4y2Ba本研究主要包括以下3个步骤:(1)收集与特征提取相关的相关研究案例,并基于数据的自动二次利用;(2)研究案例中常见的原始数据、步骤和转换的标准化描述;(3)确定一个合适的表来存储观察医疗结果伙伴关系(OMOP)公共数据模型(CDM)中的特征。gydF4y2Ba

结果:gydF4y2Ba我们采访了来自3所法国大学医院和一个国家机构的10名研究人员,他们参与了8项回顾性和观察性研究。基于这些研究,出现了2种状态(航迹和特征)和2种转换(航迹定义和航迹聚合)。“跟踪”是一个依赖时间的信号或兴趣周期,由一个统计单位、一个值和两个里程碑(开始事件和结束事件)定义。“特征”是与时间无关的高级信息,其维度与研究的统计单位相同,由标签和值定义。时间维度已经隐含在变量的值或名称中。我们提出了“TRACK”和“FEATURE”两个表来存储特征提取中获得的变量,并扩展了OMOP CDM。gydF4y2Ba

结论:gydF4y2Ba我们提出了特征提取过程的标准化描述。该过程结合了航迹定义和航迹聚合两个步骤。通过将特征提取分为这两个步骤,解决了轨迹定义过程中的困难。轨道标准化需要大量数据方面的专业知识,但允许应用无数复杂的转换。相反,轨迹聚合是一种非常简单的操作,具有有限数量的可能性。对这些步骤的完整描述可以提高回顾性研究的可重复性。gydF4y2Ba

JMIR Med Inform 2022;10(10):e38936gydF4y2Ba

doi: 10.2196/38936gydF4y2Ba

关键字gydF4y2Ba



过去几十年,电子健康纪录的应用日益普及,大量临床资料以电子形式提供[gydF4y2Ba1gydF4y2Ba,gydF4y2Ba2gydF4y2Ba].最初,电子健康记录的设计目的是收集和传递用于医疗保健、管理或计费的数据。除了这些初始用途外,它们还提供了数据重用的机会,其定义为"个人健康信息的非直接护理使用" [gydF4y2Ba3.gydF4y2Ba].因此,数据重用为研究、护理质量评估、活动管理或公共卫生管理提供了可能性[gydF4y2Ba4gydF4y2Ba-gydF4y2Ba10gydF4y2Ba].gydF4y2Ba

在进行研究时,传统的方法包括前瞻性的,通常是手动收集简单而具体的数据,根据研究方案所解决的问题,使用临床报告表格[gydF4y2Ba11gydF4y2Ba].这些数据与纳入标准和变量相对应,即结果(如住院时间或生存期)、暴露(如服用药物或手术程序)和调整变量(如年龄、性别和病史)。在进行前瞻性研究时,这些数据是上游定义的,然后在日常实践中人工收集,一次一个记录,并考虑到背景。如果需要,可以查询第三方数据源或寻求护理人员的专业知识。这种方法既昂贵又耗时,而且每次使用的样本量通常有限[gydF4y2Ba7gydF4y2Ba,gydF4y2Ba11gydF4y2Ba].然而,最终的数据集由不需要进一步计算的显式信息组成。gydF4y2Ba

相比之下,数据重用建立在已经可用的低成本数据源上,并提供大量数据[gydF4y2Ba7gydF4y2Ba].尽管数据重用提供了许多机会,但它的实现存在许多困难,并且不能直接重用主要数据。首先,数据重用会遇到数据质量问题,这些问题源于输入或收集数据的方式[gydF4y2Ba12gydF4y2Ba-gydF4y2Ba16gydF4y2Ba],并且需要一个数据清理阶段来重复数据删除、过滤、均质化或转换原始数据[gydF4y2Ba17gydF4y2Ba,gydF4y2Ba18gydF4y2Ba].此外,信息并不总是在源数据库中直接可用,需要在定义算法时从原始数据中计算[gydF4y2Ba19gydF4y2Ba-gydF4y2Ba23gydF4y2Ba].这通常被称为“数据转换”[gydF4y2Ba24gydF4y2Ba]、“数据聚合”[gydF4y2Ba25gydF4y2Ba,gydF4y2Ba26gydF4y2Ba],或“特征提取”[gydF4y2Ba27gydF4y2Ba].即使特征提取通常近似地回答了问题,但这个过程并不容易,并带来了方法上的问题。实际上,特征是从一个静态数据库(已经保存并关闭)中提取出来的,这些数据库是针对那些护理事件已经在几年前完成的患者和大量记录。所有的场景都必须考虑在内,以避免在分析之前单独或手工修改提取的记录。提取方法可能对生成的特征有实质性的影响[gydF4y2Ba28gydF4y2Ba].gydF4y2Ba

最后,本地数据模型和词汇表的异构性使数据池和算法、工具和结果的共享变得复杂。gydF4y2Ba29gydF4y2Ba-gydF4y2Ba33gydF4y2Ba].已采取措施,透过“大规模临床数据共享和联合”,以及推行公共数据模型(CDMs),促进数据的重复使用[gydF4y2Ba34gydF4y2Ba-gydF4y2Ba38gydF4y2Ba].观察性健康数据科学与信息学(OHDSI)是由观察性医疗结果伙伴关系(OMOP)发展而来的一个社区[gydF4y2Ba39gydF4y2Ba-gydF4y2Ba42gydF4y2Ba].OMOP CDM致力于观察性研究、医疗产品安全监测、比较有效性研究和患者水平的预测建模。在此背景下,OHDSI社区分享使用OMOP CDM的方法和工具,该方法标准化了观测数据的结构和词汇。2022年中期,来自74个国家的约2000名合作者参与了OHDSI社区[gydF4y2Ba43gydF4y2Ba].分析可以成功地应用于该模型,并用于世界各地的不同数据站点[gydF4y2Ba44gydF4y2Ba,gydF4y2Ba45gydF4y2Ba].gydF4y2Ba

除了临床数据表,它适用于存储单个低水平记录(即,procedure_occurrence, condition_occurrence和measurement), OMOP CDM扩展了5个表来存储派生元素[gydF4y2Ba46gydF4y2Ba].特别地,EPISODE表存储了之前定义的护理的抽象事件[gydF4y2Ba47gydF4y2Ba,gydF4y2Ba48gydF4y2Ba]并允许从药物记录中提取化疗事件,以便比较抗癌治疗轨迹[gydF4y2Ba49gydF4y2Ba].gydF4y2Ba

特征提取方法在应用于从回溯数据库中计算辅助信息时描述得很差。它们还缺乏在数据仓库中以持久方式存储特性的方法。这篇文章的目的是提出一个标准化的步骤和转换的描述,可以帮助研究人员实现和记录特征提取,并提高回顾性研究的可重复性。它还包括确定如何在使用OMOP CDM实现的数据仓库的模式中存储特性。gydF4y2Ba


概述gydF4y2Ba

本研究主要包括以下3个步骤:(1)收集应用特征提取并基于数据自动二次利用的相关研究案例;(2)特征提取过程的标准化描述,包括研究案例中常见的概念、特征和方法;(3)在OMOP CDM中存储特征的方便表的建议。gydF4y2Ba

伦理批准gydF4y2Ba

这项研究不需要伦理批准,因为没有收集个人数据,也没有实施干预措施。gydF4y2Ba

个案收集gydF4y2Ba

我们正在寻找回顾性观察研究的例子,其中特征提取操作必须实施。这些研究不需要针对特定的研究领域,在确定的时间段内进行,也不需要使用特定的数据模型。前提条件是将原始数据转换为可用的信息,并能够描述该过程。我们专注于对结构化数据进行的研究,而没有研究从非结构化数据(如文本、图像、视频或声音)中提取特征。我们联系了在2021年9月1日至2021年12月31日期间在法国参与数据重用的7个团队的研究人员。gydF4y2Ba

我们进行了个别采访,并获得了手写的笔记。研究人员被要求描述(1)研究的目标,(2)他们使用的数据库(即,索赔或临床数据库),(3)数据的性质和术语,(4)他们从原始数据中提取信息时遇到的困难,(5)他们必须提取以实现研究目标的特征,(6)他们在研究中使用的特征(即,纳入标准,解释变量或响应变量),(7)构成特征提取的步骤和表征特征的参数。gydF4y2Ba

纳入标准定义了受试者必须纳入研究的特征。它们通常包括年龄、疾病的类型和阶段,以及手术程序。响应变量是研究或实验中问题的目标。通常是生存率、住院时间、康复或疾病的并发症。解释变量是其变化可能影响响应变量的变量。它可能是暴露于一个事件或一种治疗。gydF4y2Ba

研究采用了索赔数据库和医院临床数据库两类数据库。这两个源是表格式的关系数据库。每个表只包含1个实体(例如,患者、停留时间和诊断),每一行对应1条记录。这些表通过外键机制链接在一起,允许识别患者或住院的所有数据,无论哪种类别。大多数列是结构化数据(即每个单元格有一个类型和一个值)。这些数据库通常使用SQL语言进行查询。然后,可以使用编程语言(如R和Python)对它们进行处理,以重新计算新的基本信息或调整数据结构,以便能够更容易地分析它们。gydF4y2Ba

索赔数据库为法国国家医院出院数据库,简称gydF4y2Ba方案de médicalisation des systèmes d’informationgydF4y2Ba(PMSI) [gydF4y2Ba50gydF4y2Ba],以及法国国家索赔数据库,简称gydF4y2BaSystème国家des Données de SantégydF4y2Ba(snd) [gydF4y2Ba51gydF4y2Ba].这些全国性数据库收集了法国非营利或营利性医院所有住院病人的标准化出院报告。它们包括关于入院和出院日期、医院代码、部门代码和结果(即出院、转院和死亡)、社会人口统计数据(即性别、年龄和居住地)、诊断和住院期间执行的医疗程序的个人层面数据。这些诊断是根据《疾病和相关健康问题国际统计分类第十版(ICD10)》法文版编码的。医疗程序是根据gydF4y2Ba分类公社des行为MédicauxgydF4y2Ba及游离)。除了这些数据外,SNDS数据库还包括医院外的护理消费(即药房就诊、一般医疗报销和护理)。处方药物的记录与解剖治疗化学(ATC)系统,一个国际分类系统,或与gydF4y2Ba代码识别码PrésentationgydF4y2Ba(CIP13)。gydF4y2Ba

临床数据库是当地医院的数据仓库,收集有关实验室结果、医疗程序、诊断、医疗单位类型和它们之间的转移的所有信息。两个数据库包括麻醉过程的细节(如手术步骤、给药、手术室设备记录的信号,如平均动脉压、心率、潮气量等)[gydF4y2Ba52gydF4y2Ba].在这些数据库中,词汇表是由软件编辑开发并由医生在实践中更新的本地术语。它们包括药物、测量和手术步骤。最后一个数据库是重症监护医疗信息集市III数据库,这是一个大型的开源重症监护住院医疗记录数据库,可在PhysioNet上公开使用[gydF4y2Ba53gydF4y2Ba,gydF4y2Ba54gydF4y2Ba].诊断记录在《国际疾病和相关健康问题统计分类第九版》(ICD9)中,程序记录在《现行程序术语》中。gydF4y2Ba

特征提取的标准化描述gydF4y2Ba

在第二步中,我们执行了任务(HAT)的层次分析[gydF4y2Ba55gydF4y2Ba].HAT允许理解用户为了实现某些目标而需要完成的任务。这些任务可以分解为若干级别的子任务,直至具有原子操作。在这项研究中,我们进行了HAT,以(1)理解研究人员将原始数据转换为特征所必须实现的步骤和转换;(2)识别数据从原始数据到特征的连续状态,描述复杂性和时间依赖性。gydF4y2Ba

为了做到这一点,我们要求他们描述他们一开始拥有的原始数据,以及他们必须通过哪些不同的转换来获得特征。在每一步中,我们都描述了复杂度和时间依赖性。我们已经说明了每个案例研究的子任务的顺序,与参与研究的研究人员合作。从获得的任务描述和插图中,我们根据输入和输出数据的类型对任务进行分组。最后,我们根据研究案例的共同点,提出了对这些不同状态和转换的描述。gydF4y2Ba

OMOP CDM中特征存储可能性的评估gydF4y2Ba

在最后一部分中,我们研究了OMOP CDM中允许存储特征而不丢失信息的现有表,即具有足够的字段。在相反的情况下,我们将提出新的表以符合OMOP标准。我们还将定义必须尊重OMOP标准的属性,并跟踪特征是如何计算的,以确保研究的可重复性。gydF4y2Ba


个案收集gydF4y2Ba

在我们联系的15人中,3人没有回答,2人报告没有进行特征提取。基于半结构化访谈,我们收集了来自3所法国大学医院(亚眠、里尔和鲁昂)和法国高级卫生当局的8项回顾性和观察性研究。其中两项研究是多点研究,4项使用索赔数据库,5项使用临床数据库。gydF4y2Ba

所确定的特征代表了用于进行回顾性分析的不同类型的变量:包括标准、解释变量和响应变量。一般特征包括:(1)以诊断发生率、医疗程序和年龄为纳入标准;(二)医疗程序发生、用药发生、生命体征转化为解释变量的情况;(3)医院死亡率、重症监护死亡率、住院时间、重症监护中转率作为响应变量。研究案例和研究人员报告的更复杂的特征描述在gydF4y2Ba表1gydF4y2Ba.gydF4y2Ba

这些不同的研究案例基于复杂的(即异构的、多维的、不平衡的和随时间变化的)原始数据。这些原始数据的异质性来自于提取次要计算特征所涉及的变量的多样性。前5个研究病例(SC1-5)使用测量和转换生命体征(动脉压和心率)或呼吸信号(氧分压和潮气量),SC6和SC7使用给药,SC7使用实验室结果。除了它们的异质性之外,数据库是多维的,这意味着组成它们的表具有不同的维度(即统计单位)。因此,每个病人在其他表中有不同数量的记录(程序、诊断、测量、药物等),这取决于住院时间、接受的护理和随访时间。然而,从一个患者到另一个患者的不同记录的数量应该减少到研究的每个统计单位一行。其次,变量的模态数量众多且不平衡,即每个术语都有数千个编码,其中一些被广泛使用,而另一些则几乎不需要。因此,在特征提取的时候,这数千个代码生成同样多的列,例如,特征报告代码的缺席/存在或数量,或者报告它被记录的次数。最后,原始数据是随时间变化的变量,即在研究过程中不一定是恒定的变量。gydF4y2Ba

表1。回顾性观察性研究中涉及特征提取的研究案例描述。gydF4y2Ba
研究案例gydF4y2Ba 研究目的gydF4y2Ba 实现研究目标所需的特征gydF4y2Ba
SC1:机械通气患者高氧血症的检测gydF4y2Ba 目的探讨高氧血症对ICU的影响gydF4y2Ba一个gydF4y2Ba根据脓毒症-3标准,机械通气感染性休克患者ICU住院前24小时内的死亡率[gydF4y2Ba56gydF4y2Ba]gydF4y2Ba 解释变量:PaO的加权平均值gydF4y2Ba2gydF4y2BabgydF4y2Ba根据脓毒症-3标准进行机械通气的感染性休克患者。测量是不定期记录的。信号被重构为每秒一次测量。gydF4y2Ba
SC2:大手术中低血压持续时间gydF4y2Ba 评价重型手术早期血压控制对住院死亡率和住院时间的影响gydF4y2Ba 解释变量:在手术过程中动脉压从平均值下降10%的持续时间。gydF4y2Ba
SC3:腰麻剖宫产术中低血压持续时间gydF4y2Ba 目的探讨腰麻剖宫产术中低血压对胎儿疼痛的影响gydF4y2Ba 解释变量:腰麻剖宫产术诱导至分娩期间,收缩压从参考值下降20%的持续时间。参考值是到达手术室到诱导之间的收缩压的平均值。gydF4y2Ba
SC4:心率和阿托品给药情况gydF4y2Ba 评估阿托品(一种治疗心动过缓的药物)用药前后心率的变化。gydF4y2Ba 解释变量:计算心率的中位数、最小值和最大值,以阿托品给药为中心,每10分钟计算2个周期。gydF4y2Ba
SC5:符合通气指南gydF4y2Ba 评估有关手术室通风的建议是否已落实[gydF4y2Ba57gydF4y2Ba]gydF4y2Ba 解释变量:术中潮末容积<8 mL/kg理想体重。gydF4y2Ba
SC6:可能不适当的药物gydF4y2Ba 衡量综合护理路径中包含的治疗优化干预对PIM的影响gydF4y2BacgydF4y2Ba虚弱老年人的患病率和再入院率gydF4y2Ba 解释变量:来自法国Laroche清单的药物管理次数[gydF4y2Ba58gydF4y2Ba](可能不适当的药物)在住院前90天。gydF4y2Ba
住院后90天内使用法国拉罗彻清单药物的次数。gydF4y2Ba
SC7:药物-药物相互作用gydF4y2Ba 估算INR发生的概率gydF4y2BadgydF4y2Ba更改每个DDIgydF4y2BaegydF4y2BaVKA规则gydF4y2BafgydF4y2Ba[gydF4y2Ba59gydF4y2Ba]gydF4y2Ba 解释变量:VKA与DDI规则中定义的另一种药物同时使用。生ATCgydF4y2BaggydF4y2Ba通过考虑活性物质和给药途径,将代码映射到更广泛的类别。兴趣期从两种药物同时使用的第二天开始,在两种药物中的第一种停止使用后4天结束。gydF4y2Ba
响应变量:至少一个INR≥5值的VKA增强或至少一个INR≤1.5值的VKA抑制。gydF4y2Ba
SC8:符合COPD指南gydF4y2BahgydF4y2Ba病人gydF4y2Ba 目的:评估疑似COPD患者进行功能呼吸探查诊断的比例gydF4y2Ba 解释变量:疑似COPD患者定义为年龄超过40岁的患者,接受以下几种治疗之一:支气管扩张剂、3种用于呼吸道感染的抗生素治疗或尼古丁替代品。gydF4y2Ba

一个gydF4y2BaICU:重症监护室。gydF4y2Ba

bgydF4y2BaPaOgydF4y2Ba2gydF4y2Ba:氧气分压。gydF4y2Ba

cgydF4y2BaPIM:可能不恰当的用药。gydF4y2Ba

dgydF4y2BaINR:国际标准化比率。gydF4y2Ba

egydF4y2BaDDI:药物-药物相互作用。gydF4y2Ba

fgydF4y2BaVKA:维生素K拮抗剂。gydF4y2Ba

ggydF4y2BaATC:解剖治疗化学。gydF4y2Ba

hgydF4y2BaCOPD:慢性阻塞性肺病。gydF4y2Ba

与特征提取相关的状态和转换的标准化描述gydF4y2Ba

图1gydF4y2Ba提供SC6的完整描述。首先,将行政数据的原始记录转化为与住院发生相对应的新型记录(步骤1),我们将这段时间在稿件的其余部分称为“track”。然后,对这条轨迹进行转换,得到代表住院前90天(90_days)的第二条轨迹(步骤2)。从原始记录中识别出Laroche清单中包含的药物,并分别在步骤3和步骤4中根据给药日期和治疗时间计算药物a和药物B的给药周期。对Laroche清单中所有药物都计算了类似的轨迹,但为了图的清晰,我们只选择说明前两种药物。在这4个步骤之后,依次实现航迹间的比较。这允许比较药物A和药物B给药的轨迹,分别在步骤5和步骤6中跟踪90天。将结果合并到一个公共轨道上,得到轨道90_days内Laroche清单项目的给药轨迹(步骤7)。最后,统计不同项目的数量,得到最终特征,即住院前90天内给药的Laroche清单药物的数量。gydF4y2Ba

表2gydF4y2Ba总结这些转换,以及每个转换的输入和输出数据。所有其他研究案例和特征提取过程的标准化描述可在gydF4y2Ba多媒体附件1gydF4y2Ba而且gydF4y2Ba多媒体附件2gydF4y2Ba.gydF4y2Ba

‎gydF4y2Ba
图1。研究案例的标准化描述gydF4y2Ba
查看此图gydF4y2Ba
表2。输入数据、转换和输出数据,用于研究案例6(可能不适当的药物)的特征提取中涉及的每个步骤。gydF4y2Ba
一步gydF4y2Ba 输入数据gydF4y2Ba 转换gydF4y2Ba 输出数据gydF4y2Ba
1gydF4y2Ba 原始数据:住院时间gydF4y2Ba 选择“入院日期”和“出院日期”字段gydF4y2Ba 追踪:住院时间gydF4y2Ba
2gydF4y2Ba 追踪:住院时间gydF4y2Ba 计算前90天gydF4y2Ba 追踪:住院前90天gydF4y2Ba
3.gydF4y2Ba 原始数据:药物管理gydF4y2Ba 选择列入拉罗彻清单的药物gydF4y2Ba Track:药物AgydF4y2Ba
4gydF4y2Ba 原始数据:药物管理gydF4y2Ba 选择列入拉罗彻清单的药物gydF4y2Ba 专场:药物BgydF4y2Ba
5gydF4y2Ba 追踪:住院前90天+追踪:A药gydF4y2Ba 两条轨道相交gydF4y2Ba 追踪:A药(拉罗彻)/住院前90天gydF4y2Ba
6gydF4y2Ba 追踪:住院前90天+追踪:B药gydF4y2Ba 两条轨道相交gydF4y2Ba 追踪:B药(拉罗彻)/住院前90天gydF4y2Ba
7gydF4y2Ba 轨迹:药物A (Laroche)/住院前90天+轨迹:药物B (Laroche)/住院前90天gydF4y2Ba 两个轨道的并轨gydF4y2Ba 追踪:药物Laroche清单/住院前90天gydF4y2Ba
8gydF4y2Ba 追踪:拉罗彻名单/住院前90天gydF4y2Ba 计数明显(药物Laroche清单/住院前90天)gydF4y2Ba 特点:住院前90天内使用的Laroche清单药物数量gydF4y2Ba

状态和转换gydF4y2Ba

基于研究案例和HAT,我们确定数据经历了2个状态(轨迹和特征),并受益于2个转换(轨迹定义和轨迹聚合)。gydF4y2Ba表3gydF4y2Ba总结了原始数据、轨迹和特征之间的区别,以及两种转换的定义。阐述了对几种原始数据进行特征提取的全过程gydF4y2Ba图2gydF4y2Ba,并在下面详细描述。gydF4y2Ba

步骤gydF4y2Ba跟踪定义gydF4y2Ba旨在将原始数据的维度降低到研究的统计单位,这是进行统计研究的人口元素。统计单位不仅可以指患者,还可以指医院、住院时间(SC6)、专科单位住院时间(SC1)或程序(SC2、SC3、SC4和SC5),这取决于研究的目的。在轨迹定义期间,数据可以基于诸如变量和值的选择、术语代码(SC6和SC7)之间的映射、检测超出阈值的值的传递(SC2和SC3)或任何其他专家规则(SC5、SC6和SC7)的应用等操作重新构建或计算。gydF4y2Ba

跟踪gydF4y2Ba是原始数据和特征之间的一种中间状态。它是第一个操作的结果,并且仍然是一个与时间相关的信号,由一个统计单元、一种轨道类型、一个值或一组值定义。轨迹的类型可以是护理单元的通道、药物的管理、以诊断为特征的健康状况或心率信号。该值表示轨道状态,用二进制值表示开/关状态,用定量值表示信号。条件操作也可以应用于轨道之间,以产生新的轨道(例如,用于检测同时给药2种药物)。基于这个定义,gydF4y2Ba表4gydF4y2Ba给出了8个研究案例的轨迹。gydF4y2Ba

步骤gydF4y2Ba跟踪聚合gydF4y2Ba在指定的兴趣期间从轨道提取最终信息。该方法降低了图像的多维度,消除了对时间的依赖。这些方法是常用的统计函数(例如,最小值、最大值、平均值、中位数、计数、持续时间和延迟)。gydF4y2Ba

的gydF4y2Ba利息期限gydF4y2Ba由开始日期和结束日期定义,该日期可能来自以下不同的来源:给药、程序的步骤、与卫生保健专业人员的访问或到卫生保健单位的访问。对于每个日期,可能有多个候选事件。例如,在SC3中,麻醉程序的开始可以记录如下4个不同的事件:诱导事件、催眠给药、插管和机械通气。同样,麻醉过程的结束可以由以下2个事件来定义:拔管或麻醉事件的结束。在这种情况下,基于专家知识或聚合操作(第一个或最后一个事件)的优先级规则将选择主事件。最后,可以在期间的开始日期和结束日期上增加一个时间间隔,以创建一个人工的期间,如下:住院前或住院后90天(SC6)。gydF4y2Ba

在这个过程的最后,gydF4y2Ba功能gydF4y2Ba是与标签(特性名)关联的单个值。在特征中,时间是隐式的,不再由记录中的日期形式化。它有时可以用变量的名称来表示,例如,诱导前动脉压的平均值(例如,mean_map_before_induction)。它也可以用特征本身的值来表示(例如,对于延迟或持续时间)。特征在很大程度上取决于研究的背景;因此,在SC2和SC3中,相同的原始信号产生2个不同的特征,这取决于提取方法和感兴趣的周期。gydF4y2Ba表5gydF4y2Ba根据统计单位、周期、信号和提取方法,描述了我们8个研究案例中确定的特征。gydF4y2Ba

表3。特征提取中涉及的状态和转换的定义和比较。gydF4y2Ba
状态和转换gydF4y2Ba 描述gydF4y2Ba 例子gydF4y2Ba 时间维度gydF4y2Ba 复杂性gydF4y2Ba
原始数据(状态)gydF4y2Ba 异构的、多维的和时间依赖的低水平临床数据:人口统计数据、患者流量、实验室结果、药物管理、程序、诊断和测量。gydF4y2Ba
时间维度总是作为一个属性放在值的旁边。gydF4y2Ba
平均动脉压的原始测量gydF4y2Ba 是的gydF4y2Ba 是的gydF4y2Ba
轨迹定义(转换)gydF4y2Ba 通过具有高专家知识的无限可能的操作,将初始维数减少到统计单位,并使数据表示标准化。gydF4y2Ba
时间维的守恒。gydF4y2Ba
可以在轨道上执行条件操作以生成新的轨道。gydF4y2Ba
信号的重新采样gydF4y2Ba 是的gydF4y2Ba 减少gydF4y2Ba
跟踪(状态)gydF4y2Ba 均匀且随时间变化的信号,由一个均匀的统计单元、一种轨道类型和一组时间戳值定义。gydF4y2Ba
时间维度保留在每条轨道旁边。gydF4y2Ba
每秒测量一次的重采样信号gydF4y2Ba 是的gydF4y2Ba 没有gydF4y2Ba
轨迹聚合(转换)gydF4y2Ba 时间维度的缩减:一个感兴趣的时间段、一个轨迹和一个基于完成的操作数量(最小、最大、中值、和、计数等)的提取方法。gydF4y2Ba
减少时间维度以获得单个值,将时间嵌入到变量名或值中。gydF4y2Ba
麻醉过程开始和结束之间记录的测量值的聚集(最小值和平均值)gydF4y2Ba 减少gydF4y2Ba 没有gydF4y2Ba
特性(状态)gydF4y2Ba 与时间无关的高级信息,维度与研究的统计单位相同,由标签和值定义。gydF4y2Ba
时间维度已经隐含在值(例如,延迟或持续时间)或变量名(例如,第一天的值)中。gydF4y2Ba
麻醉过程中平均动脉压的最小值和平均值gydF4y2Ba 隐式的gydF4y2Ba 没有gydF4y2Ba
‎gydF4y2Ba
图2。特征提取将原始数据转化为特征的过程。gydF4y2Ba
查看此图gydF4y2Ba
表4。研究案例中使用的轨迹定义。gydF4y2Ba
研究案例和统计单位gydF4y2Ba 跟踪gydF4y2Ba 值(年代)gydF4y2Ba
SC1:机械通气患者高氧血症gydF4y2Ba

加护病房gydF4y2Ba一个gydF4y2Ba保持gydF4y2Ba 感染性休克机械通气患者ICU住院前24小时gydF4y2Ba ICU停留= 1gydF4y2Ba

ICU停留gydF4y2Ba 重新取样PaOgydF4y2Ba2gydF4y2BabgydF4y2Ba PaOgydF4y2Ba2gydF4y2Ba重复测量gydF4y2Ba
SC2:全麻期间低血压持续时间gydF4y2Ba

沉重的手术gydF4y2Ba 全身麻醉程序gydF4y2Ba 全身麻醉手术=1gydF4y2Ba

沉重的手术gydF4y2Ba 平均动脉压的平均值gydF4y2Ba 平均值gydF4y2Ba

沉重的手术gydF4y2Ba 发作时平均动脉压低于平均值的90%gydF4y2Ba 集= 1gydF4y2Ba
SC3:腰麻剖宫产术中低血压持续时间gydF4y2Ba

腰麻剖宫产术gydF4y2Ba 进入手术室进行诱导麻醉gydF4y2Ba 参考时间= 1gydF4y2Ba

腰麻剖宫产术gydF4y2Ba 分娩时的麻醉引产gydF4y2Ba 脊髓麻醉= 1gydF4y2Ba

腰麻剖宫产术gydF4y2Ba 从进入手术室到麻醉诱导的收缩压平均值gydF4y2Ba 平均值gydF4y2Ba

腰麻剖宫产术gydF4y2Ba 发作时收缩压低于平均值的80%gydF4y2Ba 集= 1gydF4y2Ba
SC4:心率和阿托品给药情况gydF4y2Ba

阿托品的使用gydF4y2Ba 给阿托品前gydF4y2Ba 之前= 1gydF4y2Ba

阿托品的使用gydF4y2Ba 给阿托品后gydF4y2Ba 后= 1gydF4y2Ba
SC5:符合通气指南gydF4y2Ba

机械通气麻醉程序gydF4y2Ba 手术gydF4y2Ba 手术= 1gydF4y2Ba
SC6:可能不适当的药物gydF4y2Ba

住院gydF4y2Ba 住院前gydF4y2Ba 住院前=1gydF4y2Ba

住院gydF4y2Ba 住院后gydF4y2Ba 住院后=1gydF4y2Ba

住院gydF4y2Ba 使用拉罗彻清单上的X药物gydF4y2Ba 药物X = 1gydF4y2Ba
SC7:药物-药物相互作用gydF4y2Ba

病人gydF4y2Ba X药物管理(原始代码)gydF4y2Ba 药物X = 1gydF4y2Ba

病人gydF4y2Ba 毒品家族管理(ATCgydF4y2BacgydF4y2Ba类别)gydF4y2Ba ATC类别= 1gydF4y2Ba

病人gydF4y2Ba 同时施行VKAgydF4y2BadgydF4y2Ba使用DDI中定义的药物gydF4y2BaegydF4y2Ba规则gydF4y2Ba 伴随政府= 1gydF4y2Ba

病人gydF4y2Ba 印度卢比gydF4y2BafgydF4y2Ba≥5gydF4y2Ba INR≥5gydF4y2Ba

病人gydF4y2Ba INR≤1.5gydF4y2Ba 发作INR≤1.5gydF4y2Ba

病人gydF4y2Ba 同时服用VKA和DDI规则规定的药物且INR≥5gydF4y2Ba VKA势差现象= 1gydF4y2Ba

病人gydF4y2Ba VKA与DDI规则中定义的药物同时使用且INR≤1.5gydF4y2Ba VKA抑制= 1gydF4y2Ba
SC8:对COPD患者指南的依从性gydF4y2Ba

病人gydF4y2Ba 在支气管扩张剂或尼古丁替代品中使用几种药物之一(ATC代码)gydF4y2Ba 药物X≥1gydF4y2Ba

病人gydF4y2Ba 3种抗生素治疗呼吸道感染(ATC代码)的应用gydF4y2Ba 药物X≥3gydF4y2Ba

病人gydF4y2Ba 暴露于至少一种疑似COPD的特定药物gydF4y2BaggydF4y2Ba 暴露于copd特异性药物=1gydF4y2Ba

病人gydF4y2Ba 肺活量测定或功能性呼吸探查的诱导gydF4y2Ba 集= 1gydF4y2Ba

一个gydF4y2BaICU:重症监护室。gydF4y2Ba

bgydF4y2BaPaOgydF4y2Ba2gydF4y2Ba:氧气分压。gydF4y2Ba

cgydF4y2BaATC:解剖治疗化学。gydF4y2Ba

dgydF4y2BaVKA:维生素K拮抗剂。gydF4y2Ba

egydF4y2BaDDI:药物-药物相互作用。gydF4y2Ba

fgydF4y2BaINR:国际标准化比率。gydF4y2Ba

ggydF4y2BaCOPD:慢性阻塞性肺病。gydF4y2Ba

表5所示。研究案例中每个特征的特征定义。gydF4y2Ba
研究案例gydF4y2Ba 统计单位gydF4y2Ba 期gydF4y2Ba 跟踪gydF4y2Ba 提取方法gydF4y2Ba
SC1:机械通气患者高氧血症gydF4y2Ba 加护病房gydF4y2Ba一个gydF4y2Ba保持gydF4y2Ba 感染性休克机械通气患者ICU住院前24小时gydF4y2Ba 重新取样PaOgydF4y2Ba2gydF4y2BabgydF4y2Ba 加权平均gydF4y2Ba
SC2:麻醉期间低血压gydF4y2Ba 全身麻醉程序gydF4y2Ba 麻醉期间gydF4y2Ba 平均动脉压gydF4y2Ba 平均动脉压从参考值下降10%的持续时间总和gydF4y2Ba
SC3:腰麻剖宫产术中低血压持续时间gydF4y2Ba 腰麻剖宫产术gydF4y2Ba 麻醉期间gydF4y2Ba 收缩压gydF4y2Ba 收缩压低于参考值80%的总持续时间gydF4y2Ba
SC4:心率和阿托品给药情况gydF4y2Ba 阿托品的使用gydF4y2Ba 给阿托品前后各10分钟gydF4y2Ba 心率gydF4y2Ba 心率的中值、最小值和最大值gydF4y2Ba
SC5:符合通气指南gydF4y2Ba 机械通气麻醉程序gydF4y2Ba 手术期间gydF4y2Ba End-tidal体积gydF4y2Ba 平均潮末/理想体重>8gydF4y2Ba
SC6:可能不适当的药物gydF4y2Ba 医院访问gydF4y2Ba 住院前;住院后gydF4y2Ba 药物管理gydF4y2Ba 根据法国拉罗彻药典表不当用药计数。gydF4y2Ba
SC7:药物-药物相互作用gydF4y2Ba 病人gydF4y2Ba 在两种药物同时使用后的第二天,直到两种药物中的第一种停止使用后的4天。gydF4y2Ba 同时施行VKAgydF4y2BacgydF4y2Ba使用DDI中定义的药物gydF4y2BadgydF4y2Ba规则与国际标准gydF4y2BaegydF4y2Ba≥5。gydF4y2Ba
VKA与DDI规则中定义的药物同时使用且INR≤1.5。gydF4y2Ba
VKA增强计数。gydF4y2Ba
VKA抑制计数。gydF4y2Ba
SC8:符合COPD指南gydF4y2BafgydF4y2Ba病人gydF4y2Ba 病人gydF4y2Ba 暴露于COPD特定药物后一年gydF4y2Ba 药物管理gydF4y2Ba COPD特定药物的管理计数gydF4y2Ba
FRE二元指标gydF4y2BaggydF4y2Ba感应gydF4y2Ba

一个gydF4y2BaICU:重症监护室。gydF4y2Ba

bgydF4y2BaPaOgydF4y2Ba2gydF4y2Ba:氧气分压。gydF4y2Ba

cgydF4y2BaVKA:维生素K拮抗剂。gydF4y2Ba

dgydF4y2BaDDI:药物-药物相互作用。gydF4y2Ba

egydF4y2BaINR:国际标准化比率。gydF4y2Ba

fgydF4y2BaCOPD:慢性阻塞性肺病。gydF4y2Ba

ggydF4y2BaFRE:功能呼吸探查。gydF4y2Ba

OMOP CDM中特征存储可能性的评估gydF4y2Ba

OMOP CDM中已经存在5个表(DRUG_ERA、DOSE_ERA、CONDITION_ERA、EPISODE和EPISODE_EVENT),用于存储从原始数据派生的元素[gydF4y2Ba46gydF4y2Ba].这些表涵盖了当患者暴露于特定药物成分(DRUG_ERA)、当患者暴露于恒定剂量的特定药物成分(DOSE_ERA)或当患者被假定患有特定疾病(CONDITION_ERA)时的时间跨度的存储。这些现有的表格适用于药物流行病学研究,比较药物接触的时间和由此产生的不良事件或疾病的演变。这些研究只需要条件发生(CONDITION_OCCURRENCE)和药物暴露(drugg_exposure)表中的诊断和用药数据[gydF4y2Ba39gydF4y2Ba].gydF4y2Ba

然而,其他类型的数据也需要重新转换,以获得用于统计分析的可用信息(特别是程序、测量、生物学结果或患者护理中的任何类型的步骤)。此时,有2个备选方案允许存储其他类型的派生元素。第一种方法涉及为每个可以转换为时代的原始信息(即测量时代、程序时代、生物学时代等)添加一个时代表。第二种方法是提出一个涵盖所有类型原始数据的通用年代表。使用这两种方法,最终的特征仍然缺乏存储空间,因为它们不具有与时代或事件相同的结构,因为它们只是一个价值和标签的关联,与时间无关。gydF4y2Ba

因此,一方面,表TRACK可以补充模型并存储中间数据(即所有类型的航迹和年代),这些数据最终将用于计算特征;另一方面,表FEATURE可以扩展OMOP CDM,用于存储来自测量、程序、观测和停留的次要计算数据,这些数据将用于分析,并且需要长期存储。gydF4y2Ba

这两个新的概念表在gydF4y2Ba图3gydF4y2Ba.它们在字段名称和表组织方面符合OMOP指南[gydF4y2Ba60gydF4y2Ba].对于这两个表,外键都引用了人物、访问、访问细节、主要概念(TRACK_CONCEPT_ID和FEATURE_CONCEPT_ID)以及这个概念的类型(TRACK_TYPE_CONCEPT_ID和FEATURE_TYPE_CONCEPT_ID)。类似地,这两个表提供了核心字段来存储连续值(VALUE_AS_NUMBER)或类别值(VALUE_AS_CONCEPT_ID)。TRACK的专一性涉及到通过字段TRACK_START_DATE和TRACK_END_DATE保存时间维度。在FEATURE表中,如果患者可以多次出现相同的特征(例如,在不同的日子),则插曲表的外键允许区分一个特征的出现[gydF4y2Ba47gydF4y2Ba].两个表都有常用的字段,用于存储用本地词汇表表示的源值。gydF4y2Ba

‎gydF4y2Ba
图3。用于在关系数据库中存储周期和特征的数据模型,符合观察医疗结果伙伴关系(OMOP)公共数据模型。FK:外键;PK:主键。gydF4y2Ba
查看此图gydF4y2Ba

主要研究结果gydF4y2Ba

在本文中,我们提出了特征提取过程的标准化描述,该过程在将异构、多维和随时间变化的原始数据转换为有价值的信息以进行观察性回顾性研究时实现。该过程包含两个步骤(赛道定义和赛道聚合)。航迹定义旨在将原始数据转换为表示感兴趣周期的多条航迹或重构信号。航迹聚合计算来自最终航迹的可用信息,以便在感兴趣的时间段内应用提取方法。由此产生的特征是将包含在统计分析中的1维和时间无关变量。gydF4y2Ba

通过将特征提取分为这两个步骤,解决了轨迹定义过程中的困难。第一步的目标是建立跟踪,使用一个适用于研究统计单位的共同单位和一个均匀的时间尺度。然后,轨迹允许应用无数复杂的转换,例如用于检测药物-药物相互作用的概念映射(SC7)。这些转换需要大量关于数据的专业知识,并且主要是在自定义基础上实现的。相反,轨迹聚合是一个非常简单的操作,具有有限数量的可能性。gydF4y2Ba

本研究的优势gydF4y2Ba

转换的定义基于不同的案例,并且它们是在来自多个中心的不同数据库上执行的。特征提取是专家知识的算法翻译。我们的工作表明,这个过程需要对几个转换进行排序,包括,对于航迹定义,选择(1)一个时变信号或一个已经可用的航迹,(2)一个统计单位,(3)一种航迹类型,以及(4)一个或一组值,航迹聚合是基于(5)一个航迹的最终转换,该转换在(6)一个感兴趣的时间段内执行,涉及(7)一种提取方法。这7个项目的形式化和文档化应该通过消除计算内容的模糊性来提高研究的可重复性和合作者之间的特征共享。gydF4y2Ba

限制gydF4y2Ba

在本研究中,我们专注于基于专家规则的特征提取,没有考虑基于深度学习技术的特征提取[gydF4y2Ba61gydF4y2Ba,gydF4y2Ba62gydF4y2Ba].在这种情况下,尽管目的也是为了降低源数据的维数,但没有必要解释特征,这些特征通常是抽象的,目的是在不经过解释的情况下产生最佳预测模型[gydF4y2Ba62gydF4y2Ba].自然语言处理的最新进展[gydF4y2Ba63gydF4y2Ba-gydF4y2Ba65gydF4y2Ba]可用于从临床文本中自动提取相关临床特征[gydF4y2Ba66gydF4y2Ba].一旦感兴趣的特征被很好地定义,就应该进行一个小的注释活动来微调和评估预训练的模型性能。然后,提取的特征可以作为新的结构化信息集成到我们的工作流中。大型语言模型的令人印象深刻的结果表明,一些标记示例足以对这些模型进行微调[gydF4y2Ba67gydF4y2Ba].在使用这些模型之前,必须了解三个局限性。首先,由于临床概念措辞的可变性,尚未证明大型语言模型可以捕捉每个目标特征。第二,计算强度与大规模信息检索不相容。第三,为精确的临床术语进行快速有针对性的注释活动的能力需要适当的工具和流程。我们没有提供任何涉及文本的用例。然而,轨迹和特征都可以根据,例如,症状的存在或咨询报告中的量表报告来构建。这种从原始文本中提取的方法提出了自动检测文本中特定概念的问题,以及用于此目的的工具的性能。gydF4y2Ba

虽然一些特征,如停留时间,是通用的和常用的,但大多数仍然取决于研究背景。兴趣期和提取方法是临床医生或研究人员所期望的指标,需要手动评估该特征以确保其有效性[gydF4y2Ba49gydF4y2Ba].gydF4y2Ba

即使SNOMED CT(医学系统命名-临床术语)和ICD10提出了集合概念,如“手术后低血压”(SNOMED CT代码16055431000119108),“平均动脉压下降”(SNOMED CT代码31013001),或“低血压”(ICD10代码I95),这些概念只是一个特征标签的一部分,它们没有记录如何计算特征或提及周期(即手术,麻醉,重症监护病房住院,或者住院第一天)。在这些术语中还没有定义完全记录特性的标准化概念。gydF4y2Ba

目前,我们还不能判断我们的建议的泛化程度。然而,这项研究首次提出了从结构化数据库中提取特征的标准化描述。该方法仍需与其他研究案例,特别是其他国家的研究案例进行比较,以评估。gydF4y2Ba

这个项目的下一步是实现一个R包,该包具有专门用于定义和聚集音轨的功能。这个包将依赖于OMOP CDM,并允许特征提取的再现性。需要注意这两个表的物理实现,特别是轨道的存储,它可能非常庞大,并且会影响查询和响应时间方面的性能。最后,实现一个以列排列的特征的数据集市(当它们仍然存储在特征表中的行中时)是相关的,以便在构建表以构建队列时获得时间。gydF4y2Ba

结论gydF4y2Ba

我们已经阐明了在进行回顾性观察研究时实施的特征提取过程。我们确定了两种转换(航迹定义和航迹聚合),将复杂的原始数据转换为航迹和特征。航迹定义需要较高的专业知识,但降低了数据的复杂性,简化了航迹聚合过程中时间维数的降低。gydF4y2Ba

作者的贡献gydF4y2Ba

AL、MF、EC为研究构思和设计做出了贡献,并起草了手稿。所有作者提供了他们的研究案例并批准了手稿。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba
多媒体附件1gydF4y2Ba

研究案例的描述。gydF4y2Ba

DOCX文件,15 KBgydF4y2Ba

‎gydF4y2Ba
多媒体附件2gydF4y2Ba

为每个研究案例实现的跟踪和特性的标准化描述。gydF4y2Ba

PDF档案(adobepdf档案),100kbgydF4y2Ba

  1. 翁诚,卡恩MG。大数据与精准医疗临床研究信息学。2016年11月10日(1):211-218 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  2. Adler-Milstein J, DesRoches CM, Kralovec P, Foster G, Worzala C, Charles D,等。美国医院采用电子健康记录:进展仍在继续,但挑战依然存在。卫生Aff (Millwood) 2015年12月;34(12):2174-2180。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  3. 赛峰C, Bloomrosen M, Hammond WE, Labkoff S, Markel-Fox S, Tang PC,专家小组。迈向健康数据二次使用的国家框架:美国医学信息协会白皮书。中国医学信息杂志2007;14(1):1-9 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  4. Hripcsak G, Albers DJ。电子健康记录的下一代表型。美国医学信息学会2013年1月1日;20(1):117-121 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  5. Forrest CB, Margolis PA, Bailey LC, Marsolo K, Del Beccaro MA, Finkelstein JA,等。PEDSnet:全国儿科学习卫生系统。中国医学信息杂志2014;21(4):602-606 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  6. McGlynn EA, Lieu TA, Durham ML, Bauck A, Laws R, Go AS,等。为学习型卫生系统开发数据基础设施:PORTAL网络。中国医学信息杂志2014;21(4):596-601 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  7. Safran C.临床数据的再利用。2014年8月15日9:52-54 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  8. 德摩尔G, Sundgren M, Kalra D, Schmidt A, Dugas M, Claerhout B,等。使用电子健康记录进行临床研究:EHR4CR项目的案例。J Biomed Inform 2015 Feb;53:162-173 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  9. Lin K, Schneeweiss S.分析与索赔数据相关的纵向电子健康记录以研究药物的有效性和安全性的考虑因素。中国医药杂志2016年8月12日;100(2):147-159。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  10. 梅斯特SM,洛维斯C, Bürkle T,托尼奥拉G,布德利奥尼斯A,莱曼CU。临床数据再利用或二次利用:现状和未来可能的进展。2017年9月11日;26(01):38-52。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  11. Krishnankutty B, Bellary S, Kumar NBR, Moodahadu LS。临床研究中的数据管理综述。Indian J Pharmacol 2012 Mar;44(2):168-172 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  12. 吴志伟,王志伟。电子健康记录数据质量评估的方法和维度:临床研究重用。美国医学信息学会2013年1月1日;20(1):144-151 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  13. 赛峰C.基于数据的医学。J Gen实习医学2013年12月;28(12):1545-1546 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  14. 吴晓明,王晓明,王晓明。基于数据质量评估的电子病历数据复用方法研究。EGEMS(华盛顿特区)2017九月04;5(1):14 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  15. 温德尔C, Duftschmid G, Gezgin D, Popper N, Miksch F, Rinner C.基于web的评估重用卫生数据资产数据质量的工具。种马健康技术通报2017;236:204-210。[gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  16. 王志,王志强,王志强,王志强。基于规则的医疗机构数据质量评估与监控系统。种马健康技术通报2019;257:460-467。[gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  17. Rahm E,做HH。数据清理:问题和当前的方法。更好的评价。URL:gydF4y2Bahttps://www.betterevaluation.org/sites/default/files/data_cleaning.pdfgydF4y2Ba[2022-09-24]访问gydF4y2Ba
  18. 翁c。临床数据质量:数据生命周期的视角。生物统计学流行病学2020;4(1):6-14。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  19. 马志刚,李志刚,李志刚,等。使用自然语言处理在电子病历中自动识别术后并发症。中国医学杂志2011年8月24日;306(8):848-855。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  20. schmischney NJ, Velagapudi VM, Onigkeit JA, Pickering BW, Herasevich V, Kashyap R.回顾性识别重症监护病房机械通气启动的搜索算法的推导和验证。BMC Med Inform Decis Mak 2014年6月25日;14:55 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  21. Tien M, Kashyap R, Wilson GA, Hernandez-Torres V, Jacob AK, Schroeder DR,等。回顾性推导和验证自动电子搜索算法识别术后心血管和血栓栓塞并发症。中国临床医学杂志2015;6(3):565-576 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  22. 李志强,李志强,李志强,等。自动检测麻醉时间序列中重要参数异常值的方法:一种适应性算法的建议。计算方法程序生物医学2016年6月;129:160-171。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  23. 李志强,李志强,李志强,等。心脏手术后确定术后呼吸机要求的自动算法的创建和验证。麻醉学2017年5月;124(5):1423-1430。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  24. 王晓明,王晓明,王晓明。基于数据挖掘的数据库知识发现研究。AI Magazine 1996;17(3):37-54 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  25. 拉默A,珍妮M,菲切尔G,马西利R.时间序列分析的自动数据聚合:麻醉数据仓库的研究案例。Stud Health technology Inform 2016;221:102-106。[gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  26. Price A, Caciula A, Guo C, Lee B, Morrison J, Rasmussen A,等。DEvis:一个R包,用于聚合和可视化差分表达式数据。BMC生物信息学2019 Mar 04;20(1):110 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  27. 张志强,张志强,张志强,等。医疗结构化数据的二次使用:基于领域知识的特征提取的挑战。种马健康技术通报2018;255:15-19。[gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  28. 帕斯玛W,皮伦LM,范布伦S,范克雷WA,德格拉夫JC。伪影处理方法对术中低血压定量和结局效应估计的影响。麻醉学2020年4月;132(4):723-737 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  29. Breil B, Kenneweg J, Fritz F, Bruland P, Doods D, Trinczek B,等。ODM格式的多语言医疗数据模型:常规医疗保健和临床研究之间语义互操作性的一种基于表单的新方法。中国临床医学杂志2012;3(3):276-289 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  30. 周丽娟,李丽娟,李丽娟。电子病历实验室测试中的偏差识别与缓解。J Biomed Inform 2014 10月;51:24-34 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  31. Krumm R, Semjonow A, Tio J, Duhme H, Bürkle T, Haier J,等。对统一结构化文档的需要和二次使用的机会——前列腺癌和乳腺癌自动表格比较的系统分析结果。J Biomed Inform 2014 10月;51:86-99 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  32. Dhombres F, Bodenreider O.研究和医疗保健术语中表型的互操作性——研究HPO和SNOMED CT之间的部分映射。J Biomed Semantics 2016;7:3 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  33. Dugas M, Neuhaus P, Meidt A, Doods J, Storck M, Bruland P,等。医疗数据模型门户:用于医学研究和保健的信息基础设施。数据库(牛津)2016;2016:bav121 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  34. 徐勇,周旭,苏伟,Hartzema AG, Kahn MG, Moride Y,等。观察性医疗结果伙伴关系和迷你哨公共数据模型和分析的比较评估:对主动药物安全监测的影响。Drug saff 2015 Aug;38(8):749-765。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  35. 加萨M,德尔菲欧G,特南鲍姆J,瓦尔登A,佐佐斯MN。评估用于纵向社区注册中心的通用数据模型。J Biomed Inform 2016 12月;64:333-341 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  36. Klann JG, Abend A, Raghavan VA, Mandl KD, Murphy SN。使用i2b2进行数据交换。J Am Med Inform association 2016年9月23日(5):909-915 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  37. Hume S, Aerts J, Sarnikar S, Huser V. CDISC操作数据模型标准的当前应用和未来方向:方法回顾。J Biomed Inform 2016年4月;60:352-362 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  38. Liyanage H, lilaw S, Jonnagaddala J, Hinton W, de Lusignan S.通用数据模型(CDMs)增强国际大数据分析:糖尿病用例比较三种CDMs。种马健康技术通报2018;255:60-64。[gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  39. Stang PE, Ryan PB, Racoosin JA, Overhage JM, Hartzema AG, Reich C,等。推进主动监测科学:观察性医疗结果伙伴关系的原理和设计。安实习生医学2010年11月2日;153(9):600-606。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  40. Overhage JM, Ryan PB, Reich CG, Hartzema AG, Stang PE。主动安全监测研究的通用数据模型的验证。中国医学杂志2012;19(1):54-60 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  41. Hripcsak G, Duke JD, Shah NH, Reich CG, Huser V, Schuemie MJ,等。观察健康数据科学和信息学(OHDSI):观察研究人员的机会。种马健康技术信息2015;216:574-578 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  42. 观察性健康数据科学与信息学。URL:gydF4y2Bahttps://www.ohdsi.org/gydF4y2Ba[2019-05-03]访问gydF4y2Ba
  43. 关注的领域。观察性健康数据科学与信息学。URL:gydF4y2Bahttps://www.ohdsi.org/who-we-are/areas-of-focus/gydF4y2Ba[2022-07-07]访问gydF4y2Ba
  44. 马苏查德,许emie MJ, Krumholz HM,游SC,陈锐,Pratt N,等。一线抗高血压药物的综合比较有效性和安全性:一项系统、跨国、大规模的分析。柳叶刀2019 11月16日;394(10211):1816-1826 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  45. Burn E, You SC, Sena AG, Kostka K, Abedtash H, Abrahão MTF,等。在一项国际网络研究中,对34128名因COVID-19住院的成年患者进行了深度表型分析。Nat Commun 2020 10月06日;11(1):5009 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  46. 贝伦卡亚R, Gurley MJ, Golozar A, Dymshyts D, Miller RT, Williams AE,等。扩展OMOP通用数据模型和标准化词汇以支持观察性癌症研究。JCO临床癌症通知2021年1月;5:12-20 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  47. 电子健康记录中的诊断和化疗数据转换为OMOP-CDM基于发作的肿瘤扩展。观察性健康数据科学与信息学。URL:gydF4y2Bahttps://www.ohdsi.org/2019-us-symposium-showcase-12/gydF4y2Ba[2021-10-22]访问gydF4y2Ba
  48. Warner JL, Dymshyts D, Reich CG, Gurley MJ, Hochheiser H, Moldwin ZH,等。HemOnc: OMOP公共数据模型中化疗方案表示的新标准词汇。J Biomed Inform 2019 Aug;96:103239 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  49. 全H,游SC,姜SY,徐思,Warner JL, Belenkaya R,等。使用统一的观察数据库描述接受癌症化疗患者的抗癌治疗轨迹和模式:回顾性研究。JMIR Med Inform 2021 04月06日;9(4):e25035 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  50. 数据资源概况:法国国家统一医院出院数据集数据库(PMSI)。国际流行病学杂志2017 04月01日;46(2):392-392d。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  51. Scailteux L, Droitcourt C, Balusson F, Nowak E, Kerbrat S, Dupuy A,等。法国行政卫生保健数据库(SNDS)的丰富价值。治疗杂志2019年4月;74(2):215-223。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  52. Lamer A, Jeanne M, Vallet B, Ditilyeu G, Delaby F, Tavernier B,等。麻醉数据仓库的开发:初步结果。IRBM 2013 12月34(6):376-378。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  53. Goldberger AL, Amaral LA, Glass L, Hausdorff JM, Ivanov PC, Mark RG,等。PhysioBank, PhysioToolkit和PhysioNet:复杂生理信号的新研究资源的组成部分。循环2000年6月13日;101(23):E215-E220。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  54. 张志刚,刘志刚,张志刚,张志刚,等。这是一个免费访问的重症监护数据库。科学数据2016年5月24日;3:160035 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  55. 弗伦奇A,泰勒LK,莱姆克先生第六章-任务分析。在:Privitera MB,编辑器。人的因素在医疗器械设计中的应用。马萨诸塞州剑桥:学术出版社;2019:63 - 81。gydF4y2Ba
  56. Popoff B, Besnier E, Dureuil B, Veber B, Clavier T.早期高氧血症对脓毒症-3标准机械通气脓毒症休克患者死亡率的影响:MIMIC-III数据库分析欧洲急诊医学2021年12月01日;28(6):469-475。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  57. Laurent G, Moussa MD, Cirenei C, Tavernier B, Marcilly R, Lamer a.麻醉科临床仪表板的开发、实施和初步评估。中国临床监测与计算杂志2021年5月;35(3):617-626 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  58. Laroche M, Charmes J, Merle L.老年人可能不适当的药物:法国共识小组名单。《欧洲临床药物学杂志》2007年8月;63(8):725-731。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  59. Chazard E, Boudry A, Beeler PE, Dalleur O, Hubert H, Tréhou E,等。临床决策支持系统中药物-药物相互作用警报的自动化、经验筛选:维生素K拮抗剂的历史队列研究。JMIR Med Inform 2021年1月20日;9(1):e20862 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  60. 一集。观察性健康数据科学与信息学。URL:gydF4y2Bahttps://ohdsi.github.io/CommonDataModel/cdm54.html#EPISODEgydF4y2Ba[2021-10-21]访问gydF4y2Ba
  61. 梁宏,孙旭,孙勇,高勇。基于深度学习的文本特征提取综述。欧洲无线通信学报2017;2017(1):211 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  62. 李文杰,李文杰,李文杰。深度学习。自然杂志2015年5月28日;521(7553):436-444。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  63. Peters M, Neumann M, Iyyer M, Gardner M, Clark C, Lee K,等。深度语境化的单词表示。出来了。2018.URL:gydF4y2Bahttps://arxiv.org/abs/1802.05365gydF4y2Ba[2022-09-24]访问gydF4y2Ba
  64. 张敏,李凯,杜德林。伯特:基于深度双向变形器的语言理解预训练。出来了。2019.URL:gydF4y2Bahttps://arxiv.org/abs/1810.04805gydF4y2Ba[2022-09-24]访问gydF4y2Ba
  65. 张志强,张志强,张志强,等。语言模型是少数机会学习者。出来了。2020.URL:gydF4y2Bahttps://arxiv.org/abs/2005.14165gydF4y2Ba[2022-09-24]访问gydF4y2Ba
  66. 李文杰,王文杰,李文杰,等。公开的临床BERT嵌入。出来了。2019.URL:gydF4y2Bahttps://arxiv.org/abs/1904.03323gydF4y2Ba[2022-09-24]访问gydF4y2Ba
  67. Copara J, Knafou J, Naderi N, Moro C, Ruch P, Teodoro D.生物医学命名实体识别的上下文化法语语言模型。哈尔档案。URL:gydF4y2Bahttps://hal.archives-ouvertes.fr/hal-02784740gydF4y2Ba[2022-07-18]访问gydF4y2Ba


‎gydF4y2Ba
空中交通管制:gydF4y2Ba解剖治疗化学gydF4y2Ba
清洁发展机制:gydF4y2Ba公共数据模型gydF4y2Ba
帽子:gydF4y2Ba任务的层次分析gydF4y2Ba
ICD10:gydF4y2Ba《国际疾病和有关健康问题统计分类》,第十版gydF4y2Ba
OHDSI:gydF4y2Ba观察性健康数据科学与信息学gydF4y2Ba
OMOP:gydF4y2Ba观察性医疗结果伙伴关系gydF4y2Ba
新区:gydF4y2BaSystème National des Données de Santé(法国国家索赔数据库)gydF4y2Ba
snom CT:gydF4y2Ba医学系统命名-临床术语gydF4y2Ba


C·洛维斯、J·海夫纳编辑;提交22.04.22;M Sedlmayr, FM Calisto, E Sylvestre同行评审;对作者13.06.22的评论;修订版本收到19.07.22;接受11.08.22;发表17.10.22gydF4y2Ba

版权gydF4y2Ba

©Antoine Lamer, Mathilde Fruchart, Nicolas Paris, Benjamin Popoff, Anaïs Payen, Thibaut Balcaen, William Gacquer, Guillaume Bouzillé, Marc Cuggia, Matthieu Doutreligne, Emmanuel Chazard。最初发表在JMIR医学信息学(https://medinform.www.mybigtv.com), 17.10.2022。gydF4y2Ba

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba


Baidu
map