发表在11卷(2023)

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/40312,首次出版
电子健康记录中药物数据结构的评估与改进:算法开发与验证

电子健康记录中药物数据结构的评估与改进:算法开发与验证

电子健康记录中药物数据结构的评估与改进:算法开发与验证

原始论文

1卡尔·古斯塔夫·卡鲁斯医学院医学信息学和生物计量学研究所Universität德累斯顿,德国

2卡尔·古斯塔夫·卡鲁斯医学院循证医疗中心Universität德累斯顿,德累斯顿,德国

3.德国德累斯顿卡尔·古斯塔夫·卡鲁斯大学医院药房

通讯作者:

Ines Reinecke,文学学士,硕士

医学信息学和生物计量学研究所

卡尔·古斯塔夫·卡洛斯医学院

Technische Universität德累斯顿

Fetscherstraße 74

德累斯顿,01307

德国

电话:49 35145887转12975

电子邮件:ines.reinecke@uniklinikum-dresden.de


背景:数字化为从回顾性数据中获得对当前诊断和治疗的见解提供了大量机会。在这种背景下,真实世界的数据及其可及性对于支持公正可靠的大数据研究变得越来越重要。然而,由于卫生保健系统的非结构化性质和这些系统之间缺乏互操作性,常规收集的数据不容易用于研究。这一挑战在药物数据中表现得很明显。

摘要目的:本研究旨在提出一种识别和增加药物数据结构化的方法,同时确保根据解剖治疗化学(ATC)分类的标准化。

方法:我们的方法是基于现有的药物处方和药物目录,包括4个步骤。首先,我们对当地药物数据的结构进行了初步分析,以确定整体方法有效性的比较点。其次,我们对非结构化数据应用了3种算法,基于成分和产品名称的字符串比较将文本翻译成ATC代码,并基于Levenshtein距离进行相似性比较。第三,我们基于1000个最常用的处方文本,用专家知识验证了3种算法的结果。第四,我们进行了最后的验证,以确定增加的结构化程度。

结果:最初,在1,768,153张药物处方中,有47.73% (n=843,980)被归类为结构化处方。通过这3种算法的应用,我们能够基于1000个最常见的药物处方将结构化程度提高到85.18% (n=1,506,059)。在这方面,算法1、2和3的组合的正确性水平为100%(识别57,264个ATC代码),算法1和3的正确性水平为99.6%(识别152,404个代码),算法1和2的正确性水平为95.9%(识别39,472个代码)。

结论:正如我们方法的第一个分析步骤所示,在文档编制过程中可供选择的产品目录的可用性不足以生成结构化数据。我们的4步方法减少了问题,并可靠地自动增加了结构化。相似性匹配显示了令人满意的结果,特别是对于与产品目录没有联系的条目。然而,进一步提高这种相似度匹配算法的正确性还需要在今后的工作中进一步研究。

中华医学杂志[j]; 2009; 31 (2): 391 - 391

doi: 10.2196/40312

关键字



背景

在过去的十年中,在全球范围内,医疗保健领域的电子数据量急剧增加。大部分数据是在处理行政索赔期间、通过在患者治疗期间执行的电子健康记录(EHRs)中的文档处理或通过提供患者报告结果的移动设备的数据馈送产生的。因此,现实世界数据(RWD)对卫生保健研究变得越来越重要也就不足为奇了。RWD研究可以被认为是随机对照试验(rct)的补充,因为它们允许rct的结果在更大的队列和更长的时间内得到证实。与随机对照试验相比,RWD研究具有更好的外部效度和更好的泛化性,不仅为药品的长期监测提供了机会,而且具有成本效益和节省时间的优点[1]。

药物监测系统,例如美国食品和药物管理局的哨兵计划,对于促进上市后药物安全至关重要[2-8]。欧洲药品管理局也开始建立基于RWD的研究基础设施,以支持药物警戒[9]。此外,欧洲卫生数据和证据网络[10]的出现是为了建立基于通用数据模型的跨国研究网络,该模型使标准化的RWD和观测研究方法能够产生真实世界的证据。最近,欧洲卫生数据和证据网络已开始与欧洲药品管理局合作应对COVID-19 [11]。

然而,在患者治疗过程中产生RWD的最初目的并不主要是为了在研究中使用。因此,在基于RWD的观察性研究结果的可重复性和有效性方面已经发现了值得注意的问题。为了确保RWD研究结果的可靠性和稳健性,必须解决这些问题,因为当在各国大规模进行观察性研究时,这些问题变得更加重要。

需要数据协调、使用国际标准和术语、共同的数据模型、方法和数据分析工具,以提高结果的可重复性[12]。国际观察性卫生数据科学和信息学社区正在解决这些差距,该社区提供了称为观察性医疗结果伙伴关系(OMOP)的通用数据模型和基于OMOP的标准化分析工具。它还包括标准化词汇表,其中包含国家术语和国际公认术语之间的翻译,例如,系统化医学-临床术语命名法,逻辑观察标识名称和代码,解剖治疗化学(ATC)分类和RxNorm [13]。OMOP允许以相同的方式存储RWD,而不考虑数据来源,从而确保在国际大规模观察研究中使用RWD。与同类项目如整合生物学信息学和床边信息学或国家以患者为中心的临床研究网络相比,观察性健康数据科学与信息学- omop能够很好地满足观察性RWD研究的需求[14]。许多关于OMOP的RWD研究表明,成分水平的药物数据足以回答他们的研究问题[15]。虽然详细说明药物剂量和药物暴露单位的药物数据对于同一种药物在不同剂量下的药物有效性和药物安全性的观察性研究可能很重要,但药物成分的可获得性是最不常见的,也是药物相关的OMOP RWD研究的基本要求。因此,药物处方数据必须以结构化格式提供,不一定包括药品名称,但至少包括成分信息。对于药物利用研究,世界卫生组织建议使用ATC分类,即根据药物作用的器官或系统将药物分为不同的组[16]。ATC分类包括基于5个不同级别的层次结构,其中ATC第5级是代表药品活性成分的化学物质[17]。市场上每一种批准的药品都被分配了一个特定的ATC 5级代码。美国国立卫生研究院合作实验室建议在数据完整性、准确性和一致性方面评估和报告EHR数据的质量,以供临床重用[18]。Weiskopf等[19]也确定了数据的完整性和正确性对于提高数据质量具有特别重要的意义。

客观的

据我们所知,目前还没有一种方法可以系统地分析和改进用于观察性研究的药物处方数据的结构化。因此,在本研究中,我们系统地分析了EHR药物处方的结构化,以确定包含ATC代码级别5的结构化药物处方数据与基于14个级别1的ATC组没有可用标准概念的自由文本药物处方的比例。此外,我们还提出了一种改进处方数据结构化的方法,即引入一种自动检测ATC代码的方法。为了保证自动检测结果的鲁棒性和准确性,我们引入了一个基于现有文本挖掘算法的验证步骤。


研究细节

这项回顾性、非介入性研究系统地回顾了德国德累斯顿卡尔·古斯塔夫·卡洛斯大学医院(UKD)基于真实世界观察数据的药物处方。这项研究基于完全匿名的数据,不包括与个体患者的任何相关性。2016年至2020年住院患者的所有药物处方,包括急性药物,均纳入研究,不受特定条件或治疗的限制。原始数据记录在来自Dedalus的ORBIS医院信息系统中,使用ORBIS模块“KURV”,表示包括药物数据在内的患者曲线。从医院信息系统记录中共审查了1,768,153张药物处方。来自其他系统(如重症监护病房和化疗)的药物处方数据被排除在外,因为这些系统中的数据完全结构化并存储在单独的后端系统中。本研究使用的数据由UKD的数据集成中心提供,该中心由德国联邦教育和研究部资助建立,是德国医学信息学倡议的一部分。

伦理批准

该研究经德累斯顿工业大学伦理委员会批准,是一项回顾性、观察性、非干预性、非人类受试者研究(SR-EK-521112021)。

数据集详细信息

使用以下2个数据集:药品处方数据(数据集1)和药品目录数据(数据集2)。药品目录于2021年11月16日从UKD企业资源规划系统导出,包含药品品名、药品成分名称、ATC 5级代码、药物剂量和单位信息以及遗留产品。此外,从数据集1导出了另外2个数据集。首先,基于分组数据集1生成所有非结构化药物处方条目的聚合数据集(数据集3)。创建数据集3的分组活动是在数据集1的MEDICATION列上执行的,方法是使用Python库Pandas及其对数据元素MEDICATION中的所有条目进行分组groupby函数。将每个独特用药记录的频率信息添加到数据集3中。数据集(数据集4)包含来自数据集3的前1000个最频繁条目的子集以及来自手动评估步骤的其他结果。

上述数据集中与本研究相关的所有元数据元素在表1。从药品目录数据中选择的药品处方被标记为结构化数据(例如,“IBUPROFEN STADA 600 mg Zäpfchen | [IBUPROFEN natrium, IBUPROFEN]”),基于数据集1的STRUCTURE列的内容。未入选《药品目录》的药品处方指定为非组织性数据(例如,“布洛芬600”和“布洛芬”)。

表1。相关数据集及其元数据元素的描述。
数据集和数据元素 数据类型 描述
DS一个所有药物处方的初始数据集

药物治疗 字符串 在创建新的药物处方时,从包含药品名称的可用固定下拉菜单中选择的自由文本或预定义值,该菜单派生自药品目录

一年 数量 提取处方起始日期信息作进一步统计分析

结构 布尔 如果从药物目录中选择药物,则为TRUE;如果输入了自由文本,则为FALSE

空中交通管制b_L5 字符串 如果STRUCTURE为真,则ATC代码级别5可用,否则为空
DS2药品目录数据

Product_name 字符串 在ERP中列出的产品名称c系统

Ingredient_name 字符串 产品中列出的成分名称

Atc_code 字符串 ATC代码5级
DS3按药物数据元素对DS1进行分组

药物治疗 字符串 分组的非结构化自由文本条目

频率 数量 总结出现的药物文本字段,确定最相关的自由文本药物处方

Step1 字符串 算法1的结果为ATC代码,如果不匹配则为空

步骤2 字符串 算法2结果为ATC代码,如果不匹配则为空

步骤3 字符串 算法3结果为ATC代码,如果不匹配则为空
DS4最频繁的1000个DS3条目(按频率排序)

药物治疗 字符串 分组的非结构化自由文本条目

频率 数量 总结了药物文本字段的发生情况

Step1 字符串 算法1的结果为ATC代码,如果不匹配则为空

步骤2 字符串 算法2结果为ATC代码,如果不匹配则为空

步骤3 字符串 算法3的结果为ATC代码

Eval1 布尔 算法1评价结果

Eval2 布尔 算法2评价结果

Eval3 布尔 算法3评价结果

True12 布尔 如果算法1+2的结果相同,则为TRUE

True13 布尔 如果算法1+3的结果相同,则为TRUE

True23 布尔 如果算法2+3的结果相同,则为TRUE

True123 布尔 如果算法1+2+3的结果相同,则为TRUE

正确的 字符串 更正ATC代码。如果没有算法确定正确的结果,则在评估步骤中手动输入

评论 字符串 如有需要,请提供任何意见或补充信息

最后 字符串 最终确定所有条目的ATC代码或标签,以防无法确定ATC代码(标签将在方法验证部分详细介绍)

一个DS:数据集。

b解剖治疗化学。

cERP是企业资源规划。

数据分析

概述

数据分析由4个步骤组成,如图所示图1。该过程的第一步是初始数据质量分析,以确定结构化和非结构化药物处方的总体比例。

为了改善处方的结构,采用现有的3种算法对非结构化处方自动识别正确的ATC代码。然后由专家(药剂师和医学信息科学家)手动审查识别的ATC代码并检查其正确性。此步骤还包括识别现有模式,这些模式有助于确定非结构化数据的自动识别ATC代码的可靠性。最后,对前3步的结果进行整合,评估非结构化药品处方的改善程度。为了确保专家覆盖整个过程,一个由药剂师、计算机科学家和医学信息学研究人员组成的跨学科团队成立了。

图1所示。数据分析四步法。ATC:解剖治疗化学;NLP:自然语言处理。
初步数据评估

首先,确定数据集1中结构化与非结构化药物处方的比例。为此,使用数据集1的STRUCTURE数据元素将数据细分为2组。如果STRUCTURE的值为TRUE,则认为该记录是结构化的;除此之外,它是无结构的。随后,将药物处方的非结构化子集按数据元素MEDICATION分组为数据集3,计算频率并将其相加为数据元素frequency。

对分组药物处方(数据集3)的第一次人工审查由跨学科专家团队完成,以确定不是药物处方而是其他指示的记录,例如血细胞计数或其他实验室和测量命令(例如,“BGA”-实验室要求血气分析,“BE”-要求护士采集血液样本,“BB”-实验室要求血细胞计数)。这项任务产生了一套规则(多媒体附录1)允许自动搜索和识别需要排除的药物条目,以便进行进一步步骤。

改进

非结构化药物处方(通常以自由文本形式提供)被用作改进步骤的输入。之前未对处方进行预处理。在这一步中,实现了3种不同的算法,基于药物文本自动识别ATC 5级代码。

这些算法基于一种不同的机制,用于将数据集1的药物文本与数据集2的产品目录数据元素“成份”和“产品名称”进行匹配,详见表2

表2。非结构化药物处方的解剖治疗化学(ATC)代码识别算法概述。
算法 机制 用于比较的数据输入 结果数据


数据集1 数据集2
1 字符串比较 药物治疗 Ingredient_name ATC的代码
2 字符串比较 药物治疗 Product_name ATC的代码
3. 相似性匹配 药物治疗 成份名称和产品名称 ATC代码+相似度评分

算法1和算法2依靠简单的字符串比较来识别药物处方中的成分名称或产品名。算法3基于数据集1中的数据元素“药物”与数据集2中的两个数据元素“PRODUCT_NAME”和“INGREDIENT”与Python库之间的相似度匹配进行自然语言处理(NLP)FuzzyWuzzy20.使用Levenshtein距离,因为它在其他医疗保健研究领域显示出有希望的结果[2122]。最佳相似度评分结果为100,表示字符串“药物”的成分完全包含在“成份”或“产品”中。相似度得分越低,表示药品字符串与药品目录条目的相似度越低。该算法提供了多达3种可能的ATC代码,根据它们的相似度评分按降序排序。确定最有希望的方法FuzzyWuzzy在我们的实现库中,我们定义了数据元素drug中的词序是不相关的,并且可以不同于在INGREDIENT_NAME和PRODUCT_NAME中比较的字符串。来自数据元素“药物”条目的所有单词都必须包含在“成份名称”条目中E或PRODUCT_NAME,反之亦然。这导致了该方法的实现token_set_ratio。此方法对要比较的两个字符串进行标记,将大写改为小写,并删除标点符号。然后,它按字母顺序对标记进行排序,并将它们分成两组:交集组(在两个字符串中都相同的标记)和剩余组(在比较字符串中不同的标记)。的token_set_ratio方法将交点组与第一个字符串的交点和余数进行比较,然后将该交点组与另一个字符串的余数进行比较,最后将比较的最高结果作为最终结果。如下例所示(文本框1),token_set_ratio方法提供有关给定需求的最佳结果。

token_set_ratio方法的一个示例。

d1 = " Stada扑热息痛"

d2 = "扑热息痛Stada 400毫克"

打印(“比:“fuzz.ratio (d1.lower (), d2.lower ()))

Print(" Partial Ratio: ", fuzz.partial_ratio(d1.lower(),d2.lower())))

Print(" Token Sort Ratio: ", fuzzy .token_sort_ratio(d1.lower(),d2.lower())))

Print(" Token Set Ratio: ", fuzz.token_set_ratio(d1.lower(),d2.lower())))

比:54

部分比例:65

令牌排序比率:83

令牌集比率:100

文本框1。token_set_ratio方法的一个示例。

将算法应用于数据集1和3。数据集3中的算法结果也用于数据集4。还计算了各排列(算法1+2、1+3、2+3和1+2+3)结果之间的一致性。完整的源代码可以在Zenodo [23]。

验证

验证步骤由与前面步骤相同的跨学科团队手动检查自动生成的ATC代码组成。它是在最常见的自由文本处方的子集上执行的。为了保持验证工作量与效益成比例,为非结构化药物处方的手动验证过程定义了一个最小目标,以覆盖至少80%的结构化和手动验证的非结构化条目。在验证步骤中,将信息添加到每个算法中,以确定是否识别出正确的ATC代码、错误的ATC代码或没有识别出ATC代码。如果没有算法识别正确的ATC代码,则尽可能通过手动验证确定。发现一般没有药品处方的,将其标注为新增无药品处方的分录,并以“未命名”为关键字。对于需要进一步说明以确定确切的ATC 5级代码的药物处方,人工审查检查ATC 4级或3级代码是否可以根据药物处方的自由文本确定,否则条目被标记为非特定的关键字“unspec”。所有未对自动生成的ATC代码进行验证的非结构化药品处方条目都用关键字“no_eval”标记

根据每个算法的总结果和正确性、算法1、2和3的结果之间的一致性水平以及算法3的Levenshtein相似度评分,总结人工验证的结果,以识别任何有助于提高自动检测ATC代码结果鲁棒性的模式。对于算法3,我们使用了双尾t在Python中实现的测试,以确定正确和不正确结果的Levenshtein相似性得分的平均值之间是否存在显着差异。

此外,跨学科小组对不正确的结果进行了更详细的检查,以确定可能最大程度地揭示与关注成分(ATC)相关的重要原因和相似之处的模式。

最终数据评估

对于最终的数据评估,数据集4中记录的步骤改进和验证结果,包括正确识别的ATC 5级代码或“named”、“unspec”或“no_eval”标签,与数据集1的原始药物处方数据合并。因此,最终的数据评估是基于算法结果和人工验证进行的。确定14个ATC组中每个ATC组的药物处方记录总数,包括每个ATC组结构化与非结构化数据的比例。此外,还给出了数据集1中唯一的ATC 5级码的总数及其结构化程度,以及药物处方中使用频率最高的ATC 5级码。这允许基于ATC组和ATC代码的结构化排序。


初步数据评估

初步评估显示,数据集1中结构化处方843980张(n= 1768153张,占47.73%)。需进一步调查的非结构化药品处方占52.27%(924173条)。一组小规则,例如,所有药物处方条目以实验室或测量命令(多媒体附录1),共识别出160,896条(占所有药物处方的9.1%)条目为无药物处方数据,并将需要下一步审核的非结构化药物处方减少到763,277条(占所有药物处方的43.17%)。

根据数据集1的药物数据元素对非结构化药物处方进行分组,将每个自由文本的频率相加后,共有100,004条(n=924,173, 10.82%)唯一的自由文本条目作为药物处方信息输入并存储在数据集3中。

改进

这些算法的定量性能差别很大,因为每种算法返回的结果数量不同。算法3由于其实现和性质,为所有非结构化药物处方提供了ATC代码。

算法1(基于成分匹配)识别出8048个唯一免费文本的ATC代码。乘以每个文本条目的出现频率,得到763,277张非结构化药物处方中的244,718张(32.06%)。算法2(基于药品)的定量结果性能低于算法1,因为它识别了6744个唯一的免费文本的ATC代码。在763277张非结构化处方中,占12.61万张,占16.52%。此时,无法对算法结果的正确性做出任何声明,但是对所有算法之间的匹配率的分析显示了非结构化药物处方总数与最常见的1000个自由文本条目的匹配率,如图所示图2

图2。检查所有数据集计算的算法结果的匹配率。

验证

对最常见的1000个自由文本条目执行手动验证步骤,这些条目已经覆盖了所有非结构化药物处方的66.56%(615,129/924,173),如图所示图3。加上初步数据分析中发现的结构化药品处方(843,980/1,768,153,47.73%)和无用药条目(166,307/1,768,153,9.4%)的比例,结构化可能会增加到所有药品处方的85.18%(1,506,059/1,768,153)。

对于最常见的1000个自由文本条目(数据集4),算法1返回286个(28.6%)正确结果,1个(0.1%)不正确结果,713个(71.3%)条目没有结果。算法2返回142个(14.2%)正确结果,6个(0.6%)不正确结果,852个(85.2%)唯一条目没有结果。算法3返回765个(76.5%)正确结果和235个(23.5%)错误结果。我们还根据算法之间的结果匹配率确定了正确性,如图2,对于数据集4。对数据集4进行手动验证后,如果所有算法或算法1和算法2返回的结果相同,则返回的ATC代码始终正确。

图3。占所有非结构化药物处方中最常见的1000种的百分比。

对于算法1和算法3的匹配结果,我们注意到一个较小的差异,并在286个结果中识别出5个错误结果,其中5个案例中有4个与氯化钠药物处方有关,另外一个错误结果是阿昔洛韦成分。人工审查显示,由于ATC 1级的ATC代码因给药途径(如口服、静脉注射和结膜)而异,因此缺少细节,因此无法提供ATC代码。对于算法2和算法3的匹配结果,由于药物处方是联合药物(替米沙坦和利尿剂),我们只识别了与替米沙坦成分相关的1个错误结果,而算法只识别了单一成分替米沙坦的ATC代码。

对于数据集4,发现正确和错误结果之间的Levenshtein相似性得分的平均值有显著差异(参见表3对于描述性统计)P值为2.4 × 10-47年,远低于显著性水平α(0.05)。这意味着Levenshtein相似性得分越高,结果正确性的概率就越高。从绝对数字上讲,对于Levenshtein相似度评分>84.28的条目,可以认为结果是正确的,错误率很低。

表3。描述性统计Levenshtein相似度得分对与错的结果。
描述性统计 算法3

正确的 错误的
766 234
频率,n (%) 416585年 84598年
值,平均值(SD) 84.28 (14.86) 67.18 (15.52)
范围(%) 21 - 100 29 - 100
百分位

第25百分位 76 55

50百分位 87 63

第75个百分位 96 75

仅算法3就返回了234个错误结果,其中4.78%(84,598/1,768,153)为药物处方,可分为四类:(1)人工识别了不含药物处方且应用规则不起作用的额外条目;(2)由于信息缺失,一般无法规范;(3)因药品处方信息非特异性,限制为ATC 3级或4级的;(四)其他原因。我们发现16个条目(乘以频率=5411)没有额外的药物处方条目。对于另外11个(乘以频率=2187)条目,由于剂型或剂量缺失,无法提供ATC代码。2张胰岛素治疗处方(乘频次=2610)ATC限制为3级。另有2条(乘频次=887)限定为ATC 4级氯化钠处方。

对于其他203个错误识别的条目,我们检查了26个条目的子集,其中算法3返回的结果具有Levenshtein相似性值≥80,因为它是正确的指示,但不幸的是并不适用于所有结果。Levenshtein相似度值≥80的26个结果仍然是不正确的。这些结果中出现错误的主要原因是各成分的ATC代码因剂型和在药品中组合而异,如表4。大多数错误结果(26个中的15个)是由于自由文本中缺少成分剂型造成的,特别是氯化钠、强的松龙、二甲基丁尼、阿昔洛韦和氢化可的松。完整数据集4中列出的所有算法结果质量数据元素表1可在多媒体附录2

表4。算法3的错误结果Levenshtein相似度评分≥80。
药物免费文本 错误的结果 Levenshtein相似度得分 正确的结果 原因
asratiopharm 100 mg TAH tablet |(Acetylsalicylsäure) N02BA01 89 B01AC06 词语相似度
Prednisolon S01CA53 One hundred. H02AB06 剂型
镁VERLA 300橙粒|(镁离子) A12CC05 One hundred. V06XX02 词语相似度
ARILIN 500片|(甲硝唑) G01AF01 One hundred. P01AB01 词语相似度
坎地沙坦HEXAL comp 16mg /12.5 mg片剂|(坎地沙坦) C09CA06 89 C09DA26 组合产品
肝素钠 C05BA03 One hundred. B01AB01 剂型
PREDNISOLON S01CA53 One hundred. H02AB06 剂型
FENISTIL Injektionslösung | (Dimetinden) D04AA13 One hundred. R06AB03 剂型
ACIC 250 PI Via Pulver z.Herst.e.Infusionslösg。|(阿昔洛韦) D06BB03 One hundred. J05AB01 剂型
氯化钠0.9% B05CB01 One hundred. B05BB11 剂型
缬沙坦HEXAL comp.160mg/12,5mg filmtablet |(缬沙坦) C09CA03
C09DA23 组合产品
Prednisolon毫克 S01CA53 88 H02AB06 剂型
氯化钠0.9% B05CB01 One hundred. B05BB11 剂型
acic200片|(阿昔洛韦) D06BB03 One hundred. J05AB01 剂型
ACIC 500 PI Via Pulver z.Herst.e.Infusionslösg。|(阿昔洛韦) D06BB03 One hundred. J05AB01 剂型
辛伐他汀 C10BA02 One hundred. C10AA01 无组合产品
坎地沙坦HEXAL comp 8mg /12.5 mg片剂|(坎地沙坦) C09CA06 89 C09DA26 组合产品
NaCL 0.9% |(钠离子,氯化物) B05CB01 One hundred. B05BB11 剂型
C) FENISTIL 1 amulle als Bolus | (Dimetinden) D04AA13 One hundred. R06AB03 剂型
HCT C09DX01 One hundred. C03AA03 文字短小
别嘌呤醇 M04AA51 One hundred. M04AA01 组合产品
强的松5mg S01CA53 81 H02AB06 剂型
氢化可的松10mg Jenapharm片|(氢化可的松) S01BA02 81 H02AB09 剂型
辛伐他汀20mg C10BA02 One hundred. C10AA01 没有组合
氯化钠0.9% B05CB01 One hundred. B05BB11 剂型

最终数据评估

与初始数据评估中只能区分结构化和非结构化处方相比,应用该算法后,我们能够对14个ATC 1级组中每个组的结构化和非结构化药物处方进行百分比分布。最终结果见表5,显示了每个ATC 1级组结构化药物处方的数量与非结构化药物处方的数量。每个ATC 1级组的药物处方总数(包括百分比)概述了按14个ATC 1级组分类的最常用和最不常用药物。为了完整起见,我们添加了3行表5包含标识为其他订单(no_med)的非结构化条目的数量,标识为未指定条目(unspec)的非结构化条目的数量,以及未执行验证的剩余非结构化数据;因此,没有正确的ATC代码的语句是可能的。ATC水平1组“N -神经系统”是最常见的组,占初始数据集1的24.1%(322,286/1,337,565),其次是“B -血液和血液形成器官”,“A -消化道和代谢”和“C -心血管系统”,各占约19%。

图4说明了14个ATC 1级组中每个组的数据结构。结构化数据最多的ATC 1级组为“S -感觉器官”组,结构化数据为98.03%(5077/5179),其次为“H -全体性激素药物,不包括性激素和胰岛素”组,结构化数据为79.9%(51296 / 64199)。ATC 1级组“R -呼吸系统”、“C -心血管系统”、“J -全身抗感染”、“V -各种”、“B -血液和造血器官”和“N -神经系统”,结构化数据的范围从61%到70%不等。ATC组“P -抗寄生虫产品、杀虫剂和驱蚊剂”的结构化处方比例最低,仅为23.4%(342/1461)。

在药品处方数据中共鉴定出742种ATC 5级代码(成分)。

各成分的结构性差异很大,各成分之间的结构性差异很大,如图5,其中742个ATC 5级代码(成分)中的每一个都由一个点表示。y轴表示0%到100%之间的结构化程度。x轴表示数据集1中每个ATC 5级代码的频率,限制为85.18%(1,506,059/1,768,153)结构化和评估的非结构化数据。在药品处方中使用次数超过4.5万次的ATC 5级代码只有4个,分别是N02BB02(元氨唑)、B05BB01(氯化钠)、A02BC02(泮托拉唑)和N02AA05(羟可酮)。

表5所示。按结构化、非结构化和组合数据的ATC等级1划分的解剖治疗化学(ATC)代码数目。
ATC第一层 结构化处方(n=843,980), n/ n (%) 评估子集的非结构化药物处方(n=924,173), n/ n (%) 总数(n=1,768,153), n/ n (%)
N -神经系统 197831/322286 (61.38) 124455/322286 (38.62) 322286/1337565 (24.1)
B -血液和造血器官 164032/251120 (65.32) 87088/251120 (34.68) 251120/1337565 (18.77)
A -消化道和新陈代谢 137988/250543 (55.08) 112555/250543 (44.92) 250543/1337565 (18.73)
C -心血管系统 170703/247629 (68.93) 76926/247629 (31.07) 247629/1337565 (18.51)
J -全身使用抗感染 60844/88659 (68.63) 27815/88659 (31.37) 88659/1337565 (6.63)
H -系统激素药物,不包括性激素和胰岛素 51296/64199 (79.9) 12903/64199 (20.1) 64199/1337565 (4.8)
M -肌肉骨骼系统 12083/36819 (32.82) 24736/36819 (67.18) 36819/1337565 (2.75)
R -呼吸系统 19686/28148 (69.94) 8462/28,148 (30.06) 28148/1337565 (2.1)
V -各种 9639/14,672 (65.7) 5033/14,672 (34.3) 14672/1337565 (1.1)
L -抗肿瘤和免疫调节剂 8670/14,538 (59.64) 5868/14,538 (40.36) 14538/1337565 (1.09)
G -泌尿系统和性激素 3662/8778 (41.71) 5116/8778 (58.28) 8778/1,337,565 (0.66)
S -感觉器官 5077/5179 (98.03) 102/5179 (1.97) 5179/1,337,565 (0.39)
D -皮肤科 2127/3534 (60.19) 1407/3534 (39.81) 3534/1,337,565 (0.26)
P -抗寄生虫产品,杀虫剂和驱虫剂 342/1461 (23.41) 1119/1461 (76.59) 1461/1,337,565 (0.11)
没有地中海 0/1,768,153 (0) 166307/1768153 (9.41) 166307/1768153 (9.41)
unspec 0/1,768,153 (0) 2187/1,768,153 (0.12) 2187/1,768,153 (0.12)
全部验证 843980/1768153 (47.73) 662079/1768153 (37.44) 1506059/1768153 (85.18)
不验证 0/1,768,153 (0) 262094/1768153 (14.82) 262094/1768153 (14.82)
图4。初始数据集DS1中,ATC组药物处方的结构化率为85.18%。解剖治疗化学。
图5。(a)总非结构化数据和(b)各ATC L1组药物处方的结构化。A:消化道与代谢;ATC:解剖治疗化学;B:血液和造血器官;C:心血管系统;D:皮肤;G:生殖泌尿系统和性激素;H:全身性激素药物,不包括性激素和胰岛素;J:全身性抗感染; L: Antineoplastic and immunomodulating agents; L1: level 1; L5: level 5; M: Musculo-skeletal system; N: Nervous system; P: Antiparasitic products, insecticides, and repellents; R: Respiratory system; S: Sensory organs; V: Various.

这4个ATC 5级代码合计占数据集1总数据的14.79%(261460 / 1768153)。泮托拉唑的结构化数据水平最低(10490 /65,861,15.93%),羟考酮的结构化数据水平最高(44,952/46,434,96.81%)。多媒体附录3包含所有成分的完整列表及其ATC 5级代码,结构化,非结构化和总药物处方的数量。此外,它还包括每种成分的百分比强度,按药物处方的总数排序,从数量最多的开始。


主要研究结果

我们的4步方法确保了Zozus等人推荐的数据质量评估[18]。我们通过报告药物处方的结构来提供透明度。此外,我们的方法提高了药物处方数据的结构化,从而提高了数据的完整性。这使得在研究基础设施上的二次使用具有更好的可用性,例如基于OMOP的ATC代码伴随着人工审查。

药物数据初步分析显示,非结构化处方占52.3%,结构化处方占47.7%。采用所提出的算法,在评价1级的情况下,结构度可提高到85.1%。对于初始数据集1的评估,人工检查最频繁的1000个自由文本条目就足够了,我们能够达到80%的目标最小覆盖率。基于相似性匹配的算法3在数量上优于其他2种算法,为所有非结构化药物处方提供了结果。在结果的可靠性方面,算法3的正确率仅为76.5%。因此,评估阶段对于手动纠正所有不正确导出的ATC代码至关重要。此外,手动评估过程对于识别模式至关重要,这些模式可用于基于其他因素确定算法的可靠性,例如算法对算法的匹配和算法3的Levenshtein相似性评分。当所有3种方法或算法1和2产生相同的ATC代码时,认为算法结果在每种情况下都是正确的。当算法2和3或1和3产生相同的结果时,评分过程产生的不正确结果的百分比很小(大约1.5%)。

与算法3结果的总体正确性76.5%(765/1000)相比,识别出的模式是一个很好的指示,可以帮助提高结果的可靠性,而无需进一步的人工评估。Levenshtein相似度得分揭示了算法3的另一个趋势:错误结果的平均相似度得分明显低于正确结果。例外情况仅限于少数成分,原因包括缺少剂型和剂量信息,以及将相同成分用于单一和联合药物的情况,导致单独的ATC代码。RWD的质量对依赖它的观察性研究的结果有重大影响。重要的是要确保RWD数据适合用于观察性研究[24]并明确说明任何限制或质量问题[25]。

限制

目前,分析的数据集仅限于来自德累斯顿卡尔古斯塔夫Carus大学医院的住院药物处方。没有重症监护医学的药物处方数据,也没有其他机构使用我们的技术。异常值或罕见模式可能没有被发现,因为研究仅限于前1000个自由文本处方。虽然这涵盖了大部分数据,但对剩余的自由文本条目的算法结果还有待评估。本研究不包括基于已识别模式的额外药物处方条目的结果评估。目前,该方法仅限于确定非结构化药物处方的ATC代码,不考虑RxNorm等其他术语。

与前期工作比较

大多数评估RWD数据质量的研究是指与预定义的金标准数据相比的完整性和准确性维度,这些数据因出版物而异,如Weiskopf等[19]。我们没有基于RWD来源定义我们的金标准,而是使用国际公认和广泛使用的术语ATC作为标准化术语,并提供了一种方法来自动确定非结构化且仅以自由文本形式提供的药物处方数据的适当ATC。Wang等[26]开发了一个基于规则的数据质量系统,该系统具有6000个合理性测试标准(例如,男性患者怀孕不合理),但没有通过将非结构化的自由文本数据映射到定义的研究术语来解决数据协调问题。不像Schmidt等人[27], Kahn等[25],我们的研究不仅关注数据质量评估,还将数据中的结构缺失定义为没有相应ATC代码的自由文本,并在先前研究的基础上提出了一种通过自动注释适当的ATC代码来改进非结构化数据的方法。

自由文本或非结构化药物处方的高比例是由于医院的处方制度和当地条件。根据以往对RWD数据结构的研究[28),这在德国是一个普遍存在的挑战。然而,如Kruse等人所述,处理EHR记录中阻碍互操作性的非结构化数据的问题非常普遍[2930.在他们对现有的电子病历数据使用文献的系统回顾中,需要解决这些问题,以确保总体上“适合使用”。与已建立的统一医学语言系统MetaMap比较[3132],该方法已被工业界和学术界使用多年,我们的NLP方法侧重于轻量级实现。这一方面限制了配置的可能性,另一方面减少了计算量,提高了ATC码识别的性能。因为MetaMap只关注英语,不支持德语药物目录,我们的方法弥补了这一差距,也可以适应其他语言。

未来的工作

本文提出的4步方法可以应用于任何具有非结构化数据(如条件、程序或测试结果)的随钻作业。未来将在其他提供药物数据和附有ATC代码的产品清单的网站上测试这种方法。在下一阶段,我们将进一步研究模式识别,以可靠地预测特定空管代码结果的准确性,而不是手动检查它们。此外,将实施新的基于nlp的算法,以提高结果的整体可靠性。此外,我们的方法可以应用于参与德国医学信息学倡议的其他医院网站[3334],并按以下步骤执行。我们的方法并不局限于德语。因为唯一的要求是提供一个成分或药品的公共列表,以便与非结构化的自由文本进行比较,所以如果比较文本是同一种语言的,那么这可以用于任何其他语言。

结论

RWD观测研究需要高水平的数据结构化。更关键的是对局限性的认识以及研究所依据的数据结构水平的透明度。以药物处方为第一个用例,对RWD的结构进行了研究和完善,为今后其他RWD的应用提供了参考。虽然所提出的方法需要人工验证以确保结果的正确性,但该方法是有前途的,可以用于改善数据的结构化。

致谢

这项研究是MIRACUM项目的一部分,由德国教育和研究部(FKZ 01ZZ1801L)资助。

作者的贡献

IR和FB致力于概念化和方法论。JS和IR负责软件的开发。IR, SF, AF和JS参与了评估。IR, FB, JW和JS分析数据。IR、FB、JS和MW负责管理数据。最初的草稿是FB和IR写的。JW, SF, AF, MS对草案进行了评审和编辑。IR和FB致力于可视化。FB和MS负责监督。IR负责项目管理。 All authors read and agreed to the published version of the manuscript.

利益冲突

没有宣布。

多媒体附录1

小规则。

XLSX文件(Microsoft Excel文件),9kb

多媒体附录2

数据集4。

XLSX文件(Microsoft Excel文件),131kb

多媒体附录3

完整的atcl5列表,包括结构化和非结构化条目的频率和比例。

XLSX文件(Microsoft Excel文件),32kb

  1. Maissenhaelter BE, Woolmore AL, Schlag PM。基于大数据的现实证据研究:动机-挑战-成功因素。肿瘤学杂志2018年6月7日;24(增刊2):91-98 [j]免费全文] [CrossRef] [Medline
  2. 布朗JD。呼吁采取行动,利用真实世界的数据和FDA的哨兵倡议来跟踪仿制药质量。[J]中华检验医学杂志,2016;26(8):1050。[CrossRef] [Medline
  3. Desai RJ, Matheny ME, Johnson K, Marsolo K, Curtis LH, Nelson JC,等。扩大FDA哨兵系统的覆盖范围:在因果分析框架中整合电子健康记录数据的路线图。中华医学杂志[j]; 2011; 29 (1): 391 [j]免费全文] [CrossRef] [Medline
  4. Cocoros NM, Fuller CC, Adimadhyam S, Ball R, Brown JS, Dal Pan GJ,和fda哨兵COVID-19工作组。准备好应对covid -19的公共卫生监测系统:美国食品和药物管理局的哨兵系统。药物流行病学杂志2021年7月18日;30(7):827-837 [j]免费全文] [CrossRef] [Medline
  5. Behrman RE, Benner JS, Brown JS, McClellan M, Woodcock J, Platt R.开发哨兵系统-证据开发的国家资源。中华医学杂志,2011,32(6):498-499。[CrossRef] [Medline
  6. Robb MA, Racoosin JA, Sherman RE, Gross TP, Ball R, Reichman ME,等。美国食品和药物管理局的哨兵倡议:扩大医疗产品安全的视野。药物流行病学杂志2012年1月19日;21增刊1:9-11。[CrossRef] [Medline
  7. Ball R, Robb M, Anderson SA, Dal Pan G. FDA的哨兵倡议——一种全面的医疗产品监督方法。中华临床药学杂志,2016;39(3):265-268。[CrossRef] [Medline
  8. Platt R, Brown JS, Robb M, McClellan M, Ball R, Nguyen MD,等。美国食品药品监督管理局哨兵倡议-一个不断发展的国家资源。中华医学杂志,2018,11,29(2):391 - 393。[CrossRef
  9. Gini R, Sturkenboom MC, Sultana J, Cave A, Landi A, Pacurariu A, ENCePP第三工作组(欧盟数据来源多源研究方法清单)。在现实环境中执行药物监测多数据库研究的不同策略:对欧洲模式的反思。中华临床医学杂志,2016,31 (2):391 - 391 [j]免费全文] [CrossRef] [Medline
  10. EHDEN主页。欧洲健康数据和证据网络。URL:https://www.ehden.eu/[2022-05-05]访问
  11. COVID-19: EMA建立了用于实际监测治疗和疫苗的基础设施。欧洲药品管理局。2020年7月21日。URL:https://www.ema.europa.eu/en/news/covid-19-ema-sets-infrastructure-real-world-monitoring-treatments-vaccines[2022-01-13]访问
  12. Hripcsak G, Schuemie MJ, Madigan D, Ryan PB, Suchard MA。从OHDSI的观察性临床数据中得出可重复的结论。医学通报2021年8月;30(1):283-289 [j]免费全文] [CrossRef] [Medline
  13. Hripcsak G, Duke JD, Shah NH, Reich CG, Huser V, Schuemie MJ等。观察性健康数据科学和信息学(OHDSI):观察研究人员的机会。畜牧兽医学报,2015;16:574-578 [j]免费全文] [Medline
  14. 李建军,李建军,李建军,李建军。评估用于纵向社区注册中心的公共数据模型。中国生物医学工程学报(英文版);2016;33 (4):349 - 349 [J]免费全文] [CrossRef] [Medline
  15. 李建军,李建军,李建军,等。OHDSI - OMOP的应用综述。Stud Health technology通报2021年9月21日;283:95-103。[CrossRef] [Medline
  16. 药物利用研究导论。日内瓦:世界卫生组织;2003.
  17. 解剖治疗化学(ATC)分类。世界卫生组织。URL:https://www.who.int/tools/atc-ddd-toolkit/atc-classification[2022-05-05]访问
  18. 邹祖斯,李建军,李建军,等。电子病历数据二次检索的数据质量评估建议。研究之门。2015年10月https://www.researchgate.net/publication/283267713_Data_Quality_Assessment_Recommendations_for_Secondary_ise_of_EHR_Data[2022-05-05]访问
  19. 王晓明,王晓明。电子病历数据质量评估的方法和维度:支持临床研究的重用。中华医学杂志,2013,20(1):144-151 [J]免费全文] [CrossRef] [Medline
  20. Python中的模糊字符串匹配。GitHub。URL:https://github.com/seatgeek/fuzzywuzzy[2021-11-26]访问
  21. 张建军,张勇,张建军,张建军。基于机器学习的临床试验数据挖掘方法研究[J] .中国医学信息学报,2012,32(3):448 - 448。参见:2020年IEEE生物信息学与生物医学国际会议论文集(BIBM)。2020年IEEE生物信息学与生物医学国际会议(BIBM);2020年12月16日至19日;首尔,韩国(南方)。[CrossRef
  22. 王晓明,王晓明,王晓明,Bjarnadóttir .基于数据驱动的医疗过程分析。医学信息学报,2020;27(7):1037-1045 [J]免费全文] [CrossRef] [Medline
  23. 源代码的实现算法和可视化。ResearchGate网站。2022.URL:https://www.researchgate.net/publication/366867005_drug_data-publication[2023-01-04]访问
  24. 德农协。朱兰的质量手册:完整的指导业绩卓越,第七版。纽约:麦格劳希尔教育;2016年11月11日。
  25. Kahn MG, Callahan TJ, Barnard J, Bauck AE, Brown J, Davidson BN,等。电子健康记录数据二次使用的统一数据质量评估术语和框架。EGEMS (Wash DC) 2016 Sep 11;4(1):1244 [免费全文] [CrossRef] [Medline
  26. 王忠,吴宁,李建军,李建军。基于规则的电子病历数据质量评估系统。应用临床通报2020年8月;11(4):622-634 [j]免费全文] [CrossRef] [Medline
  27. 李建军,李建军,李建军,等。促进统一的数据质量评估。基于软件实现的观察性健康研究数据收集的数据质量框架[j] . BMC医学研究方法2021年4月2日;21(1):63 [j]免费全文] [CrossRef] [Medline
  28. 李建军,李建军,李建军,等。电子病历中数据的可获得性及其对临床试验患者招募的支持。在:卫生技术与信息学研究。阿姆斯特丹,荷兰:IOS Press;2021.
  29. Kruse CS, Kristof C, Jones B, Mitchell E, Martinez a .电子健康记录采用的障碍:系统的文献综述。医学系统学报,2016;40(12):252 [J]免费全文] [CrossRef] [Medline
  30. Kruse CS, Stein A, Thomas H, Kaur H.使用电子健康记录支持人口健康:文献的系统回顾。J Med system 2018 Sep 29;42(11):214 [J]免费全文] [CrossRef] [Medline
  31. 生物医学文本到UMLS元词典的有效映射:元地图程序。程序AMIA Symp 2001:17-21 [免费全文] [Medline
  32. Aronson AR, Lang F.概述MetaMap:历史视角和最新进展。中华医学杂志,2010;17(3):229-236 [J]免费全文] [CrossRef] [Medline
  33. 李建军,李建军。中国医学信息技术的发展现状与展望。方法国际医学杂志2018年7月17日;57(s1):e46-e49。[CrossRef
  34. 李建军,李建军。中国医学信息学研究进展。方法中华医学杂志2018年7月17日;57(s1):e50-e56。[CrossRef


空中交通管制:解剖治疗化学
电子健康档案:电子健康记录
NLP:自然语言处理
OMOP:观察性医疗成果伙伴关系
个随机对照试验:随机对照试验
RWD:真实的数据
UKD:德累斯顿卡尔·古斯塔夫大学医院


C·洛维斯编辑;提交15.06.22;A Lamer, M Pedrera jimsamnez, B Ru的同行评议;对作者的评论:07.09.22;修订版收到27.09.22;接受18.11.22;发表25.01.23

版权

©Ines Reinecke, Joscha Siebel, Saskia Fuhrmann, Andreas Fischer, Martin Sedlmayr, Jens Weidner, Franziska Bathelt。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 2023年1月25日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map