发表在11卷(2023)

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/40312,首次出版
来自电子健康记录的药物数据结构的评估和改进:算法开发和验证

来自电子健康记录的药物数据结构的评估和改进:算法开发和验证

来自电子健康记录的药物数据结构的评估和改进:算法开发和验证

原始论文

1医学信息和生物计量学研究所,卡尔·古斯塔夫·卡洛斯技术学院医学院Universität德累斯顿,德累斯顿,德国

2卡尔·古斯塔夫·卡洛斯医学技术学院循证保健中心Universität德累斯顿,德累斯顿,德国

3.卡尔·古斯塔夫·卡洛斯大学医院药房,德累斯顿,德国

通讯作者:

Ines Reinecke,文学学士,文学硕士

医学信息和生物计量学研究所

卡尔·古斯塔夫·卡洛斯医学院

Technische Universität德累斯顿

Fetscherstraße 74

德累斯顿,01307

德国

电话:49 35145887转12975

电子邮件:ines.reinecke@uniklinikum-dresden.de


背景:数字化提供了大量机会,可以从回顾性数据中深入了解当前的诊断和治疗方法。在这种背景下,真实数据及其可访问性对于支持无偏见和可靠的大数据研究越来越重要。然而,由于卫生保健系统的非结构化性质以及这些系统之间缺乏互操作性,常规收集的数据不容易用于研究。这一挑战在药物数据中显而易见。

摘要目的:本研究旨在提出一种方法,识别和增加药物数据的结构化,同时确保根据解剖治疗化学(ATC)分类的标准化。

方法:我们的方法是基于现有的药物处方和药物目录,包括4个步骤。首先,我们对当地药物数据的结构进行了初步分析,以确定整体方法有效性的比较点。其次,我们对非结构化数据应用了3种算法,基于成分和产品名称的字符串比较将文本转换为ATC代码,并基于Levenshtein距离进行相似度比较。第三,我们基于1000个最常用的处方文本,用专家知识验证了3种算法的结果。第四,我们进行了最终验证,以确定增加的结构程度。

结果:最初,1,768,153个药物处方中有47.73% (n=843,980)被归类为结构化处方。通过这3种算法的应用,基于1000个最常见的药物处方,我们能够将结构化程度提高到85.18% (n=1,506,059)。在这方面,算法1、2和3组合的正确性水平为100%(识别出57,264个ATC代码),算法1和3的正确性水平为99.6%(识别出152,404个代码),算法1和2的正确性水平为95.9%(识别出39,472个代码)。

结论:正如我们方法的第一个分析步骤所示,在文档化过程中选择的产品目录的可用性不足以生成结构化数据。我们的4步方法减少了问题,并自动可靠地增加了结构。相似度匹配显示了有希望的结果,特别是对于与产品目录没有关联的条目。然而,进一步提高这种相似匹配算法的正确性还需要在未来的工作中进行研究。

JMIR Med Inform 2023;11:e40312

doi: 10.2196/40312

关键字



背景

在过去十年中,全球卫生保健领域的电子可用数据量大幅增加。大部分数据是在行政索赔处理过程中产生的,通过在患者治疗期间执行的电子健康记录(EHRs)中的记录过程产生的,或通过提供患者报告结果的移动设备提供的数据馈送产生的。因此,真实世界数据(RWD)对医疗保健研究越来越重要也就不足为奇了。RWD研究可以被认为是随机对照试验(rct)的补充,因为它们允许rct的结果在更大的队列和更长的时间内得到确认。与随机对照试验相比,RWD研究具有更好的外部效度和更好的可推广性,不仅为药品的长期监测提供了机会,而且具有成本效益和节省时间[1].

药物监测系统,如美国食品和药物管理局的哨兵计划,对于促进上市后药物安全至关重要[2-8].欧洲药品管理局也已开始建立基于RWD的研究基础设施,以支持药物警戒[9].此外,欧洲健康数据和证据网络[10]在一个通用数据模型的基础上建立了跨国研究网络,该模型使标准化的RWD和观察性研究方法能够产生真实世界的证据。最近,欧洲卫生数据和证据网络已开始与欧洲药品管理局合作应对COVID-19 [11].

然而,在患者治疗过程中产生RWD的最初目的并不是主要用于研究。因此,基于RWD的观测研究结果的复制和有效性存在显著问题。为了确保RWD研究结果的可靠性和稳健性,必须解决这些问题,因为当在各国大规模进行观察性研究时,这些问题变得更加重要。

需要数据协调、使用国际标准和术语、共同的数据模型、方法和数据分析工具,以提高结果的可重复性[12].国际观察健康数据科学和信息学社区正在解决这些差距,该社区提供了称为观察医疗结果伙伴关系(OMOP)的通用数据模型和基于OMOP的标准化分析工具。它还包括标准化词汇表,其中包含国内术语和国际公认术语之间的翻译,例如,医学临床术语系统化命名法、逻辑观察标识符名称和代码、解剖治疗化学(ATC)分类和RxNorm [13].OMOP允许RWD以相同的方式存储,无论数据来源如何,从而确保在国际大规模观测研究中使用RWD。与类似的项目如整合生物学和床边信息学或国家以患者为中心的临床研究网络相比,观察性健康数据科学和信息学- omop很好地满足了观察性RWD研究的需要[14].许多关于OMOP的RWD研究表明,成分水平的药物数据足以回答他们的研究问题[15].尽管关于剂量和药物暴露单位的详细药物数据对于相同药物在不同剂量下的药物有效性和药物安全性的观察性研究很重要,但药物成分的可获得性是对OMOP药物相关RWD研究的最小公分母和基本要求。因此,药物处方数据必须以结构化的格式提供,这种格式不一定包括药品名称,但至少包括成分信息。对于药物利用研究,世界卫生组织建议使用ATC分类法,即根据药物作用的器官或系统将药物分为不同的组[16].ATC分类包括基于5个不同级别的层次结构,其中ATC 5级是代表药品有效成分的化学物质[17].市场上每一种批准的药品都有一个特定的ATC 5级代码。美国国立卫生研究院合作实验室建议从数据完整性、准确性和一致性方面评估和报告EHR数据的质量,以供临床重用[18].韦斯科普夫等[19]还确定了数据的完整性和正确性对于数据质量的提高具有特殊的重要性。

客观的

据我们所知,目前还没有一种方法可以系统地分析和改进用于观察性研究的药物处方数据的结构。因此,本研究在14组ATC 1级的基础上,系统分析了EHR处方的结构化,确定了包含ATC代码5级的结构化处方数据与没有可用标准概念的自由文本处方之间的比例。此外,我们提出了一种改进处方数据结构的方法,通过引入一种自动检测ATC代码确定的方法。为了保证自动检测结果的鲁棒性和准确性,我们在现有文本挖掘算法的基础上引入了验证步骤。


研究细节

这项回顾性、非介入性研究系统地回顾了德国德累斯顿卡尔·古斯塔夫·卡洛斯大学医院(UKD)基于真实世界观察数据的药物处方。这项研究基于完全匿名的数据,不包括与个别患者的任何相关性。从2016年到2020年,所有住院患者的药物处方(包括急性药物)都被纳入了这项研究,不受特定条件或治疗方法的限制。原始数据从Dedalus使用ORBIS模块“KURV”记录在ORBIS医院信息系统中,该模块表示患者曲线,包括用药数据。从医院信息系统记录中共审查了1,768,153个药物处方。来自其他系统(如重症监护病房和化疗)的药物处方数据被排除在外,因为这些系统中的数据完全结构化并存储在单独的后端系统中。本研究使用的数据是由德国联邦教育和研究部的数据集成中心提供的,该中心是由德国联邦教育和研究部资助建立的,是德国医疗信息计划的一部分。

伦理批准

该研究被德累斯顿技术大学伦理委员会批准为回顾性、观察性、非介入性、非人类受试者研究(SR-EK-521112021)。

数据集详细信息

使用了以下2个数据集:药品处方数据(数据集1)和药品目录数据(数据集2)。药品目录于2021年11月16日从UKD企业资源规划系统导出,包含药品名称、药品成分名称、ATC 5级代码、药品剂量和单位信息以及遗留产品。此外,从数据集1衍生出另外两个数据集。首先,基于所有非结构化处方条目的分组数据集1生成一个聚合数据集(数据集3)。创建数据集3的分组活动是在数据集1的MEDICATION列上执行的,方法是使用Python库Pandas及其元素Pandas对数据元素MEDICATION中的所有条目进行分组groupby函数。每个独特用药记录的频率信息被添加到数据集3中。数据集(数据集4)包含来自数据集3的前1000个最频繁条目的子集和来自人工评估步骤的其他结果。

上述数据集中与本研究相关的所有元数据元素都在表1.从药品目录数据中选择的药品处方被标记为结构化数据(例如,“IBUPROFEN STADA 600 mg Zäpfchen |[布洛芬钠,布洛芬]”)基于数据集1的结构列的内容。未从药品目录中选择的药品处方被指定为非组织性数据(例如,“布洛芬600”和“布洛芬”)。

表1。相关数据集及其元数据元素的描述。
数据集和数据元素 数据类型 描述
DS一个1个包含所有药物处方的初始数据集

药物治疗 字符串 自由文本或预定义值,在创建新的药物处方时,从包含药品名称的可用固定下拉菜单中选择,该产品名称来源于药品目录

一年 数量 从处方起始日期信息中提取,用于进一步统计分析

结构 布尔 如果从药品目录中选择了药物,则为TRUE;如果输入了免费文本,则为FALSE

空中交通管制b_L5 字符串 ATC代码级别5可用的情况下结构为真,否则为空
DS2药品目录数据

Product_name 字符串 产品名称如ERP中所列c系统

Ingredient_name 字符串 产品所列成分名称

Atc_code 字符串 ATC代码5级
DS3根据用药数据元素对DS1进行分组

药物治疗 字符串 分组的非结构化自由文本条目

频率 数量 总结了出现的MEDICATION文本字段,确定最相关的免费文本药物处方

Step1 字符串 算法1的结果为ATC代码,如果不匹配则为空

步骤2 字符串 算法2的结果为ATC代码,如果不匹配则为空

步骤3 字符串 算法3的结果为ATC代码,如果不匹配则为空
DS4最频繁的1000个DS3条目(按频率排序)

药物治疗 字符串 分组的非结构化自由文本条目

频率 数量 总结了发生用药的文本字段

Step1 字符串 算法1的结果为ATC代码,如果不匹配则为空

步骤2 字符串 算法2的结果为ATC代码,如果不匹配则为空

步骤3 字符串 算法3的结果是一个ATC代码

Eval1 布尔 算法1评价结果

Eval2 布尔 算法2评价结果

Eval3 布尔 算法3评价结果

True12 布尔 如果算法1+2的结果相同,则为TRUE

True13 布尔 如果算法1+3的结果相同,则为TRUE

True23 布尔 如果算法2+3的结果相同,则为TRUE

True123 布尔 如果算法1+2+3的结果相同,则为TRUE

正确的 字符串 修正了ATC代码。如果没有算法确定正确的结果,则在评估步骤中手动输入

评论 字符串 如有需要,请提供任何意见或其他信息

最后 字符串 在无法确定ATC代码的情况下,最终确定所有条目或标签的ATC代码(标签在方法验证部分详细介绍)

一个DS:数据集。

bATC:解剖治疗化学。

cERP是企业资源规划。

数据分析

概述

数据分析分为四个步骤,如图所示图1.该过程的第一步是初始数据质量分析,以确定结构化与非结构化药物处方的总体比例。

为了改善处方的结构,应用3种现有算法对非结构化处方自动识别正确的ATC代码。然后由专家(药剂师和医疗信息科学家)手动检查识别出的ATC代码,并检查其正确性。该步骤还包括识别现有模式,这些模式可以帮助得出自动识别的非结构化数据ATC代码的可靠性。最后,综合前3个步骤的结果,评估非结构化药物处方的改善程度。为了确保整个过程的专家覆盖,成立了一个由药剂师、计算机科学家和医学信息学研究人员组成的跨学科团队。

图1。数据分析四步法。ATC:解剖治疗化学;NLP:自然语言处理。
初步数据评估

最初,为数据集1确定结构化与非结构化药物处方的比例。为此,使用数据集1的STRUCTURE数据元素将数据细分为2组。如果STRUCTURE的值为TRUE,则认为该记录是结构化的;除此之外,它是无结构的。随后,将药物处方的非结构化子集通过数据元素MEDICATION分组为数据集3,计算频率并添加为数据元素frequency。

跨学科专家团队对分组药物处方(数据集3)进行了第一次人工审查,以确定不是药物处方而是其他指示的记录,例如血细胞计数命令或其他实验室和测量命令(例如,“BGA”-实验室要求血气分析,“BE”-护士要求抽取血液样本,“BB”-实验室要求血计数)。这项任务产生了一组规则(多媒体附件1),以便自动搜索和识别需要排除的药物条目。

改进

非结构化药物处方(通常以自由文本形式提供)被用作改进步骤的输入。之前没有对药物处方进行预处理。在这一步中,实现了3种不同的算法来自动识别基于药物文本的ATC 5级代码。

这些算法基于一种不同的机制,用于将数据集1的MEDICATION文本与数据集2的产品目录数据元素recipient_name和PRODUCT_NAME进行匹配,详见表2

表2。非结构化药物处方的解剖治疗化学(ATC)代码识别算法概述。
算法 机制 输入比较数据 结果数据


数据集1 数据集2
1 字符串比较 药物治疗 Ingredient_name ATC的代码
2 字符串比较 药物治疗 Product_name ATC的代码
3. 相似性匹配 药物治疗 成分_name和PRODUCT_NAME ATC代码+相似分

算法1和2依靠简单的字符串比较来识别处方中的成分名称或产品名称。算法3利用Python库对数据集1中的数据元素MEDICATION和数据集2中的数据元素PRODUCT_NAME和INGREDIENT进行相似性匹配,进行自然语言处理(NLP)FuzzyWuzzy20.]使用Levenshtein距离,因为它在其他卫生保健研究领域已经显示出有希望的结果[2122].最好的相似分结果是100,这意味着字符串MEDICATION的组件完全包含在INGREDIENT_NAME或PRODUCT_NAME中。相似度得分越低,与药品目录条目相比,MEDICATION字符串的相似度就越低。该算法提供了多达3种可能的ATC代码,根据它们的相似性分数按降序排序。确定最有前途的方法FuzzyWuzzy我们定义了数据元素MEDICATION中的词序是不相关的,并且可以不同于INGREDIENT_NAME和PRODUCT_NAME中的比较字符串。数据元素MEDICATION条目中的所有单词必须包含在INGREDIENT_NAM条目中E或PRODUCT_NAME,但反之亦然。这导致了该方法的实现token_set_ratio.此方法对要比较的两个字符串进行标记,将大写改为小写,并删除标点符号。然后按字母顺序对标记进行排序,并将它们分为2组:交集组(在两个字符串中相同的标记)和余数组(在比较字符串中不同的标记)。的token_set_ratio方法将交集组与第一个字符串的交集和余数进行比较,然后与另一个字符串的余数进行相同的比较,最后将这种比较的最高结果作为最终结果。如下例所示(文本框1),token_set_ratio方法提供关于给定需求的最佳结果。

token_set_ratio方法的示例。

d1 = "斯塔达扑热息痛"

d2 = "对乙酰氨基酚斯塔达400毫克"

打印(“比:“fuzz.ratio (d1.lower (), d2.lower ()))

Print(" Partial Ratio: ", fuzzy .partial_ratio(d1.lower(),d2.lower())))

Print("令牌排序比率:",fuzzy .token_sort_ratio(d1.lower(),d2.lower())))

Print("令牌集比率:",fuzzy .token_set_ratio(d1.lower(),d2.lower())))

比:54

偏比例:65

令牌排序比:83

令牌集比率:100

文本框1。token_set_ratio方法的示例。

算法应用于数据集1和3。数据集3中算法的结果也用于数据集4。还计算了每种排列(算法1+2,1+3,2+3和1+2+3)结果之间的一致性。完整的源代码可在Zenodo上访问[23].

验证

验证步骤包括由与前面步骤相同的跨学科团队手动检查自动生成的ATC代码。它是在最常见的自由文本处方的子集上进行的。为了保持验证工作量与效益成比例,为非结构化药物处方的手动验证过程定义了一个最低目标,以覆盖至少80%的结构化和手动验证的非结构化条目。在验证步骤中,将信息添加到每个算法中,以确定是否识别出正确的ATC代码、错误的ATC代码或没有识别出ATC代码。如果没有算法识别出正确的ATC代码,则尽可能通过手动验证来确定。如果发现一个条目通常没有药物处方,则将其标记为一个没有药物处方的附加条目,并使用关键字“已命名”。对于需要进一步规范以确定确切的ATC级别5代码的药物处方,人工审查将检查是否可以根据药物处方的自由文本确定ATC级别4或3代码,否则该条目将使用关键字“unspec”标记为非特定。所有未对自动生成的ATC代码进行验证的非结构化药物处方条目都用关键字“no_eval”标记

对人工验证的结果进行总结,根据每个算法的总发现和正确性,算法1、2和3的结果之间的一致性水平,以及算法3的Levenshtein相似分数,确定任何有助于提高自动检测ATC代码结果的鲁棒性的模式。对于算法3,我们使用了双尾算法t用Python实现的测试,以确定正确和不正确结果的Levenshtein相似分数的平均值之间是否存在显著差异。

此外,跨学科团队对不正确的结果进行了更详细的检查,以确定能够最大限度地揭示与关注成分(ATC)相关的重要原因和相似性的模式。

最终数据评估

对于最终的数据评估,数据集4中记录的步骤改进和验证结果,包括正确识别的ATC 5级代码或“nomed”、“unspec”或“no_eval”标签,与数据集1中的原始药物处方数据合并。因此,基于算法结果和人工验证,执行最终的数据评估。确定14个ATC组的处方记录总数,包括每个ATC组的结构化数据与非结构化数据的比例。此外,还给出了数据集1中唯一ATC 5级代码的总数,包括它们的结构,以及在处方中使用频率最高的ATC 5级代码。这允许基于ATC组和ATC代码对结构进行排名。


初步数据评估

初步评估显示843,980 (n=1,768,153,数据集1中的47.73%)结构化药物处方。需要进一步调查的非结构化处方占52.27%(924173条)。一小组规则,例如,所有以实验室或测量单开头的药物处方条目(多媒体附件1),识别出共有160,896个(占所有药物处方的9.1%)条目为无药物处方数据,并将需要进行下一步审查的非结构化药物处方减少到763,277个(占所有药物处方的43.17%)。

基于数据集1的用药数据元素对非结构化药物处方进行分组,得到了总共100,004 (n=924,173, 10.82%)个唯一的自由文本条目,这些条目作为药物处方信息输入,并在添加每个自由文本的频率后存储到数据集3中。

改进

算法的量化性能有很大的不同,因为每个算法返回不同数量的结果。由于算法3的实现和性质,它为所有非结构化药物处方提供了一个ATC代码。

算法1(基于成分匹配)为8048个唯一的自由文本识别ATC代码。乘以每个文本输入的频率,得到763,277个非结构化药物处方中的244,718个(32.06%)药物处方。算法2(基于药品)的定量结果性能低于算法1,因为它识别了6744个唯一的自由文本的ATC代码。这代表了763,277个非结构化药物处方中的126,100个(16.52%)。此时,还不能说明算法结果的正确性,但通过分析所有算法之间的匹配率,可以看出非结构化药物处方总数和最频繁的1000个自由文本条目的匹配率,如图所示图2

图2。在所检查的所有数据集上计算的算法结果的匹配率。

验证

手动验证步骤对最频繁的1000个自由文本条目执行,已经覆盖了所有非结构化药物处方的66.56%(615,129/924,173),如图所示图3.加上在初步数据分析中确定的结构化药物处方(843,980/1,768,153,47.73%)和无药物处方(166,307/1,768,153,9.4%)的比例,所有药物处方的结构化可能会增加到85.18%(1,506,059/1,768,153)。

对于最频繁的1000个自由文本条目(数据集4),算法1返回286(28.6%)个正确结果,1(0.1%)个错误结果,713(71.3%)个条目没有结果。算法2返回142个(14.2%)正确结果,6个(0.6%)错误结果,852个(85.2%)唯一条目没有结果。算法3返回了765个(76.5%)正确结果和235个(23.5%)错误结果。我们还根据算法之间的结果匹配率来确定正确性,如图所示图2,为数据集4。手动验证数据集4后,如果所有算法或算法1和算法2都返回相同的结果,则返回的ATC代码始终正确。

图3。所有非结构化药物处方中最常见的1000种的百分比。

在算法1和算法3的匹配结果中,我们发现了微小的差异,在286个匹配结果中,我们识别出了5个错误的结果,其中4 / 5的匹配结果与氯化钠药物处方有关,另一个错误的匹配结果是成分阿昔洛韦。人工复查显示无法提供ATC代码,因为ATC 1级的ATC代码因给药途径(如口服、静脉注射和结膜注射)而不同,导致细节缺失。对于算法2和算法3的匹配结果,我们仅识别出1个与替米沙坦成分相关的错误结果,因为处方为联合药物(替米沙坦和利尿剂),而算法仅识别出单成分替米沙坦的ATC代码。

对于数据集4,在正确和不正确的结果之间发现了Levenshtein相似分数的平均值的显著差异(见表3用于描述性统计)P值为2.4 × 10-47年,远低于显著性水平α(0.05)。这意味着Levenshtein相似性分数越高,结果正确的概率就越高。从绝对数字来看,对于Levenshtein相似度评分为>84.28的条目,可以认为结果是正确的,错误率较低。

表3。正确和错误结果的Levenshtein相似分的描述性统计。
描述性统计 算法3

正确的 错误的
766 234
频率,n (%) 416585年 84598年
值,平均值(SD) 84.28 (14.86) 67.18 (15.52)
范围(%) 21 - 100 29 - 100
百分位

第25百分位 76 55

50百分位 87 63

第75个百分位 96 75

仅用算法3返回的234个错误结果,占处方错误数的4.78%(84598 / 1768153),可分为4类:(1)人工识别的附加条目中没有处方,应用规则不起作用;(2)由于信息缺失,一般无法进行规范;(3)因处方信息不具体而限制ATC 3级或4级;(4)其他原因。我们发现16个条目(乘以频率=5411)没有额外的药物处方条目。对于另外11项(乘以频率=2187),无法提供ATC代码,因为剂型或剂量缺失。对于胰岛素治疗的2种药物处方(乘以频率=2610),ATC水平限制在3级。另外2个(乘以频率=887)条目仅限于ATC 4级氯化钠处方。

对于其他203个识别错误的条目,我们检查了26个条目的子集,其中算法3返回的结果Levenshtein相似值≥80,因为这是一个正确性的指示,但不幸的是,并不适用于所有结果。一小组26个Levenshtein相似值≥80的结果仍然不正确。这些结果中出现错误的主要原因是成分的ATC代码因剂型和在药品中组合时的不同而不同,如图所示表4.大多数错误结果(26个中的15个)是由于自由文本中缺少成分剂型引起的,特别是氯化钠、泼尼松龙、二甲替尼、阿昔洛韦和氢化可的松。中列出的所有算法结果质量数据元素的完整数据集4表1可在多媒体附件2

表4。Levenshtein相似分≥80的算法3结果错误。
无药物文本 错误的结果 Levenshtein相似度评分 正确的结果 原因
ASS RATIOPHARM 100 mg TAH片|(Acetylsalicylsäure) N02BA01 89 B01AC06 词语相似度
Prednisolon S01CA53 One hundred. H02AB06 剂型
镁VERLA 300橙粒|(镁离子) A12CC05 One hundred. V06XX02 词语相似度
ARILIN 500电影片|(甲硝唑) G01AF01 One hundred. P01AB01 词语相似度
坎地沙坦HEXAL comp 16 mg/12.5 mg片|(坎地沙坦) C09CA06 89 C09DA26 组合产品
肝素钠 C05BA03 One hundred. B01AB01 剂型
PREDNISOLON S01CA53 One hundred. H02AB06 剂型
FENISTIL Injektionslösung | (Dimetinden) D04AA13 One hundred. R06AB03 剂型
ACIC 250 PI Via Pulver z.Herst.e.Infusionslösg。|(阿昔洛韦) D06BB03 One hundred. J05AB01 剂型
氯化钠0.9% B05CB01 One hundred. B05BB11 剂型
缬沙坦HEXAL comp.160mg/12,5mg Filmtabletten |(缬沙坦) C09CA03
C09DA23 组合产品
Prednisolon毫克 S01CA53 88 H02AB06 剂型
氯化钠0.9% B05CB01 One hundred. B05BB11 剂型
ACIC 200片|(阿昔洛韦) D06BB03 One hundred. J05AB01 剂型
ACIC 500 PI Via Pulver z.Herst.e.Infusionslösg。|(阿昔洛韦) D06BB03 One hundred. J05AB01 剂型
辛伐他汀 C10BA02 One hundred. C10AA01 无组合产品
坎地沙坦HEXAL comp 8 mg/12.5 mg片|(坎地沙坦) C09CA06 89 C09DA26 组合产品
|(钠离子,氯化物) B05CB01 One hundred. B05BB11 剂型
C) fennistil 1 ampulals Bolus | (Dimetinden) D04AA13 One hundred. R06AB03 剂型
HCT C09DX01 One hundred. C03AA03 文字短
别嘌呤醇 M04AA51 One hundred. M04AA01 组合产品
强的松5毫克 S01CA53 81 H02AB06 剂型
氢可的松10mg Jenapharm片|(氢可的松) S01BA02 81 H02AB09 剂型
辛伐他汀20毫克 C10BA02 One hundred. C10AA01 没有组合
氯化钠0.9% B05CB01 One hundred. B05BB11 剂型

最终数据评估

与最初只能区分结构化和非结构化药物处方的数据评估相比,应用该算法后,我们能够对14个ATC 1级组中的每个组进行结构化和非结构化药物处方的百分比分布。最终结果显示在表5,显示了每个ATC级别1组的结构化药物处方数量与非结构化药物处方数量。每个ATC 1级组的药物处方总数,包括百分比,提供了按14个ATC 1级组排序的最多和最不常开的药物的概述。为了完整起见,我们添加了3行表5包含标识为其他订单(no_med)的非结构化条目的数量,标识为未指定条目(unspec)的非结构化条目的数量,以及未执行验证的剩余非结构化数据;因此,没有正确的ATC代码的声明是可能的。ATC级别1组“N -神经系统”是最常见的组,占初始数据集1的24.1%(322,286/1,337,565),其次是“B -血液和造血器官”、“A -消化道和代谢”和“C -心血管系统”,各约占19%。

图4说明了14个ATC 1级组中每个组的数据结构。ATC 1级组结构化数据最多的是“S -感觉器官”组,结构化数据为98.03%(5077/5179),其次是“H -全身激素类药物,不含性激素和胰岛素”组,结构化数据为79.9%(51296 / 64199)。ATC级别1组“R -呼吸系统”、“C -心血管系统”、“J -全身使用的抗感染”、“V -各种”、“B -血液和造血器官”和“N -神经系统”的结构化数据从61%到70%不等。ATC组“P -抗寄生虫产品、杀虫剂和驱蚊剂”的结构化药物处方比例最低,仅为23.4%(342/1461)。

在药物处方数据中,总共识别出742个ATC 5级代码(成分)。

成分的结构差异很大,表现出成分之间的结构差异很大,如图图5,其中742个ATC 5级代码(成分)中的每一个都用一个点表示。y轴表示0% - 100%之间的结构化程度。x轴表示数据集1中每个ATC级别5代码的频率,限制为85.18%(1,506,059/1,768,153)结构化和评估的非结构化数据。处方中使用次数超过4.5万次的ATC 5级代码只有4个,分别为N02BB02 (metamizole)、B05BB01 (sodium氯化钠)、A02BC02(泮托拉唑)、N02AA05 (oxycodone)。

表5所示。结构化、非结构化和组合数据的解剖治疗化学(ATC)代码的数量,ATC级别为1。
空中交通管制1级 结构化药物处方(n=843,980), n/ n (%) 评估亚组非结构化药物处方(n= 924173), n/ n (%) 总数(n=1,768,153), n/ n (%)
N -神经系统 197831/322286 (61.38) 124455/322286 (38.62) 322286/1337565 (24.1)
B -血液和造血器官 164032/251120 (65.32) 87088/251120 (34.68) 251120/1337565 (18.77)
A -消化道和新陈代谢 137988/250543 (55.08) 112555/250543 (44.92) 250543/1337565 (18.73)
C -心血管系统 170703/247629 (68.93) 76926/247629 (31.07) 247629/1337565 (18.51)
J -全身使用的抗感染药 60844/88659 (68.63) 27815/88659 (31.37) 88659/1337565 (6.63)
H -全身激素类药物,不包括性激素和胰岛素 51296/64199 (79.9) 12903/64199 (20.1) 64199/1337565 (4.8)
M -肌肉骨骼系统 12083/36819 (32.82) 24736/36819 (67.18) 36819/1337565 (2.75)
R -呼吸系统 19686/28148 (69.94) 8462/28,148 (30.06) 28148/1337565 (2.1)
V -各种 9639/14,672 (65.7) 5033/14,672 (34.3) 14672/1337565 (1.1)
L -抗肿瘤和免疫调节剂 8670/14,538 (59.64) 5868/14,538 (40.36) 14538/1337565 (1.09)
G -生殖器、泌尿系统和性激素 3662/8778 (41.71) 5116/8778 (58.28) 8778/1,337,565 (0.66)
S -感觉器官 5077/5179 (98.03) 102/5179 (1.97) 5179/1,337,565 (0.39)
D -皮肤病 2127/3534 (60.19) 1407/3534 (39.81) 3534/1,337,565 (0.26)
P -抗寄生虫产品,杀虫剂和驱蚊剂 342/1461 (23.41) 1119/1461 (76.59) 1461/1,337,565 (0.11)
没有地中海 0/1,768,153 (0) 166307/1768153 (9.41) 166307/1768153 (9.41)
unspec 0/1,768,153 (0) 2187/1,768,153 (0.12) 2187/1,768,153 (0.12)
全部验证 843980/1768153 (47.73) 662079/1768153 (37.44) 1506059/1768153 (85.18)
不验证 0/1,768,153 (0) 262094/1768153 (14.82) 262094/1768153 (14.82)
图4。在初始数据集DS1中,85.18%的ATC组的药物处方结构。ATC:解剖治疗化学。
图5。通过ATC L5 (a)总的非结构化数据和(b)每个ATC L1组的药物处方的结构。答:消化道与代谢;ATC:解剖治疗化学;B:血液及造血器官;C:心血管系统;D:皮肤;G:生殖器泌尿系统和性激素;H:全身激素类药物,不含性激素和胰岛素;J:全身性抗感染; L: Antineoplastic and immunomodulating agents; L1: level 1; L5: level 5; M: Musculo-skeletal system; N: Nervous system; P: Antiparasitic products, insecticides, and repellents; R: Respiratory system; S: Sensory organs; V: Various.

这4个ATC 5级代码合计占数据集1总数据的14.79%(261460 / 1768,153)。对于这4种成分,泮托拉唑的结构化数据水平最低(10,490/65,861,15.93%),而羟考酮的结构化数据水平最高(44,952/46,434,96.81%)。多媒体包含所有成分的完整列表及其ATC 5级代码,结构化,非结构化和总药物处方的数量。此外,它还包括每种成分的百分比强度,按药物处方的总数排序,从最大的数字开始。


主要研究结果

我们的4步方法确保Zozus等人推荐的数据质量评估[18].我们通过报告药物处方的结构来提供透明度。此外,我们的方法改善了药物处方数据的结构和完整性。这导致了在研究基础设施上的二次使用的更好的可用性,例如伴随着人工审查的基于OMOP的ATC代码。

对药物数据的初步分析显示,非结构化药物处方的比例为52.3%,结构化药物处方的比例为47.7%。采用所提出的算法,在1级评价的情况下,算法的结构化可提高到85.1%。对于初始数据集1的评估,手动检查最频繁的1000个自由文本条目就足够了,我们能够实现80%的目标最小覆盖率。基于相似性匹配的算法3在定量上优于其他两种算法,对所有非结构化药物处方都能提供结果。从结果的可靠性来看,算法3的正确率仅为76.5%。因此,评估阶段是手动纠正所有不正确的ATC代码的关键。此外,人工评估过程对于识别可用于基于其他因素(如算法到算法匹配和算法3的Levenshtein相似性评分)确定算法可靠性的模式至关重要。当所有3种方法或算法1和算法2产生相同的ATC代码时,算法结果在每种情况下都被认为是正确的。当算法2和3或1和3产生相同的结果时,评分过程产生的不正确结果的百分比非常低(大约1.5%)。

识别出的模式是一个很好的指示,可以帮助提高结果的可靠性,而无需进一步的人工评估,相比之下,算法3结果的总体正确性为76.5%(765/1000)。Levenshtein相似分揭示了算法3的另一个趋势:错误结果的平均相似分显著低于正确结果。例外情况仅限于少数成分,原因包括缺少剂型和剂量信息,以及单一和联合药品使用相同成分的情况,导致单独的ATC代码。RWD的质量对依赖它的观察性研究的结果有重大影响。确保RWD数据适合用于观察性研究是很重要的[24]以及明确说明任何限制或质量问题[25].

限制

目前,分析的数据集仅限于德累斯顿卡尔古斯塔夫卡鲁斯大学医院的住院药物处方。没有来自重症监护医学的药物处方数据被包括在内,也没有其他机构使用我们的技术。异常值或罕见的模式可能没有被发现,因为这项研究仅限于前1000个自由文本处方。虽然这涵盖了大部分数据,但剩余自由文本条目的算法结果还有待评估。本研究不包括基于已确定模式的额外药物处方条目的结果评估。目前,该方法仅限于确定非结构化药物处方的ATC代码,不考虑其他术语,如RxNorm。

与之前工作的比较

正如Weiskopf等人所指出的,大多数评估RWD数据质量的研究都是参考与预先定义的金标准数据相比的完整性和准确性维度,这些金标准数据因出版物而异[19].我们没有根据RWD来源定义我们的金标准,而是使用国际公认的和广泛使用的术语ATC作为标准化术语,并提供了一种方法来自动确定适当的ATC,用于非结构化的、只能作为自由文本提供的药物处方数据。王等[26]开发了一个基于规则的数据质量系统,具有>6000个可信度测试标准(例如,男性患者怀孕是不可信的),但没有通过将非结构化的自由文本数据映射到已定义的研究术语来解决数据协调问题。不像Schmidt等人[27]和卡恩等[25],我们的研究不仅关注数据质量评估,还将数据中缺乏结构定义为没有相应ATC代码的自由文本,并在先前研究的基础上提出了一种通过自动注释适当的ATC代码来改进非结构化数据的方法。

自由文本或非结构化处方占比高,与医院的处方制度和当地条件有关。根据前人对RWD数据结构的研究[28,这在德国是一个普遍的挑战。然而,Kruse等人指出,处理EHR记录中阻碍互操作性的非结构化数据的问题普遍存在[2930.]系统地回顾了有关电子病历数据使用的现有文献,这些文献需要解决,以确保总体上“适合使用”。与已建立的统一医学语言系统元地图相比[3132,已经被工业界和学术界使用了很多年,我们的NLP方法专注于一个轻量级的实现。一方面,这限制了配置的可能性,但另一方面,它减少了计算量,提高了ATC代码识别的性能。因为MetaMap只关注英语,不支持德语药品目录,我们的方法缩小了这一差距,也可以适用于其他语言。

未来的工作

提出的4步方法可以应用于任何具有非结构化数据的RWD,如条件、程序或测试结果。这种方法未来将在其他网站上进行测试,这些网站提供带有ATC代码的药物数据和产品列表。在下一阶段,我们将进一步研究模式识别,以便可靠地预测特定ATC代码的结果准确性,而不是手动检查它们。此外,将实施新的基于nlp的算法,以提高结果的整体可靠性。此外,我们的方法可以应用于其他参与德国医疗信息计划的医院站点[3334]。我们的方法不仅限于德语。因为唯一的要求是提供一份成分或药品的通用列表,以便与非结构化的自由文本进行比较,如果同一语言的比较文本可用,则这适用于任何其他语言。

结论

RWD观测研究需要高度的数据结构。更关键的是认识到研究所依据的数据结构水平的局限性和透明度。将药物处方作为第一个用例,我们能够研究和改进RWD的结构,这可以在未来应用于其他RWD。虽然提出的方法需要人工验证以确保结果的正确性,但该方法是有前途的,可用于提高数据的结构。

致谢

这项研究是由德国教育和研究部(FKZ 01ZZ1801L)资助的MIRACUM项目的一部分。

作者的贡献

IR和FB致力于概念化和方法论。JS和IR负责这个软件。IR, SF, AF和JS参与了评估。IR, FB, JW和JS分析了数据。IR, FB, JS和MW整理了数据。FB和IR撰写了最初的草稿。JW, SF, AF和MS审阅并编辑了草案。IR和FB致力于可视化。FB和MS负责监督。IR负责项目管理。 All authors read and agreed to the published version of the manuscript.

利益冲突

没有宣布。

多媒体附件1

一套小小的规则。

XLSX文件(Microsoft Excel文件),9kb

多媒体附件2

数据集4。

XLSX文件(Microsoft Excel文件),131kb

多媒体

ATC l5的完整列表,包括结构化条目和非结构化条目的频率和比例。

XLSX文件(Microsoft Excel文件),32kb

  1. Maissenhaelter BE, Woolmore AL, Schlag PM。基于大数据的现实世界证据研究:动机-挑战-成功因素。动物科学(Berl) 2018年6月7日;24日(增刊2):91-98 [免费全文] [CrossRef] [Medline
  2. 布朗JD。呼吁采取行动,利用真实数据和FDA的哨点计划跟踪仿制药质量。J Manag Care Spec Pharm 2020年8月;26(8):1050。[CrossRef] [Medline
  3. Desai RJ, Matheny ME, Johnson K, Marsolo K, Curtis LH, Nelson JC,等。扩大FDA哨点系统的覆盖范围:在因果分析框架中集成电子健康记录数据的路线图。NPJ数字医学2021年12月20日;4(1):170 [免费全文] [CrossRef] [Medline
  4. Cocoros NM, Fuller CC, Adimadhyam S, Ball R, Brown JS, Dal Pan GJ,以及FDA-Sentinel COVID-19工作组。为covid -19做好准备的公共卫生监测系统:食品和药物管理局的哨兵系统。药物流行病学药物saff 2021 july 18;30(7):827-837 [免费全文] [CrossRef] [Medline
  5. Behrman RE, Benner JS, Brown JS, McClellan M, Woodcock J, Platt R.开发哨兵系统——国家证据开发资源。中华医学杂志2011年2月10日;364(6):498-499。[CrossRef] [Medline
  6. 马罗柏,Racoosin JA,谢尔曼RE, Gross TP, Ball R, Reichman ME,等。美国食品和药物管理局的哨兵计划:扩大医疗产品安全的视野。pharmacoepidemiology Drug Saf 2012年1月19日;21增刊1:9-11。[CrossRef] [Medline
  7. Ball R, Robb M, Anderson SA, Dal Pan G. FDA的哨点计划——医疗产品监控的综合方法。中国临床药物学杂志2016年3月;99(3):265-268。[CrossRef] [Medline
  8. 普拉特R,布朗JS,罗柏M,麦克莱伦M,鲍尔R,阮MD,等。FDA哨点倡议-一个不断发展的国家资源。医学杂志2018年11月29日;379(22):2091-2093。[CrossRef
  9. Gini R, Sturkenboom MC, Sultana J, Cave A, Landi A, Pacurariu A, ENCePP第三工作组(欧盟多源研究的数据来源方法学方法目录)。在现实环境中执行药物监测多数据库研究的不同策略:对欧洲模式的反思。临床药理学杂志2020年8月;108(2):228-235 [免费全文] [CrossRef] [Medline
  10. EHDEN主页。欧洲健康数据和证据网。URL:https://www.ehden.eu/[2022-05-05]访问
  11. COVID-19: EMA为治疗方法和疫苗的实际监测建立基础设施。欧洲药品管理局,2020年7月21日。URL:https://www.ema.europa.eu/en/news/covid-19-ema-sets-infrastructure-real-world-monitoring-treatments-vaccines[2022-01-13]访问
  12. Hripcsak G, Schuemie MJ, Madigan D, Ryan PB, Suchard MA。从OHDSI的观察性临床数据中得出可重复的结论。2021年8月30日(1):283-289 [免费全文] [CrossRef] [Medline
  13. Hripcsak G, Duke JD, Shah NH, Reich CG, Huser V, Schuemie MJ,等。观察健康数据科学和信息学(OHDSI):观察研究人员的机会。种马健康技术信息2015;216:574-578 [免费全文] [Medline
  14. 加萨M,德尔菲欧G,特南鲍姆J,瓦尔登A,佐佐斯MN。评估用于纵向社区注册中心的通用数据模型。J Biomed Inform 2016 12月;64:333-341 [免费全文] [CrossRef] [Medline
  15. reecke I, Zoch M, Reich C, Sedlmayr M, Bathelt F. OHDSI OMOP的使用-范围综述。种马健康技术通知2021年9月21日;283:95-103。[CrossRef] [Medline
  16. 药物利用研究导论“,”日内瓦:世界卫生组织;2003.
  17. 解剖治疗化学分类。世界卫生组织。URL:https://www.who.int/tools/atc-ddd-toolkit/atc-classification[2022-05-05]访问
  18. Zozus MW, Hammond E, Green GG, Kahn MG, Richesson RL, Rusincovitch SA,等。电子病历数据二次评估的数据质量评估建议。研究门。2015年10月https://www.researchgate.net/publication/283267713_Data_Quality_Assessment_Recommendations_for_Secondary_ise_of_EHR_Data[2022-05-05]访问
  19. 吴志伟,王志伟。电子健康记录数据质量评估的方法和维度:临床研究重用。美国医学信息学会2013年1月1日;20(1):144-151 [免费全文] [CrossRef] [Medline
  20. Python中的模糊字符串匹配。GitHub。URL:https://github.com/seatgeek/fuzzywuzzy[2021-11-26]访问
  21. Hutchison E, Zhang Y, Nampally S, Weatherall J, Khan F, sameer K.从公共临床试验资源中发现机器学习就绪数据:ClinicalTrials.Gov24322总内容规范化的案例研究。见:2020年IEEE生物信息学和生物医学国际会议(BIBM)论文集。2020年发表于:2020 IEEE生物信息学和生物医学国际会议(BIBM);2020年12月16日至19日;韩国首尔(韩国)。[CrossRef
  22. Bobroske K, Larish C, Cattrell A, Bjarnadóttir MV, Huan L.鸟瞰:从索赔数据了解患者旅程的数据驱动方法。美国医学通报协会2020年7月01日;27(7):1037-1045 [免费全文] [CrossRef] [Medline
  23. Reinecke I.实现的算法和可视化的源代码。ResearchGate网站。2022.URL:https://www.researchgate.net/publication/366867005_drug_data-publication[2023-01-04]访问
  24. 德农协。朱兰的质量手册:性能卓越完整指南,第七版。纽约州:麦格劳希尔教育;2016年11月11日。
  25. 张志强,张志强,张志强,等。电子健康记录数据二次使用的统一数据质量评估术语和框架。EGEMS(华盛顿特区)2016年9月11日;4(1):1244 [免费全文] [CrossRef] [Medline
  26. 王铮,塔尔伯特,吴宁,达塔塔斯,佐祖斯。基于规则的电子健康档案数据质量评估系统。应用临床通知2020年8月;11(4):622-634 [免费全文] [CrossRef] [Medline
  27. 史密柯,斯特克曼S, Enzenbach C, Reineke A, stusberg J, Damerow S,等。促进统一的数据质量评估。在R. BMC Med Res Methodol 2021 Apr 02;21(1):63 [免费全文] [CrossRef] [Medline
  28. Vass A, Reinecke I, Boeker M, Prokosch H, Gulden C.电子健康记录中结构化数据元素的可用性,以支持临床试验中的患者招募。见:卫生技术与信息学研究。荷兰阿姆斯特丹:IOS出版社;2021.
  29. Kruse CS, Kristof C, Jones B, Mitchell E, Martinez a .采用电子健康记录的障碍:系统的文献综述。J Med Syst 2016 12月;40(12):252 [免费全文] [CrossRef] [Medline
  30. Kruse CS, Stein A, Thomas H, Kaur H.使用电子健康记录来支持人口健康:文献的系统回顾。J Med Syst 2018 9月29日;42(11):214 [免费全文] [CrossRef] [Medline
  31. Aronson AR.生物医学文本到UMLS的有效映射:MetaMap程序。Proc AMIA Symp 2001:17-21 [免费全文] [Medline
  32. Aronson AR, Lang F. MetaMap概述:历史视角和最新进展。中国医学信息杂志2010;17(3):229-236 [免费全文] [CrossRef] [Medline
  33. Gehring S, Eulenfeld R.德国医疗信息倡议:为研究和医疗保健解锁数据。方法Inf Med 2018 7月17日;57(S 01):e46-e49。[CrossRef
  34. 孙文杰,李志强,李志强。方法Inf Med 2018 july 17;57(S 01):e50-e56。[CrossRef


空中交通管制:解剖治疗化学
电子健康档案:电子健康记录
NLP:自然语言处理
OMOP:观察性医疗结果伙伴关系
个随机对照试验:随机对照试验
RWD:真实的数据
UKD:卡尔·古斯塔夫·卡洛斯·德累斯顿大学医院


C·洛维斯编辑;提交15.06.22;A Lamer, M Pedrera Jiménez, B Ru同行评审;作者评论07.09.22;修订本收到日期为27.09.22;接受18.11.22;发表25.01.23

版权

©Ines Reinecke, Joscha Siebel, Saskia Fuhrmann, Andreas Fischer, Martin Sedlmayr, Jens Weidner, Franziska Bathelt。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 2023年1月25日。

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map