这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到http://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。
基于真实证据的准确和快速的临床决策对癌症患者至关重要。然而,癌症化疗方案的复杂性阻碍了使用观察性健康数据库的回顾性研究。
本研究的目的是利用算法确定的化疗时间,比较不同方案类型的抗癌治疗轨迹和临床事件模式。
我们开发了一种算法,从传统观察性医疗结果伙伴关系(OMOP)公共数据模型(CDM)数据库中的用药记录中提取方案级抽象化疗事件。该算法在亚洲大学医学院(AUSOM)数据库中通过人工审查临床记录进行验证。使用该算法,我们从EHR数据库和索赔数据库中提取了患者的化疗事件。我们还开发了一个应用软件,用于可视化基于OMOP-CDM数据库中的治疗事件的化疗治疗模式。使用该软件,我们在两个基于ehr的OMOP-CDM数据库中生成了机构中使用的方案类型的趋势,迭代化疗使用的模式以及癌症治疗的轨迹。作为一项试点研究,使用AUSOM数据库测量化疗引起的中性粒细胞减少症根据方案的发病时间。根据全国索赔数据库,对COVID-19患者的抗癌治疗轨迹进行了可视化。
我们对85种不同方案的结直肠癌、乳腺癌和肺癌患者进行了178,360次治疗。该算法准确识别了400例患者的化疗方案类型(平均阳性预测值>98%)。确定了8236例患者2008-2018年常规临床化疗方案的使用趋势。对于总共12个方案(给予患者比例最大的方案),重复治疗的次数与某些病例的标准化疗方案一致。此外,还显示了包括62例新冠肺炎患者在内的8315例患者的抗癌治疗轨迹。对中性粒细胞减少症的比较分析表明,在结直肠癌治疗方案中,中性粒细胞减少症的发作往往集中在9-15天之间,而在某些乳腺癌或肺癌治疗方案中,中性粒细胞减少症的发作往往集中在2-8天之间。
我们提出了一种生成化疗事件的方法,用于引入OMOP-CDM数据库的肿瘤学扩展模块。这些概念验证研究通过分布式研究网络展示了所提议框架的可用性、可扩展性和互操作性。
在癌症研究中,尽管信息技术最近取得了进步,而且电子健康记录(EHRs)或行政索赔数据库也提供了数据,但除癌症登记外,实际数据的利用相对不足[
此前,研究人员开发了算法,以取代从用药史中获取化疗细节的人工努力[
观察性健康数据科学和信息学(OHDSI)协作是一个为全球协作研究而组织的多利益相关方团体,它提供观察性医疗成果伙伴关系(OMOP)公共数据模型(CDM),以促进关于统一观察性数据库的医学研究[
本研究的主要目标是通过开发一种算法来自动识别癌症患者的方案级化疗发作,将肿瘤学扩展无缝引入OMOP-CDM。为了对生成的化疗发作的可用性进行概念验证研究,癌症患者的治疗模式和轨迹由附加软件呈现。根据不同的常规治疗方案,我们还确定了患者中性粒细胞减少事件的发病时间和发生率的差异。
本研究由两个主要过程组成:(1)开发从OMOP-CDM数据库中识别抗癌治疗事件的算法;(2)使用可视化软件基于算法衍生的事件记录分析癌症治疗或临床事件的趋势和轨迹。此外,我们进行了一项试点研究,以确定各种化疗方案中中性粒细胞减少的发病时间,以验证该算法的可扩展性。所有方法都独立应用于每个数据库,数据仅以图形摘要的形式收集。
我们使用韩国两家三级医院的电子病历和韩国全国索赔数据库进行了这项研究。亚洲大学医学院(AUSOM)数据库包括1994-2018年收集的314万名患者的医疗记录[
我们开发了一个方案级化疗事件记录抽象工具(TRACER)来填充方案级化疗事件抽象(
化疗发作提取的工作流程示意图。HemOnc(基于web的开源癌症化疗方案数据库)中的1506个方案方案被参数化为JSON结构化数据,称为HDAC。将OMOP-CDM数据库中的JSON文件和单一药物暴露记录实例化为算法的输入数据。TRACER通过利用HDAC的参数来确定化疗期。化疗的发作被安排在发作表中,这是OMOP-CDM中的一个肿瘤学模块。贝芙:贝伐单抗;公共数据模型;FOLFIRI:氟尿嘧啶、亚叶酸素和伊立替康;FOLFOX:氟尿嘧啶、亚叶酸素和奥沙利铂;HDAC:化疗给药分级描述; JSON: JavaScript Object Notation; OMOP: Observational Medical Outcomes Partnership; TRACER: Tool for Regimen-level Abstraction of Chemotherapy Episode Record.
方案级化疗事件记录抽象工具中算法规则的示意图。FOLFOX:氟尿嘧啶、亚叶酸素和奥沙利铂。
HDAC包括标准化参数,将方案协议的规格输入算法。HDAC中的变量分为两类:药物组成参数(药物参数)和元参数。
药物参数包括药物标识符(OMOP概念id),它将特定方案与其各自的作用联系起来。每个药物参数都被赋予一个角色,作为索引药物、联合药物或排除药物。HDAC中的指标药物是一种成分药物,可用于识别治疗的第一天(第1天)。HDAC中的联合药物是该方案的组成药物(而不是指标药物)。排斥性药物是指其外观表明另一种治疗方案。例如,奥沙利铂是氟尿嘧啶、亚叶酸钙和奥沙利铂(FOLFOX)方案中的指标药物。亚叶酸素和氟尿嘧啶是联合用药。在本例中,贝伐单抗被认为是一种排除性药物,以区分FOLFOX方案与FOLFOX-贝伐单抗方案(
元参数包括HDAC文档的元数据(例如,文档的来源、有效日期或无效原因),以确定修改并定义要调整到算法规则的窗口范围。窗口标识药物记录单元,该单元确定药物记录是特定方案的一部分还是区分不同治疗周期的边界。HDAC还规定了插曲的窗口,以区分分开的治疗线。药物方案的概念ID(在HemOnc词汇表中编码)是每个HDAC片段的主键。基于HemOnc网络数据库中的化疗适应症,专家对1506个化疗方案的适应症进行了审查并实例化到HDAC中。
TRACER按顺序提取包含在用户设置列表中的方案集。该算法以已定义的规则和参数逐步识别方案的每个治疗周期记录和治疗线事件(
相应治疗周期的第1天(索引日期)根据索引药物的分发日期确定。每个索引日期被标记为一个基准点,用于检查其他药物成分的使用,以确定特定的治疗方案。
在HDAC中预先设定的周期窗口内,对联合用药或排除用药的处方进行研究。如果在此期间给予了指标药物和所有联合药物,并且没有开具排除药物,则将指标药物和联合药物的记录作为靶向方案的组成部分。这些记录被抽象为一个疗程记录。
每个事件的开始日期来源于索引用药实例的开始日期,事件记录的结束日期来源于最后一个索引或联合用药的结束日期。生成的片段被收录在OMOP-CDM肿瘤学模块的片段表中。
剧集按时间顺序编号,前提是每集开始日期之间的间隔不超过HDAC中预定义的窗口。当间隔超过周期窗口时,集记录被折叠为相同的集。区分治疗线的窗口也在HDAC中定义。TRACER通过方案类型的变化或基于前一集开始日期的治疗线窗口之外的发作来区分不同的治疗线。
定义化疗方案发作提取算法。FOLFIRI:氟尿嘧啶、亚叶酸素和伊立替康;FOLFOX:氟尿嘧啶、亚叶酸素和奥沙利铂;HDAC:化疗给药分级描述。
我们回顾了患者的出院记录和进展记录,以验证所提出算法的准确性。验证了以下方案:(1)氟尿嘧啶+亚叶酸(FULV), (2) FOLFOX,(3)氟尿嘧啶+亚叶酸钙+伊立替康(FOLFIRI),(4)卡培他滨单药治疗。在有算法衍生的目标方案发作记录的患者中,每种方案随机选择100例患者。对于这一人群,我们检查了发作记录,并将其与临床记录进行了比较。
我们开发了可视化应用程序来描述接受化疗的癌症患者的治疗模式。使用该工具,我们展示了2008-2018年所有化疗方案使用的相对比例。根据方案类型,每个患者的迭代治疗周期数的分布被描绘成热图,颜色饱和度随患者数量的变化而变化。根据癌症类型,对接受常规抗癌治疗的患者的抗癌治疗轨迹也进行了说明。添加了COVID-19患者和癌症患者的轨迹,以验证工具的可扩展性。EHR数据库的描述性结果包括8种最流行的治疗方案类型。对于AUSOM数据库,我们在描述性分析中增加了乳腺癌的激素治疗和肺癌的靶向治疗或免疫治疗。
我们还进行了一项初步研究,调查了从第一次化疗发作开始化疗诱导的(发热性)中性粒细胞减少(CIN/FN)事件的时间。中性粒细胞减少症是骨髓抑制化疗的常见不良事件。符合国家癌症研究所不良事件通用术语标准(CTCAE;CIN 4级(绝对中性粒细胞计数[ANC] <0.5 × 109/L)用于鉴别严重CIN事件。FN事件鉴定为ANC <1.0 × 109/L诊断为发热或感染,或任何使用粒细胞集落刺激因子预防。一个图显示了每个中性粒细胞减少事件,以点表示发病日期,在同一个图中,一个小提琴图显示了中性粒细胞减少发病日期的趋势。为了确定中性粒细胞减少事件的发生时间,计算每个患者第一次化疗日期与第一次CIN/FN发作日期之间的间隔。由于总体测量计划为每周,中性粒细胞减少症的发病日期以7天为段进行分类,以显示发病日期的趋势,而不是确定的日期。为了明确单一药物方案对中性粒细胞减少症发病的影响,化疗仅限于一线治疗,仅考虑化疗开始后30天内的CIN/FN事件。化疗当日,ANC水平可能暂时降低;因此,化疗期间的CIN/FN事件被忽略。我们还按方案类型描述了每个周期中CIN/FN事件的发生率。按癌症类型划分,CIN/FN事件发生频率最高的4个方案被纳入发生率图。
描述性分析使用从该算法导出的化疗事件进行。为了验证该算法,我们计算了与临床记录中描述的相同方案类型发作的患者比例。计算平均绝对误差(即临床记录中估计周期数与实际记录之间的绝对值的平均值)和均方根误差(即临床记录中估计周期数与实际记录之间的平均值的平方根)。整个系统使用R(版本3.5.2;R Foundation for Statistical Computing)。算法和可视化软件的源代码已上传到GitHub [
本研究经韩国亚洲大学医院(批准文号:AJIRB-MED-OBS-20-092)和韩国江东圣心医院(批准文号:2017-03-003)机构审查委员会批准。使用HIRA数据的机构审查委员会编号为AJIRB-MED-EXP-20-087。
TRACER从AUSOM数据库中共生成了178,360次化疗。包括结直肠癌12种方案类型,乳腺癌24种方案类型(包括6种激素治疗方案),肺癌19种方案类型(包括8种靶向治疗方案)。接受相应治疗方案的患者人数列于
亚洲大学医学院数据库中结直肠癌、乳腺癌和肺癌患者的特征。
患者特点 | 按癌症类型划分的病人 | ||||||
|
结直肠癌(N=10,353) | 乳腺癌(N=9546) | 肺癌(N=12,671) | ||||
指数年龄(年),平均值(SD) | 62 (13.2) | 50 (11.4) | 64 (12.7) | ||||
|
|||||||
|
男性 | 6116 (59.1) | 62 (0.7) | 9166 (72.3) | |||
|
女 | 4237 (40.9) | 9484 (99.3) | 3505 (27.7) | |||
|
|||||||
|
1999 - 2002 | 265 (2.6) | 646 (6.8) | 524 (4.1) | |||
|
2003 - 2006 | 516 (5.0) | 829 (8.7) | 617 (4.9) | |||
|
2007 - 2010 | 672 (6.5) | 965 (10.1) | 738 (5.8) | |||
|
2011 - 2014 | 852 (8.2) | 1373 (14.4) | 775 (6.1) | |||
|
2015 - 2018 | 912 (8.8) | 2111 (22.1) | 1127 (8.9) | |||
接受手术的患者人数,n (%) | 3760 (36.3) | 5541 (58.0) | 1776 (14.0) | ||||
基线绝对中性粒细胞计数/μL,平均值(SD) | 5582 (4403) | 3750 (3199) | 6517 (5283) | ||||
|
|||||||
|
一线治疗 | 3151 (30.4) | 5568 (58.3) | 1593 (12.5) | |||
|
二线治疗 | 1212 (11.7) | 4739 (49.6) | 888 (7.0) | |||
|
三线治疗 | 506 (4.8) | 4005 (41.9) | 521 (4.1) | |||
|
第四道治疗 | 234 (2.2) | 3573 (37.4) | 336 (2.6) |
与图表回顾相比,化疗发作的验证。
治疗方案 | 没有信息,n | 阳性预测值a、b方案类型,n/ n (%) | 精度c处理周期数,% | 平均绝对误差 | 均方根误差 |
FULVd | 30. | 67/70 (95) | 94 | 0.1 | 0.4 |
FOLFOXe | 8 | 92/92 (100) | 87 | 0.3 | 0.6 |
有效率,f | 21 | 79/79 (100) | 89 | 0.4 | 1.4 |
卡培他滨单药治疗 | 65 | 35/35 (100) | 73 | 0.7 | 1.5 |
一个对于每个方案,随机抽取100例病例并进行审查。30例、8例、21例和65例分别使用FULV、FOLFOX、FOLFIRI和卡培他滨单药治疗的患者在出院总结中没有化疗信息。
b人工比对生成的发作记录与临床笔记内容,匹配病例对方案类型的预测值为阳性。
c人工比较生成的发作记录与临床记录内容的治疗周期数中匹配病例的百分比。
dFULV:氟尿嘧啶和亚叶酸素。
eFOLFOX:氟尿嘧啶、亚叶酸素和奥沙利铂。
fFOLFIRI:氟尿嘧啶、亚叶酸素和伊立替康。
AUSOM数据库中使用的化疗方案的趋势显示在
两个EHR数据库中患者在迭代化疗周期数量上的分布被描绘为热图。在AUSOM数据库的热图中,结肠直肠癌的FULV、FOLFOX和卡培他滨和奥沙利铂(CapeOx)方案中最普遍的重复周期数与HemOnc方案的建议一致(分别为6、12和8个周期;
亚洲大学医学院数据库中按方案类型进行周期迭代的患者分布热图。(A)结直肠癌,(B)乳腺癌,(C)肺癌患者的数量;治疗迭代计数由颜色饱和度表示,颜色越深表示患者数量越多。小于10例的细胞未见报道。AC:阿霉素和环磷酰胺;CapeOx:卡培他滨和奥沙利铂;FAC:氟尿嘧啶、阿霉素和环磷酰胺;FOLFIRI:氟尿嘧啶、亚叶酸素和伊立替康;FOLFOX:氟尿嘧啶、亚叶酸素和奥沙利铂。
亚洲大学医学院肺癌患者抗癌治疗轨迹数据库。肺癌患者的治疗轨迹按照一线治疗的类型进行分类:(A)手术,(B)化疗或放化疗,(C)放疗。每个节点的高度代表相应治疗线或治疗中的患者总数。进展到下一疗程的患者数量用灰线表示。化疗方案的改变或治疗类型之间的过渡被视为治疗线的过渡。标签上的百分比涵盖了同一轨迹线上的患者数量与所有患者的比例。由于大量节点阻碍了图形摘要中可视化的目的,因此节点在第三个节点处被截断。同样的原因,患者计数小于10的淋巴结被切除。亚洲大学医学院;RT:放射治疗。
KDH数据库中患者的治疗轨迹见
COVID-19患者的抗癌治疗轨迹。Sankey绘制的2019冠状病毒病患者的治疗轨迹图,包括2017年至2020年间的抗癌化疗。每个节点代表用于癌症治疗的化疗方案。标签上的百分比涵盖了同一轨迹阶段每个节点患者人数的比例。由于大量节点阻碍了图形摘要中可视化的目的,因此节点在第四个节点处被截断。出于同样的原因,患者计数<5的淋巴结被切除。
不同治疗方案中性粒细胞减少症发病时间的变化趋势。亚洲大学医学院对(A)乳腺癌、(B)结直肠癌和(C)肺癌患者首次接受化疗后化疗引起的(发热性)中性粒细胞减少事件的发生时间进行了研究。每个点代表一个不同病人的中性粒细胞减少事件。这些事件以7天为周期进行分类。小提琴图表示每天化疗后的频率变化趋势。AC:阿霉素和环磷酰胺;FAC:氟尿嘧啶、阿霉素和环磷酰胺;FOLFIRI:氟尿嘧啶、亚叶酸素和伊立替康;FOLFOX:氟尿嘧啶、亚叶酸素和奥沙利铂。
本研究描述了一个基于OMOP-CDM中的肿瘤学扩展模型分析癌症患者治疗模式和轨迹的系统。提出的算法(TRACER)用于提取方案水平的化疗发作,有效地生成癌症患者的治疗发作。这种方法说明了如何用自动提取系统取代人工管理。通过回顾临床记录验证了获得的发作,这表明治疗方案的类型或治疗周期的数量估计具有很高的准确性。我们还通过开展一项调查不同化疗方案中CIN/FN发病时间的试点研究,证明了所提出系统的有效性。
全面的临床信息,包括纵向治疗序列和癌症患者的各种临床结果,在全国范围内的癌症登记处,如监测、流行病学和最终结果计划中是无法获得的。
COVID-19的意外快速传播表明,迫切需要及时检索癌症患者的详细数据,为大流行期间癌症患者的管理提供相关证据[
我们演示了电子捕获的数据元素如何使用纵向详细的临床数据来支持临床研究。FN是最常见的肿瘤急症之一[
这项研究有几个局限性。首先,只有四种方案通过人工审查得到了验证;因此,目前尚不清楚其他类型方案的发作是否也可以精确估计。然而,治疗周期重复模式显示提取的记录与方案的标准方案一致,表明该算法可以正确解释可变方案。第二个限制是,确定的治疗发作率相对较低(在AUSOM数据库中乳腺癌患者中最高为58%),这表明治疗发作可能被遗漏,尽管许多癌症患者仅接受手术或放疗治疗,本应不被捕获。这可能是因为该算法只提取HemOnc词汇表中包含的方案。HDAC的灵活结构允许为特定方案添加用户定义的规则,有可能通过微调算法减少特定研究中治疗事件的缺失率。
我们开发了一种技术来生成包括在OMOP-CDM肿瘤学模块中的化疗事件,并分析癌症患者的治疗模式。我们证明了所提出的流程在分布式数据网络中是可重复和可扩展的。我们的研究结果表明,从统一的观察数据库中描述治疗轨迹的可推广策略可以迅速确定临床事件的特征,从而能够为突发的大流行危机产生现实世界的证据。需要进一步的研究来为不同方案类型的临床结果提供统计证据。
来自亚洲大学医学院数据库的化疗事件。下面列出了治疗结直肠癌、乳腺癌和肺癌最常用的10种化疗方案。
亚洲大学医学院数据库中化疗方案使用趋势。下图为亚洲大学医学院数据库2008-2018年(A)结直肠癌、(B)乳腺癌、(C)肺癌患者化疗方案使用比例。
康东圣心医院数据库中化疗方案使用趋势。显示了康东圣心医院数据库中2008-2018年(A)结直肠癌、(B)乳腺癌、(C)肺癌患者的化疗方案使用比例。
康东圣心医院数据库中按方案类型进行周期迭代的患者分布热图。(A)结直肠癌,(B)乳腺癌,(C)肺癌患者的数量;处理迭代计数由颜色饱和度差表示。
来自康东圣心医院数据库的化疗方案使用趋势。显示了康东圣心医院数据库中2008-2018年(A)结直肠癌、(B)乳腺癌、(C)肺癌患者的化疗方案使用比例。
亚洲大学医学院数据库中癌症患者的治疗轨迹列表。
康东圣心医院数据库中癌症患者抗癌治疗轨迹。显示了康东圣心医院数据库中(A)结直肠癌、(B)乳腺癌和(C)肺癌患者的治疗轨迹。
治疗周期中性粒细胞减少的发生率。(A)结直肠癌,(B)肺癌,(C)乳腺癌的周期和治疗方案中首次中性粒细胞减少事件发生率的直方图。
环磷酰胺和阿霉素
绝对中性粒细胞计数
亚洲大学医学院
卡培他滨和奥沙利铂
通用数据模型
化疗引起的(发热性)中性粒细胞减少症
环磷酰胺,甲氨蝶呤和氟尿嘧啶
不良事件的通用术语标准
电子健康记录
氟尿嘧啶,阿霉素和环磷酰胺
氟尿嘧啶,表柔比星和环磷酰胺
氟尿嘧啶,亚叶酸素和伊立替康
氟尿嘧啶,亚叶酸素和奥沙利铂
氟尿嘧啶和亚叶酸
化疗给药分级描述
健康保险审查和评估处
JavaScript对象符号
康东圣心医院
观察健康数据科学与信息学
观察性医疗成果伙伴关系
化疗事件记录的方案级抽象工具
SCY、HJ和RWP对研究设计有贡献。所有作者都参与了本文的撰写和最终审定。这项工作得到了韩国贸易、工业和能源部(MOTIE)资助的生物产业战略技术发展计划(20001234)和韩国卫生技术研发项目(通过韩国卫生和福利部资助的韩国卫生产业发展研究所(KHIDI))的资助(资助号HI16C0992)的支持。JLW由国家癌症研究所资助(批准号CA231840)。
JW拥有HemOnc.org LLC的股权;这种权益没有财务价值。JW是HemOnc本体的首席软件架构师;这个角色是无偿的。HemOnc的开发部分由NIH拨款U24 CA194215支持;U01 CA231840;U24 CA248010。资助者在研究的发展或实施中没有任何作用。