发表在10卷11号(2022): 11月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/41342,首次出版
基于联邦学习的深度语境化国际疾病分类语言模型的训练:模型开发与验证研究

基于联邦学习的深度语境化国际疾病分类语言模型的训练:模型开发与验证研究

基于联邦学习的深度语境化国际疾病分类语言模型的训练:模型开发与验证研究

原始论文

1国立台湾大学生物医学电子与生物资讯研究所,台湾台北

2台湾新北市远东纪念医院麻醉科

3.国立台湾大学计算机科学与信息工程系,台湾台北

4台北荣民总医院资讯管理科,台北市

5台湾台北市退伍军人总医院医疗人工智能发展中心

6国立台北护理健康科学大学资讯管理系,台北市

7国立台湾大学电机工程系,台北市

8国立台湾大学网路与多媒体研究所,台湾台北

9台湾新北市远东纪念医院内科

10国立台湾大学医学院国立台湾大学附属医院内科,台北市

11台湾新北市远东纪念医院医务部

12台湾新北市远东纪念医院外科加护部

13台湾新北市远东纪念医院儿科

14国立阳明交通大学医学院,台湾台北

15台湾新北市远东纪念医院人工智能中心

16台湾新北市远东纪念医院医务部健康保险科

17台湾新北市远东纪念医院病案科

18台湾新北市远东纪念医院资讯科技科

19台湾新北市远东纪念医院心血管中心心血管内科

这些作者的贡献相同

通讯作者:

杨志宇博士

资讯科技署

远东纪念医院

板桥区南亚南路二段21号

新北市,220216

台湾

电话:886 28966 7000

电子邮件:chiyuyang1959@gmail.com


背景:的临床文本文档的自动编码国际疾病分类第十次修订(ICD-10)可以进行统计分析和报销。随着自然语言处理模型的发展,新的具有注意机制的变压器体系结构已经超越了以前的模型。虽然多中心训练可以提高模型的性能和外部有效性,但临床文件的隐私应得到保护。我们使用联邦学习来训练具有多中心数据的模型,而不共享数据本身。

摘要目的:本研究旨在通过联邦学习训练一个用于ICD-10多标签分类的分类模型。

方法:电子病历中出院记录的文字数据来自以下三家医疗中心:远东纪念医院、台大医院和台北荣民总医院。在比较了来自变形器(BERT)的双向编码器表示的不同变体的性能后,选择PubMedBERT作为词嵌入。在预处理方面,保留非字母数字字符,因为去除这些字符后模型的性能下降。为了解释我们模型的输出,我们在模型架构中添加了标签注意机制。该模型分别使用来自三家医院的数据并通过联合学习进行训练。通过联邦学习训练的模型和使用本地数据训练的模型在由三家医院的数据组成的测试集上进行了比较。微F1评分用于评估所有3个中心的模型性能。

结果:F1PubMedBERT、RoBERTa(鲁棒优化BERT预训练方法)、ClinicalBERT和BioBERT(用于生物医学文本挖掘的BERT)的得分分别为0.735、0.692、0.711和0.721。的F1保留非字母数字字符的模型得分为0.8120,保留非字母数字字符的模型得分为0.8120F1去除这些性状后的得分为0.7875,下降0.0245(3.11%)。的F1联邦学习模型、远东纪念医院模型、国立台湾大学医院模型、台北荣民总医院模型的测试集得分分别为0.6142、0.4472、0.5353、0.2522。可解释的预测通过标签注意结构与突出显示的输入词一起显示。

结论:在保护数据隐私的同时,采用联邦学习对多中心临床文本进行ICD-10分类模型的训练。该模型的性能优于局部训练模型。

中国生物医学工程学报;2011;31 (2):444 - 444

doi: 10.2196/41342

关键字



背景

世界卫生组织发布了一个统一的疾病诊断分类系统国际疾病分类(ICD),而ICD第十次修订版(ICD-10)被广泛使用[1].编码员根据《国际疾病分类》的规则对疾病进行分类,所得的《国际疾病分类》编码用于调查、统计和报销。ICD-10临床修改(ICD-10- cm)用于对医疗诊断进行编码,包括大约69,000个代码[23.].ICD-10-CM代码包含7位数字;结构如图所示图1

图1所示。一个的结构《国际疾病分类》第十次修订,临床修订代码。
查看此图

在医院,每个病人的诊断首先以文本描述的形式写在电子健康记录中。然后编码器读取这些记录,将诊断分类为ICD代码。因为诊断最初是作为自由文本编写的,文本的模糊性使得诊断很难编码。对每个诊断进行分类是非常耗时的。一条出院记录可以包含1到20个代码。根据一项试验的估计,编码员平均花费20分钟为每位患者分配代码[4].使用自动工具可以提高ICD分类的效率,减少人工。

相关工作

最近,深度学习和自然语言处理(NLP)模型已经被开发出来,将纯文本转化为向量,使其自动分类成为可能。Shi等[5提出了一种带有注意机制的分层深度学习模型。Sammani等[6]引入了双向门控循环单元模型,根据出院字母预测ICD代码的前3或4位数字。Wang等[7提出了一种带有注意机制和门控残差网络的卷积神经网络模型,将中文记录分类为ICD编码。Makohon等[8研究表明,带有注意机制的深度学习有效地增强了ICD-10的预测。先前的研究也提到了庞大数据集的必要性,以及对隐私敏感的临床数据如何限制了ICD-10自动分类模型的发展[6].

联邦学习在医学领域取得了令人印象深刻的成果,被用于在多中心数据上训练模型,同时保持它们的私密性。联邦学习广泛应用于医学图像和信号分析,如脑成像分析[9]和脑电图信号的分类[10].在临床NLP领域,Liu等[11提出了一种两阶段联合方法,该方法涉及使用来自不同医院的临床记录来提取医疗任务的表型。

之前,我们使用带有双向门控循环单元的Word2Vec模型对电子病历中的ICD-10-CM代码进行分类[12].我们分析了ICD-10-CM编码的分布,并从出院记录中提取特征。这个模型有一个F1ICD-10-CM代码分类得分为0.625。为了提高模型的性能,我们实现了来自变压器的双向编码器表示(BERT),并找到了一种改进的方法F1ICD-10-CM代码分类得分为0.715 [4].我们还发现,当编码员使用分类模型辅助时,编码时间缩短;中位数F1得分由0.832显著提高至0.922 (P< 0.05) [4].此外,我们构建了一个系统来提高易用性,包括数据处理、特征提取、模型构建、模型训练和web服务接口[4].最后,在预处理过程中引入了一种基于规则的算法,并对其进行了改进F1ICD-10-CM分级评分为0.853 [13].

客观的

本研究旨在进一步提高ICD-10分类模型的性能,并使该模型能够在医院间使用。在这项研究中,我们研究了联邦学习对需要ICD-10分类的医学文本训练的模型性能的影响。


伦理批准

远东纪念医院的机构审查委员会批准了研究方案;批准号:109086-F),国立台湾大学附属医院;批准文号:201709015ring),台北退伍军人总医院(VGHTPE;批准号:2022-11-005AC),该研究遵循赫尔辛基宣言的原则。由于使用了未识别的数据,知情同意不适用。

数据收集

我们的数据来自FEMH(2018年1月至2020年12月期间记录的数据)、NTUH(2016年1月至2018年7月期间记录的数据)和VGHTPE(2018年1月至2020年12月期间记录的数据)的电子健康记录。数据中包含出院单文本和ICD-10-CM代码。各医院编码员对ICD-10编码的基础真相进行了注释。

数据描述

删除重复记录后,我们的数据集分别包含来自FEMH、NTUH和VGHTPE的100,334、239,592和283,535份出院记录。每个记录包含1到20个ICD-10-CM标签。各章的标签分布见图2。这些章节按前三位数字分类。保险报销不使用V01 - Y98章代码;因此,他们被排除在我们的数据集中。章节U00 ~ U99的ICD-10-CM标签数量最少,章节J00 ~ J99的ICD-10-CM标签数量最多。三家医院的ICD-10-CM标签计数见多媒体附录1

数据集中的文本包含字母字符、标点符号和一些中文字符。标点符号数和前10位汉字见多媒体附录2。最常见的标点符号是句号(“。”),最不常见的是右括号(“}”)。

图2。(A)远东纪念医院、(B)国立台湾大学医院、(C)台北荣民总医院22章ICD-10-CM标签计数。ICD-10-CM:《国际疾病分类》第十次修订,临床修订
查看此图

预处理

我们首先从数据集中删除了重复的医疗记录。然后我们将所有全宽字符转换为半宽字符,并将所有字母转换为小写字母。短于5个字符的记录被删除,因为这些通常是无意义的单词,如“nil”和“none”。我们还删除了无意义的字符,例如换行符、回车、水平制表符和已形成的字符(分别为“\n”、“\r”、“\t”和“\f”)。最后,将所有文本字段连接起来。

为了在预处理阶段选择更好的方法来管理标点和汉字,我们使用FEMH数据来确定模型的性能,并在数据中包含这些字符。每个实验使用2个版本的数据。在第一个版本中,我们保留了这些特定的字符,而在第二个版本中,我们删除了它们。实验P考察标点符号的作用,实验C考察汉字的作用,实验PC考察标点符号和汉字的作用。另一种保留汉字信息的方法是使用汉字的英译。因此,我们还比较了该模型在保留汉字时的性能与使用谷歌翻译获取英文翻译时的性能。

标签使用单热编码。在69,823个可用的ICD-10-CM编码中,有17,745个出现在我们的组合数据集中,导致单热编码向量长度为17,745。最后的队列分别包括来自FEMH、NTUH和VGHTPE的100,334、239,592和283,535条记录;20% (femh: 20,067/100,334;台大医院:47918/239592;随机选取VGHTPE: 56,707/283,535)的记录作为测试集,其余记录作为训练集。

分类模型

我们比较了不同BERT变体的性能,包括PubMedBERT [14, RoBERTa(鲁棒优化BERT预训练方法)[15],临床艾伯特[16]和BioBERT(用于生物医学文本挖掘的BERT) [17].BioBERT是用pubmed的文本进行预训练的,pubmed是健康和医学科学领域最流行的书目数据库。ClinicalBERT使用MIMIC-III(重症监护医疗信息市场III)数据集进行预训练,其词汇来自英文维基百科和BookCorpus数据集。PubMedBERT是BERT的另一个变体,它使用来自PubMed的训练数据。PubMedBERT和BioBERT的主要区别在于它们的词汇表。BioBERT的词汇来源于英文维基百科和BookCorpus数据集,而PubMedBERT的词汇来源于PubMed。词汇量的差异影响临床文本中词汇的识别能力。RoBERTa使用了原始的BERT模型,但它也使用了更长的训练时间、更大的批处理规模和更多的训练数据。训练数据来自BookCorpus、CC-News (CommonCrawl News)和OpenWebText数据集。RoBERTa还应用了动态屏蔽,这意味着被屏蔽的令牌将被多次更改,而不是在原始BERT中固定。 The vocabularies and corpora of these BERT variants are summarized in表1

对于我们的比较,文本首先被输入BERT标记器,它将字符串转换为标记。然后,对于满足512输入长度限制的每个文本数据,令牌的数量被截断为512。线性层将模型产生的词嵌入与单热编码多标签的输出层连接起来。线性层的输出大小为17,745,与标签的单热编码向量大小相匹配。采用二元交叉熵计算模型损失。我们训练了100个epoch的模型,学习率为0.00005。这些模型被我们的ICD-10-CM多标签分类任务微调,以比较它们的性能。图3总结了模型体系结构和预处理流程。选择性能最好的模型和预处理方法进行后续的联邦学习。

表1。总结了来自变形器(BERT)模型的各种双向编码器表示的词汇表和语料库来源。
模型 词汇的来源 语料库来源(训练数据)
PubMedBERT PubMed PubMed
罗伯塔一个 图书语料库,cc新闻b和OpenWebText数据集 BookCorpus, CC-News和OpenWebText数据集
ClinicalBERT 英文维基百科和BookCorpus数据集 的MIMIC-IIIc数据集
BioBERTd 英文维基百科和BookCorpus数据集 PubMed

一个罗伯塔:稳健优化的BERT预训练方法。

bCC-News: CommonCrawl News。

cMIMIC-III:重症监护医疗信息集市。

d生物医学文本挖掘。

图3。模型体系结构和处理流程图。CLS:类标记;ICD-10-CM:《国际疾病分类》第十次修订,临床修订
查看此图

联合学习

使用联邦学习,可以在不共享数据的情况下训练模型[18].客户端(即本地机器)在交换模型参数权重的同时,将其训练数据保持在相同的模型架构上。服务器从每个客户端接收权重并取其平均值。更新模型后,服务器将新的权重发送回客户端。然后,客户可以开始新一轮的培训。我们更新了模型参数的权重FederatedAveraging算法(18]并使用Flower进行联合学习[19].

Flower是一个面向研究人员的开源联合学习框架[19].Flower具有服务器-客户端结构。服务器和客户端需要单独启动,并且需要为每个客户端分配一台服务器。它们通过开源的Google远程过程调用(gRPC;Google LLC) [20.].使用gRPC,客户机应用程序可以直接调用服务器应用程序上的方法,这可以在不同的机器上完成。服务器上有一个注册中心,用于管理与所有客户机的通信。服务器中有3个主要模块。第一个模块——连接管理模块——维护所有当前gRPC连接。在服务器端,每个gRPC对应每个客户端。gRPC建立后,会触发register函数,将客户端的信息存储在一个数组中。如果客户端发起断开连接或连接超时,将调用register函数来清除客户端。第二个模块—桥接模块—缓存信息,而不管来自客户机还是服务器的gRPC信息将存储在该模块中。然而,由于缓冲区在两个方向上都是共享的,因此有必要使用状态转换方法来确保缓冲区中的所有信息都是相同的。 There are five states—the关闭等待客户端写入等待客户端读取等待服务器写入,等待服务器读取州。第三个模块—服务器处理程序—管理服务器和客户机之间的通信。

客户设在三家医院,模型在当地数据上进行训练。每个客户端的权重被转移到服务器,在服务器上对权重进行平均,并生成全局模型(图4).我们为客户端上的每一轮训练设置5个epoch,为服务器聚合设置20个epoch。我们的研究在2个节点上进行。每个节点有一个NVIDIA RTX 2080 Ti图形处理单元(NVIDIA Corporation),具有64 GB RAM,一个节点有2个NVIDIA TITAN RTX图形处理单元,具有64 GB RAM (NVIDIA Corporation)。

图4。联邦学习架构。远东纪念医院;国立台湾大学附属医院;VGHTPE:台北退伍军人总医院。
查看此图

标签的关注

为了解释我们模型的输出,我们添加了一个标签注意力架构[21].它根据词向量和每个标签向量的内积分别计算注意力。图5展示了我们如何将标签注意力架构添加到模型中。首先,我们通过使用ICD-10-CM代码的定义来微调BERT模型以生成标签向量。其次,我们构造了一个全连接层,其中的权值用标签向量初始化。第三,BERT产生的输出通过双曲正切函数传递,从而产生词向量。我们将单词向量(Ζ)输入到完全连接层和softmax层中。softmax层的输出()受到关注。第四,我们将单词向量(H)的双曲正切函数输入到另一个完全连接的层和sigmoid层。这和我们原来的建筑很相似。输出(y)可以从单热编码标签中减去,用于损失计算。最后,注意力被用来解释模型如何预测标签。 Attention was given to the input text for corresponding ICD-10-CM codes. The performance of the model after adding the label attention architecture was compared to its performance without this architecture.

图5。我们的模型架构与标签关注。BERT:来自变压器的双向编码器表示。
查看此图

指标

我们用了微型F1得分用于评估性能,因为它是精确率和召回率的调和平均值,因此比仅使用精确率或召回率时产生的结果更平衡。微F1得分计算如下:

在哪里

TP总和表示真阳性的和,《外交政策》总和假阳性、和的和FN总和表示假阴性的总和。


比较不同BERT模型的性能

F1PubMedBERT、RoBERTa、ClinicalBERT、BioBERT的得分分别为0.735、0.692、0.711、0.721。的F1在所有模型中,PubMedBERT得分最高,RoBERTa得分最低(表2).由于这些结果,我们在随后的实验中使用了PubMedBERT。

表2。来自变压器(BERT)模型的不同双向编码器表示的性能。
模型 F1分数 精度 回忆
PubMedBERT 0.735 0.756 0.715
罗伯塔一个 0.692 0.719 0.666
ClinicalBERT 0.711 0.735 0.689
BioBERTb 0.721 0.754 0.691

一个罗伯塔:稳健优化的BERT预训练方法。

b生物医学文本挖掘。

模型在保留或删除标点或汉字时的性能

表3显示每个数据集预处理情况下令牌的平均数量。删除标点和汉字时,平均标记数为52.9个。实验P(标点)、实验C(汉字)和实验PC(标点和汉字)中保留字符的平均标记数分别为65.0个、53.1个和65.1个。标点符号和汉字分别占我们数据中标记的18.3%(1,301,988/7,096,460)和0.1%(7948/7,096,460)。

表3。保留或删除标点或中文字符的平均数据记号数。
实验 平均标记数
删除标点和中文字符(基线) 52.9
保留了标点符号 65.0
保留的汉字 53.1
保留标点符号和汉字 65.1

表4显示了F1每个数据集预处理案例的得分。去掉标点和汉字后,模型的基线性能为0.7875。在实验P中F1保留标点符号得分为0.8049,增加0.0174分(2.21%)。在实验C中F1汉字保留得分为0.7984,增加0.0109分(1.38%)。在PC实验中F1标点和汉字保留得分为0.8120,增加0.0245(3.11%)。在所有的实验中,保留这些字符比删除它们效果更好,其中实验PC的性能改善最大。

表4。F 1保留或删除标点或汉字的分数。
实验 F1分数 绝对增幅(百分比)
删除标点和中文字符(基线) 0.7875 N/A一个
保留了标点符号 0.8049 0.0174 (2.21%)
保留的汉字 0.7984 0.0109 (1.38%)
保留标点符号和汉字 0.8120 0.0245 (3.11%)

一个-不适用。

模型在翻译前后的表现

在我们把中文翻译成英文的实验中F1保留汉字的得分为0.7984,翻译成英文的得分为0.7983。

联合学习

表5显示了在三家医院训练的模型的性能。在FEMH、NTUH和VGHTPE中训练的模型得到了验证F1得分分别为0.7802、0.7718、0.6151。FEMH模型进行了测试F1在FEMH、NTUH和VGHTPE数据集上的得分分别为0.7412、0.5116和0.1596。NTUH模型进行了测试F1在FEMH、NTUH和VGHTPE数据集上的得分分别为0.5583、0.7710和0.1592。VGHTPE模型进行了测试F1在FEMH、NTUH和VGHTPE数据集上的得分分别为0.1081、0.1058和0.5692。加权平均测试F1FEMH、NTUH和VGHTPE模型的得分分别为0.4472、0.5353和0.2522。

表6展示了联合学习模型在三家医院的性能。联邦学习模型得到了验证F1在FEMH、NTUH和VGHTPE数据集上的得分分别为0.7464、0.6511和0.5979。联邦学习模型进行了测试F1在FEMH、NTUH和VGHTPE数据集上的得分分别为0.7103、0.6135和0.5536。加权平均测试F1联邦学习模型的得分为0.6142。

表5所示。在三家医院接受过培训的模特国际疾病分类第十次修订分类。
医院 验证F1分数 测试F1分数 加权平均检验F1分数
FEMH一个 0.7802
  • 0.7412 (FEMH)
  • 0.5116(台大医院b
  • 0.1596 (VGHTPEc
0.4472
台大医院 0.7718
  • 0.5583 (FEMH)
  • 0.7710(台大医院)
  • 0.1592 (VGHTPE)
0.5353
VGHTPE 0.6151
  • 0.1081 (FEMH)
  • 0.1058(台大医院)
  • 0.5692 (VGHTPE)
0.2522

一个远东纪念医院。

b国立台湾大学附属医院。

cVGHTPE:台北退伍军人总医院。

表6所示。联合学习模型在三家医院的表现。
数据 验证F1分数 测试F1分数一个
FEMHb数据 0.7464 0.7103
台大医院c数据 0.6511 0.6135
VGHTPEd数据 0.5979 0.5536

一个加权平均测试F1得分为0.6142。

b远东纪念医院。

c国立台湾大学附属医院。

dVGHTPE:台北退伍军人总医院。

标签的关注

F1加标签注意机制和不加标签注意机制的模型得分为0.804(精度=0.849;召回率=0.763)和0.813(精密度=0.852;分别召回= 0.777)。

图6显示了对ICD-10-CM代码及其相关输入文本的关注的可视化。根据不同标签的注意力得分,这些单词被涂成蓝色。蓝色的强度代表了注意力得分的大小。我们以ICD-10-CM代码E78.5(“高脂血症,未指明”)和I25.10(“原生冠状动脉粥样硬化性心脏病,无心绞痛”)为例。

图6。关注《国际疾病分类》第十次修订,临床修订代码(A) E78.5(“高脂血症,未指明”)和(B) I25.10(“原生冠状动脉粥样硬化性心脏病,无心绞痛”)。蓝色的强度代表了注意力得分的大小。
查看此图

主要研究结果

在对外部数据进行测试时,联邦学习模型的性能优于每个本地模型。加权平均数F1联邦学习模型、FEMH模型、NTUH模型和VGHTPE模型的测试集得分分别为0.6142、0.4472、0.5353和0.2522 (表5表6).在外部数据上进行测试时,模型的性能有所下降。因为不同的医院有不同的医生、编码员和疾病,所以不同医院的临床记录风格可能不同。克服医院之间的这种差距是一项挑战。尽管在本地数据上进行测试时,联邦学习模型的性能不如在本地数据上训练的模型,但在外部数据上进行测试时,其性能高于在本地数据上训练的模型。此外,在VGHTPE数据集中,标签分布与其他两家医院数据集中的标签分布有很大不同(图2).因此,VGHTPE模型只能实现F1NTUH和FEMH测试集的得分分别为0.1058和0.1081。FEMH和NTUH模型F1,分别为0.1596和0.1592表5).

联邦学习提高了模型在外部数据上的性能。联邦学习可用于构建跨医院使用的ICD编码系统。然而,联邦学习所需的训练时间比局部深度学习所需的训练时间要长。联邦学习大约需要1周,本地培训大约需要2天。这有两个原因。首先,如果模型很大,服务器和客户机之间的通信将花费更长的时间。我们模型的大小约为859 MB。其次,不同的客户端可能具有不同的计算能力,较慢的客户端成为瓶颈[2223].其他客户机可能会等待较慢的客户机完成其工作。

PubMedBERT的性能优于BioBERT、ClinicalBERT和RoBERTa。表2结果表明,BERT模型的词汇量是影响模型性能的重要因素。PubMedBERT的词汇表主要包含医学术语,而其他三个模型的词汇表包含常用词。这种差异会影响临床文本中单词的识别能力。大多数已发表的BERT模型使用的词汇量为30,522个单词[24].但是,这些词汇表数据不包含一些来自特殊字段的单词。例如,医学术语“淋巴瘤”出现在PubMedBERT的词汇表中,但没有出现在BioBERT、ClinicalBERT和RoBERTa的词汇表中。术语“淋巴瘤”可以通过PubMedBERT标记器转换为标记“淋巴瘤”,但该术语将被BioBERT、ClinicalBERT和RoBERTa分成3个标记——“l”、“## ymh”和“##oma”。

在大多数情况下,非字母数字字符被删除,因为它们被认为对模型无用[25].与具有注意机制的模型相比,早期的NLP模型不能注意标点符号。额外的字符会使模型无法很好地关注关键字。英语文本和其他语言文本(如阿拉伯语)中的标点符号已被用于NLP [26].Ek等[27]比较了两组日常会话文本的数据集,其中一组保留了标点符号,另一组没有。他们的结果显示,保留标点符号的数据集表现更好。

在实验P、C和PC中,当保留额外的字符时,所有模型的表现都更好(表4).实验P证明PubMedBERT可以使用嵌入式标点符号。由于标点符号用于分隔不同的句子,删除它们将所有句子连接起来,从而使模型更难理解文本内容。我们的改善F1保留标点符号的得分与Ek等人之前的研究结果相似[27].我们的研究结果表明,保留标点符号可以提高临床领域文本的文本分类模型的性能。实验C证明PubMedBERT可以使用嵌入式汉字。虽然PubMedBERT主要是用英文文本进行预训练的,但它的词汇表中包含了许多中文字符。来自汉字的标记可能有助于ICD-10临床文本的分类任务,因为它们提供了诸如地名、创伤机制和当地习俗等信息。PC实验结果表明,保留标点和保留汉字的好处是叠加的。在翻译实验中F1分数并没有太大的差别。这表明该模型可以从中英文临床文本中提取信息。BERT注意机制的使用提高了我们的模型对关键词的注意能力。标点符号和汉字为这些模型提供了有用的信息。因此,这种预处理策略——保留更多有意义的标记——为ICD-10分类任务模型提供了更多信息。

在我们之前的研究中,我们引入了一种注意机制来可视化对ICD-10定义输入文本的注意[4].通过这种方法,我们训练了一个模型来预测ICD-10代码,并训练了另一个模型来提取注意力数据。这种方法可能会导致预测和注意之间的不一致。在这项研究中,我们引入了标签注意力架构来可视化对ICD-10代码输入文本的关注[21].这种方法更好地说明了对用于预测ICD代码的输入词的关注,因为它与预测模型使用的方法是一致的。

F1加入标签注意机制后,模型得分下降0.009。虽然F1分数下降,我们得到了可解释的预测。对于ICD-10-CM代码E78.5(“高脂血症,未指定”)和I25.10(“原生冠状动脉粥样硬化性心脏病,无心绞痛”),我们的模型成功地将相关词汇“高脂血症”和“冠状动脉”(图6).我们的可视化方法(即高亮显示输入单词)允许用户了解我们的模型如何从文本中识别ICD-10-CM代码。

限制

我们的研究有一些局限性。首先,我们的数据来自台湾三所三级医院。我们的研究结果对其他地区医院的外推性值得进一步研究。第二,虽然我们的研究结果表明,当保留标点和汉字时,模型性能更好,但这种效果可能仅限于特定的注释类型。这一发现应该在分类其他类型的临床文本的背景下进一步检查。第三,我们最后一个实验中翻译的文本可能不如母语人士翻译的准确。然而,手工翻译大量数据是很困难的。因此,我们只能通过使用谷歌翻译自动翻译文本。

应该注意的是,每个出院记录都有主要和次要诊断代码。虽然选择主要代码会使报销有所不同,但本研究提出的模型并未识别主要代码。为了使我们的模型能够识别主代码,我们在之前的工作中提出了一个序列到序列的模型[4].它转换按字母顺序连接的原始预测标签,使它们按诊断代码排序。这种结构可以添加到本研究提出的模型中。基于主次诊断码的预测可以进一步提高系统的可用性。

结论

在保护数据隐私的同时,采用联邦学习对多中心临床文本进行ICD-10分类模型的训练。该模型的性能优于局部训练模型。我们通过标签注意架构突出显示输入单词,展示了可解释的预测。我们还发现PubMedBERT模型可以使用标点符号和非英语字符的含义。这一发现表明,改变ICD-10多标签分类的预处理方法可以提高模型性能。

致谢

本研究由台湾科学技术部资助(项目资助:MOST 110-2320-B-075-004-MY和MOST 110-2634-F-002-032-);台湾远东纪念医院(批准FEMH-2022-C-058);台北荣民总医院(获批V111E-002及V111E-005-2)。赞助方在研究设计、数据收集和分析、发表决定或手稿起草中没有任何作用。

利益冲突

没有宣布。

多媒体附录1

三家医院ICD-10-CM标签计数。(A)病历中标签计数的排序。(B) ICD-10-CM编码计数排序。ICD-10-CM:《国际疾病分类》第十次修订,临床修订

DOCX文件,662 KB

多媒体附录2

标点符号计数和前10个汉字。

DOCX文件,17kb

  1. 世界卫生组织。国际疾病和相关健康问题统计分类第十次修订:第一卷,表列表,第五版2016。瑞士,日内瓦:世界卫生组织;2016.
  2. Mills RE, Butler RR, McCullough EC, Bao MZ, Averill RF。向ICD-10过渡对医疗保险住院病人支付的影响。医疗保险与医疗补助,2011年6月6日;1(2):001.02。a02 [免费全文] [CrossRef] [Medline
  3. Kusnoor SV, Blasingame MN, Williams AM, DesAutels SJ, Su J, Giuse NB。向ICD-10和ICD-10- cm /PCS过渡的影响述评。2019年12月26日开幕;3(1):126-131 [免费全文] [CrossRef] [Medline
  4. 陈鹏飞,王思敏,廖文武,郭立林,陈克成,林永成,等。自动ICD-10编码与训练系统:基于监督学习的深度神经网络。JMIR Med Inform 2021 Aug 31;9(8):e23230 [j]免费全文] [CrossRef] [Medline
  5. 石辉,谢鹏,胡忠,张明,邢爱平。使用深度学习实现自动化ICD编码。出来了。2017年11月11日在线预印本[免费全文
  6. Sammani A, Bagheri A, van der Heijden PGM, Te Riele ASJM, Baas AF, Oosters CAJ,等。用神经网络自动检测荷兰心脏病出院信中的ICD10代码。NPJ数字医学2021 Feb 26;4(1):37 [j]免费全文] [CrossRef] [Medline
  7. 王鑫,韩军,李斌,潘鑫,徐辉。基于多头注意机制和门控残差网络的ICD-10自动编码。2021 IEEE生物信息学与生物医学国际会议(BIBM);2021年12月9日至12日;休斯顿,得克萨斯州536-543页。[CrossRef
  8. 李勇,李玉华,李玉华。ICD-10编码的多标签分类及临床记录。2021年IEEE EMBS生物医学和健康信息学国际会议(BHI);2021年7月27日至30日;雅典,希腊第1-4页。[CrossRef
  9. Silva S, Gutman BA, Romero E, Thompson PM, Altmann A, Lorenzi M.分布式医疗数据库中的联邦学习:大规模皮质下脑数据的元分析。2019 IEEE第16届生物医学成像国际研讨会(ISBI 2019);2019年4月8日至11日;威尼斯,意大利,第270-274页。[CrossRef
  10. 高东,鞠超,魏鑫,刘勇,陈涛,杨强。HHHFL:脑电图分层异构水平联邦学习。出来了。2019年9月11日在线预印本[免费全文
  11. 刘德华,刘德华,刘德华。两阶段联合表型与患者表征学习。2019年在:第18届BioNLP研讨会和共享任务;2019年8月1日;佛罗伦萨,意大利第283-291页https://aclanthology.org/W19-5030v1.pdfCrossRef
  12. 王思敏,常玉华,郭立林,赖飞,陈宁,余飞,等。使用深度学习从自由文本数据中自动分类Icd-10。[J]中国生物医学工程学报,2020;16(1):1-10 [J]免费全文] [CrossRef
  13. 陈鹏飞,陈克成,廖文武,赖飞,何立林,林顺生,等。国际疾病自动分类编码系统:基于规则方法的深度语境化语言模型。中国医学信息学报;2009;10(6):357 - 357 [j]免费全文] [CrossRef] [Medline
  14. 顾勇,丁瑞,程华,Lucas M, Usuyama N,刘旭,等。面向生物医学自然语言处理的领域特定语言模型预训练。中国计算机科学与工程学报(英文版);2009;31(1):1-23。[CrossRef
  15. 刘勇,Ott M, Goyal N,杜军,Joshi M,陈东,等。罗伯塔:稳健优化的BERT预训练方法。出来了。2019年7月29日网上预印本[免费全文
  16. 黄凯,Altosaar J, Ranganath R. ClinicalBERT:临床记录建模与再入院预测。出来了。2019年4月10日网上预印本[免费全文
  17. 李军,尹伟,金山,金东,金山,苏昌,等。BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型。生物信息学2020 Feb 15;36(4):1234-1240 [j]免费全文] [CrossRef] [Medline
  18. McMahan HB, Moore E, Ramage D, y Arcas BA。使用模型平均的深度网络的联合学习。出来了。预印本发布于2016年2月17日[免费全文
  19. 李建军,李建军,李建军,李建军,李建军。Flower:一个友好的联邦学习研究框架。出来了。2020年7月28日网上预印本[免费全文
  20. gRPC作者。gRPC:一个高性能、开源的通用RPC框架。gRPC。URL:https://grpc.io[2022-09-17]访问
  21. Mullenbach J, Wiegreffe S, Duke J, Sun J, Eisenstein J.基于临床文本的医学编码可解释性预测。2018年:计算语言学协会北美分会2018年会议:人类语言技术;2018年6月1日至6日;新奥尔良,路易斯安那第1101-1111页https://aclanthology.org/N18-1100.pdfCrossRef
  22. 李磊,范毅,谢敏,林凯。联邦学习中的应用综述。计算机工程学报,2020(11):1088 - 1088。[CrossRef
  23. 引用本文:李军,王胜,李军,王敏。资源受限物联网设备的联合学习研究。IEEE物联网学报,2022,1(1):1-24。[CrossRef
  24. 赵松,古普塔,宋勇,周东。基于混合词汇训练的极小BERT模型。2021年发表于:计算语言学协会欧洲分会第16届会议;2021年4月19日至23日;网址:2753-2759https://aclanthology.org/2021.eacl-main.238.pdfCrossRef
  25. Biswas B, Pham TH, Zhang P. TransICD:基于Transformer的可解释ICD编码的代码明智注意模型。发表于:第19届国际医学人工智能会议,AIME 2021;2021年6月15日至18日;虚拟事件第469-478页。[CrossRef
  26. Abdullah M, AlMasawa M, Makki I, Alsolmi M, Mahrous s。国际计算机学报,2018,07;42(7):661-675。[CrossRef
  27. 张建军,张建军,张建军。标点符号对自然语言推理神经模型的影响。2020年发表于:概率与意义会议(PaM 2020);2020年10月14日至15日;哥德堡,瑞典,第109-116页https://aclanthology.org/2020.pam-1.15.pdf


伯特:来自变压器的双向编码器表示
BioBERT:面向生物医学文本挖掘的互感器双向编码器表示
CC-News:CommonCrawl新闻
FEMH:远东纪念医院
gRPC:Google远程过程调用
诊断结果:国际疾病分类第十次修订
ICD-10-CM:《国际疾病分类》第十次修订,临床修订
ICD:国际疾病分类
MIMIC-III:重症监护医疗信息集市3
NLP:自然语言处理
台大医院:台湾大学附属医院
洛蓓塔:基于变压器预训练方法的双向编码器鲁棒优化
VGHTPE:台北退伍军人总医院


C·洛维斯编辑;提交24.07.22;由I Li, N Nuntachit同行评审;对作者的评论15.08.22;修订版本收到03.10.22;接受08.10.22;发表10.11.22

版权

©陈培富,何太亮,林生彻,朱元嘉,郭振宗,赖飞培,王素明,朱婉轩,陈冠之,郭鲁成,洪方明,林玉成,蔡一昌,邱志浩,张树智,杨志宇。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 10.11.2022。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map