JMIR医学信息学——中文电子病历中受保护健康信息识别的有效方法:算法开发与验证gydF4y2Ba

原始论文gydF4y2Ba

彭王gydF4y2Ba^1gydF4y2Ba^*gydF4y2Ba,孟gydF4y2Ba ;gydF4y2Ba
勇李gydF4y2Ba^2gydF4y2Ba^*gydF4y2Ba,孟gydF4y2Ba ;gydF4y2Ba
梁杨gydF4y2Ba^3.gydF4y2Ba,孟gydF4y2Ba ;gydF4y2Ba
思敏李gydF4y2Ba^3.gydF4y2Ba,孟gydF4y2Ba ;gydF4y2Ba
Linfeng李gydF4y2Ba^3.gydF4y2Ba博士gydF4y2Ba ;gydF4y2Ba
Zehan赵gydF4y2Ba^4gydF4y2Ba,孟gydF4y2Ba ;gydF4y2Ba
Shaopei长gydF4y2Ba^2gydF4y2Ba,大麻gydF4y2Ba ;gydF4y2Ba
范王gydF4y2Ba^5gydF4y2Ba,孟gydF4y2Ba ;gydF4y2Ba
Hongqian王gydF4y2Ba^5gydF4y2Ba,孟gydF4y2Ba ;gydF4y2Ba
李应gydF4y2Ba^5gydF4y2Ba,硕士gydF4y2Ba ;gydF4y2Ba
黄成梁王gydF4y2Ba^1gydF4y2Ba博士gydF4y2Ba

^1gydF4y2Ba重庆大学计算机科学学院，重庆gydF4y2Ba

^2gydF4y2Ba华南师范大学计算机科学学院，中国广州gydF4y2Ba

^3.gydF4y2Ba易度云科技股份有限公司，中国北京gydF4y2Ba

^4gydF4y2Ba北京大学软件与微电子学院，北京gydF4y2Ba

^5gydF4y2Ba西南医院医疗大数据中心，中国重庆gydF4y2Ba

这些作者的贡献相同gydF4y2Ba

通讯作者:gydF4y2Ba

王成亮，博士gydF4y2Ba

计算机科学学院gydF4y2Ba

重庆大学gydF4y2Ba

南大学城路55号gydF4y2Ba

重庆市沙坪坝区gydF4y2Ba

重庆,400030gydF4y2Ba

中国gydF4y2Ba

电话:86 18983055830gydF4y2Ba

电子邮件:gydF4y2Bawangcl@cqu.edu.cngydF4y2Ba

背景:gydF4y2Ba随着电子病历在中国的普及，数字化数据的利用对现实世界医学研究的发展具有巨大的潜力。但是，这些数据通常包含大量受保护的健康信息，直接使用这些数据可能会导致隐私问题。电子病历中受保护健康信息的去识别任务可以看作是一个命名实体识别问题。现有的基于规则的、基于机器学习的或基于深度学习的方法已经被提出来解决这个问题。然而，这些方法仍然面临中文电子病历数据不足和中文复杂特点的困难。gydF4y2Ba

摘要目的:gydF4y2Ba本文提出了一种克服深度神经网络过拟合和训练数据缺乏困难的方法，使中国受保护的健康信息去识别化。gydF4y2Ba

方法:gydF4y2Ba我们提出了一个新的模型，将TinyBERT(双向编码器表示)作为文本特征提取模块和条件随机场方法作为预测模块，用于中国医疗电子健康记录中受保护健康信息的去识别。此外，针对中国电子健康档案不足的问题，提出了一种结合句子生成策略和提及替换策略的混合数据增强方法。gydF4y2Ba

结果:gydF4y2Ba我们将我们的方法与使用不同BERT模型作为特征提取模块的5种基线方法进行了比较。实验结果表明，与所有基于bert的基线方法相比，该方法具有更好的性能(微精密度:98.7%，微召回率:99.13%，微f1评分:98.91%)和更高的效率(快40%)。gydF4y2Ba

结论:gydF4y2Ba与基线方法相比，TinyBERT在增强数据集上保持了效率优势，同时在中国受保护健康信息去识别任务上的性能有所提高。gydF4y2Ba

中国生物医学工程学报;2010;31 (8):888 - 888gydF4y2Ba

doi: 10.2196/38154gydF4y2Ba

关键字gydF4y2Ba

电子健康档案gydF4y2Ba;gydF4y2Ba φgydF4y2Ba;gydF4y2Ba 个人信息gydF4y2Ba;gydF4y2Ba 受保护的数据gydF4y2Ba;gydF4y2Ba 受保护的信息gydF4y2Ba;gydF4y2Ba 患者信息gydF4y2Ba;gydF4y2Ba 健康信息gydF4y2Ba;gydF4y2Ba de-identificationgydF4y2Ba;gydF4y2Ba de-identifygydF4y2Ba;gydF4y2Ba 隐私gydF4y2Ba;gydF4y2Ba TinyBertgydF4y2Ba;gydF4y2Ba 模型gydF4y2Ba;gydF4y2Ba 发展gydF4y2Ba;gydF4y2Ba 算法gydF4y2Ba;gydF4y2Ba 机器学习gydF4y2Ba;gydF4y2Ba CRFgydF4y2Ba;gydF4y2Ba 数据增加gydF4y2Ba;gydF4y2Ba 健康记录gydF4y2Ba;gydF4y2Ba 医疗记录gydF4y2Ba

背景gydF4y2Ba

随着信息技术的发展，电子病历在许多医院和医疗机构得到了广泛的采用和应用。电子病历的巨大优点包括易于存储和管理，并且可以大大提高信息检索的速度。它们可以提供各种疾病的丰富临床和医学信息，这些信息可能为临床医生提供决策依据。然而，许多个人的私人信息存储在电子病历中。电子病历的使用不当可能会导致隐私泄露，从而导致严重的问题。为了规范电子病历的使用和保护个人隐私，许多项目，如i2b2挑战，在2014年[gydF4y2Ba1gydF4y2Ba]，以及2016年的CEGS N-GRID挑战[gydF4y2Ba2gydF4y2Ba]，已经启动。防止隐私泄露的一种直观方法是去识别受保护的健康信息(PHI) [gydF4y2Ba3.gydF4y2Ba]，然后再进行信息处理。美国《健康保险流通及责任法案》将健康保险合约分为18种不同类型[gydF4y2Ba4gydF4y2Ba]，如姓名、身份证号、位置、日期和年龄。去识别PHI的过程可以分为2个步骤:在EHR中找到PHI，并用不敏感的信息替换它。因此，去识别过程可以被视为命名实体识别(NER)任务[gydF4y2Ba5gydF4y2Ba]。gydF4y2Ba

客观的gydF4y2Ba

在本文中，我们提出了一种使用TinyBERT [gydF4y2Ba22gydF4y2Ba]和中文PHI去识别的CRF模型。在我们的模型中使用的TinyBERT是从基于BERT(双向编码器表示来自变压器)的模型中提取出来的，该模型是在中文语料库上预训练的。它有两个优点:一是它可以克服中文和英文在形态特征上的差异，二是它的参数较少，这应该可以防止深度学习模型在小规模中文电子病历数据集上训练时出现过拟合的问题。此外，我们提出了一种混合数据增强方法，该方法使用数据增强和生成方法(DAGA) [gydF4y2Ba23gydF4y2Ba]并提及替换(MR) [gydF4y2Ba24gydF4y2Ba来创建更多的训练数据。增强的数据集有助于神经网络克服过拟合，增强深度神经网络的泛化能力。gydF4y2Ba

PHI识别模型gydF4y2Ba

本文结合TinyBERT [gydF4y2Ba22gydF4y2Ba]和CRF模型[gydF4y2Ba25gydF4y2Ba]提出了中文电子病历中PHI识别的方法。如图所示gydF4y2Ba图1gydF4y2Ba，该模型采用TinyBERT作为特征提取模块，CRF模型作为预测模块。首先对EHR句子中的单词进行标记，并且将句子的长度固定为128。然后将它们输入到TinyBERT的嵌入模块中，生成单词嵌入、位置嵌入和标记类型嵌入。将3个嵌入矩阵加在一起作为特征编码器的输入，由级联的自关注块组成，用于文本特征提取。该模型利用自注意机制，捕捉句子中的远距离相互依存特征，学习句子的语义。特征提取模块输出一系列序列标签的概率，作为CRF模型的发射分数。之后，将文本特征输入到CRF模块进行标签预测。gydF4y2Ba

TinyBERT是用变压器层蒸馏法从基BERT中生成的轻结构[gydF4y2Ba26gydF4y2Ba]。要提取的结构是一个嵌入层、多个变压器层和一个预测层。模型蒸馏过程的详细情况见gydF4y2Ba图2gydF4y2Ba。假设base BERT为教师模块，有M层变压器，TinyBERT为学生模块，有N层变压器，其中M = k × N。在蒸馏过程中，模型通过教师模块到学生模块指标之间的知识蒸馏(KD)函数来学习知识，如式1所示:gydF4y2Ba

θgydF4y2Ba_{年代gydF4y2Ba}(n) = g(k，θgydF4y2Ba_TgydF4y2Ba(m))gydF4y2Ba（1）gydF4y2Ba

在θgydF4y2Ba_{年代gydF4y2Ba}(n)为有n层变压器的学生模块参数，θgydF4y2Ba_TgydF4y2Ba(m)表示具有m个变压器层的教师模块参数，g(•)表示教师模块到学生模块的知识映射函数。形式上，g(•)通过使蒸馏损耗(L(distillation))最小来优化，L(distillation)由变压器层损耗(L(tr))、埋设层损耗(L(emb))和预测损耗(L(pr))相加。为了生成TinyBERT模型，将长度为1的训练序列同时输入到教师模块和学生模块进行标签预测，然后在训练过程中将蒸馏损失最小化，可由式2 ~式5计算，如下所示:gydF4y2Ba

L(emb) = ||EgydF4y2Ba^{年代gydF4y2Ba}EgydF4y2Ba^TgydF4y2BaWgydF4y2Ba_egydF4y2Ba||gydF4y2Ba_2gydF4y2Ba （3）gydF4y2Ba

L(pr) = cross_entropy (ZgydF4y2Ba^TgydF4y2Ba, ZgydF4y2Ba^{年代gydF4y2Ba}）gydF4y2Ba(4）gydF4y2Ba

L(蒸馏)= L(tr) + L(emb) + L(pr)gydF4y2Ba(5）gydF4y2Ba

h是注意头的个数。gydF4y2Ba表示gydF4y2Bai -gydF4y2Ba层注意图值，变压器块的输出特征图，嵌入层的输出，学生模块的预测逻辑向量。gydF4y2Ba表示gydF4y2Bai -gydF4y2Ba层注意图值、变压器块的输出特征图、嵌入层的输出、教师模块的预测逻辑向量。WgydF4y2Ba_hgydF4y2Ba和WgydF4y2Ba_egydF4y2Ba表示线性变换矩阵，和gydF4y2Ba，其中∈{A, H,E,Z}。gydF4y2Ba

经过知识蒸馏过程，得到的TinyBERT的参数大幅度缩减，同时保留了基本BERT的大部分知识。我们的模型利用最后一个TinyBERT编码器输出的文本特征，最终通过分类器(如softmax函数)获得预测的标签。然而，softmax函数将每个向量视为独立的，忽略了句子中单词标签之间的相关性;因此，可以预测一些不合理的结果。为了消除这个问题，我们引入了CRF模型来构建注释序列中的依赖关系和约束。与假设令牌的当前标签仅依赖于当前标签或当前标签仅依赖于前一个标签不同，CRF模型打破了局部令牌依赖的限制，并将重点放在整个句子上。可以在NER任务中学习的特定依赖规则见gydF4y2Ba图2gydF4y2Ba。gydF4y2Ba

句子中第一个单词的标签应该以“B-”或“O”开头，而不是“I-”。以“B - label_1 I - label_2 I - label_3 I -…”label_1、label_2和label_3应该有相同的命名实体标签。基于这一规则，很容易排除错误的预测，例如“b -个人-组织……”根据观察结果，CRF模型可以根据式(6)至式(8)中的依赖规则定义一个方程，对输入句子的预测序列标签进行评分:gydF4y2Ba

score(X|s) = emission_score + transition_scoregydF4y2Ba（6）gydF4y2Ba

其中s表示输入句子，gydF4y2Ba_{我的标签gydF4y2Ba}的预测标签的得分gydF4y2BaigydF4y2Ba句子中的单词是s，和gydF4y2Ba_{labeli→labeljgydF4y2Ba}表示转移的分数gydF4y2Ba标签gydF4y2Ba_我gydF4y2Ba来gydF4y2Ba标签gydF4y2Ba_jgydF4y2Ba分别的世界。在我们的方法中gydF4y2Baemission_scoregydF4y2Ba由TinyBERT模块的输出得到，gydF4y2Batransition_scoregydF4y2Ba是由CRF模块根据句子中的上下文信息计算出来的。为了使正确预测序列标签的概率最大化，所有预测分数的指数和标准化按式9计算:gydF4y2Ba

因此，优化我们模型的损失函数可以定义为式10:gydF4y2Ba

图1所示。中国电子病历中受保护健康信息的去标识化模型。BERT:来自变压器的双向编码器表示;CRF:条件随机场;FFN:前馈网络;MHA:多头关注;PER:个人姓名。gydF4y2Ba

图2。在我们的模型中使用了TinyBERT知识蒸馏过程。FFN:前馈网络。Attn:注意层;L(emb):嵌入损失;L(tr):变压器层损耗;L(pr):预测损失;A:注意图值;Z:预测逻辑向量;S:学生网络; T: teacher network.

一种混合数据增强方法gydF4y2Ba

从形式上讲，深度神经网络的性能和效率之间存在权衡。当对参数进行压缩时，网络的性能会下降，而效率会提高。在实践中，网络通过压缩变压器层数和词嵌入维数来提高效率，但这也会导致特征提取能力下降。为了保持其效率而不降低其性能，一种直观的方法是在大型数据集上对其进行微调。不幸的是，生成一个足够的、高质量的数据集是具有挑战性的。如前几份报告所述[gydF4y2Ba23gydF4y2Ba，gydF4y2Ba24gydF4y2Ba]，用噪声增强数据可以增强模型在句子级任务(如文本分类和情感判断)上的鲁棒性，但它会损害表征级任务(如NER)的性能。这种情况表明，增强的数据应该包含尽可能少的噪声。此外，Dai等人的研究[gydF4y2Ba27gydF4y2Ba表明混合数据增强平均优于任何单一的数据增强方法。受此工作启发，我们提出了一种新的混合数据增强方法，该方法将DAGA [gydF4y2Ba23gydF4y2Ba]及MR [gydF4y2Ba24gydF4y2Ba来增强原始数据，以进行特定任务的微调。DAGA用于增加训练集的大小，以避免过拟合，而MR用于使网络能够学习实体的不同表示。gydF4y2Ba

与其他数据增强方法不同，DAGA从头开始生成新的合成数据，而不依赖于WordNet(普林斯顿大学)或其他外部字典，这可能使它对资源有限的语言更有用。它将实体标签和单词标记混合在一起以创建一个线性句子。中给出了一个例子gydF4y2Ba图3gydF4y2Ba。生成的线性句子被输入到单词生成网络(如LSTM或BERT)中，以学习单词和标签的分布。给定一个符号序列(wgydF4y2Ba_1gydF4y2BawgydF4y2Ba_2gydF4y2Baw,……gydF4y2Ba_tgydF4y2Ba, w……gydF4y2Ba_NgydF4y2Ba)赋给网络，其中N表示序列的长度，网络通过公式11学习该序列中每个单词的隐藏状态:gydF4y2Ba

hgydF4y2Ba_tgydF4y2Ba=我gydF4y2Ba_tgydF4y2Ba (11)gydF4y2Ba

其中M为词生成网络中的可学习权矩阵，egydF4y2Ba_tgydF4y2Ba表示输入词的嵌入矩阵。单词生成网络在训练过程中通过最大化公式12计算的概率来学习预测序列中下一个标记的标签:gydF4y2Ba

在哪里gydF4y2BaVgydF4y2Ba表示词汇表的大小，gydF4y2Ba我*gydF4y2Ba表示单词w的索引gydF4y2Ba_tgydF4y2Ba在词汇中，和gydF4y2BahgydF4y2Ba_{t - 1gydF4y2Ba},我*gydF4y2Ba表示gydF4y2BaigydF4y2Bah元素gydF4y2Ba_{t - 1gydF4y2Ba}。这样，得到参数θ的目标函数如式13所示:gydF4y2Ba

配对的标记-标记线性句子促进了网络对词类之间上下文关系的学习，因此生成的合成数据的分布更接近原始数据，从而在数据增强过程中引入更少的噪声。此外，生成的合成数据引入了更多的多样性，增强了模型的鲁棒性。gydF4y2Ba

然而，我们最初收集的数据集可能包含较少实体和更多“O”标记词的句子。根据公式13,DAGA严重依赖上下文语义信息来生成句子。因此，仅对最初收集的数据集应用DAGA进行数据增强可能会导致实体稀疏性问题，这不利于模型学习丰富的数据特征。为了缓解这种情况，我们引入了MR作为另一种补充数据增强方法。对于句子中的每个标记实体，我们制定了一个二项分布来确定是否应该替换该实体。公式输出一个概率gydF4y2BaPgydF4y2Ba时，该实体被训练集中具有相同实体类型的另一个实体替代gydF4y2BaPgydF4y2Ba> 0。5。否则，实体将保留在原句子中。然而，由于原始采集数据集的规模较小，仅使用MR进行数据增强容易产生重复数据，这可能导致训练过程中的过采样，从而导致模型的过拟合。因此，我们将DAGA和MR合并在一起以增强数据集。gydF4y2Ba

图3。在我们的数据增强方法中使用线性化操作的生成方法进行数据增强的一个例子。PER:个人姓名。gydF4y2Ba

数据gydF4y2Ba

原始电子病历包含患者病史、当前病情、入院摘要、病程的每日记录、诊断、治疗过程和出院摘要。电子病历均收集于中国重庆市当地医院。在本文中，我们的目标是识别电子病历中受保护的信息，如组织(ORG)、地点(LOC)、日期(DAT)和个人姓名(PER)，包括患者和医生的姓名。gydF4y2Ba

手工标注原始数据是一项耗时费力的任务，而且数据通常不足以用于特定疾病的研究，特别是罕见疾病的研究。受过去研究的启发[gydF4y2Ba28gydF4y2Ba，gydF4y2Ba29gydF4y2Ba]，我们使用深度学习方法对原始数据进行标注。在这种方法中，所有的原始数据被随机分成2部分。第一部分称为“迷你数据集”(包含所有原始数据的10%左右)，另一部分称为“正式数据集”。我们邀请了2名专业临床医生在迷你数据集中手动注释所有PHI。然后，我们使用CRF模型将带注释的迷你数据集提供给基本BERT进行微调。接下来，我们将带有CRF模型的基本BERT从训练模式切换到测试模式，以预测形式数据集中的PHI。然而，在正式数据集中可能存在一些不正确的预测(也称为坏案例)。因此，我们手动审查正式数据集中的预测PHI，并纠正不良情况。最后，我们得到了一个完整的带PHI标签的标注数据集。之后，患者姓名等私人信息被随机替代。gydF4y2Ba

实验设置gydF4y2Ba

我们将原始带注释的数据集随机分成一个训练集(记为data)gydF4y2Ba_生gydF4y2Ba)，评估集和测试集的比例为6:2:2。统计上，总共有2707个、1424个、509个和5046个标记为PER、ORG、LOC和DAT实体。我们的数据扩增方法应用于数据gydF4y2Ba_生gydF4y2Ba创建一个新的训练集，命名为“混合增强数据集”，表示为datagydF4y2Ba_{数据+先生gydF4y2Ba}。为了比较，我们分别对数据应用了DAGA和MRgydF4y2Ba_生gydF4y2Ba创建2个额外的训练集，记为datagydF4y2Ba_{数据的gydF4y2Ba}和数据gydF4y2Ba_{先生gydF4y2Ba}。评估集用于验证训练过程中的性能，测试集用于测试我们提出的模型和其他基线方法的性能。关于我们的混合增强数据集和每种类型实体的原始数据集的详细统计信息显示在gydF4y2Ba表1gydF4y2Ba。gydF4y2Ba

我们保留了CRF模块，用其他模块代替了我们模型的特征提取模块。这些模块包括2个基于递归神经网络(RNN)的模型，包括BiLSTM [gydF4y2Ba30.gydF4y2Ba]、门控循环单元(GRU) [gydF4y2Ba31gydF4y2Ba]和7个基于BERT的模型，包括基础BERT [gydF4y2Ba26gydF4y2Ba]，中文- bert -wwm [gydF4y2Ba32gydF4y2Ba]，中文- bert -wwm-ext [gydF4y2Ba32gydF4y2Ba]、中文- bert -base [gydF4y2Ba33gydF4y2Ba]和Chinese-BERT-large [gydF4y2Ba33gydF4y2Ba]，并以PCL-BERT [gydF4y2Ba34gydF4y2Ba]及PCL-BERT-wwm [gydF4y2Ba34gydF4y2Ba]。每个基准模型的详细设置列于gydF4y2Ba表2gydF4y2Ba。对于评价指标，我们使用精度、召回率和F1分数来评价数据集中的整体性能，根据式(14)至式(16)计算，如下:gydF4y2Ba

式中TP、FP、FN分别为真阳性率、假阳性率、假阴性。在128 GB内存的Intel至强中央处理器(CPU) (E5-2620, v3, 2.40 GHz)计算机上，采用base BERT、Chinese-BERT-wwm、Chinese-BERT-wwm-ext、Chinese-BERT-base、Chinese-BERT-large和TinyBERT模型进行实验。GRU、BiLSTM、PCL-MedBERT和PCL-MedBERT-wwm的实验在Nvidia RTX3090图形处理器(GPU)上进行。gydF4y2Ba

表1。每种类型实体的原始数据和混合增强数据的统计信息。gydF4y2Ba

实体类型gydF4y2Ba	训练集，ngydF4y2Ba					评估集(原始)，ngydF4y2Ba		测试集(原始)，ngydF4y2Ba
	原始gydF4y2Ba	数据的gydF4y2Ba^{一个gydF4y2Ba}	先生gydF4y2Ba^bgydF4y2Ba	总计gydF4y2Ba
每gydF4y2Ba^cgydF4y2Ba	1448gydF4y2Ba	4327gydF4y2Ba	2892gydF4y2Ba	8667gydF4y2Ba	631gydF4y2Ba		628gydF4y2Ba
疯狂的gydF4y2Ba^dgydF4y2Ba	302gydF4y2Ba	1384gydF4y2Ba	589gydF4y2Ba	2275gydF4y2Ba	102gydF4y2Ba		105gydF4y2Ba
ORGgydF4y2Ba^egydF4y2Ba	846gydF4y2Ba	2188gydF4y2Ba	1692gydF4y2Ba	4726gydF4y2Ba	275gydF4y2Ba		303gydF4y2Ba
DATgydF4y2Ba^fgydF4y2Ba	3013gydF4y2Ba	7412gydF4y2Ba	6011gydF4y2Ba	16436年gydF4y2Ba	999gydF4y2Ba		1034gydF4y2Ba
总计gydF4y2Ba	5609gydF4y2Ba	15311年gydF4y2Ba	11184年gydF4y2Ba	32104年gydF4y2Ba	2007gydF4y2Ba		2070gydF4y2Ba

^{一个gydF4y2Ba}DAGA:使用生成方法的数据增强。gydF4y2Ba

^bgydF4y2Ba提到替换。gydF4y2Ba

^cgydF4y2BaPER:个人姓名。gydF4y2Ba

^dgydF4y2BaLOC:位置。gydF4y2Ba

^egydF4y2BaORG:组织名称。gydF4y2Ba

^fgydF4y2BaDAT:日期。gydF4y2Ba

表2。每个基准的设置。gydF4y2Ba

模型gydF4y2Ba	设置gydF4y2Ba	参数,ngydF4y2Ba	描述gydF4y2Ba
门控循环单元gydF4y2Ba	1层,gydF4y2Ba^{一个gydF4y2Ba}512年结束gydF4y2Ba^bgydF4y2Ba	2190000年gydF4y2Ba	参数是随机初始化的。gydF4y2Ba
BiLSTMgydF4y2Ba^cgydF4y2Ba	1层，512片gydF4y2Ba	2210000年gydF4y2Ba	参数是随机初始化的。gydF4y2Ba
库伯特gydF4y2Ba^dgydF4y2Ba	12层，768个角，12个头gydF4y2Ba^egydF4y2Ba	110000000年gydF4y2Ba	基础BERT在英文维基百科语料库上进行了预训练。gydF4y2Ba
Chinese-BERT-wwmgydF4y2Ba	12层，768个角，12个头gydF4y2Ba	110000000年gydF4y2Ba	采用全词掩蔽训练策略对中文维基百科语料库进行基础BERT的预训练。gydF4y2Ba
Chinese-BERT-wwm-extgydF4y2Ba	12层，768个角，12个头gydF4y2Ba	110000000年gydF4y2Ba	使用全词掩蔽训练策略对中文维基百科语料库、新闻和问答对进行基础BERT的预训练。gydF4y2Ba
Chinese-BERT-basegydF4y2Ba	12层，768个角，12个头gydF4y2Ba	147000000年gydF4y2Ba	在中文维基百科语料库上进行字符、字形和拼音嵌入的基础BERT预训练。gydF4y2Ba
Chinese-BERT-largegydF4y2Ba	24层，1024个点，12个头gydF4y2Ba	374000000年gydF4y2Ba	使用字符、字形和拼音嵌入在中文维基百科语料库上对具有更多层和更大灰度的base-BERT-large模型进行预训练。gydF4y2Ba
PCL-MedBERTgydF4y2Ba	12层，768个角，12个头gydF4y2Ba	110000000年gydF4y2Ba	在中药语料库上预训练BERT模型。gydF4y2Ba
PCL-MedBERT-wwmgydF4y2Ba	12层，768个角，12个头gydF4y2Ba	110000000年gydF4y2Ba	采用全词掩蔽训练在中药语料库上预训练BERT模型。gydF4y2Ba
TinyBERTgydF4y2Ba	6层，768个点，12个头gydF4y2Ba	67000000年gydF4y2Ba	从中文BERT-wwm中提炼出来的BERT。gydF4y2Ba

^{一个gydF4y2Ba}层:变压器块。gydF4y2Ba

^bgydF4y2Ba暗:嵌入尺寸。gydF4y2Ba

^cgydF4y2BaLSTM:长短期记忆。gydF4y2Ba

^dgydF4y2BaBERT:来自变压器的双向编码器表示。gydF4y2Ba

^egydF4y2Ba正面:注意力正面。gydF4y2Ba

实验结果gydF4y2Ba

我们的模型与基线模型在测试集上的性能比较报告于gydF4y2Ba表3gydF4y2Ba。数据微调后gydF4y2Ba_生gydF4y2Ba其中，base BERT的准确率最高(98.55%)，PCL-MedBERT-wwm的召回率最高(99.18%)，F1评分最高(98.8%)。然而，在混合增强数据集上对模型进行微调后，我们的模型在精度(98.7%)、召回率(99.13%)和F1分数(98.91%)方面获得了最好的分数，与数据相比，精度提高了0.86%，召回率提高了0.53%，F1分数提高了0.69%gydF4y2Ba_生gydF4y2Ba。然而，与数据相比，其他基线模型在混合增强数据集上进行微调后获得了更好的性能gydF4y2Ba_生gydF4y2Ba。此外，2个基于rnn的模型的整体性能不如大多数基于bert的模型，并且经过数据训练后，BiLSTM在精度，召回率和F1得分上分别优于GRU 2.2%， 2.95%和2.58%gydF4y2Ba_生gydF4y2Ba，在混合增强数据集上训练后，分别提高1.63%、2.37%和2%。gydF4y2Ba

值得注意的是，在对数据进行微调后，中文- bert -base和中文- bert -large的性能都不如其他基于bert的基准模型gydF4y2Ba_生gydF4y2Ba。在增强数据集上进行微调后，这两个模型的改进优于其他模型。与数据微调相比gydF4y2Ba_生gydF4y2Ba其中，中文- bert -base的准确率提高13.94%，召回率提高11.69%，F1分数提高12.84%;中文- bert -large的准确率提高1.85%，召回率提高0.87%，F1分数提高1.36%。gydF4y2Ba

为了进一步评估混合数据增强方法的有效性，我们通过微调数据上的每个基准进行了消融研究gydF4y2Ba_{数据的gydF4y2Ba}和数据gydF4y2Ba_{先生gydF4y2Ba}。结果显示在gydF4y2Ba表4gydF4y2Ba。我们的模型的每个指标都对任一数据进行了微调gydF4y2Ba_{数据的gydF4y2Ba}或数据gydF4y2Ba_{先生gydF4y2Ba}比在数据上进行微调时性能更好gydF4y2Ba_生gydF4y2Ba。在对我们的模型进行数据微调后，精度、召回率和F1分数分别提高了0.48%、0.43%和0.46%gydF4y2Ba_{先生gydF4y2Ba}，在对数据进行微调后，分别提高了0.34%、0.48%和0.38%gydF4y2Ba_{数据的gydF4y2Ba}。然而，对单个增强数据集进行微调并不能确保我们的模型在每个指标上都优于其他基线方法。总体而言，PCL-MedBERT-wwm在对数据进行微调后获得了最好的精度和F1分数gydF4y2Ba_{先生gydF4y2Ba}和数据gydF4y2Ba_{数据的gydF4y2Ba}。gydF4y2Ba

值得注意的是，在对数据进行微调后，一些基准基准的结果有所下降gydF4y2Ba_{先生gydF4y2Ba}或数据gydF4y2Ba_{数据的gydF4y2Ba}。例如，在对数据模型进行微调之后gydF4y2Ba_{先生gydF4y2Ba}， PCL-MedBERT的准确率、召回率和F1分数下降了0.19%，基础BERT的准确率、召回率和F1分数分别下降了0.3%、0.1%和0.2%。中文- bert - wm-ext和中文- bert -large的情况类似。中文- bert - wm-ext的精度下降了0.29%，F1分数下降了0.05%，中文- bert -large的精度下降了0.47%。然而，在混合增强数据集上进行微调后，所有基准模型的性能都有所提高，证明了混合增强方法的有效性。gydF4y2Ba

在不同的数据集上对模型进行微调后，我们比较了模型在不同实体类型上的性能。如图所示gydF4y2Ba表5gydF4y2Ba，在单个增强数据集或混合增强数据集上对我们的模型进行微调，提高了每种实体类型的性能，这证明了我们提出的数据增强策略的有效性。值得注意的是，在对混合增强数据集进行微调后，我们的模型无法实现PER和DAT实体类型的最佳性能。对于数据类型，在对数据模型进行微调后获得了最佳结果gydF4y2Ba_{先生gydF4y2Ba}，与混合增强数据集相比，精度提高了0.1%，召回率提高了0.29%，F1分数提高了0.19%。对于PER类型，在数据上对模型进行微调后获得了最佳精度gydF4y2Ba_{数据的gydF4y2Ba};这比数据高0.16%gydF4y2Ba_{数据+先生gydF4y2Ba}。gydF4y2Ba

为了研究数据量对我们提出的模型的影响，我们建立了4个额外的训练集，它们具有不同的数据量，记为gydF4y2Ba，gydF4y2Ba，gydF4y2Ba,gydF4y2Ba。这些符号及其对应的含义列于gydF4y2Ba表6gydF4y2Ba。gydF4y2Ba

我们的模型在4个额外的训练集上进行微调后的结果见gydF4y2Ba表7gydF4y2Ba。从表中，我们可以观察到我们的模型进行了微调gydF4y2Ba在准确率、召回率和F1得分上分别仅获得91.33%、95.26%和93.26%的表现。当原始数据量增加到50%时，性能大大提高。此外，我们的模型的性能在两者上都进行了微调gydF4y2Ba或gydF4y2Ba比对数据进行微调时更好吗gydF4y2Ba_生gydF4y2Ba，gydF4y2Ba,或gydF4y2Ba。此外，我们的模型在上进行微调后获得了更好的性能gydF4y2Ba比gydF4y2Ba。结果还表明，我们拥有的原始数据越少，在混合增强数据集上进行微调后，我们的模型的性能提高得越多。gydF4y2Ba

记录使用测试集(包括1500个样本)的所有型号的不同设备使用的时间，以进行效率评估。所有的基准测试都在测试集中运行一个转发的进程;结果显示在gydF4y2Ba表8gydF4y2Ba。我们的模型在所有基于bert的基准测试中实现了最高的效率:CPU时间为158.22秒，GPU时间为62.39秒。从表中，我们可以观察到CPU时间的效率提高大于GPU时间的效率提高。计算资源越有限，效率的提高就越大。结果表明，该方法具有较高的效率和较高的性能。虽然GRU和LSTM模型的效率优于我们的模型，但这些模型在准确率、召回率和F1分数方面的表现较差。gydF4y2Ba

表3。对原始数据和混合增强数据进行微调后各基准模型的比较。斜体表示最佳性能。gydF4y2Ba

模型gydF4y2Ba	数据gydF4y2Ba_生gydF4y2Ba				数据gydF4y2Ba_{数据+先生gydF4y2Ba}^{一个gydF4y2Ba}
	P,gydF4y2Ba^bgydF4y2Ba％gydF4y2Ba	R,gydF4y2Ba^cgydF4y2Ba％gydF4y2Ba	F1,gydF4y2Ba^dgydF4y2Ba％gydF4y2Ba	P, %gydF4y2Ba		R, %gydF4y2Ba	F1, %gydF4y2Ba
门控循环单元gydF4y2Ba	94.92gydF4y2Ba	93.04gydF4y2Ba	93.97gydF4y2Ba	95.9gydF4y2Ba		95.02gydF4y2Ba	95.46gydF4y2Ba
BiLSTMgydF4y2Ba^egydF4y2Ba	97.12gydF4y2Ba	95.99gydF4y2Ba	96.55gydF4y2Ba	97.53gydF4y2Ba		97.39gydF4y2Ba	97.46gydF4y2Ba
库伯特gydF4y2Ba^fgydF4y2Ba	98.55gydF4y2Ba	98.7gydF4y2Ba	98.63gydF4y2Ba	98.65gydF4y2Ba		98.85gydF4y2Ba	98.75gydF4y2Ba
Chinese-BERT-wwmgydF4y2Ba	98.35gydF4y2Ba	98.5gydF4y2Ba	98.43gydF4y2Ba	98.5gydF4y2Ba		98.90gydF4y2Ba	98.7gydF4y2Ba
Chinese-BERT-wwm-extgydF4y2Ba	98.4gydF4y2Ba	98.5gydF4y2Ba	98.45gydF4y2Ba	98.65gydF4y2Ba		98.90gydF4y2Ba	98.78gydF4y2Ba
Chinese-BERT-basegydF4y2Ba	82.92gydF4y2Ba	85.36gydF4y2Ba	84.12gydF4y2Ba	96.86gydF4y2Ba		97.05gydF4y2Ba	96.96gydF4y2Ba
Chinese-BERT-largegydF4y2Ba	95.42gydF4y2Ba	95.7gydF4y2Ba	95.56gydF4y2Ba	97.27gydF4y2Ba		96.57gydF4y2Ba	96.92gydF4y2Ba
PCL-MedBERTgydF4y2Ba	98.37gydF4y2Ba	99.08gydF4y2Ba	98.72gydF4y2Ba	98.36gydF4y2Ba		98.79gydF4y2Ba	98.58gydF4y2Ba
PCL-MedBERT-wwmgydF4y2Ba	98.42gydF4y2Ba	99.18gydF4y2Ba	98.8gydF4y2Ba	98.46gydF4y2Ba		98.89gydF4y2Ba	98.67gydF4y2Ba
我们的模型gydF4y2Ba	97.84gydF4y2Ba	98.6gydF4y2Ba	98.22gydF4y2Ba	98.7gydF4y2Ba		99.13gydF4y2Ba	98.91gydF4y2Ba

^{一个gydF4y2Ba}DAGA+MR:采用生成方法的数据增强和提及替换。gydF4y2Ba

^bgydF4y2BaP:精度。gydF4y2Ba

^cgydF4y2Ba接待员:召回。gydF4y2Ba

^dgydF4y2BaF1: F1得分。gydF4y2Ba

^egydF4y2Ba双向长短期记忆。gydF4y2Ba

^fgydF4y2BaBERT:来自变压器的双向编码器表示。gydF4y2Ba

表4。每个模型在不同数据集上微调的消融研究。斜体表示最佳性能。gydF4y2Ba

模型gydF4y2Ba	数据gydF4y2Ba_生gydF4y2Ba			数据gydF4y2Ba_{先生gydF4y2Ba}^{一个gydF4y2Ba}			数据gydF4y2Ba_{数据的gydF4y2Ba}^bgydF4y2Ba
	P,gydF4y2Ba^cgydF4y2Ba％gydF4y2Ba	R,gydF4y2Ba^dgydF4y2Ba％gydF4y2Ba	F1,gydF4y2Ba^egydF4y2Ba％gydF4y2Ba	P, %gydF4y2Ba	R, %gydF4y2Ba	F1, %gydF4y2Ba	P, %gydF4y2Ba	R, %gydF4y2Ba	F1, %gydF4y2Ba
门控循环单元gydF4y2Ba	94.92gydF4y2Ba	93.04gydF4y2Ba	93.97gydF4y2Ba	95.68gydF4y2Ba	94.2gydF4y2Ba	94.94gydF4y2Ba	94.64gydF4y2Ba	94.59gydF4y2Ba	94.61gydF4y2Ba
BiLSTMgydF4y2Ba^fgydF4y2Ba	97.12gydF4y2Ba	95.99gydF4y2Ba	96.55gydF4y2Ba	97.72gydF4y2Ba	97.15gydF4y2Ba	97.43gydF4y2Ba	97.14gydF4y2Ba	96.86gydF4y2Ba	97gydF4y2Ba
库伯特gydF4y2Ba^ggydF4y2Ba	98.55gydF4y2Ba	98.7gydF4y2Ba	98.63gydF4y2Ba	98.25gydF4y2Ba	98.6gydF4y2Ba	98.43gydF4y2Ba	98.6gydF4y2Ba	98.5gydF4y2Ba	98.55gydF4y2Ba
Chinese-BERT-wwmgydF4y2Ba	98.35gydF4y2Ba	98.5gydF4y2Ba	98.43gydF4y2Ba	98.5gydF4y2Ba	98.7gydF4y2Ba	98.6gydF4y2Ba	98.45gydF4y2Ba	98.7gydF4y2Ba	98.58gydF4y2Ba
Chinese-BERT-wwm-extgydF4y2Ba	98.4gydF4y2Ba	98.5gydF4y2Ba	98.45gydF4y2Ba	98.11gydF4y2Ba	98.7gydF4y2Ba	98.4gydF4y2Ba	98.8gydF4y2Ba	98.9gydF4y2Ba	98.85gydF4y2Ba
Chinese-BERT-basegydF4y2Ba	82.92gydF4y2Ba	85.36gydF4y2Ba	84.12gydF4y2Ba	88.37gydF4y2Ba	88.88gydF4y2Ba	88.63gydF4y2Ba	94.42gydF4y2Ba	95.7gydF4y2Ba	95.06gydF4y2Ba
Chinese-BERT-largegydF4y2Ba	95.42gydF4y2Ba	95.7gydF4y2Ba	95.56gydF4y2Ba	94.95gydF4y2Ba	96.42gydF4y2Ba	95.68gydF4y2Ba	97.53gydF4y2Ba	97.25gydF4y2Ba	97.39gydF4y2Ba
PCL-MedBERTgydF4y2Ba	98.37gydF4y2Ba	99.08gydF4y2Ba	98.72gydF4y2Ba	98.18gydF4y2Ba	98.89gydF4y2Ba	98.53gydF4y2Ba	98.7gydF4y2Ba	99.23gydF4y2Ba	98.96gydF4y2Ba
PCL-MedBERT-wwmgydF4y2Ba	98.42gydF4y2Ba	99.18gydF4y2Ba	98.8gydF4y2Ba	98.51gydF4y2Ba	98.99gydF4y2Ba	98.75gydF4y2Ba	98.94gydF4y2Ba	99.13gydF4y2Ba	99.03gydF4y2Ba
我们的模型gydF4y2Ba	97.84gydF4y2Ba	98.6gydF4y2Ba	98.22gydF4y2Ba	98.32gydF4y2Ba	99.03gydF4y2Ba	98.68gydF4y2Ba	98.18gydF4y2Ba	99.08gydF4y2Ba	98.6gydF4y2Ba

^{一个gydF4y2Ba}提到替换。gydF4y2Ba

^bgydF4y2BaDAGA:使用生成方法的数据增强。gydF4y2Ba

^cgydF4y2BaP:精度。gydF4y2Ba

^dgydF4y2Ba接待员:召回。gydF4y2Ba

^egydF4y2BaF1: F1得分。gydF4y2Ba

^fgydF4y2Ba双向长短期记忆。gydF4y2Ba

^ggydF4y2BaBERT:来自变压器的双向编码器表示。gydF4y2Ba

表5所示。使用不同的数据集对模型进行微调后，我们的模型在不同实体类型上的性能比较。斜体表示最佳性能。gydF4y2Ba

方法gydF4y2Ba	每gydF4y2Ba^{一个gydF4y2Ba}				疯狂的gydF4y2Ba^bgydF4y2Ba				ORGgydF4y2Ba^cgydF4y2Ba				DATgydF4y2Ba^dgydF4y2Ba
	P,gydF4y2Ba^egydF4y2Ba％gydF4y2Ba	R,gydF4y2Ba^fgydF4y2Ba％gydF4y2Ba	F1,gydF4y2Ba^ggydF4y2Ba％gydF4y2Ba	P, %gydF4y2Ba		R, %gydF4y2Ba	F1, %gydF4y2Ba	P, %gydF4y2Ba		R, %gydF4y2Ba	F1, %gydF4y2Ba	P, %gydF4y2Ba		R, %gydF4y2Ba	F1, %gydF4y2Ba
数据gydF4y2Ba_生gydF4y2Ba	99.21gydF4y2Ba	99.52gydF4y2Ba	99.36gydF4y2Ba	96.15gydF4y2Ba		95.24gydF4y2Ba	95.69gydF4y2Ba	97.06gydF4y2Ba		98.02gydF4y2Ba	97.54gydF4y2Ba	97.42gydF4y2Ba		98.55gydF4y2Ba	97.98gydF4y2Ba
数据gydF4y2Ba_{数据的gydF4y2Ba}^hgydF4y2Ba	99.37gydF4y2Ba	99.84gydF4y2Ba	99.6gydF4y2Ba	95.28gydF4y2Ba		96.19gydF4y2Ba	95.73gydF4y2Ba	96.43gydF4y2Ba		98.02gydF4y2Ba	97.22gydF4y2Ba	98.27gydF4y2Ba		99.23gydF4y2Ba	98.75gydF4y2Ba
数据gydF4y2Ba_{先生gydF4y2Ba}^我gydF4y2Ba	99.36gydF4y2Ba	99.36gydF4y2Ba	99.36gydF4y2Ba	94.44gydF4y2Ba		97.14gydF4y2Ba	95.77gydF4y2Ba	96.1gydF4y2Ba		97.69gydF4y2Ba	96.89gydF4y2Ba	98.75gydF4y2Ba		99.42gydF4y2Ba	99.08gydF4y2Ba
数据gydF4y2Ba_{数据+先生gydF4y2Ba}	99.84gydF4y2Ba	99.68gydF4y2Ba	99.76gydF4y2Ba	96.23gydF4y2Ba		97.14gydF4y2Ba	96.68gydF4y2Ba	97.39gydF4y2Ba		98.68gydF4y2Ba	98.03gydF4y2Ba	98.65gydF4y2Ba		99.13gydF4y2Ba	98.89gydF4y2Ba

^{一个gydF4y2Ba}PER:个人姓名。gydF4y2Ba

^bgydF4y2BaLOC:位置。gydF4y2Ba

^cgydF4y2BaORG:组织名称。gydF4y2Ba

^dgydF4y2BaDAT:日期。gydF4y2Ba

^egydF4y2BaP:精度。gydF4y2Ba

^fgydF4y2Ba接待员:召回。gydF4y2Ba

^ggydF4y2BaF1: F1得分。gydF4y2Ba

^hgydF4y2BaDAGA:使用生成方法的数据增强。gydF4y2Ba

^我gydF4y2Ba提到替换。gydF4y2Ba

表6所示。额外建立的训练集的符号和含义。gydF4y2Ba

符号gydF4y2Ba	意义gydF4y2Ba
	随机抽取的样本，占数据的10%gydF4y2Ba_生gydF4y2Ba。gydF4y2Ba
	随机选择的样本，包含50%的数据gydF4y2Ba_生gydF4y2Ba。gydF4y2Ba
^{a、bgydF4y2Ba}	混合数据gydF4y2Ba以及由DAGA和MR生成的整个数据集。gydF4y2Ba
	混合数据gydF4y2Ba以及随机抽取的由DAGA和MR生成的数据。gydF4y2Ba

^{一个gydF4y2Ba}DAGA:使用生成方法的数据增强。gydF4y2Ba

^bgydF4y2Ba提到替换。gydF4y2Ba

表7所示。TinyBERT在不同数据量上微调后的结果。gydF4y2Ba

数据量gydF4y2Ba	P,gydF4y2Ba^{一个gydF4y2Ba}％gydF4y2Ba	R,gydF4y2Ba^bgydF4y2Ba％gydF4y2Ba	F1,gydF4y2Ba^cgydF4y2Ba％gydF4y2Ba
	91.33gydF4y2Ba	95.26gydF4y2Ba	93.26gydF4y2Ba
	97.46gydF4y2Ba	98.36gydF4y2Ba	97.91gydF4y2Ba
^{d、egydF4y2Ba}	98.13gydF4y2Ba	98.89gydF4y2Ba	98.51gydF4y2Ba
	98.51gydF4y2Ba	99.08gydF4y2Ba	98.8gydF4y2Ba

^{一个gydF4y2Ba}P:精度。gydF4y2Ba

^bgydF4y2Ba接待员:召回。gydF4y2Ba

^cgydF4y2BaF1: F1得分。gydF4y2Ba

^dgydF4y2BaDAGA:使用生成方法的数据增强。gydF4y2Ba

^egydF4y2Ba提到替换。gydF4y2Ba

表8所示。基准模型的效率比较。gydF4y2Ba

模型gydF4y2Ba	CPUgydF4y2Ba^{一个gydF4y2Ba}时间,秒gydF4y2Ba	差异与我们的模型，%gydF4y2Ba	GPUgydF4y2Ba^bgydF4y2Ba时间,秒gydF4y2Ba	差异与我们的模型，%gydF4y2Ba
门控循环单元gydF4y2Ba	100.76gydF4y2Ba	-36.31gydF4y2Ba	56.45gydF4y2Ba	-9.52gydF4y2Ba
BiLSTMgydF4y2Ba^cgydF4y2Ba	98.61gydF4y2Ba	-37.68gydF4y2Ba	54.94gydF4y2Ba	-11.94gydF4y2Ba
库伯特gydF4y2Ba^dgydF4y2Ba	262.81gydF4y2Ba	39.8gydF4y2Ba	78.02gydF4y2Ba	20.03gydF4y2Ba
Chinese-BERT-wwmgydF4y2Ba	259.96gydF4y2Ba	39.16gydF4y2Ba	78.07gydF4y2Ba	20.08gydF4y2Ba
Chinese-BERT-wwm-extgydF4y2Ba	263.23gydF4y2Ba	39.89gydF4y2Ba	77.64gydF4y2Ba	19.64gydF4y2Ba
Chinese-BERT-basegydF4y2Ba	220.93gydF4y2Ba	28.38gydF4y2Ba	76.28gydF4y2Ba	18.21gydF4y2Ba
Chinese-BERT-largegydF4y2Ba	698.99gydF4y2Ba	77.36gydF4y2Ba	117.05gydF4y2Ba	46.7gydF4y2Ba
PCL-MedBERTgydF4y2Ba	261.53gydF4y2Ba	39.5gydF4y2Ba	76.44gydF4y2Ba	18.38gydF4y2Ba
PCL-MedBERT-wwmgydF4y2Ba	260.38gydF4y2Ba	39.23gydF4y2Ba	78.02gydF4y2Ba	20.03gydF4y2Ba
我们的模型gydF4y2Ba	158.22gydF4y2Ba	N/AgydF4y2Ba^egydF4y2Ba	62.39gydF4y2Ba	N/AgydF4y2Ba

^{一个gydF4y2Ba}CPU:中央处理器。gydF4y2Ba

^bgydF4y2BaGPU:图形处理单元。gydF4y2Ba

^cgydF4y2Ba双向长短期记忆。gydF4y2Ba

^dgydF4y2BaBERT:来自变压器的双向编码器表示。gydF4y2Ba

^egydF4y2Ba-不适用。gydF4y2Ba

案例研究gydF4y2Ba

为了直观地验证我们提出的方法的有效性，我们使用案例研究作为示例，如下所示gydF4y2Ba图4gydF4y2Ba。在情况1中，在对原始数据进行微调后，我们的模型错误地将数字“009942”从“O”类型分类为data类型。在对混合增强数据集进行微调后，这一问题得到了纠正。在案例2中，当我们的模型在原始数据上进行微调时，没有识别出应该具有ORG类型的实体“白血病基金”。然而，在对混合数据集进行微调之后，我们的模型能够通过上下文语义修改这个结果。这些案例研究证明了混合数据增强方法的有效性。gydF4y2Ba

图4。在混合增广数据集上对模型进行微调的结果示例。DAT:日期;组织;组织名称;DAGA:采用生成方法的数据增强;提到替换。gydF4y2Ba

本文的主要贡献有:(1)描述了一个结合TinyBERT和CRF模型的新的高效模型来识别中文电子病历中的PHI;(2)描述了一种基于句子生成策略和MR策略的混合数据增强方法，用于增强中文电子病历;(3)报告我们提出的方法在性能和效率上都优于其他基准方法。这可能有两个原因。首先，TinyBERT的注意机制和CRF模型的最优搜索策略保证了我们的模型能够很好地学习文本的全局特征，并且轻量级的参数保证了模型在训练过程中不会出现过拟合。其次，DAGA生成更多多样性更小噪声的训练数据，增加数据分布的先验知识进行学习。MR策略随机替换句子中的实体，从不同角度学习实体的表示，提供了更丰富的上下文信息。模型对原始数据进行微调后的性能越差，对混合增强数据集进行微调后的性能改进就越大。此外，我们的模型对数据的训练曲线gydF4y2Ba_生gydF4y2Ba和数据gydF4y2Ba_{数据+先生gydF4y2Ba}都显示在gydF4y2Ba图5gydF4y2Ba。这说明我们的模型在训练过程中收敛速度很快，大大降低了训练成本。gydF4y2Ba

此外，我们执行了一个分析，以确定为什么在对数据进行微调后，一些基线方法的性能会下降gydF4y2Ba_生gydF4y2Ba或数据gydF4y2Ba_{数据的gydF4y2Ba}。我们发现，一方面，数据的稀疏性可能会带来一些缺点gydF4y2Ba_{数据的gydF4y2Ba}，这阻碍了模型关注句子中有用的上下文语义信息的能力，损害了特征提取。另一方面，将MR策略应用于原始数据集往往会产生重复数据，这可能导致训练过程中的过拟合。这两个缺点对中国bert -large模型的影响更大，因为该模型有更多的变压器和参数，因此对数据干扰更敏感[gydF4y2Ba25gydF4y2Ba]。然而，混合增强数据不能保证我们的模型在每一种实体上的性能都得到提高，尽管在整体测试集上的性能仍然得到了提高。此外，预训练数据集对下游任务有很大的影响。虽然在英语语料库上对基础BERT进行了预训练，但其性能明显优于中文BERT基础。中文- bert -base和中文- bert -large分别使用包括单词、字形和拼音信息在内的中文单词信息进行预训练。在我们的实验中，我们只使用单词信息对这些模型进行微调，就像其他基于bert的模型一样，并发现这会导致数据的严重性能下降gydF4y2Ba_生gydF4y2Ba。gydF4y2Ba

我们建议的模型的输入是结构化数据，需要从原始收集的数据中正确地准备这些数据。虽然我们采用了BERT模型来提高标注过程的效率，但这种方法对不同语言的电子病历的泛化性尚未得到证明。此外，位置信息可能与疾病类型相关，尽管我们在本文中没有具体评估PHI去识别对临床数据挖掘的影响。gydF4y2Ba

本文提出了一种结合TinyBERT和CRF模型的高效模型，用于中文电子病历中PHI的识别。该模型减轻了以往模型对计算资源的高度依赖，提高了任务的效率。为了克服标注数据不足的限制，我们提出了一种混合数据增强方法，该方法使用生成方法和MR策略来创建新的数据集以对模型进行微调。我们的实验结果表明，我们的模型性能优于基准模型，也是所有实验基准模型中效率最高的模型。gydF4y2Ba

图5。我们的模型在(A)原始数据集和(B)混合增强数据集上的训练曲线。gydF4y2Ba

致谢gydF4y2Ba

国家重点研发计划项目(2018YFC0116702、2018YFB2101204)资助。gydF4y2Ba

数据可用性gydF4y2Ba

本研究中使用和分析的数据集可根据第一作者的合理要求向其提供。gydF4y2Ba

作者的贡献gydF4y2Ba

PW, YongL, LY和CW领导了该方法的应用，进行了实验，并对结果进行了分析。SL, LL, ZZ, SL, FW, HW, YingL参与数据提取和预处理。YongL和CW参与了稿件的修改。LL提供理论指导，修改稿件。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

Stubbs A, Uzuner Ö。注释纵向临床叙事去认同:2014年i2b2/UTHealth语料库。生物医学通报2015年12月;58增刊:S20-S29 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Stubbs A, Filannino M, Uzuner Ö。精神科入院记录的去识别化:2016年CEGS N-GRID共享任务综述[J]中国生物医学杂志，2017年11月;45 (5):591 - 591 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
郭勇，刘建军，刘建军，刘建军。基于支持向量机的个人健康信息识别。2006年发表于:i2b2研讨会论文集:临床数据自然语言处理的挑战;2006年11月10日至11日;华盛顿特区，第10-11页。gydF4y2Ba
Thomas SM, Mamlin B, Schadow G, McDonald C.一种使用增强搜索和替换方法在病理报告中删除姓名的成功技术。Proc AMIA Symp 2002:777-781 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
李建军，李建军，李建军，等。自由文本医疗记录的自动去识别。中华医学杂志，2008;8(1):32-17 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
赵忠，杨敏，唐斌，赵涛。基于规则的电子健康记录去识别方法的再检验:算法开发与验证。中华医学杂志，2010;8(4):562 - 562 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
古普塔D, Saul M, Gilbertson J.一个去识别(De-Id)软件引擎的评估，以共享病理报告和临床文件的研究。中华临床病理学杂志2004;21(2):176-186。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
李涛，李建军，李建军。基于支持向量机的疾病命名实体识别方法。2008年发表于:生物医学自然语言处理当前趋势研讨会论文集;2008年6月19日至24日;哥伦布市哦。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
吴志强，王志强，王志强，等。自动去识别技术研究进展[j]。中华医学杂志，2007;14(5):563 -563 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Li M, Scaiano M, El Emam K, Malin BA。电子病历去标识化的高效主动学习。[j]中国科学:自然科学进展，2019;19 (3):462-471 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
简志，郭鑫，刘生，马宏，张生，张荣，等。中文临床文本去识别的级联方法。[J]中国生物医学工程学报，2017;33 (3):591 - 591 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
杜丽，夏超，邓志，陆刚，夏松，马军。基于机器学习的中文临床文本健康信息保护识别方法。国际医学杂志2018年8月;116:24-32。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
张勇，王旭，侯铮，李军。基于机器学习的中文电子病历临床命名实体识别方法。中华医学杂志2018年12月17日;6(4):e50 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
三泽，谷口，三浦，等。基于字符的双向LSTM-CRF的日语命名实体识别。2017年发表于:第一届NLP子词字符级模型研讨会论文集;2017年9月7日;丹麦哥本哈根。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
李建军，李建军，李建军。基于递归神经网络的患者病历去识别。医学信息学报，2017,01;24(3):596-606 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
张勇，甘志，范凯，陈志，何高荣，沈东，等。文本生成的对抗性特征匹配。2017年发表于:第34届国际机器学习会议论文集;2017年8月6日至11日;澳大利亚悉尼。gydF4y2Ba
王佳伟，辛伟，王文伟。摘编:一种替代反翻译的无监督神经机器翻译。2019年发表于:计算语言学协会北美分会2019年会议记录:人类语言技术;2019年6月2-7日;明尼阿波利斯、锰。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
李建军，李建军。基于深度学习的健康信息检测方法研究。JMIR Form Res 2020 May 05;4(5):e14064 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
唐斌，姜东，陈强，王欣，严军，沈勇。基于神经语言模型的Bi-LSTM-CRF临床文本去识别。中国生物医学工程学报，2019;19 (2):857-863 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
马晓东，李晓东。基于lstm - cnn - crf的端到端序列标记。arXiv Preprint于2016年5月29日在线发布。gydF4y2Ba
郑林，郭华，李建平，何德。预训练在什么情况下有帮助?评估法律的自我监督学习和CaseHOLD数据集。2021年发表于:第18届人工智能与法律国际会议论文集;2021年6月21日至25日;巴西圣保罗。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
贾晓琪，杨一春，孙立峰，金鑫，陈晓，李琳琳，等。TinyBERT:将BERT提炼成自然语言理解。2020年发表于:2020年自然语言处理经验方法会议论文集;2020年11月16日至20日;蓬塔卡纳，多米尼加共和国。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
邓伯生，李琳琳，B立东，kcanasai, tien HN, Shafiq J，等。DAGA:为低资源标记任务提供生成方法的数据增强。2020年发表于:2020年自然语言处理经验方法会议论文集;2020年11月16日至20日;蓬塔卡纳，多米尼加共和国。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
魏军，邹坤达:提高文本分类任务性能的简单数据增强技术。2019年发表于:自然语言处理经验方法论文集;2019年10月3日至7日;中国香港。gydF4y2Ba
A.条件随机场概论。参见:机器学习的基础和趋势。诺威尔，麻萨诸塞州:Now Publishers;2012:267 - 373。gydF4y2Ba
Devlin J, MingWei C, Kenton L, Toutanova K. BERT:基于深度双向变换的语言理解预训练。2019年发表于:计算语言学协会北美分会2019年会议记录:人类语言技术;2019年6月2-7日;明尼阿波利斯、锰。gydF4y2Ba
戴欣，阿德尔华。命名实体识别的简单数据增强分析。2020年发表于:第28届计算语言学国际会议论文集;2020年12月8-13日;西班牙巴塞罗那。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
张建军，张建军。基于语义的结构化预测方法研究。2005年发表于:第25届人工智能发展协会会议论文集;2005年7月9日至13日;宾夕法尼亚州匹兹堡。gydF4y2Ba
卢戈弗。减少分类系统中算子标注工作量的混合主动学习。模式识别2012年2月;45(2):884-896。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
胡志恒，肖伟，叶凯。基于LSTM-CRF的双向序列标注模型。arXiv Preprint于2015年8月9日在网上发布。gydF4y2Ba
赵k, van Merrienboer B, Gulcehre C, Bahdanau D, Bougares F, Schwenk H，等。使用RNN编码器学习短语表示用于统计机器翻译。2014发表于:第14届自然语言处理经验方法论文集;2014年10月25-29日;多哈,卡塔尔。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
崔勇，车伟，刘涛，秦波，杨铮。基于全词掩蔽的中文BERT预训练。IEEE/ACM Trans Audio Speech Lang Process 2021;29:3504-3514。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
孙子军，李晓雅，孙晓飞，王玉贤，李翔，何庆，等。Chinese bert:基于字形和拼音信息的中文预训练。2021年发表于:第59届计算语言学协会年会暨第11届国际自然语言处理联合会议;2021年8月8日至14日;曼谷,泰国。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
PCL-MedBERT。Pengcheng实验室。URL:gydF4y2Bahttps://code.ihub.org.cn/projects/1775gydF4y2Ba[2022-08-09]访问gydF4y2Ba

‎gydF4y2Ba

伯特:gydF4y2Ba来自变压器的双向编码器表示gydF4y2Ba

CPU:gydF4y2Ba中央处理机gydF4y2Ba

CRF:gydF4y2Ba条件随机场gydF4y2Ba

数据:gydF4y2Ba使用生成方法的数据增强gydF4y2Ba

DAT:gydF4y2Ba日期gydF4y2Ba

电子健康档案:gydF4y2Ba电子健康记录gydF4y2Ba

GPU:gydF4y2Ba图形处理单元gydF4y2Ba

格勒乌:gydF4y2Ba门控循环单元gydF4y2Ba

KD:gydF4y2Ba知识蒸馏gydF4y2Ba

LOC:gydF4y2Ba位置gydF4y2Ba

LSTM:gydF4y2Ba长短期记忆gydF4y2Ba

先生:gydF4y2Ba提到替换gydF4y2Ba

尼珥:gydF4y2Ba命名实体识别gydF4y2Ba

ORG:gydF4y2Ba组织名称gydF4y2Ba

/:gydF4y2Ba个人的名字gydF4y2Ba

φ:gydF4y2Ba受保护的健康信息gydF4y2Ba

RNN:gydF4y2Ba循环神经网络gydF4y2Ba

C·洛维斯编辑;提交21.03.22;李旭，刘彦，李忠;对作者的评论25.05.22;修订版本收到19.07.22;接受31.07.22;发表30.08.22gydF4y2Ba

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到https://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。gydF4y2Ba

本文内容如下gydF4y2Bae-collection /主题问题:gydF4y2Ba

中文电子病历中受保护健康信息的有效识别方法:算法开发与验证gydF4y2Ba

中文电子病历中受保护健康信息的有效识别方法:算法开发与验证gydF4y2Ba

原始论文gydF4y2Ba

通讯作者:gydF4y2Ba

摘要gydF4y2Ba

关键字gydF4y2Ba

介绍gydF4y2Ba

背景gydF4y2Ba

相关工作gydF4y2Ba

客观的gydF4y2Ba

方法gydF4y2Ba