本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/26407,首次出版
药品不良事件记录中中文名称实体识别:双向长短期条件随机场(Bi-LSTM-CRF)模型中基于激进嵌入-结合动态嵌入的BERT

药品不良事件记录中中文名称实体识别:双向长短期条件随机场(Bi-LSTM-CRF)模型中基于激进嵌入-结合动态嵌入的BERT

药品不良事件记录中中文名称实体识别:双向长短期条件随机场(Bi-LSTM-CRF)模型中基于激进嵌入-结合动态嵌入的BERT

原始论文

1中国药科大学理学院,南京,中国

2中国药科大学基础医学与临床药学学院,南京

3.金陵职业技术学院计算机工程学院,中国南京

4南京鼓楼医院药剂科,中国南京

5南京医科大学附属南京第一医院临床药理学科,中国南京

6岐阜药科大学药物信息学实验室,日本岐阜

通讯作者:

廖军博士

理学院

中国药科大学

龙面大街639号

江宁区

南京,211198年

中国

电话:86 13952040425

电子邮件:liaojun@cpu.edu.cn


背景:随着药物种类的增加,药物不良事件(ADEs)的发生率逐年增加。电子病历和药品不良反应报告中记录了大量的不良事件,是潜在不良反应信息的重要来源。同时,自动获取潜在不良反应信息对于更好地进行上市后药物安全性再评价和药物警戒至关重要。

摘要目的:本研究描述如何从中国ADE报告中识别adr相关信息。

方法:我们的研究建立了一个高效的自动化工具,名为BBC-Radical。BBC-Radical是一个由三个部分组成的模型:来自变压器的双向编码器表示(BERT)、双向长短期存储器(bi-LSTM)和条件随机场(CRF)。该模型从中国ADR报告中识别ADR相关信息。汉字的符号特征和词根特征被用来表示一组词的共同含义。BERT和Bi-LSTM-CRF是结合这些特征的新模型,在2010年至2016年江苏省药物不良反应监测中心24,890份ADR报告的自由文本部分中进行命名实体识别(NER)任务。此外,设计了鼓楼医院ADE记录的人机对比实验,比较bc - radical模型与人工方法的NER性能。

结果:NER模型具有较高的性能,其精密度为96.4%,召回率为96.0%,F1评分为96.2%。这表明,BBC-Radical模型在各类实体识别任务中的表现(精密度87.2%,召回率85.7%,F1分数86.4%)远好于人工方法(精密度86.1%,召回率73.8%,F1分数79.5%)。

结论:本文提出的模型在从ADR报告中提取ADR相关信息方面具有一定的竞争力,结果表明,应用我们的方法提取ADR相关信息对提高ADR报告质量和上市后药品安全性评价具有重要意义。

JMIR Med Inform 2021;9(12):e26407

doi: 10.2196/26407

关键字



药物不良反应是影响药物疗效和安全性的重要因素,有时甚至可能危及生命。[1].这些安全问题被记录为药物不良事件(ADEs),并报告给一个特殊的系统,如自发报告系统,该系统从广泛的来源接收信息,如医院、小诊所、药房、药品制造商、监督部门和个人[2].因此,收集和分析药品不良反应报告中记录的不良事件,为药品安全监管提供了重要内容[3.].ADR报告的常规应用主要集中于结构化部分的直接统计分析[45],而自由文本部分由于非结构化的格式而没有得到充分利用。非结构化部分主要描述了不良反应的发生过程,为监管部门评估潜在的不良反应提供参考。它涉及大量的手工阅读和审查步骤中的判断过程,这降低了评估的效率,增加了错误。因此,开发一种自动提取工具,从中国药品不良反应记录中提取非结构化的药品不良反应相关信息,对于提高药品不良反应报告质量和上市后药品安全性评价至关重要。

除了自然语言处理(NLP)之外,命名实体识别(NER)是信息提取的主要任务,其目的是将非结构化内容转换为结构化信息。在NLP领域,Word2Vec等词向量方法[6-8]对文本进行长时间的编码,可能对后续的NLP任务的改进有限,无法解决一词多义问题[910].最近,大量的预训练语言模型[11-13],而BERT (Bidirectional Encoder representation from Transformers)在与特定的领域数据集进行调整时,可以极大地提高与领域相关的NLP任务的性能。生物医学文本挖掘的BERT [14]在大规模生物医学语料库上进行预训练,在生物医学NER任务、生物医学关系提取任务和生物医学问答任务上优于BERT。及临床NER (CNER) [15]还在从互联网上抓取的大量中国临床文献资源上对BERT模型进行了预训练。考虑到本研究的adr背景,我们还收集了adr数据集,并在这个大型无标签中文adr相关语料库上对BERT进行了微调。至于NER任务,从早期基于字典的[16]和基于规则的方法[17]到传统的机器学习方法[18]以及基于深度学习的方法,双向长短期记忆(bi-LSTM)和条件随机场(CRF)在NER任务中得到了广泛的应用。魏等[19]通过支持向量机将CRF模型的结果与双向递归神经网络(bi-RNN)的结果进行融合,最终得到了比单独使用CRF或bi-RNN模型更高的F1分数。LSTM和CRF的混合模型由Lample等提出[20.],并在多项NER研究中表现突出,成为近年来最受欢迎的NER模型。

因此,在我们的研究中,我们创建了一个新的模型BERT-Bi-LSTM-CRF-Radical (BBC-Radical),该模型以标记特征和激进特征为输入,使用Bi-LSTM-CRF模型准确识别句子中的目标实体。为了更好地验证模型在现实世界中的性能,我们根据鼓楼医院2016 - 2019年记录的ADEs设计了人机对比实验。我们发现我们的方法具有优异的性能和效率(精密度:87.2%;回忆:85.7%;F1得分:86.4%)与手工法(精密度:86.1%;回忆:73.8%;F1分数:79.5%)。自动提取的ADR相关实体可以进一步联合作为ADR评估的资源。总的来说,我们的研究提出了一种从中国ADE报告中识别adr相关信息的新方法。


研究组件

在我们的研究中,该模型在江苏省ADR监测中心2010-2016年中国ADE报告的自由文本部分中执行了NER任务。根据ADR案例的原始内容和结构特点,结合其他相关研究语料库标注过程,建立本研究的标注规则和标注工具,识别语料库标注各部分之间的实体和实体关系。此外,基于鼓楼医院记录的ADE进行人机对比实验,验证模型中新数据的外推性和鲁棒性。图1显示了我们研究的管道。整个研究可分为三个部分:(1)训练NER模型。基于BERT和令牌特征(粉红色方框)和激进特征(绿色方框)组合的数据表示模型被输入Bi-LSTM-CRF模型。然后,(2)利用真实的外部数据验证模型性能,(3)设计人机对比实验,比较人工提取方法和深度学习方法对NER任务的效率和准确性。

图1。我们研究中的管道;在训练命名实体识别(NER)模式时,将基于BERT模型的数据表示模型以及令牌特征(粉红色方框)和基元特征(绿色方框)的组合输入双向长短期记忆条件随机场(bi-LSTM-CRF)模型。ADR:药物不良反应,BBC-Radical: BERT-Bi-LSTM-CRF-Radical。
查看此图

数据集和数据注释

一份ADR报告通常可以分为两部分:结构化部分和自由文本部分。本文使用的数据来自2010-2016年江苏省药品不良反应监测中心中国药品不良反应报告的非结构化部分。中国ADE报告的自由文本部分是ADE程序的叙述内容,通常包括ADE的过程、解决方案和结果,以及用于产生或退化ADE的药物的原因,以一句话或多句的形式,其中可能包括结构化部分未记录的一些信息。因此,我们应用NER技术从这些文本中自动提取实体,可作为ADR评估的辅助工具。

我们从中国ADR报告的自由文本部分手动注释了24,890例病例,这些病例已在[21].为了涵盖大多数案例,只标注了3个实体(“原因”、“药物”和“ADR”),其他一些频率较低的实体未被考虑在内。实体的注释规则和示例显示在表1

表1。实体标注的定义、标注规则和实例。
实体和注释规则 例子
原因一个

与吸毒有关的症状或疾病状态 糖尿病、发烧
药物治疗与使用药物有关的治疗 术后发热
药物b

药品的通用名称 左氧氟沙星
药品商品名称 立普妥
药物缩写 10% gs, 0.9% ns
美国存托凭证a、c

用药期间或用药后的不良反应 腹痛

一个疾病和不良反应的定义和分类参考国际医学规范活动词典(MedDRA)。

b“药品”实体包含药品的通用名称、商品名称、缩写和剂型。

cADR:药物不良反应。

NER的输入表示

为提高标注工作效率,标注案例采用高效工具标注[2122].我们在句子的开头使用了一个特殊的[CLS],使用[SEP]来分隔片段或表示序列的结束,并在句子的末尾添加了[PAD]标记,使它们的长度等于最大序列长度。最终获得有效注释案例24,890例,其中中国ADR报告实体147,451个。

BBC-Radical方法

图2B显示了基于BERT的数据表示模型,该模型将每个单词的对应标记、段和位置嵌入作为输入图2C.每个令牌的上下文嵌入可以从BERT模型的输出中获得,BERT模型是下一个NLP任务的令牌特征输入。

图2。(A)我们提出的模型的架构图,其中令牌特征(粉色方框)和激进特征(绿色方框)的组合被馈送到双向长短期记忆条件随机场(Bi-LSTM-CRF)模型中;(B)基于BERT (Bidirectional Encoder representation from Transformers)模型的数据表示模型,其中黄框中的[E_1, E_2, E_3…E_n]序列为BERT模型的输入,绿色椭圆表示Transform块;(C)构造BERT的输入序列表示,其中输入由标记嵌入、段嵌入和位置嵌入组成。
查看此图

由于本研究使用的语料库具有高度的领域特异性,我们还收集了江苏省ADR监测中心2010 - 2016年近461,930条ADE记录,以提高领域特异性词表示的精度。这些记录主要来自医院和药房的医务人员以及制药公司的随访记录。提交机构和记者的多样性丰富了样本,使数据源的语言特征更加复杂。为了对BERT进行微调,我们首先生成一个带有临床文本的预训练数据(tfrecord文件)文件。然后,我们在原始语言模型(BERT)的现有BERT检查点的预训练文件上预训练我们的微调BERT模型BASE-Chinese-uncased).一旦完成了微调过程,我们就得到了一个TensorFlow模型,它被转换为PyTorch模型,用于进一步的NER任务。

根号是从许多汉字中提取出来的一种常见的形式,使这些汉字不仅在形式上有了分类的基础,而且在词义上也成为了一个共同的属,有助于人们概括词义。因此,偏旁的意思对于人们掌握一个词的意思是非常重要的。此外,近年来,汉字的词根特征已被广泛用于增强不同的中文NLP任务[23-25];因此,除了考虑汉字本身,我们还考虑将激进特征应用到模型中。我们的NER模型的整体网络架构显示在Bi-LSTM-CRF中图2A.在我们的研究中,序列中的每个令牌都被输入到经过微调的BERT模型中,以训练整个序列的数据表示。在获得整个序列的表示之后[T1T2T3.,……Tn]时,我们寻找序列中每个单词的词根,并用随机值初始化每个词根来表示词根特征。连接x= (w_1,w_2,w、……w4]的词向量和基向量分别输入Bi-LSTM模型,将前向LSTM层和后向LSTM层学习到的上下文向量传输到CRF层,计算相应的概率值,同时预测标签。我们的NER方法在Bi-LSTM-CRF中的细节见多媒体附件1.我们还为NER任务实现了3个基线,如下所示:

  1. crf++是知名的CRF开源工具,也是目前综合性能最好的CRF工具。
  2. 将Word2Vec训练的输入表示作为输入的Bi-LSTM-CRF模型用作基线。
  3. 同时还使用了没有在特定领域语料库上进行BERT微调的联合模型——BBC-Radical模型(BERT + Bi-LSTM-CRF-Radical)作为基线。模型结构和实验设置与我们提出的模型相同。

实验设置

所有模型都在NVIDIA Tesla V100 GPU上训练,使用PyTorch框架,具有768 GB内存。在我们的NER模型的微调BERT中,句子的最长长度可以设置为512。为了保持句子信息的完整,当长度超过512个标记时,多余的部分被分割成另一个句子,直到所有分割出来的句子都满足长度约束。我们训练模型的批大小为16,bi-LSTM的隐藏单元为128,我们还使用了激进嵌入,初始化为20个随机值。我们也将初始学习率设置为5105在亚当优化器中。

评价指标

结果使用微观平均F1评分= (2公关) / (P+R),P表示精度和R代表回忆。在我们的研究中,我们遵循在开始和结束边界处定义的严格匹配规则,提取结果引用与ground truth相同的实体类型。

发现

在NER任务中,分别从标注案例中随机选取15000例和8000例作为训练集和测试集,其余1890例作为验证集,用于验证模型在训练过程中的泛化能力。为了更好地评估模型,我们运行了我们提出的模型和第三个基线模型10次,保持所有其他参数不变,除了采样的训练数据。用每个估值指标的平均值来表示预测结果表2

表2。中国药品不良反应报告自由文本部分的整体概念提取表现。
模型 精密度(%),平均值(SD) 召回率(%),平均值(SD) F1分数(%),平均值(SD)
CRF一个+ + (21 94.4 (0.32) 93.1 (0.28) 93.9 (0.08)
Word2Vec + Bi-LSTMbcrf (21 94.6 (0.33) 94.1 (0.30) 94.4 (0.29)
伯特c+ Bi-LSTM-CRF-Radical 95.2 (0.07) 95.2 (0.07) 95.2 (0.06)
BERT + Bi-LSTM-CRF微调 96.0 (0.05) 95.5 (0.08) 96.0 (0.06)
BBC微调d激进的 96.4 (0.04) 96.0 (0.03) 96.2 (0.04)

一个CRF:条件随机场。

bBi-LSTM:双向长短期记忆。

cBERT:来自变压器的双向编码器表示。

d英国广播公司:BERT-Bi-LSTM-CRF。

CRF是一种对序列数据进行标记和分割的概率结构模型。由Word2vec表示的词向量模型的明显缺点是它与上下文无关,这导致同一个词在不同的上下文中具有相同的含义。因此,无论是crf++还是第二个基线模型在我们的NER任务中都做得很好。第三行表2表示结合了原始BERT和Bi-LSTM-CRF-Radical模型的模型,并且我们提出的bc - radical模型中的BERT模型在特定领域的语料库上进行了微调。结果在第四行表2也显示了在NER任务中自由基嵌入的贡献。本研究提出的模型F1得分为96.2%,优于4个基线模型。结果表明,BERT在获取更多文本信息方面发挥着重要作用,我们在特定域上预先训练的BERT可以显著提高实体提取的性能。

我们提出的方法在所有实体类型上都优于其他方法,其中“Drug”实体F1得分最高,“Reason”实体F1得分最低(图3).这可以从各个实体的定义中看出,其中“原因”实体不仅包括传统的疾病和症状,还包括一些与药物使用有关的其他治疗方法,以及它们的身体部位和毗邻的形容词,而“药物”和“不良反应”的定义相对简单。由于规则的定义或注释比较多样化,模型的错误率也比较高。不同类型实体概念的重叠是“理由”与“ADR”错误认识的另一个原因。例如,在ADR报告中,“原因”的实体总是与症状的口语化表达一起记录。当“厌食症”被记录为“从来不想吃东西”时,很难识别“厌食症”的“原因”。对于“药品”的实体,我们发现很难识别不常用的商品名称,一些英文缩写,以及一些由特殊字符组成的中药。

图3。(A)原因、(B)药品、(C)药品不良反应(ADR)各实体的精密度、召回率、F1评分。CRF:条件随机场;BERT:变压器的双向编码器表示;bi-LSTM:双向长短期记忆。
查看此图

验证结果

外部验证数据集的人机对比

人机对抗技术作为人工智能研究的前沿方向,一直是人工智能研究的热点。人工智能的研究主要以人机对抗的形式进行,为探索机器智能的内在成长机制和关键技术原理提供了良好的实验环境和验证方法。整个过程不仅可以使机器更智能地为人类服务,还可以将人类从一些复杂的任务中解放出来。为了进一步验证,我们选择了2016 - 2019年南京大学医学院鼓楼医院医生记录的2479份ADE报告,并验证了我们提出的模型,对不良事件的描述文本进行NER实验。2479例案例经专业培训后,由10名医院药学专业学生制作基础真相,历时2周进行4轮标注(包括1轮预标注、2轮正式标注、1轮标注修正)。注释的规则与注释训练集的规则相同。为了进一步说明本文实体识别模型的优点,我们设计了一个人机对比实验。实际情况是,医院每年向ADR中心上报ade,不良反应中心的工作人员需要对不符合标准的报告进行审核并退回。因此,医院上报的ADR与ADR监测中心数据的识别表现存在一定差异。对于手工法,我们额外邀请了5名药学专业的学生参与实验。 Under the guidance of the ADR supervisor, the 5 students were required to complete the entity extraction of the assigned data by manual search within 2 weeks after training. Since manual entity extraction is time-consuming and laborious, we only had 2 rounds of marking, and finally, we obtained the results of manual entity extraction. The results of the Man-Machine comparison to the external validation data are shown in多媒体附件2

人机对比结果比较

在预处理之后,将验证数据输入到我们的模型中进行预测,并在中提供预测结果的性能图4(浅蓝色、灰色和蓝色条)。从实体类别来看,当目标实体“Reason”仅定义为“Disease”时,该实体的识别准确率相对较好[26],而我们对“原因”的定义也包含了其他与吸毒有关的治疗和症状。陶等[27]执行了“Reason”和其他医学相关实体的NER任务,结果“Reason”的F1分值仅为40.9%;“理性”的F1分数是74.3%。图4(橙色、黄色和绿色条)还显示了手动提取方法的结果。在NER任务中,手动方法的精密度为86.1%,召回率为73.8%,F1分数为79.5%。因此,人工提取实体不仅效率低,而且准确率低,特别是实体“Reason”的识别。由于每次实验中“药品”实体的名称规范,“药品”实体提取的准确性相对较高,而“原因”和“ADR”实体的提取也受到文档不规范的负面影响。

图4。人机对比对比。ADR:药物不良反应。
查看此图

图4, F1分数仅为42.4%,在“Reason”的识别中召回率极低,远低于我们的深度学习方法。一个可能的原因是,当手动识别“reason”实体时,由于人力注意力和准确性有限,许多实体都没有被识别出来。同时,通过对比,我们发现BBC-Radical模型对其他实体的识别F1分数也比人工识别方法好得多。深度学习作为一种特殊的机器学习方法,可以从数据样本中自动提取特征,减少了构建人工特征的过程,对于处理大型数据集更有优势。


主要研究结果

在我们的研究中,我们开发了一种针对中国ADE记录的领域特定NER方法。从文本中提取生物医学实体及其相互关系对生物医学研究具有重要的应用价值。在日常实际工作中,运用NER方法从中国ADE报告的自由文本中准确提取实体信息,可以大大简化ADR监测中心工作人员的审批工作,提高ADE报告的质量。除了使用医疗报告来检测不良反应外,有人建议使用社交媒体的数据[28,因为用户倾向于在社交媒体平台上讨论他们的疾病、治疗方法、处方药及其影响。例如,当Cocos等人[29]及谢等[30.]使用字典匹配从社交媒体中提取ADR实体,分别使用CRF和bi-LSTM模型,它们有助于减少被动报告系统的局限性。此外,生物医学文献中化学参考文献的自动检测是进一步生物医学文本挖掘的重要步骤,近年来受到了广泛关注。除了使用单一模型进行训练外,Zeng等人[31]和罗等[32]在整合bi-LSTM和CRF分别从文本中提取药物实体和化学物质实体时,获得了较高的F1分数。使用单个CRF + +的基线模型的性能也证明了单个CRF模型劣于BI-LSTM-CRF模型。由于bi-LSTM和CRF混合模型的优异性能,我们也将bi-LSTM和CRF混合模型架构应用于我们提出的模型的实体抽取层。

大多数基于深度学习的NLP任务可以分为以下3个模块:数据处理、文本表示和特定任务模型。Word2Vec、GloVe和BERT是很好的文本表示模型,在不同的NER模型中被广泛使用。陈等[21在使用Word2Vec和Bi-LSTM-CRF从中国ADR报告的自由文本部分提取命名实体时,]获得了较高的F1分。然而,Chen等人[21]在输入层使用Word2Vec生成数据表示,这对后续的NLP任务改善有限,无法解决一词多义问题。在中文文本中,张等[33]使用预先训练的BERT模型提取乳腺癌相关实体,该模型是在大规模、未标记的中文临床文本语料库上训练的。然而,他们在这个领域预先训练的BERT针对的是乳腺癌,而不是一般的医疗记录。在我们的研究中,我们也建立了基于领域特定的BERT模型的深度神经网络算法,我们的模型证明了在相同的训练集设置下,NER在ADE文本上的竞争表现,F1分数更高。从人机对比实验的结果来看,我们提出的方法与地面真实情况有很高的一致性。此外,本文提出的方法在NER的精度和速度上都优于人工提取。

此外,在自然语言处理技术中使用NER可以实现从自由文本中自动提取目标实体,提取的信息可以进一步用于统计分析,如知识库建设任务。此外,该模型还可以自动从电子病历或其他相关文本中提取ADR相关信息,进一步补充ADR报告中的信息。

结论

在本研究中,我们探索了一项针对中国ADR报告的NER任务,采用优化的bc - radical深度学习方法,以每个token的radical特征,通过微调BERT模型获得的token特征作为输入,Bi-LSTM-CRF作为特征提取模型。在同一数据集上,将模型的性能与其他基线模型进行了比较,实验结果表明,BBC-Radical模型优于其他模型,获得了96.2%的竞争F1分数。此外,在人机对比实验中,我们的方法在时间、效率和准确度方面都比人工提取方法具有绝对优势。本研究在中国ADE记录中开展了领域特异性NER任务,该任务可能在促进ADR评价和药品上市后安全性评价方面发挥作用。

致谢

江苏省食品药品监督管理局2017-2018年度科研项目(NO 20170308)、“双一流”高校项目(NO CPU2018GY19)、国家自然科学基金项目(NO 81673511)资助。我们也感谢中国药科大学高性能计算中心的计算支持。

利益冲突

没有宣布。

多媒体附件1

命名实体识别方法的详细信息。

DOCX文件,20kb

多媒体附件2

外部验证数据的结果。

DOCX文件,17kb

  1. 李霞,林霞,任宏,郭娟。药品说明书不良反应本体组织与生物信息学分析:开发与可用性研究。J Med Internet Res 2020 july 20;22(7):e20443 [免费全文] [CrossRef] [Medline
  2. Pal SN, Duncombe C, Falzon D, Olsson S.世卫组织在公共卫生规划中收集安全数据的战略:补充自发报告系统。Drug saff 2013 Feb 18;36(2):75-81 [免费全文] [CrossRef] [Medline
  3. 爱德华兹IR,阿伦森JK。药物不良反应:定义、诊断和处理。《柳叶刀》2000 10月;356(9237):1255-1259。[CrossRef
  4. pagot C, Bezin J, Smith A, Arnaud M, Salvo F, Haramburu F,法国药物警戒中心网络。停药对涉及替代治疗的不良事件报告的影响:来自法国自发报告数据库的一项研究。2017年11月29日;40(11):1099-1107。[CrossRef] [Medline
  5. Schwan S, Sundström A, Stjernberg E, Hallberg E, Hallberg P.普瑞巴林滥用责任的信号——瑞典自发药物不良反应报告系统的结果。中国临床药物学杂志2010年9月19日;66(9):947-953。[CrossRef] [Medline
  6. 米科洛夫,陈凯,陈凯。词汇和短语的分布表示及其组合性。康奈尔大学,2013。URL:https://arxiv.org/abs/1310.4546[2021-11-08]访问
  7. 潘宁顿,苏彻,马宁等。词汇表示法中的全局向量。斯坦福大学。2014。URL:https://nlp.stanford.edu/projects/glove/[2021-11-08]访问
  8. 博雅诺夫斯基,格雷夫,朱林,米科洛夫。利用子词信息丰富词向量。TACL 2017 12月;5:135-146。[CrossRef
  9. 陈杰,陈哲,陈志勇,陈志勇,等。TensorFlow:用于大规模机器学习的系统。2016年发表于:第十二届USENIX操作系统设计与实现会议;2016年11月2-4日;佐治亚州萨凡纳。
  10. 邓龙。深度学习:方法与应用。FNT在信号处理中的应用2013;7(3-4):197-387。[CrossRef
  11. 崔勇,车伟,刘涛,秦波,杨哲。汉语BERT全词掩蔽预训练。IEEE / ACM反式。语音语音郎。2019:1-1过程。[CrossRef
  12. 戴夫林J,张mw,李k, Toutanova K. BERT:基于深度双向变压器的语言理解预训练。康奈尔大学,2018。URL:https://arxiv.org/abs/1810.04805[2021-11-08]访问
  13. 李文杰,王晓明,王晓明。生成预训练对语言理解能力的影响。URL:https://tinyurl.com/49576n96[2021-11-08]访问
  14. 李俊,尹伟,金松,金丁,金松,苏c,等。BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型。生物信息学2020 Feb 15;36(4):1234-1240 [免费全文] [CrossRef] [Medline
  15. 李霞,张宏,周霞。基于BERT方法的不同神经结构的中国临床命名实体识别。J Biomed Inform 2020 july;107:103422 [免费全文] [CrossRef] [Medline
  16. 李志强,李志强。基于多目标优化的特征和参数选择方法在命名实体识别中的应用。Int。j·马赫。学习。& Cyber 2014年7月6日;7(4):597-611。[CrossRef
  17. Oudah M, Shaalan K. NERA 2.0:改进阿拉伯语基于规则的命名实体识别的覆盖范围和性能。Nat,朗。工程2016年5月06日;23(3):441-472。[CrossRef
  18. 刘志强,李志强,李志强,等。基于最大熵的生物医学命名实体识别方法。J Biomed Inform 2009 Oct;42(5):905-911 [免费全文] [CrossRef] [Medline
  19. 魏强,陈涛,徐瑞,何勇,桂林。结合条件随机场和双向递归神经网络的疾病命名实体识别。数据库(牛津)2016年10月24日;2016:baw140 [免费全文] [CrossRef] [Medline
  20. Lample G, Ballesteros M, Subramanian S, Kawakami K, Dyer C.命名实体识别的神经结构。康奈尔大学,2016。URL:https://arxiv.org/abs/1603.01360[2021-11-08]访问
  21. 陈勇,周超,李涛,吴华,赵霞,叶凯,等。基于词汇特征的BiLSTM-CRF和三训练的中国药品不良事件报告命名实体识别J Biomed Inform 2019 Aug;96:103252 [免费全文] [CrossRef] [Medline
  22. cpuchenyao / NER_RE_Annotation。GitHub。2018年11月26日。URL:https://github.com/cpuchenyao/NER_RE_Annotation[2021-11-08]访问
  23. 彭浩,邹晓霞。基于激进层次嵌入的汉语句子层次情感分析。第三十届国际佛罗里达人工智能研究学会会议论文集,2017。URL:https://sentic.net/radical-embeddings-for-chinese-sentiment-analysis.pdf[2021-11-08]访问
  24. 邵勇,王志强,王志强。基于RNN-CRF的汉字联合分词及词性标注。康奈尔大学,2017。URL:https://arxiv.org/abs/1704.01314[2021-11-08]访问
  25. 石霞,翟娟,杨霞,谢震,刘晨。激进嵌入:深入研究中国激进。2015。URL:https://aclanthology.org/P15-2098.pdf[2021-11-08]访问
  26. Pons E, Becker BF, Akhondi SA, Afzal Z, van Mulligen EM, Kors JA。利用先验知识和文本信息提取化学诱发疾病。数据库(牛津)2016年4月14日;2016:baw046 [免费全文] [CrossRef] [Medline
  27. 陈晓峰,陈晓峰,陈晓峰,等。基于crf和词嵌入的处方提取方法。J Biomed Inform 2017 Aug;72:60-66 [免费全文] [CrossRef] [Medline
  28. 陈晓东,陈晓东,陈晓东,陈晓东,等。社会媒体项目中来自患者报告的药物不良反应:针对金标准的评估方案。JMIR Res Protoc 2019 5月07日;8(5):e11448 [免费全文] [CrossRef] [Medline
  29. Cocos A, Fiks A, Masino A.用于药物警戒的深度学习:用于在Twitter帖子中标记药物不良反应的循环神经网络架构。美国医学通报协会2017年7月01日;24(4):813-821 [免费全文] [CrossRef] [Medline
  30. 谢军,刘旭,曾军。基于嵌入词表示的Bi-LSTM循环神经网络挖掘社交媒体中的电子烟不良事件。J Am Med Inform association 2018年1月01日;25(1):72-80 [免费全文] [CrossRef] [Medline
  31. 曾东,孙超,林林,刘波。药物命名实体识别的LSTM-CRF方法。熵2017 Jun 17;19(6):283。[CrossRef
  32. 罗磊,杨震,杨鹏,张勇,王林,林华,等。基于注意的BiLSTM-CRF文档级化学命名实体识别方法。生物信息学2018年4月15日;34(8):1381-1388。[CrossRef] [Medline
  33. 张旭,张勇,张强,任勇,邱涛,马俊,等。利用深度学习方法提取乳腺癌综合临床信息。Int J Med Inform 2019年12月;132:103985。[CrossRef] [Medline


正面:药物不良事件
美国存托凭证:药物不良反应
BBC-Radical:BERT-Bi-LSTM-CRF-Radical
伯特:来自变压器的双向编码器表示
bi-LSTM:双向长短期记忆
bi-RNN:双向循环神经网络
BioBERT:BERT用于生物医学文本挖掘
cn:临床尼珥
CRF:条件随机场
尼珥:命名实体识别
NLP:自然语言处理


编辑:R库卡夫卡,G艾森巴赫;提交10.12.20;KNB Nor Aripin, J Zheng同行评审;作者评论07.03.21;订正版本收到22.04.21;接受05.10.21;发表01.12.21

版权

©吴宏,纪佳彤,田海梅,陈瑶,葛卫红,张海霞,余峰,邹建军,中村光弘,廖军。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 2021年12月1日。

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map