这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到http://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。gydF4y2Ba
医药公司系统地报道了药物不良事件(ADEs)的医学文章,以提供药物安全信息。虽然向监管机构报告的政策因国家和地区而异,但所有医疗物品报告均可归类为基于准确性或召回的报告。在日本实施的基于召回的报告要求报告任何可能的ADE。因此,基于回忆的报告可能会引入大量的假阴性或大量的噪音,这是一个很难用有限的人工来解决的问题。gydF4y2Ba
我们的目标是开发一个自动化系统,可以识别与ade相关的医学文章,支持基于召回的报告,并减轻日本制药公司的体力劳动。gydF4y2Ba
使用医学文章作为输入,我们基于自然语言处理的系统应用文档级分类来提取包含ade的文章(取代第一次筛选中的人工劳动)和句子级分类来提取这些文章中包含ade的句子(从而支持专家进行第二次筛选)。我们使用509篇由医学工程师注释的日本医学文章来评估所提出系统的性能。gydF4y2Ba
文档级分类的F1为0.903。句子级分类的F1为0.413。这是五倍交叉验证的平均值。gydF4y2Ba
一个简单的自动化系统可以减轻制药公司筛选药物安全相关医疗物品的体力劳动。在通过考虑更广泛的背景来提高句子级分类的准确性之后,我们打算将该系统应用于现实世界的上市后监测。gydF4y2Ba
根据世界卫生组织的定义,药物不良事件(ADE)是指在使用药物产品治疗期间可能出现的任何不良事件,但不一定与治疗有因果关系[gydF4y2Ba
现有的自动化研究针对不同的来源材料,反映了现实世界上市后监测处理的广泛信号。这些输入包括电子健康纪录[gydF4y2Ba
不同国家及地区规管向规管机构汇报环境污染指数的政策各不相同[gydF4y2Ba
日本采用并实施了以召回为基础的药物警戒[gydF4y2Ba
为了解决日本的药物警戒问题,我们开发了一种自动化系统,通过提取含有ade的物品来取代第一次筛选。对于第二次筛选,我们还邀请了医学专家的服务来识别文章中提示ade的句子。我们的系统结合了文档级和句子级的分类模型。它对日本医学文章进行分类,提取那些包含ADEs的文章,然后将其作为第二次筛选的候选对象(gydF4y2Ba
为此,我们实现了自然语言处理(NLP)技术。我们的系统由简单的机器学习方法组成,这些方法很容易被制药公司内部应用和管理。针对日语医学论文也提供了对医学领域内语言资源很少的非英语论文的有效管理方法的见解。gydF4y2Ba
为了支持日本的上市后监管,我们建立了一个自动系统来识别含有ade的医学文章和其中的ade建议句子,以提高可解释性。gydF4y2Ba
我们提出的模型基于手动注释的日本医学文章测试集,将含有ade的文章分类为0.903 F1分,将含有ade的句子分类为0.413 F1分。gydF4y2Ba
我们基于相对简单的模型开发了一个有效的自动化系统。它可以很容易地在制药公司内部实施和管理。此外,我们的系统可以很容易地扩展到分类用非英语语言写的论文。gydF4y2Ba
提供了一家日本制药公司用于上市后监测的日本医疗用品,供随后分析之用。大多数文章与该公司调查的选定药物范围有关,但不限于特定的临床领域或疾病。每种药物在数据中出现的频率报告于gydF4y2Ba
预处理后,根据ade的出现对所有句子进行过滤。这些是根据以下标准来判断的:gydF4y2Ba
药物处方后提及不良事件;或gydF4y2Ba
作者明确提到可疑ADE的发生。gydF4y2Ba
匹配的句子被标记为gydF4y2Ba
包含任何提示ade的句子的医学文章被指定gydF4y2Ba
每篇医学文章的平均句数和字数。gydF4y2Ba
标签gydF4y2Ba | 句子数gydF4y2Ba | 字符数gydF4y2Ba | |
|
|
|
|
|
所有gydF4y2Ba | 3.9 (2.7)gydF4y2Ba | 321.7 (456.1)gydF4y2Ba |
|
一个标准gydF4y2Ba | 3.5 (2.6)gydF4y2Ba | 399.3 (283.9)gydF4y2Ba |
|
标准BgydF4y2Ba | 0.4 (0.7)gydF4y2Ba | 56.8 (112.3)gydF4y2Ba |
非ade提示,平均值(SD)gydF4y2Ba | 48.2 (72.1)gydF4y2Ba | 2897.0 (4104.0)gydF4y2Ba |
一个gydF4y2BaADE:药物不良事件。gydF4y2Ba
语料库由一位医学工程师注释。为了评价标注质量,Cohen κ [gydF4y2Ba
被提议系统的体系结构。ADE:药物不良事件;IOL:人工晶状体。gydF4y2Ba
预处理:句子仅在日语字母(包括平假名、片假名和汉字)后自动使用日文句号和句点分隔。gydF4y2Ba
疾病和药物名称识别:从预处理的文章中提取疾病和药物名称。使用Ito等人提供的疾病名称提取器MedEX/J进行疾病名称提取。[gydF4y2Ba
疾病和药品名称规范化:由于同一疾病和药品名称有许多变体,因此使用MANBYO [gydF4y2Ba
编辑基于距离的相似度以使疾病和药物名称规范化[gydF4y2Ba
可解释ADE候选检测:使用标准化的疾病和药物名称作为特征,提取与ADE相关的候选文章,并使用ADE提示句子进行第二次筛选。gydF4y2Ba
进行可解释的ADE候选检测,为第二次筛选提取有用的信息。包含ade的文章提取和暗示ade的句子提取都进行了。两种提取都使用二元分类模型。在含ADE的文章提取中,文章被分类为“含ADE”或“不含ADE”。在ADE暗示句提取中,将“含ADE”冠词中的句子分类为“ADE暗示”或“非ADE暗示”。下面描述了系统的几个设计方面,包括分类算法和每个模型中使用的特征设计。gydF4y2Ba
采用逻辑回归对文章和句子进行分类。该方法在文本分类中得到了广泛的应用。在许多NLP任务中,神经网络(NN)模型通常优于其他基于机器学习的模型,如逻辑回归。然而,神经网络模型需要更大的语料库,其输出更难解释[gydF4y2Ba
早先的一项研究[gydF4y2Ba
在含ADE的文章提取中,“We stopped the drug”等暗示ADE的表达被视为检测ADE的重要线索。本文的出发点是文章中的文本作为正统词袋表征的特征。MeCab被用来创建这个词袋功能[gydF4y2Ba
有关疾病和药物的特征被认为对ADE检测有用,因为它们在人工ADE检测中起着关键作用。因此,标准表达及其频率的总和被用作解释个体疾病和药物特征的特征。gydF4y2Ba
为了提取ADE暗示句子,需要考虑上下文(因为“ADE暗示”可能跨越多个句子)。因此,我们使用了ade提示句提取中的前句和后句特征,以及与含ade的冠词提取相同的特征。可解释ADE候选检测的特征集如下所示。gydF4y2Ba
单词标记:出现在文本中的单词包;gydF4y2Ba
标准疾病/药品名称:标准疾病和药品名称袋;gydF4y2Ba
疾病/药品名称总和:疾病名称出现次数之和与药品名称出现次数之和;gydF4y2Ba
语境词标记:前句和后句中的词袋;gydF4y2Ba
上下文标准疾病/药品名称:前句和后句中标准疾病和药品名称袋;gydF4y2Ba
疾病/药物名称上下文总和:疾病名称出现次数之和与前句和后句中药物名称出现次数之和。gydF4y2Ba
每个模型的特征如图所示gydF4y2Ba
用于包含ade的文章提取和包含ade的句子提取的特征集。gydF4y2Ba一个gydF4y2Ba
功能gydF4y2Ba | 正面gydF4y2BabgydF4y2Ba含物提取gydF4y2Ba | ade提示句子提取gydF4y2Ba |
字标记gydF4y2Ba | ✓(7188)gydF4y2Ba | ✓(6597)gydF4y2Ba |
标准疾病/药物名称gydF4y2Ba | ✓(1043)gydF4y2Ba | ✓(1083)gydF4y2Ba |
疾病/药品名称总和gydF4y2Ba | ✓(2)gydF4y2Ba | ✓(2)gydF4y2Ba |
上下文词标记gydF4y2Ba | XgydF4y2Ba | ✓(13194)gydF4y2Ba |
标准疾病/药物名称gydF4y2Ba | XgydF4y2Ba | ✓(2166)gydF4y2Ba |
疾病/药物名称的上下文总和gydF4y2Ba | XgydF4y2Ba | ✓(4)gydF4y2Ba |
一个gydF4y2Ba括号内的数字表示变量的平均数目。gydF4y2Ba
bgydF4y2BaADE:药物不良事件。gydF4y2Ba
实验对含有ade的文章提取和含有ade的句子提取进行了评价。gydF4y2Ba
对于含有ade的文章提取,分类器使用中列出的特征通过五倍交叉验证来训练和预测文章gydF4y2Ba
各特征对含不良事件物品提取的影响。gydF4y2Ba
功能gydF4y2Ba | ΔF1得分gydF4y2Ba |
没有文字标记gydF4y2Ba | -0.0456gydF4y2Ba |
没有标准的疾病/药物名称gydF4y2Ba | -0.0001gydF4y2Ba |
没有疾病/药品名称的总和gydF4y2Ba | -0.0155gydF4y2Ba |
对于提示ade的句子提取,在文档水平上进行五重交叉验证。标记为“不含ADE”的文章缺少标记为“暗示ADE”的句子。因此,当使用训练集中的所有文章进行训练时,标签比例是不平衡的。为了避免这种不平衡,我们只使用“含ade”文章中的句子进行训练,并使用测试集中的所有句子进行评估。gydF4y2Ba
根据实验结果,计算F1分数来评价我们的模型的性能。为了更精确地分析性能,我们还制作了精确召回曲线。准确度-召回曲线绘制了每个阈值下的召回率和精度,并评估了在测量之间进行重大权衡的任务。高召回率或灵敏度意味着模型不会遗漏任何ade。该特性对于ADE检测至关重要。精度高意味着模型预测可靠。因此,我们必须以合理的精度和高召回率检测ade。gydF4y2Ba
含ade物品提取的平均交叉验证结果为F1 = 0.903 (SD 0.0165)。对于提示ade的句子提取,F1显著降低;F1 = 0.413 (sd 0.0247)。gydF4y2Ba
具有最高F1的验证集的精确召回率曲线如图所示gydF4y2Ba
(a)含ade的文章提取和(b)含ade的句子提取的精确查全率曲线。ADE:药物不良事件。gydF4y2Ba
我们进行了消融研究,这是一种评估方法,通过去除每个特征来量化该特征的影响。我们去掉每个特征组,得到平均ߡF1分数。gydF4y2Ba
药物不良事件中各特征对提示句子提取的影响。gydF4y2Ba
功能gydF4y2Ba | ΔF1得分gydF4y2Ba |
没有文字标记gydF4y2Ba | -0.0644gydF4y2Ba |
没有上下文词标记gydF4y2Ba | 0.0070gydF4y2Ba |
没有标准的疾病/药物名称gydF4y2Ba | 0.0gydF4y2Ba |
没有上下文的标准疾病/药物名称gydF4y2Ba | 0.0gydF4y2Ba |
没有疾病/药品名称的总和gydF4y2Ba | -0.0204gydF4y2Ba |
没有上下文的疾病/药物名称总和gydF4y2Ba | -0.0012gydF4y2Ba |
本研究的目的是建立一个支持日本药品上市后监管的系统,通过自动化第一次筛选和医学专业知识支持第二次筛选。我们的系统通过将任务分为相对容易的任务,即在文档级别检测ade,和相对困难的任务,即在句子级别检测ade,有效地解决了这个问题。gydF4y2Ba
该系统对与ADEs相关的医学文章进行分类,具有较高的准确率和召回率。这个结果表明,复杂的模型,如关系分类是不必要的。相反,简单的文档分类足以取代第一次筛选中的手工工作,从而降低注释成本。gydF4y2Ba
我们的分类系统对ade提示句子的提取性能相对较差。但是,从我们最初的目标(支持药品安全监测专家)来看,这一水平的表现仍然可以节省大量的时间和成本。因此,在模型对召回率高的句子进行分类的情况下,专家在相对较短的搜索后找到提示ade的句子的可能性很大。此外,我们的系统相对于其他根据疾病和药物之间的关系进行提取和分类的关系分类模型具有竞争力。基于ade -药物关系的分类总体表现约为40%-60% [gydF4y2Ba
从特征贡献来看,词标记是对含ade的文章和暗示ade的句子分类贡献最大的特征。相比之下,与单词标记相比,标准疾病和药物名称以及上下文特征对分类性能的影响较小。这表明,疾病和药物名称的提取,需要相对较大的训练数据来建立模型,不一定需要保持准确性。含ade文章提取和含ade句子提取的所有特征及其系数列于gydF4y2Ba
我们假设与语言相关的特征,如词嵌入(通常用于考虑词的语义的向量表示)可能会提高性能。然而,获得高质量的词嵌入需要大量的原始文本,并且很难用英语以外的语言准备(特别是在医学领域)。因此,我们更多地关注于使用与语言无关的特性。每个模型的特征并不取决于日语的特征。因此,我们的系统很容易适用于用非英语语言写的论文,这些论文的注释语料库相对较小。gydF4y2Ba
我们在ade提示句子提取方面取得了相对较差的性能。因此,我们研究了ade暗示句子提取模型的分类错误,并使用所有特征进行定性系统输出分析。gydF4y2Ba
分类结果示例。gydF4y2Ba
情况下gydF4y2Ba | 正确的标签gydF4y2Ba | 预测gydF4y2Ba | 句子gydF4y2Ba |
(一)gydF4y2Ba | 正面gydF4y2Ba一个gydF4y2Ba | 正面gydF4y2Ba | MTXgydF4y2BabgydF4y2Ba+阿达木单抗开始给药。因为甲氨蝶呤的副作用改成了赛妥珠单抗pegol。gydF4y2Ba |
(b)gydF4y2Ba | 正面gydF4y2Ba | 正面gydF4y2Ba | 病例:男,74岁。(以前的历史)gydF4y2Ba |
(c)gydF4y2Ba | 正面gydF4y2Ba | Non-ADEgydF4y2Ba | 一名59岁的RA患者服用甲氨蝶呤gydF4y2BaegydF4y2Ba。2011年3月,患者出现呼吸困难,就诊。gydF4y2Ba |
(d)gydF4y2Ba | 正面gydF4y2Ba | Non-ADEgydF4y2Ba | 病例:女性,79岁。gydF4y2Ba |
(e)gydF4y2Ba | Non-ADEgydF4y2BafgydF4y2Ba | 正面gydF4y2Ba | 史蒂文斯-约翰逊综合征(SJS)的特征是发烧和严重的皮肤粘膜疹,包括眼睛、嘴唇和外阴的粘膜转移,以及表皮红斑和坏死损伤引起的水疱和糜烂。大多数病例被认为是一些最严重形式的药疹。其他的则与病毒和支原体感染有关。gydF4y2Ba |
(f)gydF4y2Ba | Non-ADEgydF4y2Ba | 正面gydF4y2Ba | 图10显示了临床过程。根据报告制度,约25%(92/372)的药物引起TdPgydF4y2BaggydF4y2Ba在过去的五年中,有新的喹诺酮类药物(主要是左氧氟沙星)。gydF4y2Ba |
(g)gydF4y2Ba | Non-ADEgydF4y2Ba | Non-ADEgydF4y2Ba | 病例:70岁男性,有高血压病史。第X天出现右眼疼痛,并伴有视力模糊。gydF4y2Ba |
(h)gydF4y2Ba | Non-ADEgydF4y2Ba | Non-ADEgydF4y2Ba | 病例:79岁女性。在诊断为中血管炎后,患者已服用强的松龙60毫克和甲氨蝶呤6毫克6个月。gydF4y2Ba |
一个gydF4y2Ba艾德:艾德的建议。gydF4y2Ba
bgydF4y2BaMTX:甲氨蝶呤。gydF4y2Ba
cgydF4y2BaABPC / SBT:氨苄西林/ sulbactam。gydF4y2Ba
dgydF4y2BaCEZ:头孢唑林。gydF4y2Ba
egydF4y2BaRA:类风湿性关节炎。gydF4y2Ba
fgydF4y2Ba非ade:非ade建议。gydF4y2Ba
ggydF4y2BaTdP:扭转点。gydF4y2Ba
情况(c)和(d)是需要前一句中的信息来对句子进行分类的例子。如果只考虑以下句子,每个例子都不会被视为提示ade的句子。但是,如果将前一句也考虑在内,则将后一句视为ADE,因为其中提到的症状可能是指前一句中提到的药物引起的ADE。当我们添加前句和后句的特征时,出现了分类错误。gydF4y2Ba
情况(e)和(f)是将一般陈述与实际情况混淆的例子。每个例子对应的句子描述了药物引起的一般疾病。然而,一般陈述和实际情况在表达方面是相似的。因此,产生了错误。gydF4y2Ba
虽然我们的系统检测含有ade的文章具有较高的准确率和召回率,但是ade暗示句子的提取性能相对较差。这种糟糕的表现可能有3个原因。第一个原因是上下文的范围。我们的系统只能考虑两个连续句子的上下文,这可能会增加假阴性。为了在更广泛的上下文中检测ade,需要其他方法,如段落分类和顺序标记,例如,CRF和隐马尔可夫模型。gydF4y2Ba
第二个可能的原因是过度拟合。gydF4y2Ba
训练数据大小与ade提示句子提取F1分数的关系。ADE:药物不良事件。gydF4y2Ba
ade提示句子提取效果不佳的第三个可能原因是OCR错误。OCR可以省略或误读字母、字符和单词,从而扩大词汇量。对于多列的日文科学论文,OCR精度的提高有望加快预处理的速度和便捷性。gydF4y2Ba
许多研究已经通过nlp确定了医学文章中报道的ADEs [gydF4y2Ba
关系分类:该方法提取药物与其对应ADE之间的关系[gydF4y2Ba
实体分类:这种方法使用关于特定药物的文本片面地关注不良事件。疾病只有在属于ADEs时才会被分类[gydF4y2Ba
句子分类:这种方法检测与ade相关的句子,但不处理实体。因此,它们与特定药物的关系尚不清楚。药物及其对应的ADE主要出现在一个句子中[gydF4y2Ba
文档分类:这种方法在文档级别进行ade阳性或ade阴性识别。在大多数情况下,文档可能包含仅在该文档中引用的多个ade,并且可以同时考虑所有ade。然而,输出提供的信息有限,需要手动检测所有句子中的ade。gydF4y2Ba
每种方法在标注成本、覆盖范围和任务难度方面各有优缺点。关系和实体分类方法提供了关于ade的精确信息,但它们的标注成本很高。这一限制严重限制了它们对日语等小语种的应用,因为精通这些语言的医学专家相对较少。相比之下,文档和句子分类可以以相对较低的标注成本进行。然而,它们只能探测到全局现象,提供的关于ade的信息相对较少。为了弥补这些方法的缺点,我们的系统集成了文档和句子分类。gydF4y2Ba
在这里,我们开发了一个系统来监控日本的药品上市后监控。我们的新方法基于文档和句子分类,识别与ade相关的文章并提供ade暗示句子。由于该系统实现了简单的分类算法,可以方便地在制药公司内部应用和管理。gydF4y2Ba
实验结果表明,该系统能够准确地提取与ADEs相关的文章。它采用了NLP技术,可以减轻日本制药公司的一些体力劳动。gydF4y2Ba
我们的目标是将该系统应用于实际的上市后监测,并评估其在实际监测中的效率和有效性。展望未来,我们将探索更复杂的分类算法,以检测更广泛的ade。gydF4y2Ba
药物在数据中出现的频率。gydF4y2Ba
含ade物品提取的特征和系数。gydF4y2Ba
ade暗示句子提取的特征和系数。gydF4y2Ba
药物不良事件gydF4y2Ba
药物不良反应gydF4y2Ba
条件随机场gydF4y2Ba
自然语言处理gydF4y2Ba
神经网络gydF4y2Ba
光学字符识别gydF4y2Ba
本研究得到了富士施乐有限公司的部分资助。我们感谢KT和CK对数据集的注释。gydF4y2Ba
SU, SW, SY和EA设计了研究,分析了结果,并准备了手稿。SU实现了该系统并进行了实验。gydF4y2Ba
没有宣布。gydF4y2Ba