这是一个开放分布式根据条知识共享归属许可(https://creativecommons.org/licenses/by/4.0/),它允许无限制的使用、分配、和繁殖在任何媒介,提供原工作,首次出版于JMIR医学信息学是正确引用。完整的书目信息,原始发布在https://medinform.www.mybigtv.com/上的链接,以及这个版权和许可信息必须包括在内。
在大多数情况下,文章的摘要在医学领域是公开的。虽然这些每个人都可以理解,他们难以理解更广泛的受众由于复杂的医学词汇。因此,简化这些复杂的抽象是至关重要的医学研究的公众。
本研究旨在开发一种基于深度学习文本简化(TS)的方法,将复杂的医学文本转换成一个更简单的版本,同时保持生成的文本的质量。
比起TS方法利用强化学习和的基于变压器开发语言模型。相关奖励,Flesch-Kincaid奖励,词汇简单奖励进行了优化,帮助简化复杂医学jargon-dense段落的更简单的版本,同时保持文本的质量。模型训练使用3568 complex-simple医疗段落和评估480段的帮助通过自动度量和人类的注释。
该方法优于以往的基线Flesch-Kincaid得分(11.84),取得了类似的性能与其他基线测量时使用ROUGE-1 (0.39), ROUGE-2(0.11),和莎丽成绩(0.40)。手动评估表明,人类注释器之间的协议比例超过70%时流畅性等因素,连贯性,适当考虑。
独特的医疗TS方法是成功开发利用强化学习和准确地简化了复杂的医疗段落,从而增加他们的可读性。提出TS的方法可以应用于自动生成简化文本对于复杂的医学文本数据,这将增强的可访问性生物医学研究更广泛的受众。
生物医学领域的研究包含必要的信息关于新新药临床试验相关话题和治疗各种疾病。虽然这信息是公开的,它往往有复杂的医学术语,使公众难以理解。解决这个问题的一个方法是通过将复杂的医学文本转换为一种简单的语言,可以被理解为更广泛的观众。尽管手册文字简化(TS)是解决问题的一种方法,它不能被生物医学文献的迅速扩张的身体。因此,有必要发展的<我t一个lic> 自然语言处理方法可以自动执行TS。
初步研究TS领域的关注<我t一个lic>
词汇简化(LS) [
自然语言处理研究的最新进展,LSTM-based模型是由变压器的表现(
在语言比起成功的基于变压器模型的基础上,最近马丁et al (
TS的大多数研究使用数据从维基百科中提取和新闻文章
最近的工作都集中在文档级简化数据集建设(
复杂的医学段落和相应的简单的医疗段的数据集。
TS的评价通常分为两类:自动评估和手动(如人类)评估。因为TS的主观性质,有人建议,最好的方法是执行手动评估,基于标准流利等意义保存,和简单
可读性指标被用来为文本分配一个年级水平标志着它的简单。所有的可读性指标计算使用一些词的组合权重,音节,信,或者单词统计,测量显示一定程度的简单性。自动评价指标,如蓝色(
本研究的目的是开发一个自动TS方法能够简化医疗文本数据在一个段落层面,以提供更大的可访问性的生物医学研究的目标。本文运用RL-based训练直接优化2属性的简化文本:相关性和简单。<我t一个lic> 相关性被定义为简化文本保留突出,从原文语义信息。<我t一个lic> 简单被定义为简化是容易理解和词汇方面简单的文本。这两个属性是优化使用TS-specific奖励,导致系统优于以前的基线Flesch-Kincaid分数。广泛的人类评估领域专家的帮助下进行判断生成的文本的质量。
本文的其余部分组织如下:“方法”部分提供了详细的数据集,训练过程,该模型,描述了自动和人工评估进行分析该模型生成的输出(TESLEA)。“结果”部分提供基线模型的简要描述和获得的结果进行自动和手动生成的文本的评价。最后在“讨论”部分,我们突出的局限性,未来的工作,并得出结论。
给定一个复杂的医疗段落,这项工作的目标是生成一个简化的段落,简洁和捕获突出表达复杂的文本信息。为此,一个RL-based简化模型,提出了优化多个奖励在训练,调整使用段落级医疗TS数据集。
Cochrane数据库的科学评价是一个卫生保健数据库与信息广泛的临床的话题。每个审查包括一个平实的语言总结(PLS)写的作者按照指导方针结构摘要。请应该是明确的,可以理解的,和可访问的,尤其是对普通读者不熟悉领域的医学。请在本质上是高度异构的,而不是配对(即每一个复杂句可能没有一个相应的简化版本)。然而,Devaraj et al (
TS的解决方案提出了简化的任务复杂医学文本使用一个RL-based简化模型,优化多个奖励(<我t一个lic> 相关奖励,<我t一个lic> Flesch-Kincaid级奖励,词汇简单的回报)来实现一个更完整的和简洁的简化<我t一个lic> 。下面的内容将介绍这些奖励的计算,以及训练过程。
相关奖励措施目标文本的语义是如何捕获的简化版本。这是通过计算目标之间的余弦相似性计算文本嵌入(<我t一个lic>
E<年代ub>T
)和生成的文本嵌入(<我t一个lic>
E<年代ub>G
)。BioSentVec [
的<我t一个lic> RelevanceReward函数接受三个参数作为输入,即目标文本(<我t一个lic> T),生成的文本(<我t一个lic> G)和嵌入模型(<我t一个lic> 米)。这个函数<我t一个lic> ComputeEmbedding需要输入文本和嵌入模型(<我t一个lic> 米)作为输入,并生成相关的文本嵌入。最后,余弦相似性生成的文本嵌入(<我t一个lic> E<年代ub>G )和目标文本嵌入(<我t一个lic> E<年代ub>T )计算获得奖励(算法1,第4行)。
FKGL指的是年级水平必须达到理解了的信息。FKGL更高分数表明文本更为复杂,和一个较低的分数表明,文本就更简单了。文本FKGL (S)计算使用公式1 (
FKGL奖励(<我t一个lic> R<年代ub>Flesch )是旨在减少生成的文本和计算的复杂性,提出了算法2。
算法2的功能<我t一个lic> FleschKincaidReward有2个参数作为输入,即生成的文本(<我t一个lic> G)和目标文本(<我t一个lic> T)。的<我t一个lic> FKGLScore函数计算FKGL给定文本。一旦FKGL为<我t一个lic> T和<我t一个lic> G计算,Flesch-Kincaid奖励(<我t一个lic> R<年代ub>Flesch )计算相对的区别<我t一个lic> r(<我t一个lic> T),<我t一个lic> r(<我t一个lic> G)(算法2,4行)<我t一个lic> r(<我t一个lic> T),<我t一个lic> r(<我t一个lic> G)表示目标的FKGL和生成的文本。
词汇简洁是用来衡量是否在生成的文本(<我t一个lic>
G)比源文本中的词(简单<我t一个lic>
年代)。拉班等(
在算法3中,<我t一个lic>
LexicalSimplicityReward需要源文本(<我t一个lic>
年代)和生成的文本(<我t一个lic>
G)作为输入。功能<我t一个lic>
ZIPFInserted(
基线语言模型在本研究中用于执行简化是巴特
Transformer-based语言模型是pretrained大语料库的文本,后来调整在下游任务通过最小化最大似然损失(<我t一个lic>
Lml()函数
在哪里<我t一个lic>
θ代表了模型参数<我t一个lic>
y<
然而,通过最小化的结果<我t一个lic>
Lml并不总是最优的。有两个主要原因的退化的结果。第一个被称为“风险偏好”(
TS可以制定一个RL的问题,在“代理”(语言模型)与环境交互采取“行动”(下一个词预测)基于学习“政策”(<我t一个lic>
p<年代ub>θ
)定义的模型参数<我t一个lic>
θ虽然观察一些奖励(<我t一个lic>
R)。在这个工作中,巴特(
在哪里<我t一个lic>
p<年代ub>θ
(<我t一个lic>
y<年代ub>我
年代|…)表示的概率<我t一个lic>
我th词条件以前生成的采样序列的模型;<我t一个lic>
r(<我t一个lic>
y<年代up>年代
)表示奖励计算一个句子使用抽样生成;表示源句子,和<我t一个lic>
n的长度是生成的句子。奖励计算的加权和相关奖励(<我t一个lic>
R<年代ub>余弦
),<我t一个lic>
R<年代ub>Flesch
,词汇简单的奖励(<我t一个lic>
R<年代ub>词汇
;
在哪里<我t一个lic> α,<我t一个lic> β,<我t一个lic> d分别与奖励相关联的权重。
近似基线奖励,自我批评序列训练(
在哪里<我t一个lic>
y*表示生成的句子使用贪婪的解码。更多细节描述贪婪的解码
计算回报函数计算的加权和三个奖励:Fkgl奖励,词汇简单奖励,相关奖励。
直观地说,通过最小化方程描述的损失5,选择样本序列的可能性(<我t一个lic>
y<年代up>年代
)是提升如果采样序列获得的奖励,<我t一个lic>
r(<我t一个lic>
y<年代up>年代
),大于基线的奖励获得回报,也就是说,样本返回更高的回报比<我t一个lic>
r(<我t一个lic>
y*)。样品随后抑制获得较低的回报。该模型使用的组合训练<我t一个lic>
Lml和政策梯度损失类似于(
在哪里<我t一个lic> γ是一个比例因子,可以调整。
总的来说,培训过程遵循两步方法。随着pretrained巴特(
基于强化学习培训过程TESLEA。企业:最大似然估计;RL:强化学习。
两个可读性指标被用来执行自动生成的文本的评价,即FKGL和自动可读性指标(阿里斯)。TS的纱丽的分数是一个标准的指标。ROUGE-1和ROUGE-2[的f - 1版本
在这项研究中,3-domain专家判断的质量生成的文本基于上一节所提到的因素。评价者率文本李克特规模从1到5。首先,简化使用TESLEA生成测试数据,然后生成51段落是随机挑选的,创造3子集包含17个段落。每一个评估者被授予两个子集,也就是说,总共34 complex-simple TESLEA-generated段落。评估通过谷歌的形式进行,人类注释器被要求测量信息量的简化质量(信息),流畅(流感),一致性(正)、真实性(FAC)和充分性(正面)(
一个示例问题被人类注释器。
本节包括三部分,即(1)基线模型,自动评估,(2)和(3)人类的评估。第一部分强调了基线模型用于比较和分析。第二部分论述了结果通过执行模型的自动评估。第三和最后一节讨论的结果从人类评估和分析人类注释和自动指标之间的关系。
TESLEA相比其他强大基线模型及其细节讨论如下:
BART-Fine-tuned: BART-Fine-tuned BART-large模型调整使用<我t一个lic>
Lml在Devaraj等提出的数据集
BART-UL: Devaraj et al (
混乱:吵架
。
保持简单(ki):拉班等(
比起飞马模型:飞马的基于变压器encoder-decoder模型,取得了最先进的成果在许多text-summarization数据集。这是专门为文本摘要的任务。在我们的分析中,我们使用2变种的飞马座模型,即(1)PEGASUS-large,飞马座的大变异模型,(2)PEGASUS-pubmed-large,飞马座的大变体模型在PubMed pretrained数据集。飞马模型调整使用<我t一个lic>
Lml在Devaraj等提出的数据集
上述模型是唯一可用于医学TS 2022年6月。
指标用于自动评估FKGL,阿里,ROUGE-1, ROUGE-2,纱丽,BARTScore。平均可读性指标分数(即FKGL和ARI)获得的各种模型报告
Flesch-Kincaid年级水平和自动生成的文本可读性指数。<年代up>一个
文本 | Flesch-Kincaid年级水平 | 自动可读性指数 | ||
|
|
|
||
|
技术抽象 | 14.42 | 15.58 | |
标准的引用 | 13.11 | 15.08 | ||
|
|
|
||
|
BART-Fine-tuned | 13.45 | 15.32 | |
BART-UL | 11.97 | 13.73<年代up>b | ||
TESLEA | 11.84<年代up>b | 13.82 | ||
吵架<年代up>c | 14.29 | 17.29 | ||
保持简单 | 14.15 | 17.05 | ||
PEGASUS-large | 14.53 | 17.55 | ||
PEGASUS-pubmed-large | 16.35 | 19.8 |
一个TESLEA显著减少FKGL, ARI分数相比,平实的语言总结。
b最好的得分。
c混乱:多语种无人监督的句子简化。
ROUGE-1 ROUGE-2,纱丽分数为生成的文本。<年代up>一个
模型 | ROUGE-1 | ROUGE-2 | 莎丽 |
BART-Fine-tuned | 0.40 | 0.11 | 0.39 |
BART-UL | 0.38 | 0.14 | 0.40<年代up>b |
TESLEA | 0.39 | 0.11 | 0.40<年代up>b |
吵架<年代up>c | 0.23 | 0.03 | 0.34 |
保持简单 | 0.23 | 0.03 | 0.32 |
PEGASUS-large | 0.44<年代up>b | 0.18<年代up>b | 0.40<年代up>b |
PEGASUS-pubmed-large | 0.42 | 0.16 | 0.40<年代up>b |
一个TESLEA达到类似的性能与其他模型。ROUGE-1更高的分数,ROUGE-2,纱丽是可取的。
b最佳性能。
c混乱:多语种无人监督的句子简化。
信实分数和f分数模型生成的文本。<年代up>一个
模型 | 信实的分数 | f值 |
BART-Fine-tuned | 0.137 | 0.078 |
BART-UL | 0.242 | 0.061 |
TESLEA | 0.366<年代up>b | 0.097<年代up>b |
吵架<年代up>c | 0.031 | 0.029 |
保持简单 | 0.030 | 0.028 |
PEGASUS-large | 0.197 | 0.073 |
PEGASUS-pubmed-large | 0.29 | 0.063 |
一个更高的分数的信实和f值是可取的。
b最高得分。
c混乱:多语种无人监督的句子简化。
报告的可读性指标得分
此外,我们报告的纱丽
有重大进展在设计自动度量能够捕捉语言文本生成的语言模型的质量。这样一个能够衡量的质量生成的文本BARTScore [
根据分析由元et al (
定性分析我们随机选择50个句子从测试数据和基于巴特模型计算的平均数量标记词汇表。的可读性,我们计算了FKGL许多这些生成的文本和指出错误信息等任何文本不一致。分析表明,大多数模型生成的文本明显小于对照的引用(
从定性的角度来看,大多数基线模型生成的句子包括大量的文本复制从原始复杂医学段落。克义斯模型生成的输出不完整,出现“嘈杂”。噪音的产生的原因之一可能是由于不稳定的培训由于缺乏一个巨大的语料库的特定领域的数据。BART-UL-generated段落由FKGL简化为表示,阿里分数,但他们在本质上是萃取(即模型从原始医学学会选择简化句子段落和他们结合形成一个简化)。PEGASUS-pubmed-large-generated段落也萃取在性质和类似于BART-UL-generated段落,但发现他们语法不一致。相对于基线模型,生成的文本TESLEA是简洁,语义上相关的,和简单,不涉及任何医疗与领域相关的复杂的词汇。
除了复制文本,模型也诱导错误信息在生成的文本。最常见的诱发错误观察“证据是当前[日期],”所示
平均数量的令牌和Flesch-Kincaid年级平均成绩为选定的样本。
模型 | 数量的令牌 | Flesch-Kincaid年级水平 |
技术抽象 | 498.11 | 14.37 |
标准的引用 | 269.74 | 12.77 |
TESLEA | 131.37 | 12.34 |
BART-UL | 145.08 | 12.66 |
保持简单 | 187.59 | 13.78 |
多语种无人监督的句子简化 | 193.07 | 13.86 |
PEGASUS-large | 272.04 | 13.93 |
PEGASUS-pubmed-large | 150.00 | 15.09 |
比较的文本生成的模型。蓝色高亮显示的文本表示复制。置信区间:置信区间;FEV:强迫呼气量;N:人口规模;PEV:呼气流量峰值;RR:呼吸速率。
错误的例子中发现生成的文本。CIDSL:科妮莉亚德兰格综合症;丙种球蛋白:静脉注射免疫球蛋白;女士:多发性硬化症;体育:血浆置换。
对于这个研究,3领域专家评估文本生成的质量,基于因素信息,流感,寇,FAC,和正面,提出元等(
李克特平均得分为每个因素也是由每一个评定等级(
进一步评估结果是否自动度量真正意味着改善TESLEA生成文本的质量,人类评级之间的斯皮尔曼等级相关系数进行了计算和自动计量51生成段落(文本)中所示的结果
平均比例评分者间信协议。
评分者间信协议 | 信息量,% | 流利,% | 真实性,% | 一致性,% | 充足,% |
A1<年代up>一个和A2<年代up>b | 82.35 | 82.35 | 82.35 | 70.59 | 82.35 |
A1、A3<年代up>c | 70.59 | 58.82 | 70.59 | 70.59 | 70.59 |
A2和A3 | 52.94 | 70.59 | 74.51 | 74.51 | 64.71 |
平均(%协议) | 68.63 | 70.59 | 74.51 | 74.51 | 72.55 |
一个A1:注释器1。
bA2:注释器2。
cA3:注释器3。
李克特平均得分由每个评定等级的信息量,流畅性,真实性、一致性和充分性。
评定等级 | 信息量 | 流利 | 真实性 | 一致性 | 充分性 |
A1 | 3.82 | 4.12 | 3.91 | 3.97 | 3.76 |
A2 | 3.50 | 4.97 | 3.59 | 4.82 | 3.68 |
A3 | 4.06 | 3.94 | 3.85 | 3.94 | 3.85 |
李克特平均得分 | 3.79 | 4.34 | 3.78 | 4.24 | 3.76 |
斯皮尔曼等级相关系数之间的自动计量和人力评级TESLEA生成的文本。
度规 | 信息量 | 流利 | 真实性 | 一致性 | 充分性 |
ROUGE-1 | 0.18<年代up>一个 | -0.04 | -0.01 | -0.05 | 0.06 |
ROUGE-2 | 0.08 | -0.01 | -0.05 | -0.04 | 0.05 |
莎丽 | 0.09 | -0.66 | -0.13 | -0.01 | 0.01 |
BARTScore | 0.08 | 0.32<年代up>一个 | 0.38<年代up>一个 | 0.22<年代up>一个 | 0.07<年代up>一个 |
一个最好的结果。
复杂的样品,简单(黄金)和医疗段落以及自动生成指标和人类注释。
最新的关于生物医学的研究往往是无法向公众由于特定领域的医学术语。一个解决这个问题的方法是通过创建一个系统,将复杂的医疗信息转化为一个更简单的形式,从而使每个人都可以利用它。在这项研究中,TS的方法开发了可以自动简化复杂医学段落同时保持生成的文本的质量。比起该方法训练的基于变压器巴特TS模型优化奖励具体,导致增加了简单性。巴特模型训练的使用提出了RL方法优化某些奖励,帮助生成简单的文本,同时保持生成的文本的质量。结果,训练模型生成简化文本2等级降低了原始文本的复杂性的点,当测量使用FKGL [
虽然这项研究是一个重大贡献的文学医疗TS,该方法也存在一些局限性,解决可导致更好的输出。TESLEA可以生成文本的简单版本,但在某些情况下,这导致错误信息,导致减少FAC和信息生成的文本。因此,有必要设计奖励考虑FAC和信息生成的文本。我们还计划开展广泛的人类大规模评估各种模型生成的文本(如小孩,BART-UL)使用领域专家(如医生和医学生)。
Transformer-based语言模型是敏感pretraining政权,所以可能的下一步是pretrain语言模型等特定领域的原始数据集PubMed [
兴趣和需要TS在医学领域的日益增长的兴趣随着数据量的不断增加。自动化系统,如一个摘要,可以大大增加对公众的可访问性信息。这项工作不仅提供了自动化的TS的技术解决方案,而且还列出了和地址的挑战评估这些系统的输出,可以高度主观的。作者的真诚希望这项工作允许其他研究人员建立和提高质量的类似努力。
培训程序和解码方法。
Hyperparameters和评价指标。
缩写和例子。
自动化的可读性指数
从变压器双向编码器表示
Flesch-Kincaid年级水平
生成pretraining变压器
最大似然估计
保持简单
最大可能损失
词汇简化
长时间的短期记忆
多语种无人监督的句子简化
平实的语言总结
FKGL奖励
强化学习
作者感谢研究小组在DaTALab,湖首大学的支持。作者还要感谢计算加拿大提供计算资源没有这研究是不可能的。这项研究是由NSERC发现(rgpin - 2017 - 05377)所持有的Vijay Mago博士。作者感谢Aditya先生Singhal湖首大学(MSc)提供反馈的手稿。
没有宣布。