卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMI

地中海JMIR通知

JMIR医学信息

2291 - 9694

卡塔尔世界杯8强波胆分析

加拿大多伦多

v10i11e38095

36399375

10.2196/38095

原始论文

医学文本简化使用强化学习(TESLEA):深上优于文字简化方法

郝

田勇

张

Tianlin

金

Seongsoon

Suominen

汉娜

Phatak

Atharva

MSc 1

计算机科学部门湖首大学

奥利弗路955号

雷声湾,P7B 5 e1

加拿大 1 8073558351 phataka@lakeheadu.ca

https://orcid.org/0000 - 0003 - 3471 - 4784

野蛮人

大卫·W

医学博士 2

https://orcid.org/0000 - 0003 - 2837 - 3127

部

罗伯特。

MSc,妈,MBBCh 3

https://orcid.org/0000 - 0001 - 8263 - 0556

史密斯

乔纳森

医学博士 2

https://orcid.org/0000 - 0003 - 0743 - 5720

Mago

维贾伊

博士学位 1

https://orcid.org/0000 - 0002 - 9741 - 3463

1 计算机科学部门湖首大学

桑德贝,

加拿大 2 NOSM大学

桑德贝,

加拿大 3 NOSM大学

萨德伯里,

加拿大

通讯作者:Atharva Phatak phataka@lakeheadu.ca

11 2022年

18 11 2022年

10 11

e38095

18 3 2022年 27 6 2022年 8 8 2022年 12 10 2022年

©Atharva Phatak David W野蛮,罗伯特•部Vijay Mago乔纳森•史密斯。最初发表在JMIR医学信息学(https://medinform.www.mybigtv.com), 18.11.2022。

2022年

这是一个开放分布式根据条知识共享归属许可(https://creativecommons.org/licenses/by/4.0/),它允许无限制的使用、分配、和繁殖在任何媒介,提供原工作,首次出版于JMIR医学信息学是正确引用。完整的书目信息,原始发布在https://medinform.www.mybigtv.com/上的链接,以及这个版权和许可信息必须包括在内。

背景

在大多数情况下,文章的摘要在医学领域是公开的。虽然这些每个人都可以理解,他们难以理解更广泛的受众由于复杂的医学词汇。因此,简化这些复杂的抽象是至关重要的医学研究的公众。

客观的

本研究旨在开发一种基于深度学习文本简化(TS)的方法,将复杂的医学文本转换成一个更简单的版本,同时保持生成的文本的质量。

方法

比起TS方法利用强化学习和的基于变压器开发语言模型。相关奖励,Flesch-Kincaid奖励,词汇简单奖励进行了优化,帮助简化复杂医学jargon-dense段落的更简单的版本,同时保持文本的质量。模型训练使用3568 complex-simple医疗段落和评估480段的帮助通过自动度量和人类的注释。

结果

该方法优于以往的基线Flesch-Kincaid得分(11.84),取得了类似的性能与其他基线测量时使用ROUGE-1 (0.39), ROUGE-2(0.11),和莎丽成绩(0.40)。手动评估表明,人类注释器之间的协议比例超过70%时流畅性等因素,连贯性,适当考虑。

结论

独特的医疗TS方法是成功开发利用强化学习和准确地简化了复杂的医疗段落,从而增加他们的可读性。提出TS的方法可以应用于自动生成简化文本对于复杂的医学文本数据,这将增强的可访问性生物医学研究更广泛的受众。

医学文本简化强化学习自然语言处理手动评估

介绍背景

生物医学领域的研究包含必要的信息关于新新药临床试验相关话题和治疗各种疾病。虽然这信息是公开的,它往往有复杂的医学术语,使公众难以理解。解决这个问题的一个方法是通过将复杂的医学文本转换为一种简单的语言,可以被理解为更广泛的观众。尽管手册文字简化(TS)是解决问题的一种方法,它不能被生物医学文献的迅速扩张的身体。因此,有必要发展的<我t一个lic> 自然语言处理方法可以自动执行TS。

相关奖励

相关奖励措施目标文本的语义是如何捕获的简化版本。这是通过计算目标之间的余弦相似性计算文本嵌入(<我t一个lic> E<年代ub>T )和生成的文本嵌入(<我t一个lic> E<年代ub>G )。BioSentVec [ 31日),一个文本嵌入模型训练有素的医疗文件,用于生成文本嵌入。的步骤来计算相关性评分算法中描述1。

的<我t一个lic> RelevanceReward函数接受三个参数作为输入,即目标文本(<我t一个lic> T),生成的文本(<我t一个lic> G)和嵌入模型(<我t一个lic> 米)。这个函数<我t一个lic> ComputeEmbedding需要输入文本和嵌入模型(<我t一个lic> 米)作为输入,并生成相关的文本嵌入。最后,余弦相似性生成的文本嵌入(<我t一个lic> E<年代ub>G )和目标文本嵌入(<我t一个lic> E<年代ub>T )计算获得奖励(算法1,第4行)。

Flesch-Kincaid等级奖励

FKGL指的是年级水平必须达到理解了的信息。FKGL更高分数表明文本更为复杂,和一个较低的分数表明,文本就更简单了。文本FKGL (S)计算使用公式1 ( 29日]:

FKGL (S) = 0.38×(总单词/句子总)+ 1.8×(总音节/总的话)- (15.59) (1)

FKGL奖励(<我t一个lic> R<年代ub>Flesch )是旨在减少生成的文本和计算的复杂性,提出了算法2。

算法2的功能<我t一个lic> FleschKincaidReward有2个参数作为输入,即生成的文本(<我t一个lic> G)和目标文本(<我t一个lic> T)。的<我t一个lic> FKGLScore函数计算FKGL给定文本。一旦FKGL为<我t一个lic> T和<我t一个lic> G计算,Flesch-Kincaid奖励(<我t一个lic> R<年代ub>Flesch )计算相对的区别<我t一个lic> r(<我t一个lic> T),<我t一个lic> r(<我t一个lic> G)(算法2,4行)<我t一个lic> r(<我t一个lic> T),<我t一个lic> r(<我t一个lic> G)表示目标的FKGL和生成的文本。

词汇简单的奖励

词汇简洁是用来衡量是否在生成的文本(<我t一个lic> G)比源文本中的词(简单<我t一个lic> 年代)。拉班等( 26]提出使用之间的关系词的词汇简单奖励困难和词频 32]。如词频遵循<我t一个lic> zipf法律,拉班等 26用它来设计奖励功能,涉及到计算<我t一个lic> zipf新插入的单词的频率,<我t一个lic> Z(<我t一个lic> G- - - - - -<我t一个lic> 年代),删除的话,<我t一个lic> Z(<我t一个lic> S - G)。中定义的词汇简单的奖励是拉班等提出的一样( 26算法3)和描述。数据集的分析提出Devaraj et al ( 8)显示,87%的简单和复杂双Δ价值<我t一个lic> Z(<我t一个lic> 年代,<我t一个lic> GΔ)≈0.4<我t一个lic> Z(<我t一个lic> 年代,<我t一个lic> G)=<我t一个lic> Z(<我t一个lic> G- - - - - -<我t一个lic> 年代)- - -<我t一个lic> Z(<我t一个lic> 年代- - - - - -<我t一个lic> G)之间的差异<我t一个lic> zipf插入文字和删除的话,频率与词法奖励的价值(<我t一个lic> R<年代ub>词汇 )比例在0和1之间。

在算法3中,<我t一个lic> LexicalSimplicityReward需要源文本(<我t一个lic> 年代)和生成的文本(<我t一个lic> G)作为输入。功能<我t一个lic> ZIPFInserted( 25),<我t一个lic> ZIPFDeleted( 25)计算<我t一个lic> zipf新插入的单词和删除的单词的频率。最后,词汇奖励(<我t一个lic> R<年代ub>词汇 )计算和归一化,如第5行所示。

培训程序和基准模型 Pretrained巴特

基线语言模型在本研究中用于执行简化是巴特 14),这是一个基于变压器encoder-decoder pretrained使用去噪的目标函数模型。译码器的部分模型自回归自然,使其更适合sentence-generation任务。此外,巴特模型实现强劲表现自然语言生成等任务总结,证明在XSum [ 33)和CNN /英国《每日邮报》( 34)数据集。在这种情况下,一个版本的巴特调整XSUM [ 33使用数据集。

语言模型微调

Transformer-based语言模型是pretrained大语料库的文本,后来调整在下游任务通过最小化最大似然损失(<我t一个lic> Lml()函数 3]。考虑一个成对的数据集<我t一个lic> C,每个实例包含一个句子包含源<我t一个lic> n令牌<我t一个lic> x= {<我t一个lic> x₁、…<我t一个lic> x<年代ub>n }和目标序列包含<我t一个lic> 米令牌<我t一个lic> y= {<我t一个lic> y₁、…<我t一个lic> y<年代ub>n },<我t一个lic> Lml函数是在方程2和4中描述的计算算法。

在哪里<我t一个lic> θ代表了模型参数<我t一个lic> y_< _t 表示前标记之前的位置<我t一个lic> t( 35]。

然而,通过最小化的结果<我t一个lic> Lml并不总是最优的。有两个主要原因的退化的结果。第一个被称为“风险偏好”( 36],它发生在每一步模型预计标准数据的训练,但是在测试期间没有接受适当的监督,导致错误的积累在预测。第二个被称为“崩溃”表示 37),这是一个退化的pretrained语言模型表示在微调。Ranzato et al ( 36)避免接触问题的偏见通过直接优化特定离散度量而不是减少<我t一个lic> Lml的帮助下RL-based算法称为强化[ 38]。加强的一个变种 38)称为自我批评序列训练( 39)是直接用于本研究优化某些奖励专门为TS设计;以下小节中提供了更多这方面的信息。

自我批评序列训练

TS可以制定一个RL的问题,在“代理”(语言模型)与环境交互采取“行动”(下一个词预测)基于学习“政策”(<我t一个lic> p<年代ub>θ )定义的模型参数<我t一个lic> θ虽然观察一些奖励(<我t一个lic> R)。在这个工作中,巴特( 14)是作为语言模型,强化( 38)算法被用来学习最优政策,最大化的回报。具体来说,加强是使用一个基线稳定训练过程使用一个目标函数(<我t一个lic> 液化石油气)和一个基线奖励<我t一个lic> b方程(3):

在哪里<我t一个lic> p<年代ub>θ (<我t一个lic> y<年代ub>我 ^年代|…)表示的概率<我t一个lic> 我th词条件以前生成的采样序列的模型;<我t一个lic> r(<我t一个lic> y<年代up>年代 )表示奖励计算一个句子使用抽样生成;表示源句子,和<我t一个lic> n的长度是生成的句子。奖励计算的加权和相关奖励(<我t一个lic> R<年代ub>余弦 ),<我t一个lic> R<年代ub>Flesch ,词汇简单的奖励(<我t一个lic> R<年代ub>词汇 ; 图2),是由:

在哪里<我t一个lic> α,<我t一个lic> β,<我t一个lic> d分别与奖励相关联的权重。

近似基线奖励,自我批评序列训练( 39使用了)。基线计算通过计算奖励值一个句子生成使用贪婪的解码<我t一个lic> r(<我t一个lic> y*)由当前模型及其算法5中描述的计算。方程5中的损失函数的定义:

在哪里<我t一个lic> y*表示生成的句子使用贪婪的解码。更多细节描述贪婪的解码多媒体附录1(参见[ 8, 14, 17, 25, 26, 39- - - - - - 42])。

图2

计算回报函数计算的加权和三个奖励:Fkgl奖励,词汇简单奖励,相关奖励。

直观地说,通过最小化方程描述的损失5,选择样本序列的可能性(<我t一个lic> y<年代up>年代 )是提升如果采样序列获得的奖励,<我t一个lic> r(<我t一个lic> y<年代up>年代 ),大于基线的奖励获得回报,也就是说,样本返回更高的回报比<我t一个lic> r(<我t一个lic> y*)。样品随后抑制获得较低的回报。该模型使用的组合训练<我t一个lic> Lml和政策梯度损失类似于( 43]。总体损失给出如下:

l=<我t一个lic> γLpg+ (1 -<我t一个lic> γ)<我t一个lic> Lml (6)

在哪里<我t一个lic> γ是一个比例因子,可以调整。

培训过程的总结

总的来说,培训过程遵循两步方法。随着pretrained巴特( 14)没有受过训练的医疗与领域相关的文本,这是第一调整文档级配对数据集( 8)通过最小化<我t一个lic> Lml(最大似然估计(企业);方程2)。在第二部分中,使用RL巴特模型训练进一步调整。TESLEA的RL过程包括两个步骤:(1)RL步骤和大中型企业的优化步骤(2),这都是所示图3并进一步6中描述的算法。给定的简单文本对巴特模型转换为所需的标记。在标定步骤中,这些令牌用于计算<我t一个lic> 分对数从模型,最后企业损失计算。在RL步骤中,使用2模型生成简化文本解码策略:(1)贪婪的解码和(2)多项抽样。奖励计算加权求和( 图3),句子使用的解码生成策略。这些奖励是用来计算的损失RL一步。最后,损失计算的加权和,用于估算梯度和更新模型参数。所有hyperparameter设置都包括在使用多媒体附录2(参见[ 8, 12, 29日, 33, 34, 44- - - - - - 47])。

图3

基于强化学习培训过程TESLEA。企业:最大似然估计;RL:强化学习。

自动的度量标准

两个可读性指标被用来执行自动生成的文本的评价,即FKGL和自动可读性指标(阿里斯)。TS的纱丽的分数是一个标准的指标。ROUGE-1和ROUGE-2[的f - 1版本 44)成绩也有相关报道。读者可以找到关于这些指标的更多细节多媒体附录2。测量的质量生成的文本,元等人提出的标准( 45)使用,这是“自动评价指标”一节中提到的多媒体附录2。元等人提出的标准( 45)可以自动计算基于模型的指标称为“BARTScore使用语言。“进一步的细节如何使用BARTScore测量的质量也提到在生成的文本多媒体附录2。

人类的评估

在这项研究中,3-domain专家判断的质量生成的文本基于上一节所提到的因素。评价者率文本李克特规模从1到5。首先,简化使用TESLEA生成测试数据,然后生成51段落是随机挑选的,创造3子集包含17个段落。每一个评估者被授予两个子集,也就是说,总共34 complex-simple TESLEA-generated段落。评估通过谷歌的形式进行,人类注释器被要求测量信息量的简化质量(信息),流畅(流感),一致性(正)、真实性(FAC)和充分性(正面)( 图4)。所有的数据都存储在CSV文件进行统计分析。

图4

一个示例问题被人类注释器。

结果概述

本节包括三部分,即(1)基线模型,自动评估,(2)和(3)人类的评估。第一部分强调了基线模型用于比较和分析。第二部分论述了结果通过执行模型的自动评估。第三和最后一节讨论的结果从人类评估和分析人类注释和自动指标之间的关系。

基线模型

TESLEA相比其他强大基线模型及其细节讨论如下:

BART-Fine-tuned: BART-Fine-tuned BART-large模型调整使用<我t一个lic> Lml在Devaraj等提出的数据集 8]。研究表明,大型pretrained模型经常执行竞争当下游任务的调整,从而使这一个强劲的竞争对手。

BART-UL: Devaraj et al ( 8)也提出了段落级医疗TS BART-UL。它是第一个模型进行段落级医疗TS和自动化指标取得了强劲业绩。BART-UL被训练使用一个不大可能的目标函数,处罚的模型生成技术词(即复杂的词语)。进一步的细节描述BART-UL的训练过程多媒体附录1。

混乱:吵架 17]是一种BART-based语言模型训练的矿业转述CCNet语料库[ 18]。吵架训练于100万年组成的一个数据集的迂回,帮助它实现一个强大的纱丽得分。虽然吵架是训练有素的文句上的数据集,它仍然作为一个强大的基准进行比较。讨论进一步的细节在训练程序混乱多媒体附录1

。

保持简单(ki):拉班等( 26)段落级TS。克义斯提出了一个无监督方法是训练使用RL和使用GPT-2模型作为支柱。克义斯已经显示出强劲表现在纱丽得分击败很多监督和非监督TS的方法。克义斯描述了培训过程的额外细节多媒体附录1。

比起飞马模型:飞马的基于变压器encoder-decoder模型,取得了最先进的成果在许多text-summarization数据集。这是专门为文本摘要的任务。在我们的分析中,我们使用2变种的飞马座模型,即(1)PEGASUS-large,飞马座的大变异模型,(2)PEGASUS-pubmed-large,飞马座的大变体模型在PubMed pretrained数据集。飞马模型调整使用<我t一个lic> Lml在Devaraj等提出的数据集 8]。关于飞马模型的更多信息,建议读者引用( 46]。

上述模型是唯一可用于医学TS 2022年6月。

自动计量的结果

指标用于自动评估FKGL,阿里,ROUGE-1, ROUGE-2,纱丽,BARTScore。平均可读性指标分数(即FKGL和ARI)获得的各种模型报告表1。ROUGE-1 ROUGE-2,纱丽成绩报告表2BARTScore报道表3。

表1

Flesch-Kincaid年级水平和自动生成的文本可读性指数。<年代up>一个

文本			Flesch-Kincaid年级水平	自动可读性指数
基线
	技术抽象	14.42		15.58
	标准的引用	13.11		15.08
生成模型
	BART-Fine-tuned	13.45		15.32
	BART-UL	11.97		13.73<年代up>b
	TESLEA	11.84<年代up>b		13.82
	吵架<年代up>c	14.29		17.29
	保持简单	14.15		17.05
	PEGASUS-large	14.53		17.55
	PEGASUS-pubmed-large	16.35		19.8

^一个TESLEA显著减少FKGL, ARI分数相比,平实的语言总结。

^b最好的得分。

^c混乱:多语种无人监督的句子简化。

表2

ROUGE-1 ROUGE-2,纱丽分数为生成的文本。<年代up>一个

模型	ROUGE-1	ROUGE-2	莎丽
BART-Fine-tuned	0.40	0.11	0.39
BART-UL	0.38	0.14	0.40<年代up>b
TESLEA	0.39	0.11	0.40<年代up>b
吵架<年代up>c	0.23	0.03	0.34
保持简单	0.23	0.03	0.32
PEGASUS-large	0.44<年代up>b	0.18<年代up>b	0.40<年代up>b
PEGASUS-pubmed-large	0.42	0.16	0.40<年代up>b

^一个TESLEA达到类似的性能与其他模型。ROUGE-1更高的分数,ROUGE-2,纱丽是可取的。

^b最佳性能。

^c混乱:多语种无人监督的句子简化。

表3

信实分数和f分数模型生成的文本。<年代up>一个

模型	信实的分数	f值
BART-Fine-tuned	0.137	0.078
BART-UL	0.242	0.061
TESLEA	0.366<年代up>b	0.097<年代up>b
吵架<年代up>c	0.031	0.029
保持简单	0.030	0.028
PEGASUS-large	0.197	0.073
PEGASUS-pubmed-large	0.29	0.063

^一个更高的分数的信实和f值是可取的。

^b最高得分。

^c混乱:多语种无人监督的句子简化。

可读性指标,胭脂,纱丽的分数

报告的可读性指标得分表1表明FKGL TESLEA获得的分数更好(比如,一个较低的分数)与FKGL相比获得的分数比较技术抽象(即复杂医学段落中可用数据集)与对照的引用(即简单的医疗段落对应复杂医学段落)。此外,TESLEA FKGL达到最低的得分(11.84)与基线模型相比,表明TS显著改善。研究结果表明,(1)BART-based变压器模型能够在段落级别执行简化,这样输出减少阅读水平(FKGL)与技术提取相比,标准的引用和基线模型。(2)该方法优化TS-specific奖励允许生成文本对照的可读性比甚至引用,FKGL表示的分数表1。减少FKGL分数可以用这一事实来解释FKGL奖励的一部分(<我t一个lic> R<年代ub>Flesch ),直接被优化。

此外,我们报告的纱丽 12)和胭脂分数( 44)所示表2。莎丽是一个标准的指标能TS语句中使用自动任务。胭脂分数是另一个标准在文本摘要任务指标。结果表明,TESLEA匹配的性能基线模型胭脂和纱丽的分数。虽然没有明确的模式当胭脂和纱丽分数被认为,在文本的质量有差异所产生的这些模型和解释“文本质量测量”小节。

文本质量测量

有重大进展在设计自动度量能够捕捉语言文本生成的语言模型的质量。这样一个能够衡量的质量生成的文本BARTScore [ 45]。BARTScore显示强烈的相关性与人类评估各种任务包括机器翻译、文本摘要。BARTScore有4个不同的指标(即忠诚得分,精度,还记得,f值),可以用来测量不同质量生成的文本。更多细节关于如何使用BARTScore中提到多媒体附录2。

根据分析由元et al ( 45],信实得分生成文本的措施三个方面通过正、流感和前沿空中管制官。生成文本的f值措施两个方面(信息和正面)。在我们的分析中,我们使用这两个变种BARTScore测量正、流感、FAC,信息,和外壳。TESLEA达到最高的值( 表3信实的得分(0.366)和f值(0.097),表明TS的回报为目的不仅有助于简化模型生成的文本,而且还在某种程度上保存生成的文本的质量。所有的模型是相对贫穷的F-scores(即分数接近1人)。低的原因之一F-scores可能引入错误信息或幻觉在生成的文本、语言模型的一个常见的问题,可以通过调整培训战略,专注于通过奖励或目标函数的帮助信息。

定性分析我们随机选择50个句子从测试数据和基于巴特模型计算的平均数量标记词汇表。的可读性,我们计算了FKGL许多这些生成的文本和指出错误信息等任何文本不一致。分析表明,大多数模型生成的文本明显小于对照的引用( 表4)。此外,TESLEA——和BART-UL-generated文本与其他相比均有显著短基线模型和TESLEA FKGL最低分数在所有的模型中所描绘的一样表4。

从定性的角度来看,大多数基线模型生成的句子包括大量的文本复制从原始复杂医学段落。克义斯模型生成的输出不完整,出现“嘈杂”。噪音的产生的原因之一可能是由于不稳定的培训由于缺乏一个巨大的语料库的特定领域的数据。BART-UL-generated段落由FKGL简化为表示,阿里分数,但他们在本质上是萃取(即模型从原始医学学会选择简化句子段落和他们结合形成一个简化)。PEGASUS-pubmed-large-generated段落也萃取在性质和类似于BART-UL-generated段落,但发现他们语法不一致。相对于基线模型,生成的文本TESLEA是简洁,语义上相关的,和简单,不涉及任何医疗与领域相关的复杂的词汇。图5显示了一个示例的文本生成的模型,用蓝色文本指示复制文本。

除了复制文本,模型也诱导错误信息在生成的文本。最常见的诱发错误观察“证据是当前[日期],”所示图6。这个文本错误发生由于数据的结构(例如,请包含语句与此相关的研究,但这些语句并不在原始文本;因此,模型试图将这些语句添加到生成的文本虽然不是事实正确)。因此相当大的要注意包括FAC措施在这些模型的训练。为一个更完整的评估质量的简化,人类进行了评估使用领域专家TESLEA生成的文本。

表4

平均数量的令牌和Flesch-Kincaid年级平均成绩为选定的样本。

模型	数量的令牌	Flesch-Kincaid年级水平
技术抽象	498.11	14.37
标准的引用	269.74	12.77
TESLEA	131.37	12.34
BART-UL	145.08	12.66
保持简单	187.59	13.78
多语种无人监督的句子简化	193.07	13.86
PEGASUS-large	272.04	13.93
PEGASUS-pubmed-large	150.00	15.09

图5

比较的文本生成的模型。蓝色高亮显示的文本表示复制。置信区间:置信区间;FEV:强迫呼气量;N:人口规模;PEV:呼气流量峰值;RR:呼吸速率。

图6

错误的例子中发现生成的文本。CIDSL:科妮莉亚德兰格综合症;丙种球蛋白:静脉注射免疫球蛋白;女士:多发性硬化症;体育:血浆置换。

人类的评估

对于这个研究,3领域专家评估文本生成的质量,基于因素信息,流感,寇,FAC,和正面,提出元等( 45),讨论了多媒体附录2。测量评分者间信度,计算百分比之间的协议注释器,显示了生成的结果表5。的平均百分比协议因素的流感,寇,FAC,正面是最高,表明注释器同意在他们的评估。

李克特平均得分为每个因素也是由每一个评定等级( 表6)。从数据中提到表6,评级机构认为COH和流感质量最高,正面,FAC,信息也相当高。

进一步评估结果是否自动度量真正意味着改善TESLEA生成文本的质量,人类评级之间的斯皮尔曼等级相关系数进行了计算和自动计量51生成段落(文本)中所示的结果表7。BARTScore相关性与人类最高评级的流感,FAC,寇,正面与其他指标。几个文本样本连同他们的人工注释和自动的指标分数所示多媒体附录3和图7。

表5

平均比例评分者间信协议。

评分者间信协议	信息量,%	流利,%	真实性,%	一致性,%	充足,%
A1<年代up>一个和A2<年代up>b	82.35	82.35	82.35	70.59	82.35
A1、A3<年代up>c	70.59	58.82	70.59	70.59	70.59
A2和A3	52.94	70.59	74.51	74.51	64.71
平均(%协议)	68.63	70.59	74.51	74.51	72.55

^一个A1:注释器1。

^bA2:注释器2。

^cA3:注释器3。

表6

李克特平均得分由每个评定等级的信息量,流畅性,真实性、一致性和充分性。

评定等级	信息量	流利	真实性	一致性	充分性
A1	3.82	4.12	3.91	3.97	3.76
A2	3.50	4.97	3.59	4.82	3.68
A3	4.06	3.94	3.85	3.94	3.85
李克特平均得分	3.79	4.34	3.78	4.24	3.76

表7

斯皮尔曼等级相关系数之间的自动计量和人力评级TESLEA生成的文本。

度规	信息量	流利	真实性	一致性	充分性
ROUGE-1	0.18<年代up>一个	-0.04	-0.01	-0.05	0.06
ROUGE-2	0.08	-0.01	-0.05	-0.04	0.05
莎丽	0.09	-0.66	-0.13	-0.01	0.01
BARTScore	0.08	0.32<年代up>一个	0.38<年代up>一个	0.22<年代up>一个	0.07<年代up>一个

^一个最好的结果。

图7

复杂的样品,简单(黄金)和医疗段落以及自动生成指标和人类注释。

讨论主要研究结果

最新的关于生物医学的研究往往是无法向公众由于特定领域的医学术语。一个解决这个问题的方法是通过创建一个系统,将复杂的医疗信息转化为一个更简单的形式,从而使每个人都可以利用它。在这项研究中,TS的方法开发了可以自动简化复杂医学段落同时保持生成的文本的质量。比起该方法训练的基于变压器巴特TS模型优化奖励具体,导致增加了简单性。巴特模型训练的使用提出了RL方法优化某些奖励,帮助生成简单的文本,同时保持生成的文本的质量。结果,训练模型生成简化文本2等级降低了原始文本的复杂性的点,当测量使用FKGL [ 29日]。从获得的结果,可以得出结论,TESLEA有效生成简单的文本与技术提取相比,标准的引用(即简单的医疗段落对应复杂医学段落),和基线模型。虽然以前的工作( 8)开发基线模型这个任务,我们所知,这是第一次RL被应用到医学领域的TS。此外,以往的研究没有分析生成的文本的质量,本研究措施通过流感的因素、FAC,寇、形象和信息。手动评估TESLEA-generated文本进行了领域专家的帮助下使用上述因素和进一步的研究进行了分析,自动度量同意手工注释用斯皮尔曼等级相关系数。分析表明,BARTScore [ 45)最好的与人类注释在评估一个文本由TESLEA生成,表明TESLEA学会生成语义相关和流利的文字,传达必要的信息中提到的复杂医学段落。这些结果表明,(1)TESLEA医学段落,这样可以执行TS输出是简单和维护质量,(2)奖励TESLEA帮助优化模型捕获句法和语义信息,增加输出的流感和寇,目睹当输出BARTScore和人工评估的注释。

局限性和未来的工作

虽然这项研究是一个重大贡献的文学医疗TS,该方法也存在一些局限性,解决可导致更好的输出。TESLEA可以生成文本的简单版本,但在某些情况下,这导致错误信息,导致减少FAC和信息生成的文本。因此,有必要设计奖励考虑FAC和信息生成的文本。我们还计划开展广泛的人类大规模评估各种模型生成的文本(如小孩,BART-UL)使用领域专家(如医生和医学生)。

Transformer-based语言模型是敏感pretraining政权,所以可能的下一步是pretrain语言模型等特定领域的原始数据集PubMed [ 40),这将有助于为模型开发特定领域的词汇。包括这些策略可能有助于增加简单的生成的文本。

结论

兴趣和需要TS在医学领域的日益增长的兴趣随着数据量的不断增加。自动化系统,如一个摘要,可以大大增加对公众的可访问性信息。这项工作不仅提供了自动化的TS的技术解决方案,而且还列出了和地址的挑战评估这些系统的输出,可以高度主观的。作者的真诚希望这项工作允许其他研究人员建立和提高质量的类似努力。

多媒体附录1

培训程序和解码方法。

多媒体附录2

Hyperparameters和评价指标。

多媒体附录3

缩写和例子。

缩写

阿里

自动化的可读性指数

伯特

从变压器双向编码器表示

FKGL

Flesch-Kincaid年级水平

GPT

生成pretraining变压器

大中型企业

最大似然估计

克义斯

保持简单

Lml

最大可能损失

词汇简化

LSTM

长时间的短期记忆

吵架

多语种无人监督的句子简化

请

平实的语言总结

RFlesch

FKGL奖励

强化学习

作者感谢研究小组在DaTALab,湖首大学的支持。作者还要感谢计算加拿大提供计算资源没有这研究是不可能的。这项研究是由NSERC发现(rgpin - 2017 - 05377)所持有的Vijay Mago博士。作者感谢Aditya先生Singhal湖首大学(MSc)提供反馈的手稿。

没有宣布。

卡罗尔

Minnen

皮尔斯

罐头

Devlin

年代

泰特

简化文本为语言障碍的读者

1999年

第九次会议的欧洲计算语言学协会的章

1999年6月8 - 12,

挪威卑尔根

新泽西州新不伦瑞克

计算语言学协会

269年 270年

Paetzold

种社会

无人监督的词汇简化对非母语者

AAAI 2016年 03 05年 30. 1 3761年 3767年

10.1609 / aaai.v30i1.9885

Ganitkevitch

范Durme

凯里森

PPDB:释义数据库

学报2013年大会北美的计算语言学协会章:人类语言技术 2013年 6

北美的2013年大会的计算语言学协会章:人类语言技术

2013年6月9 - 12,

亚特兰大,乔治亚州

新泽西州新不伦瑞克

计算语言学协会

758年 764年

10.3115 / v1 / p15 - 2070

丽贝卡·托马斯。

年代

安德森

年代

WordNet-Based词汇简化文档

《自然语言处理(KONVENS 2012) 11日会议 2012年

第十一届会议上自然语言处理(KONVENS 2012)

2012年9月19日,

奥地利的维也纳

80年

羌族

李

朱

元

吴

词汇简化Pretrained编码器

AAAI 2020年 04 03 34 05年 8649年 8656年

10.1609 / aaai.v34i05.6389

朱

伯纳德

Gurevych

我

一个单语基于树的翻译句子简化模型

23日计算语言学国际会议的程序(科尔2010) 2010年

第23届国际会议上计算语言学(科尔2010)

2010年8月汽车出行

中国,北京

科尔2010年组委会

1353年 1361年

Wubben

年代

van den博世

一个

Krahmer

句子简化语机器翻译

学报50的计算语言学协会年度会议(卷1:长论文) 2012年

50计算语言学协会的年度会议

2012年7月8 - 14,

济州岛,韩国

新泽西州新不伦瑞克

计算语言学协会

1015年 1024年

Devaraj

一个

马歇尔

我

华莱士

李

段落级简化医疗文本

学报2021年大会北美的计算语言学协会章:人类语言技术 2021年 6

北美的2021年大会的计算语言学协会章:人类语言技术

2021年6月6尺11寸,

虚拟

新泽西州新不伦瑞克

计算语言学协会

4972年 4984年

10.18653 / v1/2021.naacl-main.395

Nisioi

年代

Štajner

年代

保罗Ponzetto

年代

Dinu

探索神经文字简化模型

学报55的计算语言学协会年度会议(卷2:短论文) 2017年

第55计算语言学协会的年度会议

2017年7月8月30日4日

温哥华公元前

新泽西州新不伦瑞克

计算语言学协会

85年 91年

10.18653 / v1 / p17 - 2014

阿夫扎尔

米

阿拉姆

马利克

公里

马利克

通用汽车

临床使用深层神经网络环境敏感生物医学文本摘要:模型的开发和验证

J地中海互联网Res 2020年 10 23 22 10 e19810

10.2196/19810

33095174

v22i10e19810

PMC7647812

张

Lapata

米

句子简化与强化学习

学报2017年大会在自然语言处理的经验方法 2017年

2017年大会在自然语言处理的经验方法

2017年9月7 - 11日

丹麦哥本哈根

新泽西州新不伦瑞克

计算语言学协会

584年 594年

10.18653 / v1 / d17 - 1062

徐

Napoles

Pavlick

陈

问

凯里森

简化优化统计机器翻译的文本

TACL 2016年 12 4 401年 415年

10.1162 / tacl_a_00107

Vaswani

一个

Shazeer

Parmar

Uszkoreit

琼斯

戈麦斯

一个

凯撒

Polosukhin

我

关注你所需要的

少量的31日17:诉讼国际会议上神经信息处理系统 2017年

少量的17:31日国际会议上神经信息处理系统

2017年12月4 - 9日,

CA长滩

红钩,纽约

Curran Associates Inc .)

6000年 6010年

刘易斯

米

刘

Goyal

Ghazvininejad

米

默罕默德

一个

莱维

Stoyanov

Zettlemoyer

巴特:去噪Sequence-to-Sequence训练的自然语言生成、翻译、和理解

学报》第五十八届计算语言学协会的年度会议 2020年 7

第58届计算语言学协会的年度会议

2020年7月5 - 10日

虚拟

新泽西州新不伦瑞克

计算语言学协会

7871年 7880年

10.18653 / v1/2020.acl-main.703

雷德福

一个

纳史木汗

Salimans

Sutskever

我

提高语言理解的生成训练

Amazon AWS 2022年

2022-10-31

https://s3 - 2. -西方- amazonaws.com/openai assets/research - covers/language unsupervised/language_understanding_paper.pdf

Raffel

Shazeer

罗伯茨

一个

李

纳

年代

Matena

米

周

李

刘

探索转移学习的局限性与一个统一的Text-to-Text变压器

机器学习研究杂志》上 2020年 21 1 67年

马丁

风扇

一个

de la Clergerie

誉为

一个

赛高特

混乱:多语种无人监督的句子简化矿业复述

arXiv 预印本网上发布于2021年4月16日

10.48550 / arXiv.2005.00352

Wenzek

Lachaux

马

Conneau

一个

乔杜里

古斯曼

Joulin

一个

坟墓

CCNet:从Web抓取数据中提取高质量的单语数据集

学报》第十二语言资源和评估会议 2020年

LREC 2020: 12日会议语言资源和评估

2020年5月16日

法国马赛的

欧洲语言资源协会

4003年 4012年

赵

陈

余

简化与反向翻译和不对称去噪Autoencoders Semi-Supervised文本

AAAI 2020年 04 03 34 05年 9668年 9675年

10.1609 / aaai.v34i05.6515

20.

苏利耶

年代

Mishra

一个

Laha

一个

耆那教徒的

Sankaranarayanan领导

无监督神经文本简化

学报》第57届计算语言学协会的年度会议 2019年

第57届计算语言学协会的年度会议

2019年8月28日7月2日

意大利的佛罗伦萨

新泽西州新不伦瑞克

计算语言学协会

2058年 2068年

10.18653 / v1 / p19 - 1198

太阳

金

湾

文档级文本简化:数据集,标准和基准

学报2021年大会在自然语言处理的经验方法 2021年

2021年大会在自然语言处理的经验方法

2021年11月7 - 11,

在线及迦南,多米尼加共和国

新泽西州新不伦瑞克

计算语言学协会

7997年 8013年

10.18653 / v1/2021.emnlp-main.630

水果贩

Kauchak

简单的英文维基百科:一个新的文本简化任务

美国第49计算语言学协会的年会:人类语言技术 2011年

第49届计算语言学协会:人类语言技术

2011年6月19日~ 24日

波特兰,或

新泽西州新不伦瑞克

计算语言学协会

665年 669年

江

Maddela

米

局域网

钟

神经CRF模型简化句子对齐的文本

学报》第五十八届计算语言学协会的年度会议 2020年 7

第58届计算语言学协会的年度会议

2020年7月5 - 10日

虚拟

新泽西州新不伦瑞克

计算语言学协会

7943年 7960年

10.18653 / v1/2020.acl-main.709

徐

凯里森

Napoles

问题在当前文本简化研究:新数据可以帮助

TACL 2015年 12 3 283年 297年

10.1162 / tacl_a_00139

Bjerva

Bos

van der赏金

它和

米

识别文本的意义工厂:正式的语义蕴涵和确定语义相似度

学报》第八届国际研讨会语义评价(SemEval 2014) 2014年

第八届国际研讨会语义评价(SemEval 2014)

2014年8月23 - 24日,

爱尔兰都柏林

新泽西州新不伦瑞克

计算语言学协会

642年 646年

10.3115 / v1 s14 - 2114

拉班

施纳贝尔

班尼特

赫斯特

米

保持简单:无监督简化Multi-Paragraph文本

学报》第59届年会计算语言学和第11届国际协会的联合会议上自然语言处理(卷1:长论文) 2021年

第59届年会计算语言学和第11届国际协会的联合会议上自然语言处理

2021年8月1 - 6,

在线

新泽西州新不伦瑞克

计算语言学协会

6365年 6378年

10.18653 / v1/2021.acl-long.498

van den Bercken

口

夸张

评估神经文字简化在医学领域

2019年 5

WWW的19:万维网会议

2019年5月,北京

旧金山CA

纽约,纽约

计算机协会(ACM)

3286年 3292年

10.1145/3308558.3313630

数据集

Github<一个ccess-date> 2022-10-31

https://github.com/AshOlogn/Paragraph-level-Simplification-of-Medical-Texts

29日

金凯的

摩根大通

小费什伯恩

罗杰斯

Chissom

废话

新可读性公式推导(自动可读性指数雾计数和Flesch阅读简化公式)的海军招募人员

海军技术训练司令部米林顿TN的研究分支 1975年 2 1

2022-10-31

https://apps.dtic.mil/sti/citations/ADA006655

30.

Papineni

Roukos

年代

病房

朱

蓝色:自动机器翻译评价的方法

美国40计算语言学协会的年度会议 2002年

40对计算语言学协会的年度会议

2002年7月7日

费城,宾夕法尼亚州

新泽西州新不伦瑞克

计算语言学协会

311年 318年

10.3115/1073083.1073135

31日

陈

问

彭

陆

句子BioSentVec:创建嵌入的生物医学文本

2019年

2019年IEEE国际会议上医疗信息学(阿)

2019年6月10号至13号,

西安,中国

纽约,纽约

IEEE

1 15

10.1109 / ICHI.2019.8904728

Breland

嗯

词频和词的困难:一个比较重要的四个全集

Psychol Sci 2016年 05年 06 7 2 96年 99年

10.1111 / j.1467-9280.1996.tb00336.x

纳拉

年代

科恩

某人

Lapata

米

不要给我细节,只是总结!Topic-Aware卷积神经网络对极端的总结

学报2018年大会在自然语言处理的经验方法 2018年

2018年大会在自然语言处理的经验方法

2018年10月31-November 4

比利时布鲁塞尔

新泽西州新不伦瑞克

计算语言学协会

1797年 1807年

10.18653 / v1 / d18 - 1206

Nallapati

周

多斯桑托斯

顾̇lcehre

香

摘要式的文本摘要使用Sequence-to-sequence RNNs和超越

20 SIGNLL会议程序计算自然语言学习 2016年 8

20 SIGNLL会议上计算自然语言学习

2016年8月广州

柏林,德国

新泽西州新不伦瑞克

计算语言学协会

280年 290年

10.18653 / v1 / k16 - 1028

气

严

龚

刘

段

陈

张

周

米

ProphetNet:预测未来语法Sequence-to-Sequence Pretraining

计算语言学协会发现,EMNLP 2020 2020年

EMNLP 2020

2020年11月16 - 20日

在线

新泽西州新不伦瑞克

计算语言学协会

2401年 2410年

Ranzato

米

乔普拉

年代

Auli

米

扎

序列递归神经网络训练水平

arXiv 预印本网上公布的5月6日,2016年。

Aghajanyan

一个

Shrivastava

一个

古普塔

一个

Goyal

Zettlemoyer

古普塔

年代

更好的调整减少表征崩溃

2020年 4

学习国际会议上表示(ICLR 2020)

2020年4月26 - 30日,

虚拟

威廉姆斯

简单的统计梯度跟随联结主义强化学习算法

马赫学习 1992年 5 8 3 - 4 229年 256年

10.1007 / BF00992696

兰尼

Marcheret

Mroueh

罗斯

戈埃尔

自我批评序列训练图像字幕

《IEEE计算机视觉与模式识别会议(CVPR) 2017年 7

2017年IEEE计算机视觉与模式识别会议(CVPR)

2017年7月,第21到26

火奴鲁鲁,嗨

纽约,纽约

IEEE

7008年 7024年

10.1186 / isrctn12348322

Spasic

我

Nenadic

在机器学习临床文本数据:系统回顾

地中海JMIR通知 2020年 03 31日 8 3 e17984

10.2196/17984

32229465

v8i3e17984

PMC7157505

马丁

德赛高特

誉为

一个

可控的句子简化

将12日语言资源和评估会议 2020年 05年 11

第十二语言资源和评价研讨会论文集

2020-05-11

法国

4689年 4698年

严

胡

陈

Bhendawade

叶

龚

段

崔

气

张

FastSeq:序列生成速度更快

2021年 08年 01

第59届年度会议将计算语言学和第11届国际协会的联合会议上自然语言处理:系统演示。2021年8月

2022-08-01

泰国

218年 226年

10.18653 / v1/2021.acl-demo.26

保卢斯

熊

Socher

增强模型的抽象总结

2018年

学习国际会议上表示(ICLR 2018)

2018年4月30日至5月3日

温哥华公元前

林

bxcy

胭脂:Summarie自动评价的方案

2004年

文本摘要分支了

2004年7月25日和6日

西班牙巴塞罗那

新泽西州新不伦瑞克

计算语言学协会

74年 81年

元

Neubig

刘

BARTScore:评估生成文本作为文本的一代

2021年 05年 21

先进的神经信息处理系统34:2021年年度会议在神经信息处理系统,NeurIPS 2021

2021年12月6日至14日,

虚拟

27263年 27277年

张

赵

萨利赫

米

刘

珀加索斯:训练前提取gap-sentences摘要式的总结

2020年 07年 13

InInternational会议机器学习》2020

2020-07-13

虚拟

Loshchilov

我

Hutter

解耦重量衰变正规化

2018年 09年 27

学习国际会议上表示

2018年

加拿大温哥华