JMI 地中海JMIR通知 JMIR医学信息 2291 - 9694 卡塔尔世界杯8强波胆分析 加拿大多伦多 v10i11e38095 36399375 10.2196/38095 原始论文 原始论文 医学文本简化使用强化学习(TESLEA):深上优于文字简化方法 田勇 Tianlin Seongsoon Suominen 汉娜 Phatak Atharva MSc 1
计算机科学部门 湖首大学 奥利弗路955号 雷声湾,P7B 5 e1 加拿大 1 8073558351 phataka@lakeheadu.ca
https://orcid.org/0000 - 0003 - 3471 - 4784
野蛮人 大卫·W 医学博士 2 https://orcid.org/0000 - 0003 - 2837 - 3127 罗伯特。 MSc,妈,MBBCh 3 https://orcid.org/0000 - 0001 - 8263 - 0556 史密斯 乔纳森 医学博士 2 https://orcid.org/0000 - 0003 - 0743 - 5720 Mago 维贾伊 博士学位 1 https://orcid.org/0000 - 0002 - 9741 - 3463
计算机科学部门 湖首大学 桑德贝, 加拿大 NOSM大学 桑德贝, 加拿大 NOSM大学 萨德伯里, 加拿大 通讯作者:Atharva Phatak phataka@lakeheadu.ca 11 2022年 18 11 2022年 10 11 e38095 18 3 2022年 27 6 2022年 8 8 2022年 12 10 2022年 ©Atharva Phatak David W野蛮,罗伯特•部Vijay Mago乔纳森•史密斯。最初发表在JMIR医学信息学(https://medinform.www.mybigtv.com), 18.11.2022。 2022年

这是一个开放分布式根据条知识共享归属许可(https://creativecommons.org/licenses/by/4.0/),它允许无限制的使用、分配、和繁殖在任何媒介,提供原工作,首次出版于JMIR医学信息学是正确引用。完整的书目信息,原始发布在https://medinform.www.mybigtv.com/上的链接,以及这个版权和许可信息必须包括在内。

背景

在大多数情况下,文章的摘要在医学领域是公开的。虽然这些每个人都可以理解,他们难以理解更广泛的受众由于复杂的医学词汇。因此,简化这些复杂的抽象是至关重要的医学研究的公众。

客观的

本研究旨在开发一种基于深度学习文本简化(TS)的方法,将复杂的医学文本转换成一个更简单的版本,同时保持生成的文本的质量。

方法

比起TS方法利用强化学习和的基于变压器开发语言模型。相关奖励,Flesch-Kincaid奖励,词汇简单奖励进行了优化,帮助简化复杂医学jargon-dense段落的更简单的版本,同时保持文本的质量。模型训练使用3568 complex-simple医疗段落和评估480段的帮助通过自动度量和人类的注释。

结果

该方法优于以往的基线Flesch-Kincaid得分(11.84),取得了类似的性能与其他基线测量时使用ROUGE-1 (0.39), ROUGE-2(0.11),和莎丽成绩(0.40)。手动评估表明,人类注释器之间的协议比例超过70%时流畅性等因素,连贯性,适当考虑。

结论

独特的医疗TS方法是成功开发利用强化学习和准确地简化了复杂的医疗段落,从而增加他们的可读性。提出TS的方法可以应用于自动生成简化文本对于复杂的医学文本数据,这将增强的可访问性生物医学研究更广泛的受众。

医学文本简化 强化学习 自然语言处理 手动评估
介绍 背景

生物医学领域的研究包含必要的信息关于新新药临床试验相关话题和治疗各种疾病。虽然这信息是公开的,它往往有复杂的医学术语,使公众难以理解。解决这个问题的一个方法是通过将复杂的医学文本转换为一种简单的语言,可以被理解为更广泛的观众。尽管手册文字简化(TS)是解决问题的一种方法,它不能被生物医学文献的迅速扩张的身体。因此,有必要发展的<我t一个lic> 自然语言处理方法可以自动执行TS。

相关的研究 TS方法

初步研究TS领域的关注<我t一个lic> 词汇简化(LS) [ 1, 2]。LS系统通常包括替换复杂单词简单的替代品使用词汇数据库,如<我t一个lic> 释义数据库( 3],WordNet [ 4),或使用语言模型,如<我t一个lic> 从变压器双向编码器表示年代(BERT) [ 5]。最近的研究定义了TS作为<我t一个lic> sequence-to-sequence(seq2seq)任务和接近它通过利用模型架构与其他seq2seq任务,如机器翻译和文本摘要( 6- - - - - - 8]。Nisioi et al ( 9)提出了一个神经<我t一个lic> seq2seq模型,它使用<我t一个lic> 长时间的短期记忆(LSTMs)自动TS。简单句子对训练,最终通过人类的评估表明,TS系统生成的输出保存意义和语法正确 9]。阿夫扎尔et al ( 10)合并LSTMs医疗数据创建一个quality-aware文本摘要系统。张和Lapata [ 11)开发了一个LSTM-based神经encoder-decoder TS模型和训练使用<我t一个lic> 强化学习(RL)直接优化纱丽 12)成绩连同其他一些回报。莎丽是一种广泛使用的度量进行自动评价TS。

自然语言处理研究的最新进展,LSTM-based模型是由变压器的表现( 13)的语言模型( 13- - - - - - 16]。变形金刚都遵循着encoder-decoder结构组成的编码器和译码器<我t一个lic> l相同的层。每一层由两个子层,一个是一个前馈一层一层,另一个多线程的注意。Transformer-based语言模型,如巴特( 14),生成pretraining变压器(GPT) [ 15),而<我t一个lic> text-to-text-transfer-transformer( 16),取得强劲表现在自然语言生成文本摘要和机器翻译等任务。

在语言比起成功的基于变压器模型的基础上,最近马丁et al ( 17]介绍了<我t一个lic> 多语种无人监督的句子简化(混乱) 17),巴特( 14的语言模型,实现先进的TS基准性能培训从CCNet转述开采 18语料库。赵等( 19]提出一种semisupervised方法,结合反向翻译架构以及去噪autoencoders自动为目的的TS。无人监督的TS也是一个活跃的研究领域,但主要限于LS。然而,在最近的一项研究中,苏亚et al ( 20.)提出了一个无监督的方法执行TS词法和句法两个层面。一般来说,研究领域的TS主要关注能简化语句。然而,太阳et al ( 21)提出了一个文档级别的数据集(D-wikipedia)和基线执行文档级别的简化模型。同样,Devaraj et al ( 8)提出了巴特( 14]的模型,被训练使用不大可能的损失为目的的段落级医疗TS。尽管他们训练惩罚条款视为“行话”,增加了可读性,生成的文本有低质量和多样性 8]。因此,文档,或段落级简化的缺乏使得这一个重要的发展领域的工作。

TS数据集

TS的大多数研究使用数据从维基百科中提取和新闻文章 11, 22, 23]。这些数据集是成对的文句上的数据集(例如,对于每一个复杂句,有一个相应的简单句)。TS系统严重依赖文句上的数据集,从普通和简单的英文维基百科中提取,如WikiLarge [ 11),因为他们是公开的。后来徐所示( 24)数据质量有问题的数据集从维基百科中提取。他们提出了Newsela语料库,这是由教师改写新闻文章对不同班次的水平。自动句子对齐的方法( 25)是用于Newsela语料库能TS语句创建一个数据集。尽管能简化语句研究的进步,有必要对TS系统能够简化文本段落层次。

最近的工作都集中在文档级简化数据集建设( 17, 21, 26]。太阳et al ( 21)建造了一个文档级别的数据集,称为D-Wikipedia,通过调整英文维基百科和简单的英文维基百科跨越143546条对。虽然有许多能TS语句的数据集,数据集领域特定段落级TS的缺乏。医学领域的TS, Van den Bercken et al ( 27能简化语句)建造了一个数据集使用的句子对齐方法。最近,Devaraj et al ( 8)提出的第一个段落级医学简化数据集,包含4459简单对文本,这是用于分析的数据集和基线培训在这个研究。一个复杂的段落及其简化版本的一个片段从Devaraj等提出的数据集 8)所示 图1。数据集是开源和公开 28]。

复杂的医学段落和相应的简单的医疗段的数据集。

TS评价

TS的评价通常分为两类:自动评估和手动(如人类)评估。因为TS的主观性质,有人建议,最好的方法是执行手动评估,基于标准流利等意义保存,和简单 20.]。自动评价指标最常用的包括可读性指标如Flesch-Kincaid阅读方便( 29日),<我t一个lic> Flesch-Kincaid年级水平(FKGL) [ 29日),<我t一个lic> 自动化的可读性指数(ARI)、Coleman-Liau指数和指标等自然语言生成任务纱丽( 12)和蓝色( 30.]。

可读性指标被用来为文本分配一个年级水平标志着它的简单。所有的可读性指标计算使用一些词的组合权重,音节,信,或者单词统计,测量显示一定程度的简单性。自动评价指标,如蓝色( 30.和莎丽 12),广泛应用于研究TS,纱丽( 12有专门为TS开发任务。纱丽是通过比较计算生成的简化与源和目标引用。它平均计算<我t一个lic> F1得分为3<我t一个lic> 语法重叠操作:添加、保存和删除。两个蓝色( 30.和莎丽 12]n-gram-based指标,这可能无法捕捉的语义生成的文本。

客观的

本研究的目的是开发一个自动TS方法能够简化医疗文本数据在一个段落层面,以提供更大的可访问性的生物医学研究的目标。本文运用RL-based训练直接优化2属性的简化文本:相关性和简单。<我t一个lic> 相关性被定义为简化文本保留突出,从原文语义信息。<我t一个lic> 简单被定义为简化是容易理解和词汇方面简单的文本。这两个属性是优化使用TS-specific奖励,导致系统优于以前的基线Flesch-Kincaid分数。广泛的人类评估领域专家的帮助下进行判断生成的文本的质量。

本文的其余部分组织如下:“方法”部分提供了详细的数据集,训练过程,该模型,描述了自动和人工评估进行分析该模型生成的输出(TESLEA)。“结果”部分提供基线模型的简要描述和获得的结果进行自动和手动生成的文本的评价。最后在“讨论”部分,我们突出的局限性,未来的工作,并得出结论。

方法 模型的目标

给定一个复杂的医疗段落,这项工作的目标是生成一个简化的段落,简洁和捕获突出表达复杂的文本信息。为此,一个RL-based简化模型,提出了优化多个奖励在训练,调整使用段落级医疗TS数据集。

数据集

Cochrane数据库的科学评价是一个卫生保健数据库与信息广泛的临床的话题。每个审查包括一个平实的语言总结(PLS)写的作者按照指导方针结构摘要。请应该是明确的,可以理解的,和可访问的,尤其是对普通读者不熟悉领域的医学。请在本质上是高度异构的,而不是配对(即每一个复杂句可能没有一个相应的简化版本)。然而,Devaraj et al ( 8)用科学评论的Cochrane数据库数据产生一个配对的数据集,4459对complex-simple文本,与每个文本包含少于1024令牌,这样就可以将送入巴特( 14)为目的的TS模型。开拓Devaraj et al(开发的数据集 8)在本研究中用于训练模型和公开( 28]。

使用RL TESLEA: TS 模型和奖励

TS的解决方案提出了简化的任务复杂医学文本使用一个RL-based简化模型,优化多个奖励(<我t一个lic> 相关奖励,<我t一个lic> Flesch-Kincaid级奖励,词汇简单的回报)来实现一个更完整的和简洁的简化<我t一个lic> 。下面的内容将介绍这些奖励的计算,以及训练过程。

相关奖励

相关奖励措施目标文本的语义是如何捕获的简化版本。这是通过计算目标之间的余弦相似性计算文本嵌入(<我t一个lic> E<年代ub>T )和生成的文本嵌入(<我t一个lic> E<年代ub>G )。BioSentVec [ 31日),一个文本嵌入模型训练有素的医疗文件,用于生成文本嵌入。的步骤来计算相关性评分算法中描述1。

的<我t一个lic> RelevanceReward函数接受三个参数作为输入,即目标文本(<我t一个lic> T),生成的文本(<我t一个lic> G)和嵌入模型(<我t一个lic> 米)。这个函数<我t一个lic> ComputeEmbedding需要输入文本和嵌入模型(<我t一个lic> 米)作为输入,并生成相关的文本嵌入。最后,余弦相似性生成的文本嵌入(<我t一个lic> E<年代ub>G )和目标文本嵌入(<我t一个lic> E<年代ub>T )计算获得奖励(算法1,第4行)。

Flesch-Kincaid等级奖励

FKGL指的是年级水平必须达到理解了的信息。FKGL更高分数表明文本更为复杂,和一个较低的分数表明,文本就更简单了。文本FKGL (S)计算使用公式1 ( 29日]:

FKGL (S) = 0.38×(总单词/句子总)+ 1.8×(总音节/总的话)- (15.59) (1)

FKGL奖励(<我t一个lic> R<年代ub>Flesch )是旨在减少生成的文本和计算的复杂性,提出了算法2。

算法2的功能<我t一个lic> FleschKincaidReward有2个参数作为输入,即生成的文本(<我t一个lic> G)和目标文本(<我t一个lic> T)。的<我t一个lic> FKGLScore函数计算FKGL给定文本。一旦FKGL为<我t一个lic> T和<我t一个lic> G计算,Flesch-Kincaid奖励(<我t一个lic> R<年代ub>Flesch )计算相对的区别<我t一个lic> r(<我t一个lic> T),<我t一个lic> r(<我t一个lic> G)(算法2,4行)<我t一个lic> r(<我t一个lic> T),<我t一个lic> r(<我t一个lic> G)表示目标的FKGL和生成的文本。

词汇简单的奖励

词汇简洁是用来衡量是否在生成的文本(<我t一个lic> G)比源文本中的词(简单<我t一个lic> 年代)。拉班等( 26]提出使用之间的关系词的词汇简单奖励困难和词频 32]。如词频遵循<我t一个lic> zipf法律,拉班等 26用它来设计奖励功能,涉及到计算<我t一个lic> zipf新插入的单词的频率,<我t一个lic> Z(<我t一个lic> G- - - - - -<我t一个lic> 年代),删除的话,<我t一个lic> Z(<我t一个lic> S - G)。中定义的词汇简单的奖励是拉班等提出的一样( 26算法3)和描述。数据集的分析提出Devaraj et al ( 8)显示,87%的简单和复杂双Δ价值<我t一个lic> Z(<我t一个lic> 年代,<我t一个lic> GΔ)≈0.4<我t一个lic> Z(<我t一个lic> 年代,<我t一个lic> G)=<我t一个lic> Z(<我t一个lic> G- - - - - -<我t一个lic> 年代)- - -<我t一个lic> Z(<我t一个lic> 年代- - - - - -<我t一个lic> G)之间的差异<我t一个lic> zipf插入文字和删除的话,频率与词法奖励的价值(<我t一个lic> R<年代ub>词汇 )比例在0和1之间。

在算法3中,<我t一个lic> LexicalSimplicityReward需要源文本(<我t一个lic> 年代)和生成的文本(<我t一个lic> G)作为输入。功能<我t一个lic> ZIPFInserted( 25),<我t一个lic> ZIPFDeleted( 25)计算<我t一个lic> zipf新插入的单词和删除的单词的频率。最后,词汇奖励(<我t一个lic> R<年代ub>词汇 )计算和归一化,如第5行所示。

培训程序和基准模型 Pretrained巴特

基线语言模型在本研究中用于执行简化是巴特 14),这是一个基于变压器encoder-decoder pretrained使用去噪的目标函数模型。译码器的部分模型自回归自然,使其更适合sentence-generation任务。此外,巴特模型实现强劲表现自然语言生成等任务总结,证明在XSum [ 33)和CNN /英国《每日邮报》( 34)数据集。在这种情况下,一个版本的巴特调整XSUM [ 33使用数据集。

语言模型微调

Transformer-based语言模型是pretrained大语料库的文本,后来调整在下游任务通过最小化最大似然损失(<我t一个lic> Lml()函数 3]。考虑一个成对的数据集<我t一个lic> C,每个实例包含一个句子包含源<我t一个lic> n令牌<我t一个lic> x= {<我t一个lic> x1、…<我t一个lic> x<年代ub>n }和目标序列包含<我t一个lic> 米令牌<我t一个lic> y= {<我t一个lic> y1、…<我t一个lic> y<年代ub>n },<我t一个lic> Lml函数是在方程2和4中描述的计算算法。

在哪里<我t一个lic> θ代表了模型参数<我t一个lic> y< t 表示前标记之前的位置<我t一个lic> t( 35]。

然而,通过最小化的结果<我t一个lic> Lml并不总是最优的。有两个主要原因的退化的结果。第一个被称为“风险偏好”( 36],它发生在每一步模型预计标准数据的训练,但是在测试期间没有接受适当的监督,导致错误的积累在预测。第二个被称为“崩溃”表示 37),这是一个退化的pretrained语言模型表示在微调。Ranzato et al ( 36)避免接触问题的偏见通过直接优化特定离散度量而不是减少<我t一个lic> Lml的帮助下RL-based算法称为强化[ 38]。加强的一个变种 38)称为自我批评序列训练( 39)是直接用于本研究优化某些奖励专门为TS设计;以下小节中提供了更多这方面的信息。

自我批评序列训练

TS可以制定一个RL的问题,在“代理”(语言模型)与环境交互采取“行动”(下一个词预测)基于学习“政策”(<我t一个lic> p<年代ub>θ )定义的模型参数<我t一个lic> θ虽然观察一些奖励(<我t一个lic> R)。在这个工作中,巴特( 14)是作为语言模型,强化( 38)算法被用来学习最优政策,最大化的回报。具体来说,加强是使用一个基线稳定训练过程使用一个目标函数(<我t一个lic> 液化石油气)和一个基线奖励<我t一个lic> b方程(3):

在哪里<我t一个lic> p<年代ub>θ (<我t一个lic> y<年代ub>我 年代|…)表示的概率<我t一个lic> 我th词条件以前生成的采样序列的模型;<我t一个lic> r(<我t一个lic> y<年代up>年代 )表示奖励计算一个句子使用抽样生成;表示源句子,和<我t一个lic> n的长度是生成的句子。奖励计算的加权和相关奖励(<我t一个lic> R<年代ub>余弦 ),<我t一个lic> R<年代ub>Flesch ,词汇简单的奖励(<我t一个lic> R<年代ub>词汇 ; 图2),是由:

在哪里<我t一个lic> α,<我t一个lic> β,<我t一个lic> d分别与奖励相关联的权重。

近似基线奖励,自我批评序列训练( 39使用了)。基线计算通过计算奖励值一个句子生成使用贪婪的解码<我t一个lic> r(<我t一个lic> y*)由当前模型及其算法5中描述的计算。方程5中的损失函数的定义:

在哪里<我t一个lic> y*表示生成的句子使用贪婪的解码。更多细节描述贪婪的解码 多媒体附录1(参见[ 8, 14, 17, 25, 26, 39- - - - - - 42])。

计算回报函数计算的加权和三个奖励:Fkgl奖励,词汇简单奖励,相关奖励。

直观地说,通过最小化方程描述的损失5,选择样本序列的可能性(<我t一个lic> y<年代up>年代 )是提升如果采样序列获得的奖励,<我t一个lic> r(<我t一个lic> y<年代up>年代 ),大于基线的奖励获得回报,也就是说,样本返回更高的回报比<我t一个lic> r(<我t一个lic> y*)。样品随后抑制获得较低的回报。该模型使用的组合训练<我t一个lic> Lml和政策梯度损失类似于( 43]。总体损失给出如下:

l=<我t一个lic> γLpg+ (1 -<我t一个lic> γ)<我t一个lic> Lml (6)

在哪里<我t一个lic> γ是一个比例因子,可以调整。

培训过程的总结

总的来说,培训过程遵循两步方法。随着pretrained巴特( 14)没有受过训练的医疗与领域相关的文本,这是第一调整文档级配对数据集( 8)通过最小化<我t一个lic> Lml(最大似然估计(企业);方程2)。在第二部分中,使用RL巴特模型训练进一步调整。TESLEA的RL过程包括两个步骤:(1)RL步骤和大中型企业的优化步骤(2),这都是所示 图3并进一步6中描述的算法。给定的简单文本对巴特模型转换为所需的标记。在标定步骤中,这些令牌用于计算<我t一个lic> 分对数从模型,最后企业损失计算。在RL步骤中,使用2模型生成简化文本解码策略:(1)贪婪的解码和(2)多项抽样。奖励计算加权求和( 图3),句子使用的解码生成策略。这些奖励是用来计算的损失RL一步。最后,损失计算的加权和,用于估算梯度和更新模型参数。所有hyperparameter设置都包括在使用 多媒体附录2(参见[ 8, 12, 29日, 33, 34, 44- - - - - - 47])。

基于强化学习培训过程TESLEA。企业:最大似然估计;RL:强化学习。

自动的度量标准

两个可读性指标被用来执行自动生成的文本的评价,即FKGL和自动可读性指标(阿里斯)。TS的纱丽的分数是一个标准的指标。ROUGE-1和ROUGE-2[的f - 1版本 44)成绩也有相关报道。读者可以找到关于这些指标的更多细节 多媒体附录2。测量的质量生成的文本,元等人提出的标准( 45)使用,这是“自动评价指标”一节中提到的 多媒体附录2。元等人提出的标准( 45)可以自动计算基于模型的指标称为“BARTScore使用语言。“进一步的细节如何使用BARTScore测量的质量也提到在生成的文本 多媒体附录2

人类的评估

在这项研究中,3-domain专家判断的质量生成的文本基于上一节所提到的因素。评价者率文本李克特规模从1到5。首先,简化使用TESLEA生成测试数据,然后生成51段落是随机挑选的,创造3子集包含17个段落。每一个评估者被授予两个子集,也就是说,总共34 complex-simple TESLEA-generated段落。评估通过谷歌的形式进行,人类注释器被要求测量信息量的简化质量(信息),流畅(流感),一致性(正)、真实性(FAC)和充分性(正面)( 图4)。所有的数据都存储在CSV文件进行统计分析。

一个示例问题被人类注释器。

结果 概述

本节包括三部分,即(1)基线模型,自动评估,(2)和(3)人类的评估。第一部分强调了基线模型用于比较和分析。第二部分论述了结果通过执行模型的自动评估。第三和最后一节讨论的结果从人类评估和分析人类注释和自动指标之间的关系。

基线模型

TESLEA相比其他强大基线模型及其细节讨论如下:

BART-Fine-tuned: BART-Fine-tuned BART-large模型调整使用<我t一个lic> Lml在Devaraj等提出的数据集 8]。研究表明,大型pretrained模型经常执行竞争当下游任务的调整,从而使这一个强劲的竞争对手。

BART-UL: Devaraj et al ( 8)也提出了段落级医疗TS BART-UL。它是第一个模型进行段落级医疗TS和自动化指标取得了强劲业绩。BART-UL被训练使用一个不大可能的目标函数,处罚的模型生成技术词(即复杂的词语)。进一步的细节描述BART-UL的训练过程 多媒体附录1

混乱:吵架 17]是一种BART-based语言模型训练的矿业转述CCNet语料库[ 18]。吵架训练于100万年组成的一个数据集的迂回,帮助它实现一个强大的纱丽得分。虽然吵架是训练有素的文句上的数据集,它仍然作为一个强大的基准进行比较。讨论进一步的细节在训练程序混乱 多媒体附录1

保持简单(ki):拉班等( 26)段落级TS。克义斯提出了一个无监督方法是训练使用RL和使用GPT-2模型作为支柱。克义斯已经显示出强劲表现在纱丽得分击败很多监督和非监督TS的方法。克义斯描述了培训过程的额外细节 多媒体附录1

比起飞马模型:飞马的基于变压器encoder-decoder模型,取得了最先进的成果在许多text-summarization数据集。这是专门为文本摘要的任务。在我们的分析中,我们使用2变种的飞马座模型,即(1)PEGASUS-large,飞马座的大变异模型,(2)PEGASUS-pubmed-large,飞马座的大变体模型在PubMed pretrained数据集。飞马模型调整使用<我t一个lic> Lml在Devaraj等提出的数据集 8]。关于飞马模型的更多信息,建议读者引用( 46]。

上述模型是唯一可用于医学TS 2022年6月。

自动计量的结果

指标用于自动评估FKGL,阿里,ROUGE-1, ROUGE-2,纱丽,BARTScore。平均可读性指标分数(即FKGL和ARI)获得的各种模型报告 表1。ROUGE-1 ROUGE-2,纱丽成绩报告 表2BARTScore报道 表3

Flesch-Kincaid年级水平和自动生成的文本可读性指数。<年代up>一个

文本 Flesch-Kincaid年级水平 自动可读性指数
基线
技术抽象 14.42 15.58
标准的引用 13.11 15.08
生成模型
BART-Fine-tuned 13.45 15.32
BART-UL 11.97 13.73<年代up>b
TESLEA 11.84<年代up>b 13.82
吵架<年代up>c 14.29 17.29
保持简单 14.15 17.05
PEGASUS-large 14.53 17.55
PEGASUS-pubmed-large 16.35 19.8

一个TESLEA显著减少FKGL, ARI分数相比,平实的语言总结。

b最好的得分。

c混乱:多语种无人监督的句子简化。

ROUGE-1 ROUGE-2,纱丽分数为生成的文本。<年代up>一个

模型 ROUGE-1 ROUGE-2 莎丽
BART-Fine-tuned 0.40 0.11 0.39
BART-UL 0.38 0.14 0.40<年代up>b
TESLEA 0.39 0.11 0.40<年代up>b
吵架<年代up>c 0.23 0.03 0.34
保持简单 0.23 0.03 0.32
PEGASUS-large 0.44<年代up>b 0.18<年代up>b 0.40<年代up>b
PEGASUS-pubmed-large 0.42 0.16 0.40<年代up>b

一个TESLEA达到类似的性能与其他模型。ROUGE-1更高的分数,ROUGE-2,纱丽是可取的。

b最佳性能。

c混乱:多语种无人监督的句子简化。

信实分数和f分数模型生成的文本。<年代up>一个

模型 信实的分数 f值
BART-Fine-tuned 0.137 0.078
BART-UL 0.242 0.061
TESLEA 0.366<年代up>b 0.097<年代up>b
吵架<年代up>c 0.031 0.029
保持简单 0.030 0.028
PEGASUS-large 0.197 0.073
PEGASUS-pubmed-large 0.29 0.063

一个更高的分数的信实和f值是可取的。

b最高得分。

c混乱:多语种无人监督的句子简化。

可读性指标,胭脂,纱丽的分数

报告的可读性指标得分 表1表明FKGL TESLEA获得的分数更好(比如,一个较低的分数)与FKGL相比获得的分数比较技术抽象(即复杂医学段落中可用数据集)与对照的引用(即简单的医疗段落对应复杂医学段落)。此外,TESLEA FKGL达到最低的得分(11.84)与基线模型相比,表明TS显著改善。研究结果表明,(1)BART-based变压器模型能够在段落级别执行简化,这样输出减少阅读水平(FKGL)与技术提取相比,标准的引用和基线模型。(2)该方法优化TS-specific奖励允许生成文本对照的可读性比甚至引用,FKGL表示的分数 表1。减少FKGL分数可以用这一事实来解释FKGL奖励的一部分(<我t一个lic> R<年代ub>Flesch ),直接被优化。

此外,我们报告的纱丽 12)和胭脂分数( 44)所示 表2。莎丽是一个标准的指标能TS语句中使用自动任务。胭脂分数是另一个标准在文本摘要任务指标。结果表明,TESLEA匹配的性能基线模型胭脂和纱丽的分数。虽然没有明确的模式当胭脂和纱丽分数被认为,在文本的质量有差异所产生的这些模型和解释“文本质量测量”小节。

文本质量测量

有重大进展在设计自动度量能够捕捉语言文本生成的语言模型的质量。这样一个能够衡量的质量生成的文本BARTScore [ 45]。BARTScore显示强烈的相关性与人类评估各种任务包括机器翻译、文本摘要。BARTScore有4个不同的指标(即忠诚得分,精度,还记得,f值),可以用来测量不同质量生成的文本。更多细节关于如何使用BARTScore中提到 多媒体附录2

根据分析由元et al ( 45],信实得分生成文本的措施三个方面通过正、流感和前沿空中管制官。生成文本的f值措施两个方面(信息和正面)。在我们的分析中,我们使用这两个变种BARTScore测量正、流感、FAC,信息,和外壳。TESLEA达到最高的值( 表3信实的得分(0.366)和f值(0.097),表明TS的回报为目的不仅有助于简化模型生成的文本,而且还在某种程度上保存生成的文本的质量。所有的模型是相对贫穷的F-scores(即分数接近1人)。低的原因之一F-scores可能引入错误信息或幻觉在生成的文本、语言模型的一个常见的问题,可以通过调整培训战略,专注于通过奖励或目标函数的帮助信息。

定性分析我们随机选择50个句子从测试数据和基于巴特模型计算的平均数量标记词汇表。的可读性,我们计算了FKGL许多这些生成的文本和指出错误信息等任何文本不一致。分析表明,大多数模型生成的文本明显小于对照的引用( 表4)。此外,TESLEA——和BART-UL-generated文本与其他相比均有显著短基线模型和TESLEA FKGL最低分数在所有的模型中所描绘的一样 表4

从定性的角度来看,大多数基线模型生成的句子包括大量的文本复制从原始复杂医学段落。克义斯模型生成的输出不完整,出现“嘈杂”。噪音的产生的原因之一可能是由于不稳定的培训由于缺乏一个巨大的语料库的特定领域的数据。BART-UL-generated段落由FKGL简化为表示,阿里分数,但他们在本质上是萃取(即模型从原始医学学会选择简化句子段落和他们结合形成一个简化)。PEGASUS-pubmed-large-generated段落也萃取在性质和类似于BART-UL-generated段落,但发现他们语法不一致。相对于基线模型,生成的文本TESLEA是简洁,语义上相关的,和简单,不涉及任何医疗与领域相关的复杂的词汇。 图5显示了一个示例的文本生成的模型,用蓝色文本指示复制文本。

除了复制文本,模型也诱导错误信息在生成的文本。最常见的诱发错误观察“证据是当前[日期],”所示 图6。这个文本错误发生由于数据的结构(例如,请包含语句与此相关的研究,但这些语句并不在原始文本;因此,模型试图将这些语句添加到生成的文本虽然不是事实正确)。因此相当大的要注意包括FAC措施在这些模型的训练。为一个更完整的评估质量的简化,人类进行了评估使用领域专家TESLEA生成的文本。

平均数量的令牌和Flesch-Kincaid年级平均成绩为选定的样本。

模型 数量的令牌 Flesch-Kincaid年级水平
技术抽象 498.11 14.37
标准的引用 269.74 12.77
TESLEA 131.37 12.34
BART-UL 145.08 12.66
保持简单 187.59 13.78
多语种无人监督的句子简化 193.07 13.86
PEGASUS-large 272.04 13.93
PEGASUS-pubmed-large 150.00 15.09

比较的文本生成的模型。蓝色高亮显示的文本表示复制。置信区间:置信区间;FEV:强迫呼气量;N:人口规模;PEV:呼气流量峰值;RR:呼吸速率。

错误的例子中发现生成的文本。CIDSL:科妮莉亚德兰格综合症;丙种球蛋白:静脉注射免疫球蛋白;女士:多发性硬化症;体育:血浆置换。

人类的评估

对于这个研究,3领域专家评估文本生成的质量,基于因素信息,流感,寇,FAC,和正面,提出元等( 45),讨论了 多媒体附录2。测量评分者间信度,计算百分比之间的协议注释器,显示了生成的结果 表5。的平均百分比协议因素的流感,寇,FAC,正面是最高,表明注释器同意在他们的评估。

李克特平均得分为每个因素也是由每一个评定等级( 表6)。从数据中提到 表6,评级机构认为COH和流感质量最高,正面,FAC,信息也相当高。

进一步评估结果是否自动度量真正意味着改善TESLEA生成文本的质量,人类评级之间的斯皮尔曼等级相关系数进行了计算和自动计量51生成段落(文本)中所示的结果 表7。BARTScore相关性与人类最高评级的流感,FAC,寇,正面与其他指标。几个文本样本连同他们的人工注释和自动的指标分数所示 多媒体附录3 图7

平均比例评分者间信协议。

评分者间信协议 信息量,% 流利,% 真实性,% 一致性,% 充足,%
A1<年代up>一个和A2<年代up>b 82.35 82.35 82.35 70.59 82.35
A1、A3<年代up>c 70.59 58.82 70.59 70.59 70.59
A2和A3 52.94 70.59 74.51 74.51 64.71
平均(%协议) 68.63 70.59 74.51 74.51 72.55

一个A1:注释器1。

bA2:注释器2。

cA3:注释器3。

李克特平均得分由每个评定等级的信息量,流畅性,真实性、一致性和充分性。

评定等级 信息量 流利 真实性 一致性 充分性
A1 3.82 4.12 3.91 3.97 3.76
A2 3.50 4.97 3.59 4.82 3.68
A3 4.06 3.94 3.85 3.94 3.85
李克特平均得分 3.79 4.34 3.78 4.24 3.76

斯皮尔曼等级相关系数之间的自动计量和人力评级TESLEA生成的文本。

度规 信息量 流利 真实性 一致性 充分性
ROUGE-1 0.18<年代up>一个 -0.04 -0.01 -0.05 0.06
ROUGE-2 0.08 -0.01 -0.05 -0.04 0.05
莎丽 0.09 -0.66 -0.13 -0.01 0.01
BARTScore 0.08 0.32<年代up>一个 0.38<年代up>一个 0.22<年代up>一个 0.07<年代up>一个

一个最好的结果。

复杂的样品,简单(黄金)和医疗段落以及自动生成指标和人类注释。

讨论 主要研究结果

最新的关于生物医学的研究往往是无法向公众由于特定领域的医学术语。一个解决这个问题的方法是通过创建一个系统,将复杂的医疗信息转化为一个更简单的形式,从而使每个人都可以利用它。在这项研究中,TS的方法开发了可以自动简化复杂医学段落同时保持生成的文本的质量。比起该方法训练的基于变压器巴特TS模型优化奖励具体,导致增加了简单性。巴特模型训练的使用提出了RL方法优化某些奖励,帮助生成简单的文本,同时保持生成的文本的质量。结果,训练模型生成简化文本2等级降低了原始文本的复杂性的点,当测量使用FKGL [ 29日]。从获得的结果,可以得出结论,TESLEA有效生成简单的文本与技术提取相比,标准的引用(即简单的医疗段落对应复杂医学段落),和基线模型。虽然以前的工作( 8)开发基线模型这个任务,我们所知,这是第一次RL被应用到医学领域的TS。此外,以往的研究没有分析生成的文本的质量,本研究措施通过流感的因素、FAC,寇、形象和信息。手动评估TESLEA-generated文本进行了领域专家的帮助下使用上述因素和进一步的研究进行了分析,自动度量同意手工注释用斯皮尔曼等级相关系数。分析表明,BARTScore [ 45)最好的与人类注释在评估一个文本由TESLEA生成,表明TESLEA学会生成语义相关和流利的文字,传达必要的信息中提到的复杂医学段落。这些结果表明,(1)TESLEA医学段落,这样可以执行TS输出是简单和维护质量,(2)奖励TESLEA帮助优化模型捕获句法和语义信息,增加输出的流感和寇,目睹当输出BARTScore和人工评估的注释。

局限性和未来的工作

虽然这项研究是一个重大贡献的文学医疗TS,该方法也存在一些局限性,解决可导致更好的输出。TESLEA可以生成文本的简单版本,但在某些情况下,这导致错误信息,导致减少FAC和信息生成的文本。因此,有必要设计奖励考虑FAC和信息生成的文本。我们还计划开展广泛的人类大规模评估各种模型生成的文本(如小孩,BART-UL)使用领域专家(如医生和医学生)。

Transformer-based语言模型是敏感pretraining政权,所以可能的下一步是pretrain语言模型等特定领域的原始数据集PubMed [ 40),这将有助于为模型开发特定领域的词汇。包括这些策略可能有助于增加简单的生成的文本。

结论

兴趣和需要TS在医学领域的日益增长的兴趣随着数据量的不断增加。自动化系统,如一个摘要,可以大大增加对公众的可访问性信息。这项工作不仅提供了自动化的TS的技术解决方案,而且还列出了和地址的挑战评估这些系统的输出,可以高度主观的。作者的真诚希望这项工作允许其他研究人员建立和提高质量的类似努力。

培训程序和解码方法。

Hyperparameters和评价指标。

缩写和例子。

缩写 阿里

自动化的可读性指数

伯特

从变压器双向编码器表示

FKGL

Flesch-Kincaid年级水平

GPT

生成pretraining变压器

大中型企业

最大似然估计

克义斯

保持简单

Lml

最大可能损失

LS

词汇简化

LSTM

长时间的短期记忆

吵架

多语种无人监督的句子简化

平实的语言总结

RFlesch

FKGL奖励

RL

强化学习

作者感谢研究小组在DaTALab,湖首大学的支持。作者还要感谢计算加拿大提供计算资源没有这研究是不可能的。这项研究是由NSERC发现(rgpin - 2017 - 05377)所持有的Vijay Mago博士。作者感谢Aditya先生Singhal湖首大学(MSc)提供反馈的手稿。

没有宣布。

卡罗尔 J Minnen G 皮尔斯 D 罐头 Y Devlin 年代 泰特 J 简化文本为语言障碍的读者 1999年 第九次会议的欧洲计算语言学协会的章 1999年6月8 - 12, 挪威卑尔根 新泽西州新不伦瑞克 计算语言学协会 269年 270年 Paetzold G 种社会 l 无人监督的词汇简化对非母语者 AAAI 2016年 03 05年 30. 1 3761年 3767年 10.1609 / aaai.v30i1.9885 Ganitkevitch J 范Durme B 凯里森 C PPDB:释义数据库 学报2013年大会北美的计算语言学协会章:人类语言技术 2013年 6 北美的2013年大会的计算语言学协会章:人类语言技术 2013年6月9 - 12, 亚特兰大,乔治亚州 新泽西州新不伦瑞克 计算语言学协会 758年 764年 10.3115 / v1 / p15 - 2070 丽贝卡·托马斯。 年代 安德森 年代 WordNet-Based词汇简化文档 《自然语言处理(KONVENS 2012) 11日会议 2012年 第十一届会议上自然语言处理(KONVENS 2012) 2012年9月19日, 奥地利的维也纳 80年 羌族 J Y Y Y X 词汇简化Pretrained编码器 AAAI 2020年 04 03 34 05年 8649年 8656年 10.1609 / aaai.v34i05.6389 Z 伯纳德 D Gurevych 一个单语基于树的翻译句子简化模型 23日计算语言学国际会议的程序(科尔2010) 2010年 第23届国际会议上计算语言学(科尔2010) 2010年8月汽车出行 中国,北京 中国,北京 科尔2010年组委会 1353年 1361年 Wubben 年代 van den博世 一个 Krahmer E 句子简化语机器翻译 学报50的计算语言学协会年度会议(卷1:长论文) 2012年 50计算语言学协会的年度会议 2012年7月8 - 14, 济州岛,韩国 新泽西州新不伦瑞克 计算语言学协会 1015年 1024年 Devaraj 一个 马歇尔 华莱士 B J 段落级简化医疗文本 学报2021年大会北美的计算语言学协会章:人类语言技术 2021年 6 北美的2021年大会的计算语言学协会章:人类语言技术 2021年6月6尺11寸, 虚拟 新泽西州新不伦瑞克 计算语言学协会 4972年 4984年 10.18653 / v1/2021.naacl-main.395 Nisioi 年代 Štajner 年代 保罗Ponzetto 年代 Dinu LP 探索神经文字简化模型 学报55的计算语言学协会年度会议(卷2:短论文) 2017年 第55计算语言学协会的年度会议 2017年7月8月30日4日 温哥华公元前 新泽西州新不伦瑞克 计算语言学协会 85年 91年 10.18653 / v1 / p17 - 2014 阿夫扎尔 阿拉姆 F 马利克 公里 马利克 通用汽车 临床使用深层神经网络环境敏感生物医学文本摘要:模型的开发和验证 J地中海互联网Res 2020年 10 23 22 10 e19810 10.2196/19810 33095174 v22i10e19810 PMC7647812 X Lapata 句子简化与强化学习 学报2017年大会在自然语言处理的经验方法 2017年 2017年大会在自然语言处理的经验方法 2017年9月7 - 11日 丹麦哥本哈根 新泽西州新不伦瑞克 计算语言学协会 584年 594年 10.18653 / v1 / d17 - 1062 W Napoles C Pavlick E 凯里森 C 简化优化统计机器翻译的文本 TACL 2016年 12 4 401年 415年 10.1162 / tacl_a_00107 Vaswani 一个 Shazeer N Parmar N Uszkoreit J 琼斯 l 戈麦斯 一个 凯撒 l Polosukhin 关注你所需要的 少量的31日17:诉讼国际会议上神经信息处理系统 2017年 少量的17:31日国际会议上神经信息处理系统 2017年12月4 - 9日, CA长滩 红钩,纽约 Curran Associates Inc .) 6000年 6010年 刘易斯 Y Goyal N Ghazvininejad 默罕默德 一个 莱维 O Stoyanov V Zettlemoyer l 巴特:去噪Sequence-to-Sequence训练的自然语言生成、翻译、和理解 学报》第五十八届计算语言学协会的年度会议 2020年 7 第58届计算语言学协会的年度会议 2020年7月5 - 10日 虚拟 新泽西州新不伦瑞克 计算语言学协会 7871年 7880年 10.18653 / v1/2020.acl-main.703 雷德福 一个 纳史木汗 K Salimans T Sutskever 提高语言理解的生成训练 Amazon AWS 2022年 2022-10-31 https://s3 - 2. -西方- amazonaws.com/openai assets/research - covers/language unsupervised/language_understanding_paper.pdf Raffel C Shazeer N 罗伯茨 一个 K 年代 Matena Y W P 探索转移学习的局限性与一个统一的Text-to-Text变压器 机器学习研究杂志》上 2020年 21 1 67年 马丁 l 风扇 一个 de la Clergerie E 誉为 一个 赛高特 B 混乱:多语种无人监督的句子简化矿业复述 arXiv 预印本网上发布于2021年4月16日 10.48550 / arXiv.2005.00352 Wenzek G Lachaux Conneau 一个 乔杜里 V 古斯曼 F Joulin 一个 坟墓 E CCNet:从Web抓取数据中提取高质量的单语数据集 学报》第十二语言资源和评估会议 2020年 LREC 2020: 12日会议语言资源和评估 2020年5月16日 法国马赛的 欧洲语言资源协会 4003年 4012年 Y l Z K 简化与反向翻译和不对称去噪Autoencoders Semi-Supervised文本 AAAI 2020年 04 03 34 05年 9668年 9675年 10.1609 / aaai.v34i05.6515 苏利耶 年代 Mishra 一个 Laha 一个 耆那教徒的 P Sankaranarayanan领导 K 无监督神经文本简化 学报》第57届计算语言学协会的年度会议 2019年 第57届计算语言学协会的年度会议 2019年8月28日7月2日 意大利的佛罗伦萨 新泽西州新不伦瑞克 计算语言学协会 2058年 2068年 10.18653 / v1 / p19 - 1198 太阳 R H X 文档级文本简化:数据集,标准和基准 学报2021年大会在自然语言处理的经验方法 2021年 2021年大会在自然语言处理的经验方法 2021年11月7 - 11, 在线及迦南,多米尼加共和国 新泽西州新不伦瑞克 计算语言学协会 7997年 8013年 10.18653 / v1/2021.emnlp-main.630 水果贩 W Kauchak D 简单的英文维基百科:一个新的文本简化任务 美国第49计算语言学协会的年会:人类语言技术 2011年 第49届计算语言学协会:人类语言技术 2011年6月19日~ 24日 波特兰,或 新泽西州新不伦瑞克 计算语言学协会 665年 669年 C Maddela 局域网 W Y 神经CRF模型简化句子对齐的文本 学报》第五十八届计算语言学协会的年度会议 2020年 7 第58届计算语言学协会的年度会议 2020年7月5 - 10日 虚拟 新泽西州新不伦瑞克 计算语言学协会 7943年 7960年 10.18653 / v1/2020.acl-main.709 W 凯里森 C Napoles C 问题在当前文本简化研究:新数据可以帮助 TACL 2015年 12 3 283年 297年 10.1162 / tacl_a_00139 Bjerva J Bos J van der赏金 R 它和 识别文本的意义工厂:正式的语义蕴涵和确定语义相似度 学报》第八届国际研讨会语义评价(SemEval 2014) 2014年 第八届国际研讨会语义评价(SemEval 2014) 2014年8月23 - 24日, 爱尔兰都柏林 新泽西州新不伦瑞克 计算语言学协会 642年 646年 10.3115 / v1 s14 - 2114 拉班 P 施纳贝尔 T 班尼特 P 赫斯特 保持简单:无监督简化Multi-Paragraph文本 学报》第59届年会计算语言学和第11届国际协会的联合会议上自然语言处理(卷1:长论文) 2021年 第59届年会计算语言学和第11届国际协会的联合会议上自然语言处理 2021年8月1 - 6, 在线 新泽西州新不伦瑞克 计算语言学协会 6365年 6378年 10.18653 / v1/2021.acl-long.498 van den Bercken l rj 夸张 C 评估神经文字简化在医学领域 2019年 5 WWW的19:万维网会议 2019年5月,北京 旧金山CA 纽约,纽约 计算机协会(ACM) 3286年 3292年 10.1145/3308558.3313630 数据集 Github<一个ccess-date> 2022-10-31 https://github.com/AshOlogn/Paragraph-level-Simplification-of-Medical-Texts 金凯的 摩根大通 小费什伯恩 RP 罗杰斯 RL Chissom 废话 新可读性公式推导(自动可读性指数雾计数和Flesch阅读简化公式)的海军招募人员 海军技术训练司令部米林顿TN的研究分支 1975年 2 1 2022-10-31 https://apps.dtic.mil/sti/citations/ADA006655 Papineni K Roukos 年代 病房 T W 蓝色:自动机器翻译评价的方法 美国40计算语言学协会的年度会议 2002年 40对计算语言学协会的年度会议 2002年7月7日 费城,宾夕法尼亚州 新泽西州新不伦瑞克 计算语言学协会 311年 318年 10.3115/1073083.1073135 Y Z 句子BioSentVec:创建嵌入的生物医学文本 2019年 2019年IEEE国际会议上医疗信息学(阿) 2019年6月10号至13号, 西安,中国 纽约,纽约 IEEE 1 15 10.1109 / ICHI.2019.8904728 Breland 词频和词的困难:一个比较重要的四个全集 Psychol Sci 2016年 05年 06 7 2 96年 99年 10.1111 / j.1467-9280.1996.tb00336.x 纳拉 年代 科恩 某人 Lapata 不要给我细节,只是总结!Topic-Aware卷积神经网络对极端的总结 学报2018年大会在自然语言处理的经验方法 2018年 2018年大会在自然语言处理的经验方法 2018年10月31-November 4 比利时布鲁塞尔 新泽西州新不伦瑞克 计算语言学协会 1797年 1807年 10.18653 / v1 / d18 - 1206 Nallapati R B 多斯桑托斯 C 顾̇lcehre C B 摘要式的文本摘要使用Sequence-to-sequence RNNs和超越 20 SIGNLL会议程序计算自然语言学习 2016年 8 20 SIGNLL会议上计算自然语言学习 2016年8月广州 柏林,德国 新泽西州新不伦瑞克 计算语言学协会 280年 290年 10.18653 / v1 / k16 - 1028 W Y Y D N J R ProphetNet:预测未来语法Sequence-to-Sequence Pretraining 计算语言学协会发现,EMNLP 2020 2020年 EMNLP 2020 2020年11月16 - 20日 在线 新泽西州新不伦瑞克 计算语言学协会 2401年 2410年 Ranzato 乔普拉 年代 Auli W 序列递归神经网络训练水平 arXiv 预印本网上公布的5月6日,2016年。 Aghajanyan 一个 Shrivastava 一个 古普塔 一个 Goyal N Zettlemoyer l 古普塔 年代 更好的调整减少表征崩溃 2020年 4 学习国际会议上表示(ICLR 2020) 2020年4月26 - 30日, 虚拟 威廉姆斯 Rj 简单的统计梯度跟随联结主义强化学习算法 马赫学习 1992年 5 8 3 - 4 229年 256年 10.1007 / BF00992696 兰尼 SJ Marcheret E Mroueh Y 罗斯 J 戈埃尔 V 自我批评序列训练图像字幕 《IEEE计算机视觉与模式识别会议(CVPR) 2017年 7 2017年IEEE计算机视觉与模式识别会议(CVPR) 2017年7月,第21到26 火奴鲁鲁,嗨 纽约,纽约 IEEE 7008年 7024年 10.1186 / isrctn12348322 Spasic Nenadic G 在机器学习临床文本数据:系统回顾 地中海JMIR通知 2020年 03 31日 8 3 e17984 10.2196/17984 32229465 v8i3e17984 PMC7157505 马丁 l 赛高特 B 誉为 一个 可控的句子简化 将12日语言资源和评估会议 2020年 05年 11 第十二语言资源和评价研讨会论文集 2020-05-11 法国 4689年 4698年 YY F J Bhendawade N T Y N D B R FastSeq:序列生成速度更快 2021年 08年 01 第59届年度会议将计算语言学和第11届国际协会的联合会议上自然语言处理:系统演示。2021年8月 2022-08-01 泰国 218年 226年 10.18653 / v1/2021.acl-demo.26 保卢斯 R C Socher R 增强模型的抽象总结 2018年 学习国际会议上表示(ICLR 2018) 2018年4月30日至5月3日 温哥华公元前 bxcy 胭脂:Summarie自动评价的方案 2004年 文本摘要分支了 2004年7月25日和6日 西班牙巴塞罗那 新泽西州新不伦瑞克 计算语言学协会 74年 81年 W Neubig G P BARTScore:评估生成文本作为文本的一代 2021年 05年 21 先进的神经信息处理系统34:2021年年度会议在神经信息处理系统,NeurIPS 2021 2021年12月6日至14日, 虚拟 27263年 27277年 J Y 萨利赫 P 珀加索斯:训练前提取gap-sentences摘要式的总结 2020年 07年 13 InInternational会议机器学习》2020 2020-07-13 虚拟 Loshchilov Hutter F 解耦重量衰变正规化 2018年 09年 27 学习国际会议上表示 2018年 加拿大温哥华
Baidu
map