站点图标 产品经理的人工智能学习库

2019 最新的 Transformer 模型:XLNET,ERNIE 2.0和ROBERTA

好文分享

好文分享

大型预训练语言模型无疑是自然语言处理(NLP)最新研究进展的主要趋势。

虽然很多AI专家都认同安娜罗杰斯的说法,即用更多的数据和计算能力获得最先进的结果并不是研究新闻,但其他NLP意见领袖也看到了当前趋势中的一些积极时刻。例如,DeepMind的研究科学家Sebastian Ruder 指出,这些大语言框架有助于我们看到当前范式的基本局限。

由于变形金刚占据了NLP排行榜,因此通常很难遵循修正案的内容,从而使新的大语言模型能够设置出另一种最先进的结果。为了帮助您及时了解最新的NLP突破,我们总结了研究论文,其中包括GLUE基准的当前领导者:来自卡内基梅隆大学的XLNet,来自百度的ERNIE 2.0和来自Facebook AI的RoBERTa。

如果这些可访问的AI研究分析和摘要对您有用,您可以订阅以下我们的常规行业更新

如果你想跳过,我们推荐的论文如下:

  1. XLNet:用于语言理解的广义自回归预训练
  2. ERNIE 2.0:语言理解的持续预培训框架
  3. RoBERTa:一种稳健优化的BERT预训练方法

大语言框架

1. XLNET:用于语言理解的广义自回归预训练,由ZHILIN YANG,ZIHANG DAI,YIMING YANG,JAIME CARBONELL,RUSLAN SALAKHUTDINOV,QUOC V. LE

原始摘要

凭借对双向上下文进行建模的能力,基于自动回归语言建模的预训练方法可以实现基于BERT的预训练的去噪自动编码实现更好的性能。然而,依赖于使用掩码破坏输入,BERT忽略了屏蔽位置之间的依赖性并且受到预训练 – 微调差异的影响。根据这些优点和缺点,我们提出了XLNet,一种广义自回归预训练方法,它(1)通过最大化分解阶的所有排列的预期可能性来学习双向上下文,并且(2)由于其自回归,克服了BERT的局限性。公式。此外,XLNet将最先进的自回归模型Transformer-XL的创意整合到预训练中。根据经验,XLNet在20项任务上优于BERT,

我们的总结

来自卡内基梅隆大学和谷歌的研究人员开发了一种新的模型XLNet,用于自然语言处理(NLP)任务,如阅读理解,文本分类,情感分析等。XLNet是一种通用的自回归预训练方法,它利用了自回归语言建模(例如,Transformer-XL)和自动编码(例如BERT)的优点,同时避免了它们的限制。实验证明,新模型优于BERT和Transformer-XL,并在18个NLP任务上实现了最先进的性能。

本文的核心思想是什么?

什么是关键成就?

AI社区的想法是什么?

未来的研究领域是什么?

什么是可能的商业应用?

你在哪里可以得到实现代码?

2. ERNIE 2.0:语言理解的持续预培训框架,由YU SUN,SHUOHUAN WANG,YUKUN LI,SHIKUN FENG,HAO TIAN,WU WU,HAIFENG WANG

原始摘要

最近,预训练模型在各种语言理解任务中取得了最新成果,这表明大型语料库的预训练可能在自然语言处理中起着至关重要的作用。目前的预训练程序通常侧重于通过几个简单的任务来训练模型,以掌握单词或句子的共现。然而,除了共存之外,训练语料库中还存在其他有价值的词汇,句法和语义信息,如命名实体,语义接近和语篇关系等。为了最大限度地提取来自训练语料库的词汇,句法和语义信息,我们提出了一个名为ERNIE 2.0的连续预训练框架,该框架通过持续的多任务学习来逐步建立和学习预训练任务。实验结果表明,ERNIE 2.0在16项任务上优于BERT和XLNet,包括GLUE基准上的英语任务和中文的几项常见任务。源代码和预先训练的模型已发布于https://github.com/PaddlePaddle/ERNIE

我们的总结

大多数最先进的自然语言处理模型分析了预训练中句子中单词的共现。但是,句子中包含的附加信息包括句子顺序和接近度,命名实体和语义相似性,模型没有捕获。在百度研究者(通过创建一个连续预训练框架ERNIE 2.0解决此问题Ë nhanced ř epresentation至K Ñ owledge  nt下ëgration),通过多任务学习不断引入和培训定制任务。因此,该模型可以跨任务编码词法,句法和语义信息,而不会忘记以前训练过的参数。ERNIE 2.0在英语GLUE基准测试中优于BERT和XLNet,为中文处理设定了新的技术水平。

本文的核心思想是什么?

什么是关键成就?

AI社区的想法是什么?

未来的研究领域是什么?

什么是可能的商业应用?

你在哪里可以得到实现代码?

3. ROBERTA:一种稳健优化的BERT预训练方法,由YINHAN LIU,MYLE OTT,NAMAN GOYAL,杜景飞,MANDAR JOSHI,DANQI CHEN,OMER LEVY,MIKE LEWIS,LUKE ZETTLEMOYER,VESELIN STOYANOV

原始摘要

语言模型预训练带来了显着的性能提升,但不同方法之间的仔细比较具有挑战性。培训计算成本很高,通常在不同大小的私有数据集上完成,正如我们将要展示的,超参数选择对最终结果有重大影响。我们提出了BERT预训练的复制研究(Devlin等,2019),该研究仔细测量了许多关键超参数和训练数据大小的影响。我们发现BERT显着不足,并且可以匹配或超过其后发布的每个模型的性能。我们最好的模型在GLUE,RACE和SQuAD上实现了最先进的结果。这些结果突出了之前被忽视的设计选择的重要性,并提出了有关最近报告的改进的来源的问题。我们发布我们的模型和代码。

我们的总结

由于引入了预训练方法,自然语言处理模型取得了显着进步,但是训练的计算费用使得复制和微调参数变得困难。在这项研究中,Facebook AI和华盛顿大学的研究人员分析了谷歌的变换器双向编码器表示(BERT)模型的培训,并确定了培训程序的几个变化,以提高其性能。具体而言,研究人员使用新的更大的数据集进行训练,在更多迭代中训练模型,并删除了下一个序列预测训练目标。由此产生的优化模型RoBERTa(稳健优化的BERT方法)与GLUE基准上最近推出的XLNet模型的得分相匹配。

本文的核心思想是什么?

什么是关键成就?

未来的研究领域是什么?

什么是可能的商业应用?

你在哪里可以得到实现代码?

本文转自TOPBOTS,原文地址

退出移动版