2019 最新的 Transformer 模型：XLNET，ERNIE 2.0和ROBERTA

大型预训练语言模型无疑是自然语言处理（NLP）最新研究进展的主要趋势。

虽然很多AI专家都认同安娜罗杰斯的说法，即用更多的数据和计算能力获得最先进的结果并不是研究新闻，但其他NLP意见领袖也看到了当前趋势中的一些积极时刻。例如，DeepMind的研究科学家Sebastian Ruder 指出，这些大语言框架有助于我们看到当前范式的基本局限。

由于变形金刚占据了NLP排行榜，因此通常很难遵循修正案的内容，从而使新的大语言模型能够设置出另一种最先进的结果。为了帮助您及时了解最新的NLP突破，我们总结了研究论文，其中包括GLUE基准的当前领导者：来自卡内基梅隆大学的XLNet，来自百度的ERNIE 2.0和来自Facebook AI的RoBERTa。

如果这些可访问的AI研究分析和摘要对您有用，您可以订阅以下我们的常规行业更新。

如果你想跳过，我们推荐的论文如下：

大语言框架

1. XLNET：用于语言理解的广义自回归预训练，由ZHILIN YANG，ZIHANG DAI，YIMING YANG，JAIME CARBONELL，RUSLAN SALAKHUTDINOV，QUOC V. LE

原始摘要

凭借对双向上下文进行建模的能力，基于自动回归语言建模的预训练方法可以实现基于BERT的预训练的去噪自动编码实现更好的性能。然而，依赖于使用掩码破坏输入，BERT忽略了屏蔽位置之间的依赖性并且受到预训练 – 微调差异的影响。根据这些优点和缺点，我们提出了XLNet，一种广义自回归预训练方法，它（1）通过最大化分解阶的所有排列的预期可能性来学习双向上下文，并且（2）由于其自回归，克服了BERT的局限性。公式。此外，XLNet将最先进的自回归模型Transformer-XL的创意整合到预训练中。根据经验，XLNet在20项任务上优于BERT，

我们的总结

来自卡内基梅隆大学和谷歌的研究人员开发了一种新的模型XLNet，用于自然语言处理（NLP）任务，如阅读理解，文本分类，情感分析等。XLNet是一种通用的自回归预训练方法，它利用了自回归语言建模（例如，Transformer-XL）和自动编码（例如BERT）的优点，同时避免了它们的限制。实验证明，新模型优于BERT和Transformer-XL，并在18个NLP任务上实现了最先进的性能。

本文的核心思想是什么？

XLNet结合了BERT的双向功能和Transformer-XL的自回归技术：
- 与BERT一样，XLNet使用双向上下文，这意味着它会查看给定令牌之前和之后的单词以预测它应该是什么。为此，XLNet针对分解顺序的所有可能排列最大化序列的预期对数似然。
- 作为一种自回归语言模型，XLNet不依赖于数据损坏，因此避免了由于屏蔽导致的BERT限制 – 即，预跟踪 – 微调差异以及未屏蔽的令牌彼此独立的假设。
为了进一步改进预训练的架构设计，XLNet集成了Transformer-XL的片段重现机制和相对编码方案。

什么是关键成就？

XLnet在20项任务上的表现优于BERT，通常大幅提升。
新模型在18个NLP任务上实现了最先进的性能，包括问答，自然语言推理，情感分析和文档排名。

AI社区的想法是什么？

“国王死了。吾皇万岁。BERT的统治可能即将结束。XLNet是CMU和谷歌人的新模型，在20项任务上胜过BERT。“ – Deepmind的研究科学家Sebastian Ruder。
“XLNet可能会成为任何NLP从业者的重要工具…… [它]是NLP最新的尖端技术。” – Keita Kurita，卡内基梅隆大学。

未来的研究领域是什么？

将XLNet扩展到新的领域，例如计算机视觉和强化学习。

什么是可能的商业应用？

XLNet可以帮助企业解决各种NLP问题，包括：
- 聊天机器人一线客户支持或回答产品查询;
- 基于客户评论和社交媒体评估品牌知名度和认知度的情绪分析;
- 在文件库或在线等搜索相关信息

你在哪里可以得到实现代码？

作者发布了XLNet的官方Tensorflow实现。
GitHub上也提供了PyTorch模型的实现。

2. ERNIE 2.0：语言理解的持续预培训框架，由YU SUN，SHUOHUAN WANG，YUKUN LI，SHIKUN FENG，HAO TIAN，WU WU，HAIFENG WANG

原始摘要

最近，预训练模型在各种语言理解任务中取得了最新成果，这表明大型语料库的预训练可能在自然语言处理中起着至关重要的作用。目前的预训练程序通常侧重于通过几个简单的任务来训练模型，以掌握单词或句子的共现。然而，除了共存之外，训练语料库中还存在其他有价值的词汇，句法和语义信息，如命名实体，语义接近和语篇关系等。为了最大限度地提取来自训练语料库的词汇，句法和语义信息，我们提出了一个名为ERNIE 2.0的连续预训练框架，该框架通过持续的多任务学习来逐步建立和学习预训练任务。实验结果表明，ERNIE 2.0在16项任务上优于BERT和XLNet，包括GLUE基准上的英语任务和中文的几项常见任务。源代码和预先训练的模型已发布于https://github.com/PaddlePaddle/ERNIE。