微软DeBERTa登顶SuperGLUE排行榜

在最新的NLU测试基准SuperGLUE中,微软提出的DeBERTa登顶榜单,并超越人类 。
去年6月,来自微软的研究者提出一种新型预训练语言模型DeBERTa,该模型使用两种新技术改进了BERT和RoBERTa模型 。8月,该研究开源了模型代码,并提供预训练模型下载 。最近这项研究又取得了新的进展 。微软最近通过训练更大的版本来更新DeBERTa模型,该版本由48个Transformer层组成,带有15亿个参数 。本次扩大规模带来了极大的性能提升,使得单个DeBERTa模型SuperGLUE上宏平均(macro-average)得分首次超过人类(89.9vs89.8),整体DeBERTa模型在SuperGLUE基准排名中居于首位,以90.3的得分显著高出人类基线(89.8) 。目前该模型以90.8的宏平均(macro-average)得分高居GLUE基准排名的首位 。
SuperGLUE排行榜,2021年1月6日 。DeBERTa是一种基于Transformer,使用自监督学习在大量原始文本语料库上预训练的神经语言模型 。像其他PLM一样,DeBERTa旨在学习通用语言表征,可以适应各种下游NLU任务 。DeBERTa使用3种新技术改进了之前的SOTAPLM(例如BERT、RoBERTa、UniLM),这3种技术是:
分解注意力(disentangLEDattention)机制;
增强型掩码解码器;
一种用于微调的虚拟对抗训练方法 。

微软DeBERTa登顶SuperGLUE排行榜

文章插图
表1:在GLUE开发集上的结果对比 。表1总结了8个GLUE任务的结果,其中将DeBERTa与具有类似transformer结构的一些模型进行了比较,这些模型包括BERT、RoBERTa、XLNet、ALBERT以及ELECTRA 。注意,RoBERTa、XLNet以及ELECTRA训练数据的大小为160G,而DeBERTa训练数据大小为78G 。该研究还对DeBERTa进行了一些其他的基准评估:
问答:SQuADv1.1、SQuADv2.0、RACE、ReCoRD以及SWAG;
自然语言推理:MNLI;
命名体识别(NER):CoNLL-2003 。
结果如表2所示 。
微软DeBERTa登顶SuperGLUE排行榜
文章插图
表2:在MNLIin/out-domain、SQuADv1.1、SQuADv2.0、RACE、ReCoRD、SWAG、CoNLL2003NER开发集上的结果展示 。基础模型性能比较基础模型预训练的设置与大型模型的设置类似,基础模型结构遵循BERT的基础模型结构,性能评估结果如表3所示 。
微软DeBERTa登顶SuperGLUE排行榜
文章插图
表3:在MNLIin/out-domain(m/mm)、SQuADv1.1和v2.0开发集上的结果对比 。生成任务结果比较该研究在数据集Wikitext-103上,进一步对带有自回归语言模型(ARLM)的DeBERTa模型进行了评估 。
微软DeBERTa登顶SuperGLUE排行榜
文章插图
表4:在Wikitext-103数据集上,不同语言模型对比结果 。DeBERTa_base在开发集和测试集上都获得了比较好的PPL结果,MLM和ARLM联合训练进一步降低了PPL,这展示了DeBERTa的有效性 。模型分析消融实验:为了验证实验设置,该研究从头开始预训练RoBERTa基础模型 。并将重新预训练的RoBERTa称为RoBERTa-ReImp_base 。为了研究DeBERTa模型不同部分对性能的影响,研究人员设计了三种变体:
EMD表示没有EMD的DeBERTa基础模型;
C2P表示没有内容到位置term的DeBERTa基础模型;
P2C表示没有位置到内容term的DeBERTa基础模型 。由于XLNet也使用了相对位置偏差,所以该模型与XLNet+EMD模型比较接近 。
微软DeBERTa登顶SuperGLUE排行榜
文章插图
表5总结了DeBERTa基础模型消融实验在四个基准数据集上的结果 。预训练效率为了研究模型预训练的收敛性,该研究以预训练step数的函数的形式可视化微调下游任务的性能,如图1所示,对于RoBERTaReImp基础模型和DeBERTa基础模型,该研究每150K个预训练step存储一个检查点,然后对两个有代表性的下游任务(MNLI和SQuADv2.0)上的检查点进行微调,之后分别报告准确率和F1得分 。
微软DeBERTa登顶SuperGLUE排行榜
文章插图
【微软DeBERTa登顶SuperGLUE排行榜】图1:DeBERTa及其相似模型在MNLI、SQuADv2.0开发集上的预训练性能曲线 。扩展至15亿参数更大的预训练模型会显示出更好的泛化结果 。因此,该研究建立了一个拥有15亿个参数的DeBERTa,表示为DeBERTa_1.5B,该模型有48层 。在160G预训练数据集上训练DeBERTa_1.5B,并且使用数据集构造了一个大小为128K的新词汇表 。
微软DeBERTa登顶SuperGLUE排行榜
文章插图
表6:DeBERTa_1.5B和其他几种模型在SuperGLUE测试集上的结果 。
原文标题:NLU新里程碑,微软DeBERTa登顶SuperGLUE排行榜,显著超越人类
文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处 。
责任编辑:haq
.dfma {position: relative;width: 1000px;margin: 0 auto;}.dfma a::after {position: absolute;left: 0;bottom: 0;width: 30px;line-height: 1.4;text-align: center;background-color: rgba(0, 0, 0, .5);color: #fff;font-size: 12px;content: "广告";}.dfma img {display: block;}
微软DeBERTa登顶SuperGLUE排行榜
文章插图

    推荐阅读