覆盖40种语言：谷歌发布多语言、多任务NLP新基准XTREME

机器之心报道

参与：泽南、蛋酱、杜伟

自然语言权威数据集 GLUE 一直是衡量各机构 NLP 预训练技术水平最重要的指标之一。近年来在其榜单之上实现更好的成绩，也成为了科技公司技术提升的体现。不过现有的大多数 NLP 基准仅限于英文任务，无法评价 NLP 模型在其他语言上的能力。

近日，来自 CMU、谷歌研究院和 DeepMind 的科学家们提出了覆盖四十种语言的大规模多语言多任务基准 XTREME，希望一举解决这个问题。

自然语言处理（NLP）所面临的其中一个关键性挑战是，构建的系统不仅要在英文中 work，而且要在世界范围内约 6900 种语言中也 work。幸运的是，虽然大多数语言呈现数据稀疏（data sparse）且没有充足可用的数据来自行训练鲁棒的模型，但其中的很多语言共享大量的底层结构。

此外，NLP 领域有很多方法在训练过程中利用到了多语言的共享结构，以克服数据稀疏的问题。但不足的是，大多数这些方法侧重于在多语言中执行特定任务。近几年，得益于深度学习的进展，有更多的方法试图学习通用的多语言表示（如 mBERT、XLM 和 XLM-R），这些方法旨在捕获跨语言间共享且对多任务有用的知识。但在实践中，这类方法的评估却大多侧重于一小部分任务以及相似的语言。

因此，为了鼓励人们在多语言学习领域开展更多研究，谷歌研究院联合 CMU、DeepMind 发表了研究论文《XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization》，该研究覆盖了 40 种类型不同的语言（跨 12 个语系），并包含了 9 项需要对不同句法或语义层面进行推理的任务。

在 XTREME 大规模多语言多任务基准上选择 40 种不同类型的语言，这是为了实现语言多样性、现有任务覆盖以及训练数据可用性的最大化。其中一些是 under-studied 的语言，如达罗毗荼语系中的泰米尔语（印度南部、斯里兰卡和新加坡）、泰卢固语和马拉雅拉姆语（主要集中在印度南部）以及尼日尔-刚果语系中的斯瓦希里语和约鲁巴语（非洲）。

论文地址：https://arxiv.org/pdf/2003.11080.pdf

项目地址：https://github.com/google-research/xtreme

XTREME 论文的并列一作是 CMU 语言技术研究所的在读博士胡俊杰，和 DeepMind 著名的研究科学家 Sebastian Ruder。

XTREME

XTREME 中的任务涵盖了句子分类、结构化预测、句子检索和问答等一系列样式，因此，为了使模型在 XTREME 上取得好的表现，就必须学习可以泛化至多标准跨语种迁移设置的表征。

覆盖40种语言：谷歌发布多语言、多任务NLP新基准XTREME

XTREME 支持的任务类型。

每种任务都涵盖 40 种语言的子集，为了获得 XTREME 分析所用的低资源语言的附加数据，自然语言推理（XNLI）和问答（XQuAD）这两个代表性任务的测试集会自动从英语翻译为其他语言。模型在使用这些翻译过来的测试集执行任务时的性能表现，可与使用人工标注测试集的表现相媲美。

Zero-shot 评估

在使用 XTREME 评估模型的性能之前，首先要用支持跨语言学习的多语言文本进行模型预训练。然后根据任务特定的英语数据对模型进行微调，因为英语是最容易获得标签化数据的语言。之后，XTREME 会评估这些模型的 zero-shot 跨语言迁移性能，包括在其他没有任务特定数据的语言中。

下图展示了「预训练-微调-zero-shot 迁移」的过程：

覆盖40种语言：谷歌发布多语言、多任务NLP新基准XTREME

模型的跨语言迁移学习过程：1、针对多语言文本的预训练；2、使用英语对下游任务进行微调；3、使用 XTREME 进行 zero-shot 评估。

在实际操作中，这种 zero-shot 设置的好处就在于计算效率，预训练模型仅需要针对每个任务在英语数据上进行微调，便能直接应用于其他语言的评估。但对于其他有标签化数据的语言的任务，研究者也进一步对比了微调结果，根据在 9 个 XTREME 任务上的 zero-shot 得分来提供最终综合得分。

迁移学习测试平台

研究者使用了几种多语言预训练 SOTA 模型进行了实验，包括：

多语言 BERT（mBERT）：BERT 的多语言扩展版本；

XLM 和 XLM-R：规模更大、数据处理量更多版本的「多语言 BERT」；

M4：大规模多语言机器翻译模型。

所选用的这些模型都有一个共同特点，就是已经过多种语言的大量数据的预训练。在本次实验中，研究者使用这些模型的变体——变体已在大概 100 种语言中进行了预训练，其中也包括 XTREME 上的 40 种语言。

实验结果表明，虽然模型在大多数现有英语任务中的表现接近于人类表现，但在许多其他语言中的表现却明显落了下风。在所有模型中，结构化预测和问答这两项任务在英语和其他语种之间的性能差距最为明显，而结构化预测和句子检索这两项任务则在跨语言结果上分布差异最大。

下图按照任务和语言的类别，展示了 zero-shot 设置下的 best-performing 模型 XLM-R 在所有语系中的表现。不同任务之间的分数不可相比，重点在于同一任务下、不同语系中的相对排名，如图所示，许多高资源语言比如印欧语系，排名一直比较高。相比之下，该模型在其他语种，比如藏语、日语、韩语等语言上的性能排名较低。

覆盖40种语言：谷歌发布多语言、多任务NLP新基准XTREME

在 zero-shot 设置下，XTREME 基准上 best-performing 模型（XLM-R）在所有任务和语言上的性能表现。得分是基于 task-specific 度量的百分比，并且在不同任务之间没有直接比较。人类表现（如果可用）则由红星表示。

总之，研究者得出了以下一些有趣的观察结果：

在 zero-shot 设置下，M4 和 mBERT 在大多数任务上表现出与 XLM-R 媲美的性能，但是 XLM-R 在特别具有挑战性的问答任务上要优于前两者。例如，在 XQuAD 任务上，XLM-R 得分为 76.6，高于 M4 的 64.6 和 mBERT 的 64.5。三者在 MLQA 和 TyDi QA 任务上的表现情况也是如此；

利用机器翻译的基线方法，在翻译训练数据或测试数据时，都会表现出强大的性能。例如，在 XNLI 任务上，mBERT 在 zero-shot 迁移设置下得分为 65.4，但在使用翻译过的训练数据时，得分提升到了 74.0。

few-shot 设置（即使用有限的语内标签数据）对 NER 等相对简单的任务会表现出特别强大的性能，但对于更为复杂的问答任务则帮助有限。以 mBERT 的性能表现为例，在 few-shot 设置下，它在 NER 任务上的性能提升了 42%，得分由 62.2 提升到 88.3；但在问答任务上（TyDi QA），性能仅提升了 25%，得分由 59.7 提升到 74.5；

最后，所有模型和设置在英文和其他语言上的性能表现依然存在很大的差距，这表明跨语言迁移依然有着巨大的研究潜力。

跨语言迁移分析

与此前对于深度模型泛化能力的观察类似，我们可以看到预训练数据越多，效果就更好，如 mBERT 遇 XLM-R 相比。不过这种相关性并未出现在结构化预测任务中：在词性标记（POS）和命名实体识别（NER）等任务上，当前的深度预训练模型无法完全利用预训练数据来迁移此类语法任务。

研究人员还发现模型也很难迁移到非拉丁语言中。这种情况在 POS 任务上非常明显，其中 mBERT 在西班牙语上的 zero-shot 准确率为 86.9%，在日语上仅为 49.2%。

对于自然语言推理任务 XNLI，研究者发现模型在同一个预测上，英语和其他语言相同的情况为 70%。半监督方法可能会有助于提高翻译成其他语言后预测的一致性。研究者还发现，模型很难预测出英语训练数据中未出现的 POS 标记，这表明这些模型难以从用于预训练的大量未标记数据中学习其他语言的语法。

对于实体命名识别，模型预测最为不准确的是与英语差异最大的几种语言——其在印尼语和斯瓦西里语中的准确度为 58.0 和 66.6，相比之下，葡萄牙语和法语为 82.3 和 80.1。

多语言迁移学习

英语的使用人数仅占全球人口的 15%，但其 NLP 研究却最为充分。研究者相信通过构建深度上下文表示方式，我们就拥有了为全球其他种类的语言提供实质性技术进展的工具。XTREME 或许可以成为多语言迁移学习的重要一步，就像 GLUE 和 SuperGLUE 在单语言模型基准上那样，催生出类似 BERT、RoBERTa、XLNet、AlBERT 的优秀模型。

参考内容：http://ai.googleblog.com/2020/04/xtreme-massively-multilingual-multi.html