Meta首次赢得WMT机器翻译大赛，证明单一多语言模型比双语模型更强

来源：趣玩责编：网络时间：2024-10-26 10:08:38

Meta提出的单一多语言模型首次超越了最好的双语模型，并赢得了著名的WMT竞赛。

机器翻译（MT）领域的最终目标是构建一个通用翻译系统，帮助用户获取信息并更好地相互联系。然而，MT领域需要解决实际应用中遇到的基本限制，以便将来能够更好地使用。

如今，大多数机器翻译系统都使用双语模型集，这通常需要为每个语言对和任务提供大量带标签的示例。不幸的是，这种方法对于训练数据很少的语言（例如冰岛语、豪萨语）来说是失败的。双语模型集的高度复杂性使得扩展到大型现实世界应用程序变得不切实际，因为每天有数十亿人用数百种语言发布信息。

为了构建通用翻译器，Meta 的研究人员认为MT 领域应该从双语模型转向多语言翻译（Multilingual Translation）—— 多语言模型是指一个模型可以同时翻译多种语言对，包括低资源语言对（例如，冰岛英语到英语的翻译）和高资源语言对（例如，英语到德语的翻译）。

论文地址：https://arxiv.org/pdf/2108.03265.pdf 代码地址：https://github.com/pytorch/fairseq/tree/main/examples/wmt21 由于多语言翻译更简单，更容易扩展，更适合低资源语言，更容易受到研究者的青睐。但到目前为止，多语言翻译还无法为高资源语言对提供与双语模型（经过专门训练）一样好的结果。因此，提供跨多种语言的高质量翻译通常需要使用单个双语模型的组合，这对于资源匮乏的语言来说更难以实现。

现在，Meta 的研究取得了突破：首次在14 个语言对中的10 个中，单个多语言模型超越了经过专门训练的最佳双语模型，赢得了WMT（著名的MT 竞赛）竞赛。这个单一的多语言模型为低资源和高资源语言提供了最佳翻译，表明多语言方法确实是机器翻译的未来。

Yann LeCun 在Twitter 上宣传了这项研究：

Meta首次赢得WMT机器翻译大赛，证明单一多语言模型比双语模型更强

这项研究建立在先前研究的基础上，旨在提高资源匮乏语言的翻译质量。然而，当添加具有各种资源的语言时，随着添加更多语言，模型会变得不堪重负，因为每种语言都有独特的语言属性、脚本和词汇。虽然高资源语言受益于大型多语言模型，但低资源语言对存在过度拟合的风险。

上图为2017年至2021年WMT比赛日程。表格显示了英德翻译的表现质量随时间的进展情况。从结果可以看出，多语言模型现在已经超越了双语模型。其中，En-De（英译德）被公认为最具竞争力的翻译方向。

Meta 的多语言模型是机器翻译领域的一个令人兴奋的转折点，因为它表明——通过大规模数据挖掘、扩展模型容量和更高效的基础设施方面的新进展，多语言模型可以在高资源和低资源上表现良好。任务。取得更好的表现。这项技术使研究人员距离构建通用翻译器又近了一步。

大规模数据挖掘

为了训练WMT 2021 模型，研究人员利用并行数据挖掘技术构建了两个多语言系统：any-to-English 和English-to-any。

Meta 提出的模型与提交给WMT '21 的最佳模型的性能比较。图中的数据是WMT'21测试集的BLEU得分。

由于任何语言的单语数据量都远远超过并行数据量，因此对于Meta 来说，利用可用的单语数据来最大化MT 系统的性能至关重要。回译是单语数据最常用的技术之一，Meta 使用该技术赢得了2018 年和2019 年WMT 英德新闻翻译任务。在这项研究中，Meta 添加了包含所有八种语言的数亿个句子的大规模单语数据。对可用的单语言数据进行过滤以减少噪音量，然后使用可用的最强多语言模型进行反向翻译。

Meta首次赢得WMT机器翻译大赛，证明单一多语言模型比双语模型更强

扩展模型的能力

除了通过反向翻译扩展数据大小之外，Meta 还将模型大小从150 亿个参数扩展至520 亿个参数，以增加多语言模型架构的容量。但是，如果没有Meta 在6 月份推出的名为“完全分片数据并行”的GPU 内存节省工具，这些扩展工作就不可能实现。该工具使大规模训练速度比以前的方法快5 倍。

完全分片数据并行(FSDP)。

更高效的基础设施

由于多语言模型本质上具有竞争容量的特性，因此它们必须在共享参数和不同语言的专业化之间取得平衡。缩放模型大小会导致不可持续的计算成本。

WMT 2021 开发集上的BLEU 得分。

Meta 使用另一种方法，即利用条件计算方法，仅激活每个训练示例的模型子集。具体来说，Meta 训练了一个稀疏门控混合专家模型，每个令牌根据学习到的门函数被输入到top-k 专家前馈（FeedForward）块中。他们使用Transformer 架构，其中每个备用Transformer 层中的前馈块被稀疏门控混合专家层取代，该专家层在编解码器中具有top-2 门。因此，每个输入序列仅使用所有模型参数的子集。

Meta首次赢得WMT机器翻译大赛，证明单一多语言模型比双语模型更强