Meta首次赢得WMT机器翻译大赛,证明单一多语言模型比双语模型更强

来源:趣玩责编:网络时间:2024-10-26 10:08:38

Meta提出的单一多语言模型首次超越了最好的双语模型,并赢得了著名的WMT竞赛。

机器翻译(MT)领域的最终目标是构建一个通用翻译系统,帮助用户获取信息并更好地相互联系。然而,MT领域需要解决实际应用中遇到的基本限制,以便将来能够更好地使用。

如今,大多数机器翻译系统都使用双语模型集,这通常需要为每个语言对和任务提供大量带标签的示例。不幸的是,这种方法对于训练数据很少的语言(例如冰岛语、豪萨语)来说是失败的。双语模型集的高度复杂性使得扩展到大型现实世界应用程序变得不切实际,因为每天有数十亿人用数百种语言发布信息。

为了构建通用翻译器,Meta 的研究人员认为MT 领域应该从双语模型转向多语言翻译(Multilingual Translation)—— 多语言模型是指一个模型可以同时翻译多种语言对,包括低资源语言对(例如,冰岛英语到英语的翻译)和高资源语言对(例如,英语到德语的翻译)。

论文地址:https://arxiv.org/pdf/2108.03265.pdf 代码地址:https://github.com/pytorch/fairseq/tree/main/examples/wmt21 由于多语言翻译更简单,更容易扩展,更适合低资源语言,更容易受到研究者的青睐。但到目前为止,多语言翻译还无法为高资源语言对提供与双语模型(经过专门训练)一样好的结果。因此,提供跨多种语言的高质量翻译通常需要使用单个双语模型的组合,这对于资源匮乏的语言来说更难以实现。

现在,Meta 的研究取得了突破:首次在14 个语言对中的10 个中,单个多语言模型超越了经过专门训练的最佳双语模型,赢得了WMT(著名的MT 竞赛)竞赛。这个单一的多语言模型为低资源和高资源语言提供了最佳翻译,表明多语言方法确实是机器翻译的未来。

Yann LeCun 在Twitter 上宣传了这项研究:

Meta首次赢得WMT机器翻译大赛,证明单一多语言模型比双语模型更强

这项研究建立在先前研究的基础上,旨在提高资源匮乏语言的翻译质量。然而,当添加具有各种资源的语言时,随着添加更多语言,模型会变得不堪重负,因为每种语言都有独特的语言属性、脚本和词汇。虽然高资源语言受益于大型多语言模型,但低资源语言对存在过度拟合的风险。

上图为2017年至2021年WMT比赛日程。表格显示了英德翻译的表现质量随时间的进展情况。从结果可以看出,多语言模型现在已经超越了双语模型。其中,En-De(英译德)被公认为最具竞争力的翻译方向。

Meta 的多语言模型是机器翻译领域的一个令人兴奋的转折点,因为它表明——通过大规模数据挖掘、扩展模型容量和更高效的基础设施方面的新进展,多语言模型可以在高资源和低资源上表现良好。任务。取得更好的表现。这项技术使研究人员距离构建通用翻译器又近了一步。

大规模数据挖掘

为了训练WMT 2021 模型,研究人员利用并行数据挖掘技术构建了两个多语言系统:any-to-English 和English-to-any。

Meta 提出的模型与提交给WMT '21 的最佳模型的性能比较。图中的数据是WMT'21测试集的BLEU得分。

由于任何语言的单语数据量都远远超过并行数据量,因此对于Meta 来说,利用可用的单语数据来最大化MT 系统的性能至关重要。回译是单语数据最常用的技术之一,Meta 使用该技术赢得了2018 年和2019 年WMT 英德新闻翻译任务。在这项研究中,Meta 添加了包含所有八种语言的数亿个句子的大规模单语数据。对可用的单语言数据进行过滤以减少噪音量,然后使用可用的最强多语言模型进行反向翻译。

Meta首次赢得WMT机器翻译大赛,证明单一多语言模型比双语模型更强

扩展模型的能力

除了通过反向翻译扩展数据大小之外,Meta 还将模型大小从150 亿个参数扩展至520 亿个参数,以增加多语言模型架构的容量。但是,如果没有Meta 在6 月份推出的名为“完全分片数据并行”的GPU 内存节省工具,这些扩展工作就不可能实现。该工具使大规模训练速度比以前的方法快5 倍。

完全分片数据并行(FSDP)。

更高效的基础设施

由于多语言模型本质上具有竞争容量的特性,因此它们必须在共享参数和不同语言的专业化之间取得平衡。缩放模型大小会导致不可持续的计算成本。

WMT 2021 开发集上的BLEU 得分。

Meta 使用另一种方法,即利用条件计算方法,仅激活每个训练示例的模型子集。具体来说,Meta 训练了一个稀疏门控混合专家模型,每个令牌根据学习到的门函数被输入到top-k 专家前馈(FeedForward)块中。他们使用Transformer 架构,其中每个备用Transformer 层中的前馈块被稀疏门控混合专家层取代,该专家层在编解码器中具有top-2 门。因此,每个输入序列仅使用所有模型参数的子集。

Meta首次赢得WMT机器翻译大赛,证明单一多语言模型比双语模型更强

带有混合专家层的Transformer 编码器的扩展。

这些模型既可以从高资源方向上增加的专家模型容量中受益,也可以通过共享模型容量迁移到低资源方向。

Meta 认为,他们在WMT 2021 上的结果巩固了多语言翻译作为构建单一通用翻译系统的重要方式。他们还证明,对于高资源语言和低资源语言,单一多语言模型可以提供比双语模型更高的翻译质量,并且更容易针对“新闻文章翻译”等特定任务进行微调。

这种“多种语言的单一模型”方法可以简化实际应用程序翻译系统的开发,并有可能用一个模型取代数千个模型,从而为世界上的每个人带来新的应用程序和服务。

用户评论

丢了爱情i

这可是个重大突破啊!单个多语言模型能超过双语模型真是太让人期待了.

    有11位网友表示赞同!

坏小子不坏

以后游戏 localization 会更方便更快了吧?

    有9位网友表示赞同!

拥抱

这样一来,各种语言的游戏都更容易被玩家玩到!

    有12位网友表示赞同!

寻鱼水之欢

希望能看到更多使用这个技术的多语言游戏的出现!

    有10位网友表示赞同!

琴断朱弦

对翻译质量感到非常好奇,Meta这次肯定下了不少功夫吧。

    有18位网友表示赞同!

金橙橙。-

多语言模型还能用来做哪些有趣的事情呢?

    有9位网友表示赞同!

在哪跌倒こ就在哪躺下

未来游戏里玩家之间可以更方便地跨语言交流吗?

    有18位网友表示赞同!

放肆丶小侽人

这种技术会不会让一些翻译工作者失业呢?

    有11位网友表示赞同!

念旧情i

看来人工智能在游戏领域的影响越来越大啦。

    有20位网友表示赞同!

迷路的男人

厉害!Meta确实是一个不断挑战自我的公司!

    有8位网友表示赞同!

殃樾晨

这会带来很多新的创意和可能性吧!

    有9位网友表示赞同!

青袂婉约

对科技发展感到无比兴奋,尤其是对游戏行业的影响!

    有10位网友表示赞同!

凉话刺骨

希望这个技术能够普及,让更多玩家享受高品质的多语言游戏!

    有5位网友表示赞同!

∞◆暯小萱◆

以后玩游戏的时候不需要再担心语言障碍了?太棒啦!

    有15位网友表示赞同!

泪湿青衫

Wonder what other cool things can be done with this technology?

    有17位网友表示赞同!

来自火星的我

多语言模型的出现让人对未来的游戏充满期待!

    有20位网友表示赞同!

雪花ミ飞舞

这会是游戏行业的一场革命吗?

    有19位网友表示赞同!

繁华若梦

对未来游戏的体验充满了好奇和期待!

    有15位网友表示赞同!

慑人的傲气

游戏开发会更加便捷且富有创意了!

    有10位网友表示赞同!

猜你喜欢
最新游戏更多
热门专题更多
最新资讯更多