科百科
当前位置: 首页 范文大全

有道翻译划词翻译设置(0语料下如何通过)

时间:2023-05-27 作者: 小编 阅读量: 3 栏目名: 范文大全

目前该研究已被thefindingsofACL2021接收。总结该研究发现了不同语言标签对多语言Zero-shot翻译的巨大影响,并在数据相差很大的三个不同的数据集上进行了实验,验证了不同语言标签对多语言Zero-shot翻译确实存在巨大影响,并且表明T-ENC在Zero-shot上优于其他语言标签。

机器之心专栏

作者:吴礼蔚、程善伯

来自火山翻译团队的研究者通过研究发现,不同语言标签对多语言 Zero-shot 翻译的巨大影响,并在数据相差很大的三个不同的数据集上进行了实验,验证了不同语言标签对多语言 Zero-shot 翻译确实存在巨大影响,并且表明 T-ENC 在 Zero-shot 上优于其他语言标签。

现今的多语言翻译模型,大多是在一个以英语为中心的数据集上训练一个统一的模型,并通过添加语言标签的方式来告诉模型应该翻译到哪一种语言。这种模型在预测的时候能够直接在一个非英语的句子上添加另一个非英语的语言标签来直接翻译,从而达到即使在训练时没有见过源语言和目标语言的情况下,也能实现模型翻译,这就是所谓的 zero-shot 多语言翻译。

添加语言标签的方式有很多种,来自火山翻译团队的研究者通过实验研究发现,虽然不同的语言标签对监督方向的效果几乎没有影响,但是对 zero-shot 的效果却有着非常大的影响。这个现象在多个数据集上得到了验证,其中 IWSLT17 上相差 14.02 个 BLEU,Euporal 上相差 24.24 个 BLEU,TED talks 上相差 8.78 个 BLEU。目前该研究已被 the findings of ACL 2021 接收

论文地址:https://arxiv.org/abs/2106.07930

研究背景和动机

在多语言翻译中,有许多添加语言标签的方法,并且一般都认为不同的语言标签的添加方法对模型的性能没有影响,然而之前没有研究者系统性地研究语言标签对翻译模型是否有影响。这篇文章比较了四种常见的语言标签的添加方法。

表 1 四种不同的的语言标签

如表 1 所示,这四种方法会将源语言标签和目标语言标签按照不同的方法加到源句首或者目标句首。

表 2 数据集详情

如表 2 所示,这篇文章选择了 IWSLT17,Euporal 和 TED talks 三个数据集,这三个数据集在语言数量和数据集大小上都有比较大的差异。这篇文章在这三个数据集上基于上述四种不同的语言标签训练了配置完全一样的多语言翻译模型。

实验结果

表 3 实验结果

如表 3 所示,可以看到:

1. 对于不同的语言标签,不同的数据集,在有监督的方向上,模型的表现基本一致。

2. 在 Zero-shot 方向上:

a. 不同的语言标签对模型的性能有着很大的影响,并且,T-ENC 的表现在三种数据集上一致地超过了其他三种标签:在 IWSLT17 上超过了 14.02 个 BLEU,在 Euporal 上超过了 24.24 个 BLEU,在 TED talks 上超过了 8.78 个 BLEU。

b. 不同语言标签导致的 off-target 的比例也不相同(off-target 是指翻译到语言 X 时,却翻译成另一个语言的情况),基本上 T-ENC 的 off-target 的比例都要比别的小,这一点和模型在 zero-shot 上的性能基本一致。

分析

那么是什么原因导致了这种现象?这篇文章试图从三个方面解释这个现象并在 TED 数据集上做了实验:

1. 在目标语言相同的情况下,语言标签的添加方式是否影响了不同语言的句子经过 Encoder 之后的表示的一致性?

2. T-ENC 可以获得相对于其他方法更小的 off-target 比例,是不是由于在预测的时候,它的 attention 注意力机制能够更好地注意到语言标签?

3. 意思相同的不同语言的句子,在翻译模型的每一层的相似性如何?

Encoder 的表示的一致性

上图是通过对 Encoder 的输出使用 t-SNE 降维,之后使用 kde 画出来的分布图,展示了不同语言的句子在目标语言相同的情况下的分布,可以发现 T-ENC 不同语言之间的 Encoder 表示分布更加一致。这表明,T-ENC 能够帮助模型学习到语言无关的 Encoder 表示。

缓解 off-target 的问题

上图通过一个 case study 展示了从一个俄语句子翻译到意大利语句子时,不同的语言标签下,模型的 attention 对意大利语标签的 “关注” 程度,显然使用 T-ENC 时,模型对意大利语标签的关注程度最高,这可以一定程度上解释为什么 T-ENC 拥有最小的 off-target 比例。

不同层的相似性

上图的子图 a 展示了,从除了英语和俄语外的 18 个语言翻译到俄语的时候,意思相同的句子在不同语言之间的表示的相似性,可以看到 T-ENC 的相似性曲线一直在其他的语言标签之上,这表明在目标语言相同的时候,T-ENC 各层的表示相比于其他的方法都有更好的一致性。

上图的子图 b 展示了,从俄语翻译到除了英语和俄语外的 18 个语言翻译的时候,同一个俄语句子在不同目标语言下的相似性,可以看到 T-ENC 的相似性曲线几乎一直在其他的语言标签下方,这表明,当目标语言不同的时候,T-ENC 能够更好的生成目标语言相关的表示。

总结

该研究发现了不同语言标签对多语言 Zero-shot 翻译的巨大影响,并在数据相差很大的三个不同的数据集上进行了实验,验证了不同语言标签对多语言 Zero-shot 翻译确实存在巨大影响,并且表明 T-ENC 在 Zero-shot 上优于其他语言标签。同时该研究还分析了不同语言标签对模型在预测时表示的影响,发现 T-ENC 能够更好地得到与目标语言相关而与源语言无关的表示:

1. T-ENC 能使不同源语言句子经过 Encoder 的表示更一致。

2. T-ENC 的注意力机制能够更好的注意到目标语言的语言标签。

3. T-ENC 在不同层的表示相对于其他方法与目标语言的相关性更强。

参考文献

[1] Wu L, Cheng S, Wang M, et al. Language Tags Matter for Zero-Shot Neural Machine Translation[J]. arXiv preprint arXiv:2106.07930, 2021.

[2] Johnson M, Schuster M, Le Q V, et al. Google’s multilingual neural machine translation system: Enabling zero-shot translation[J]. Transactions of the Association for Computational Linguistics, 2017, 5: 339-351.

    推荐阅读
  • 流字组词语(汉字流组词)

    下面希望有你要的答案,我们一起来看看吧!流字组词语流汗[liúhàn]淌汗。从毛汗腺中分泌出大量汗液。流泪[liúlèi]眼泪的大量分泌,从眼睑溢出而沿面颊流下。流连[liúlián]非常留恋,舍不得离开。同主流方向相反的水流,比喻反动的潮流:复古主义逆流。流窜[liúcuàn]到处流动转移;乱逃。中流砥柱[zhōngliúdǐzhù]比喻能担当重任,在艰难环境中起支柱作用的集体或个人。

  • 日产zs(比GTR还要GTR的日产车)

    服役了很多年的GT-RGT500将要推出赛道,但官方也拿出了替补车型,它就是日产ZGT500。GT-RGT500曾经帮助日产拿下5次冠军,对日产品牌而言,这是一款英雄车,凡事有始有终,GT-RGT500的退役并不意味着名誉跟着消失了,而是用Z系列延续了GT-RGT500的生命,未来的战场将要交给这款新车了,公司的决定不会错,这是经过慎重考虑才做出的决定,那么新车能否再现GT-RGT500的传奇故事,先来了解下这款新车。

  • 抖音里面怎么开店呢(抖音里面如何开店)

    打开浏览器,在搜索框中输入抖音商家后台并进入页面单击左侧的抖音账号登录,然后用抖音app扫描该二维码完成登录最后按提示填写相关信息,完成后,点击直接开店即可

  • 宝宝呛奶后的急救处理,妈妈们一定要学会预防急救方法!

    妈妈一手抱好宝宝,另一只手以拇指和食指轻轻夹住乳头喂哺,以防乳头堵住宝宝鼻孔,并控制奶水的流速,以免因奶汁太急引起婴儿呛咳。漾奶与宝宝胃肠道和口腔发育不完善有关,大约40%的婴儿经常发生漾奶。妈妈无需担心,漾奶并不会影响宝宝生长发育,6个月后,漾奶现象会自然消失。

  • 乔欣亿万豪宅(豪门千金乔欣住3亿豪宅)

    可如此真性情的她,却不受杨天真待见。可在乔欣表示自己无法适应公司模式后,杨天真却不高兴了,随即讽刺了乔欣要求多又等不起。杨天真对两人态度如此不同的原因,大概有两点。两人一同录制节目时,乔欣总是黏在杨紫身上,可以说是行走的人性挂件了。杨紫的这一行为像极了霸道总裁宣示主权。杨紫虽然知道这是在为自己宣布新剧,还是直接把男主李现撇到了故事之外。如今乔欣和杨紫的友谊已经持续了八年之久,相信这对cp已经锁死了。

  • 为什么什么是神(为什么有人说它是神U)

    骁龙778G在Geekbench5测试中,单核成绩810分,多核成绩2884分,在GFXBench测试中,AztecRuins项目中1080P分辨率34帧,1440P分辨率下13帧,在安兔兔测试中,CPU得分16.3W左右,GPU得分15.5W左右,总分47W左右。A767nm工艺华为的投入,最终让麒麟980大显神威,依靠更好的性能和更高的能效,将对手甩在了身后,后续的麒麟810也是A767nm工艺,更是直接横扫中端芯片市场,所以神U的出现往往是合力的结果。

  • 页眉页脚怎么设置 页眉页脚怎么设置边距

    方法二:针对需要除开封面的情况设置页码1、首先打开Word,点击插入,选择页眉和页脚中的页码,点击设置页码格式。

  • 手机怎么截屏 手机怎么截屏长图片

    点击设置,翻动页面找到通用,辅助功能,打开辅助触控,然后点击屏幕上的小白点,设备,更多,点击屏幕快照就行了。

  • 土茯苓龟猪骨煲汤(岭南常用四季养生汤)

    再配以猪扇骨是因为其含钙质高且不肥腻,符合广东入夏汤水宜清淡的要求。正合此时闷热与潮湿天气的养生之用。材料:茯苓30克,党参、扁豆各20克,当归6克,猪扇骨600克,龟1只,姜3片做法:1、先将乌龟用开水烫死后剖杀,去除内脏,洗净血污,砍成粗块备用。待温后,调味饮食。