科百科
当前位置: 首页 范文大全

有道翻译划词翻译设置(0语料下如何通过)

时间:2023-05-27 作者: 小编 阅读量: 1 栏目名: 范文大全

目前该研究已被thefindingsofACL2021接收。总结该研究发现了不同语言标签对多语言Zero-shot翻译的巨大影响,并在数据相差很大的三个不同的数据集上进行了实验,验证了不同语言标签对多语言Zero-shot翻译确实存在巨大影响,并且表明T-ENC在Zero-shot上优于其他语言标签。

机器之心专栏

作者:吴礼蔚、程善伯

来自火山翻译团队的研究者通过研究发现,不同语言标签对多语言 Zero-shot 翻译的巨大影响,并在数据相差很大的三个不同的数据集上进行了实验,验证了不同语言标签对多语言 Zero-shot 翻译确实存在巨大影响,并且表明 T-ENC 在 Zero-shot 上优于其他语言标签。

现今的多语言翻译模型,大多是在一个以英语为中心的数据集上训练一个统一的模型,并通过添加语言标签的方式来告诉模型应该翻译到哪一种语言。这种模型在预测的时候能够直接在一个非英语的句子上添加另一个非英语的语言标签来直接翻译,从而达到即使在训练时没有见过源语言和目标语言的情况下,也能实现模型翻译,这就是所谓的 zero-shot 多语言翻译。

添加语言标签的方式有很多种,来自火山翻译团队的研究者通过实验研究发现,虽然不同的语言标签对监督方向的效果几乎没有影响,但是对 zero-shot 的效果却有着非常大的影响。这个现象在多个数据集上得到了验证,其中 IWSLT17 上相差 14.02 个 BLEU,Euporal 上相差 24.24 个 BLEU,TED talks 上相差 8.78 个 BLEU。目前该研究已被 the findings of ACL 2021 接收

论文地址:https://arxiv.org/abs/2106.07930

研究背景和动机

在多语言翻译中,有许多添加语言标签的方法,并且一般都认为不同的语言标签的添加方法对模型的性能没有影响,然而之前没有研究者系统性地研究语言标签对翻译模型是否有影响。这篇文章比较了四种常见的语言标签的添加方法。

表 1 四种不同的的语言标签

如表 1 所示,这四种方法会将源语言标签和目标语言标签按照不同的方法加到源句首或者目标句首。

表 2 数据集详情

如表 2 所示,这篇文章选择了 IWSLT17,Euporal 和 TED talks 三个数据集,这三个数据集在语言数量和数据集大小上都有比较大的差异。这篇文章在这三个数据集上基于上述四种不同的语言标签训练了配置完全一样的多语言翻译模型。

实验结果

表 3 实验结果

如表 3 所示,可以看到:

1. 对于不同的语言标签,不同的数据集,在有监督的方向上,模型的表现基本一致。

2. 在 Zero-shot 方向上:

a. 不同的语言标签对模型的性能有着很大的影响,并且,T-ENC 的表现在三种数据集上一致地超过了其他三种标签:在 IWSLT17 上超过了 14.02 个 BLEU,在 Euporal 上超过了 24.24 个 BLEU,在 TED talks 上超过了 8.78 个 BLEU。

b. 不同语言标签导致的 off-target 的比例也不相同(off-target 是指翻译到语言 X 时,却翻译成另一个语言的情况),基本上 T-ENC 的 off-target 的比例都要比别的小,这一点和模型在 zero-shot 上的性能基本一致。

分析

那么是什么原因导致了这种现象?这篇文章试图从三个方面解释这个现象并在 TED 数据集上做了实验:

1. 在目标语言相同的情况下,语言标签的添加方式是否影响了不同语言的句子经过 Encoder 之后的表示的一致性?

2. T-ENC 可以获得相对于其他方法更小的 off-target 比例,是不是由于在预测的时候,它的 attention 注意力机制能够更好地注意到语言标签?

3. 意思相同的不同语言的句子,在翻译模型的每一层的相似性如何?

Encoder 的表示的一致性

上图是通过对 Encoder 的输出使用 t-SNE 降维,之后使用 kde 画出来的分布图,展示了不同语言的句子在目标语言相同的情况下的分布,可以发现 T-ENC 不同语言之间的 Encoder 表示分布更加一致。这表明,T-ENC 能够帮助模型学习到语言无关的 Encoder 表示。

缓解 off-target 的问题

上图通过一个 case study 展示了从一个俄语句子翻译到意大利语句子时,不同的语言标签下,模型的 attention 对意大利语标签的 “关注” 程度,显然使用 T-ENC 时,模型对意大利语标签的关注程度最高,这可以一定程度上解释为什么 T-ENC 拥有最小的 off-target 比例。

不同层的相似性

上图的子图 a 展示了,从除了英语和俄语外的 18 个语言翻译到俄语的时候,意思相同的句子在不同语言之间的表示的相似性,可以看到 T-ENC 的相似性曲线一直在其他的语言标签之上,这表明在目标语言相同的时候,T-ENC 各层的表示相比于其他的方法都有更好的一致性。

上图的子图 b 展示了,从俄语翻译到除了英语和俄语外的 18 个语言翻译的时候,同一个俄语句子在不同目标语言下的相似性,可以看到 T-ENC 的相似性曲线几乎一直在其他的语言标签下方,这表明,当目标语言不同的时候,T-ENC 能够更好的生成目标语言相关的表示。

总结

该研究发现了不同语言标签对多语言 Zero-shot 翻译的巨大影响,并在数据相差很大的三个不同的数据集上进行了实验,验证了不同语言标签对多语言 Zero-shot 翻译确实存在巨大影响,并且表明 T-ENC 在 Zero-shot 上优于其他语言标签。同时该研究还分析了不同语言标签对模型在预测时表示的影响,发现 T-ENC 能够更好地得到与目标语言相关而与源语言无关的表示:

1. T-ENC 能使不同源语言句子经过 Encoder 的表示更一致。

2. T-ENC 的注意力机制能够更好的注意到目标语言的语言标签。

3. T-ENC 在不同层的表示相对于其他方法与目标语言的相关性更强。

参考文献

[1] Wu L, Cheng S, Wang M, et al. Language Tags Matter for Zero-Shot Neural Machine Translation[J]. arXiv preprint arXiv:2106.07930, 2021.

[2] Johnson M, Schuster M, Le Q V, et al. Google’s multilingual neural machine translation system: Enabling zero-shot translation[J]. Transactions of the Association for Computational Linguistics, 2017, 5: 339-351.

    推荐阅读
  • 秋天天气的知识(秋衣知识看起来)

    TITLE不插档秋衣秋裤裁剪方法裁剪图及设计本次做讲解的领口做法是三层拷边,有拷边机的情况下是一种比较省事也比较容易做好看。TITLE插档秋衣秋裤裁剪方法款式尺寸设计此款保暖裤子底裆拼接。step2把补裆片的中线对准裤子前中线珠针定位,然后缝纫补档片和前挡相接处。TITLE秋衣秋裤什么材质好纯棉纯棉的秋衣秋裤透气性较好,是消费者的首选。TITLE秋衣秋裤怎么选择舒适全棉料、较宽松的秋裤应为首选。

  • 番茄钟学习分享(番茄钟高效学习法)

    今天我们一起学的内容是番茄钟高效学习法,寓教于乐的好方法,分享过程中一起来回顾下自己的掌握程度吧[玫瑰][玫瑰]。

  • 一次性口罩三层分别是什么材料(关于一次性口罩的材料介绍)

    一次性口罩三层分别是什么材料第一层为防潮无纺布,可以阻挡飞溅的液体和飞沫。一次性三层无纺布口罩是医用外科口罩的一个类别。一次性三层无纺布口罩,一般是由专业用于医疗卫生的纤维无纺布内两层,中间增加一层过滤熔喷布经超声波焊接而成的,鼻梁处采用环保型全塑条,不含金属。一次性三层无纺布口罩在日常生活中,作为预防呼吸道传播疾病、流感等疾病是可以的。

  • 黄浦区正宗88a硒鼓高质量的选择(爆款推介天色CE310A硒鼓)

    天色126A/CE310A硒鼓黑蓝黄红四色,颜色明亮鲜艳,打印粉质细腻易安装易加粉,高效办公之选!

  • 女性肾虚怎么办(女性肾虚怎么办 肾虚怎么补)

    性平,味甘咸,能补肾滋阴,故肾阴虚者宜常食之。葡萄从营养价值来看,葡萄不仅含有矿物质钙、钾、磷、铁和多种维生素,还含有多种人体必需氨基酸。入脾、肺、肾三经,多吃葡萄可以起到补气养血、滋肾宜肝的作用。大量医学研究证明,葡萄对肾炎患者的康复具有一定的辅助疗效。中医认为桑葚味甘酸,性微寒,入心、肝、肾经,具有补血滋阴、生津润燥和补肝益肾作用。

  • 只有00后才看懂的缩写(00后的缩写看不懂了)

    近日,微博上有一条热搜看得90后的路路一阵瑟瑟发抖微博中列举了很多词汇的缩写一大片90后叔叔阿姨惊呼看不懂年轻人看来咱们缺乏共同语言!!00后的世界咱懂不起懂不起不过咱公路人世界的“缩写”人家也不一定懂得起过来看看你都清楚吗?特别养护TBYH把严重恶化的路况改善到原有状态的作业。泥石流NSL因为暴雨、暴雪或其他自然灾害引发的山体滑坡并携带有大量泥沙以及石块的特殊洪流。

  • 以力服人是什么意思 以力服人 释义

    1、以力服人是一个汉语成语,读音为yǐlìfúrén,意思是用强制的手段使人服从。

  • 教师资格证里的普通话是考什么(原来除了考教师资格证还有这么多用途)

    普通话考试题型介绍1.读单音节字词100个,限时3分30秒,占10分。目的是考查应试人在无文字凭借的情况下说普通话所达到的规范程度。如何报考普通话水平测试普通话考试时间由全国各省各测试站自行组织。部分地区已开始报名2019年的普通话水平测试。

  • 云南长水机场建设时间(转场十年话长水)

    目前世界上旅客吞吐量最大的机场是美国亚特兰大,2019年最高旅客吞吐量达1.1亿人次。类似旅客吞吐量超4000万的大型机场,昆明长水机场是距离市区最近的。同样,备选场址中,新街离主城区超过40公里,小哨为37公里。按2019年机场高速日均10万辆车子往返机场,来回节约近30公里,时间和用车成本都大大降低。同时在环保和噪音方面相比巫家坝得到极大缓解。

  • 寿司怎么做好吃又简单(寿司简单好吃的做法)

    以下内容大家不妨参考一二希望能帮到您!寿司怎么做好吃又简单食材:珍珠米饭1碗、三文鱼1片、海苔1张。准备一张海苔,铺上米饭。三文鱼放中间,把三文鱼包裹起来,用手指轻压。放下竹签,卷起整段寿司,用竹签,手指轻轻按压,切寿司要快,狠,准,切完摆盘食用即可。