科百科
当前位置: 首页 范文大全

googletranslate什么意思(GoogleTranslate的新改进)

时间:2023-07-12 作者: 小编 阅读量: 1 栏目名: 范文大全

字幕组双语原文:Google Translate 的新改进

英语原文:Recent Advances in Google Translate

翻译:雷锋字幕组(明明知道)

机器学习(ML)的进步推动了自动翻译的进步,包括 2016 年在翻译中引入的 GNMT 神经翻译模型,它极大地提高了 100 多种语言的翻译质量。然而,除了最具体的翻译任务之外,最先进的翻译系统在所有方面都远远落后于人类的表现。虽然研究界已经开发出了一些技术,成功地应用于高资源语言,如西班牙语和德语,这些语言有大量的训练数据,但在低资源语言,如约鲁巴语或马拉雅拉姆语,性能仍有待提高。在受控的研究环境中,许多技术已经证明了对低资源语言的显著改善(例如 WMT 评估运动),然而这些在较小的、公开的数据集上的结果可能不容易转换到大型的、网络爬得数据集。

在本文中,我们将通过综述和扩展各种最新进展,分享一些我们在支持语言的翻译质量方面所取得的进展,特别是那些资源较少的语言,并演示如何将它们大规模应用于嘈杂的、Web 挖掘的数据。这些技术包括模型架构和训练的改进,数据集中噪音的改进处理,通过 M4 建模增加多语言迁移学习,以及单语数据的使用。BLEU 分数在所有 100 多种语言中平均为增加 5 分,翻译质量提高如下图所示。

谷歌的 BLEU 评分自 2006 年成立后不久就开始翻译模型。最后的动画效果显示自去年实施新技术以来得到了提升。

对高资源和低资源语言的改进

混合模型架构:四年前我们引入了基于 RNN 的 GNMT 模型,它带来了巨大的质量改进,并使翻译覆盖了更多的语言。随着我们对模型性能的不同方面的解耦工作的进行,我们替换了原来的 GNMT 系统,用一个 transformer 编码器和一个 RNN 解码器来训练模型,用 Lingvo(一个 TensorFlow 框架)实现。Transformer 模型已经被证明在机器翻译方面比 RNN 模型更有效,但我们的工作表明,这些质量的提高大部分来自变压器编码器,而 Transformer 译码器并不比 RNN 译码器明显好。由于 RNN 解码器在推理时间上要快得多,我们在将其与 transformer 编码器耦合之前进行了各种优化。由此产生的混合模型质量更高,在训练中更稳定,表现出更低的潜伏期。

网络爬取:神经机器翻译(NMT)模型使用翻译句子和文档的示例进行训练,这些示例通常是从公共网络收集的。与基于短语的机器翻译相比, NMT 对数据质量更加敏感。因此,我们用一个新的数据挖掘器取代了以前的数据收集系统,它更注重精确率而不是召回率,它允许从公共网络收集更高质量的训练数据。此外,我们将 Web 爬虫从基于字典的模型转换为基于 14 个大型语言对的嵌入模型,这使得收集到的句子数量平均增加了 29%,而精度没有损失。

建模数据噪声:具有显著噪声的数据不仅冗余,而且会降低在其上训练的模型的质量。为了解决数据噪声问题,我们利用去噪 NMT 训练的结果,使用在有噪声数据上训练的初步模型和在干净数据上进行微调的模型,为每个训练示例分配一个分数。然后我们把培训当作一个课程学习问题——模型开始对所有数据进行培训,然后逐渐对更小、更清晰的子集进行培训。

这些进步尤其有利于低资源语言

反向翻译:在最先进的机器翻译系统中广泛采用,反向翻译对于并行数据稀缺的低资源语言特别有用。这种技术将并行训练数据(一种语言的每句话都与它的翻译配对)与合成并行数据(一种语言的句子由人编写,但它们的翻译是由神经翻译模型生成的)相加。通过将反向翻译合并到谷歌翻译中,我们可以利用网络上更丰富的低资源语言的单语文本数据来训练我们的模型。这对于提高模型输出的流畅性尤其有帮助,而这正是低资源转换模型表现不佳的领域。

M4 建模:M4 是一种对低资源语言特别有帮助的技术,它使用一个单一的大型模型在所有语言和英语之间进行转换。这允许大规模的迁移学习。分享一个例子,低资源语言像意第绪语能通过联合其他相关日耳曼语言(如德国、荷兰、丹麦等)进行训练,与近一百个其他的、不可能共享一个已知连接的语言,获得有用的信号模型。

评判翻译质量

对于机器翻译系统的自动质量评估,一个流行的衡量标准是 BLEU 评分,它是基于系统的翻译和人们生成的参考翻译之间的相似性。通过这些最新的更新,我们看到 BLEU 平均比以前的 GNMT 模型提高了 5 分,其中 50 种资源最低的语言平均提高了 7 分。这一进步与四年前从基于短语的翻译过渡到 NMT 时观察到的增益相当。

尽管 BLEU 分数是一个众所周知的近似度量,但众所周知,对于已经高质量的系统来说,它有各种各样的缺陷。例如,有几部作品演示了在源语言或目标语言上的翻译语效应如何影响 BLEU 分数,在这种现象中,翻译的文本可能听起来很别扭,因为其中包含源语言的属性(如词序)。基于这个原因,我们对所有的新模型进行了并排的评估,结果证实了在蓝带的效果。

除了总体质量的提高之外,新模型对机器翻译幻觉的鲁棒性也有所增强。机器翻译幻觉是指当输入无意义的信息时,模型会产生奇怪的“翻译”。对于那些在少量数据上进行训练的模型来说,这是一个常见的问题,并且会影响许多低资源语言。例如,当考虑到泰卢固语字符的字符串“షషషషషషషషషషషషషషష”,旧的模式产生了荒谬的输出“深圳肖深圳国际机场(SSH)”,似乎试图理解的声音,而新模型正确学会直译为“Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh”。

结论

尽管对于机器来说,这些都是令人印象深刻的进步,但我们必须记住,特别是对于资源较少的语言,自动翻译的质量远远不够完美。这些模型仍然是典型的机器翻译错误的牺牲品,包括在特定类型的主题(“领域”)上表现不佳,合并一种语言的不同方言,产生过多的字面翻译,以及在非正式语言和口语上表现不佳。

尽管如此,通过这次更新,我们很自豪——提供了相对连贯的自动翻译,包括支持的 108 种语言中资源最少的语言。我们感谢学术界和工业界的机器翻译研究人员所做的研究。

致谢

这一成果基于以下这些人的贡献:Tao Yu, Ali Dabirmoghaddam, Klaus Macherey, Pidong Wang, Ye Tian, Jeff Klingner, Jumpei Takeuchi, Yuichiro Sawai, Hideto Kazawa, Apu Shah, Manisha Jain, Keith Stevens, Fangxiaoyu Feng, Chao Tian, John Richardson, Rajat Tibrewal, Orhan Firat, Mia Chen, Ankur Bapna, Naveen Arivazhagan, Dmitry Lepikhin, Wei Wang, Wolfgang Macherey, Katrin Tomanek, Qin Gao, Mengmeng Niu, 和 Macduff Hughes.

雷锋字幕组是由AI爱好者组成的志愿者翻译团队;团队成员有大数据专家、算法工程师、图像处理工程师、产品经理、产品运营、IT咨询人、在校师生;志愿者们来自IBM、AVL、Adobe、阿里、百度等知名企业,北大、清华、港大、中科院、南卡罗莱纳大学、早稻田大学等海内外高校研究所。

了解字幕组请tlacttlact

转载请联系字幕组微信并注明出处:雷锋字幕组

雷锋网雷锋网

    推荐阅读
  • 玫瑰花生虫子怎么办 玫瑰花生虫的症状和处理

    2、浇水:每天早上或晚上向玫瑰花四周喷洒水雾,提高空气湿度,降低植株的染病率。

  • 科二方向盘准确打法(科二打方向盘的正确方法)

    务必将双手放在方向盘上。左手放在9点,右手放在3点。主体坡道起步第二步:起步时,首先控制离合器处于半联动状态。然后左脚抬起离合器到接触点,车头微微抬起,左脚保持不动;然后松开脚刹车,成功启动。停车后立即拉起手并制动空档。坡道固定时,车辆应在距路缘线30cm以内。我们必须学会紧紧抓住离合器,注意停车点。

  • 马桶漏水维修(如何解决马桶漏水)

    如果内部的水都满了,水箱还在进水,那么肯定漏水出来。我们用水去把水瓢的卡位上下拉动下,观看水瓢的灵敏程度,如果出现不顺,或者很难移动,那么也就是宣告水瓢这个设备出现了故障。如果是内部设备没事,那么还需要检查马桶的水箱是否有出现撞击导致开裂的问题,如果有外力的作用,这个水箱也有可能出现漏水的问题。如果要购买新的马桶,让购买的师傅帮你安装也是可以的。

  • 中考物理模拟题解析(中考物理模拟题三)

    C、磁感线上某一点的切线方向与放在该点的小磁针静止时北极所指的方向一致,与南极所指的方向相反,所以C说法正确。D、磁感线分布越密的地方,其磁场越强,所以D说法错误。4.在学校、医院或科研部门附近,经常有如图所示的禁止鸣笛的标志,通过禁止鸣笛减少噪声污染。禁鸣喇叭就是在声源处减弱噪声。

  • 重庆这些地道早餐你吃过哪几个(重庆人的5大早餐)

    有句话说得好,美好的一天从“早餐”开始。甚至会为了吃到一碗正宗的重庆小面,不惜起个大早远道而来!红油抄手是重庆特色小吃,极具风味!一碗热腾腾的红油抄手摆在面前,看着就叫人觉着味道十分火辣!重庆人在吃早餐的时候会将油茶和糯米团搭配在一起吃,二者搭配可谓是天生一对,有滋有味儿,天作之合!这道美食是将黄豆磨成浆,经过过滤,加胆水等程序后,细致的按压成型。

  • 本田机油门涉及车型 本田机油门涉及车型吗

    本田CRV240TURBO、思域220TURBO、冠道240TURBO。本田发言人表示,该公司目前正在研究,看同样的问题是否会影响本田杰德Jade和本田UR-V车型。“如果确定这些车型也受到同样问题的影响,本田将宣布相关措施。”

  • 泰州市2022年中考招生指南(2020泰州中考指南)

    2022年泰州中考招生指南主要包括以下内容:中考招生有关问题解读填报志愿须知录取工作说明招生计划有关说明招生计划泰州市中等职业教育招生问答《国家教育考试违规处理办法》有关代码使用说明填报志愿告知书志愿填报时间:5月31日-6月3日。志愿填报网站入口:点此进入选择对应的市区进行操作:查阅《泰州市2022年中考招生指南》,下载并填写《泰州市2022年高中阶段学校招生考生志愿表》

  • 如何建网站流程(搭建一个网站的流程)

    网站搭建过程中都是需要流程的,如果流程错误搭建网站也是会遇到很多问题。当然也可以直接去购买一些现成的源码主题。网站源码制作完成以后,要根据网站的源码,程序特点去配置符合服务器的环境。当然,对于网站的调试,需要用户懂一些网站制作的基础技术。总之搭建网站的话,这四项流程是不必不可缺少的,无论是搭建什么样的网站,都是需要这四个流程的。

  • 夏天染发好还是冬天染发好 染发是夏天染还是冬天染

    夏天染完头发一般建议三天后再洗头,因为洗头会将头皮分泌的油脂去掉,而这层油脂是天然的保护膜,可以减少染发剂对头皮的伤害。夏天染发注意事项1、由于夏季室外紫外线较为强烈,所以夏天染完头发后要注意头发的防晒,以免发色流失得过快。

  • 3种洗衣机怎么选(教会你如何选洗衣机)

    不买空气洗、婴儿洗、高温洗,这些功能都是华而不实。