科百科
当前位置: 首页 范文大全

googletranslate什么意思(GoogleTranslate的新改进)

时间:2023-07-12 作者: 小编 阅读量: 3 栏目名: 范文大全

字幕组双语原文:Google Translate 的新改进

英语原文:Recent Advances in Google Translate

翻译:雷锋字幕组(明明知道)

机器学习(ML)的进步推动了自动翻译的进步,包括 2016 年在翻译中引入的 GNMT 神经翻译模型,它极大地提高了 100 多种语言的翻译质量。然而,除了最具体的翻译任务之外,最先进的翻译系统在所有方面都远远落后于人类的表现。虽然研究界已经开发出了一些技术,成功地应用于高资源语言,如西班牙语和德语,这些语言有大量的训练数据,但在低资源语言,如约鲁巴语或马拉雅拉姆语,性能仍有待提高。在受控的研究环境中,许多技术已经证明了对低资源语言的显著改善(例如 WMT 评估运动),然而这些在较小的、公开的数据集上的结果可能不容易转换到大型的、网络爬得数据集。

在本文中,我们将通过综述和扩展各种最新进展,分享一些我们在支持语言的翻译质量方面所取得的进展,特别是那些资源较少的语言,并演示如何将它们大规模应用于嘈杂的、Web 挖掘的数据。这些技术包括模型架构和训练的改进,数据集中噪音的改进处理,通过 M4 建模增加多语言迁移学习,以及单语数据的使用。BLEU 分数在所有 100 多种语言中平均为增加 5 分,翻译质量提高如下图所示。

谷歌的 BLEU 评分自 2006 年成立后不久就开始翻译模型。最后的动画效果显示自去年实施新技术以来得到了提升。

对高资源和低资源语言的改进

混合模型架构:四年前我们引入了基于 RNN 的 GNMT 模型,它带来了巨大的质量改进,并使翻译覆盖了更多的语言。随着我们对模型性能的不同方面的解耦工作的进行,我们替换了原来的 GNMT 系统,用一个 transformer 编码器和一个 RNN 解码器来训练模型,用 Lingvo(一个 TensorFlow 框架)实现。Transformer 模型已经被证明在机器翻译方面比 RNN 模型更有效,但我们的工作表明,这些质量的提高大部分来自变压器编码器,而 Transformer 译码器并不比 RNN 译码器明显好。由于 RNN 解码器在推理时间上要快得多,我们在将其与 transformer 编码器耦合之前进行了各种优化。由此产生的混合模型质量更高,在训练中更稳定,表现出更低的潜伏期。

网络爬取:神经机器翻译(NMT)模型使用翻译句子和文档的示例进行训练,这些示例通常是从公共网络收集的。与基于短语的机器翻译相比, NMT 对数据质量更加敏感。因此,我们用一个新的数据挖掘器取代了以前的数据收集系统,它更注重精确率而不是召回率,它允许从公共网络收集更高质量的训练数据。此外,我们将 Web 爬虫从基于字典的模型转换为基于 14 个大型语言对的嵌入模型,这使得收集到的句子数量平均增加了 29%,而精度没有损失。

建模数据噪声:具有显著噪声的数据不仅冗余,而且会降低在其上训练的模型的质量。为了解决数据噪声问题,我们利用去噪 NMT 训练的结果,使用在有噪声数据上训练的初步模型和在干净数据上进行微调的模型,为每个训练示例分配一个分数。然后我们把培训当作一个课程学习问题——模型开始对所有数据进行培训,然后逐渐对更小、更清晰的子集进行培训。

这些进步尤其有利于低资源语言

反向翻译:在最先进的机器翻译系统中广泛采用,反向翻译对于并行数据稀缺的低资源语言特别有用。这种技术将并行训练数据(一种语言的每句话都与它的翻译配对)与合成并行数据(一种语言的句子由人编写,但它们的翻译是由神经翻译模型生成的)相加。通过将反向翻译合并到谷歌翻译中,我们可以利用网络上更丰富的低资源语言的单语文本数据来训练我们的模型。这对于提高模型输出的流畅性尤其有帮助,而这正是低资源转换模型表现不佳的领域。

M4 建模:M4 是一种对低资源语言特别有帮助的技术,它使用一个单一的大型模型在所有语言和英语之间进行转换。这允许大规模的迁移学习。分享一个例子,低资源语言像意第绪语能通过联合其他相关日耳曼语言(如德国、荷兰、丹麦等)进行训练,与近一百个其他的、不可能共享一个已知连接的语言,获得有用的信号模型。

评判翻译质量

对于机器翻译系统的自动质量评估,一个流行的衡量标准是 BLEU 评分,它是基于系统的翻译和人们生成的参考翻译之间的相似性。通过这些最新的更新,我们看到 BLEU 平均比以前的 GNMT 模型提高了 5 分,其中 50 种资源最低的语言平均提高了 7 分。这一进步与四年前从基于短语的翻译过渡到 NMT 时观察到的增益相当。

尽管 BLEU 分数是一个众所周知的近似度量,但众所周知,对于已经高质量的系统来说,它有各种各样的缺陷。例如,有几部作品演示了在源语言或目标语言上的翻译语效应如何影响 BLEU 分数,在这种现象中,翻译的文本可能听起来很别扭,因为其中包含源语言的属性(如词序)。基于这个原因,我们对所有的新模型进行了并排的评估,结果证实了在蓝带的效果。

除了总体质量的提高之外,新模型对机器翻译幻觉的鲁棒性也有所增强。机器翻译幻觉是指当输入无意义的信息时,模型会产生奇怪的“翻译”。对于那些在少量数据上进行训练的模型来说,这是一个常见的问题,并且会影响许多低资源语言。例如,当考虑到泰卢固语字符的字符串“షషషషషషషషషషషషషషష”,旧的模式产生了荒谬的输出“深圳肖深圳国际机场(SSH)”,似乎试图理解的声音,而新模型正确学会直译为“Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh”。

结论

尽管对于机器来说,这些都是令人印象深刻的进步,但我们必须记住,特别是对于资源较少的语言,自动翻译的质量远远不够完美。这些模型仍然是典型的机器翻译错误的牺牲品,包括在特定类型的主题(“领域”)上表现不佳,合并一种语言的不同方言,产生过多的字面翻译,以及在非正式语言和口语上表现不佳。

尽管如此,通过这次更新,我们很自豪——提供了相对连贯的自动翻译,包括支持的 108 种语言中资源最少的语言。我们感谢学术界和工业界的机器翻译研究人员所做的研究。

致谢

这一成果基于以下这些人的贡献:Tao Yu, Ali Dabirmoghaddam, Klaus Macherey, Pidong Wang, Ye Tian, Jeff Klingner, Jumpei Takeuchi, Yuichiro Sawai, Hideto Kazawa, Apu Shah, Manisha Jain, Keith Stevens, Fangxiaoyu Feng, Chao Tian, John Richardson, Rajat Tibrewal, Orhan Firat, Mia Chen, Ankur Bapna, Naveen Arivazhagan, Dmitry Lepikhin, Wei Wang, Wolfgang Macherey, Katrin Tomanek, Qin Gao, Mengmeng Niu, 和 Macduff Hughes.

雷锋字幕组是由AI爱好者组成的志愿者翻译团队;团队成员有大数据专家、算法工程师、图像处理工程师、产品经理、产品运营、IT咨询人、在校师生;志愿者们来自IBM、AVL、Adobe、阿里、百度等知名企业,北大、清华、港大、中科院、南卡罗莱纳大学、早稻田大学等海内外高校研究所。

了解字幕组请tlacttlact

转载请联系字幕组微信并注明出处:雷锋字幕组

雷锋网雷锋网

    推荐阅读
  • 重阳节登高望远的习俗寓意(九九重阳节登高的风俗寓意)

    九九重阳节登高的风俗寓意登高辟邪气因为重九是一“阳”登高之日,地气上升,天气下降,古人为了避免接触不正之气,登高以避邪气。吃重阳糕重阳糕又称花糕、菊糕、五色糕,制无定法,较为随意。赏菊重阳日,历来就有赏菊花的风俗,所以古来又称菊花节。农历九月俗称菊月,节日举办菊花大会,倾城的人潮赴会赏菊。从三国魏晋以来,重阳聚会饮酒、赏菊赋诗已成时尚。重阳节是为了纪念哪位名人:桓景据民间传说,重阳节是纪念桓景的。

  • 哪些人不适合吃西洋参(不适合吃西洋参的人群介绍)

    下面更多详细答案一起来看看吧!哪些人不适合吃西洋参西洋参药性偏凉,味甘,甘者令人中满,易致腹胀出现,不宜盲目、过量服用,体质偏寒,如阳虚、寒湿,以及痰湿内盛,如咳嗽痰多、胃怕凉、水肿等患者不宜服用,否则可能引发或加重胸闷、腹胀、腹泻等;感冒者一般不宜服用。西洋参味甘、微苦,性凉,具有补气养阴、清热生津的功效。西洋参不宜与藜芦同用。西洋参可补气,应避免同时摄入一些促进排气的食物,如萝卜。

  • 水凝膜气泡多久消失(水凝膜气泡多长时间消失)

    水凝膜气泡多久消失水凝膜有气泡48小时消失。主流的水凝膜分为三层,中间一层则为水凝膜。部分水凝膜会附赠一瓶营养液,需要对准冲有黏性的一面均匀喷洒,贴上去后便可以随便移动来对准孔位,刚贴的膜会出现气泡和水雾,这些现象48小时后等水分挥发完便会消失。对于曲面屏、全面屏、2.5D玻璃屏幕来说,钢化膜由于自身并不具备弯曲属性,的确难以全面贴合屏幕,而水凝膜则可有效解决上述问题。

  • 400章以上的修仙小说(10000章的都市修仙小说)

    而林逸老大的老婆也非常多,也因为剧情需要和林逸是主角的关系,林逸老大的老婆都是绝世容颜而且在没上天阶岛之前的老婆们大多数都和五系传承者有关导致林逸老大,还是个雏,到了天阶岛之后又因为主线剧情没时间去管自己的私生活。

  • qq管理员怎么禁言(qq管理员如何禁言)

    跟着小编一起来看一看吧!qq管理员怎么禁言打开手机QQ,选中要禁言的QQ群进入群聊界面,点击右上角的三条横线。进入群聊设置,对某一个成员设置禁言,选择群聊成员中的禁言对象,在该成员的个人资料页面点击右上角的设置,选择设置禁言,选择禁言时长,点击确定即可。

  • 土豆北方储存方法(北方如何储存土豆)

    土豆北方储存方法堆藏:选择通风良好、场地干燥的仓库,先用福尔马林和高锰酸钾混合熏蒸消毒,之后,将土豆入仓,一般每平方米堆750公斤,高约1.5米,周围用板条箱、箩筐或木板围好,中间放若干竹制通气筒。秋季和初冬,夜间打开通风系统,让冷空气进入,白天则关闭,阻止热空气进入,冬季注意保温,必要时还要加温。春季气温回升后,则采用夜间短时间放风、白天关闭的方法以缓和库温的上升。

  • oppoR11怎么把应用移至SD卡(五个步骤完成移动)

    下面内容希望能帮助到你,我们来一起看看吧!oppoR11怎么把应用移至SD卡首先在手机桌面上找到名称为“文件管理”的选项,然后点击进入。打开SD卡后找到下方的粘贴,点击即可将软件转移到SD卡。

  • 清炖豆腐(清炖豆腐如何做好吃)

    接下来我们就一起去了解一下吧!清炖豆腐基本材料:白菜500克,豆腐400克,葱、姜、油、盐各少许。将豆腐切成条,白菜切成片,锅内放底油,下葱、姜末炝锅加汤,放入豆腐,加料酒、盐、味精,再放入白菜,炖至白菜熟软,出锅时淋明油即成。

  • 大型斗鸡的养殖方法(详解斗鸡如何养殖)

    如稻谷、小麦、高粱、豌豆、玉米等。但豌豆、玉米必须粉碎后投喂,否则会被整体排出。此外,养殖户还可以使用杜仲水煮液、天麻粉、枸杞粉等饲喂,能增加斗鸡免疫力,提高斗鸡战斗力。在通常情况下一天投食2次,上午和傍晚各一次。上午给少量的食料,傍晚给充足的食料。另外需要注意的是,在斗鸡要参赛的时候,在前一周需加强营养,可将鸡蛋煮熟后喂给蛋白,也可喂些瘦肉、昆虫。