近日,谷歌翻译悄然升级了翻译内核。根据谷歌官方提供的数据,谷歌翻译搭载的谷歌神经机器翻译(GNMT:GoogleNeuralMachineTranslation)系统采用最先进的训练技术,从而提升机器翻译水平,将翻译错误降低55%。-85%。 谷歌所展示的翻译模型质量 十多年前,谷歌发布了谷歌翻译。早年,基于短语的统计机器翻译会将输入的句子分解成单词和短语,然后独立翻译。这种翻译方式的缺点非常明显:句子中原本完整的信息是支离破碎的,无法连贯表达。而这种现象在英译汉中尤为明显。 而谷歌神经机器翻译将输入的句子作为一个整体进行翻译。 以汉英翻译为例,谷歌神经机器翻译首先将这个中文单词编码成一个向量列表,其中每个向量代表到目前为止读到的所有单词的含义(编码器“Encoder”)。读完整个句子后,解码器开始工作——一次一个单词地生成英文句子(解码器“Decoder”)。 上图展示了谷歌神经机器翻译的中英翻译原理 为了在每一步都生成正确的翻译词,解码器关注与生成的英文最相关的中文向量的权重分布字。当 首次被提出时,神经机器翻译系统在中等规模的数据集上可与基于短语的翻译系统相媲美。 现在,谷歌表示,通过让神经机器翻译克服处理超大数据集的许多挑战,它构建了一个翻译速度和准确性都更好的系统。 目前谷歌神经机器翻译系统已经投入中英互译。用于移动和网络的谷歌翻译现在完全使用神经机器翻译进行中英翻译——每天约1800万次翻译。 在经过大数据集测试的谷歌神经机器翻译系统的支持下,最新的谷歌翻译效果如何? 我们做了一个简单的对比测试。当然,这还是在汉英翻译的语境下。 测试场景:PC端谷歌翻译网页版 随机选择一条英文消息,原文如下: 自COVID-19开始以来,我们从我们的零售和品牌制造合作伙伴那里听说,鉴于消费者需求的波动,他们渴望获得更多关于消费者兴趣如何变化的见解。我们看到这些变化反映在人们在Google上的搜索方式上。上个月,随着人们待在家里的时间增加,家庭用品和拼图游戏的搜索热度激增。这个月,我们看到美国对缝纫机和烘焙材料的兴趣高涨,英国和澳大利亚对系绳球套装和粉笔的兴趣高涨。 企业正在使用各种资源来了解不断变化的消费者兴趣——包括谷歌趋势、社交聆听、调查和他们自己的数据——以帮助做出即时决策。但如果他们不知道要寻找什么,就没有一种简单的方法来了解哪些产品类别越来越受欢迎,并且可能会带来机会。 这就是我们在ThinkwithGoogle上推出新兴零售类别工具的原因。ItSurfaces显示Google搜索中快速增长的、与产品相关的类别、它们增长的位置以及与之相关的查询。这是我们首次针对人们正在搜索的产品类别提供此类洞察。 旧版谷歌翻译给出的英汉翻译结果: 是谷歌翻译升级后给出的新英汉翻译结果,红色标记的词是与旧翻译结果不同的地方。新译文详情如下: 比较两个译文,可以看出差别还是挺大的。总体而言,新翻译结果中标红的表达方式明显更符合中文语法和表达习惯。 此外,最后一段翻译结果优化更明显,准确识别谷歌产品名“ThinkwithGoogle”,避免乱翻译的尴尬。 确实更聪明!
