微软宣布重大里程碑:中英机器翻译媲美人类在片场上,已经达到媲美人类翻译的水平。据称,这是第一个在翻译质量和新闻报道准确度上可以媲美人工翻译的翻译系统。该系统模型结合了微软亚洲研究院开发的对偶学习、协商网络、联合训练和共识规范技术。机器翻译是自然语言处理领域最具挑战性的研究任务之一。负责微软语音、自然语言和机器翻译工作的微软技术研究员黄学东表示,“这是自然语言处理领域最具挑战性任务的重大突破,达到同等水平是每个人的目标就像机器翻译中的人类一样。我们没想到这么快就实现了。”据悉,newstest2017新闻报道测试集由产学界合作伙伴共同开发,并于去年秋季的WMT17大会上发布。为确保翻译结果准确并达到人工翻译水平,微软研究团队请来双语语言顾问,将微软的翻译结果与两个独立的人类翻译结果进行对比,虽然这一突破意义重大,但研究人员也提醒大家,这并不意味着人类已经彻底解决了机器翻译的问题,而是我们离最终目标又近了一步。微软亚洲研究院副院长、自然语言计算组负责人周明表示,令人鼓舞的是,WMT17测试集上的翻译结果已经达到人类水平,但还有我们需要解决的挑战还有很多,比如在实时新闻报道上测试系统。wa它。附上系统包含的四大技术——对偶学习:对偶学习的发现是由于现实中有意义和实用的人工智能任务经常成对出现,并且两个任务可以相互反馈训练A更好的深度学习模型。比如在翻译领域,我们关心英译汉,我们也关心汉译英;在语音领域,我们既关心语音识别,也关心语音合成;世世代代也是成双成对。此外,在对话引擎和搜索引擎等场景中也存在双重任务。一方面,由于特殊的对偶结构,两个任务可以相互提供反馈信息,这些反馈信息可以用来训练深度学习模型。也就是说,即使没有人工标注的数据,也可以用对偶结构进行深度学习。另一方面,两个对偶任务可以互为对方的环境,这样就不需要与真实环境进行交互,两个对偶任务之间的交互可以产生有效的反馈信号。因此,充分利用对偶结构有望解决深度学习和强化学习的瓶颈,如“训练数据从何而来,如何与环境持续交互”等问题。图:DeliberationNetworks,一个对偶无监督学习框架:“Deliberation”这个词可以认为是人类在阅读、写文章和做其他任务时产生的一种行为,即任务完成后,并不终止立即地。相反,它将重复。微软亚洲研究院的机器学习组就是按照这个过程进行机器学习的。审议网络有两个解码器,第一阶段解码器用于解码生成原始序列,第二阶段解码器通过审议过程对原始句子进行润色和润色。后者理解全局信息,在机器翻译中,它可以根据第一阶段生成的句子产生更好的翻译结果。图:Deliberatenetworkdecodingprocess联合训练(JointTraining):这种方法可以认为是从源语言学习到目标语言翻译(SourcetoTarget)和从目标语言学习到源语言翻译(TargettoSource)的结合。汉英翻译和英汉翻译都是使用初始并行数据进行训练的。在每次训练迭代中,汉英翻译系统将中文句子翻译成英文句子以获得新的句子对,这又可以反过来。补充了英汉翻译系统的数据集。同样,这个过程也可以反过来。这种双向融合不仅大大增加了两个系统的训练数据集,而且准确率也大大提高。图:AgreementRegularizationbetweentranslationfromsourcelanguagetotargetlanguage(SourcetoTarget)P(y|x)andtranslationfromtargetlanguagetosourcelanguage(TargettoSource)P(x|y)(AgreementRegularization):翻译结果可以从左到右依次生成,也可以从右到左生成。该规范对从左到右和从右到左的转换进行了限制。如果这两个过程产生的翻译是相同的,那么它们通常比结果不同的翻译更可靠。在神经机器翻译训练期间应用的这种约束鼓励系统根据这两个相反的过程生成一致的翻译结果。
