机器翻译技术已经发展了80多年。巴别塔的传说已经成为过去。不再跳舞和说话,机器翻译仍然可以做到这一点!01机器翻译与巴别塔的传说《圣经》记录了这样一个故事:人类曾经联合起来建造了一座通向天堂的塔——巴别塔,为了阻止人类的计划,上帝让人类说出了不同的语言语言,使人类无法相互交流。结果计划失败,人类从此四散。实现不同语言之间的无障碍交流一直是人类最伟大的梦想之一。在意识到人类不眠不休只能掌握几十种语言后,许多科学家开始思考如何利用机器来帮助人们解决交流问题,于是机器翻译应运而生。机器翻译实际上是使用计算机将一种自然语言翻译成另一种自然语言的过程。基本流程大致分为三个部分:预处理、核心翻译、后处理。预处理就是对语言和文本进行正则化处理,将过长的句子通过标点符号分割成若干个短句,过滤掉一些语气词和意义无关的词,将一些数字和不规则的表达组合成标准化的句子。核心翻译模块是将输入的字符单元和序列翻译成目标语言序列的过程,是机器翻译中最关键、最核心的部分。后处理模块是将翻译结果进行大小写转换、建模单元拼接、特殊符号处理,使翻译结果更符合人们的阅读习惯。02曲折的机器翻译机器翻译的故事始于1933年,从一开始只是科学家们的大胆设想,到现在的大规模应用。机器翻译技术的发展大概有6个阶段。起源阶段:机器翻译起源于1933年,机器翻译的概念是由法国工程师G.B.Aljuni,并获得翻译机专利;萌芽期:1954年,美国乔治城大学与IBM公司合作,使用IBM-701计算机***完成了英俄机器翻译实验,拉开了机器翻译研究的序幕;沉寂阶段:美国科学院成立自动语言处理咨询委员会(ALPAC),并于1966年发表了名为《语言与机器》的报告,该研究否定了机器翻译的可行性,机器翻译研究进入萧条期;复苏阶段:1976年,蒙特利尔大学与加拿大联邦政府翻译局联合开发的TAUM-METEO系统标志着机器翻译的全面复苏;发展阶段:1993年2003年,Brown等人。IBM提出基于词对齐的统计翻译模型,基于语料库的方法开始流行;2003年,爱丁堡大学的Koehn提出了短语翻译模型,显着提高了机器翻译的效果,促进了工业应用;2005年,DavidChang进一步提出层次短语模型,与此同时,基于句法树的翻译模型研究也取得了长足的进步;繁荣阶段:2013年和14年,牛津大学、谷歌、蒙特利尔大学的研究人员提出了端到端的神经机器翻译,开创了深度学习翻译的新纪元;2015年蒙特利尔大学引入Attention机制,神经机器翻译进入实用阶段;2016年,谷歌GNMT发布,讯飞推出NMT系统,神经翻译开始大规模应用。03机器翻译的技术原理在谈机器翻译的技术原理之前,我们先来看一张机器翻译技术发展的历史地图:20世纪80年代,基于规则的机器翻译开始得到应用。这是第一代机器翻译技术。随着机器翻译的应用领域越来越复杂,基于规则的机器翻译的局限性开始显现。应用场景越多,需要的规则就越多,规则之间的冲突也逐渐出现。于是很多科学家开始思考,机器能不能自动从数据库中学习到相应的规则。1993年,IBM提出了基于词的统计翻译模型,标志着第二代机器翻译技术的兴起。谷歌和蒙特利尔大学于2014年提出的基于端到端神经机器翻译的第三代机器翻译技术,标志着第三代机器翻译技术的到来。看完机器翻译技术的迭代发展,我们来了解下三代机器翻译的核心技术:规则机器翻译、统计机器翻译和神经机器翻译。基于规则的机器翻译基于规则的机器翻译大致有3种技术路线。第一种是直译法。源语言切分后,将源语言中的每个单词翻译成目标语言中的相关单词,然后拼接在一起。得到翻译结果。由于源语言和目标语言不在同一个系统,句法顺序有较大出入,直接拼接起来的翻译结果往往并不理想。因此,研究人员提出了第二种基于规则的机器翻译方法,引用语言学的相关知识,分析源语言中句子的句法。由于句法语言学相关知识的应用,构建的译文更加准确。的。但是这里还有一个问题。这种方法只有在语言比较有规律,机器可以解析的情况下才比较有效。因此,在此基础上,有研究者提出是否可以借助人脑翻译实现基于规则的机器翻译?这涉及一种中间语言。首先,源语言用中间语言描述,然后借助中间语言的语言翻译成我们的目标语言。但是,由于语言的复杂性,实际上很难借助中间语言实现对源语言和目标语言的准确描述。说完基于规则的机器翻译的三种技术路线,我们用一张图总结一下它的优缺点:统计机器翻译第二代机器翻译技术路线是基于统计的机器翻译,其核心在于设计概率模型模拟翻译过程。例如,如果我们用x表示原始句子,用y表示目标语言中的句子,任务就是找到一个翻译模型θ。最早应用于统计翻译的模型是源通道模型。在这个模型下,假设我们看到的源语言文本x是由一个目标语言文本y通过某种奇怪的编码得到的,那么翻译的目标就是将y转换为x,这也是一个解码过程。所以我们的翻译目标函数可以设计为优化Pr(𝑥│𝑦),通过贝叶斯公式,我们可以将Pr(𝑥│𝑦)一分为二,即语言模型Pr(𝑦)的翻译模型,Pr?(𝑦|𝑥)的翻译模型。项目中实际使用的模型。对数线性模型不仅包括翻译模型和语言模型,还包括序列模型、失真模型和字数惩罚模型。源语言到目标语言的翻译是通过这些模型的联合约束实现的。说完统计机器翻译的相关知识,我们再来看看基于短语的统计翻译模型的三个基本步骤:源短语分割:将源语言句子分成若干个短语源短语翻译:将每个源短语翻译成atargetphrase前言:将targetphrase按照一定的顺序组合成句子***,我们还是用一张图来总结一下统计机器翻译的优缺点:神经机器翻译说完rule-based机器翻译和statistical-based机器翻译,继续让我们来看看端到端的神经机器翻译。神经机器翻译的基本建模框架是端到端的序列生成模型,它是一种将输入序列转化为输出序列的框架和方法。它的核心部分有两点,一是如何表征输入序列(编码),二是如何得到输出序列(解码)。对于机器翻译,它不仅包括编码和解码两部分,还引入了一个额外的机制——注意力机制来帮助我们进行排序。我们用一张示意图来看看基于RNN的神经机器翻译的过程:首先,我们通过分词得到输入的源语言词序列,然后将每个词用一个词向量表示,得到对应的词向量序列。然后使用前向RNN神经网络得到它的前向编码表示。然后用一个reverseRNN得到它的reversecodedrepresentation,最后拼接正向和reversecodedrepresentations,然后利用attention机制随时预测哪个词需要翻译,通过不断的predictionandTranslate,就可以得到翻译在目标语言中。04机器翻译的基本应用机器翻译的基本应用可以分为三种场景:以信息获取为目的的场景、以信息发布为目的的场景、以信息交换为目的的场景。对于信息获取的应用场景大家可能都不陌生,比如翻译或者海淘。当你遇到一些不常见的词时,你可以使用机器翻译技术来理解它的真正含义。在信息发布的场景中,一个典型的应用就是辅助翻译。大家应该还记得,本科毕业论文需要用英文写abstract。很多同学用GoogleTranslate把中文摘要翻译成英文摘要,再做一些简单的调整就得到了最终的英文摘要。其实这是一个简单的辅助翻译过程。第三大场景是以信息交流为目的的场景,主要解决人与人之间的语言交流问题。
