日前,一名同声传译员痛斥科大讯飞的“AI同声传译造假”,在网上引起轩然大波。人工智能和同声传译也因此成为热门话题。今天,我们就来聊一聊“人工智能翻译真能代替同声传译员”吗?同声传译有多难?同声传译最早出现在第一次世界大战后的巴黎和会上,在声学翻译的帮助下完成了紧张的谈判。时至今日,这项技术在国际会议上仍然发挥着极其重要的作用。据统计,95%的国际会议都有专业的同声传译支持。同声传译员要能够在舞台上自如地运用同声传译能力,需要经过大量的苦练。即使是双语专业人士,在实战之前也需要数年的训练。他们不仅需要事先学习和熟悉会议材料,还需要适应不断变化的情况的能力。同声传译的工作方式也比较特殊,因为压力巨大,通常是多人合作,在几个小时的过程中,每人轮流翻译几十分钟。相比之下,普通的口译工作就简单多了。如果机器翻译能够取代同声传译,无疑将具有巨大的价值。人工智能翻译水平如何?那么,人工智能同声传译的能力究竟如何呢?它会夺走同声传译员的工作吗?今年上半年的博鳌亚洲论坛上,人工智能同声传译首次亮相。但现场配备的系统出现掉链、词汇翻译不准确、词汇重复等低级错误。客观地说,人工智能或者机器翻译技术在自然语言处理方面确实取得了很多突破。这些突破给人以希望和对未来的想象,但短期价值更多体现在辅助翻译领域。当然,机器翻译目前已经取得了长足的进步。衣食住行等日常常用语的汉英翻译可达到大学六年级水平。与平译所强调的“信、达、雅”还有很大差距。目前的差距是由现有技术水平的局限决定的。机器翻译,也称为自动翻译,是利用计算机将一种语言转换成另一种语言。机器翻译技术的发展与计算机技术、信息论、语言学密切相关。与其他学科的发展密切相关。从早期的词典匹配,到结合语言专家梳理的知识规则,再到基于语料库的统计方法,随着计算能力的提升和多语言信息的积累,机器翻译技术已经开始在一些场景下提供便捷的翻译服务。进入新世纪以来,随着互联网的普及,互联网公司纷纷成立机器翻译研究组,开发基于互联网大数据的机器翻译系统,使机器翻译真正走向实用化,并相对成熟自动翻译产品开始出现在市场上。近年来,随着深度学习的进步,机器翻译技术得到进一步发展,促进了翻译质量的提升,使翻译更加地道流畅。机器翻译的难点在哪里?在此,简单介绍一下机器翻译的难点。机器翻译的整个过程可分为语音识别转换、自然语言分析、译文转换和译文生成。这里以典型的基于规则的机器翻译为例(见下图),模块包括:语音识别(语音转文本)、自然语言处理(句法分析、语义分析)、翻译转换、翻译等模块生成和语音生成。技术难点主要有:语音识别、自然语言处理和翻译转换。第一个技术难点是语音识别。近二十年来,语音识别技术取得了长足的进步,开始进入家电、汽车、医疗、家居服务等各个领域。常见的应用系统有:语音输入系统,更符合人们的日常习惯,比键盘输入更自然高效;语音控制系统,利用语音来控制设备的运行,相比人工控制更加快捷方便,可应用于工业控制、语音拨号系统、智能家电、声控智能等众多领域玩具;智能对话查询系统根据客户语音操作,为用户提供自然友好的数据库检索服务,如家庭服务、旅行社服务系统、预订系统、银行服务等,可以说是语音的结合识别技术和其他自然语言处理技术可以创建许多复杂的应用程序。然而,语音识别的主要难点在于对??自然语言的识别和理解。首先,必须将连续的语音分解为单词和音素等单元,其次,必须建立理解语义的规则。由于语音信息量大,不仅不同说话人的语音模式不同,而且同一说话人在不同场景下的语音模式也不同。例如,一个人在随便说话和认真说话时的言语特征是不同的。此外,当说话者说话时,不同的词听起来相似是很常见的。单个字母或词或词的语音特征受上下文影响,使发音的重音、音调、音量和速度发生变化。最后,环境噪声和干扰对语音识别也有很大影响,导致识别率低。第二个技术难点是语义分析,它是智能机器翻译系统的核心部分。目前,机器翻译系统可以分为两类:基于规则的和基于语料库的。前者以词典和语言知识规则库为基础;后者由划分和标记的语料库组成,作为知识来源,主要基于统计算法。机器翻译系统是随着语料库语言学的兴起而发展起来的。目前,世界上绝大多数机器翻译系统都采用基于规则库的策略,规则库一般分为句法、语义、知识和智能。不同类型的机器翻译系统由不同的组件组成。抽象地讲,所有机器翻译系统的处理过程都包括以下步骤:对源语言的分析或理解,在语言语法、语义和语用层面上的转换,根据目标语言的结构规则生成目标语言语言。目前,谷歌在线翻译家喻户晓。它的第一代技术是一种基于统计的机器翻译方法。基本原理是收集大量的双语网页作为语料库,然后计算机自动选择最常见的词对词对应关系。关系,最后给出翻译结果。但是,这种技术的使用仍然无法取得令人满意的效果,经常闹出各种翻译笑话。因为,基于统计方法,需要建立大规模的双语语料库,而翻译模型和语言模型参数的准确性直接取决于语料库的规模和质量,翻译质量直接取决于语料库的质量。模型和语料库的覆盖率。除了上述传统方法,2013年以来,随着深度学习研究的长足进步,基于人工神经网络的机器翻译逐渐兴起。目前,长短期记忆递归神经网络广泛应用于机器翻译。该模型擅长对自然语言进行建模,将任意长度的句子转换为特定维度的浮点向量,同时“记住”句子中比较重要的词,让“记忆”节省更长的会话时间.该模型较好地解决了自然语言句子的向量化问题。其技术核心是通过多层神经网络自动从语料库中学习知识。语言中的一句话向量化后,在网络中逐层传递,经过多层复杂的传导操作,生成翻译。这种翻译方式最大的优点是译文流畅,更符合语法规范。与以往的翻译技术相比,质量得到了提升。智能同声传译离我们还有多远?需要注意的是,很多人对机器翻译存在误解,认为机器翻译偏差较大。实际上,机器翻译是利用语言学知识自动识别语法,模拟语义理解,并进行相应的翻译。由于语法、语义和语用的复杂性,错误在所难免。从现有的结果来看,机器翻译通用于所有场景的翻译质量距离最终目标还有很大差距。随着全球化网络时代的到来,语言障碍已成为21世纪社会发展的重要瓶颈。实现任何时间、任何地点、任何语言的无障碍、自由交流是人类所追求的梦想。这只是全球化背景下的一个小缩影。在社会快速发展的过程中,机器翻译将发挥越来越重要的作用。
