往往意味着行业的演进找到了新的方向。翻译行业也不例外。随着全球化进程的不断加快,人们在进行涉外活动时离不开跨语言的交流。机器翻译的出现极大地拓展了翻译的应用场景。虽然远非完美,但在人类挑战通天塔的道路上迈出了坚实的一步。特邀字节跳动AILab机器翻译负责人王明轩,畅谈机器翻译发展的那些年和大事。从基于规则,到基于统计模型,再到基于神经网络,机器翻译的发展与计算机技术、信息论、语言学等学科的发展密切相关。进入21世纪后,随着硬件能力的提升和算法的优化,机器翻译技术迎来了前所未有的飞跃,并成功走出象牙塔,走上普惠之路。:纵观历史,机器翻译经历了哪些重要的发展节点?王明轩:机器翻译本质上是一个很老的问题。机器翻译的历史可以追溯到17世纪笛卡尔、莱布尼茨等哲学家提出的“通用语言”。1946年计算机正式诞生后,人们期望计算机能够将一种语言翻译成另一种语言。美国科学家WarrenWeaver在《翻译备忘录》正式定义了机器翻译的概念和思想。这一时期,在冷战背景下,美苏两国基于搜集信息的需要,也投入了大量资金进行机器翻译相关的研究。一开始大家还比较乐观,认为这件事情很快就能解决。第一版的翻译系统很简单,主要是靠字典,比如把“太阳”翻译成“太阳”,但是这种词对词的翻译很快就遇到了瓶颈,因为一个词出现了很多多义现象,比如“Bank”既可以是“bank”也可以是“riverbank”。在具体语境中,选词会有很多困难。结合语言学家制定的语义规则,可以解决部分歧义,但在发展后期,规则越多,冲突越多,系统会越来越复杂,但仍然无法解决问题。1966年,美国发表报告《语言与机器》,全盘否定机器翻译的可行性,并建议停止对机器翻译项目的资金支持。受此影响,机器翻译陷入低谷。直到20世纪90年代,IBM提出了基于词对齐的翻译模型,标志着现代统计机器翻译方法的诞生。基于统计的机器翻译原理很简单。比如你要判断bank在上下文中应该翻译成“bank”还是“riverbank”,然后进行大量的相关语料统计,你会发现“money”在上下文中是相关的,那么更可能译为“bank”,而当上下文中提到“river”时,则更可能对应“riverbank”。这样就不用字典和语法规则,而是根据概率来判断特定场景下的语义。这是一次划时代的变革,机器翻译的质量有了很大的提高。很快,机器翻译开始在很多实际场景中落地。1993年到2014年,基本属于统计时代,但是虽然是基于统计,但是还是需要手动定义很多特征和模板,进一步设计细节,所以不是很灵活,精力模型不是很强大。后来到了神经网络时代,神经网络翻译在模型上主要包括encoder和decoder。编码器将源语言经过一系列神经网络变换表示为高维向量,解码器负责将高维向量重新解码为目标语言。2014年Seq2Seq的提出,让神经网络翻译慢慢开始比统计机器翻译做得更好。到2017年,谷歌提出了Transformer,其模型更大、结构更灵活、并行化程度更高,进一步提升了翻译质量。同年,AlphaGo的胜利也让大家对人工智能更有信心。也是在2017年后,机器翻译的产业化迎来了爆发期。到现在为止,整体框架并没有太大变化,只是在小细节上有了很多创新。挑战“通天塔”从词典匹配,到结合语言专家知识的规则翻译,再到基于语料库的统计机器翻译,再到目前主流的神经网络机器翻译,机器翻译的质量较之前有了飞跃进步,但仍面临诸多挑战。:目前机器翻译面临的主要挑战在哪里?王明轩:挑战还是很多的。首先,如何对稀有语言进行机器翻译。这是机器翻译从一开始就面临的问题。语言越小,数据量就越小,语料库的稀缺性将是一个长期的挑战。第二,如何做多模态机器翻译。近年来,我们经常需要做语音翻译和视频翻译。事实上,这种翻译需要AI在翻译前做一些预处理。如果AI弄错了,翻译就会出错。再比如,在同声传译的场景中,通常是边说边翻译,无法获取完整的上下文信息。这是多模态翻译中的常见问题。第三,最本质的问题是,目前的机器翻译还是基于数据驱动,没有做更深入的理解。模型的学习仍然依赖于语言的贡献,而不是真正理解语义。这极大地限制了机器翻译的上限。:火山翻译,作为字节跳动旗下的机器翻译品牌,如何应对语料稀疏的问题?王明轩:有两种比较直接的方法。一是扩充语料库,力争让稀缺的语料库“不再稀缺”。这个思路就是通过一些模型,尽可能的从网上获取语料。比如冰岛语,我们可以搜集到大量的冰岛语单语语料库,我们可以在网上搜集类似单语语料库的英文文本。我们寻找可以对齐以形成双语匹配的语料库。当然,我们有时也会使用人工标注,但大部分都是靠智能的方法自己增加。二是利用语言的共通性。每个人都生活在同一个星球上。虽然他们使用不同的语言,但他们实际上在描述同一个世界。因此,语言在高层次上有很多共性。我们会使用一些迁移学习或预训练的方法来解决这类问题,比如让英语模型帮助法语模型,或者让德语模型帮助法语模型。主要是这两个想法。:为了减少多模态机器翻译中的噪音干扰,焕章翻译采用了哪些应对策略?王明轩:针对噪声干扰,首先进行了多模联合建模。我们将语音信号和文本信号一起使用来做下游任务,这样错误传输会减少很多。目前,构建多模态统一语义在学术界也是一个很热门的话题,所以我们也会吸收很多其他领域的东西。其次,我们也会在文本区域做很多鲁棒性训练,尽量让模型在输入错误的情况下保证正确输出,或者不扩大错误,相当于自动纠错和机器翻译了在一个模型里面。因为人类其实也有这种自动纠错的能力,比如当翻译人员听到错误信息的时候,会自动纠正,所以我们在模型中也会考虑到这些信息。:同声传译对时延要求高。但是如果不结合语境的上下文或者听完整的语义,准确度就很难保证。机器翻译如何平衡两者的矛盾?王明轩:这个在业界是非常有挑战的,因为这不仅仅是延迟和准确率的权衡,实际上还有更多需要优化的地方。例如,在一些会议场景中,翻译后的字幕需要在大屏幕上显示,观众接受字幕的速度也是关键问题之一,包括每个字幕显示的时长和弹出字幕的频率,这关系到如何更舒适地阅读。有很多细节需要我们和产品经理反复沟通,深入用户调研,看整体满意度。因此,这不仅仅是准确性的问题,在调整模型之前必须考虑实际的用户体验。另外,延迟可能是用户满意度的指标之一,但延迟并不是越短越好。通常有一个合适的间隙会更好。因为如果延迟很短,字幕会很快弹出,用户的接受效果不会很好。在这方面,我们也会借鉴很多业界成熟的做法,比如动态控制字幕翻译的间隔时间。总的来说,这是一个非常工程化的生产问题。未来趋势机器翻译还不完美,但从业者正在努力使其更高质量、更好用、更适用。让我们观察一下它的发展趋势,尤其是当机器翻译和专业翻译人员“碰撞”时,翻译服务场景会产生怎样的化学反应。:随着技术的发展,机器翻译会不会产生更多有趣的应用场景?王明轩:我们之前推出的火山翻译AR眼镜,也是类似的尝试。今年谷歌I/O大会压轴发布的AR翻译眼镜也是非常有趣的应用。佩戴后,用户可以实时看到对话者的翻译,类似于字幕的效果。这其实反映了一个比较简单的理想:我们希望每个人都能生活在一个沟通无障碍的世界里。例如:出国旅游时,戴上眼镜就可以听懂任何语言的文字提示。你看到的路牌是德文的,但眼镜上的是中文的。在日常交流中,当有人与你交谈时,对话信息会自动变成你看得懂的文字显示在眼镜下。这些都是可以更有效获取信息的场景。:机器翻译从长远来看会如何发展?王明轩:在应用方面,我觉得机器翻译可能和多模态应用结合得更紧密。例如,视频内容和音频内容的翻译需求会越来越多。此外,机器翻译可能更多地与海外的商业和海外的文化相关联。因为国内很多公司都在积极拓展海外业务,我觉得这个领域对机器翻译的发展会有很大的帮助。在技??术方面,我能看到的趋势已经在发生了:一个是大数据、大模型的训练。从事这个领域的人越来越多,模型越来越大,数据量越来越大。很多人认为,这种变化可能会给机器翻译的能力带来质的变化。二是翻译与情态相结合。不仅在翻译方面,业内很多人都在尝试构建不同模态的统一语义表示。前几年,不同模态之间的界限还是比较清晰的,人与人之间的交流也比较少。如今,模型越来越一致。未来可能会有一款机型可以做文字翻译、语音翻译,甚至视频翻译。:未来机器翻译是否有可能在某些场景下完全替代人工翻译?王明轩:按照现在的做法,肯定不能代替人工。但我认为机器翻译和人工翻译可能不属于同一个轨道。机器翻译的特点是速度非常快,可以规模化,适合处理海量信息需要及时处理的情况。比如有1000万个视频要从英文翻译成法文,单纯靠人是不可能做到的,但是机器可以做到。这让机器在其赛道上发挥重要作用,从长远来看,这将是有很大好处的,因为它拓宽了整个市场,让跨语言市场变得更大。但是对于非常微妙的翻译场景,机器翻译可能就做不到了。有人提到,机器翻译可以翻译《红楼梦》吗?在我看来,这不属于机器翻译的任务范畴。小说或诗歌之类的翻译,这种翻译必须要靠专家。还有高标准的会议同声传译,肯定需要专业的翻译人员,不是机器。但在一些不太重要的会议上,机器翻译的成本优势就会显现出来。机器翻译和专业翻译属于不同的领域,区别还是很明显的。不过,从某种程度上来说,两者之间也存在着互相帮助的关系。这体现在:一方面,机器翻译所需的语料库是由专业翻译人员制作的。专业翻译人员在工作过程中不断产生大量的语料库,可以不断帮助机器翻译提升??能力。另一方面,机器翻译也可以减轻人的负担,处理要求不高的任务。也有很多译者在做译后润色。很多翻译公司都是先让机器翻译,然后再由翻译人员进行编辑,这样可以大大提高效率。嘉宾介绍了字节跳动AI-Lab机器翻译团队负责人王明轩,主要研究方向为机器翻译和自然语言处理。在机器翻译领域,在ACL、EMNLP等顶级会议发表论文40余篇,多次获得WMT等国际翻译评测竞赛第一名。同时,他还担任EMNLP2022的发起主席,NeurIPS2022、NLPCC2022、AACL2022等会议领域的主席。栏目介绍《T前线》是内容中心专门为技术人物开设的深度访谈栏目之一。通过邀请技术领域的业务负责人、资深架构师、资深技术专家,共同探讨当前的技术热点、技术实践和技术趋势。进行深度解读和洞察,推动前沿技术的传播和发展。
