如今,机器翻译将使用文字来组成图像。现在,想象一下,一个老外把一句话放在自己的面前,“金石碎成尘,山石山河全开”。除了苦心挖掘复杂的单词和长难句的语法,他还能怎么理解这句话?-想象。想象这首诗中“金石”、“尘埃”、“山水”等词的意象,然后将意象汇聚成具体的画面或场景。这时候,有研究人员产生了一个想法:难道人类就不能根据非母语文本来构图,进而达到更深层次的理解吗?机器是否也能根据输入的文字进行脑补图片,最终实现更好的翻译?于是,以视觉想象为导向的机器翻译模型ImagiT诞生了。△已被NAACL2021收录。论文作者分别来自南洋理工大学和字节跳动人工智能实验室。缺图也能用视觉提到“用视觉”,我们首先想到的是多模态机器翻译。与纯文本机器翻译相比,多模态机器翻译可以利用语音、图像等模态信息来提高翻译质量。△多模态机器翻译的输入:源语言+标注图片但多模态机器翻译的好坏与数据集的可用性直接挂钩。也就是说,标注图像的数量和质量将极大地影响模型翻译的有效性。然而,人工图像标注的成本并不低……所以现阶段的多模态机器翻译大部分应用在Multi30K这个包含30,000个图像标注的数据集上。那么新提出的ImagiT翻译模型呢?它不需要在推理阶段将图片标注为输入,而是通过想象的方式使用视觉信号,在训练阶段将视觉语义融入到模型中。△多模态机器翻译输入:源语言即使在没有图像标注的情况下也可以使用视觉信息。什么是基于想象的翻译模型?这是一个端到端的对抗性学习架构。架构的左右两端是我们熟悉的Transformer的编码器和解码器,中间是这个框架特有的生成想象网络。这个生成想象网络主要由两个转换器和一个注意力层组成。具体转换时:1、源文本通过F0输入。F0包含一个全连接层和四个反卷积层。基于GAN的思想,将句子特征和噪声拼接后,通过F0转化为视觉表示。2.Focusonwordlevel在attention层,关注源文本中的相关词汇,生成图像不同子区域的细粒度细节,使图像子区域特征与词对应.最终结果是语义更一致的视觉表示。3.通过F1输出视觉表示F1包含两个全连接层,一个反卷积层,一个残差层。通过该转换器,捕获多级(词级和句子级)语义,并输出生成的视觉特征f1。第四,多模态聚合聚合了原始文本模态和新合成的视觉特征。5.翻译模型的学习目标结合了文本到图片的生成、图像描述和逆向任务的翻译。判别器源文本、生成图像和真实图像作为输入,以评估合成图像是否与真实图片一致。同时,还使用条件对抗损失来评估合成图像是否具有与源语言相同的语义。“脑补”如何助力翻译?研究人员使用回归策略,将源语言文本中的重要词替换为特殊字符,以查看模型的翻译性能会下降多少。在这种情况下,纯文本翻译模型只能通过失去上下文和单词的偏见来推理句子的翻译。多模式机器翻译使用标记图像进行翻译。在没有图像标注的情况下,ImagiT还可以根据退化的文本来想象和恢复丢失的信息。通过这个特殊的探索性实验可以看出,ImagiT在训练阶段可以学习到特定词(颜色、可以可视化的实体词等)与其他词之间的相关性和共现性。△用特殊字符替换源语言文本中的所有颜色词。与纯文本翻译相比,通过想象还原替换文本的ImagiT模型在翻译质量上的下降也是最小的。效果如何?由于ImagiT不需要图像作为输入,因此在测试期间使用纯文本转换器模型作为基线。在Multi30K的英法、英德Test2016和Test2017上进行测试时,ImagiT取得了与SOTA多模态翻译系统相当的性能:并且在AmbiguousCOCO上也表现出了良好的测试结果:论文地址:https://arxiv.org/abs/2009.09654
