视觉和听觉在人类交流和场景理解中至关重要。视觉-音频-音频学习旨在探索视觉-音频-视觉模式以模仿人类的感知能力,近年来已成为一个蓬勃发展的领域。本文为歌物实验室、高瓴人工智能学院、中国人民大学、德克萨斯大学达拉斯分校和西北工业大学联合发布的最新视听学习综述《Learning in Audio-visual Context: A Review, Analysis, and New Perspective》解读。本综述首先分析视听模态的认知科学基础,然后对近期视听学习工作(近300篇相关文献)进行系统分析和总结。最后,为了概述当前的AV学习领域,这篇综述从AV场景理解的角度回顾了AV学习的最新进展,并探索了该领域的潜在发展方向。arXiv链接:https://arxiv.org/abs/2208.09579项目主页:https://gewu-lab.github.io/audio-visual-learning/awesome-list链接:https://gewu-lab.github。io/awesome-audiovisual-learning/1简介视觉和听觉信息是人类感知外部世界的主要信息来源。人脑通过整合异构、多模态的信息获得对周围环境的整体认知。例如,在有多个演讲者的鸡尾酒会场景中,我们可以借助嘴唇变化来增强感兴趣演讲者的接收语音。因此,视觉和听觉学习对于探索类人机器感知能力是必不可少的。与其他模态相比,视听模态的特点使其与众不同:1)认知基础。作为研究最广泛的两种感觉,视觉和听觉整合在整个人类神经系统中。一方面,这两种感官在人类感知中的重要性为基于视听数据的机器感知研究提供了认知基础;基础。2)多重一致性。在我们的日常生活中,视觉和听觉是密切相关的。如图1所示,狗的叫声和它的样子都能让我们联想到“狗”的概念(语义连贯)。同时,我们可以借助听觉或视觉来确定狗的确切空间位置(空间连贯性)。当我们听到狗叫声时,我们通常可以同时从视觉上看到狗(时间一致性)。视觉与听觉的多重同余是视听学习的研究基础。3)丰富的数据支持。移动终端和互联网的快速发展促使越来越多的人在公共平台上分享视频,降低了采集视频的成本。这些丰富的公共视频缓解了数据获取的障碍,为电化学习提供了数据支持。视听模态的这些特征自然导致了视听学习领域的诞生。近年来,该领域取得了蓬勃发展,研究人员不再满足于简单地在原有的单峰任务中引入额外的模态,开始探索和解决新的问题和挑战。然而,现有的视听学习工作通常是面向任务的。在这些工作中,他们专注于特定的视听任务。仍然缺乏能够系统地回顾和分析AV学习领域发展的综述工作。因此,本文对当前视听学习领域进行总结,进而展望其潜在的发展方向。由于视觉和听觉学习与人类感知的密切联系,本文首先总结了视觉和听觉模态的认知基础,然后将现有的视觉和听觉学习研究分为三类:1)Audio-visualBoosting。视觉和音频数据都有着悠久的研究历史和广泛的应用。尽管这些单峰方法取得了相当有效的结果,但它们仅利用了感兴趣对象的部分信息,单峰方法的性能有限,并且容易受到单峰噪声的影响。因此,研究人员在这些音频或视觉任务中引入了额外的模态,这不仅通过整合互补信息来提高模型性能,还提升了模型的鲁棒性。2)跨模态感知。人类听到声音可以想到相关的图片,看到图片也可以想到与之匹配的声音,这是因为视觉和听觉信息的一致性。这种一致性为机器进行跨模态知识迁移或根据某种模态信息生成另一种模态的相应数据提供了基础。因此,许多研究致力于跨模态感知能力的探索,并取得了显著成果。3)视听协作。除了融合来自不同模态的信号外,人脑皮层区域还有更高层次的模态间相互作用,以实现更深入的场景理解。因此,需要探索类人感知能力以实现视听模式的协作。为了实现这一目标,近年来许多研究提出了更具挑战性的场景理解问题并获得了广泛关注。图1:视觉-语音一致性和视觉-语音学习领域概述涵盖语义、空间和时间序列的视觉-音频模式之间的一致性为上述视觉-音频研究提供了可行性。因此,本文在总结近年可听性研究的基础上,对可听性的多重同余进行了分析。此外,本文从视听场景理解的新视角重新审视了视听学习领域的进展。2视听认知基础视觉和听觉是人类理解场景的两大核心感官。本章总结了视觉和听觉感觉的神经通路以及认知神经科学中视觉和听觉模态的整合,为后续讨论视觉和听觉学习领域的研究奠定了基础。2.1视觉和听觉的神经通路视觉是研究最广泛的感觉,甚至有人认为它支配着人类的感知。相应地,视觉的神经通路也相对复杂。来自物体的反射光包含视觉信息,可激活视网膜中的众多光感受器(约2.6亿个)。光感受器的输出被发送到神经节细胞(约200万个)。这个过程压缩了视觉信息。然后,经过外侧膝状体细胞的处理,视觉信息最终到达大脑皮层的视觉相关区域。视觉皮层是功能不同的区域的集合,对视觉神经元有偏好。例如,V4和V5中的神经元分别对颜色和运动敏感。除了视觉,听觉也是观察周围环境的重要感官。它不仅提醒人类规避风险(例如听到野生动物的叫声,人类会主动采取行动),也是人们相互交流的基础。声波在鼓膜处被转换为神经元信号。然后将听觉信息发送到脑干的下丘和耳蜗核。经过丘脑内侧膝状体核的处理后,声音最终被编码到初级听觉皮层中。大脑获取听觉信息并使用嵌入其中的声学线索(例如频率和音色)来确定声源的身份。同时,两只耳朵之间强度和时间的差异提供了声音位置的线索,这就是所谓的双耳效应。在实践中,人类的感知可以结合多种感官,尤其是听觉和视觉,称为多通道感知。2.2认知神经科学中的视听整合每一种感觉都提供关于周围环境的独特信息。尽管多种感官接收到的信息不同,但由此产生的环境表征是一种统一的体验,而不是单独的感觉。一个代表性的例子是麦格克效应:具有不同语义的视觉和听觉信号得到单一的语义信息。这些现象表明,在人类感知中,来自多种感官的信号往往是综合的。其中,听觉和视觉神经通路的交汇处结合了人类两种重要感官的信息,促进了感知的灵敏度和准确性。例如,与声音相关的视觉信息可以提高听觉空间的搜索效率。这些结合多感官信息的知觉现象引起了认知神经科学领域的关注。人类神经系统中经过充分研究的多通道感觉区域是上丘。上丘中的许多神经元具有多感觉特性,可以被来自视觉、听觉甚至触觉的信息激活。这种多感官反应通常比单一反应更强。皮质中的颞上沟是另一个代表性区域。根据对猴子的研究,已经观察到它与多种感官有关,包括视觉、听觉和体感。更多的大脑区域,包括顶叶、额叶和海马体,表现出类似的多通道感知现象。根据对多通道感知现象的研究,我们可以观察到几个关键发现:1)多模态增强。如上所述,许多神经元可以对来自多种感官的融合信号做出反应,当来自单一感官的刺激较弱时,这种增强的反应比单峰反应更可靠。2)跨模态可塑性。这种现象是指剥夺一种感觉会影响其相应皮层区域的发育。例如,聋人的听觉相关皮层可能会被视觉刺激激活。3)多模式协作。来自皮层区域不同感觉的信号的整合更为复杂。研究人员发现,大脑皮层中有一些模块能够以协作的方式整合多感官信息,从而建立意识和认知。受人类认知的启发,研究人员开始研究如何实现类人的视听感知,近年来逐渐涌现出更多的视听研究。3Videoandaudioenhancement虽然每种模态本身已经拥有比较充足的学习信息,并且已经有很多基于单模态数据的任务,但是单模态数据只提供局部信息,对单模态噪声比较敏感。敏感(例如,视觉信息受光照、视角等影响)。因此,受到人类认知中多模态提升现象的启发,一些研究人员将额外的视觉(或音频)数据引入到原始的单模态任务中,以增强任务性能。我们将相关任务分为两部分:识别和增强。单峰识别任务在过去得到了广泛的研究,例如基于音频的语音识别和基于视觉的动作识别。然而,单峰数据只观察到事物的部分信息,容易受到单峰噪声的影响。因此,融合多模态数据以提升模型能力和鲁棒性的视觉声音识别任务近年来受到关注,涵盖语音识别、说话人识别、动作识别和情感识别等多个方面。视觉和音频模态的一致性不仅为多模态识别任务提供了基础,也使得借助一种模态增强另一种模态的信号成为可能。例如,多个说话人在视觉上是分离的,那么说话人的视觉信息可以用来辅助语音分离。此外,音频信息可以提供性别、年龄等身份信息,用于重建被覆盖或缺失的说话人面部信息。这些现象激发了研究人员使用来自其他模态的信息进行去噪或增强,例如语音增强、声源分离和面部超分辨率重建。图2:视听增强任务4跨模态感知认知神经科学中的跨模态可塑性现象和视听模态之间的连贯性促进了以学习和建立音频为目的的跨模态感知研究。视觉模态之间的关联可以实现跨模态生成、传输和检索等任务。人类有能力在已知模态的指导下预测对应于另一种模态的信息。例如,在没有声音的情况下看到有关嘴唇运动的视觉信息可以让我们粗略地推断出这个人在说什么。音频和视觉之间的语义、空间和时间连贯性为机器拥有类似人类的跨模态生成能力开辟了可能性。跨模态生成任务目前涵盖了单通道音频生成、立体声生成、视频/图像生成、深度估计等多个方面。除了跨模态生成之外,视听之间的语义一致性表明,一种模态的学习有望得到来自另一种模态的语义信息的帮助。这也是视听传输任务的目标。此外,视听的语义一致性也促进了跨模态信息检索任务的发展。图3:Cross-modalperceptionrelatedtask5audio-visualcooperation人脑会将接收到的场景的视听信息进行整合,使其相互配合,相得益彰,从而提高对场景的理解能力。因此,机器有必要通过探索视听协作来追求类人感知,而不仅仅是融合或预测多模态信息。为此,研究人员在视听学习领域引入了多种新挑战,包括视听成分分析和视听推理。在AV协作之初,如何在没有人工注释的情况下有效地从AV模态中提取表示是一个重要的课题。这是因为高质量的表示可以为各种下游任务做出贡献。对于视听数据,它们之间的语义、空间和时间连贯性为以自我监督的方式学习视听表示提供了自然信号。除了表示学习,视听模态之间的协作主要集中在场景理解上。一些研究人员专注于场景中视听组件的分析和定位,包括声源定位、视听显着性检测、视听导航等。这些任务在视听模态之间建立细粒度的联系。此外,在很多AV任务中,我们倾向于假设整个视频中的AV内容在时间上始终是匹配的,即视频中每个时刻的画面和声音都是一致的。但在实践中,这种假设并不总是成立。比如在“打篮球”的样本中,摄像机有时会拍到观众席等与“打篮球”标签无关的场景。因此,提出了视频音频事件定位和分析等任务,以按时间顺序进一步剥离场景中的视频音频组件。人类能够在视听场景中进行超越感知的推断。上述视听协同任务虽然逐渐实现了对视听场景的细粒度理解,但并未对视听成分进行推理和分析。最近,随着视觉-音频-音频-音频学习领域的发展,一些研究人员开始进一步关注视觉-音频-音频推理,例如视听问答和对话任务。这些任务旨在通过对视听场景执行跨模态时空推理来回答与场景相关的问题,或者生成关于观察到的视听场景的对话。图4:视听协作相关任务的代表性数据集6本节讨论视听音频学习领域的一些代表性数据集。7趋势和新观点7.1语义、空间和时间一致性尽管AV模态具有异构数据形式,但它们内在的一致性涵盖了语义、空间和时间方面,为AV研究奠定了基础。首先,视觉和音频模式从不同的角度描绘了感兴趣的问题。因此,视听数据的语义被认为是语义一致的。在视觉-语音学习中,语义一致性在大多数任务中起着重要作用。例如,这种一致性使得结合视听信息以实现更好的视听识别和单一模态增强成为可能。此外,视听模态之间的语义一致性在跨模态检索和迁移学习中也起着重要作用。其次,视觉和听觉都可以帮助确定发出声音的物体的确切空间位置。这种空间对应关系也有广泛的应用。例如,在声源定位任务中,这种一致性用于确定由输入音频引导的发声对象的视觉位置。在立体声的情况下,可以基于双耳音频估计视觉深度信息或使用视觉信息作为生成立体声音频的辅助。最后,视觉内容和它产生的声音通常在时间上是一致的。这种一致性也被广泛用于大多数视觉-听觉-语音学习研究,例如在视觉-听觉识别或生成任务中融合或预测多模态信息。在实践中,这些不同的AV一致性并不是孤立的,而是经常在AV场景中同时出现。因此,它们经常在相关任务中被联合利用。语义和时间一致性的组合是最常见的情况。在简单的场景中,具有相同时间戳的视听片段被认为在语义和时间上是一致的。然而,这种强假设可能会失败,例如,同一时间戳的视频帧和背景声音在语义上不一致。这些误报会干扰训练。最近,研究人员开始关注这些情况,以提高场景理解的质量。此外,语义和空间一致性的结合很常见。例如,视频中声源定位的成功依赖于语义一致性来根据输入声音探索相应的视觉空间位置。此外,在视觉-音频-导航任务的早期阶段,发声目标会产生稳定、重复的声音。在满足空间连贯性的同时,视觉和音频中的语义内容是不相关的。随后,引入了声音和话语位置的语义一致性,以提高视听导航的质量。总的来说,视觉-音频模态的语义、空间和时间一致性为视觉-音频-音频学习的研究提供了坚实的支持。对这些索引的分析和利用不仅可以提高现有视听任务的性能,而且有助于更好地理解视听场景。7.2场景理解的新视角本文总结了视觉和听觉模态的认知基础,分析了人类多通道感知现象。在此基础上,目前视听学习的研究分为三类:视听增强(Audio-visualBoosting)、跨模态感知(Cross-modalPerception)和视听协作(Audio-visualCollaboration).为了从更宏观的角度回顾当前视听学习领域的发展,文章进一步提出视听场景理解的新视角:1)基本场景理解。视听增强和跨模态感知的任务通常侧重于融合或预测一致的视听信息。这些任务的核心是对视听场景的基本理解(例如,对输入视频中的动作进行分类。)或预测跨模态信息(例如,从无声视频中生成相应的音频)。然而,在自然场景中,视频通常包含不同的视听组件,超出了这些基本场景理解任务的范围。2)细粒度场景理解。如上所述,视听场景通常具有不同模态的丰富组合。因此,研究人员提出了一些任务来剥离目标组件。例如,声源定位任务旨在标记目标发声物体在视觉中所处的区域。视听事件定位和分析任务按时间顺序确定目标听觉或视觉事件。这些任务剥离了视听成分,解耦了视听场景,与前一阶段相比,对场景有了更细粒度的理解。3)因果场景理解。在视听场景中,人类不仅可以感知周围感兴趣的物体,还可以推断它们之间的相互作用。现阶段场景理解的目标更接近于追求类人感知。目前,现阶段只探索了一些任务。视听问答和对话任务是代表作。这些任务试图探索视频中视听组件的关联并执行时空推理。总体而言,这三个阶段的探索并不均衡。从基础场景理解到因果交互场景理解,相关研究的多样性和丰富性逐渐下降,尤其是因果交互场景理解还处于起步阶段。这暗示了视听学习的一些潜在发展方向:1)任务整合。视听领域的大多数研究都是面向任务的。这些单独的任务仅模拟和学习视听场景的特定方面。然而,视听场景的理解和感知并不是孤立的。例如,声源定位任务强调视觉中与声音相关的对象,而事件定位和解析任务则在时间上识别目标事件。预计这两个任务将被整合,以促进对视听场景的细粒度理解。多种视听学习任务的融合是未来值得探索的方向。2)对因果交互场景的更深入理解。目前,涉及推理的场景理解研究的多样性仍然有限。现有的任务,包括视听问答和对话,大多侧重于根据视频中的事件进行对话。更深层次的推理,例如根据预览的场景预测接下来可能发生的音频或视觉事件,值得在未来进一步研究。为了更好的呈现文章内容,本次评测还配备了持续更新的项目主页,以图片、视频等更多形式展现不同视听任务的目标和发展,让读者能够快速了解视听学习领域。
