当前位置: 首页 > 科技观察

中国人民大学高瓴人工智能研究院教AI听音乐,还开源了9288个视频数据集

时间:2023-03-13 20:28:56 科技观察

你知道AI可以自己听音乐会吗?而且AI可以知道演出场景中每台乐器的演奏状态,是不是很神奇?对于人类来说,欣赏一场精彩的音乐会是一件非常享受的事情,但对于机器来说,如何将优美的旋律和激情澎湃的表演画面结合起来,提升欣赏体验,却是一个不小的挑战。近日,中国人民大学高瓴人工智能学院歌舞实验室针对这一问题提出了一个新的框架,让AI像人类一样观看和聆听乐器,进行跨模态的时空推理。目前该成果已被CVPR2022录用并入选OralPresentation,相关数据集和代码已开源。论文地址:https://gewu-lab.github.io/MUSIC-AVQA/static/files/MUSIC-AVQA.pdf项目地址:https://gewu-lab.github.io/MUSIC-AVQA/接下来让我们一起来看看这个有趣的工作吧!1.引言在我们的日常生活中,我们被视觉和听觉信息所包围,这两种信息的结合利用增强了我们对场景的感知和理解。想象一下,当我们置身于一场音乐会中,一边观看乐器的演奏动作,一边聆听音乐的旋律,可以帮助我们很好地享受演奏。受此启发,如何融合多模态信息,尤其是视觉、声音等自然模态,实现媲美人类的场景感知和理解,是一个有趣且有价值的课题。因此,本研究的重点是视听问答(AVQA)任务,旨在回答有关视频中不同视觉对象、声音及其关联的问题。显然,要做出正确答案,必须对视听场景进行全面的多模态理解和时空推理。近年来,研究人员在声音对象感知、音频场景分析、视听场景解析和内容描述等领域取得了显着进展。尽管这些方法能够将视觉对象与声音相关联,但它们中的大多数在复杂的视听场景中的跨模态推理能力仍然有限。相比之下,人类可以充分利用多模态场景中的上下文内容和时间信息来解决复杂的场景推理任务,例如视听问答任务等。现有的方法如视觉问答(VQA)和音频问答(AQA)往往只关注单一的模态,无法在真实的视听场景中很好地完成复杂的推理任务。在下图所示的单簧管二重奏场景中,在回答“哪个单簧管先发声?”的问题时,需要先定位发声的单簧管在视听场景中的位置,在时序维度上重点关注哪个单簧管先发声.正确回答这个问题本质上需要有效的视听场景理解和时空推理。图1AVQA任务问题展示示例对于上面的例子,如果我们只考虑基于视觉模态的VQA模型,很难处理问题中涉及的声音信息。相反,如果只考虑基于声音模态的AQA模型,也难以处理问题涉及的空间位置信息。但是,我们可以看到,同时使用听觉和视觉信息可以很容易地理解场景并正确回答上述问题。2.数据集为了更好地探索视听场景理解和时空推理问题,本研究构建了一个以问答任务为重点的大规模视听数据集(Spatial-TemporalMusicAVQA,MUSIC-AVQA)。我们知道高质量的数据集对于视听问答任务的研究具有相当大的价值,因此,考虑到乐器演奏是一个典型的视听多模态场景,由丰富的视听组件及其交互组成,非常适合探索视听场景理解和推理任务。因此,本研究从YouTube上收集了大量用户上传的乐器演奏视频,构建数据集中的视频包括独奏、合奏等演奏形式。具体来说,该研究选取了22种不同的乐器(如吉他、钢琴、二胡、唢呐等),设计了9个问题模板,涵盖了声音、视觉和视听三种不同的模态场景类型。表1MUCIS-AVQA数据集与其他QA数据集的多维对比如表1所示,本研究发布的MUSIC-AVQA数据集具有以下优势:1)MUSIC-AVQA数据集涵盖了大量的声音问题、视觉问题和视听问题。问答对的问题比其他问答数据集更全面、更丰富。对于大多数问答任务数据集(ActivityNet-QA、TVQA等),仅包含视觉问题,因此很难探索视听相关研究。尽管现有的AVQA数据集(AVSD、Pano-AVQA等)也提供视听问答对,但它们更侧重于相对简单的问题(存在性或位置),仅需要空间推理即可回答。2)MUSIC-AVQA数据集由具有丰富视听成分的乐器演奏场景组成,有助于更好地研究视听交互场景的理解和推理,并能在一定程度上避免场景中的噪声问题。大多数公共问答数据集(ActivityNet-QA、AVSD等)中的声音信息通常与其视觉对象不匹配,导致严重的噪音(如背景音乐),这使得它们难以探索不同模态之间的关联。此外,虽然TVQA数据集包含了视觉和音频模态,但其音频是由人类语音组成的,其问答对的构建仅使用了相应的字幕信息,并不是真正的视音频相关场景。最终数据集包含22种乐器的9,288个视频,总时长超过150小时。并以众包的形式形成了45867对问答对,平均每个视频约5对问答对。这些问答对涵盖了9种不同形式的问题和33个不同的问题模板。丰富多样、复杂的数据集对于AVQA任务的研究具有相当的价值和意义。图2MUSIC-AVQA数据集多维统计分析3.模型方法为了解决上述AVQA任务,本研究从空间和时间序列感知的角度提出动态视听场景下的时空序列问答模型分别(如下图所示)。首先,声音的位置及其视觉来源反映了视听模态之间的空间关联,这有助于将复杂场景分解为特定的视听关联。因此,本研究提出了一种基于注意力机制的声源定位空间模块来模拟这种跨模态关联。其次,由于视听场景随时间动态变化,因此捕获并突出显示与问题密切相关的关键时间戳至关重要。因此,本研究建议将重点放在关键时间段上,使用问题特征作为查询的时间基础模块,以有效地编码问题感知音频和视觉嵌入。最后,融合上述空间感知和时间感知的视听特征以获得问题回答的联合表示,以预测视频关联问题的答案。图3动态视听场景的时空序列问答模型4.实验结果如表2所示,Audio和Visual模态信息的引入有助于提高模型的性能。此外,可以清楚地看到,在结合音频和视觉模态时,AV+Q模型的性能远优于A+Q和V+Q模型,这表明多感官感知有助于提高问答任务的性能。我们还可以看到,视频空间相关模块和时间相关模块都可以显着提高模型的性能,从而更好地理解场景。表2.不同模式的消融实验。表3.表3显示了一些最近的QA方法在MUSIC-AVQA数据集上的结果。结果首先表明,所有AVQA方法都优于VQA、AQA和VideoQA方法,这说明多模态感知可以使AVQA任务受益。其次,本研究使用的方法在大多数视听问题上取得了长足的进步,尤其是对于需要时空推理的视听问题(如TemporalandLocalization等)。表3.与其他QA方法的比较为了进一步说明所提出模型的有效性和可解释性,本研究中进行了一些可视化。热图代表声源的位置,热图下方的表格代表时间序列上的注意力得分。从可视化结果可以看出,所提出的模型在多模态视听场景中具有良好的理解和推理能力。图4可视化结果5.概述总的来说,本文探讨了如何回答有关视频中不同视觉对象、声音及其关联的问题,从而能够对动态和复杂的视听场景进行细粒度的理解和推理。作者团队构建了一个包含45,867种不同视听模态和多个问题类型问答对的大规模MUSIC-AVQA数据集,并提出了一种简单高效的视听时空模型来很好地解决AVQA问题。该研究认为,所提出的MUSIC-AVQA数据集可以成为评估对视听场景和时空推理的细粒度理解的基准平台。它还认为这项工作是探索视听推理的开始,为该领域创造了一个良好的开端。并希望能启发更多的研究者与我们一起探索这一领域。团队主要来自中国人民大学人工智能学院。该研究由中国人民大学高瓴人工智能学院牵头,与罗切斯特大学合作完成。通讯作者为格物实验室胡迪助理教授。负责任的。歌舞实验室目前具体的研究方向主要包括多模态场景理解、多模态学习机制、跨模态交互与生成。在过去的六个月里,实验室学生发表了多篇高质量的文章,例如TPAMI(人工智能领域影响因子最高的期刊,IF=17.861)和多篇CVPR(均为Oral)。PS:研究人员发现,常用的多模态模型存在优化不足的单峰表示,这是在某些场景中由另一种主导模态引起的。为此,他们设计了OGM-GE方法,通过监测不同模态对学习目标的贡献差异来自适应调节每种模态的优化,从而缓解优化中的这种不平衡。该工作也被CVPR2022录用为OralPresentation,具体内容将在后续发布中进行说明。另外,歌舞实验室欢迎对上述研究方向感兴趣的同学(本科生、硕士生、博士生、访问生)加入。详见实验室招生宣传(https://zhuanlan.zhihu.com/p/496452639)。