本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。Hearingthesirenof"Uh-uh-uh-hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhMhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh.CanAIgetacompleteandrefinedmaskmapofthesoundingobjectbasedontheaudiosignal?ResearchersfromHefeiUniversityofTechnology,SenseTime,ANU,BeihangUniversity,Nvidia,HKU和上海人工智能实验室提出了一种新的视听分割任务(Audio-VisualSegmentation,AVS),视听分割就是对发声物体进行分割,进而生成发声物体的精细分割图。据此,研究人员提出AVSBench,第一个像素级标注的视听数据集,新任务,新数据集,算法从业者的新陷阱,根据最新排名结果,该论文已被ECCV2022录用。准确锁定发声物体听力和视觉是人类感知世界中最重要的两个传感器。在生活中,声音信号和视觉信号通常是互补的。视听表示学习(audio-visuallearning)催生了许多有趣的任务,如视听通信(AVC)、视听事件定位(AVEL)、视频解析(AVVP)、声源定位(SSL)等既有判断音频和视频是否描述同一事件/对象的分类任务,也有通过可视化热图粗略定位发声对象的任务。但无论是哪一种,想要了解精炼的视听场景,都几乎没有意义。△AVS任务与SSL任务对比视听分割“攻坚克难”,提出在视频帧中准确分割发声物体的全图——即以音频为导向信号,决定分割哪个物体并获得其完整的像素级掩码。AVSBench数据集如何研究这项新任务?鉴于目前还没有开源的视听分割数据集,研究人员提出了AVSBench数据集,并用它来研究新任务的两种设置:1.单源下的视听分割(Single-source)2.Multi-source(Multi-source)-sources)视听分割数据集中的每个视频时长为5秒。单声源子集包含23个类别共4932个视频,包括婴儿、猫狗、吉他、赛车、割草机等与日常生活息息相关的声音。△AVSBench单源子集数据分布多源子集包含424个视频。难易结合,单源子集在半监督条件下进行,多源子集在全监督条件下进行。研究人员在AVSBench中为每个视频等间隔采样5帧,然后在像素级别人为标记发声体。对于单音源子集,只标记样本的第一视频帧;对于多声源子集,所有5帧图像都被标记——这就是所谓的半监督和全监督。△单声源子集和多声源子集的像素级标注是人工标注的,避免了包含很多不发声的物体或背景,从而增加了模型验证的准确性。一个简单的基线方法有一个数据集,研究人员在文章中也抛砖引玉,给出了一个简单的基线。吸收传统语义分割模型的成功经验,研究人员提出了端到端的视听分割模型。该模型遵循编码器-解码器网络架构,该架构接收视频帧并直接输出分割掩码。此外,还有两个网络优化目标。一是计算预测图和groundtruth标签的loss。针对多个声源的情况,研究人员提出了masked视听匹配损失函数来约束声音对象和音频特征在特征空间中保持相似的分布。有些实验结果只是说说而已,并没有练习假动作。研究人员进行了广泛的实验。首先,将视听分割与相关任务的6种方法进行比较。研究人员选择了两种SOTA方法,分别用于声源定位(SSL)、视频对象分割(VOS)和显着对象检测(SOD)的任务。实验结果表明,视听分割在多个指标下取得了最好的效果。△视听分割与相关任务方法的对比结果其次,研究人员进行了一系列的消融实验,验证了使用TPAVI模块,在单源和多源设置下使用两个backbone的视听分割模型可以得到更大的提升。△引入音频的TPAVI模块可以更好地处理物体的形状细节(左),有助于分割出正确的发声物体(右)。对于新任务的视听匹配损失函数,实验也验证了其有效性。OneMoreThing一文还提到,AVSBench数据集不仅可以用来训练和测试提出的视听分割模型,还可以用来验证声源定位模型。研究人员在项目主页上表示,他们正在准备AVSBench-v2,它比AVSBench大10倍。首页也上传了一些视频分割demo。感兴趣的可以去查看~论文地址:https://arxiv.org/abs/2207.05042GitHub地址:https://github.com/OpenNLPLab/AVSBench项目主页:https://opennlplab.github。io/AVSBench/
