本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。Transformer又承担了一项新工作——这次谷歌用它来创建一个可以随着音乐跳舞的AI。话不多说,先给大家看几个freestyle吧(地址见原视频末尾):嗯,动作还是挺漂亮的,各种风格也都驾驭得很好。看着看着,就想跟着走一会。你选哪一个?而这款AI也凭借着对音乐与舞蹈关系的深刻理解,击败了三个相似模型获得SOTA,登上了ICCV2021。此外,除了开源代码,研究团队还发布了一个3D舞蹈动作包含10种类型的数据集。兴奋,做,做!这种自由泳是怎么来的?前面不是说了这个AI用的是Transformer吗?但是这里的Transformer并不是普通的Transformer,它是一种基于全注意力机制(Full-Attention)的跨模态Transformer,简称FACT。为什么这么复杂?因为研究人员发现,仅使用一个简单的Transformer并不能让AI理解音乐和舞蹈之间的相关性。那么,这个FACT是如何完成的呢?总的来说,FACT模型采用独立的动作和音频变压器。首先输入一个2秒的种子动作序列和一段音频,然后对其进行编码。然后将embedding(语义空间到向量空间的映射)连接起来,送到cross-modaltransformer,学习两种形式的对应关系,生成n个后续动作序列。然后将这些序列用于模型的自我监督训练。其中,三个transformer一起学习,采用端到端的学习方式,直接将原始数据丢进最终结果,无需预处理和特征提取。另一个是在自回归框架中进行模型测试,将预期运动作为下一代阶段的输入。最终,该模型可以逐帧生成远程舞蹈动作。下图是模型通过相同的种子动作(嘻哈风格)和不同的音乐生成四种舞蹈作品(霹雳舞、爵士芭蕾、Krump和MiddleHip-hop)。你有什么知识性的评论吗?为了让AI生成的舞蹈更加生动和符合音乐风格,这个模型的设计有三个关键点:1.模型的内部token可以访问所有的输入,所以三个transformer都使用了一个完整的注意面具。这使得它比传统的因果模型更具表现力。2.不仅预测下一个,模型还预测N个后续动作。这有助于模型专注于上下文,并避免在几个生成步骤后出现脱节和偏离轨道的动作。3.此外,在训练过程的早期阶段,使用了一个12层深度跨模态变换器模块来融合两个嵌入(音频和运动)。研究人员说,这是训练模型聆听和区分音乐与输入的关键。让我们用数据来看看真实的表现。打败3个SOTA模型研究人员根据三个指标进行评估:1.动作质量:使用FID计算样本(也就是他们自己发布的数据集,后面会介绍)和生成结果在特征空间中的距离。总共使用了40个模型生成的舞蹈序列,每个序列有1200帧(20秒)。FID的几何和动态特性分别表示为FIDg和FIDk。2.动作多样性:通过测量特征空间中40组生成动作的平均欧式距离(Euclideandistance)得到。几何特征空间Distg和动态特征空间k用于测试模型生成各种舞蹈动作的能力。3.motion和music之间的相关性:在没有很好的现有指标的情况下,他们自己提出了一个“beatalignmentscore”来评估输入音乐(musicbeats)和输出3D动作(motionbeats)之间的相关性。下面是FACT和三个SOTA模型(Lietal.,Dancenet,DanceRevolution)的对比结果:可以看出FACT在所有三个指标上都KO了以上三个。*由于Li等人的模型产生的动作。是不连续的,其平均动态特征距离异常高,可以忽略不计。看完数据再来看一个更直观的:emmm,相对于灵活的FACT,另外两个好像有点“不太聪明”……舞蹈动作数据集AIST++最后简单介绍一下这个3D自己创建的舞蹈动作数据集AIST++。您也可以通过查看名称找到它。这是基于现有舞蹈数据集AIST的“加强版”,主要是在原有基础上增加了3D信息。最终的AIST++总共包含5.2小时和1408个3D舞蹈动作序列,跨越十种舞蹈类型,包括新旧霹雳舞、流行、洛克、瓦克、中世纪嘻哈、洛杉矶风格的嘻哈、豪斯、克伦普、街头爵士和爵士芭蕾,每种舞种都有85%的基本动作和15%的高级动作。(怎么感觉都是嘻哈?)每个动作提供9个镜头角度,下图是其中三个。它可用于支持以下三个任务:多视角人体关键点估计;人类行为预测/生成;人类行为和音乐之间的交叉模态分析。团队介绍了加州大学伯克利分校博士一年级学生、加州大学伯克利分校人工智能实验室成员、FacebookRealityLabs学生研究员李瑞龙。研究方向为计算机视觉与计算机图形学的交叉领域,主要针对通过2D图像信息生成和重建3D世界。在攻读博士学位之前,我曾在南加州大学视觉与图形实验室担任研究助理两年。毕业于清华大学,物理和数学双学士学位,计算机科学硕士学位,曾在谷歌研究院和字节人工智能实验室实习。合著者杨山在谷歌研究院工作。研究方向包括:应用机器学习、多模态感知、3D计算机视觉和物理模拟。博士毕业于北卡罗来纳大学教堂山分校(UNC,美国八所公立常春藤大学之一)。DavidA.Ross领导GoogleResearch的视觉动力学研究小组。毕业于加拿大多伦多大学,获得机器学习和计算机视觉博士学位。AngjooKanazawa,博士毕业于马里兰大学,现为UCB电气工程与计算机科学系助理教授。他领导BAIR旗下的KAIR实验室,同时也是GoogleResearch的研究员。最后,让我们再次领略一下AI编舞的魅力:论文:https://arxiv.org/abs/2101.08779GitHub:https://github.com/google-research/mint数据集:https://google.github。io/aistplusplus_dataset/项目主页:https://google.github.io/aichoreographer/
