当前位置: 首页 > 科技观察

哪个AI舞蹈更好?谷歌3D舞者唱跳挑战DanceNet

时间:2023-03-13 19:55:08 科技观察

这次Transformer参与了舞蹈生成任务。在艺术领域,人工智能有各种各样的应用,比如人工智能生成音乐、人工智能绘画。跳舞也是AI努力学习的能力。此前,以音乐的风格、节奏和旋律作为控制信号,生成3D舞蹈动作的DaceNet一度红极一时。今天,DanceNet迎来了新的挑战者——来自谷歌最新研究的AIChoreographer:给定一个2秒的引导动作,AI模型可以根据音乐节奏生成一段很长的自然舞蹈动作。生成的舞蹈效果是这样的(遗憾的是动画没有声音):与DanceNet等类似研究相比,谷歌新方法的效果更为明显。左边两种方法产生的舞蹈动作就像是“抽搐”,新的方法更加流畅自然:值得注意的是,这仍然是基于Transformer的模型。论文地址:https://arxiv.org/pdf/2101.08779v1.pdf项目地址:https://google.github.io/aichoreographer/下面看一下论文的细节:通过安排一个与节拍一致的动作模式音乐跳舞是人类的基本能力。舞蹈是所有文化的通用语,如今许多人通过多媒体平台上的舞蹈来表达自己。YouTube上最受欢迎的视频是基于舞蹈的音乐视频,例如BabySharkDance和GangnamStyle。在网络上的信息传播中,舞蹈已经成为一种强有力的传播工具。然而,舞蹈是一种艺术形式,即使是人类也需要专门的训练才能让舞者掌握丰富的舞蹈动作曲目并创造富有表现力的编舞。在计算上更具挑战性,因为该任务需要能够生成具有高运动学复杂性的连续运动,捕捉与伴随音乐的非线性关系。在这项研究中,来自南加州大学、谷歌研究院和加州大学伯克利分校的研究人员提出了一种基于transformer的跨模态学习架构和一个新的3D舞蹈动作数据集AIST++,用于训练生成3D舞蹈动作的模型。具体来说,给定一段音乐和一个短(2秒)的种子动作,我们的模型能够生成一长串逼真的3D舞蹈动作。该模型有效地学习了音乐动作的相关性,并且可以生成具有不同输入音乐的舞蹈序列。研究人员将舞蹈表示为由关节旋转和全局平移组成的3D动作序列,这使得输出可以轻松转移到动作重定向等应用程序中。具体过程如下图1所示:在学习框架方面,研究提出了一种新颖的基于transformer的cross-modalarchitecture来生成基于音乐的3D动作。该架构建立在基于注意力的网络[15、62、3、71]上,这些网络已被证明对长序列生成特别有效,并从关于视觉和语言的跨模态文献[71]中汲取灵感来设计一个A使用三个转换器进行音频序列表示、动作表示和跨模态音频动作表示的框架。动作和音频变换器对输入序列进行编码,而跨模式变换器学习这两种模式之间的相关性并生成未来的动作序列。本研究中精心设计的新型跨模态变换器具有自回归特性,但需要全注意力(full-attention)和future-N监督,这对于防止3D运动在多次迭代后冻结或漂移至关重要,如前所述[4,3]中描述了3D运动生成。由此产生的生成模型为不同的音乐生成不同的舞蹈序列,同时生成长时间的逼真动作,这些动作在执行推理时不受漂移冻结的影响。AIST++数据集为了训练模型,该研究还创建了一个新的数据集:AIST++。该数据集建立在AIST(多视图舞蹈视频库)[78]之上。研究人员利用多视图信息从数据中恢复可靠的3D运动。请注意,虽然这个数据集有多视图照片,但相机没有校准,这使得3D重建非常具有挑战性。AIST++数据集包含多达110万帧伴随着音乐的3D舞蹈动作,这被认为是同类数据集中最大的。AIST++还涵盖10种音乐流派、30种主题和9个具有恢复的相机内在特征的视频序列,这对于其他人类和动作研究具有巨大潜力。数据集地址:https://google.github.io/aistplusplus_dataset/本研究创建的AIST++是一个大规模的3D舞蹈动作数据集,其中包含大量伴随着音乐的3D舞蹈动作。这些帧中的每一个都有以下额外的注释:9个视点,包括相机的外部和外部参数;17个COCO格式人体关节位,包括2D和3D形式;24个SMPL姿势参数,以及全局扩展和平移。下面的表1比较了AIST++和其他3D动作和舞蹈数据集,AIST++是对现有3D动作数据集的补充。此外,AIST++数据集包含10种舞蹈流派:OldSchool(Break、Pop、Lock和Waack)和NewSchool(MiddleHip-hop、LA-styleHip-hop、House、Krump、StreetJazz和BalletJazz),见下图3:Music-based3Ddancegeneration问题描述:给定一个2秒的actionseedexampleX=(x_1,...,x_T)和一个音乐序列Y=(y_1,...,y_T'),generateFutureactionsequenceX'=(x_T+1,...,x_T')fromtimestepT+1toT',T'>>T.Cross-ModalActionGenerationTransformer这项研究提出了一个基于Transformer的网络可以学习音乐动作关联并生成逼真的动作序列而不会停滞的架构。架构图如下图2所示:模型有3个transformer:Actiontransformerf_mot(X):ConvertactionfeatureXtoactionembeddingh^x_1:T;Audiotransformerf_audio(Y):将音频特征Y转换为audioembeddingh^y_1:T';cross-modaltransformerf_cross(h^xy_1:T+T'):学习动作和音频两种模态之间的对应关系,生成未来的动作X'。为了更好地学习两种模态之间的关联,本研究使用了深度为12层的跨模态转换器。研究人员发现,跨模态转换器的深度越大,模型就越关注两种模态(见下图6)。实验量化评价研究人员报告了该方法和两种baseline方法在AIST++测试集上的量化评价结果,见下表2:动作质量:从上表可以看出,动作的关节和速度分布这种方法生成的序列更接近真实的动作。运动多样性:表2表明,与基线方法相比,所提出的方法能够产生更多样的舞蹈动作。控制变量研究的结果表明,网络设计,尤其是跨模态变压器,是造成这种差异的主要原因。研究人员将这种方法生成的多样化舞蹈动作可视化,参见下图7:Action-MusicCorrelation:从表2中还可以看出,这种方法生成的动作与输入音乐的相关性更密切。下面图5中的示例显示了生成的动作的运动节拍与音乐节拍的匹配程度。然而,与真实数据相比,这三种方法都有很大的改进空间。这表明音乐-动作关联仍然是一个极具挑战性的问题。ControllingVariablestoStudyCross-ModalTransformers:本文使用三种不同的设置研究跨模态变压器的功能:1)14层动作变压器;2)13层action/audiotransformer和1层cross-modalTransformer;3)2层Motion/audiotransformer和12层cross-modalTransformer。下面的表3显示,跨模态Transformer对于生成与输入音乐密切相关的动作至关重要。如图6所示,更深的跨模态Transformer可以更加关注输入音乐,从而获得更好的音乐-动作相关性。CausalAttentionorFullAttentionTransformer:研究者还探索了fullattention机制和future-N监督机制的作用。如下表4所示,当使用因果注意机制执行20秒长距离生成时,生成的动作和ground-truth动作的分布存在显着差异。对于future-1监督设置下的fullattention机制,long-rangegeneration的结果漂移很快,而在future-10或future-20监督设置下,模型可以生成高质量的long-rangeactions。