当前位置: 首页 > 科技观察

李飞飞团队在机器人上使用了ViT,规划推理速度提升高达512倍,也cue了何玉明的MAE_0

时间:2023-03-19 00:21:29 科技观察

人的预知能力+ViT会产生什么样的化学反应?它将使机器人的行动规划能力快速准确。这是李飞飞团队的最新研究——MaskViT,通过MVM和mask视觉建模对Transformer进行预训练,建立视频预测模型。结果表明,MaskViT不仅可以生成256*256的视频,还可以将机器人动作规划的推理速度提高多达512倍。让我们看看这是一个怎样的研究?从人类身上寻找灵感神经科学领域的研究表明,人类的认知和感知得到预测机制的支持。这个世界的预测模型可以用来模拟、评估和选择不同的可能行动。对于人类来说,这个过程是快速而准确的。如果能赋予机器人类似的预测能力。然后他们可以在复杂的动态环境中快速规划和执行各种任务。例如,通过视觉模型进行预测控制或许是一种方式,但也对计算能力和精度提出了更高的要求。于是,李飞飞团队想到了最近发展起来的ViT架构,以及以何凯明MAE为代表的基于MVM和MaskedVisualModeling的自监督预训练表示。然而,操作仍然存在许多技术挑战。一方面,全局注意力机制的复杂度与输入序列长度的平方成正比,导致视频处理成本高。另一方面,视频预测任务和自回归掩码视觉预训练之间存在不一致。在实际测试中,模型必须从头开始预测完整的未来帧序列,导致视频预测质量不佳。基于这样的背景,李飞飞团队提出了MaskViT——通过mask视觉建模预训练Transformer,建立视频预测模型。有两个具体的设计决策。首先,为了提高记忆力和训练效率,使用了两种类型的窗口注意力:空间注意力和时空注意力。其次,mask的token比率在训练期间是可变的。在推理阶段,通过迭代细化生成视频,其中掩码率根据掩码调度函数逐渐降低。实验结果研究团队在三个不同的数据集和四个不同的指标上评估了MaskViT。结果表明,与之前的先进方法相比,MaskViT表现出了更好的性能,可以生成分辨率为256×256的视频。在BAIR也进行了消融实验。随后,团队还展示了真实机器人使用MaskViT进行实时规划的效果。推理速度最多可提高512倍。据研究人员称,这项工作表明,可以利用掩蔽视觉建模的通用框架,以最少的领域知识赋予代理强大的预测模型。但同时,它也有一定的局限性。例如,在量化每一帧时会出现闪烁的伪像,尤其是在RoboNet等静态背景的视频中。此外,扩大视频预测仍然具有挑战性,尤其是对于具有大量摄像机运动的场景。未来,他们将探索将这种视频预测方法整合到更复杂的规划算法中。值得一提的是,今年5月,何玉明团队提出视频版MAE,发现最佳遮蔽率高达90%。论文链接:https://arxiv.org/abs/2206.11894项目链接:https://maskedvit.github.io/何玉明论文:https://arxiv.org/abs/2205.09113