10000帧视频目标分割,内存占用不到1.4GB,代码已经开源咦,藤原千佳怎么突然变成“高温红版”了?这紫色的大手,难道灭霸还活着??如果你认为以上效果只是后期给物体上色,那你就真的被AI骗了。这些奇怪的颜色实际上是视频对象分割的表现。但是u1s1,这个效果确实一时难辨。无论是萌妹飞扬的秀发,还是变幻莫测的毛巾,亦或是物体之间的来回阻挡:AI对目标的分割堪称完美契合,仿佛将颜色“焊接”在了上面。不仅可以高精度地分割物体,而且这种方法还可以处理超过10,000帧的视频。而且,分割效果始终保持在同一水平,视频的后半部分依然丝滑细腻。更令人惊讶的是,这种方法对GPU的要求并不高。研究人员表示,在实验期间,该方法从未消耗超过1.4GB的GPU内存。要知道,目前类似的基于注意力机制的方法,在普通消费级显卡上连超过1分钟的视频都无法处理。这就是伊利诺伊大学香槟分校的学者最近提出的一种长视频目标分割方法XMem。目前已经被ECCV2022接受,代码也已经开源。如此丝滑的效果,吸引了众多网友在Reddit上围观,热度达到了800+。网友调侃:你为什么把手涂成紫色?谁知道Thanos是否有计算机视觉方面的爱好?模仿人类记忆的视频对象分割方法有很多,但要么处理速度慢,要么对GPU要求高,要么精度不够。本文提出的方法可以说是兼顾了以上三个方面。不仅可以快速对长视频进行物体分割,帧率可达20FPS,同时在普通GPU上也能完成。它的特别之处在于它的灵感来自于人类的记忆模式。1968年,心理学家Atkinson和Shiffrin提出了多重存储模型(Atkinson-Shiffrinmemorymodel)。根据模型,人类的记忆可以分为三种模式:即刻记忆、短时记忆和长时记忆。参考上述模型,研究人员还将AI框架分为三种记忆方式。它们是:及时更新的瞬时记忆、高分辨率的工作记忆、密集的长期记忆。其中,瞬时记忆会每帧更新一次,以记录画面中的图像信息。工作记忆从瞬时记忆中收集图片信息,更新频率为每r帧一次。当工作记忆饱和时,它会被压缩并转移到长期记忆中。虽然长期记忆也已饱和,但过时的功能会随着时间的推移而被遗忘;通常这会在处理完数千帧后达到饱和。这样GPU显存就不会因为时间的推移而不够用了。通常,视频对象的分割会为第一帧提供图像和对象掩码,然后模型跟踪关联的对象以为后续帧生成相应的掩码。具体来说,XMem处理单帧的过程是这样的:整个AI框架由三个端到端的卷积网络组成。查询编码器用于跟踪和提取特定于查询的图像特征。解码器负责获取内存读取步骤的输出以生成对象掩码。一个值编码器(Valueencoder)可以结合图像和对象的掩码来提取新的记忆特征值。最终值编码器提取的特征值被添加到工作记忆中。从实验结果来看,该方法在短视频和长视频上都实现了SOTA。在处理长视频时,XMem的性能并没有随着帧数的增加而下降。研究团队的作者之一是中国人郑和基(Rex)。毕业于香港科技大学,研究生学历,目前在读博士。伊利诺伊大学香槟分校的学生。研究方向为计算机视觉。多篇论文被CVPR、NeurIPS、ECCV等顶级会议录用。另一位作者是AlexanderG.Schwing。他现在是伊利诺伊大学香槟分校的助理教授,并拥有博士学位。来自苏黎世联邦理工学院。他的研究方向是机器学习和计算机视觉。论文地址:https://arxiv.org/abs/2207.07115GitHub:https://github.com/hkchengrex/XMem
