编辑 |据 Facebook Research 报道,Facebook 的 AI Camera 团队在博客中介绍了其最新研究成果。
目前,他们正在研究AR全身跟踪技术,该技术可以准确检测身体姿势,同时从背景中分割出人体。
该模型仍处于研究阶段,但该模型的好处在于它的大小只有几兆字节,并且可以在智能手机上实时运行。
不久之后,它就可以衍生出许多新的应用程序,并使它们能够产生新的功能,例如创建“全身面具”、使用手势控制游戏或对人体进行“去识别化”。
识别)”等。
对此,AI Camera团队在文章中进行了阐述。
1、Mask RCNN2Go框架 人体检测和分割模型是基于Mask R-CNN框架建立的。
该框架的概念是简单灵活,是一个通用的目标检测和分割框架,它可以有效地检测图像中的对象,同时检测关键点并为每个对象生成分割掩模,以便在移动设备上实时运行Mask R-CNN模型。
来自Camera、FAIR和AML团队的设备、研究人员和工程师共同构建了一个高效、轻量级的框架:Mask R-CNN2Go,它由五个主要组件组成: 1.它的主干模型包含多个卷积层,可以表达2. 区域提议生成网络 (RPN) 生成具有预定比例和长宽比的候选对象(锚点)。
ROI 对齐层从边界框内的每个对象中提取特征并将其发送到检测。
结尾。
3. 检测端口包括一组卷积层、池化层和全连接层。
在每个候选框中,它预测的对象可能是一个人。
检测端还可以细化边界框的坐标,用非最大抑制值对相邻候选框进行分组,并为图像中的每个人生成最终的边界框。
4. 在每个人的边界框内,使用第二个 ROI 对齐层来提取特征,这些特征来自关键点端口和分割端口的输入。
5. 关键点端口与分割端口具有类似的结构。
它预测身体上每个预定关键点的掩模。
并使用最大扫描生成最终坐标。
2、针对移动设备优化的轻量级模型与现代GPU服务器不同,手机的计算和存储能力非常有限。
最初的Mask R-CNN是基于ResNet(残差网络)的,但是它太大并且运行速度非常慢,因此无法在手机上使用。
为了解决这个问题,我们为移动设备开发了一个非常高效的模型架构。
我们使用了多种方法来减小模型的尺寸。
我们优化了卷积层的数量和每层的大小,这也是该过程中最耗时的部分。
为了确保足够大的感受野,我们使用了包括 1×1、3×3 和 5×5 在内的内核大小组合。
此外,我们还使用权重剪枝算法来减少模型。
我们的最终模型只有几兆字节,但非常准确。
3、模块化设计,提高计算速度。
为了实时运行深度学习算法,我们使用并优化了我们的核心框架:Caffe2、SNPE 和加载了 NNPack 的 Metal。
通过使用包括 NNPack、SNPE 和 Metal 在内的移动 CPU 和 GPU 库,我们能够显着提高移动计算速度。
这一切都是通过模块化设计完成的,无需改变通用模型定义。
因此,我们实现了更小的模型尺寸和更快的运行时间,同时避免了潜在的不兼容问题。
Facebook AI研发团队(FAIR)最近发布了Mask R-CNN研究平台(Detectron)。
我们开源了 Caffe2 运算符(GenerateProposalsOp、BBoxTransformOp、BoxWithNMSLimit 和 RoIAlignOp),并提供了必要的模型转换代码供研究社区使用。