在近几年的视频理解研究中,FacebookAIResearch贡献了很多奇葩。近日,FAIR视频团队在一次ICCV相关研讨会上开源了视频识别检测代码库PySlowFast,同时发布了预训练模型库。与此同时,该团队表示他们还将实时将他们的前沿工作添加到这个代码库中。项目地址:https://github.com/facebookresearch/SlowFast教程地址(附PPTT资源):https://alexanderkirillov.github.io/tutorials/visual-recognition-iccv19/视频和动作理解成为当今最热门的话题但是,要在开源社区中找到一个简洁、高效、易于修改的视频理解代码库,仍然不是一件简单的事情。更重要的是,再现当今最前沿(state-of-the-art)的深度学习模型一直是研究人员头疼的问题。这些视频理解模型往往耗费数十GFlops,需要训练好几天,复现一个模型需要反复实验调整参数,使每个细节都正确无误。这往往会消耗大量的时间和资源,令许多研究人员望而却步。FacebookAIResearch在CVPR和ICCV等国际会议上发表了多篇研究作品,并获得了CVPR2019行为检测挑战赛的冠军。然后,在今年的ICCV上,FAIR推出了他们的视频理解代码库:PySlowFast。PySlowfast是一个基于PyTorch的代码库,可以让研究人员轻松重现基本到前沿的视频识别(VideoClassification)和动作检测(ActionDetection)算法。不仅如此,PySlowFast代码库还开放了大量的预训练模型(pretrainmodels),让研究人员省去反复训练模型的麻烦,可以直接使用FAIR预训练的前沿性能模型。自从pySlowFast开源模型的视觉检测结果开源以来,PySlowFast一度在GitHub趋势榜上名列前十。下面简单介绍一下这个开源项目。根据研讨会教程和开源代码库信息,PySlowFast既提供了视频理解基线(baseline)模型,又提供了当今最前沿的视频理解算法的再现。它的算法不仅包括视频分类,还包括动作分类算法。与当今开源社区各种视频识别库复现的参差不齐的性能相比,使用PySlowFast可以轻松复现当今最前沿的模型。视频识别(Kinetics)表1:PySlowFast在视频分类数据库Kinetics400上的表现(摘自https://github.com/facebookresearch/SlowFast/blob/master/MODEL_ZOO.md)PySlowFast不仅可以用于视频分类,它也可以用于视频理解,并提供了赢得2019年CVPRActivityNet挑战赛冠军的视频检测模型。ActionDetection(AVA)此外,PySlowFast还预留了接口,通过简单的编辑即可支持多模态视频理解、视频自监督学习等任务。据团队介绍,PySlowFast将积极维护,实时更新团队和行业前沿算法,开源预训练模型,使代码库成为视频理解领域的基线标杆。通过以下教程,读者可以简单地试用PySlowFast代码库。安装完成后,下载MODEL_ZOO提供的预训练模型和对应的配置文件,运行以下代码测试(Test)模型在不同视频数据库上的性能:pythontools/run_net.py--cfgconfigs/Kinetics/C2D_8x8_R50.yamlDATA.PATH_TO_DATA_DIRpath_to_your_datasetNUM_GPUS2我们可以发现通过这个代码库可以很容易地复现最前沿的高性能模型。同时,读者也可以尝试通过简单的修改来实现自己的模型,使用多块GPU进行训练以获得前沿的性能。
