当前位置: 首页 > 科技观察

整合所有顶级目标检测算法:FAIR开源Detectron

时间:2023-03-22 01:33:53 科技观察

昨天,Facebook人工智能研究院(FAIR)开源了业界最先进的目标检测平台Detectron。据报道,该项目于2016年7月启动,建立在Caffe2之上。目前支持大量的机器学习算法,包括MaskR-CNN(何玉明研究,ICCV2017***论文)和FocalLossforDenseObjectDetection,(ICCV2017***学生论文)。据Facebook称,该工具包已被应用程序中的许多团队和公司用于各种应用程序。经过训练后,这些计算机视觉模型可以部署在云端或移动设备上。项目地址:https://github.com/facebookresearch/DetectronDetectronDetectron是FacebookAIResearch的一个软件系统,用于实现最先进的目标检测算法(包括MaskR-CNN)。该系统基于Python和深度学习框架Caffe2构建。在FAIR实验室,Detectron支持了许多研究项目的实施,包括:FeaturePyramidNetworksforObjectDetection(https://arxiv.org/abs/1612.03144)MaskR-CNN(https://arxiv.org/abs/1703.06870)DetectingandRecognizingHuman-ObjectInteractions(https://arxiv.org/abs/1704.07333)FocalLossforDenseObjectDetection(https://arxiv.org/abs/1708.02002)Non-localNeuralNetworks(https://arxiv.org/abs/1711.07971)学习分割一切(https://arxiv.org/abs/1711.10370)数据蒸馏:迈向全监督学习(https://arxiv.org/abs/1712.04440)MaskR-CNN输出示例介绍Detectron的目标是为目标检测研究提供高质量、高性能的代码库,其灵活的特性可以支持新研究的快速实施和验证。Detectron目前包括以下对象检测算法的实现:MaskR-CNN(https://arxiv.org/abs/1703.06870)—ICCV2017马尔奖RetinaNet(https://arxiv.org/abs/1708.02002)—最佳ICCV2017学生论文奖FasterR-CNN(https://arxiv.org/abs/1506.01497)RPN(https://arxiv.org/abs/1506.01497)FasterR-CNN(https://arxiv.org/abs/1504.08083)R-FCN(https://arxiv.org/abs/1605.06409)这些物体检测算法主要使用以下卷积网络架构:ResNeXt{50,101,152}(https://arxiv.org/abs/1611.05431)ResNet{50,101,152}(https://arxiv.org/abs/1512.03385)特征金字塔网络(https://arxiv.org/abs/1612.03144)(使用ResNet/ResNeXt)VGG16(https://arxiv.org/abs/1409.1556)在这些目标检测算法中,我们比较熟悉的是MaskR-CNN,它是FasterR-CNN的扩展,即在boundingboxrecognition的分支上增加了一个parallelbranch来预测目标mask。该方法能够有效地检测图像中的对象,同时还为每个实例生成高质量的分割掩码。在RetinaNet中,研究人员提出了一种新的FocalLoss方法,并专注于在稀疏和困难的样本中进行训练,避免了训练过程中可能出现的大量负面因素。该论文的研究人员表示,在使用FocalLoss进行训练时,RetinaNet可以达到之前一步检测器的速度,同时精度高于业界最好的两步检测器。除了这两个在ICCV2017上大放异彩的目标检测算法外,FastR-CNN和R-FCN等都是优秀而经典的目标检测方案。在卷积网络架构中,值得注意的是特征金字塔网络(FPN),它主要结合多层特征来改进CNN的特征提取方法。它利用CNN固有的多尺度、多层次的金字塔结构来构建特征金字塔网络,并使用自上而下的SkipConnector来构建所有尺度的高级语义特征图。上述检测算法和CNN架构在目标检测任务中都取得了很好的效果,基本展现了该领域最好的水平。另一方面,Detectron包含大量基线结果和这些算法和架构的训练模型,我们可以直接下载。例如下图是RetinaNet的基线结果和对应的模型下载地址,也为训练和推理提供了有用的数据。我们粗略统计了一下,该项目有超过70个不同设置的预训练模型。因此,Detectron基本上是目前包含最完整、目标检测算法最多的代码库。此外,该项目还提供安装指南,包括Caffe2和COCO数据集。值得注意的是,该代码库使用Python2,还需要NVIDIAGPU、Linux系统和其他一些标准的Python数值计算包。模型库和基线结果:https://github.com/facebookresearch/Detectron/blob/master/MODEL_ZOO.md安装说明:https://github.com/facebookresearch/Detectron/blob/master/INSTALL.md***,Detectron还提供了一份文档,展示了如何使用该研究工具。比如我们对图片文件目录进行推理,可以直接使用infer.simple.py工具。在以下示例中,我们使用经过端到端训练的MaskR-CNN模型(以ResNet-101-FPN作为基础卷积架构)执行推理:python2tools/infer_simple.py--cfgconfigs/12_2017_baselines/e2e_mask_rcnn_R-101-FPN_2x.yaml--output-dir/tmp/detectron-visualizations--image-extjpg--wtshttps://s3-us-west-2.amazonaws.com/detectron/35861858/12_2017_baselines/e2e_mask_rcnn_R-101-FPN_2x.yaml.02_32_51.SgT4y1cO/output/train/coco_2014_train:coco_2014_valminusminival/generalized_rcnn/model_final.pkldemo更多详细文档请查看:https://github.com/facebookresearch/Detectron/blob/master/GETTING_STARTED.md.undefinedaszWesolowski、AapoKyrola、AndrewTulloch、YangqingJia和KaimingHe。技术报告,arXiv,2017年6月。DetectingandRecognizingHuman-ObjectInteractions。GeorgiaGkioxari、RossGirshick、PiotrDollár和KaimingHe。技术报告,arXiv,2017年4月。用于对象检测的特征金字塔网络。Tsung-YiLin、PiotrDollár、RossGirshick、KaimingHe、BharathHariharan和SergeBelongie。IEEE计算机视觉和模式识别会议(CVPR),2017年。深度神经网络的聚合残差转换。SainingXie、RossGirshick、PiotrDollár、ZhuowenTu和KaimingHe。IEEE计算机视觉和模式识别会议(CVPR),2017年。R-FCN:通过基于区域的全卷积网络进行目标检测。JifengDai、YiLi、KaimingHe和JianSun。神经信息处理系统(NIPS)会议,2016年。Ima的深度残差学习ge识别。何开明、张翔宇、任少卿和孙健。IEEE计算机视觉和模式识别会议(CVPR),2016年。FasterR-CNN:使用区域提议网络实现实时目标检测ShaoqingRen、KaimingHe、RossGirshick和JianSun。神经信息处理系统(NIPS)会议,2015年。FastR-CNN。罗斯·吉尔希克。IEEE计算机视觉国际会议(ICCV),2015年。