本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处转载。长期以来,CNN一直是解决目标检测任务的经典方法。即使引入Transformer的DETR,结合CNN来预测最终的检测结果。但现在,GeoffreyHinton带领GoogleBrain团队提出了一个新的框架Pix2Seq,它可以完全使用语言建模来完成目标检测。该团队从图像像素中推导出目标对象的一种“描述”,并将其用作语言建模任务的输入。然后让模型学习并掌握这种“语言”以获得有用的目标表示。最终结果基本等同于FasterR-CNN和DETR。小物体检测优于DETR,大物体检测优于FasterR-CNN。接下来,让我们仔细看看这个模型的结构。Pix2Seq从对象描述构建序列的处理流程主要分为四个部分:ImageAugmentationSequenceConstructionandAugmentationEncoder-DecoderArchitectureObjective/LossFunction首先,Pix2Seq使用图像增强来丰富一组固定的训练样例。接下来是根据对象描述构建序列。一幅图像往往包含多个object对象,每个object可以看作是boundingboxes和classlabels的集合。将这些物体目标的边界框和类标签表示为离散序列,使用随机排序策略对多个物体进行排序,最终形成特定图像的单个序列。也就是开头提到的“描述”目标对象的特殊语言。其中,类标签可以自然地表示为离散标签。boundingbox是将左上角和右下角两个角点的X和Y坐标,以及类别索引c离散化,最终得到五个离散的Token序列:研究团队使用共享词汇表对于所有对象,时间表大小=箱数+类别数。这种量化机制使一张600×600的图像仅在600个bin中实现零量化误差,这比具有32K词汇量的语言模型要小得多。接下来,将生成的序列视为一种语言,然后介绍语言建模中的通用框架和目标函数。这里使用了encoder-decoder架构,其中encoder用于感知像素并将其编码为具有隐藏表示的通用图像,generation使用Transformerdecoder。类似于语言建模,Pix2Seq会被用来预测并给出图像和之前的Token,最大化似然损失。在推理阶段,从模型中执行令牌采样。为了防止模型没有预测到所有对象就结束,同时平衡精度(AP)和召回率(AR),团队引入了序列增强技术:这种方法可以增强输入序列,同时也对目标序列进行修改,使其可以识别噪声token,有效提高模型的鲁棒性。在小目标检测方面优于DETR团队。使用MS-COCO2017检测数据集进行评估。该数据集包含118,000张训练图像和5,000张验证图像。对比DETR、FasterR-CNN等知名目标检测框架,可以看出Pix2Seq在中小目标检测方面的性能与FasterR-CNN相当,但在大目标检测方面更胜一筹。与DETR相比,Pix2Seq在大/中物体检测方面相当或略差,但在小物体检测方面更好。一篇中文论文来自图灵奖得主杰弗里·辛顿领导的谷歌大脑团队。第一个,陈霆,是中国人。本科毕业于北京邮电大学,2019年获得加州大学洛杉矶分校(UCLA)计算机科学博士学位。在GoogleBrain团队工作两年,在谷歌大脑团队工作多年。目前的研究兴趣是自监督表示学习、有效的离散结构深度神经网络和生成建模。论文:https://arxiv.org/abs/2109.10852
