当前位置: 首页 > 科技观察

无障碍出行更安全!字节跳动研究成果获得CVPR2022AVA竞赛冠军

时间:2023-03-22 13:09:56 科技观察

近日,CVPR2022各项竞赛成绩相继出炉。而AutonomyChallenge(以下简称AVA)则凭借自主研发的ParallelPre-trainedTransformers(PPT)框架脱颖而出,成为大赛唯一赛道的冠军。论文地址:https://arxiv.org/abs/2206.10845本次AVA竞赛由波士顿大学和卡内基梅隆大学联合举办。竞赛呈现了一个合成实例分割数据集,其中包含与残疾行人交互的自主系统的数据样本。比赛的目标是为可访问性相关的人和物体提供物体检测和实例分割的基准和方法。数据集可视化竞赛难度分析领域泛化问题:本次比赛的数据集均为渲染引擎合成的图像,数据域与自然图像存在显着差异;long-tail/lesssamples:数据呈长尾分布,如“crutches”和“Wheelchair”类别在数据集中较少,分割效果较差;分割鲁棒性问题:某些类别的分割效果很差,实例分割的mAP比对象检测分割的mAP低30提出了一个ParallelPre-trainedTransformers(PPT)框架来完成。该框架主要由三个模块组成:1)并行大规模预训练Transformers;2)平衡复制粘贴数据增强;3)像素级非极大值抑制与模型融合;Parallellarge-scalepre-trainingTransformers最近有很多论文的预训练文章表明,在大规模数据集上预训练的模型可以很好地泛化到不同的下游场景。因此,团队首先使用COCO和BigDetection数据集对模型进行预训练,可以在很大程度上缓解自然数据与合成数据之间的域偏差,从而在下游合成数据场景下以更少的样本快速训练。在模型层面,考虑到VisionTransformers不具备CNN的inductivebias,可以享受预训练带来的好处,团队使用了UniFormer和CBNetV2。UniFormer统一了卷积和自注意力,同时解决了局部冗余和全局依赖两大问题,实现了高效的特征学习。CBNetV2架构连接了多组相同的主干,这些主干复合连接以构建高性能检测器。模型的骨干特征提取器都是SwinTransformers。多个大型预训练Transformer并列排列,将输出结果进行整合,学习并输出最终结果。验证数据集上不同方法的mAPBalance复制粘贴数据增强复制粘贴技术通过随机粘贴对象为实例分割模型提供了令人印象深刻的结果,特别是对于长尾分布下的数据集。但是,这种方法均衡地增加了所有类别的样本,未能从根本上缓解类别分布的长尾问题。因此,团队提出了BalanceCopy-Paste数据增强方法。BalanceCopy-Paste根据有效类别数自适应地对类别进行采样,提高了整体样本质量,缓解了样本数量少和长尾分布的问题,最终大大提高了模型在实例分割中的mAP。BalanceCopy-Paste数据增强技术带来的增强像素级非极大值抑制和模型融合验证集上的模型融合消融实验测试集上的模型融合消融实验目前城市和交通数据集的通用性更强场景仅包含正常车辆和行人。该数据集缺少有关残疾人和行动不便人士的信息,以及他们的辅助设备类别。利用目前已有的数据集得到的检测模型无法检测到这些人和物。Byte-IC-AutoML团队的这个技术方案对于当前的自动驾驶和街景理解有广泛的应用:通过这些合成数据得到的模型可以识别“轮椅”、“坐轮椅的人”、“拄着拐杖的人”"等稀有类别不仅可以更精细地对人群/物体进行分类,还可以防止误判和误判导致对场景的误判。此外,通过这种合成数据的方式,可以构建现实世界中相对稀有类别的数据,从而训练出更通用、更完备的目标检测模型,智造是字节跳动的多媒体创新技术研究院和综合服务商。涵盖计算机视觉、图形、语音、拍摄剪辑、特效、客户端、AI平台、服务器工程等技术领域,实现了部门内前沿算法-工程系统-产品的闭环,旨在以多种形式向公司内部业务线和外部合作客户提供行业最前沿的内容理解、内容创作、交互体验和消费能力及行业解决方案。团队的技术能力正通过火山引擎对外开放。火山引擎是字节跳动旗下的云服务平台。将字节跳动在快速发展过程中积累的成长方式、技术能力和工具对外开放,提供云基础设施、视频和内容分发、大数据、人工智能、开发等。和运维服务,帮助企业实现数字化升级的持续增长。