当前位置: 首页 > Web前端 > HTML

奥升德CANN论文上CVPR榜单,全景图像生成算法的交互性进一步增强!

时间:2023-03-28 17:24:38 HTML

近日,CVPR2022排行榜出炉,基于AscendCANN的AI论文《Interactive Image Synthesis with Panoptic Layout Generation》上榜。这为AI爱好者开辟了一种新的图像生成方式。随意选择几类基本元素,拖动大小和位置,自动生成摄影作品,媲美专业摄影师!CVPR全称是IEEECon??ferenceonComputerVisionandPatternRecognition,是计算机视觉领域的三大顶级会议之一,也是唯一的年度学术会议。在快速更新迭代的计算机学科中,CVPR已经成为计算机视觉领域的“顶流”。本文在交互式图像生成的基础上,提出了一种基于PanopticLayout的辅助图像生成方法,即PLGAN(PanopticLayoutGeneration)算法,提高了交互式场景下生成图像的质量和稳定性。本文对COCO-Stuff和VG这两个公开数据集和自己采集的景观数据集进行了实验验证,取得了不错的效果。目前,该算法已在华为Atlas系列服务器上实现,搭载升腾AI处理器提供算力支持,并采用异构计算架构CANN(ComputeArchitectureforNeuralNetworks),充分释放硬件的澎湃算力,发挥极致AI性能。我们来看看本文的PLGAN算法与交互式图像生成方法Grid2Im相比的性能:大多数交互式图像生成方法都是将生成的图像布局(Layout)作为中间结果来辅助最终的图像合成(如Grid2Im[1]).为了解决交互场景下图像生成质量稳定性的问题,我们从图像布局(Layout)构建入手。通常的图像布局(Layout)有逐像素填充的语义层(如GauGAN),以及基于边界框的实例图像布局(InstanceLayout)。语义层在空间布局上逐像素对应生成的图像,可以很好地控制需要合成的图像,但其构造相对复杂,因此大多数多模态图像生成和交互场景使用实例图像布局(Instance布局)。然而,实例图像布局(InstanceLayout)本质上是不同物体的位置框(BoundingBox)和形状(Mask)的组合,以及不同物体的位置框(BoundingBox)与边缘的距离。shape如果没有匹配,图像布局将不会被完全填充,特别是在用户交互的场景中,这使得基于此条件的条件生成模型在最终生成的图像中出现伪影和噪声,如图1所示。因此,构造一个能够解决这个“缺失区域”问题的图像布局(Layout)是我们关注的重点。图1.Grid2Im[1]与PLGAN的场景到图像合成针对上述问题,引入全景分割的概念[3],提出了一种基于PanopticLayout的图像合成方法。在全景分割问题[3]中,物体类别分为可数(things)和不可数(stuff),其中可数(things)是指具有特定形状的前景类别,不可数(stuff)是指没有特定形状的背景类别。所以引入这个概念,将通常的实例布局(InstanceLayout)构建过程分为Instance分支和Stuff分支,分别处理可数(things)和不可数(stuff),如下图所示。图2.PLGAN架构概览Instance分支采用通常的做法,同时生成positionboxes和shape,然后将它们组合成一个instancelayout(InstanceLayout)。对于Stuff分支,采用了一种新的方式直接生成填充布局(StuffLayout)。由于这个结果是模型通过Softmax层直接得到的,所以整个图像空间不会有空缺的部分,从而解决了“缺失区域”的问题。因为不可数类别的形状不固定,所以整体生成方法不会对类别识别产生很大的影响,分别生成的两个布局可以通过ISA-Norm层聚合在一起,形成最终的布局(Layout)。从布局(Layout)到最终的图像生成,我们使用采用SOTA模型CAL2I[2]方法得到最终合成图像。图3.实例和事物感知规范化的图示。在实验设计中,采用扰动公共数据集标签信息的方法模拟交互场景中的输入。在指标和视觉对比上,两者都达到了SOTA(stateoftheart)水平,尤其是在输入扰动的情况下,生成的图像质量更加稳定。图4.COCO-Stuff数据集上扰动BBoxes(PertBBoxes)生成的样本图像的视觉对比图5.COCO-Stuff数据集上instancelayouts和panopticlayouts的视觉对比在本文的AI试用应用中,小伙伴们可以选择给定画布中的任意元素,如大海、沙滩、天空,随意拼接和拆解,然后使用华为Atlas200DK推理实时生成独一无二的真实AI风景画,扫描二维码下面的代码立即体验它。参考文献[1]OronAshual和LiorWolf。在交互式场景生成中指定对象属性和关系。在IEEE计算机视觉国际会议论文集中,第4561–4569页,2019年。[2]SenHe、WentongLiao、MichaelYang、YongxinYang、Yi-ZheSong、BodoRosenhahn和TaoXiang。上下文感知布局到具有增强对象外观的图像生成。在CVPR,2021.[3]AlexanderKirillov、KaimingHe、RossGirshick、CarstenRother和PiotrDoll′ar。全景分割。在IEEE/CVF计算机视觉和模式识别会议论文集中,第9404–9413页,2019年。