当前位置: 首页 > 科技观察

皱眉细节完美再现,阿尔伯塔大学团队项目生成超逼真人像

时间:2023-03-22 00:17:30 科技观察

深度卷积神经网络已被广泛用于显着物体检测,并取得了SOTA性能。在CVPR2019的一篇论文中,加拿大阿尔伯塔大学的研究人员提出了边界感知显着目标检测网络BASNet,并衍生出一系列流行的工具。今年,该团队提出了一种用于人像生成的深度网络架构U^2-Net,不仅需要较少的计算开销,而且可以生成细节丰富的人像。该论文被ICPR2020会议录用。从人脸图片生成艺术肖像的AI应用有很多,但结果并不多。上图的输入输出结果来自GitHub的一个热门项目U^2-Net(U方网),开源以来已经获得了1.7Kstar。该研究来自阿尔伯塔大学的一个团队,该论文此前已被ICPR2020会议(模式识别国际会议)接受。论文链接:https://arxiv.org/pdf/2005.09007.pdf项目地址:https://github.com/NathanUA/U-2-Net最近,研究人员将其应用于人脸肖像的生成,并提出了一种新的模型是基于APDrawingGAN数据集针对此类任务进行训练的。无论是儿童肖像还是成年男性或成年女性,都可以获得相当详细的生成结果:近年来,显着性目标检测在视觉跟踪、图像分割等领域得到广泛应用。随着深度卷积神经网络(CNN)的发展,特别是全卷积网络(FCN)在图像分割领域的兴起,显着性目标检测技术得到显着提升。大多数SOD网络的设计都有一个共同的模式,即它们都侧重于充分利用现有基础网络提取的深层特征,例如Alexnet、VGG、ResNet、ResNeXt、DenseNet等。但这些骨干网络最初是专为图像分类任务而设计。他们提取表示语义的特征,而不是局部细节或全局对比信息,这对于显着对象检测至关重要。而这些网络通常需要在ImageNet数据上进行预训练,效率相对较低。为了解决这个问题,阿尔伯塔大学的研究人员提出了U^2-Net。研究团队在论文中介绍,U^2-Net是一种简单而强大的深度网络架构,具有两层嵌套的U型结构。本研究提出的ReSidualU-block(RSU)混合了不同大小的感受野,因此它可以从不同尺度捕获更多的上下文信息。此外,RSU中使用了池化操作,因此可以在不显着增加计算成本的情况下增加整个架构的深度。Methods在Methods部分,研究人员不仅详细阐述了他们提出的残差U-block和使用U-block构建的嵌套U形架构,还描述了网络的监督策略和训练损失。ResidualU-block受U-Net网络的启发,研究人员提出了一种新型的残差U-block(ReSidualU-block,RSU)来捕获一个阶段内的多尺度特征。RSU-L(C_in,M,C_out)的结构如下图2(e)所示,其中L表示编码器的层数,C_in和C_out分别表示输入和输出通道,M表示层数RSU内层的通道数。本研究中提出的RSU与其他现有卷积块的结构比较。具体来说,RSU具有三个主要组件,即输入卷积层、高度为L的类似U-Net的对称编码器-解码器结构和通过求和融合局部和多尺度特征的残差连接。为了更好地理解设计理念,研究人员将RSU与下图3中的原始残差块进行了比较。结果表明,RSU与原始残差块最大的区别是RSU用类U-Net结构代替了普通的单流卷积,用权值层变换的局部特征代替了原来的特征。更值得注意的是,由于U形结构,RSU的计算开销相对较小,因为大多数操作都应用于下采样特征图中。下图4显示了RSU和其他特征提取模块的计算成本曲线:U^2-NetArchitecture研究人员提出了一种新的堆叠U形结构U^n-Net用于显着目标检测。理论上,n可以设置为任意正整数来构建单层或多层嵌套的U型结构。研究人员将n设置为2,构建了一个两级嵌套的U型结构U^2-Net,如下图所示:具体来说,U^2-Net主要由三部分组成:(1)6-stageencoder;(2)5级译码器;(3)连接到解码器阶段和最终编码器阶段的显着图融合模块。总体而言,U^2-Net的设计构建了一个具有丰富的多尺度特征和低计算和内存成本的深度架构。此外,由于U^2-Net架构仅建立在RSU块上,没有使用任何经过预训练的图像分类处理的主干网络,因此U^2-Net可以灵活方便地适应不同的工作环境。监督在训练过程中,研究人员使用了一种类似于整体嵌套边缘检测(HED)的深度监督算法。训练过程定义如下:训练过程力求最小化上述等式(1)中的整体损失。在测试过程中,研究人员选择使用融合输出l_fuse作为最终的显着图。实验研究人员在DUTS-TR上训练了U^2-Net网络,该网络包含10553张图像,是目前最大、最常用的显着物体检测数据集。研究人员对数据进行水平翻转,共获得了21106张训练图像。在评估阶段,研究人员使用六个常用的基准数据集DUTOMRON、DUTS-TE、HKU-IS、ECSSD、PASCAL-S和SOD来评估该方法。控制变量研究实验从基本块、架构和主干网络三个方面验证了U^2-Net的效果。表2:不同模块控制变量的实验结果。“PLN”、“RES”、“DSE”、“INC”、“PPM”和“RSU”分别代表normalconvolutionblock、residualblock、denseblock、initializationblock、pyramidpoolingmodel和residualU-block。粗体代表两个表现最好的。不同方法的性能比较下表3给出了本文方法与其他20种SOTA方法在DUT-OMRON、DUTS-TE和HKU-IS三个数据集上的比较。红色、绿色和蓝色分别代表最好、第二和第三的表现。下表4给出了方法在ECSSD、PASCAL-S和SOD三个数据集上的对比结果。下面的图7显示了我们的方法和其他7种SOTA方法的定性比较结果。(a)为原始图像,(c)为本文方法生成的结果。研究团队的第一作者秦学斌目前是加拿大阿尔伯塔大学计算机科学博士在读,共同作者包括张子晨、黄晨阳、MasoodDehghan、OsmarR.Zaiane和MartinJagersand。左起:秦学斌、张子臣、黄晨阳。此前机器之心还介绍了秦学斌等研究人员的另一篇关于显着目标检测的论文《BASNet: Boundary-Aware Salient Object Detection》,该论文被CVPR2019录用。该研究公布后,业界诞生了很多基于BASNet的图像处理工具,如“空间移动”神器ARCut&Paste、在线地图匹配程序“ObjectCut”等。