“只要思路不走偏,办法总比困难多,何乐而不为!”打工人的日子终于要结束了!拖着疲惫的身子下班,听到同事小A还在为他打气。他飞快地打开电脑,打开百度,打开知乎、豆瓣、微博、微信……都输入了一行:简易人像绘画教程……我还以为他要搞什么惊天动地的事情呢!最初的想法是画女神古尔纳扎尔的肖像。年轻人就是年轻人,追星的能量还是有的。可临走前,他哭了——“世上无难事,只要肯放弃”,哇!这对他来说也很困难。一个没有文采的科技人,没学过画画,也没画过画。现在他要画女神像。让我们看看新手如何画出这美丽的头发。“这可不是简单的教程,构图、绘图、塑形……看得我头??都大了,但效果就是这样。”听着小A东拉西扯、东拉西扯的诉苦,我不禁想起了从前的日子。作为一个理工科的萌娃,我也干过同样的傻事。“你不知道现在有很多APP,只要输入一张照片,就可以秒生成吗?”我忍不住说。小A惊呆了。“不过,看来你的要求还是挺高的,那我就给你推荐一件上品神器吧。”我连忙给他发了样图:(别问我为什么能快,是有预谋的)【我看看】“先看整体感觉,有没有艺术感扑面而来?以后再看..他的表情微微皱眉就能捕捉到,再看这头发,浓密柔软自然,发根分明,一看就是专业级别的...%¥#%@#”,不知不觉中暴露了业务员老司机的本质……“厉害厉害厉害!总之,这是用的什么神器?“发给你了,就是这个AI工具……..%¥#%@#,它的开发者是我们北大……”话没说完,小A就把他的成果图发给我了.“太好了,没想到这么容易就搞定了!”他边说边合上电脑,放进书包,穿上外套,大步朝门口走去。速度和我平时下班的速度很像。。。。。。。最后还不忘转身给我对比一堆小核。。。我惊呆了。“我不是应该先走吗?”,“等等,我还没说完呢!”。“算了,这节课我不会下的。”除了他之外,相信大家“肯定”对这个AI工具背后的原理很感兴趣,下面就给大家详细介绍一下。北大校友出品:Salientobjectdetectiontool这个AI工具叫U∧2-Net(USquareNet),最近很火!不仅登上了GitHub热榜,收获了2.8kstar,还入选了顶级会议ICPR2020。更重要的是,这项研究的第一工作是北大校友秦学斌。相信很多开发者都对这个名字非常熟悉。之前他提出了边界感知显着物体检测网络BASNet,用来做很多有意思的工具,比如“空中复制粘贴”——ARCut&Pastehttps://twitter.com/cyrildiagne/status/1256916982764646402作为只要手机扫描,书籍、花盆、杂志人物,任何你能看到的实物,都可以在短短10秒内“粘贴”到电脑中。这项研究在短短几个小时内就在Reddit上获得了近5K的点赞,此后累计浏览量已超过500万。秦学斌曾在北京大学攻读硕士学位,现为加拿大阿尔伯塔大学在读博士。他对计算机视觉技术非常感兴趣,尤其是目标检测。最近推出的U^2-Net深度网络架构也是一种目标检测工具。以前的BASNet网络用于“复制粘贴”测试,效果很好。这次他用U^2-Net做了一个生成人像测试,结果也很火爆。让我们感受一下细毛生成的效果。目标检测是计算机视觉和数字图像处理的一个重要分支。计算机视觉中对目标运动的分析大致可以分为三个层次:图像分割、目标检测;目标跟踪;目标识别和描述。其中,目标检测是最基础、最关键的环节。2006年,自从深度学习三巨头Hinton、Bengio、Lecun提出卷积神经网络(CNN)并将其应用到图像处理中后,目标检测技术得到显着提升,尤其是全卷积神经网络(FCN)的提出目标检测任务逐渐达到最优SOAT。在今年的MICCAI2020(国际医学图像计算与计算机干预)会议上,U^2-Net凭借出色的表现获得了甲状腺结节分割比赛的第六名。接下来说说它是怎么做到的。任何AI过程都分为三个阶段:输入目标-模型训练-输出结果。要想达到高质量的生成效果,除了要测试模型的准确度外,当然输入源也很重要。这是我们可以控制的。对于U^2-Net,高质量的图片源可以获得更多的细节,所以在上传图片时要注意以下几点:照片中的头部区域要接近或大于512x512像素。照片整体尺寸最好达到960x1280像素。背景应尽可能清晰且不受干扰。如图所示,秦学斌还亲自进行了演示和讲解。接下来是最关键的对象检测模型(SOD)。U∧2-Net模型:嵌套双层U型结构首先我们来看一组与现有state-of-the-artSOD模型的对比。红星代表U∧2模型(176.3MB),它在相对较小的模型尺寸下表现出最高性能。(U∧2withabluestarof4.7MB)实现这样的性能是因为U∧2具有双层嵌套的U形结构,其中ReSidualU-Block(RSU)混合了不同大小的接收器。域,它可以从不同的尺度捕获更多的上下文信息。此外,由于在这些RSU块中使用了池化操作,可以在不显着增加计算成本的情况下深入捕获更多细节。最关键的是,这种架构允许模型从头开始训练深度网络,而无需将该架构用于图像分类任务。目前大多数SOD网络设计都存在这样一个问题:它们侧重于利用现有的基础网络来提取深度特征,例如Alexnet、VGG、ResNet、ResNeXt、DenseNet等。但这些骨干网络最初是为图像分类任务而设计的。它们提取表示语义的特征,而不是局部细节或全局对比度信息,这对于显着对象检测至关重要,并且这些网络通常需要在ImageNet数据上进行预训练,效率相对较低。相比之下,U∧2-Net可以有效避免上述问题。U∧2-Net架构接下来详细介绍了Block结构、网络监督策略和trainingloss。ReSidualU-Block在图像信息提取中,1×1或3×3的小卷积滤波器是最常用的特征提取组件。因为它需要的内存少,计算效率高。但是这个组件的接收域太小,无法捕捉到全局信息,所以解决办法只能是使用扩张卷积(DilatedConvolution)来扩大接收域。然而,在原始分辨率特征图上执行多个空洞卷积(尤其是在初始阶段)会消耗大量的计算和内存资源。为了在捕获全局信息的同时降低计算成本,研究人员采用了金字塔场景解析网络(PSPNet)。该模块在下采样特征图上使用小核滤波器,而不是在原始尺寸特征图上使用扩张卷积。然而,通过直接上采样和级联来融合不同尺度的特征可能会导致高分辨率特征的退化。因此,受U型网络结构的启发,研究人员提出了一种新的ReSidualU-block:RSU来捕获一个阶段内的多尺度特征。如图:从测试数据来看,RSU的计算开销确实比较小。与PLN(commonconvolutionblock)、RES(residualblock)、DSE(denseblock)、INC(initializationblock)相比,消耗的GFLOPS浮点数最低。(GFLOPS,全称GigaFloating-pointOperationsPerSecond,即每秒10亿次浮点运算,常用作GPU性能参数)。在Supervision策略的训练过程中,研究者采用了类似于HED的深度监督。其中,训练损失(TrainingLoss)定义为:每一项L使用标准二元交叉熵计算损失:在训练过程中,等式(1)使整体损失最小;在测试过程中,选择融合输出的lfuse作为最终的显着图。比较实验:全尺寸最佳SOTA在论文中,研究人员将U2模型与20多个其他现有的最先进模型进行了比较。其中,每个模型使用的训练数据集为DUTS-TR,包含10553张图像,是目前最大最常用的目标检测数据集;使用的基准数据集有DUT-OMRON、DUTS-TE、HKU-IS、ECSSD、PASCAL-S、SOD六种。先来看定性对比的结果:红、绿、蓝分别代表最好、第二、第三的表现。从表3和表4可以看出,U∧2-Net在DUT-OMRON、HKU-IS和ECSSD三个基准数据集上都有很大的进步,五项评价指标都达到了最好的SOTA。其中,在DUTS-TE上,U∧2-Net的整体性能仅次于PoolNet;在PASCAL-S上,U∧2-Net的性能仅略低于AFNet、CPD和PoolNet。此外,U∧2-Net在边界质量评估指标(RelaxFbβ)方面排名第二。在SOD数据集上,U∧2-Net在整体性能方面仅次于PoolNet。更重要的是,U∧2-Net模型的大小仅为4.7MB,是显着目标检测领域最小的模型,而且与其他模型相比,其参数数量也少得多。定性对比结果:对比了7个SOTA模型,如图:可以看出U∧2-Net可以处理不同类型的目标,并且都产生了准确的识别结果。例如,第四排图像充分展示了其在分割由大结构和细结构组成的物体时的性能;在第六排复杂的图像结构下,它产生了近乎完美的效果。综上所述,U∧2-Net模型能够处理全尺寸和小尺寸图像的各种场景,并且可以产生比其他模型更准确的显着目标检测结果。
