5月15日消息,昨日上午9点,微软亚洲研究院创新研究院CVPR2020论文分享会在线开设研究论坛。会议中,19位计算机视觉(CV)领域的学者分享了最新的研究成果,讲解涵盖了检测、多模态、低层次视觉、图像生成、机器学习五个大方向。14日上午,三位计算机视觉检测方向的研究人员进行了分享,分别介绍了先进的人脸识别技术、运动检测技术和目标检测技术。智世对这三项先进技术进行了解读。微软亚洲研究院研究论坛CVPR2020论文分享会是计算机视觉(CV)领域最重要的会议之一。本次会议分享了CV领域近20项前沿技术。1.X-ray检测算法可以识别假图片,准确率高达95.4%。滥用Deepfake技术,轻则造成虚假信息问题,重则造成金融安全风险和侵权问题。有些Deepfake图像是可以伪造的,人眼很难判断。在这种情况下,人脸识别技术可以帮助我们识别。大多数现有的人脸识别工具都针对特定的deepfake技术进行了训练,使用假人脸图像作为输入。也就是说,人脸识别技术只能识别通过特定方法合成的假图像。一旦Deepfake技术进化或被其他Deepfake技术取代,人脸识别模型可能会失效。微软亚洲研究院研究员鲍建民解释了人脸X射线识别技术(FaceX-ray),它使用真实的人脸图像进行训练。即使随着Deepfake技术的进化,X射线人脸检测算法也能保持很高的准确性。伪造图像的制作方法是将两幅图像叠加,即将修改后的人脸图像(前景)合成为背景图像(背景)。研究人员注意到,由于硬件(传感器、镜头等)或软件(压缩、合成算法等)的不同,人脸图像和背景图像之间存在“边界”。FaceX-ray技术利用了上述特点,以人脸灰度图像作为输入。FaceX-ray模型可以识别不同灰度图像之间的差异,这不仅可以显示人脸图像的真假,还可以确定假图像混合边界的位置。▲左起第一张为真图,其他均为假图。FaceX-ray模型已经检测到假图像的混合边界位置。研究人员将FaceX-ray模型的性能与之前的人脸识别工具进行了比较。结果表明,该模型检测到的假人脸框数量比之前的二分类方法更多,识别准确率最高可达95.4%。鲍建民指出,该算法仍存在一定的局限性。比如FaceX-ray,主要使用人脸图像数据库FF++进行训练。FF++中的大部分图片都是正面图片,所以模型识别侧面的准确率较低。2、DAGM模型:区分动作和上下文,准确识别动作微软亚洲研究院研究员戴奇介绍了一种动作检测技术,可以从视频中识别动作。据了解,目前的动作检测技术可分为全监督方法和弱监督方法。完全监督方法的动作检测模型需要在训练期间对动作间隔进行时间注释,这是昂贵且耗时的。因此,现有的动作检测工具大多采用弱监督动作定位(WSAL,weakly-supervisedactionlocalization)技术。有两种类型的WSAL技术。第一种构建自上而下的管道,学习视频级分类器,并通过检查生成的时间类激活图(TACM,temporalclassactivationmap)获得帧注意力。注意力)。第二类是自底向上,直接从原始数据预测时间注意力,然后从视频级监控优化任务进行视频分类。这两种方法都依赖于视频级别的分类模型,这会导致动作上下文混淆的问题。例如,在一个跳远视频中,跳远动作(action)只包括进近、跳跃和落地三个阶段,而工作检测模型往往会选择准备阶段和结束阶段(context)。研究人员认为,解决这一问题的关键在于找到动作与情境之间的差异。他们使用判别注意力模型(DiscriminativeAttentionModeling)和生成注意力模型(GAM,GenerativeAttentionModeling)对检测工具进行优化,提出了判别和生成注意力模型(DAGM,DiscriminativeandGen-ativeAttentionModeling)。研究人员将DAGM模型的性能与其他弱监督行动工具进行了比较。结果表明DAGM模型的性能较好,平均精度可达41%。3、TSD算法:提高检测工具准确率3-5%。目标识别算法一般从两个维度检测物体:分类(Classification)和回归(Localization)。前者是指识别物体的属性,后者是指物体的位置。传统的检测方法通常将分类和回归一起学习,共享对象的潜在区域框(Proposal)和特征提取器(Siblinghead)。该检测方法的局限性在于最终输出的图片框的分类置信度与检测框的准确率不一致,识别准确率较低。研究人员发现,这是因为分类任务和回归任务的区别:分类任务更关注语义信息丰富的地方,而回归任务更关注物体的边界。因此,共享对象的潜在区域框(Proposal)和特征提取器(Siblinghead)都会影响检测结果。SenseTimeX-Lab研究员宋光禄介绍了一种基于任务感知空间解缠结(TSD,task-awarespatialdisentanglement)的检测算法,即对检测头应用专门设计的偏移量生成策略,联合训练优化progressiveloss。结果表明,采用TSD算法的检测工具检测精度可提高3-5%。结语:CV研究面临语义和鲁棒性的挑战来自WormpexAIResearch的杨明轩教授和华刚教授进行了圆桌论坛。这五位教授都担任过CVPR会议的主席。在选题和写作技巧方面,五位教授给CV研究者提出了很多建议。例如,他们认为研究人员不应盲目追求研究热点,而应选择自己感兴趣的课题;刚起步的研究人员可以借鉴成熟研究作者的论文结构。他们强调,论文预印本网站arXiv上的论文质量参差不齐,研究者在借鉴时要注意筛选。此外,五位教授指出,目前CV研究面临的两大挑战来自于语义和鲁棒性。对语义的理解关系到模型能否完成更高层次的任务。在医疗、无人机、航空航天等领域,CV模型的鲁棒性直接影响安全性。因此,在后续的CV研究中,提高CV模型的语义理解和鲁棒性仍然是重点。
