当前位置: 首页 > 科技赋能

全球计算机视觉顶级会议CVPR,连续三年收录腾讯优图论文2019,共收录论文25篇

时间:2024-05-20 01:08:54 科技赋能

世界顶级计算机视觉会议IEEE CVPR(Computer Vision and Pattern Recognition,IEEE国际计算机视觉与模式识别会议) )将于六月在美国长滩举行。

本次会议共接纳来自世界各地的论文。

中国队表现出色。

此次CVPR大会录用腾讯论文超过58篇,其中腾讯优图实验室论文25篇,腾讯AI实验室论文33篇。

与过去两年相比,成绩有了显着提高。

作为计算机视觉领域最高水平的研究会议,CVPR接受的论文代表了计算机视觉领域最新、最高的技术水平和未来发展趋势。

据CVPR官网显示,今年会议共提交了2篇以上论文,最终接收了3篇论文。

所承认的最新科研成果涵盖了计算机视觉领域的所有前沿工作。

2019年,本次CVPR会议接收来自腾讯的论文超过58篇,其中腾讯AI实验室的论文33篇,腾讯优图实验室的论文25篇。

全年共收录31篇,全年收录18篇。

2019年招生人数较前两年大幅增加,成绩斐然。

腾讯此次收录的论文涵盖深度学习优化原理、视觉对抗学习、人脸建模与识别、视频深度理解、行人重识别、人脸检测等热门前沿领域。

全球领先的科研成果展示了腾讯在计算机视觉领域雄厚的人才储备、科研基础和创新能力。

这些新颖的计算机视觉算法不仅拥有丰富的应用场景,让更多的计算机视觉算法应用到日常生活中,也为后续研究提供了宝贵的经验和方向。

下面介绍腾讯优图入选CVPR的部分论文:Unsupervised Person Re-identification by Soft Multilabel Learning 与有监督行人重识别(RE-ID)方法相比,无监督RE-ID以其更好的可扩展性吸引了越来越多的研究关注。

然而,在非重叠的多摄像机视图下,缺乏成对标签使得学习判别性信息仍然非常具有挑战性。

为了克服这个问题,我们提出了一种用于无监督 RE-ID 的软多标签学习深度模型。

这个想法是通过将未标记的人与辅助域中的一组已知参考进行比较,用软标签(类似于实值标签的似然向量)来标记它们。

基于视觉特征和未标记目标对的软标签的相似性一致性,我们提出了一种软多标签引导的硬负挖掘方法来学习判别性嵌入。

由于大多数目标对来自交叉视图,因此我们提出了一种交叉视图下的软多标签一致性学习方法,以确保不同视图下标签的一致性。

为了实现高效的软标签学习,引入了参考代理学习。

我们的方法在 Market- 和 DukeMTMC-reID 上进行了评估,显着优于当前最好的无监督 RE-ID 方法。

基于自适应空间正则化相关滤波器的视觉跟踪 基于自适应空间加权相关滤波的视觉跟踪研究 本文提出了一种自适应空间约束相关滤波算法,以同时优化滤波器权重和空间约束矩阵。

首先,本文提出的自适应空间约束机制可以有效地学习空间权重以适应目标外观的变化,因此可以获得更鲁棒的目标跟踪结果。

其次,本文提出的算法可以通过交替迭代算法来高效求解。

基于此,每个子问题都可以以封闭的形式求解。

第三,本文提出的跟踪器采用两个相关滤波器模型分别估计目标的位置和尺度,可以有效减少计算量,同时获得更高的定位精度。

在综合数据集上的大量实验结果证明,本文提出的算法可以达到与现有先进算法相当的跟踪结果,并达到实时跟踪速度。

图像空间之外的对抗性攻击 图像空间之外的对抗性攻击 生成对抗性实例是理解深度神经网络工作机制的重要方法。

大多数现有方法都会在图像空间中产生扰动,即独立地修改图像中的每个像素。

在本文中,我们更多地关注与三维物理属性(例如旋转和平移、照明条件等)的有意义变化相对应的对抗性示例子集。

可以说,这些对抗性方法引起了更令人担忧的问题,因为它们证明,简单地扰动现实世界的三维对象和场景可能会导致神经网络对实例进行错误分类。

在分类和视觉问答任务中,我们通过在接收 2D 输入的神经网络前面添加渲染模块来扩展现有的神经网络。

我们的方法的过程是:首先将3D场景(物理空间)渲染成2D图片(图片空间),然后通过神经网络将它们映射到预测值(输出空间)。

这种对抗性干扰方法可以超越图像空间。

在三维物理世界中具有明确的意义。

虽然图像空间中的对抗性攻击可以用像素反照率的变化来解释,但我们证明它们不能在物理空间中给出很好的解释,因此通常会产生非局部效应。

然而,物理空间中的攻击很可能超过图像空间中的攻击。

虽然这比图像空间的攻击更困难,但物理世界的攻击成功率较低,需要更大的干扰。

LearningContextGraphforPersonSearch 基于上下文图网络的行人检索模型本文由腾讯优图实验室和上海交通大学主导。

近年来,深度神经网络在行人检索任务中取得了巨大成功。

然而,这些方法往往仅基于单个人的外观信息,对于跨摄像机的行人外观中的姿势变化、光照变化、遮挡等仍然很难处理。

本文提出了一种新的基于上下文信息的行人检索模型。

所提出的模型将场景中同时出现的其他行人作为上下文信息,并使用卷积图模型来建模这些上下文信息对目标行人的影响。

我们在CUHK-SYSU和PRW这两个著名行人检索数据集的两个评估维度上都打破了当时的世界纪录,取得了top1的行人检索结果。

使用深度照明估计进行曝光不足的照片增强 基于深度学习优化照明的低光下图像增强。

随着智能手机的普及,照片分享已经成为互联网上非常流行的社交方式。

但由于外界光线条件(如逆光、弱光等)的影响以及用户摄影技巧的限制,实际拍摄的照片通常会出现曝光不足的情况。

由于曝光不足的图像往往可视性差、色彩暗淡、视觉不友好,难以有效传达用户期望,应用场景有限。

为了提高此类图像的质量,开发了曝光不足图像增强功能。

然而,这个问题极具挑战性,因为它涉及同时编辑图像的多个外观因素(如亮度、对比度、饱和度等),并且没有统一客观的优化目标。

现有的方法通常无法产生视觉上令人愉悦的结果。

本文介绍了一种新颖的端到端深度神经网络,用于增强曝光不足的照片。

与直接学习图像到图像映射的现有方法不同,我们引入图像照明作为中间变量,将输入图像与预期的增强结果相关联,以增强网络从专家修改的输入/输出图像对中学习复杂摄影调整的能力。

基于这个想法,我们制定了一个集成了光照约束和先验的损失函数。

我们还构建了一个包含曝光不足图像对的新数据集,并在此数据集上训练网络,使其能够响应不同的光照条件。

曝光不足图像的修复功能。

通过这些方式,我们的网络能够快速恢复具有清晰细节、鲜明对比度和自然色彩的增强结果。

我们对基准数据集 MIT-Adobe FiveK 和我们的新数据集进行了广泛的实验和测试,结果表明我们的网络可以更有效地处理困难图像并生成对用户更有利的结果。

用于不成对图像到图像翻译的同态潜在空间插值基于同态潜在空间插值的用于不成对图像到图像翻译的生成对抗网络在不成对图像到图像翻译方面取得了巨大成功。

循环一致性允许对没有配对数据的两个不同域之间的关系进行建模。

在本文中,我们提出了一种替代框架作为潜在空间插值的扩展,该框架考虑图像变换中两个域之间的中间部分。

该框架基于这样的事实:在平坦光滑的潜在空间中,存在连接两个采样点的多条路径。

正确选择的插值路径允许更改某些图像属性,这对于在两个域之间生成中间图像非常有用。

我们还表明该框架可以应用于多领域和多模式转换。

大量的实验证明了该框架对各种任务的通用性和适用性。

X2CT-GAN:从双平面诊断重建 CT。

但与X射线成像相比,CT成像给患者带来的辐射剂量更大,而且价格也更高。

传统CT图像的三维重建过程中,在物体中心周围收集并使用大量的X射线投影,这是传统X射线机无法实现的。

在本文中,我们创新性地提出了一种基于对抗生成网络的方法,仅使用两个正交的 2D X 射线图像即可重建真实的 3D CT 图像。

核心创新点包括增维生成网络、多视角特征融合算法等。

通过实验和定量分析,我们证明该方法在2D X射线到3D CT重建方面大大优于其他比较方法。

通过可视化CT重建结果,我们也可以直观地看到该方法提供的细节更加真实。

在实际应用中,我们的方法可以为医生提供额外的类似CT的三维图像,以帮助他们更好的诊断,而无需改变现有的X射线成像流程。