识别图像对人类来说极其容易,但对机器来说却需要很长时间。在计算机视觉领域,图像识别近年来得到了突飞猛进的发展。例如,在PASCALVOC对象检测基准测试中,检测器性能从平均30%的准确度飙升至如今的90%以上。对于图像分类,当前最先进的算法在具有挑战性的ImageNet数据集上的表现甚至优于人类。视频监控、自动驾驶、智慧医疗等图像识别技术的高价值应用正在发生在你我身边。这些图像识别最新进展背后的驱动力是深度学习。深度学习的成功主要归功于三个方面:大规模数据集的产生、强大模型的开发以及大型计算资源的可用性。对于各种各样的图像识别任务,精心设计的深度神经网络远远优于以前基于手动设计的图像特征的方法。尽管迄今为止深度学习在图像识别方面取得了巨大的成功,但在其进一步广泛应用之前,我们还需要面对许多挑战。同时,我们也看到了很多具有未来价值的研究方向。挑战一:如何提高模型的泛化能力在图像识别技术能够得到广泛应用之前,一个重要的挑战是如何知道一个模型对于以前没有出现过的场景仍然具有良好的泛化能力。在目前的实践中,数据集被随机分为训练集和测试集,并相应地在该数据集上训练和评估模型。应该注意的是,在这种方法中,测试集与训练集具有相同的数据分布,因为它们都是从具有相似场景内容和成像条件的数据中采样的。然而,在实际应用中,测试图像可能来自与用于训练的数据分布不同的数据分布。这些前所未见的数据可能在视角、比例、场景配置、相机属性等方面与训练数据不同。一项研究表明,这种数据分布的差异会导致各种深度网络的准确性显着下降楷模。当前模型对数据分布自然变化的敏感性可能成为自动驾驶等关键应用的严重问题。挑战二:如何利用小规模和超大规模数据我们需要面对的另一个重要挑战是如何更好地利用小规模训练数据。虽然深度学习通过利用大量标记数据在各种任务中取得了巨大成功,但现有技术往往在小数据场景中失效,因为只有很少的标记实例可用。这种情况通常被称为“小样本学习”,在实际应用中需要仔细考虑。例如,一个家庭机器人可能会执行一次向它展示一个新物体的任务,然后它就可以识别这个物体。人类可以自然地完成这项任务,即使稍后对物体进行操作,例如折叠毯子。如何赋予神经网络类似人类的泛化能力是一个悬而未决的研究问题。另一个极端是如何利用超大规模数据有效提升识别算法的性能。对于自动驾驶等关键应用,图像识别出错的代价非常高。因此,研究人员创建了包含数亿张注释丰富的图像的非常大的数据集,他们希望通过利用这些数据,可以显着提高模型的准确性。然而,目前的算法并没有很好地利用这种非常大规模的数据。在包含3亿张标记图片的JFT数据集上,随着训练数据量的增加,各种深度网络的性能仅呈现对数提升(图1)。在大规模数据的情况下,继续增加训练数据的好处会越来越不明显,这是一个需要解决的重要问题。图1目标检测在JFT-300M数据集上的性能随着训练样本的增加呈对数增长。x轴是对数刻度的数据大小。y轴是对象检测的性能。左图使用COCOminival测试集上的mAP@[0.5,0.95]指标,右图使用PASCALVOC2007测试集上的mAP@0.5指标。红色和蓝色曲线分别代表两种不同的模型。挑战三:全面的场景理解除了这些与训练数据和泛化能力相关的问题外,一个重要的研究课题是全面的场景理解。除了识别和定位场景中的对象外,人类还可以推断对象到对象的关系、部分到整体的层次结构、对象属性和3D场景布局。获得对场景更广泛的理解将有助于机器人交互等应用,这些应用通常需要对象识别和定位之外的信息。这项任务不仅涉及对场景的感知,还需要对现实世界的认知理解。要实现这个目标,我们还有很长的路要走。综合场景理解的一个例子是全景分割,见图2。图2(a)原始图像;(b)语义分割:识别天空、草地、道路等没有固定形状的不可数素材(stuff)。标记方法通常是给每个像素加上标签;(c)实例分割:分割可数和独立的对象实例,如人、动物或工具,通常用边界框或分割掩码标记;(d)全景分割:生成统一的、全局的分割图像,不仅可以识别材质,还可以识别物体。挑战四:自动化网络设计最后一个值得一提的挑战是自动化网络设计。近年来,图像识别领域的重点已经从设计更好的特征转移到设计更新的网络架构。然而,设计网络架构是一个繁琐的过程,需要处理大量的超参数和设计选择。调整这些元素需要经验丰富的工程师投入大量时间和精力。更重要的是,一项任务的最佳架构可能与另一项任务的最佳架构完全不同。虽然我们对自动神经架构搜索的研究已经开始,但它们仍处于早期阶段,仅适用于图像分类任务。当前方法的搜索空间非常狭窄,因为它们寻找现有网络模块的局部最优组合(例如深度可分离卷积和身份连接),并且无法发现新模块。目前尚不清楚这些现有方法是否足以应对更复杂的任务。图3.神经架构搜索算法的抽象图。搜索策略首先从预定义的搜索空间中选择一个架构A,然后由评估策略对其进行评估,并将评估后的A的性能传递给搜索策略。尽管图像识别领域存在上述挑战,但我们仍然相信深度学习在图像识别领域的巨大潜力。解决这些问题的机会比比皆是。让我们来看看其中的一些研究方向:方向1:整合常识图像识别领域的一个重要研究方向是将常识整合到深度学习中。目前,深度学习主要用作纯粹的数据驱动技术。在深度学习中,神经网络使用训练集中的标记样本学习非线性函数,然后在测试时将学习到的函数应用于图像像素。根本不使用训练集之外的信息。相比之下,人类不仅根据他们看到的样本来识别物体,还根据他们对现实世界的常识来识别物体。人们能够对他们所看到的进行推理,以避免不合逻辑的识别结果。此外,当遇到新事物或意想不到的事物时,人类可以迅速调整自己的知识以应对这种新体验。如何在深度网络中获取、表示和使用常识进行推理是一个挑战。方向二:几何推理联合进行图像识别和几何推理是另一个潜在的方向。图像识别的主要模型只考虑2D外观,而人类可以感知3D场景布局并推断其内在语义类别。3D布局不仅可以从双目视觉中得出,还可以从2D输入的几何推理中得出,就像人们在看照片时所做的那样。联合图像识别和几何推理对双方都有好处。从几何推理确定的3D布局可以帮助在存在看不见的视角、变形和外观的情况下指导识别。它还可以消除不合理的语义布局,并帮助识别由其三维形状或功能定义的类别。例如,沙发的类内外观差异很大。但是,它们具有可以帮助识别它们的共同属性。例如,它们都有一个供坐的水平表面和一个用于支撑的靠背。另一方面,识别出的语义可以规范化几何推理的解空间。例如,如果在场景中识别出一只狗,那么它对应的3D结构应该符合狗的3D形状模型。图4从视频的两个不同视角的帧中重建复杂动态场景的点云方向3:关系建模关系建模也有很大的研究潜力。要充分理解场景,对场景中存在的目标实体之间的关系和交互进行建模非常重要(图4)。考虑两幅图像,每幅图像包含一个人和一匹马。如果一个是人骑马,一个是马踩人,显然两幅图传达的意思完全不同。此外,通过关系建模提取的底层场景结构可以帮助弥补当前深度学习方法由于数据有限而产生的模糊性和不确定性。尽管已经为解决关系建模问题做出了努力,但这项研究还处于初步阶段,还有很大的探索空间。图5.对象检测中的关系网络。表示物体的外观特征,表示物体的几何特征Direction4:Learninghowtolearn这里另一个值得一提的方向是元学习,其目标是学习学习过程。这个话题最近引起了相当大的关注,神经架构搜索也可以被认为是它的一个应用。然而,由于学习过程建模的基本机制、表示和算法,元学习研究仍处于早期阶段。以神经架构搜索为例,它仅限于现有网络模块的简单组合。元学习者无法捕捉到编写新网络模块所需的微妙直觉和敏锐洞察力。随着元学习的推进,自动化架构设计的潜力可能会得到充分释放,进而网络结构远超人工设计。图6.元学习的最新进展。从左到右分别是元学习超参数优化、神经架构搜索和少镜头图像分类。这是一个激动人心的图像识别时代,一个充满机遇的时代,推动着该领域的发展,影响着未来的应用。我们热切期待未来的进步,并期待这些新技术以深刻而神奇的方式改变我们的生活。
