当前位置: 首页 > 科技赋能

谷歌李飞飞!我们还站在人工智能研究的起点

时间:2024-05-22 17:03:21 科技赋能

说起人工智能,催生了卷积神经网络和深度学习算法的ImageNet挑战赛可能是世界上最著名的AI数据集了。

过去8年,在ImageNet数据集的训练下,人工智能在图像识别方面的准确率提升了10倍,甚至超越了人类视觉本身。

然而,人工智能领域的科学家们并没有停止前进的脚步。

上周末,人工智能领域最杰出的科学家之一:斯坦福大学终身教授、谷歌云首席科学家李飞飞在未来论坛年会上为我们带来了题为《超越ImageNet的视觉智能》的精彩演讲。

她告诉我们,AI不仅能准确识别物体,还能理解图片的内容,甚至可以根据图片写一篇短文,还能“看懂”视频……我们都知道,地球上有很多种动物。

地球。

大多数人都有眼睛,这告诉我们视觉是最重要的感觉和认知方式。

它对动物的生存和发展至关重要。

所以无论我们谈论动物智能还是机器智能,视觉都是非常重要的基石。

在世界上所有的系统中,我们目前最了解的系统是人类的视觉系统。

自5亿多年前的寒武纪大爆发以来,我们的视觉系统不断进化和发展,这是让我们了解世界的重要过程。

此外,视觉系统是我们大脑中最复杂的系统。

负责视觉处理的皮层占大脑所有皮层的50%。

这告诉我们,人类的视觉系统是非常了不起的。

在寒武纪物种大爆发期间,一位认知心理学家进行了一个非常著名的实验。

这个实验可以告诉大家,人类的视觉系统有多么神奇。

大家看看这个视频吧。

你的任务是如果你看到一个人就举手。

每张图片的呈现时间都很短,即 1/10 秒。

不仅如此,如果你让大家找一个人,你不知道他们是什么样的人,也不知道他们站在哪里,用什么姿势,穿什么样的衣服,但你仍然可以快速准确地找到他们。

识别这个人。

人们。

2000年,法国著名心理学家、神经科学家西蒙·J·索普的论文证明,视觉认知是人脑最卓越的能力,因为它的速度非常快,大约是毫秒。

在几毫秒内,我们的大脑就可以区分包含动物的非常复杂的图像和不包含动物的图像。

当时,计算机和人类之间存在着巨大的差异,这给计算机科学家带来了启发。

他们希望解决的最基本的问题是图像识别。

除了ImageNet,除了纯粹的物体识别,我们还能做什么?二十年后,计算机领域的专家也发明了几代物体识别技术,被称为ImageNet。

我们在图像识别方面取得了巨大进步:8年来,ImageNet挑战赛中的计算机将图像分类错误率降低了10倍。

同时,过去8年也发生了巨大的革命: 2008年,卷积神经网络(CNN)和GPU(图形处理单元)技术的出现极大地提高了计算机视觉和人工智能的研究。

这是一个非常令人兴奋的发展。

作为一名科学家,我也在想,除了ImageNet,除了简单的物体识别之外,我们还能做什么? 8 年时间里,ImageNet 挑战赛中图像计算机分类的错误率下降了 10 倍。

我举个例子告诉你:两张图片中都包含一个动物和一个人。

如果单纯观察这两张图片中出现的东西,两张图片非常相似,但它们所呈现的故事却完全不同。

你当然不想出现在右边的场景中。

这体现了一个非常重要的问题,就是人类能做到的最重要、最基本的图像识别功能——理解图像中物体之间的关系。

为了模拟人类,在计算机图像识别任务中,输入是图像,计算机输出的信息包括图像中的物体、它们的位置以及物体之间的关系。

目前我们已经有了一些初步的工作,但是大多数计算机判断的对象之间的关系非常有限。

最近我们开始了一项新的研究,利用深度学习算法和视觉语言模型让计算机理解图像中不同对象之间的关系。

计算机可以告诉我们不同物体之间的空间关系,比较物体,观察它们是否对称,然后理解它们之间的动作以及它们之间的介词位置关系。

因此,与简单地识别一堆物体的名称相比,这是一种更丰富的方式来理解我们的视觉世界。

使用语言先验进行视觉关系检测更有趣的是,我们甚至可以让计算机实现零短(0样本学习)物体关系识别。

例如,在某人坐在椅子上、旁边有消防栓的照片上训练算法。

然后另一张照片显示一名男子坐在消防栓上。

尽管算法从未见过这张图像,但它可以表达这是“一个坐在消防栓上的人”。

同样,算法可以识别“戴帽子的马”,尽管训练集只有“骑马的人”和“戴帽子的人”的图片。

让AI理解图像。

在物体识别问题很大程度上解决之后,我们的下一个目标是超越物体本身,关注物体之间、语言等更广泛的关系。

ImageNet给我们带来了很多,但它能提供的信息从图像中识别的能力非常有限。

COCO软件可以识别场景中的多个对象并生成描述场景的短句。

但视觉信息数据远不止于此。

经过三年的研究,我们找到了更丰富的方式来描述这些内容。

通过不同的标签,我们描述这些对象,包括它们的属性、属性和关系,然后通过这样的图谱建立它们之间的关系。

它们之间的连接称为视觉基因组数据集。

该数据集包含超过10万张图像、超过1万个属性和关系标签以及数百万条描述和问答信息。

在我们这样的数据集中,它可以非常准确地让我们超越物体识别,对物体之间关系的识别进行更精确的研究。

那么我们如何使用这个工具呢?场景识别就是一个例子:它本身就是一项简单的任务,例如在 Google 中搜索“穿西装的男人”或“可爱的小狗”,这将直接产生所需的结果。

但当你搜索“穿着西装的男人抱着可爱的小狗”时,它的表现就变差了。

对象之间的这种关系是一件很难处理的事情。

大多数搜索引擎的算法在搜索图像时可能只使用对象本身的信息。

该算法只是了解图像中的对象,但这还不够。

例如,如果我们搜索一张男人坐在椅子上的图片,如果我们能够包含物体外部和场景内部的所有关系,然后想办法提取精确的关系,结果会更好。

2017年,我们开始探索这种新的呈现方式。

我们可以将很长的描述性段落输入到 ImageNet 数据集中,然后将它们与我们的场景图进行比较。

我们使用这种算法可以帮助我们执行比以前的图像搜索技术更好的搜索。

谷歌图像的准确性得到了显着提高。

看起来很棒,但您有一个问题是,在哪里可以找到这些场景图像?构建场景图是一项非常复杂且困难的任务。

目前,Visual Genome数据集中的场景图都是手动定义的。

实体、结构、实体之间的关系以及与图像的匹配都是由我们手动完成的。

这个过程相当痛苦,我们不想将来必须映射每个场景。

每个场景都要做这样的工作。

所以我们下一步就是希望能够出现一种能够自动生成场景图的技术。

所以在今年夏天发表的一篇CVPR文章中,我们提出了这样一个自动生成场景图的解决方案:对于输入图像,我们首先获得对象识别的替代结果,然后使用图推理算法来获得实体之间的关系。

关系等;这个过程是自动完成的。

通过迭代消息传递生成场景图人工智能可以像人类一样理解视频吗?视觉基因组数据集可以让计算机更好地理解场景信息,但这还不够。

事实上,到目前为止,我们只探讨了认知心理学家讨论的一个概念:场景要点感知:只需一眼就能掌握整个场景中的物体以及它们之间的关系。

关系。

除此之外呢?小编想回顾一下我十年前在加州理工学院攻读博士时进行的一项心理学实验。

编辑以每小时 10 美元的成本招募了人类受试者,并迅速向他们展示了一系列照片,每张照片闪现后,都覆盖上类似于壁纸的图像,以便清除他们视网膜保留的信息。

然后让他们尽可能多地写下他们所看到的。

有些照片仅显示1/40秒(27毫秒),有些照片显示0.5秒。

我们的受试者能够在如此短的时间内理解场景信息。

如果小编给的实验费再高一些,大家甚至可以做得更好。

进化使我们能够用一张图片讲述一个长故事。

今年以来,我们使用卷积神经网络和LSTM等递归神经网络算法来建立图像和语言之间的关系。

从现在开始,我们将能够要求计算机为几乎任何东西添加句子。

就拿这两个例子来说,“一个穿着橙色背心的工人正在铺路”和“一个穿着黑色T恤的男人正在弹吉他”。

然而图像中包含的信息非常丰富,短短一句话不足以涵盖全部,所以我们下一步就是密集捕捉。

让计算机将图像分解为多个部分并单独描述每个部分,而不是仅仅用一句话描述整个场景。

此外,我们今年所做的工作也上了新的台阶。

当面对图像时,计算机不仅可以简单地解释句子,还可以生成文本段落并以具有空间意义的方式将它们连接起来。

这与认知心理学家进行的实验中人类所描述的结果非常接近。

COCO 可以根据图片写出几个句子(粉色部分) 新算法可以生成一个段落(蓝色部分) 生成描述性图像段落的分层方法 但我们并没有就此止步,我们开始让计算机识别视频。

这是计算机视觉研究的一个新的、丰富的领域。

互联网上有大量的视频,数据形式多样,了解它们非常重要。

我们可以使用类似于上面的密集捕获模型来描述较长的故事片段。

通过添加时间元素,计算机可以识别视频并描述它。

视觉认知与逻辑推理的结合。

最后小编想谈谈我们如何让人工智能达到超越简单认知的任务驱动的水平。

从一开始,人类就希望用语言给机器人下达指令,然后机器人用视觉的方式来观察世界、理解并完成任务。

在 20 世纪 70 年代和 80 年代,人工智能先驱们就已经在研究如何让计算机按照指令完成任务。

例如,在下面的例子中,一个人说:“蓝色金字塔很好。

我喜欢不是红色的立方体,但我也不喜欢上面有金字塔的任何东西。

那么我喜欢灰色盒子吗? ”然后机器或人工智能会回答:“不,因为它是由金字塔缓冲的。

”它可以理解并推理这个复杂的世界。

最近,我们与 Facebook 合作重新审视此类问题,创建了具有各种几何形状的场景,我们将其命名为 Clever 数据集。

该数据集包含成对的问题和答案,涉及属性的识别、计数、比较、空间关系等。

我们会向人工智能提出问题,看看它如何理解、推理和解决这些问题。

我们对比了人工智能和人类对这类推理问题的答案:人类可以达到90%以上的准确率,而机器虽然可以达到接近70%,但仍然存在巨大差距。

这种差距的存在是因为人类可以进行组合推理,但机器不能。

于是我们开始寻找一种让人工智能表现更好的方法:我们将一个问题分解为功能性的程序段,然后根据程序段训练一个执行引擎来回答问题。

在尝试推理现实世界问题时,该解决方案具有更高的组合能力。

这项工作我们刚刚发表在ICCV上。

例如,如果我们问“紫色的东西是什么形状的?”,它会回答“它是一个立方体”,并且可以准确定位紫色立方体的位置。

这说明其推理是正确的。

它还可以计算东西。

这一切都表明该算法可以对场景进行推理。

人类的视觉已经发展了很长时间。

尽管计算机视觉识别出现60年来取得了长足的进步,但它仍然只是一门新兴学科。