当前位置: 首页 > 科技赋能

Yann LeCun,卷积神经网络之父!人工智能的下一步是从视频中“学习常识”

时间:2024-05-22 14:48:20 科技赋能

编辑|起源简介:Yann LeCun作为深度学习领域的巨头,近年来带动了Facebook的人工智能项目快速推进,其势头并不落后于Google。

如今,Facebook 的人脸识别技术 DeepFace 已经能够识别超过 4 亿张面孔,但 Yann LeCun 并不满足于此。

他认为机器视觉不应该满足于图片识别。

下一步是让机器“从视频中学习常识”。

”。

五年前,研究人员在图像识别的准确性方面取得了巨大突破。

这背后的技术,即人工神经网络,推动了最近人工智能的繁荣。

它让谷歌和 Facebook 可以让你在自己的手机中使用搜索功能。

Facebook 人工智能研究团队负责人、纽约大学教授开创了神经网络在机器视觉领域的应用。

这个领域有很大的发展空间,而且这个领域的进步可能会带来理解常识的软件系统 问:目前机器视觉的水平是什么?YannLeCun:如果你的图片有一个突出的主题,那么你只需要。

如果我们有足够的数据(每个类别可能有一千张图像),那么我们可以识别相当具体的事物:特定品牌的汽车、特定类型的植物、特定品种的狗。

我们还可以识别更抽象的事物,例如风景、日落、婚礼或生日聚会。

就在五年前,我们还不知道这个问题可以解决。

(现在我们已经结束了)但这并不是说视觉问题已经解决。

问:哪些关键问题尚未解决? YannLeCun:多年来,人们一直致力于自动生成图像和视频的字幕和注释。

有一些方法看起来很有希望,但实际上并不那么可靠。

它们的用处很大程度上取决于它们的训练方式。

对于大多数系统来说,如果你向它们提供包含其他类型物体或在异常情况下的图像,它们的识别性能将是灾难性的。

他们不具备常识。

问:视觉和常识之间有什么联系? YannLeCun:这取决于你在和谁说话——即使在 Facebook 内部,人们对此也有不同的看法。

您可以仅使用语言与智能系统进行通信。

问题在于语言是一种带宽非常低的信息渠道。

人们能够通过语言传达大量信息,因为他们拥有大量的背景知识来解释这些信息。

其他人认为,向人工智能系统提供足够信息的唯一方法是基于视觉感知,而视觉图像比语言具有更多的信息内容。

这时,如果你告诉机器“这是一部智能手机”、“这是一台压路机”、“这里有一些东西你可以推,但这些不能”,那么机器可能会学到一些关于世界如何运转的基本知识。

这有点像婴儿的学习方式——婴儿在没有明确指导的情况下就了解了很多关于世界的知识。

我们确实希望机器通过观看视频或者其他方式来获取大量反映现实世界规律的事实。

这最终将使他们获得常识。

小动物和婴儿在生命最初几个月的学习过程非常有趣——他们仅通过观察就能在短时间内对世界产生惊人的理解。

如今的机器仍然很容易以各种方式被愚弄,因为它们对世界知之甚少。

问:在使智能系统通过观察进行学习方面取得了哪些进展? YannLeCun:学习系统应该能够预测未来。

我们对这个想法非常感兴趣。

你向学习系统展示几帧视频,它会预测接下来会发生什么。

如果我们能够训练一个可以完成此类工作的系统,那么我认为我们已经建立了无监督学习系统的基础技术。

我认为这将是一个可以发生很多有趣的事情的时刻。

它的应用范围不会仅限于机器视觉——这是我们在AI领域不断进步的重要组成部分。