卷积神经网络之父:人工智能下一步从视频中学习常识,势头不输谷歌。如今,Facebook的人脸识别技术DeepFace已经能够识别超过4亿张人脸,但YannLeCun并不满足于此。他认为机器视觉不应该满足于图片识别。下一步是让机器从视频中“学习常识”。”。五年前,研究人员在图像识别的准确性方面取得了巨大突破。这背后的技术,人工神经网络,促成了最近人工智能的繁荣。它让谷歌和Facebook让你在照片中使用搜索roll,它使大量使用面部识别的应用程序成为可能。Facebook的AI研究团队的负责人和纽约大学的一位教授开创了神经网络在机器视觉领域的应用。他认为还有很多这个领域有很大的发展空间,在这个领域取得的进展可能会产生懂常识的软件系统。标记主题的类别。给定足够的数据——每个类别可能有一千张图像——我们可以识别相当具体的东西:比如某种品牌的汽车、某种植物品种、某种植物品种狗。我们还可以识别更抽象的事物,例如风景、日落、婚礼或生日派对。就在五年前,我们还不知道这个问题是可以解决的。(现在我们已经解决了这个问题)但这并不意味着视觉问题已经解决。问:那么还有哪些关键问题没有解决?YannLeCun:人们多年来一直致力于为图像和视频自动生成标题和注释。有一些看起来很有希望的方法,但实际上它们并不那么可靠。它们的适用性在很大程度上受到训练方式的限制。对于大多数系统,如果您向它们提供其他类型对象的图像或在异常情况下,它们的表现会很差。他们没有常识。问:愿景和常识之间有什么联系?YannLeCun:这取决于你与谁交流——即使在Facebook内部,人们对此也有不同的看法。您可以仅使用语言与智能系统进行交流。问题是语言是一种带宽非常低的信息通道。人们可以通过语言传达很多信息,因为他们有很多背景知识来解释这些信息。其他人认为,为人工智能系统提供足够信息的唯一方法是建立其视觉感知,而视觉图像比文字提供的信息量要大得多。这时,如果你告诉机器“这是智能手机”、“这是压路机”、“有些东西你可以推,有些东西不能推”,那么机器可能会学到一些关于世界运转的基本知识。这有点像婴儿的学习方式——婴儿在没有明确指导的情况下可以了解很多关于世界的知识。我们非常希望机器通过观看视频或其他方式获取大量反映现实世界规律的事实。这最终会给他们常识。小动物和婴儿在生命最初几个月的学习过程非常有趣——他们仅仅通过观察就能在短时间内对世界产生惊人的理解。而今天的机器仍然很容易以各种方式被愚弄,因为它们对这个世界知之甚少。问:在使智能系统能够从观察中学习方面取得了哪些进展?YannLeCun:一个学习系统应该能够预测未来,我们对这个想法很感兴趣。你向学习系统展示几帧视频,它会预测接下来会发生什么。如果我们能够训练出一个可以做这种工作的系统,那么我认为我们已经建立了无监督学习系统的基础技术。我认为这将是一个节点,它开启了很多有趣的事情的可能性。它也不限于机器视觉——我们在人工智能领域不断进步的重要组成部分。
