当前位置: 首页 > 科技赋能

难得一见的清华深度学习课程!我们“偷”了全套干货

时间:2024-05-22 20:11:28 科技赋能

文章|丽娜,请叫我“杨丽坤”,谢谢! Yann LeCun,本名Yann LeCun,自称“杨立坤”,被业界称为“卷积神经网络之父”。

他也是深度学习三巨头之一(另外两位是Geoffrey Hinton和Yoshua Bengio)。

目前就职于Facebook人工智能研究院院长,兼任纽约大学教授。

3月23日,这位深度学习专家来到北京,在清华经管学院、清华x-lab和Facebook联合开设的课程中,以《深度学习与AI未来》为主题,进行了2小时的英语演讲。

来到现场。

演讲一开始,颜乐存在幻灯片上打出了自己的新中文名字——“杨立坤”,引起全场笑声。

Yann LeCun 自己也忍不住笑了。

在国内AI圈子里,人们常说Yann LeCun被戏称为“杨乐康”,有时还会戏称LeCun的拼音为“杨乐村”。

不知道这话有没有传到这位又搞笑又可爱的技术专家的耳朵里呢? 。

智兮兮梳理了本次演讲的要点和脉络,并补充了相关背景知识,帮助大家详细了解深度学习的发展现状、成就、困境以及前沿突破尝试。

此外,Yann LeCun 还亲自回应了智动智关于 Facebook 削减 AI 预算的报道,以及十年前的两次赌注等科技八卦。

1、Facebook AI研究院与卷积神经网络 Facebook人工智能研究院的全称是FAIR(Facebook人工智能研究院)。

主要研究人工智能相关的科学技术,以及其在各个领域的应用——例如计算机视觉、对话等。

系统、虚拟助理、语音识别、自然语言识别等。

据说是一个学术氛围浓厚的研究所。

研究方向比较自由宽松,没有近期的产品压力。

它可以长期关注解决困难和重要的研究问题。

Yann LeCun不仅是FAIR的领导者,也是卷积神经网络(CNN,Convolutional Neural Nets)的发明者之一。

卷积神经网络是深度学习的一个重要分支,也是第一个真正多层结构的学习算法——而深度学习中“深度”最简单的理解就是“多层”。

“深度学习的深度指的是不止一层的非线性特征变换。

(如果有多于一级的非线性特征变换,那就是深度)”目前,常见的深度学习模型包括牛津大学视觉几何组VGG网络、Google的GoogLeNet、Facebook的深度残差网络ResNet等。

近年来,随着随着深度学习的不断兴起,擅长处理图像(尤其是大图像)的卷积神经网络也被视为开发可扩展的自动自然语言理解和图像识别工具,甚至语音识别和视觉搜索系统的基本构件Facebook 的 AI 实验室也在 YannLeCun 和一群专家的带领下快速推进,不过,3 月初,据 The Information(曾批评 Magic Leap 的媒体)报道,尽管 Facebook 一直在开发 Messenger 聊天机器人——相关内容的研发,结果并不理想,在没有人工干预的情况下,Messenger 能够正确处理人类请求的时间不到 30%。

因此,Facebook目前正在削减机器学习和人工智能方面的研发支出。

这个问题是直接问 Yann LeCun 教授的。

作为Facebook AI研究院院长,他坚决拒绝。

“不,根本不存在这样的事情。

》2.卷积神经网络在Facebook中的应用。

作为Facebook人工智能研究院院长,Yann LeCun的演讲自然包括了卷积神经网络和深度学习在Facebook中的应用。

第一个提到的就是DeepFace。

DeepFace是一个FAIR开发的人脸识别系统主要利用卷积神经网络提取人脸特征来完成识别,Facebook用户每天上传的图片数量已达8亿张,有大量的数据可供机器训练和学习。

此外,Yann LeCun 还提到了 FAIR 开发的一项技术,用于检测、分割和识别单个图像中的每个对象,例如检测、分割和识别盘子中的西兰花,或者从一群羊中分割每只羊,其核心流程为以下三步(去年8月开源): 1)使用新框架DeepMask进行物体检测和分割,生成初始物体掩模(Mask,相当于覆盖区域); 2)使用SharpMask模型来优化这些对象掩模; 3)使用MutiPathNet卷积网络识别每个掩码框出的对象。

值得一提的是,MutiPathNet采用了一种新型的对象实例分割(Instance Segmentation)框架:Mask R-CNN。

这是FAIR研究员Kaiming He最近公布的研究成果,他也是深度残差网络ResNet的作者之一。

它是 Faster R-CNN 的扩展形式,可以有效地检测图像中的目标,同时还可以为每个实例生成高质量的分割掩模。

3.常识是个好东西,希望每个人都有。

此外,Yann LeCun还提到了当今AI发展遇到的几大难点:1)机器需要学习/理解世界(包括物理世界、数字世界和人类世界)的运行规则。

&#;&#;获得一定程度的常识)2)机器需要学习大量的背景知识(通过观察和行动)3)机器需要了解世界的状态(做出准确的预测)和计划) 4)机器需要更新并记住对世界状态的估计(关注重大事件,记住相关事件) 5)机器需要逻辑分析和规划(预测哪些行动可以将世界带到目标状态)目前机器学习最大的挑战之一是如何让机器拥有常识——即赋予机器填空的能力。

例如,“约翰拿起他的包离开了房间。

”因为人类有常识,我们可以知道约翰在这个过程中需要站起来、开门、走出去——他不会躺着出去,也不会出去。

它会从关闭的门出去,但机器不知道这一点。

或者我们即使只看到半张脸也能认出这个人是谁,因为根据人类常识,左右脸通常看起来很相似,但机器也不具备这种能力。

下面提到的无监督/预测学习可以让机器获得常识,这是我们现在常用的监督学习无法做到的。

从本质上讲,生物大脑在无监督学习方面比我们的模型要好得多。

4.无监督学习本身就是蛋糕。

“是的,是的,我知道你在想什么——蛋糕的比喻又来了,”切换到这张幻灯片时,Yann LeCun 笑着说道,“这已经是我在人工智能领域开的一个玩笑了。

”在大大小小的无数次演讲中,Yann LeCun 不止一次、甚至十多次做过这样的比喻:如果说人工智能是小菜一碟,那么强化学习(Reinforcement Learning)就是蛋糕上的一颗樱桃,监督学习就是。

是蛋糕外面的糖霜,但无监督/预测学习才是蛋糕本身。

到目前为止我们只知道如何制作糖霜和樱桃,但不知道如何制作蛋糕。

我们目前用来训练深度神经网络的大多数方法都是监督学习。

您向系统显示图像并告诉它这是一辆汽车,它会相应地调整其参数并在下次说“汽车”。

然后你向它展示一张桌子和一个人。

经过几百个例子和几天到几周的计算时间,它找到了答案。

“这其实并不是一个很复杂的概念。

”其次,对于AI系统来说,预测+规划=逻辑分析(Predicting+Planning=Reasoning)。

如果想让机器理解并预测世界的规律,强化学习(Reinforcement Learning)需要构建一个世界模拟器(World Simulator)来模拟现实世界的逻辑、原理、物理规律等。

然而现实世界过于复杂,表示学习参数数量众多,这使得机器学习的计算量相当冗余。

这听起来很诱人,但数亿个参数无法在有限的时间内学习。

无监督学习需要机器处理大量未标记的数据,就像给它一堆狗照片而不告诉它它是狗一样。

机器需要找到自己的方式来区分不同的数据子集、集群或类似图像,有点像婴儿了解世界的方式。

5、无监督学习方面的一些突破性尝试和成果。

无监督学习的一个主要困难在于不确定性的预测。

例如,当你把一支笔直立在桌子上时,当你松开手的那一刻,你不知道笔会向哪个方向落下。

如果系统回答笔会落下,但误判了落下的方向,我们需要告诉系统,虽然你不完全正确,但你本质上是正确的,我们不会惩罚你。

这时需要引入面的成本函数。

只要系统回答了表面之下的数据,那就是正确的答案。

传统的神经网络需要人类科学家精心设计的成本函数来指导学习。

为了解决这个问题,无监督学习使用生成对抗网络(Generator Adversarial Networks)对机器进行对抗训练(Adversarial Training)。

这已成为关键答案。

生成对抗网络(Generator Adversarial Networks)是一种用于无监督学习的神经网络:它有一个生成器,可以根据随机输入生成某些类型的假数据(例如假图片);假数据和来自世界的真实数据会一起输入到一个判别器(Discriminator)中,等待判别器的决定。

两人的关系就像说谎者和测谎仪的关系。

鉴别器,即测谎器,必须不断优化自身,尽可能识别生成器生成的“假图像”,防止自己被欺骗;而生成器,即说谎者,也必须不断改进,才能躲避鉴别器。

在这种动态对抗中,生成器将被训练并最终开始生成非常逼真的图像,这意味着生成器掌握了图像的特征并掌握了成本函数本身——从某种意义上来说,这就是无监督学习。

6. 说完了人工智能的未来技术,我们来谈谈行业。

在演讲后的问答环节,Yann LeCun回答了几个与人工智能在行业应用相关的问题。

他认为,未来人工智能将在自动驾驶、语音通讯(如翻译)、工业制造等行业得到应用和快速变革(随着机器人在工业制造中的普及,当前“全球工厂”的趋势)随着工业制造越来越多地在本地完成,导致城市建筑设计的变化,以及医疗卫生领域(例如癌症检测)的变化,“意愿将会下降”。

此外,Yann LeCun认为,对于很多科幻小说中提出的“超级智能”最终能够“推翻人类”、“统治人类”,我们确实不需要太过担心。

人类的大多数行为,如占领、统治、斗争等,都是在一代又一代的进化过程中,以“希望获得资源”为目的所驱动的。

如果我们想要一台机器做某事,我们需要赋予它这种能力并为此目的构建机器。

今天我们制造了在特定领域比人类更聪明的机器,但人工智能不会真正统治世界,因为我们不会为此目的而这样做。

7、十年协议和两个小赌注 早在 20 世纪 80 年代末,Yann LeCun 作为贝尔实验室的研究员就提出了卷积网络技术,并展示了如何利用它来大幅提高手写识别能力。

他在演讲中还提到了贝尔实验室今年的两个有趣的赌注。

押注方是:贝尔实验室前负责人拉里·杰克尔(Larry Jackel)和支持向量机(Support Vector Machine)的创建者之一弗拉基米尔·瓦普尼克(Vladimir Vapnik)。

第一个赌注:拉里·杰克尔相信,最迟到今年年底,我们将对神经网络为何有效有一个成熟的理论解释。

第二个赌注:Vladimir Vapnik 认为,到了这一年,大家将不再使用神经网络的结构。

(毕竟他是支持向量机的创造者之一,自然更认可支持向量机。

) 那么赌注的结果呢? ——两个人都输了。

对于神经网络为何如此有效,我们仍然没有一个成熟的解释。

与此同时,我们仍在使用神经网络架构。

终于,这一年,他们吃了一顿昂贵的晚餐,把赌注兑现了,由于两人各输了一场,所以账单就平分了。

结论:作为Facebook人工智能实验室主任、卷积神经网络之父、深度学习三巨头之一,Yann LeCun的演讲比文章所反映的内容学术性要强得多。

除了上述重点内容外,Yann LeCun教授的演讲还谈到了2017年至今深度学习的发展,将能量函数引入神经网络结构的无监督学习、基于能量的生成对抗网络(EBGAN)、深度卷积生成对抗网络(DCGAN)、视频内容预测等。

在智秀东西方对话页面回复“FaceBook”即可获取Yann LeCun清华大学演讲的全部PPT。

这里我就不一一展开了。