当前位置: 首页 > 科技赋能

旷视科技首席科学家孙健!计算机视觉研究如何改变我们的生活?

时间:2024-05-22 11:18:35 科技赋能

计算机视觉是一个听起来很遥远的术语。

但它的应用你肯定会很熟悉。

例如,在今天的一些城市,如果你随意闯红灯,你可能会被路口摄像头拍到。

从美颜自拍到增强现实 (AR) 和虚拟现实 (VR) 游戏,以及使用无人机检测难以到达的区域的高压线,计算机视觉都在幕后参与。

在这一领域,孙坚博士是领军人物之一。

2011年和2017年,孙健在计算机视觉领域的顶级会议CVPR(IEEE计算机视觉与模式识别会议)上获得最佳论文。

2016年,他还被评选为《MIT技术评论》35岁以下青年创新者之一。

通过设计层上的神经网络ResNets,孙健领导的微软亚洲研究院团队在ImageNet和MS COCO竞赛中获得了五项一等奖。

在微软研究院从事13年研究后,他于今年7月加入旷视科技,担任首席科学家兼研究院院长。

旷视研究院从事基础和应用研究,重点关注深度学习算法、架构和数据科学。

近日,孙健带领的旷视研究院团队在COCO和Places Challenge比赛中斩获三项冠军。

孙健博士在不久前举行的CCF-GAIR全球人工智能与机器人峰会上发表题为《云、端、芯上的视觉计算》的演讲后,接受了《知识分子》的独家专访。

他用自己的研究经历来说明计算机视觉研究如何改变我们的生活。

计算机视觉的核心问题没有改变《知识分子》:年复一年,您一直在西安交通大学学习、做研究。

当时计算机视觉的研究格局与现在有很大不同,对吗?孙健:其实研究问题是一样的。

计算机视觉研究的问题几乎没有改变,因为核心问题是研究如何做分类检测、识别和跟踪,大致就是这些问题。

西安交通大学“人机学院”成立已有30多年历史。

刚成立时,它的名字叫人工智能与机器人研究所。

当时有人在做影像。

例如,有一些国防项目使用摄像头来观察汽车并对其进行跟踪。

这所需的汽车检测和跟踪与我们今天所做的相同。

还有机器人项目。

当时,国有机器人还很少。

我的导师郑南宁先生从日本进口了机械臂设备。

我们有一个专门的机器人团队来研究如何控制这个机器人,学习里面的基础知识,以及操作机器人抓取东西。

,与今天的研究相同。

目前,这个方向已经取得了很大进展,但还不够。

需要更多的进展,因为这是一个更困难的问题——感知问题。

如果我们只是被动地看到世界,如何能主动地与世界互动呢?这更加困难。

的。

如果你看一下,教计算机很容易,给它一张图片,它就可以学习;但在交互过程中,很难提供大规模的交互例子给计算机让它理解,所以这是最难的。

《知识分子》:当时你做了什么研究?孙健:人机所成立初期,其实有很多研究数学的老师和博士。

我们最早做了大量的机器学习。

我学习了机器学习的基础知识和概念以及如何在人机领域进行机器学习,然后将其应用到计算机视觉中。

例如,在我的本科毕业设计中,我制作了一个硬件设备(硬件电路板)来实现混沌神经网络。

当然,现在它已经不是主流了。

混沌神经网络可以记忆一些模式并使用硬件实现。

因为当时的计算能力无法在CPU上完成,所以这必须在硬件上完成。

我在读硕士的时候,用神经网络做了人脸检测和简单的人脸识别。

但实际上,当时的人脸识别仅限于识别人脸或者部分车牌,在一定程度上是可以实现的。

我博士的方向是3D感知,也就是立体匹配。

计算机视觉有两个核心问题:一是3D重建;另一个是认可。

通过这种方式,我了解了计算机视觉的一些基本问题。

《知识分子》:LeCun教授提出了LeNet-5,它使用卷积神经网络。

当你是高手的时候,神经网络是什么样的?孙健:我当时用的神经网络不是卷积神经网络。

它们可以被认为是对全连接网络的一些改进,包括一些分组,这有点类似于卷积。

卷积神经网络是我毕业(本科)之后才出现的。

它们首先用于手势识别和光学字符识别(Optical Character Recognition,OCR)。

没有人认为这会是一件好事。

就是这样。

后来,2000年支持向量机(SVM)出现并统一了世界。

大家都在研究这个,所以关注神经网络的人就更少了。

《知识分子》:您获得了2016年CVPR最佳论文奖?孙坚:是的。

那篇论文不是关于深度学习,而是关于计算摄影。

计算摄影有什么作用?比如我们公司有一个业务叫手机智能。

它不制造手机,而是为手机提供核心算法。

人脸解锁是一个很大的应用,另外一个就是如何让照片更加精准。

更好看。

计算摄影是我博士后的一个研究方向,研究如何通过软件和硬件的改造,拍出更好的照片或者普通技术拍不到的照片。

比如今天我们用手机虚化背景,模拟单反照片的效果。

这就是计算摄影——修改相机硬件可以实现这样的新效果,添加人工智能算法可以提高图像质量。

计算摄影是计算机视觉和图形学的交叉点,我从事这项工作已经很长时间了。

那个时候手机还没有那么强大。

完成后,目标是将它们安装在单反相机和袖珍相机中。

然而,这些制造商(实际上确实如此)没有那么有能力和愿意做出快速改变,因此他们并没有广泛应用于相机或单反相机上,大概是在十多年前。

如今,时代变了。

相机具有非常强大的计算能力并且具有非常好的图像传感器。

即使是在晴天拍出的照片也和用单反相机拍出来的没有什么区别。

另外,目前手机厂商也非常重视这个方向。

如果你看手机发布会,基本上照片拍摄的效果是比赛中的一个亮点,所以这也是我们目前投入很大的一个方向。

我们去年成立了旷视研究院西雅图分院,专门研究计算摄影在手机上的创新和应用。

我自己也觉得挺感慨的。

我曾经做过研究,完成后发表一些文章。

Photoshop最多可能会使用一些这样的算法,这距离现实生活还很远。

今天,我真的可以利用深度学习方法再次做到这一点。

很高兴这样的问题可以很快用在手机上。

卷积神经网络来了《知识分子》:您是什么时候开始研究和使用卷积神经网络的?孙健:2009年,我在微软带领团队开始研究卷积神经网络。

AlexNet于2008年问世,但刚问世时,没有人相信它(它有多好),尤其是在计算机视觉领域。

因为 AlexNet 仅针对 ImageNet,所以我们不知道它是否过度拟合 ImageNet 或者它是否也适用于其他任务。

2017年,尤其是伯克利的RCNN(Regions with CNN features)的出现,使得其他数据集的检测得到了很大的提升。

它的用途真的非常多,所以大家都很重视。

我们从2016年开始研究,2016年第一次参加ImageNet,在物体检测方面取得了第二名。

2016年参加比赛时,ResNet已经内部开发,ImageNet获得了三个第一,COCO获得了两个第一。

而COCO,仅仅通过使用ResNet,就已经进步了很多。

这是我在微软的工作。

事实上,与此同时,旷视科技也很早。

它可能从 2008 年开始使用深度学习进行人脸识别。

我什至还没有到达旷视科技。

他们当时获得了人脸检测、识别、关键点定位三个世界冠军。

这也是他们非常早期的工作。

旷视科技是最早将深度学习用于计算机视觉的初创公司之一。

《知识分子》:公众对人工智能和深度学习的兴趣大部分来自于 AlphaGo 这样的东西。

研究人员似乎突然涌向卷积神经网络的原因是什么?孙健:我认为拥抱卷积神经网络也是浪费时间。

几年来。

2000年AlexNet问世时,仍然有人持怀疑态度,不相信。

从2009年到现在已经五年了,大家也慢慢接受了。

深度学习的核心思想是它具有端到端学习的思想,并且不需要人类尽可能地设计复杂的系统,因为人类的设计能力是有限的。

所以更多的人用这个想法来做事。

并不是说这个想法新,而是如果这个想法有效的话,就会有更多的人愿意主动去使用它。

从图像识别的角度来看,从ImageNet或者大规模数据中学习到的特征确实非常通用。

这个特征并不是指提取语义特征,而是指它可以分离很多东西。

例如,ImageNet 的模型非常容易在医学图像上使用。

医学图像数据相对较少。

先用ImageNet训练,然后根据提取的特征用少量数据再次学习可以提供很大的帮助。

否则的话,医学图像数据这么少,又没有好的特征,真的很难。

做一点事。

《知识分子》:您和您的合作者在2018年提出了ResNet,它解决了什么问题?孙健:训练优化问题。

在我们开发它之前,GoogleNet 和 VGG 可能是最好的网络,大约有 20 层。

增加更多层是不行的,训练也无法进行;否则训练难度会很高,说明整体优化没有做好。

事实上,机器学习大概需要解决三个问题。

一是系统能否适配,能力是否足够。

例如,一个非常简单的线性分隔符可能无法表示像AlphaGo那么复杂的映射关系。

如果你添加很多层这样的神经网络,能力就足够了。

然而,这仅仅意味着理论能力足够了。

第二个要解决的问题是如何拟合,也就是训练优化问题。

ResNet解决了这个问题。

当然,加入ResNet之后,现在可以说任何深度层都可以拟合。

常用的是几十层或者一两百层的网络。

今天还没有很好解决的第三个问题是推广能力的问题。

例如,在训练数据和测试数据时确认网络是好的。

如果突然来了一个新场景,它也能做好吗?比如突然刮风下雨的天气,来了一辆奇怪的车。

有东西从车上掉下来。

这东西以前从未见过。

这就需要有推广能力。

这无法从训练数据中大规模收集。

无论是今天的深度学习还是人工智能,这个问题仍然是一个需要长期解决的问题。

这一点与人不同。

人们有推理、抽象和先验知识。

很多东西可以帮助我们解决泛化能力和泛化能力的问题。

这是深度学习要解决的下一个问题。

比如人脸识别已经解决得很好,但是还有很多任务还不是那么好。

《知识分子》:从研究方法上来说,现在有很大的变化吗?深度学习和卷积神经网络都是用来做什么的?孙坚:是的。

您必须将其用作基础知识,并结合一些特定问题的领域知识。

您使用的领域知识越多越好。

现在深度学习已经成为一种工具。

我们刚刚从 CVPR 回来。

纵观今年的发展热点,深度学习已经无处不在。

有些谈话非常有趣。

演讲者一开始就说我的演讲没有涉及深度学习,也没有使用深度学习。

以前有一篇专题论文,题目是《Deep Learning XXX》。

如今,这样的论文题目已经很少了,但它们确实深入到了问题本身。

从长远来看,机器学习将发挥更大的作用《知识分子》:每个人都在使用深度学习。

以前的传统方法会被彻底抛弃吗?孙坚:没有完全放弃。

比如3D就不能放弃。

3D几何的这些关系,不能这么简单地描述。

包括图像,其实深度学习今天已经可以做得很好了,但是实际上当我们在做很多深入的视觉理解的时候,拟合一个函数是不够的。

还有很多限制,我们无法对非拟合函数进行一些推理。

功能。

例如,如果两张扑克牌叠得很近,今天的方法可能无法很好地检测出两张牌,但人们知道这张牌是正方形的,多出来的角是异常的,所以他们可以用推理来检测两张卡。

推出来,下面还有一张卡。

只有拥有强大先验信息的人才能很好地解决这个问题。

《知识分子》:您今天的主题是“云核心中的计算机视觉”。

您认为云、终端、芯片的需求有何不同?孙健:不需要考虑云上的计算量、内存访问量、模型大小。

有些问题或边界非常松散的问题需要精确度。

最后,比如在手机上,它的计算量、内存访问模式和所需的模型大小都是不同的。

如今,由于设计网络结构仍然是手工任务,在云端设计的模型肯定不是端上的最优设计,所以需要在端进行设计才能得到更好的结果。

这同样适用于芯片。

不仅结构需要调整,内部网络表示也必须以低精度的方式表达。

其实这也是神经网络一个非常神奇的特性,因为我们一般用32位浮点数来表示里面的一切。

信号,但它(神经网络)实际上非常鲁棒。

它不使用 32 位,而是仅用几个位就可以很好地传播此信息流。

因为我相信真正的人类神经系统不会使用32位浮点数来表示信号,所以首先我们必须设计这样一个算法来适应现有的硬件;其次,其实芯片是一个发展非常快的行业。

设计芯片的时候一定要考虑到这个特点,用低精度来设计芯片,这样才能做得很好。

我相信这样的芯片会在很多设备上流行起来,这样云上的一些计算就可以围绕这个芯片来完成。

今天,这种发展速度非常快。

这远远超出了摩尔定律所能界定的范围,大约需要几个月的时间来计算。

功耗增加一倍,或者说计算量不变,但功耗减少一半。

这个范围很广。

《知识分子》:设计各种网络看起来就像艺术。

你是在什么基础上设计算法的?孙健:其他科学没有科学这个词,但是计算机科学增加了一个科学,实际上计算机科学中的大多数算法都是设计出来的,这与物理和生物实验中的发现不同。

我们的深度学习方法有点像计算机科学,比如排序算法是如何设计的。

排序算法有很多种,并不是通过实验开发出来的。

另一方面,它(神经网络)又和那些纯粹的算法不一样。

和数据有关系。

如果说与数据有关,那么也与平台有关。

所以核心就是要对一些要解决的问题有非常深入的认识。

,有很多细节需要了解,了解整个网络在不同情况下会做什么,然后从小点开始,抓住小点,把小点做大,慢慢设计。

《知识分子》:您觉得微软的研究氛围如何?孙健:鼓励基础研究。

在深度学习中,有梯度下降算法、反向传播算法,最后监督信号决定系统会是什么样子。

我觉得在任何一个组织中,你希望组织做什么、不做什么,就相当于一个监督信号。

训练一个可以接受正样本和负样本的分类器,这个组织会自动回传并监督信号形成其特征,就像深度学习一样。

微软研究院鼓励基础创新和对前沿问题的长期研究,这样才能取得新的突破。

《知识分子》:在人工智能研究和教育方面,旷视科技与大学和科研机构有合作吗?孙健:我们在南京设立了研究院,并与南京大学有合作。

我们与西安交通大学人体机械研究所和上海科技大学合作建立了联合实验室,全龙教授也在香港科技大学建立了实验室,因为他们想要要实现互补——3D认知和图像识别必须结合在一起。

接下来我们会寻找与我们互补的人,无论是学校还是研究机构,来做这种合作。

《知识分子》:年轻人都来学习AI了。

你能给他们什么样的体验?孙健:如果从长远来看,机器学习从长远来看会产生更大的影响。

虽然我们今天谈论人工智能,但实际上大部分都是机器学习的基础知识,包括如何利用统计来思考问题。

也许很多做事的方式都是这样完成的。

我认为学习这些从长远来看是非常有益的。