当前位置: 首页 > 科技赋能

商汤科技CEO徐立!从图像识别到艺术创作,机器视觉如何超越人类?

时间:2024-05-22 20:12:58 科技赋能

文字|起源编辑| 4月,人工智能第三次浪潮风起云涌,行业大动荡。

在“GTIC全球(智能)科技峰会”上感受时代脉搏,看到未来。

3月10日,由智喜喜、AWE、集果等联合主办的“GTIC全球(智能)科技峰会”在上海证大喜玛拉雅中心正式开幕。

学术界、投资界、创业界、产业链在此展开激烈角逐,包括英伟达、Neato Robotics、科大讯飞、商汤科技、科沃斯机器人、纳恩博机器人、威马汽车、奇点汽车、宇视科技、歌尔股份、地平线机器人等近40家大咖云集轮流上台。

作为上半年人工智能领域的最高级别峰会,GTIC聚焦“机器人产业”、“汽车新势力”、“家庭物联网生活”等领域,探索掘金机会、消费技术变革下的升级和生态建设,带来前沿的实践经验和判断。

在上午的演讲活动中,商汤科技CEO徐立以“看得见的人工智能人机战争与极限突破”为主题发表演讲,讨论了人工智能在计算机视觉领域的突破以及突破带来的后果。

应用程序,以及是什么促成了这一突破。

以下为商汤科技CEO徐力演讲精髓: 1、深度学习诞生并停滞了很长一段时间才迎来爆发。

爆发节点是深度学习在计算机视觉领域的应用。

2、人工智能近60年的发展史,按作用路线可分为三个阶段: 1)劣于人类阶段。

一开始,人工智能的标准算法实际上无法超越人类。

2)人工智能的水平现在处于分界线——有些人工智能超越了人类。

人工智能的身份之一是生产力工具。

在某些领域超越人类后,它可以取代相当一部分人的工作。

3)第三阶段是人工智能超越专家的阶段。

普通人的能力相对容易被人工智能击败,但专家的能力更强大,数据更稀缺,人工智能更难训练到专家的水平。

超越专家的人工智能将带来服务和能力的升级。

3、计算机视觉是眼睛和大脑的结合,包括成像、感知和理解。

计算机视觉能力现已超越人类。

一方面,在感知方面,机器比人眼更敏锐,能够获得比人眼更多的信息(比如图像的准确深度信息)。

图像识别率高于人类;另一方面,在理解层面,机器在某种意义上也可以模仿人类来进行一些创造性活动。

4、深度学习驱动的计算机视觉超越人类的主要原因在于,之前的算法是人类创造的,代表了人类的意志。

他们自身的极限就是人类本身,自然很难超越人类。

深度学习驱动的计算机视觉不对原始数据做出假设,由纯数据驱动,因此不受人类限制。

从某种意义上说,机器视觉执行与人类不同的基于数据的理解活动。

以下为徐力在“GTIC全球(智能)科技峰会”演讲全文: 非常感谢主持人!也感谢智东西和AWE的邀请。

我很荣幸能在舞台上分享我对人工智能的思考。

其实我的题目叫“可见的人工智能”。

因为商汤科技从事的是计算机视觉,这是人工智能的一个比较大的分支。

计算机视觉通过我们谈论的图片和视频为您提供智能分析和理解,并帮助您制定预算。

我很高兴受邀参加这个会议,因为前两位演讲者非常令人兴奋,并对人工智能进行了回顾。

前两家公司都是市值数百亿的公司。

说到人工智能的普及,我不敢说我??们在这方面有多深,因为我们也是一家初创公司。

不过,让我们用一些数据来跟大家分享一下我们对这个行业的简单看法。

刚才大家提到深度学习是这波人工智能的核心技术。

所以我们整理了一个谷歌搜索引擎上深度学习关键词热搜数据库。

深度学习统计始于2018年。

深度学习这个词被创造出来后,并没有出现激进的增长。

到了某个时候,突然增加了。

开始爆炸。

我们的研究人员问我这张照片的意义是什么。

事实上,我们都看到了。

研究人员给出了这样的答案。

你看,深度学习真正的爆发在于深度学习在计算机视觉领域的应用。

由此可见,视野是一个非常大的产业,潜力巨大。

听到这个我很高兴。

这也是事实。

我们行业的认可。

接下来我们来说说人机大战。

大家一直觉得,这一波人工智能浪潮的兴起,或者说人工智能的普及,或者说大众对这个行业的关注,都来自于去年的一盘棋。

事实上,从这张图可以看出,人工智能已经在行业取得了突破。

我把人工智能定义为几个阶段。

第一阶段是不如人的阶段。

我自己做计算机视觉已经十到二十年了。

我们在做计算机视觉的时候,标准的人工智能算法其实并没有达到人类的准确率,所以不如人类。

阶段。

人工智能带来的核心突破是生产力工具。

当一种生产力工具达不到人类水平时,大规模的工业应用还很遥远。

这就是为什么人工智能在前10年,甚至近20年都没有进入行业。

取得了特别大的突破。

目前,我们一直在讨论智能超越??人类的问题。

事实上,我们现在正处于一个分界线,一些计算和一些人工智能超越了普通人。

超越常人才能提高效率。

第三阶段是超越专家阶段。

算法有不同的模型,数据也比常人多。

当我们处理数据问题时,通过引导学习和标注就可以轻松获得普通人的能力。

如果一两个专家的专业知识不是特别擅长,机器也可以获取。

我们想说,当人工智能大规模超越专家时,实际上会带来服务和能力的升级。

所以我这里讲的是如何在智能或者机器视觉方面超越人类。

我们谈论机器视觉是一个长期而广泛的行业,它分为两个部分。

其中一部分叫成像与感知,主要解决眼睛视力的问题。

我们可以看到,在我们现在看到的问题上,机器或者人工智能已经超越了人类。

第二部分叫感知和理解,代表大脑的问题。

因此,眼睛和大脑的结合串起了整个机器视觉的内容。

让我给你看这张照片。

这是一张模糊的图片。

请看一下。

这张照片是一张明信片。

谁能告诉我这张明信片是哪个城市的吗?我特别喜欢放这张图,因为我已经放过好几次了,很多人都看过这张图。

上次我演讲的时候,我举过手。

这张照片叫做多伦多。

我把箭头指向右边的小字。

机器可以通过一张模糊的照片,通过算法的进化,获得背后真人想要使用的知识。

我们看另一张图。

刚开始有雾霾的时候,我们看不到天空。

雾霾是影响我们视觉理解的核心问题。

这是我今年在北京拍的照片。

在这种情况下,我们的视觉理解是有缺陷的,人类无法透过深深的雾霾来很好地理解这一场景。

我们来看看我们的技术能做什么? ,蓝天白云,恢复良好。

所以我觉得大家不要相信朋友圈里关于出国度假的帖子。

事实上,其中许多都不是真的,而机器可以为你完成这一切。

除此之外,机器还能做什么呢?因为这些修复体只是增强了我们眼睛的功能,延长了人脸的能力。

另一方面,人类和机器在更具创造性的方面相互竞争,比如艺术创作。

例如,我们可以将雾霾照片变成一幅画。

我们现在所做的就是利用机器和人工智能算法,把一些原本看起来很无聊的照片变成一幅艺术画。

我们再举一个例子。

每个人都在谈论无人驾驶。

李院士还表示,如果天气不好,下雨了怎么办?我们将擦去雨水。

我们把它命名为人工智能抹布,可以擦掉玻璃上所有的雨滴。

这也是机器超越人类的体现。

说到艺术创作,这是一张埃菲尔铁塔的照片。

在网上搜索这张照片,搜索埃菲尔铁塔关键词,你就会找到这幅画。

机器已经修改了刚才的照片。

我们之前做了一个统计,把这两张照片拿给我们的一位员工来判断。

你觉得这两张照片哪一张更像是一幅人体画呢?看了半天,他告诉我,我觉得就是右边那个。

我问他为什么。

你可以看到右边的颜色画得不均匀,而且埃菲尔铁塔的网格很不规则,所以我觉得右边的是人画的,机器画的不会那么差。

从某种意义上说,机器有可能模仿人类的行为并真正做出一些创造性的事情。

我们再举一个例子。

人们不相信为什么机器比人画得更好。

这是国会大厦的照片。

我搜了一张截图,搜了一张国会大厦的画。

前三排只有一幅画。

由此可见,国会大厦太过普通,可能不适合作为绘画的好材料。

这幅作品叫《国会大厦现代绘画》,颇有诗意。

这幅画是搜索引擎中找到的唯一一幅国会大厦的名画。

看看机器画的是什么。

我们对比这张照片,让员工打分后,这张照片比刚才那张要好得多。

大家都认为这张照片更好。

机器有可能在某种程度上超越人类。

作为一种生产力工具,只有超越人类才能得到广泛应用,而这也是这一波人工智能产业爆发的起点。

刚才的一些应用,包括除雨、除雾霾,都可以在微博上验证。

让我们在手机上再做一次突破。

很多人都看过这张照片。

左边一张,右边一张,看看是否经过修图。

事实上,就是这样的一个房间。

房间里有一个人。

窗户本身有大有小。

线条是对角的,人们不知道图中发生了什么。

我们看到机器看到了什么?机器可以通过单张照片还原图片的景深,并且可以知道某个人与另一个人处于不同的深度级别。

这就是我们的算法可以做到的。

我们把现在的算法移植到手机上,手机上的单摄像头就可以产生类似单反的效果。

再举个例子,我们看看机器能做什么?它知道鞋子和鞋子后面的背景处于完全不同的深度。

普通照片可以营造出大光圈、前景深的效果,并且可以对焦到想要的地方。

这是我们的算法机器可以超越人类的部分。

第二个是理解,理解更好,因为对于很多事情来说,所有的认知和理解其实都代表了我们大脑对世界的反应。

了解这件事就具备了真正的人工智能。

商汤科技在学术界有一个人脸数据库,在这个环境数据库上超越了Facebook的算法。

我的脸识别能力超越人,但很多人不相信?对比一下网上的照片,为什么不%。

我问保安,几千人都说你孩子怎么了,这种情况怎么会有人比这个保安做得更好,我也很困惑。

就给他看这张照片吧,韩国小姐,把这张照片拿出来,感觉人确实是有保质期的。

机器能做的就是分析其背后的数据,获得不同于人类的理解能力。

现在我们来谈谈为什么机器可以超越人类。

我的哲学逻辑是这样的。

甚至我们2018年之前做的统计推理,实际上也是利用了很多人的知识来帮助机器做人工智能推理。

所以人工智能引导了智能的概念。

人工制导智能的极限是引导机器,因此很难超越人类。

如果不能超越人类,就很难大规模应用。

我们所做的一切纯粹来自于数据。

我们使用深度学习来消化大数据并从中创建模式,或提取数据中的模式。

我们称之为纯粹数据驱动。

只有在纯数据驱动的时代,才能实现超越人类的表现。

比如可以根据人脸进行搜索,你可以直接搜索你想看谁的电影。

让我向您展示机器超越人类的另一个概念。

这就是所谓的变脸。

当时有人说,你必须模仿别人以及如何化妆。

变脸之术是相当困难的。

我们左边的同事想要像左边的照片一样。

如果你在视频对话中看到一个又漂亮又帅的男人,千万不要相信。

事实上,很多人都是假的。

最后,让我给你一个猜测。

左边是一张很小的照片。

如果放大这张照片,就会是右边的照片。

因此,人脸只能看到这样的模糊。

事实上,理论上很难看清楚。

该算法可以从看到和理解的角度来还原和比较这张照片。

结果是这样的。

右边的图片是通过我们的算法恢复的。

如果恢复成这样,我们就比较一下。

那么今天演讲的主要内容就到这里啦!我想说的是,我们的机器算法在某种意义上做了超人的事情。