当前位置：首页 > 科技赋能

商汤科技CEO徐立！从图像识别到艺术创作，机器视觉如何超越人类？

时间：2024-05-22 20:12:58 科技赋能

文字|起源编辑| 4月，人工智能第三次浪潮风起云涌，行业大动荡。

在“GTIC全球（智能）科技峰会”上感受时代脉搏，看到未来。

3月10日，由智喜喜、AWE、集果等联合主办的“GTIC全球（智能）科技峰会”在上海证大喜玛拉雅中心正式开幕。

学术界、投资界、创业界、产业链在此展开激烈角逐，包括英伟达、Neato Robotics、科大讯飞、商汤科技、科沃斯机器人、纳恩博机器人、威马汽车、奇点汽车、宇视科技、歌尔股份、地平线机器人等近40家大咖云集轮流上台。

作为上半年人工智能领域的最高级别峰会，GTIC聚焦“机器人产业”、“汽车新势力”、“家庭物联网生活”等领域，探索掘金机会、消费技术变革下的升级和生态建设，带来前沿的实践经验和判断。

在上午的演讲活动中，商汤科技CEO徐立以“看得见的人工智能人机战争与极限突破”为主题发表演讲，讨论了人工智能在计算机视觉领域的突破以及突破带来的后果。

应用程序，以及是什么促成了这一突破。

以下为商汤科技CEO徐力演讲精髓： 1、深度学习诞生并停滞了很长一段时间才迎来爆发。

爆发节点是深度学习在计算机视觉领域的应用。

2、人工智能近60年的发展史，按作用路线可分为三个阶段： 1）劣于人类阶段。

一开始，人工智能的标准算法实际上无法超越人类。

2）人工智能的水平现在处于分界线——有些人工智能超越了人类。

人工智能的身份之一是生产力工具。

在某些领域超越人类后，它可以取代相当一部分人的工作。

3）第三阶段是人工智能超越专家的阶段。

普通人的能力相对容易被人工智能击败，但专家的能力更强大，数据更稀缺，人工智能更难训练到专家的水平。

超越专家的人工智能将带来服务和能力的升级。

3、计算机视觉是眼睛和大脑的结合，包括成像、感知和理解。

计算机视觉能力现已超越人类。

一方面，在感知方面，机器比人眼更敏锐，能够获得比人眼更多的信息（比如图像的准确深度信息）。

图像识别率高于人类；另一方面，在理解层面，机器在某种意义上也可以模仿人类来进行一些创造性活动。

4、深度学习驱动的计算机视觉超越人类的主要原因在于，之前的算法是人类创造的，代表了人类的意志。

他们自身的极限就是人类本身，自然很难超越人类。

深度学习驱动的计算机视觉不对原始数据做出假设，由纯数据驱动，因此不受人类限制。

从某种意义上说，机器视觉执行与人类不同的基于数据的理解活动。

以下为徐力在“GTIC全球（智能）科技峰会”演讲全文：非常感谢主持人！也感谢智东西和AWE的邀请。

我很荣幸能在舞台上分享我对人工智能的思考。

其实我的题目叫“可见的人工智能”。

因为商汤科技从事的是计算机视觉，这是人工智能的一个比较大的分支。

计算机视觉通过我们谈论的图片和视频为您提供智能分析和理解，并帮助您制定预算。

我很高兴受邀参加这个会议，因为前两位演讲者非常令人兴奋，并对人工智能进行了回顾。

前两家公司都是市值数百亿的公司。

说到人工智能的普及，我不敢说我??们在这方面有多深，因为我们也是一家初创公司。

不过，让我们用一些数据来跟大家分享一下我们对这个行业的简单看法。

刚才大家提到深度学习是这波人工智能的核心技术。

所以我们整理了一个谷歌搜索引擎上深度学习关键词热搜数据库。

深度学习统计始于2018年。

深度学习这个词被创造出来后，并没有出现激进的增长。

到了某个时候，突然增加了。

开始爆炸。

我们的研究人员问我这张照片的意义是什么。

事实上，我们都看到了。

研究人员给出了这样的答案。

你看，深度学习真正的爆发在于深度学习在计算机视觉领域的应用。

由此可见，视野是一个非常大的产业，潜力巨大。

听到这个我很高兴。

这也是事实。

我们行业的认可。

接下来我们来说说人机大战。

大家一直觉得，这一波人工智能浪潮的兴起，或者说人工智能的普及，或者说大众对这个行业的关注，都来自于去年的一盘棋。

事实上，从这张图可以看出，人工智能已经在行业取得了突破。

我把人工智能定义为几个阶段。

第一阶段是不如人的阶段。

我自己做计算机视觉已经十到二十年了。

我们在做计算机视觉的时候，标准的人工智能算法其实并没有达到人类的准确率，所以不如人类。

阶段。

人工智能带来的核心突破是生产力工具。

当一种生产力工具达不到人类水平时，大规模的工业应用还很遥远。

这就是为什么人工智能在前10年，甚至近20年都没有进入行业。

取得了特别大的突破。

目前，我们一直在讨论智能超越??人类的问题。

事实上，我们现在正处于一个分界线，一些计算和一些人工智能超越了普通人。

超越常人才能提高效率。

第三阶段是超越专家阶段。

算法有不同的模型，数据也比常人多。

当我们处理数据问题时，通过引导学习和标注就可以轻松获得普通人的能力。

如果一两个专家的专业知识不是特别擅长，机器也可以获取。

我们想说，当人工智能大规模超越专家时，实际上会带来服务和能力的升级。

所以我这里讲的是如何在智能或者机器视觉方面超越人类。

我们谈论机器视觉是一个长期而广泛的行业，它分为两个部分。

其中一部分叫成像与感知，主要解决眼睛视力的问题。

我们可以看到，在我们现在看到的问题上，机器或者人工智能已经超越了人类。

第二部分叫感知和理解，代表大脑的问题。

因此，眼睛和大脑的结合串起了整个机器视觉的内容。

让我给你看这张照片。

这是一张模糊的图片。

请看一下。

这张照片是一张明信片。

谁能告诉我这张明信片是哪个城市的吗？我特别喜欢放这张图，因为我已经放过好几次了，很多人都看过这张图。

上次我演讲的时候，我举过手。

这张照片叫做多伦多。

我把箭头指向右边的小字。

机器可以通过一张模糊的照片，通过算法的进化，获得背后真人想要使用的知识。

我们看另一张图。

刚开始有雾霾的时候，我们看不到天空。

雾霾是影响我们视觉理解的核心问题。

这是我今年在北京拍的照片。

在这种情况下，我们的视觉理解是有缺陷的，人类无法透过深深的雾霾来很好地理解这一场景。

我们来看看我们的技术能做什么？，蓝天白云，恢复良好。

所以我觉得大家不要相信朋友圈里关于出国度假的帖子。

事实上，其中许多都不是真的，而机器可以为你完成这一切。

除此之外，机器还能做什么呢？因为这些修复体只是增强了我们眼睛的功能，延长了人脸的能力。

另一方面，人类和机器在更具创造性的方面相互竞争，比如艺术创作。

例如，我们可以将雾霾照片变成一幅画。

我们现在所做的就是利用机器和人工智能算法，把一些原本看起来很无聊的照片变成一幅艺术画。

我们再举一个例子。

每个人都在谈论无人驾驶。

李院士还表示，如果天气不好，下雨了怎么办？我们将擦去雨水。

我们把它命名为人工智能抹布，可以擦掉玻璃上所有的雨滴。

这也是机器超越人类的体现。

说到艺术创作，这是一张埃菲尔铁塔的照片。

在网上搜索这张照片，搜索埃菲尔铁塔关键词，你就会找到这幅画。

机器已经修改了刚才的照片。

我们之前做了一个统计，把这两张照片拿给我们的一位员工来判断。

你觉得这两张照片哪一张更像是一幅人体画呢？看了半天，他告诉我，我觉得就是右边那个。

我问他为什么。

你可以看到右边的颜色画得不均匀，而且埃菲尔铁塔的网格很不规则，所以我觉得右边的是人画的，机器画的不会那么差。

从某种意义上说，机器有可能模仿人类的行为并真正做出一些创造性的事情。

我们再举一个例子。

人们不相信为什么机器比人画得更好。

这是国会大厦的照片。

我搜了一张截图，搜了一张国会大厦的画。

前三排只有一幅画。

由此可见，国会大厦太过普通，可能不适合作为绘画的好材料。

这幅作品叫《国会大厦现代绘画》，颇有诗意。

这幅画是搜索引擎中找到的唯一一幅国会大厦的名画。

看看机器画的是什么。

我们对比这张照片，让员工打分后，这张照片比刚才那张要好得多。

大家都认为这张照片更好。

机器有可能在某种程度上超越人类。

作为一种生产力工具，只有超越人类才能得到广泛应用，而这也是这一波人工智能产业爆发的起点。

刚才的一些应用，包括除雨、除雾霾，都可以在微博上验证。

让我们在手机上再做一次突破。

很多人都看过这张照片。

左边一张，右边一张，看看是否经过修图。

事实上，就是这样的一个房间。

房间里有一个人。

窗户本身有大有小。

线条是对角的，人们不知道图中发生了什么。

我们看到机器看到了什么？机器可以通过单张照片还原图片的景深，并且可以知道某个人与另一个人处于不同的深度级别。

这就是我们的算法可以做到的。

我们把现在的算法移植到手机上，手机上的单摄像头就可以产生类似单反的效果。

再举个例子，我们看看机器能做什么？它知道鞋子和鞋子后面的背景处于完全不同的深度。

普通照片可以营造出大光圈、前景深的效果，并且可以对焦到想要的地方。

这是我们的算法机器可以超越人类的部分。

第二个是理解，理解更好，因为对于很多事情来说，所有的认知和理解其实都代表了我们大脑对世界的反应。

了解这件事就具备了真正的人工智能。

商汤科技在学术界有一个人脸数据库，在这个环境数据库上超越了Facebook的算法。

我的脸识别能力超越人，但很多人不相信？对比一下网上的照片，为什么不%。

我问保安，几千人都说你孩子怎么了，这种情况怎么会有人比这个保安做得更好，我也很困惑。

就给他看这张照片吧，韩国小姐，把这张照片拿出来，感觉人确实是有保质期的。

机器能做的就是分析其背后的数据，获得不同于人类的理解能力。

现在我们来谈谈为什么机器可以超越人类。

我的哲学逻辑是这样的。

甚至我们2018年之前做的统计推理，实际上也是利用了很多人的知识来帮助机器做人工智能推理。

所以人工智能引导了智能的概念。

人工制导智能的极限是引导机器，因此很难超越人类。

如果不能超越人类，就很难大规模应用。

我们所做的一切纯粹来自于数据。

我们使用深度学习来消化大数据并从中创建模式，或提取数据中的模式。

我们称之为纯粹数据驱动。

只有在纯数据驱动的时代，才能实现超越人类的表现。

比如可以根据人脸进行搜索，你可以直接搜索你想看谁的电影。

让我向您展示机器超越人类的另一个概念。

这就是所谓的变脸。

当时有人说，你必须模仿别人以及如何化妆。

变脸之术是相当困难的。

我们左边的同事想要像左边的照片一样。

如果你在视频对话中看到一个又漂亮又帅的男人，千万不要相信。

事实上，很多人都是假的。

最后，让我给你一个猜测。

左边是一张很小的照片。

如果放大这张照片，就会是右边的照片。

因此，人脸只能看到这样的模糊。

事实上，理论上很难看清楚。

该算法可以从看到和理解的角度来还原和比较这张照片。

结果是这样的。

右边的图片是通过我们的算法恢复的。

如果恢复成这样，我们就比较一下。

那么今天演讲的主要内容就到这里啦！我想说的是，我们的机器算法在某种意义上做了超人的事情。

上一篇：小米手环3NFC版即将推出！公交、地铁即刻刷起

下一篇：什么能让你摆脱“随机无蛋”的可穿戴产品？

商汤科技CEO徐立！从图像识别到艺术创作，机器视觉如何超越人类？相关文章