当前位置: 首页 > 科技观察

阿里招聘的高阶华人科学家,谈谈AI带来的想象力

时间:2023-03-21 22:33:20 科技观察

曾经是亚马逊最高级别的华人科学家,也是亚马逊无人零售店项目轰动全球零售业一年前的行业。Go的伟大计划者。现在,他是阿里巴巴iDST的资深科学家和副总裁。因此,在云栖大会的新零售峰会上,任晓峰大概是在“人工智能如何应用于新零售场景”这个话题上发言最多的科学家之一。除了介绍了自己最擅长的计算机识别技术,他还在演讲中透露了新零售众多应用场景中自己最感兴趣和看好的四个应用方向:增强现实、智慧门店、机器人、可穿戴设备。至于原因,请仔细阅读机器整理的任晓峰在本次发布会上的发言全文:很高兴今天有这个机会来到这里,与大家分享我的一些想法。刚刚看了天猫小店的视频,非常不错。它的存在给了大家很大的想象空间。也为大家描绘了一个非常美好的未来。作为一名技术人员,我通常大部分时间都在思考如何解决实际的技术问题,如何实现这个未来。当然,解决问题并不是工作的全部。有时候我确实会想未来会是什么样子,所以很高兴有这个机会和大家分享。但是,因为我其实长期在美国工作和生活过,所以新零售这件事对我来说往往是一个谜。我从曾教授等人那里学到了很多东西。如何解开这个谜?前段时间看了阿里研究院关于新零售的报告,里面对新零售的总结非常全面:新零售是以消费者体验为核心的数据驱动的泛零售形态。其实,虽然是短短的一句话,却包含了很多信息。我们很难控制这个想象空间,因为可以应用的场景太多了,批发零售、物流、娱乐、餐饮等。其实我们讲新零售,有很多地方可以应用。但是我们看到这句话的描述里面有几个关键词,一个是体验,一个是数据,一个是泛零售。在体验方面,相信在座的很多人比我有更多的想法,更有体会去思考什么是更好的用户体验。对我来说,因为我是做人工智能的,尤其是计算机视觉,我想的是如何得到有用的数据。从数据来看,因为应用场景很多,百货、商场、便利店,甚至直播、视频、电商等很多。从各个场景来看,购物的本质无非就是人和商品。我们做的是了解人和事,进而连接人和事,让用户更好更快的找到他满意的产品,更快更好的把产品交付给用户。从信息的角度来说,要获取人或物的信息,尤其是在很多离线场景下,我个人认为计算机视觉或者使用摄像头是一个非常好的方式。例如,视觉是一种通用方法。摄像头可以做很多事情,可以识别人、物体和动作。下面可以看到很多。而且是一种被动的方法。很多时候,原因在于人是用眼睛感知的,所以这个世界其实就是为我们的眼睛而设计的。无论是红绿灯、标志还是很多商品的包装,往往都是为了适应人眼而采用的。计算机视觉使用世界设计的规律,并尝试使用相同的方法来获取更多信息。当然,视觉其实有很多问题。首先要有光,更好的光才能获得更好的信息。不过这个问题并不算太大,因为人眼也需要良好的光照才能看清。另一个是遮挡,这是一个更大的问题。摄像头被挡住了,实在是看不清后面的东西。这其实和信息量大有关,因为我们用的是可见光,波长很短,需要信息量大的时候没有办法绕过前面遮挡的物体。计算机视觉应用的最大问题是它的准确性。在很多情况下,准确度不够,但近年来发生了很大的变化。在很大程度上,准确性并不是一个特别大的问题。接下来,我想介绍一下目前计算机领域的发展现状,让大家对它有一个更好的了解,看看我们的技术进步到什么程度了。从物体的角度来看,大家都知道有一个非常有影响力的比赛就是物体分类的比赛。一千件物品,你只需在每张图片上贴上标签,就知道它是什么。这是ILSVRC在过去八年里取得的进步。在Y轴上描述错误率仍然非常困难。八年来,进步非常快。2012年,深度学习开始应用在这个问题上,并应用到整个计算机视觉领域。2012年之后,过去六年的准确率一直在提高。是可以比较的。有人测试过,人类在这道题上的错误率为5%。并不是计算机超越了人类,它也有各种各样的问题。但在某种程度上,计算机在某些情况下可以达到人类的精度。只有一张图片和一个物体并不是视觉的唯一问题。很多时候需要处理复杂的场景,所以ilsvrc也有物体检测比赛。对于复杂的场景,你需要找到各种各样的对象。这个问题是几年的进展也很快。当然,深度学习是一个原因,当然数据也是原因之一。这张图有点复杂,因为对于检测问题来说,正确的检测需要正确的标签和正确的位置。检测问题中也存在一个预值问题。您可以增加预值并返回更少的问题。有的会被错过,有的会被拒绝,但也会有一些误会。总的来说,目前的MAP平均精度为0.75,确实离人类有很大差距。但是如果你看这张图,很多时候还是可以做好的。这个场景里面有很多东西,比如人,狗,雨伞,后面还有一些更小的东西,比如椅子,很多时候都可以检测到。我们再来看看这个语义分割的例子。很多时候,不仅仅是为了找到边界。对于这个问题,我们必须在每个像素上标记它是什么。这是自动驾驶的一个例子。该算法可以标记场景中可能遇到的树木、汽车、行人和各种物体。这也是一个取得了很好准确率的例子。现在也可以用摄像头来制作无人车。非常有趣的方向。总之,对于人类来说,视觉其实可以做很多事情。这是另一个例子。这是多摄像机跟踪的示例。例如,使用八个摄像头,人在走路。很多时候,我们可以更准确地追踪到这些人,时刻知道这个人的位置。多摄像头跟踪可以做很多事情。一是可以获取到人的身份,可以知道这个人是谁,二是可以更准确的获取到人的所在位置。我们都知道室内定位其实有很多种方式,包括WIFI、蓝牙、超声波等。对于精确定位,视觉至少可以给我们厘米级的定位精度,这在很多情况下是非常有用的。这不仅仅是为了检测人在哪里。很多时候,我想给大家展示的是,我们其实可以在很多情况下判断人的姿势和各种动作——不仅知道人在哪里,还知道人在哪里。了解眼睛、耳朵、肩膀和手臂的工作原理。即使在复杂的场景中,即使人的动作变化很大,我们仍然可以得到这些信息。人的姿态其实是认识人的基础。这是一张图片,其实是基于人体姿态的动作识别。上面蓝色的是我们想要的,绿色的是算法的估计。这是一个比较简单的问题。这个视频比较简单。我想给大家展示一下,有了手势之后,还可以在手势的基础上做一些动作识别和物体识别。在许多情况下能够识别人类行为。如果往前看,不管是室外场景还是室内场景,现在计算机视觉真的可以做很多事情。说得有点夸张,其实在很多情况下,我们现在看得见的东西,人能做的事,现在电脑确实也能做到。这在几年前是绝对不敢说的,但现在无论是算法的发展,还是其他能力的提升,很多情况已经很接近了。当然,另一方面,如果相机看不到它,你也无能为力。这可不是开玩笑,因为从解决实际问题的角度来说,摄像头的布局其实是一个很重要的问题。你希望有一个好的排版来最大程度的获取你想要的信息。除了摄像头,我们其实还有很多其他的问题需要考虑,比如数据、计算、成本,这些都需要和算法结合起来。我对眼光还是很有信心的,觉得在很多情况下可以做很多事情。回到新零售的讨论,如果说新零售是数据驱动,其实这个说法也可以稍微修改一下,可以用信息驱动。怎么说?很多时候数据不是随手可得,很多时候需要我们努力去获取数据,尤其是离线场景,或者线上。很多时候,我们都是通过视觉或者其他的方法来获取对我们有用的信息。前段时间聊了愿景,进步或者技术,我也想跟大家说说我非常感兴趣的几个应用方向。在这么多的应用场景中,我想提几个我比较感兴趣的:augmented现实,智能商店,机器人,智能助手(可穿戴)。我想给大家举几个例子,看看技术发展到什么程度:增强现实是现实世界和虚拟世界的叠加。如图所示,我们在买家具的时候,可以用PAD看家,把家具放在那里。有几个关键问题,例如3D定位,3D建模和渲染。建模和渲染是比较简单的问题,现在是定位的时候了。我们都知道,几个月前,苹果宣布他们可以在苹果手机上实现非常精准的实时三维定位,其计算量已经达到了使用的水平。解决了三维定位之后,增强现实其实可以有很多应用。让我举几个例子。这是一个例子,相当于帮你找东西,其实对我来说是一件很重要的事情。我妻子经常叫我去商店买东西。不知在何处,亦不愿问人。这需要很长时间。如果你有定位技术,再根据商品在店内的位置做出更准确的地图,你可以想象可以用增强现实做一些引导。当然,其实我们也可以说,在这个例子中,增强现实不一定是一个很关键的东西。回到前面提到的虚拟购物,也是大家常说的话题。如果你有增强现实,你可以在网上找到这些家具,你可以把它们放在家里,看看尺寸、搭配,很多时候还可以看看光影效果等等。这也是一种可能性,也是目前比较成熟的一种。很多人可能有很多人在做,很多时候很快就能用上。接下来要跟大家探讨的是智慧门店。众所周知,我曾经在亚马逊工作。我有幸在AmazonGO项目刚开始的时候加入。我们用了四年的时间才建成这样的一家店,到现在还是很激动和自豪的。我们解决的问题是解决一个比较常见的场景下的支付问题,让你进去之后拿走直接走,不用排队结账。做了4年,现在每次排队买东西,都希望能把支付的流程做好,省去排队和结账的时间。虽然只是支付的一部分,但是要做到高精准,还有很多问题需要解决,比如解决人的问题、产品的问题、运动的问题,知道人拿着的是什么产品。很多时候可以想象成一个比较通用的离线智能系统。如果有摄像头网络,它可以做很多事情,可以用来跟踪人,可以用来分析人流,还可以用来查看停留时间,看是否有人拍过.东西,看了多长时间,有没有放回去,可以用摄像头监控货架。如果结合身份,或者用人脸或者其他方式,可以实现很多个性化的体验,让你在店里时刻知道你是谁,提供个性化的服务。支付绝对是一个方向。很多时候,我们会想到很多在线上更容易做的事情,比如停留时间和个性化。现在是我们真正可以在线下做类似事情的时候了。其实有些事情在网上做起来并不是那么容易。比如我们可以做面部表情识别。这是一个例子,就是我们可以通过分析脸来知道它是高兴还是不高兴,是生气还是无聊。很多时候这是可以做到的。因此,与线上相比,线下有时可能会有一些优势。回到这个离线系统,在不久的将来,我们可以看到这样一个通用的离线智能系统可以做很多事情。它在一个小店里可以做一件事,但是在一个大的商场场景里,有各种各样的店,空间都比较大,实现起来的难度会上升一个档次。在正常情况下是一样的。如果是在比较拥挤的情况下,往往需要在算法、数据或者其他方面花很多功夫,但很多时候应该是目前。它已经是可见的,是可以看到的东西。第三件事就是提到机器人。在上面提到的很多情况下,它只是感知,只知道人在哪里。其实我们可以做一些交互,可以是语音交互,也可以是显示交互,也可以是视觉交互。从物理角度来说,我觉得我对机器人还是很感兴趣的。机器人现在发展非常快。你实际上已经看到了很多例子。这是波士顿的一个例子。他们做机器人已经很久了,在控制方面做得很好。它可以做很多事情,它可以在房子里走来走去。这是为了表明它可以做非常复杂的动作。因为它有腿,它也有手,可以在厨房里抓杯子,当然这只是一个例子。其实很多人都想做一个机器人,可以自动帮你洗碗,或者做其他家务。那还有一定的距离,但是这个例子也说明我们可能离未来没有那么远。这是因为波士顿他们主要是做控制,并没有在视觉上花太多功夫,不然一眼就能认出来是香蕉皮。但它可以自己起身上楼梯。所以未来机器人应该是一个很有意思的方向,无论是物流还是门店。相信未来我们一定会看到更多机器人的应用。最后一个是助手,主要是指可穿戴设备。可穿戴设备是个人观点。与商店不同,它们可以记录生活,识别环境,识别其他人,还可以用来识别自己的运动状态。它可以用作与您交谈并为您提供信息的助手。实际上,您可以做很多事情。比如SnapSperctacles前段时间就发布了一副比较好的眼镜,可以更好的记录生活状态。其实谷歌几年前就做了谷歌眼镜,但是没有成功。后来又出了企业版,比较有意思。它可以帮助员工在制造或物流或其他情况下做很多事情。它可以帮助您识别并帮助您。扫码。其实还有一个例子。当时他们想说你有一个更复杂的工作要布线,他们可以告诉你如何连接线和做什么。这样的设备,以后对大家的用处很大。***,这条曲线大家应该都见过吧。这就是HypeCycle,意思是每一项技术和新产品都要经历这样一个发展阶段:刚开始的时候,大家都很兴奋,急着要马上达到顶峰,然后就要应对。实际问题,往下走,到底,最现实的问题出来,解决哪些问题大家都知道,逐步往上走。至于刚才说的方向,增强现实已经来了,下面会有更多的应用;虽然智能商店可能仍然在山顶附近,但山下应该有很多事情要做;和机器人或可穿戴设备甚至可能在更遥远的未来。但有时我也需要想象五年或十年后会是什么样子。这些也是非常令人兴奋的方向。在刚才提到的众多应用中,视觉可以起到非常关键的作用,可以获取很多信息,因为它是通用的方法,可以获取人物动作,可以做很多事情。当然,我们需要获得相关数据。在很多情况下,很多算法需要融合,需要和其他传感器融合。此外,在很多情况下,这不仅仅是一个感知问题。我们需要与机器人或其他融合方法集成。从计算的角度来说,不一定是在云端,也不一定是在端。云和端也要融合。除了这几个问题之外,还有很多方向人们有时会提到,比如简单的手势识别、产品搜索、虚拟现实等。其实我也觉得人工智能和计算机视觉在新制造方面有很多可能的应用。我们常说,现在确实是一个技术发展非常快的时代,商业发展也非常快。我也非常期待成为其中的一份子,与大家一起努力,共创美好未来。版权声明本文仅代表作者观点,不代表百度立场。