当前位置: 首页 > 科技观察

是否有任何新的尝试将深度学习融入机器人?

时间:2023-03-17 19:32:19 科技观察

现在深度学习这么火,大家就会想,能不能用在自己的研究领域。因此,也有将深度学习融入机器人领域的尝试。我简单介绍一下我所知道的两个方面(愿景和规划)。物体识别其实是最容易想到的方向。与DL相比,它因为在图像识别方面的成就而流行起来。这里可以直接使用原来的CNN套网络,具体的工作我就不说了。我在另一个回答中回答了2016年亚马逊采摘挑战赛(APC)中识别和运动规划的主流算法是什么?如下所述,在2016年的“AmazonGrabCompetition”中,很多团队都采用了DL作为物体识别算法。物体定位当然,机器视觉与计算机视觉有点不同。除了物体识别,机器人领域的视觉还包括物体定位(为了操作物体,需要知道物体的位姿)。在2016年的APC中,虽然很多人用DL来做物体识别,但是对于物体定位,他们还是用比较简单或者传统的算法。DL似乎没有被广泛采用。当然,这一项不是没有人在做。我们实验室的张博士也在做这方面的尝试。在此简单介绍一下张博士之前的一篇研究论文的工作。Doumanoglou、安德烈亚斯等人。“恢复6d物体姿势并预测人群中的下一个最佳视图。”IEEE计算机视觉和模式识别会议论文集。2016.这个工作大致是这样的:对于一个物体,取许多小块的RGB-D数据;每个小块都有一个坐标(相对于物体坐标系);然后,首先使用自动编码器来降低数据的维度;之后,使用降维特征来训练霍夫森林。这样,在实际的物体检测过程中,我可以通过对物体表面的RGB-D数据进行采样来估计一个姿势。captureposegeneration之前在另一个问题中介绍过(传统的RCNN可以大致框定定位物体在图片中的位置,但是如何将这张图片中的位置转换成物理世界的位置?),放两张图↑使用在3D点云中检测抓取姿势的几何体↑密集杂波控制/规划中的高精度草地姿势检测是我现在感兴趣的。简单地说,我们知道强化学习可以用于移动机器人的路径规划。因此,理论上可以结合DL的FunctionApproximation和PolicyGradient进行控制或规划。当然,目前的工作距离取代原来的传统方法还有很长的路要走,但也是一个很有趣的尝试。放几个job,具体可以看他们的paper。1.在杂乱的自然环境中学习单目反应式无人机控制↑CMU无人机穿越森林2.从感知到决策:一种数据驱动的自主地面机器人端到端运动规划方法↑ETH室内导航3.学习手-EyeCoordinationforRoboticgraspingwithDeepLearningandLarge-ScaleDataCollection↑DeepMindObjectGrasping4.Deepvisuomotorpolicies的end-to-endtraining↑Berkeley拧瓶盖等任务有哪些困难1.在领域视觉,除了物体识别和物体定位也是需要的。这是一个回归问题,但是目前回归的准确率还不能直接用于对象操作(可能是数据量不够,或者还没有找到合适的网络结构),所以ICP等一般都是required算法执行最后一次匹配迭代。2.在机器人规划/控制方面,可能问题比较多。我在雷风网“硬创公开课”(体育策划|视频)直播中提到了我遇到的一些问题,这里简单罗列如下:大多数人都默认DL的收敛和泛化能力已经足够了。我们应该关心的是向DL提供哪些数据。也就是说,在DL能力足够强的前提下,哪些数据可以让我需要解决的问题变得可观。当然,目前的工作都没有提到这一点。在Berkeley论文中,直接做了一个强假设:在给定的数据(当前图像,机器人关节状态)下,状态是相当大的。在实际的机器人运行中,系统的状态可能与环境有关(比如物体的性质),所以这个问题应该是以后DL用在机器人上时绕不过去的问题。数据量一方面,我们不知道问题收敛需要多少数据。另一方面,实际机器人执行操作需要时间,可能造成损坏,破坏实验条件(需要人工恢复)等。收集数据会比图像识别和语音困难得多认出。我举个例子,直播的时候能不能解决。当黑色障碍物的位置从左到右不断变化时,规划算法输出的最短路径会突然发生变化。(具体看视频可能更清楚)这个对应DL,即网络输入不断变化,但输出会在某个时刻突然变化。而且可能存在最短路径有多个解等问题。DL的FunctionApproximattion能很好地处理这种情况吗?对了,这几件事想想都挺有意思的,跟我一起入坑吧~