当前位置: 首页 > 科技观察

微软新研究:无人机获推理能力,看图就能做出决策

时间:2023-03-19 00:40:25 科技观察

微软新研究:无人机获得推理能力,可通过看图片做决定躲避虽然这种“感知到行动”的逻辑已经应用到传感器和摄像头领域,但它已经成为当前机器人自主系统的核心。然而,目前的机器自主性水平远未达到人类根据视觉数据做出决策的水平,尤其是在处理第一人称视角(FPV)航空导航等开放世界感知控制任务时。不过,近日微软分享的全新机器学习系统为该领域带来了新的希望:帮助无人机通过图像推理出正确的决策。微软从第一人称视角(FPV)无人机竞赛中获得灵感。比赛中的操作人员可以通过单目摄像头来规划和控制无人机的运行路线,从而大大降低发生危险的可能性。因此,微软认为该模型可以应用于将视觉信息直接映射为执行正确决策的动作的新系统。具体来说,新系统明确地将感知组件(理解“看到了什么”)与控制策略(决定“做什么”)分开,这使得研究人员更容易调试深度神经模型。在模拟器方面,由于模型必须能够区分模拟与真实环境之间的细微差别,所以微软使用了名为“AirSim”的高保真模拟器来训练系统,然后将系统直接部署到无人机上,无需修改在真实场景中。雷锋注:上图为微软在测试中使用的无人机。他们还使用了一种名为“CM-VAE”的自动编码器框架来紧密联系模拟与现实之间的差异,从而避免了对合成数据的需要。做过度拟合。通过CM-VAE框架,将感知模块输入的图像从高维序列压缩到低维表示,比如从2000多个变量压缩到10个变量,压缩像素大小为128x72,只要因为它可以描述其最基本的Status就可以了。尽管系统仅使用10个变量对图像进行编码,但解码后的图像为无人机提供了对“所见场景”的丰富描述,包括物体的大小和位置,以及各种上下文信息。此外,这种维度压缩技术是平滑和连续的。为了更好地展示该系统的功能,微软测试了带有前置摄像头的小型敏捷四旋翼无人机,试图根据RGB摄像头的图像为无人机导航。研究人员在由8个障碍架和40米长的O型轨道组成的45米长的S型轨道上对装载该系统的无人机进行了测试。实验表明,使用CM-VAE自动编码框架比直接编码的性能要好得多。即使存在强烈的视觉干扰,系统也能很好地完成工作。雷锋网注:上图为考点侧视图和俯视图。微软声称:在模拟训练阶段,在从未“见过”的视觉条件下测试无人机,我们将感知控制框架发挥到了极致。.经过模拟训练后,该系统能够在具有挑战性的现实环境中独立“自我导航”,非常适合部署在搜索和救援任务中。该研究的参与者表示,该系统将显示出巨大的实际应用潜力——自主搜索和救援机器人可以更好地识别人类,尽管存在年龄、体型、性别、种族和其他因素的差异,并帮助人类。