编辑|鑫源简介:给定一个物体的主视图和俯视图,你想象并绘制它的3D原型需要多长时间?侧面图? DeepMind的新AI算法已经可以快速解决这个问题。
智慧新闻6月15日讯,本周四,谷歌子公司DeepMind在Science《Neural scene representation and rendering》上发表了一篇新论文。
本文介绍了一种新的计算机视觉算法,可以基于单个平面图像从不同角度“想象”其三维模型。
该算法称为生成查询网络(GQN)。
只要给人工智能一些二维场景图片,比如砖墙、楼梯上的明亮球体和正方形,人工智能就可以从不同角度生成场景的三维模拟,渲染物体的不同侧面和形状。
甚至解决了同一光源下面的阴影位置问题。
大多数视觉识别系统都需要人类标记数据集中每个场景中每个对象的各个方面,这是一个耗时且费力的过程。
GQN 项目旨在消除人工智能研究人员对数据集中的图像进行注释的需要,并复制人脑理解周围环境和物体之间相互作用的方式。
它的应用范围很广,从机器人视觉到VR模拟,未来都有可能看到它的身影。
1. GQN:从场景中获取训练数据 GQN可以从任意角度组合并渲染物体或场景,这与一般AI的工作方式有很大不同。
通常机器学习方法需要数百万张人类注释的图像作为样本集,但这种新的神经网络只需要少量平面图像即可完成学习任务。
具体来说,GQN可以分为两部分:表示网络和生成网络。
前者不知道生成网络需要预测哪些视角,通过从 2D 图像中提取一组用于描述场景的计算机代码;后者可以输出先前未观察到的角度或想象的场景的预测。
2.无监督学习:从新的角度“想象”从未见过的场景。
新算法采用无监督算法,学习行为与婴儿和动物非常相似。
它通过尝试观察周围的世界来理解和学习,在学习过程中不需要任何人类监督或训练,因为它有能力“想象”场景的另一面是什么样子。
为了训练该系统,DeepMind 研究人员对 GQN 进行了受控测试。
也就是说,从不同角度提供场景图像,使 GQN 能够学习这些对象的纹理、颜色和光照以及它们之间的空间关系。
然后预测这些物体的其他角度。
研究发现,当研究团队移除或添加场景中的物体,或者改变某些物体的形状和颜色时,系统不需要人类向它解释“形状”、“颜色”等词语的概念,并且可以通过自主学习来学习。
相应的结果。
DeepMind 研究员、该论文的第一作者 Ali Eslami 表示:“我们之前并不知道神经网络可以学习如何以如此精确且可控的方式创建图像。
” “然而,我们发现足够深的网络可以学习在没有人工干预的情况下创建图像。
”无需干预即可学习透视和照明。
“这是一个超级令人惊讶的发现。
” 3. GQN 算法的局限性和意义 本文是一系列引人注目的 DeepMind 人工智能项目中最新的一篇。
这是系统以前无法预见的能力,一旦程序员设置了基本参数,人工智能就可以自行学习。
去年 10 月,DeepMind 的 AlphaZero 在系列赛中创造了不败记录,并于 12 月击败了广受好评的 StockFish 国际象棋项目。
该人工智能在没有任何人工干预或任何帮助的情况下赢得了 28 场比赛并进行了 72 场比赛,获得了世界上最好的国际象棋程序的奖项。
上个月,另一个 DeepMind AIi 系统以与人脑完全不同的方式在迷宫中导航。
从不同角度看到一系列图片后,它可以模拟迷宫的布局并找到走出迷宫的路径。
像这样的任务是相当令人印象深刻的。
如果将该系统应用于机械臂的控制,GQN只需要一个固定的摄像头记录二维图像即可学习机械臂的运动。
该系统在场景中移动时不断学习和自我纠正,并且为定位??和控制机械臂而收集的数据量大大减少。
然而,这项技术仍然有其局限性。
研究人员表示,GQN 仅在对象数量较少的相对简单场景中进行了测试,因为它仍然缺乏生成更复杂的 3D 模型的能力。
DeepMind 正在开发更强大的系统,需要更少的处理能力和更小的语料库,以及可以处理更高分辨率图像的框架。
“虽然我们的算法在我们在现实世界中部署这种新型系统之前还有很多研究要做,但这项工作使我们离构建自学习场景理解技术又近了一步,”埃斯拉米说。
这些局限性并不影响本文的进步意义。
DeepMind开发了一种仅依赖自身图像传感器的输入,无需监督即可自主学习的系统。
这为未来的人工智能开辟了一条新的道路,即可以通过传感器自主地观察和还原世界。
附件:《A scene-internalizing computer program》论文摘要场景表示,将视觉感知数据转换为简洁描述的过程,是智能行为的要求之一。
最近的工作表明,当提供大型标记数据集时,神经网络在这项任务上表现出色。
然而,消除对人体标签的依赖仍然是一个重要的悬而未决的问题。
为此,我们引入了生成查询网络(GQN),这是一个机器学习仅使用自己的传感器来表示场景的框架。
GQN 将从不同视点拍摄的场景图像作为输入图像,构建内部表示,并使用该表示从以前未观察到的视点预测场景的外观。
GQN 演示了如何在没有人类标签或领域知识的情况下进行学习,为机器自主学习理解周围的世界铺平了道路。