当前位置: 首页 > 科技赋能

AI不仅可以玩游戏打败人类高手,还可以通过游戏来训练自己

时间:2024-05-22 18:57:20 科技赋能

智动西(公众号:zhidxcom)海中天简介:人工智能已经成为热门话题,很多企业和学术机构都在研究它。

为了解决人工智能问题和训练算法,研究转向游戏,因为它是完美的人工智能测试平台。

《经济学人》最近发表了一篇文章,对这一现象进行了深入的解释。

去年,普林斯顿大学计算机科学家 Artur Filipowicz 遇到了一个涉及停车标志的问题。

当时,Filipowicz 正在向汽车传授新技能,让它看到并解释世界,以便汽车能够在没有帮助的情况下自行行驶。

要实现这一目标,汽车首先必须具备识别停车标志的能力。

最终,Filipowicz 博士希望训练一种合适的算法。

为了训练,该算法会在许多不同的上下文中显示许多停车标志的大量图片:旧标志、新标志、清晰标志、脏标志;以及一些被卡车损坏的标志。

或积木部分区域;有些迹象出现在白天、雨天或雾天;有些迹象会在白天、黄昏或夜间出现。

从图片库中获取所有相似的图片并不是一件容易的事。

如果进入现实世界,让人亲自拍照,无疑是一件繁琐的工作。

Filipowicz 将注意力转向了《侠盗猎车5》,这是一款最近才发布的新游戏。

《侠盗猎车5》因其对犯罪和暴力的现实描述而备受争议,但菲利波维奇认为它是完美的,因为现实的停车标志。

修改游戏软件后,他从游戏中提取了算法可以挖掘的各种环境下的数千张停车标志照片。

人工智能研究人员青睐视频游戏,Filipowicz 利用游戏来解决停车标志问题只是一个例子。

为什么它如此受欢迎?还有其他几个原因。

有些人,比如 Filipowicz,将游戏作为现实世界的训练场。

其他人则认为不同的游戏需要不同的认知能力,他们认为游戏可以帮助他们理解一个问题:如何将智力问题分解成更小、更易于管理的块。

其他人同意上述两种做法,并认为游戏可以帮助他们建立更合适的人工智能理论。

学生驾驶要让一切发生,首先必须调整游戏,让其他计算机程序可以直接玩游戏,而不是人们通过盯着屏幕来控制游戏。

例如,如果您将 《侠盗猎车5》 与一款名为 Deep Drive 的软件绑定,您就可以将大量路标照片输入驾驶模拟器中。

这样,汽车的驾驶导航程序就可以接管控制权,从而使以这种方式测试驾驶软件比道路测试更便宜、更安全。

游戏公司开始认识到这一点。

今年6月,微软推出了一个名为Project Malmo的项目,这是一个基于Minecraft游戏(世界构建游戏)开发的AI开发平台。

今年11月,《星际争霸2》开发商动视暴雪宣布与谷歌旗下AI公司DeepMind进行类似合作。

次月,旧金山一家私人资助的研发集团 OpenAI 推出了“Universe”。

Universe 包括一系列免费向所有人开放的软件,其中有数百种游戏可以直接使用正确的程序来玩。

Universe 包括一些热销、高成本的游戏,例如《传送门2》,以及一些廉价、高质量的网页游戏,例如《Bubble Hit Pony Parade》 和 《James the Space Zebra》。

微软为何推出马尔默计划?这是有原因的:它想教人工智能软件一项技能,以便它可以与人类协作。

为了实现这一目标,项目负责人 Katja Hofman 希望使用“Minecraft”创建一个更高级的个人助理。

她的目标是开发能够预测人类操作员需求并帮助人类实现目标的软件。

《我的世界》比现实世界更简单,但又足够复杂且有趣,而且它是完美的测试场。

霍夫曼博士和她的同事们努力教计算机做一件事:如果他们想抓住虚拟小猪,计算机必须与人类玩家合作。

由于机器无法理解书面指令,因此它必须观察人类在游戏中的行为并从中学习协作经验。

为现实世界训练汽车并不是视频游戏为人工智能所做的唯一事情。

不同的游戏需要不同的人才,这一事实可以帮助研究人员解决智力问题。

2017 年,DeepMind 发表了一份白皮书,描述其研究人员如何训练人工神经网络(模拟生物大脑结构的程序)。

神经网络可以玩 Atari 在 20 世纪 90 年代和 20 世纪 90 年代推出的数十款游戏。

的。

雅达利曾经是一家领先的视频游戏公司。

在掌握在线游戏的过程中,研究人员发现有些游戏比其他游戏更难掌握。

《Breakout》游戏有点像单人网球游戏,更容易掌握。

玩家的目标是用弹力球击中漂浮的障碍物并将其粉碎成碎片。

球员可以做两件事:将球拍向左或向右移动。

失败会受到惩罚,错过一个球就会失去生命。

同样,如果你成功了,你也会得到奖励,并且你的积分会随着每个障碍被摧毁而增加。

这款游戏将简单性和即时反馈相结合,特别适合 DeepMind 的神经网络,它学会了如何玩《Breakout》,并且表现非常出色,得分比职业玩家高出九倍。

其他游戏就比较简单了。

在《Montezuma’s Revenge》中,玩家的目标是在危险的金字塔中找到埋藏的宝藏。

为了达到目标,玩家首先必须完成一些子任务,例如找到开门的钥匙。

反馈并不像《Breakout》那么即时。

例如,出现在一个地方的一把钥匙可能会打开另一个地方的门,距离很远。

获得宝物后,最终的奖励就是之前所有努力的总回报。

也就是说,网络很难在原因和结果之间建立联系。

神经网络在《Breakout》中表现良好,但在《Montezuma’s Revenge》中没有取得任何进展。

此后,DeepMind 研究人员修改了算法,让系统对事物更加好奇,并在探索和实验过程中给予其更大的奖励。

这样,算法就有更大的机会偶然发现不会立即显现出来的出色策略。

这种方法不仅可以在虚拟世界中练习技能,也可以运用到现实世界中。

DeepMind的算法已在谷歌数据中心使用,能耗降低了40%。

事实上,该算法将类似的任务视为游戏任务。

为了降低数据中心的能耗,网络会改变一些东西,比如冷却剂泵和负载分配的设计,同时也要关注能耗。

真理的化身改变了游戏程序的目的,使其能够降低数据中心的能耗,相当于教算法玩一个新的游戏。

为什么?因为 DeepMind 最初的神经网络一次只能学习一种游戏。

为了理解《BreakOut》,它必须忘记从《Space Invaders》学到的东西。

健忘是人工神经网络的一个特性,这使得它们有别于真实的大脑。

人工神经网络由虚拟神经元组成。

整个系统中神经元的连接强度将被调整,神经网络从调整中学习。

如果学习任务发生变化,那么旧的连接网络就需要重写。

DeepMind在3月份发布了一份报告,从中我们可以发现DeepMind程序员已经找到了克服这个问题的好方法。

他们让神经网络同时学习多个游戏,就像真正的大脑一样。

正因为如此,我们向迁移学习迈出了一步。

所谓迁移学习,就是从一种行为环境模型中学习一些东西,然后用在另一种模型中。

这是当前人工智能研究的热点。

表现出好奇心、延迟奖励分配等等,将学习从一项任务转移到另一项任务对人类来说是轻而易举的事情,但对机器来说却很难处理。

这一次,游戏再次在研究中发挥了重要作用。

例如,纽约大学的 Julian Togelius 组织了一项名为“通用视频游戏人工智能竞赛”的挑战。

参赛者必须创建一个可以玩并具有合理能力的程序,程序或程序开发人员必须征服 10 种不同的视频游戏。

为了实现其目标,软件必须获得许多技能:规划、探索、决策等,然后将它们应用于以前遇到的问题。

一旦系统精通迁移学习,构建实用的人工智能仍然是一项零碎的活动。

研究人员真正想弄清楚的是底层理论,即如何系统化的底层理论。

已成为候选的一种理论是具身认知。

支持者认为,我们不需要从设计智能程序开始,而是让它们从经验中学习。

霍夫曼博士特别支持这种方法。

她认为,视频游戏是探索这种方法的完美平台。

研究人员之前曾在具身认知方面进行过尝试。

他们在 20 世纪 90 年代进行了实验。

研究人员在机器人上安装了传感器,让它们了解现实世界是如何运作的。

他们让机器人奔跑并碰撞事物来学习。

后来,研究人员确实利用这种方法取得了一些成果,但他们遇到了一个障碍:无法扩大实验规模。

“机器人有机械装置,有轮子,有电机,还有很多类似的东西,”DeepMind 员工 David Silver 说。

“你最终会花费大量时间进行维护。

”玩视频游戏可以使这个过程更加顺利。

在虚拟世界中,虚拟机器人是失重的。

它没有活动部件,无需维护。

如果您想更改机器人的规格,无需摆弄扳手或将其撕成碎片。

只需轻按键盘几下即可。

它的环境也可以很容易地改变。

调整结构不需要重新焊接金属板,也不需要粘合塑料板。

计算机一次可以模拟数千次,允许大量虚拟机器人一次又一次地尝试任务,每次都能学到一些东西。

这种测试规模较大,学习过程可以监控和了解。

如果是真机的话,根本就不可能做到。

DeepMind创始人Demis Hassabis认为,确保虚拟机器人无法欺骗非常重要。

虚拟传感器收集虚拟机器人只能用于导航的信息。

它无法窥视模拟背后的情况。

在游戏《Montezuma’s Revenge》中,由于金字塔内有许多危险,机器人必须找到出路。

在《侠盗猎车》中,机器人必须找到离开虚构城市洛桑托斯的出路。

它必须弄清楚自己在哪里,并根据所看到的情况来判断当前的情况。

发生的情况是机器人无法让运行游戏的计算机告诉它它的坐标。

这就是 DeepMind 教程序玩视频游戏的方式。

如果要将游戏方法应用于人工智能,使用这种策略来研究具身认知似乎是一个合乎逻辑的选择,而且似乎是合适的。

看看任何年轻时的智能生物,无论是狗还是人类,你都会发现,当它们玩耍时,它们会发展出很像具身认知的东西。

在这个阶段,计算机还没有帮助进化。

无论是在人造世界还是自然世界,这些类型的事件都有一个基本点:让玩家为最大的游戏——现实——做好准备。