当前位置: 首页 > 科技赋能

是什么让人工智能更快更强?答案是!好奇心

时间:2024-05-22 16:51:25 科技赋能

在文章的开头,先问一个问题:大家在玩电子游戏的时候,会发现自己完全沉浸在玩电子游戏中,发现根本停不下来。

是什么原因?这个问题可能太宽泛,无法给出明确的答案。

但如果你想总结一系列接受新任务、升级或再次玩游戏的经历,最简单的解释就是“好奇心”——只是想看看接下来会发生什么。

事实证明,在教人工智能玩视频游戏时,好奇心是一个非常有效的激励因素。

非营利性人工智能研究公司 OpenAI 本周发布的一项研究解释了好奇的人工智能代理如何征服经典的 Atari 游戏《蒙特祖玛的复仇》。

掌握《蒙特祖玛的复仇》是人工智能领域的一大进步,但它不应该等同于击败围棋或 Dota 2 的里程碑。

谷歌旗下的人工智能公司 DeepMind 在 2016 年发布了一篇开创性的论文,解释了人工智能如何能够通过深度学习在许多雅达利游戏中取得高分并击败强大的人类玩家。

《蒙特祖玛的复仇》是唯一一款得分为 0 的游戏,算法无法学习如何玩游戏。

游戏之所以难,是因为它的操作方式与AI代理的学习方式不匹配,这也暴露了机器学习的盲点。

为了让人工智能代理掌握如何玩视频游戏,通常需要使用强化学习训练方法。

在这种训练中,智能体将被放入虚拟世界中,并会因某些结果而受到奖励(例如增加分数)或惩罚(例如失去生命)。

AI代理随机开始玩游戏,并可以在反复试验后学习改进其策略。

强化学习通常被视为构建智能机器人的关键方法。

《蒙特祖玛的复仇》的问题在于它没有为 AI 代理提供定期奖励。

这是一款益智游戏,玩家必须探索地下金字塔,避开陷阱和敌人,同时收集钥匙来解锁门和特殊物品。

如果你正在训练一个人工智能代理来征服这个游戏,你可以在它活着穿过房间并收集钥匙时给予它一定的奖励。

但是你如何教他保存其他物品的钥匙并使用它们来克服陷阱并完成关卡呢?答案是:好奇心。

在 OpenAI 的研究中,他们的智能体不仅因为跳过尖峰而获得奖励,还因为探索金字塔的新部分而获得奖励。

探索新部分的好奇心是一个主要动机,它也有助于智能体在游戏中比人类表现得更好。

机器人在 9 次尝试中平均得分为 0(人类的平均得分)。

OpenAI 表示,在一次运行中,该智能体甚至通过了第一关。

OpenAI 的 Harrison Edwards 告诉 The Verge:“我们现在开发了一个系统,可以让你探索很多房间,获得很多奖励,偶尔还能通关。

”他补充说,游戏中的其他关卡与第一关类似,游戏“只是时间问题”。

克服“嘈杂的电视问题” OpenAI 并不是第一个尝试这种方法的实验室。

几十年来,人工智能研究人员一直使用“好奇心”的概念作为诱因。

他们之前曾将这一点应用到《蒙特祖玛的复仇》中,但如果不教会人工智能从人类的例子中学习,它就不会那么成功。

然而,虽然这里的一般理论已经很成熟,但构建具体的解决方案仍然具有挑战性。

例如,基于预测的好奇心仅在学习某些类型的游戏时才有用。

适合像马里奥这样的游戏,探索空间大,关卡多,而且充满了以前从未见过的怪物。

但对于像 Pong 这样的简单游戏,人工智能代理更愿意打持久战,而不是真正击败对手。

(也许是因为赢得比赛比比赛中球的路径更容易预测。

)另一个实验是“嘈杂的电视问题”,其中一个被编程为寻找新体验的人工智能代理变得沉迷于随机模式,例如那些调谐到静态噪声的。

电视。

这是因为智能体的“有趣”和“新”感来自于他们预测未来的能力。

在采取特定行动之前,他们会预测游戏接下来会发生什么。

如果他们猜对了,他们可能以前见过这个关卡。

这种机制称为“预测误差”。

但由于静态噪声不可预测,实验中将AI智能体放入迷宫中,任务是找到奖励最高的物体。

环境中还有一台电视,电视上的频道可以通过遥控器随机切换,因为每次频道切换的结果都是不可预知的,令人惊讶。

面对这样的电视(或类似的不可预测的刺激),AI代理变得非常困惑。

OpenAI 将这个问题与沉迷于老虎机的人类赌徒进行了比较。

人们不知道接下来会发生什么,所以他们不愿意离开。

OpenAI 的这项新研究通过改变人工智能预测未来的方式巧妙地回避了这个问题。

确切的方法(称为随机网络蒸馏)很复杂,Edwards 和他的同事 Yuri Burda 将其解释为在游戏的每个界面中放置一些隐藏信息,等待人工智能挖掘出来。

这个隐藏任务是随机的,没有多大意义(例如,“屏幕左上角的颜色是什么?”爱德华兹建议),但它会激励代理继续探索游戏,而又不会使其太容易受到嘈杂的电视陷阱。

影响。

需要注意的是,这种激励不需要进行大量计算。

强化学习方法依赖大量数据来训练AI代理,因此训练的每个步骤都需要尽快完成。

Unity软件工程师、机器学习专家Arthur Juliani表示,这是OpenAI研究工作的亮点。

Juliani 告诉 The Verge:“OpenAI 使用的方法非常简单,但非常有效。

纵观以往应用于游戏的探索方法,较为复杂,基本上没有给科技圈带来多少令人印象深刻的成果。

相比之下,OpenAI“方法简单多了”。

朱利安尼表示,考虑到《蒙特祖玛的复仇》不同关卡之间的相似性,OpenAI 迄今为止所做的工作基本上相当于征服了整个游戏。

但他补充道:“事实上,他们不能保证每次都能通过第一关,这意味着仍然存在一些挑战。

” Juliani还想知道OpenAI的方法是否可以应用于3D游戏,因为3D游戏相对困难。

其他的可能更大,具有更微妙的视觉特征,以及游戏中的第一人称视角,遮盖了大部分界面。

“在 3D 游戏中,在需要探索的情况下,环境各部分之间的差异更加微妙,这种方法的实际性能可能不会很好,”Juliani 说。

好奇心 但为什么我们首先需要好奇心强的人工智能呢?好奇的人工智能,就像人类一样,很容易沉迷于随机模式。

最大的原因是好奇心有助于计算机自行学习。

当今广泛采用的机器学习方法大致可以分为两个阵营:第一个阵营是机器通过浏览大量数据进行学习并计算出可以应用于类似问题的模式;第二个阵营是机器学习。

第二种是将机器扔到环境中,利用强化学习方法取得一定的成就并获得奖励,即利用奖励刺激来促进机器学习。

这两种方法在特定任务中都是有效的,但它们并不完全依赖于机器本身。

无论是标注训练数据,还是为虚拟环境设计奖励函数,都离不开大量的体力劳动。

通过为人工智能系统提供探索的内在激励,一些工作就被消除了,人类也不需要像以前那样在机器学习上花费那么多的精力。

在激励的刺激下,机器可以自主学习。

OpenAI 的 Edwards 和 Burda 表示,这种好奇心驱动的学习系统比设计和开发在现实世界中运行的计算机程序要好得多。

毕竟,就像《蒙特祖玛的复仇》一样,在现实生活中,即时的回报往往很少,我们都需要长时间的工作、学习和探索才能获得回报。

好奇心帮助我们前进,也许它也可以帮助计算机。