大家遇到老问题了。您正试图在周五晚上选择一家餐厅吃晚餐,但您没有预订。您是应该在您最喜欢的人满为患的餐厅排队等位,还是尝试一家新餐厅以期发现更好的东西?后者确实有可能带来惊喜,但这种好奇心驱动的行为是有风险的:你尝试的新餐厅可能味道更差。好奇心作为AI探索世界的驱动力的例子不胜枚举——自主导航、机器人决策、检测结果优化等等。在某些情况下,机器使用“强化学习”来完成一个目标,其中AI代理反复学习良好行为受到奖励和不良行为受到惩罚。就像人类在选择餐厅时面临的困境一样,这些智能体努力平衡发现更好行动(探索)的时间与采取过去导致高回报的行动(开发)的时间。太多的好奇心会分散代理人做出有利决定的注意力,而太少的好奇心意味着代理人永远不会发现有利的决定。为了让AI代理“恰到好处”的好奇心,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员创建了一种算法,可以克服AI过于“好奇”并因手头任务而分心的问题。浓度问题。他们开发的算法会在需要时自动增加好奇心,如果代理从环境中得到足够的监督并且已经知道该做什么,则会降低好奇心。论文链接:https://williamd4112.github.io/pubs/neurips22_eipo.pdf经过60多场视频游戏测试,该算法能够成功完成不同难度的探索任务,而以往的算法只能解决simple或Hard难度.这意味着AI代理可以使用更少的数据来学习决策规则并最大化激励。“如果你很好地掌握了探索-开发权衡,你可以更快地学习正确的决策规则,任何不足都需要大量数据,这可能意味着结果是次优的医疗解决方案,网站的利润下降,并且麻省理工学院教授兼ImprobableAI实验室主任PulkitAgrawal说,他是该研究的作者之一。机器人不会学会做正确的事情。好奇心不仅害死猫!似乎很难从心理学的角度解释好奇心的心理基础,我们还没有深入了解这种寻求挑战行为的潜在神经学原理。通过强化学习,这个过程在情感上被“修剪”,将问题剥离到最基本的水平,但在技术实施方面相当复杂。从本质上讲,只有当代理人没有足够的监督来尝试不同的事情时,它才应该好奇,如果有监督,它就必须降低好奇心。大部分测试游戏任务涉及在环境中奔跑以寻找奖励并执行长序列动作以实现某个目标的小型代理,这似乎是研究人员算法的合乎逻辑的测试平台。在《马里奥赛车》和《蒙特祖玛的复仇》的游戏实验中,研究人员将上述游戏分为两个不同的类别:监督稀疏的环境,智能体接受的指导较少,即“困难”探索游戏;一种是更受监督的环境,一种“简单”的探索游戏。假设在《马里奥赛车》,把所有的奖励都去掉,你不知道什么时候有敌人杀了你。当您收集硬币或跳过管道时,您不会获得任何奖励。代理只被告知它最后的表现如何。这是一个稀疏监督的环境,即一项艰巨的任务。在这种任务中,激发好奇心的算法做得很好。而如果智能体处于密集监督的环境中,即跳管道、收集硬币和杀死敌人都有奖励,那么表现最好的算法就是完全没有好奇心的算法,因为他们经常得到奖励,只是照做.过程还好,无需额外探索,收获颇丰。这里如果使用激发好奇心的算法,学习率会很慢。因为一个好奇的代理人可能会尝试以不同的方式快速奔跑,四处游荡,走遍游戏的每一个角落。这些东西很有趣,但它们并不能帮助代理人在游戏中取得成功并获得奖励。上文提到,在强化学习中,一般会使用激发好奇心和抑制好奇心的算法分别对应有监督的稀疏(困难)和有监督的密集(简单)任务,不能混用。这一次,无论环境如何,麻省理工学院团队的新算法始终表现良好。未来的工作可能涉及回到多年来令心理学家高兴和困扰的探索:一种适当的好奇心衡量标准——但没有人真正知道从数学上定义好奇心的正确方法。张维红,博士MITCSAIL的学生表示:通过改进探索算法,针对你感兴趣的问题调整算法。我们需要好奇心来解决极具挑战性的问题,但在某些问题上,好奇心会降低性能。我们的算法消除了调整“探索和开发”的平衡负担。以前需要一周才能解决的问题,新算法可以在几个小时内解决。他与22岁的麻省理工学院CSAIL工程硕士埃里克·陈(EricChen)合着了一篇关于这项工作的新论文。卡内基梅隆大学教员迪帕克·帕萨克(DeepakPathak)表示:“像好奇心这样的内在奖励机制是引导代理人找到有用和多样化行为的基础,但这不应该基于在给定任务上做得很好。”成本。这是人工智能中的一个重要问题,本文提供了一种平衡这种权衡的方法。看看这种方法如何从游戏扩展到现实世界的机器人代理将会很有趣。”加州大学伯克利分校心理学特聘教授兼哲学副教授AlisonGopnik指出,当前AI和认知科学面临的最大挑战之一是如何平衡“探索与利用”。前者是搜索对于信息,后者是奖励搜索。”这篇论文使用了令人印象深刻的新技术来自动化这项工作,设计了一个能够系统地平衡对世界的好奇心和对奖励的渴望的智能体,使AI智能体朝着实现目标迈出了重要的一步像孩子一样聪明的方向,”他说。参考文献:https://techxplore.com/news/2022-11-bad-ai-curious.htmlhttps://www.csail.mit.edu/news/ensuring-ai-works-right-dose-curiosity
