当前位置: 首页 > 科技观察

强化学习的起源:从老鼠走迷宫到AlphaGo打败人类

时间:2023-03-17 15:23:45 科技观察

一提到强化学习,不少科研人员的肾上腺素就不受控制的飙升!它在游戏AI系统、现代机器人、芯片设计系统和其他应用中发挥着非常重要的作用。有许多不同类型的强化学习算法,但它们分为两大类:“基于模型”和“无模型”。在与TechTalks的对话中,神经科学家和《智能的诞生》一书的作者DaeyeolLee讨论了人类和动物强化学习的不同模型、人工智能和自然智能以及未来的研究方向。无模型强化学习19世纪后期,心理学家爱德华桑代克提出的“效应定律”成为无模型强化学习的基础。桑代克提出,在特定情况下具有积极影响的行为在该情况下更有可能再次发生,而具有负面影响的行为则不太可能再次发生。桑代克在一个实验中探索了这个“效应定律”。他把一只猫放在一个迷宫盒子里,然后测量这只猫从盒子里逃出来的时间。为了逃脱,猫必须操纵一系列小玩意儿,例如绳索和杠杆。桑代克观察到,当猫与拼图盒互动时,它学会了有助于逃跑的行为。随着时间的推移,猫越跑越快。桑代克得出结论,猫从它们的行为所提供的奖励和惩罚中学习。“效果法则”后来为行为主义铺平了道路。行为主义是心理学的一个分支,它试图根据刺激和反应来解释人类和动物的行为。“效果法则”也是无模型强化学习的基础。在无模型强化学习中,代理人感知世界,然后在衡量奖励的同时采取行动。在无模型强化学习中,没有直接的知识或世界模型。RL智能体必须通过反复试验直接体验每个动作的后果。基于模型的强化学习Thorndike的“效果法则”一直流行到1930年代。当时的另一位心理学家爱德华·托尔曼(EdwardTolman)在探索老鼠如何快速学会在迷宫中航行时,提出了一个重要的见解。在他的实验中,托尔曼意识到动物可以在没有强化的情况下了解他们的环境。例如,当老鼠在迷宫中被释放时,它会自由探索隧道并逐渐了解其环境的结构。如果老鼠随后被重新引入相同的环境并给予强化信号,例如寻找食物或寻找出口,它可以比没有探索过迷宫的动物更快地达到目标。托尔曼称之为“潜在学习”,它成为基于模型的强化学习的基础。“潜在学习”使动物和人类能够形成他们世界的心理表征,在他们的脑海中模拟假设场景,并预测结果。基于模型的强化学习的优势在于它消除了代理在环境中进行试错的需要。有一点值得强调:基于模型的强化学习在开发能够掌握国际象棋和围棋等棋盘游戏的AI系统方面特别成功,这可能是因为这些游戏的环境是确定性的。基于模型vs无模型通常,基于模型的强化学习可能非常耗时,并且在对时间极其敏感时可能是致命的。“在计算上,基于模型的强化学习要复杂得多,”李说。“首先你要得到模型,做一个心理模拟,然后你要找到神经过程的轨迹,然后采取行动。基于模型的强化学习并不一定比无模型的RL更复杂。”当环境非常复杂时,如果可以用一个相对简单的模型(可以很快得到)来建模,那么模拟就会简单很多,性价比也高。多种学习模式其实,无论是基于模型的强化学习和无模型强化学习都不是完美的解决方案。无论你在哪里看到强化学习系统解决复杂问题,它很可能同时使用基于模型和无模型的强化学习,甚至可能使用更多形式的学习。研究神经科学表明,人类和动物都以多种方式学习,大脑在任何给定时刻不断地在这些模式之间切换。近年来,人们对创建结合多种强化学习模式的AI系统越来越感兴趣。加州大学圣地亚哥分校的科学家最近的工作表明,将无模型和基于模型的强化学习相结合可以在控制任务中实现卓越的性能。“如果你看看像AlphaGo这样的复杂算法,它既有model-freeRL元素,也有model-basedRL元素,它根据棋盘配置学习状态值,这基本上是model-freeRL,但它是Model-based还执行前瞻搜索。”尽管取得了显著成就,但强化学习的进展一直很缓慢。一旦RL模型面临复杂且不可预测的环境,其性能就会开始下降。“我认为我们的大脑是一个复杂的学习算法世界,它已经进化到可以处理许多不同的情况,”李说。除了在这些学习模式之间不断切换之外,大脑还设法一直保持和更新它们,即使他们没有积极参与决策。心理学家丹尼尔卡尼曼说:“维护不同的学习模块并同时更新它们可以帮助提高人工智能系统的效率和准确性。还有一件事我们需要弄清楚——如何在人工智能系统中应用正确的归纳偏差,以确保它们以具有成本效益的方式学习正确的东西。数十亿年的进化为人类和动物提供了高效学习所需的归纳偏差,同时使用尽可能少的数据。Inductivebias可以理解为从现实生活中观察到的现象中总结规律,然后对模型进行一定的约束,从而起到模型选择的作用,即选择一个更符合模型的模型。来自假设空间的现实规则。“我们从环境中获得的信息很少。利用这些信息,我们必须进行概括。原因是大脑具有归纳偏差,并且存在可以从一小部分示例中进行概括的偏差。这是进化的产物,”李说,这引起了神经科学家越来越大的兴趣。”然而,虽然归纳偏差在物体识别任务中得到了很好的理解,但在构建社会关系等抽象问题中却变得模糊不清。未来还有很多事情需要我们去了解~~~参考资料:https://thenextweb.com/news/everything-you-need-to-know-about-model-free-and-model-基于强化学习