当前位置: 首页 > 科技观察

强化学习揭开人们运用抽象思维时大脑是如何工作的

时间:2023-03-15 23:06:30 科技观察

强化学习揭示了当人们使用抽象思维时大脑是如何工作的艺术是抽象的最好例子之一。但抽象绝不仅限于艺术创作等高级认知行为。抽象是人类思维超越直接感官信息的独特能力。大脑非常擅长构建和使用抽象。在最近的一项神经科学研究中,研究人员将强化学习算法和脑成像技术相结合,向我们展示了一种基于感官特征评估的抽象机制,该机制具有教育和康复、精神疾病治疗和人工智能的潜力。新算法的开发开辟了新的道路。该研究以“Valuesignalsguideabstractionduringlearning”为题于7月13日发表在《eLife》期刊上。抽象涵盖了我们与环境互动的方方面面。想象一下,您在森林中行走时需要穿过一条小溪。这个看似简单的动作需要处理无数的视觉和听觉特征。强化学习(RL)直接从高维感官输入(看到、听到河流)输出行为(过河),遇到计算瓶颈,抽象表示已被认为是克服这一问题的有效解决方案。抽象可以被认为是从高维空间中雕刻出来的简化地图,其中的细节已被删除,以便专注于高阶概念、类别或模式。那么,抽象表征是如何在大脑中构建的呢?研究团队邀请志愿者进行实验,让他们反复学习事物的关联规则,并用功能磁共振成像(fMRI)记录他们的大脑活动。接下来,他们跟踪志愿者的评估过程,并通过强化学习建模根据抽象级别分离他们的学习策略。学习过程中价值建构的神经基础。(来源:论文)该论文的合著者、京都ATR计算神经科学实验室主任MitsuoKawato博士详细解释了神经反馈操作:“通过机器学习和先进的神经影像技术,我们现在可以实时检测是否当大脑中出现神经反馈时,就会出现低于意识阈值的心理表征。当我们给参与者一个小奖励时,随着时间的推移,这种心理表征会与奖励(价值)相匹配。这样,我们就可以“欺骗”大脑开始使用这些新的有价值的心理表征来构建抽象的想法。”实验表明,通过学习,高价值的抽象表征越来越多地指导志愿者的行为,从而产生更好的选择和更高的主观信心,“价值”是形成目标依赖抽象表征的关键因素。领导该团队的京都国际高级电信研究所首席研究员AurelioCortese博士说:“这项研究在同类研究中是独一无二的,因为它使用了基本的视觉刺激和简单的决策问题。抽象等高级复杂功能是学习了。”团队向实验参与者询问吃豆人更喜欢哪种水果,其中吃豆人具有三个特征:颜色、嘴巴方向和条纹方向。参与者选择后会看到结果,了解特征与水果之间隐藏的关联来自重复试验,并被告知发现关联规则越快,奖励越高。志愿者参与实验学习任务和行为结果。(来源:论文)“然而,这种简单性直接将我们带到了底层机制,帮助解决神经科学文献中一个长期存在的问题:为什么我们总是在大脑中看到价值信号?抽象可能是关键。我们需要不断地以抽象的方式思考,否则我们的世界会太复杂。”基于经典的RL算法Q-learning,研究人员提出了特征强化学习(FeatureRL)和抽象强化学习(AbstractRL)。经过实验对比发现,为了更快地学习,agent必须使用抽象强化学习,其他策略会导致任务块的完成速度变慢。强化学习专家和价值计算的混合体。(来源:论文)价值信号与抽象思维之间的关系该团队还进行了第二个实验,以检验价值通过感觉皮层的定向效应促进抽象的因果作用。通过直接分析来检验特征评估引导学习中抽象的因果假设,以奖励的形式人为地增加特征表示的价值会导致抽象的使用增加。通过神经反馈在感官表征中人工注入价值促进了抽象。(来源:论文)虽然价值和抽象在降低任务空间的维度方面似乎密切相关,但潜在的机制是什么?共同作者、伦敦大学学院认知神经科学研究所教授BenedettoDeMartino博士说:“价值传统上与享乐价值相关,例如巧克力棒的价值。价值可能对智力的某些方面至关重要的结论“可能是激进的。价值本身很可能是一种抽象,与决策中的任务状态概念密切相关。”然而,这项工作为价值在产生抽象思维中的作用提供了一个新的视角,即大脑中的价值信号在复杂学习策略的发展中发挥着重要的算法作用。“这项研究是我们更广泛努力的一部分了解人类思维的算法本质,并最终将这些知识转化为人工智能的新架构,并为精神疾病带来新的治疗方法。”