当前位置: 首页 > 科技观察

如何解决深度学习中的多体问题

时间:2023-03-16 18:07:36 科技观察

“多体问题”(也称N体问题)看似简单,但实际上在当今的数学中是极难攻克的。多体问题是指多个相互作用的实体。在物理学中,任何三体问题都没有封闭形式或解析解(请参阅:https://en.wikipedia.org/wiki/Three-body_problem)。像这样简单的问题反映了我们分析工具的局限性。这并不意味着它无法解决,只是意味着我们必须求助于近似值和数值技术来计算它。太阳、月球和地球之间的三体问题可以通过足够精确的数值计算来分析,以帮助宇航员登陆月球。在深度学习领域,我们也有一个新兴的N体问题。许多更先进的系统现在正在处理多代理系统。每个智能体都可能有与全局目标合作或竞争的目标(即目标函数)。在多智能体深度学习系统中,甚至在模块化深度学习系统中,研究人员需要设计可扩展的合作方法。约翰内斯开普勒大学、DeepMind、OpenAI和Facebook最近发表的论文探讨了这个问题的各个方面。约翰内斯开普勒大学的一个团队,包括SeppHochreiter(LSTM的作者)提出使用模拟库仑力(即电磁力的大小与反向距离的平方成正比)作为训练的替代目标函数生成对抗网络(GAN)。寻找两个对抗网络之间的平衡状态是一个热门的研究课题。解决深度学习中的二体问题是相当困难的。研究发现,使用这种方法可以防止“模式崩溃”的不良情况。此外,该设置确保收敛到一个最优解,只有一个局部最小值也恰好是全局的。更好的解决方案可能是几个月前非常流行的Wasserstein目标函数(又名EarthMoverDistance)。该团队将他们的创作称为“CoulombGAN”。微软Maluuba发表了一篇论文,介绍了一种让人工智能玩吃豆人游戏的系统,其水平已经超越了人类。研究人员挑战的吃豆人游戏与游戏的原始版本相似,角色在躲避怪物的同时收集小球和水果。论文的标题是“强化学习的混合奖励架构”。本文介绍了一种强化学习(RL)的实现,它不同于典型的强化结构(即HRA):本文令人惊讶的是所使用的目标函数的数量。本文描述了使用1800个值函数作为其解决方案的一部分,即为每个球、每个水果和每个怪物使用代理。Microsoft研究表明,使用数千个微型代理将问题分解为子问题并实际解决它是高效的!在这个模型中,代理之间的耦合是显式隐式的。DeepMind通过共享内存解决了多智能体的问题。在论文《Distral: Robust Multitask Reinforcement Learning》中,研究人员通过受“思想融合”启发的代理协调方法解决了一个常见问题。为此,研究人员采用了一种封装每个代理的方法。然而,它们允许一些信息通过代理的封装边界,希望对窄通道更具可扩展性和鲁棒性。我们提出了一种新的多任务联合训练方法,我们称之为distral(提取和迁移学习)。我们建议共享“提取”策略来捕获跨任务的共同行为,而不是在不同网络之间共享参数。每个网络都经过训练来解决自己的任务,同时通过蒸馏训练被限制在一个近似共享的策略上,该策略是所有任务策略的核心。结果导致更快、更稳定的学习,验证了窄通道方法。这些多代理(N体问题)中的开放性问题是这种耦合的本质。DeepMind论文显示了与原生紧耦合方法相比较低耦合(即权重共享)的有效性。OpenAI最近发表了一篇关于多系统训练模型以匹配其系统中其他代理的有趣论文。论文题目是《Learning with Opponent-Learning Awareness》。该论文表明,针锋相对的策略源于赋予具有社会意识的多代理系统。尽管由此产生了弹性问题,但它确实是一种非常吸引人的方法,因为它解决了AI的一个关键维度(参见:多维智能)。总而言之,许多领先的深度学习研究机构正在积极探索模块化深度学习。这些小组正在探索由不同目标函数组成的多智能体系统,所有目标函数都用于合作求解单个全局目标函数。还有很多问题有待解决,但很显然,这种方法确实是非常有前途的进步。去年,我发现博弈论的变化对未来的进步最有指导意义。今年,我们将看到更多探索松耦合多智能体系统的尝试。