当前位置: 首页 > 科技观察

李飞飞团队打造深度学习“游乐场”:AI也在自我进化想一想,

时间:2023-03-17 17:10:38 科技观察

动物在与环境互动的过程中,智力与体型同步进化,实在是太可怕了。例如,仓鼠通过“进化”多条腿的仓鼠球来逃避猫(doge)。好吧,不用多说,人工智能也很聪明,但与动物不同的是,人工智能通常是在硅基芯片上实现的,没有实体。那么,如果给AI一个“身体”,对于智能的进化重要吗?如果是这样,如何利用它来创造更智能的人工智能?在李飞飞的带领下,斯坦福大学的研究团队创建了一个计算机模拟的“游乐场”——DERL(深度进化强化学习),其中被称为“Unimals”(通用动物)的智能体经历不断的变异和自然选择。论文发表于《自然通讯》杂志。https://www.nature.com/articles/s41467-021-25874-z调查结果表明,虚拟生物的体型会影响它们学习新任务的能力,在更具挑战性的环境中学习和进化形态,或者学习进化得更快并且比那些在更简单的环境中学习和进化的形态更好地执行更复杂的任务。在这项研究中形式最成功的Unimals也比前几代人更快地掌握了任务,即使他们最初具有相同的基准智力水平。换言之,“具身”是智能进化的关键。“我们通常关注人工智能如何作为人脑中的神经元发挥作用,”研究团队成员、斯坦福大学HAI联合主任李飞飞说。“然而,将人工智能视为具有物理实体的东西是一种完全不同的范式。”’”该研究的合著者、人文与科学学院应用物理学副教授、HAI副主任SuryaGanguli说。速度。”“Unimal”宇宙团队搭建了一个虚拟空间,将简单的模拟生物放入其中。当然,这些生物只是一些以“随机方式”移动的“几何图形”(Unimal)。在学习阶段,有平坦的地形和更具挑战性的地形,包括块状山脊、台阶和光滑的山丘。Unimal必须将方块移动到不同地形上的目标位置。训练结束后,每个Unimal与在相同环境/任务组合中训练的其他三个Unimal比赛。获胜者将产生一个后代,该后代在面临与父母相同的任务之前经历了涉及肢体或关节变化的突变。最终,在训练了4000种不同的形态后,该团队结束了模拟。至此,幸存下来的Unimals平均经历了10代的进化,形态多样得惊人,有两足、三足、有臂和无臂的四足。起初,“差不多的身材”只有一个“头”和发达的“四肢”。他们有许多奇怪的姿势,让人想起“章鱼”。嗯?看来和老实验一样,别着急,进化才刚刚开始。这些Unimal生长在不同的星球,星球上到处都是“起伏的丘陵”和“低矮的障碍物”,它们在更加激烈的环境中竞争。看看是不是像大家说的“逆境是成功之母”。每个环境中排名前10位的Unimals都被安排执行新任务,从“新障碍”到将球移动到目标、将箱子推上山,或在两点之间巡逻。这些“角斗士”真正展现了他们虚拟的勇敢。最终,那些能够“在复杂地形中”行走的Unimals学习新任务的速度更快,并且比它们的“平地上的表兄弟”表现得更好。换句话说,它们是通过“生存”来“进化”的,而不是“边做边学”的。相反,它在复杂的环境中同时“进化”和“学习”,例如台阶、山丘、山脊和移动的地形,以便在这些复杂的环境中运行。在平坦的地形上,“章鱼扑通”可能同时到达终点,但“适应丘陵和山脊的身体配置”往往更快、更稳、更干练。他们多才多艺的身体能够更好地利用所学知识-很快他们就将竞争对手甩在了身后。留给“进化”去做吧。通用计算框架DERL使用两个交互式适应过程来创建具身代理。进化的外部循环通过变异操作优化代理的形状(b),内部强化学习循环优化神经控制器的参数(c)。在可变地形操作中,智能体必须从初始位置(绿色球体)开始并将一个方块移动到目标位置(红色方块)。在每个环境完成三个进化运行(每个有4,000个变形)后,该团队从每个环境中选出前10个表现最好的Unimals并从头开始训练它们以完成8个全新的任务,例如绕过障碍物、操纵球或推一个箱子上坡道。最成功的Unimals在个体(更少训练的情况下表现更好)和跨代速度也更快。该团队发现,早期祖先晚年习得的行为可以在他们的后代中更早地表现出来。此外,在10代之后,最成功的Unimal形式学习相同任务的时间是其最早祖先的一半。这也验证了美国心理学家詹姆斯·马克·鲍德温在19世纪末提出的假设:“学习具有适应性优势的事物的能力”可以通过达尔文的自然选择传递。人类不一定知道如何设计机器人身体来完成奇怪的任务,例如爬过核反应堆提取废物、地震后提供救灾、引导纳米机器人穿过人体,甚至做洗碗或叠衣服等家务活。或许,设计这些机器人的唯一方法就是将它们交给“进化”。