DeepMind又造“反派”了!这些反派是美国人工智能技术实验室打造的“智能特工”,但只能在游戏中才能看到。此前4:1击败世界冠军李世石的AlphaGo,就是在这个实验室训练出来的智能体。但你可能不知道的是,DeepMind还培养出了“国际象棋高手”、“足球高手”、“电竞高手”,甚至还提出了“人工生命”的概念。最近的一批智能体,其实可以直接绕过数据填充,在开放的任务环境中自我进化。之前的阿尔法狗和阿尔法星再厉害,也只能在不同的游戏中释放招式,超越自己的游戏范围,立刻就“够用”了。但这群反派却能在不同的游戏中轻松达成目标,展现出强大的面面俱到的能力。难道说人工智能技术要大步向前迈出一个大范围的“顽疾”?在一个战斗要塞金字塔状的目标中,两个不同颜色的反派能力值都非常高。它们也没有弹跳作用,逐渐在“脾气”中抛出物体。混乱中,其中一块木板被“扔”了出去,变成了楼梯,一直往前走,任务完成!多次实验发现,这种反派可以重现这种方法。难道说这群智慧体是有记忆的?值得一提的是,反派还学会了“相对速度”——我说不,你出来——靠木板直接拉出目标!甚至为了赢得比赛,几个反派都学会了战斗和配合,队伍实力大增。这种在虚拟游戏中自我进化的智能体,只需人工创造任务环境,设计大量工作目标,利用先进的深度学习方法一步步通关,最终成为“十八般武艺”代理人。没有模型,没有经验,这种智能体是如何进化的?零样本教学方式是否意味着这类智能体已经具备了重要的“自学理念”?社会达尔文主义训练场的对比之前已经做过AI足球场,这些智能体的训练场更像是一场“社会发展”的游戏,里面有无数的游戏室,每个卧室里的游戏都承载着根据比赛、稳定性、耐磨性、探索难度系数四个等级的不同而分出。不管是什么样的任务,这些智能体都只能从最简单的开始,一步步从更复杂的游戏入手,这也让整个游戏更像是一个虚拟社会。这种不用大数据训练的智能体,每玩一次游戏就发育一次。在与各种条件的相互作用和“奖赏”中,发展成为更通用的智慧体,更类似于人类的“生命”。”。让一个agent自己进化的关键是设计好原有的智能和进化条件。一开始比较简单,所有复杂的结构都进化出来了。就像一个婴儿不能做一样的事情给DeepMind表示,每个AI智能体在4000个游戏房间中进行了大约70万场独特的游戏,并在340万个任务中进行了2000亿次训练。1亿次pass相当于大约30分钟的练习时间。按照这种训练方式,可以在41天内训练出一组“成年”agent。想想DeepMind的说法“单个AIagent可以开发智能实现多个目标,而不仅仅是一个目标。”AI代理技术公司Pathmind的CEOChrisNicholson也表示,“他所学的招式可以举一反三。例如,智能体学习爬行和控制物体,可以执行敲锤子或叠被子等任务。DeepMind已经对AI代理进行了编程,让它们在这个世界上设立既定目标,这些AI代理已经学会了如何一一掌握它们。”不过,佛罗里达大学电子信息科学副教授SathyanarayaRaghavachary表示,这些智能体不能被理解为“生命”,尤其是如果智能体具有物理感觉、时间感知以及理解目标的诸多后果。“连我们人类都无法完全意识到自己的身体,更不用说这些人工智能技术了。”他说,人的大脑需要一个活跃的身体,人的大脑必须放在一个合适的身体概念中,并在区域部分进化。如果AI代理能够理解他们的任务,为什么需要2000亿步的模拟才能达到最佳效果。总而言之,这个虚拟机训练出来的AIagent,只是和平时“一模一样”而已。从理论到实践还有很长的路要走。小型人工智能技术是“复制人类行为的要素”,在计算机系统中执行某些任务。比如完成图片的分类,定位照片中的物体,定义物体之间的边界等等。这些系统专用于执行特定任务,不具备解决问题??的一般能力。相比之下,Deepmind使用的“通用人工智能”有时被称为人类级别的人工智能,因为它可以理解上下文、意义和社会线索,甚至有人指出它可能完全超越人类智能。.但是,就像行为主义和认知主义的冲突一样,agent是否有解决问题的能力不能简单的考虑统计分析的结果。擅长“事后解释”任何观察到的行为,在实验室之外,无法“预测”会发生什么行为。
