当前位置: 首页 > 科技赋能

掩体!新版AlphaGo完全不依赖人类知识,21天秒杀柯洁版老狗【附论文下载】

时间:2024-05-22 15:01:41 科技赋能

文章|丽娜智熙10月19日消息,今天,许久不见的AlphaGo战队又来捣乱了!谷歌 DeepMind 团队在《Nature》杂志网站上发表了迄今为止关于 AlphaGo 的第二篇重要论文。

它引入了AlphaGo的新成员——AlphaGo Zero(阿尔法狗0号)。

阿尔法狗0号是继AlphaGo范、AlphaGo李、AlphaGo大师之后,AlphaGo家族的又一新成员。

也是目前为止最强大、最可怕的对手(小弟通常是最强的,所以没有什么问题)。

阿尔法狗0号在诞生36小时后,成功击败了击败柯洁的AlphaGo。

它第一次让AI彻底脱离人类历史,只使用围棋规则+“自我对弈”。

经过数万次的自我对弈,成长为世界上最强大的围棋高手。

最可怕的是,通过智西西对新一代AlphaGo Zero的深入探索,我们发现,随着它不断进化、变得更强,它变得越来越……简单。

不再需要复杂的战略网络、价值网络、快速变化的策略等,也不再需要人类进行复杂的架构设计和数据输入。

0号阿尔法狗只是像人类一样学习规则。

然后继续练习就可以了。

这篇论文的标题也很直白,《Mastering the game of Go without human knowledge》,直译是“你不需要人类知识就可以成为围棋高手”,意译大概就是……“人类,我不再需要你了” 。

1.AlphaGo的四代大家都很熟悉。

AlphaGo是由谷歌DeepMind团队的Demis Hassabis、David Silva、黄世杰等人开发的人工智能围棋程序。

2020年10月,职业二级选手樊麾以0:5输给了AlphaGO。

DeepMind 团队将这只狗称为 AlphaGo Fan。

2017年3月,AlphaGo以5:3击败韩国棋手李世石。

为了区分,DeepMind团队将这只狗称为AlphaGo Lee。

今年12月底,身穿“大师”马甲的AlphaGo在5天内横扫中日韩棋坛,最终以60连胜的成绩退役。

今年5月,世界围棋第一人柯洁在乌镇对阵AlphaGo,三场比赛全部落败,基本确立了AI在围棋领域的统治地位。

此时击败柯洁的,正是同版本的AlphaGo Master。

今天,DeepMind团队再次为我们带来了AlphaGo Zero。

2.更简单,但更强大 虽然两者都称为AlphaGo,但每一代AlphaGo都是不同的。

与之前的三位“狗兄弟”相比,阿尔法狗0号更接近“人工智能”的真正概念。

以第二代AlphaGo李为例。

DeepMind团队此前在《Nature》杂志上发表的第一篇关于AlphaGo的论文中详细介绍了AlphaGo Lee是如何下棋的。

这篇标题为《用深度神经网络和树搜索掌握围棋博弈(Mastering the Game of Go with Deep Neural Networks and Tree Search)》的文章介绍的内容简单如下:1)分析职业棋手的棋谱,得到两个结果,Rollout Policy和SL Policy Network。

其中,快棋策略类似于通过观察棋盘获得的“直觉”,采用线性模型进行训练;策略网络通过深度学习模型进行训练和分析,类似于人类的“深思熟虑”。

2)使用新的策略网络与之前训练好的策略网络对战,利用强化学习修改参数,最终得到增强的策略网络(RL Policy Network),类似于人类得到“更周到”的策略互相争斗之后。

由此判断某个动作的质量。

3)将所有结果组合成一个价值网络,对整个盘面进行“全局分析”判断。

图中蓝色位置越深,获胜潜力越大。

这样可以让节目有大局观,不贪小利。

并且输掉整场比赛。

4)综合评估“直觉”、“深思熟虑”和“全局分析”的结果,迭代寻找最佳放置点。

在多次阅读原论文并收集大量其他资料后,微软亚洲研究院首席研究员郑宇和微软亚洲研究院副研究员张俊波完成了更详细的AlphaGo原理流程图,此处转载以供解释。

,版权归两位作者所有。

第三代AlphaGo大师更多地依靠强化学习来训练AlphaGo,减少了对人类棋谱的依赖。

这里不讨论长度问题。

最新最强的“狗哥”与其老大哥相比有以下特点: 1)不需要分析职业棋手的记录,只学习围棋规则,然后通过强化学习进行自对弈(强化学习)(10,000 次)。

2)只使用一个神经网络,不需要之前的“策略网络”和“价值网络”。

3)不需要“快棋策略”,可以直接从神经网络得出结论。

我发现没有。

随着 AlphaGo 的发展,它变得越来越……简单。

阿尔法狗0号不再需要如此复杂的各种战略网络、价值网络、快速移动的策略等等,它不再需要人类为其进行各种复杂的架构设计和数据输入。

它只是像人类一样学习规则。

,然后继续练习,就是这样。

而且,AlphaGo No.0和AlphaGo Master都只需要4个TPU,而他们的“二哥”AlphaGo Lee则需要一个GPU和48个TPU,而“老大哥”AlphaGo Fan则需要一个GPU。

出生三小时后,阿尔法狗0号就学会了下围棋。

诞生36小时后,AlphaGo 0号击败了“二哥”AlphaGo李——碾压战绩:0。

出生后第21天,Alpha狗0号击败了已经60连胜的Master游戏。

后来师父击败了世界围棋第一人柯洁。

诞生第40天,阿尔法狗0号对师父的胜率就达到了90%,堪称最强人工智能。

3、阿尔法狗0号的武功秘诀——“强化学习” 阿尔法狗0号之所以能如此厉害,最重要的原因就是“强化学习”。

强化学习与我们常听到的“深度学习”不同。

,在深度学习中,需要使用大量的数据来训练神经网络。

例如,如果你向机器展示一张汽车的图片并告诉它这是一辆汽车,它下次就会说“汽车”。

如果你给他看别的东西,上面写着“汽车”,你就告诉它“你错了”。

久而久之,它就能识别汽车了。

原理其实很简单,但是需要的数据量非常大。

在强化学习中,相当于不告诉机器下一步要做什么。

它随机执行一轮操作后,如果结果好,则给予奖励。

如果结果不好,那就给予惩罚。

但如果你不告诉它哪一步出错了,随着时间的推移,机器会自己找出最佳解决方案。

强化学习大大减少了对数据的依赖。

尤其是像围棋这样规则明确的游戏,更适合强化学习发挥其强大威力。

因为它的环境条件非常简单(只有黑白棋),规则也非常简单,结果也非常简单(赢、输、平)。

4、NVIDIA和马斯克正在研究的黑科技。

看完以上内容,你是否觉得AI已经变得太“黑科技”了,人类快要完蛋了?不用担心。

目前的强化学习只能在步骤可能性较少、任务行为狭窄的领域(如围棋、简单的身体动作等)发挥强大作用。

现在学术界比较主流的观点之一是,训练机器进行强化学习需要构建一个世界模拟器来模拟现实世界的逻辑、原理、物理定律等。

在这个虚拟的世界里,天空是蓝色的,地面是真实的,当你跌倒时重力会抓住你,玻璃会破碎……想象一下,当你在这个世界中建造一个机器人时,虽然它不会走路但不会爬行,但是如果把它放到这个世界上不断的刺激和训练,会发生什么呢?这个机器人将逐渐学会爬行、站立和奔跑。

在整个过程中,人类只提供一个初始参数。

所有其他训练都是机器人通过环境中的反复试验不断改进的。

然而,由于现实世界过于复杂,并且存在大量的表示学习参数,因此创建一个完全相同的虚拟世界几乎是不可能的。

人类甚至无法模拟现实世界复杂性的 1/10。

但困难是需要克服的。

这听起来像是一件非常高科技的事情,但事实上,很多人已经在这么做了。

以英伟达为例。

今年5月,NVIDIA推出了一款用于训练机器人的增强学习世界模拟器——ISAAC机器人模拟器,打造了一个专门为训练机器人设计的完全虚拟的世界。

世界。

这是一个遵循物理定律但不遵循时间定律的世界。

在现实生活中,如果你想训练一台机器学习打冰球,你必须把冰球放在机器前面,一遍又一遍地教它;在虚拟世界中,机器可以在一秒钟内多次重复这样的动作,也可以训练一堆机器同时学习打球,然后找到其中最聪明的一个,复制它的“大脑”程序,并创建一堆相同的机器继续训练和筛选。

还有 OpenAI——OpenAI 是埃隆·马斯克 (Elon Musk) 在 12 月宣布的一个非营利性人工智能项目。

主要关注强化学习和无监督学习。

研究人员将开源分享他们的大部分研究成果。

5月15日,OpenAI发布了一款名为“Roboschool”的开源软件,用于训练机器。

在这个虚拟环境中,科学家们还原了重力、摩擦力、加速度等不同的元素。

视频中的机器人就是训练项目之一。

它会以一种不熟练的姿势不断地向球跑去,每当它即将接近时,球的位置就会随机改变。

偶尔它会跌倒,然后学会自己站起来。

此外,它还会不断受到白色立方体的攻击,促使其运动轨迹发生变化。

结论:探索AI新领域,击败柯洁的AlphaGo大师,已经很厉害了。

没想到,新崛起的AlphaGo Zero仅用了21天就击败了Master。

真是太神奇了。

而且,它不仅变得更加强大,而且还变得更加简单。

它只是像人类一样学习规则,然后不断练习,仅此而已。

我们可以看到,随着深度学习的瓶颈日益凸显(需要大量标注数据、泛化迁移能力低等),学术界和工业界,包括NVIDIA、OpenAI等都在不断探索人工智能领域的新技术。

智力。

,新边界,新方法。