文章| 5月25日下午不到2点,柯洁再次对阵AlphaGo。
比赛依然在上午10时30分开始。
首盘输掉四分之一局后,柯洁在第二盘中盘输给了AlphaGo。
这是本届乌镇围棋比赛柯洁与AlphaGo三场比赛中的第二场,也正式宣告了本次人机比赛的结果——人类输了。
不过,由于本次棋以“三轮棋”的形式进行,胜负将在三局中完成,因此本周六将进行第三场比赛。
请参考首场比赛相关信息(新闻!人机大战首场柯洁输球,深度拆解AlphaGo套路)(相比首场比赛,柯洁显得紧张多了,进入前30分钟的“抓毛游戏”现状)AlphaGo是谷歌DeepMind团队的Demis Hassabis、David Silva、黄世杰等人开发的人工智能程序。
今年3月,AlphaGo击败了韩国围棋。
棋手李世石5:3,成为第一个击败人类职业围棋棋手的计算机程序 今年12月底,阿尔法狗披着“大师”马甲横扫中日韩棋坛。
5天,最终以60连胜的成绩退役。
1.“1/4件” 虽然我们在第二场比赛中输了,但第一场比赛我们就输了1/4件。
不是说双方的能力只有一点差距,人类还可以更加努力吗?我们能赶上吗?不。
(第一局)第一局结束后,柯洁曾坦言,他知道自己会输掉1/4的棋子。
AlphaGo的每一步棋都是匀速的,最后的单人正式赛阶段也是如此,所以他有时间专注。
,我清楚地看到,我丢了1/4的棋子。
作为一个计算机程序,DeepMind 团队为 AlphaGo 设定的目标是“获胜”而不是“赢得更多进球”。
例如,如果下A的时候有99.9%的机会赢1/4,下B的时候有99.8%的机会赢10,那么AlphaGo就会选择1/4而不是10。
因此,AlphaGo会用最安全的方法确保它能够获胜,即使这意味着以最小的差距——1/4 棋子获胜。
2、“新狗”和“老狗”为了区分,DeepMind团队将去年击败李世石的“老狗”称为AlphaGo Lee,将击败60大师&柯洁的“新狗”称为AlphaGo Master 。
你可能潜意识里觉得程序的迭代升级必然意味着计算能力的显着提升。
上一代AlphaGo配备了50个TPU(TensorProcessingUnits,可以理解为谷歌专门为机器学习打造的芯片),可以搜索50个棋步。
这一代至少没有TPU,这一点让人尴尬。
酒吧?那么这一代AlphaGo的配置是怎样的呢? 4 个 TPU。
是的,你没看错,算力大卖,只有 4 个 TPU,全部 4 个 TPU……对了,在最近的 Google I/O 开发者大会上,Google CEO Sundar Pichai 还宣布推出下一代TPU优化了深度学习的训练性能和应用/推理性能。
不过,这次AlphaGo仍然使用上一代TPU,谷歌短期内不太可能向公众出售TPU芯片、主板或服务器。
AlphaGo团队负责人Dave Silver表示,“AlphaGo Master是AlphaGo的新版本,我们非常努力地改进其基础算法。
算法比(用于训练的)数据量和计算量更重要与李世石去年版本的 AlphaGo 相比,AlphaGo Master 仅使用了 10% 的计算能力,并且只需要几周的时间进行训练,而不像之前需要几个月的训练,这是“AlphaGo Master 的创新之一”。
AlphaGo Master的特点是它更多地依赖于训练。
自习。
在这个版本中,AlphaGo实际上成为了自己的老师,从自己现有的经验中获得结果。
与之前的版本相比,AlphaGo 对人类现有经验(棋谱)的依赖要少得多。
实际上是基于人类数据),但并没有完全脱离人类经验。
3.“完全脱离人类经验”? ——别再闹了。
比赛首日,搜狗CEO王小川就曾对AlphaGo与柯洁的人机大战发表了自己的看法。
里面有这样一段话:“根据公开资料推测,这次AlphaGo 2.0的技术原理与之前有巨大差异:1.我们放弃了监督学习,不再使用人类棋谱进行训练“这是一个非常具有误导性的描述,事实证明它确实引起了很大的误导。
甚至当他们到达现场时,就有人向 DeepMind 创始人兼首席执行官 Demis Hassabis 提出了这样的问题——“这个 AlphaGo 是纯粹版的 AlphaGo 吗?换句话说,它是完全独立于人类大师的国际象棋记录吗?” “学习?” (DeepMind 创始人兼首席执行官 Demis Hassabis) Demis Hassabis 听到这个问题时眼神非常困惑……他是这样回答的,“我不确定我是否真的理解了这个问题,但是……你知道,显然, AlphaGo首先需要从人类经验中学习,然后(这个版本的AlphaGo)更多地依赖于从自我博弈中学习《原文》我不确定我是否正确理解了这个问题,但是......你知道......显然,这个版本的 AlphaGo 最初是从人类的游戏中学习的,然后它现在的大部分学习都是来自于它自己与自己的对弈。
” AlphaGo并没有完全脱离人类棋谱,根本不使用监督学习,而是更多地依靠自学习数据来成长,事实上,这种“学习棋谱+自对弈”的模式已经被使用了。
上一代的AlphaGo只关注后者,没有人类棋谱的经验,AlphaGo连围棋的规则、概念、方法都不知道,怎么可能打败世界冠军。
?“完全脱离人类经验”?--别说了。
这么多“学习”,到底是什么?监督学习、无监督学习、深度学习、强化学习……一一翻译出来的计算机术语让人不爽。
补充一下“神经网络”、“机器学习”、“人工智能”它们具体是什么意思呢?首先,监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)可以看作是一对。
学习给机器一些标记数据,使用这些标签作为“监督”(好/坏结果的标准),然后让机器学习一个好的函数来对未知数据做出决策。
无监督学习就是给机器未标记的数据,让机器自己学习分类和判断。
例如,如果你向机器展示一张汽车的图片并告诉它这是一辆汽车,它下次就会说“汽车”。
如果你给他看一张狗的照片,上面写着汽车,告诉他“你错了,这是一只狗。
”“随着时间的推移,它在区分‘车’和‘狗’的图像上会做得越来越好。
原理其实很简单,但是对数据量的要求非常大。
那么我们就可以使用深度学习(深度学习)和强化学习(Reinforcement Learning,又译为“强化学习”)作为一对,AlphaGo在学习棋谱的过程中也使用了监督学习。
上面“对“汽车”和“狗”进行分类的示例。
强化学习不像传统的监督学习,但又不能归为无监督学习……是的,这确实有点绕。
在强化学习中,相当于你不告诉机器下一步如何进行?它随机执行一轮操作后,如果结果好,则给予奖励。
如果结果不好,就给它一个惩罚,但不要告诉它哪一步做错了。
随着时间的推移,机器会找出最佳解决方案。
至于卷积神经网络(CNN),它是深度学习的一种。
深度学习的深度架构可以通过直接堆叠或者通过卷积神经网络来布置。
(机器学习)是这些学习的总称。
顾名思义,就是让机器学会学习。
人工智能(Artificial Intelligence)是一个更大的范畴,包括感知智能、认知智能、运动智能等。
5、增强型逐渐兴起。
DeepMind 团队选择更多地依靠强化学习来训练 AlphaGo,减少其对人类国际象棋记录的依赖。
其目的之一是提高AlphaGo的泛化能力,使其更加通用,以便可以应用于围棋以外的游戏。
场地。
学术界比较主流的观点是,训练机器进行强化学习需要构建一个世界模拟器来模拟现实世界的逻辑、原理、物理定律等。
想象一下人类在计算机中创建它。
创建一个完全虚拟的世界,这里的天是蓝色的,地面是坚实的,重力会把你紧紧地抱住……当你在这个世界中创造出一个机器人时,它只会拥有刚出生的婴儿的体力,并不会能够行走。
它甚至不知道如何爬行。
如果把它放到这个世界上不断的刺激和训练,会发生什么呢?这个机器人将逐渐学会爬行、站立和奔跑。
整个过程中,人类只提供一个初始参数,其他的训练就完成了。
它依赖于该机器人在环境中的反复试验。
这听起来像是一个非常黑科技,但事实上,很多人已经在这么做了。
以OpenAI为例。
OpenAI 是埃隆·马斯克 (Elon Musk) 在 12 月宣布的一个非营利性人工智能项目。
主要关注强化学习和无监督学习。
研究人员将开源分享他们的大部分研究成果。
5月15日,OpenAI发布了一款名为“Roboschool”的开源软件,用于训练机器。
在这个虚拟环境中,科学家们还原了重力、摩擦力、加速度等不同的元素。
视频中的机器人就是训练项目之一。
它会以一种不熟练的姿势不断地向球跑去,每当它即将接近时,球的位置就会随机改变。
偶尔它会跌倒,然后学会自己站起来。
此外,它还会不断受到白色立方体的攻击,促使其运动轨迹发生变化。
如果这些机器人有自己的智能……美剧《西部世界》就可以上线了。
然而,由于现实世界过于复杂,并且存在大量的表示学习参数,因此创建一个完全相同的虚拟世界几乎是不可能的。
人类甚至无法模拟现实世界复杂性的 1/10。
因此,当前的世界模拟器集中在步骤可能性较少和任务行为狭窄的领域(例如围棋、简单的身体动作等)。
NVIDIA CEO黄仁勋还在本月初的GTC大会上宣布了一款名为ISAAC的增强学习世界模拟器,专门为训练机器人打造一个完全虚拟的世界,训练机器人进行冰球和高尔夫。
等待行动。
在现实生活中,如果你想训练一台机器学习打冰球,你必须把冰球放在机器前面并一遍又一遍地教它。
训练数千次需要花费大量时间。
然而,在虚拟世界中,机器可以在一秒钟内多次重复这样的动作,而不遵循现实世界中的时间规律。
而且你还可以训练一堆机器同时学习打球,然后找到其中最聪明的一个,复制它的“大脑”程序,创建一堆相同的机器并继续训练和筛选。
听起来确实很恐怖吧……结论,全民娱乐节目。
整个柯洁对阵AlphaGo的比赛进展至今,几乎已经变成了全民嘉年华娱乐赛事。
(当然,考虑到绝大多数观众看不到比赛直播,说全民或许不太恰当……)无论是从围棋的竞技体育意义,还是从围棋的现实意义来看,人工智能,它们已经逐渐被娱乐意义所取代。
人工智能的应用涵盖方方面面,从最初启动的安防、医疗、智能家居等行业应用,到陆续举办的围棋比赛、AI写诗、AI唱歌等推广活动。
前者对行业和用户来说确实有一定的价值,而后者可能只是一个笑话。
促销活动固然有趣,但当促销活动多于产业实施的那一天,离泡沫也就不远了。