当前位置：首页 > 科技赋能

新闻快讯！人机战争首战柯洁惨败，深度拆解AlphaGo套路

时间：2024-05-22 19:29:31 科技赋能

正文 |丽娜·智东西讯 5月23日下午，今天，世界排名第一的围棋选手柯洁与谷歌DeepMind旗下的AlphaGo进行了四局大战。

经过半个小时的围棋大战，柯洁仅以四分之一子之差输给了AlphaGo。

上午10点30分开始的激烈战斗终于结束了。

这是本次乌镇围棋比赛柯洁与AlphaGo的三场比赛中的第一场，柯洁先黑棋。

与年初身穿“大师”马甲时的60连胜不同，这次“柯围战”下的是每方持续3小时而不是每手30秒的慢棋，具有一定的优势超过人类。

理论上，本轮比赛将持续3=6个小时，但最终柯洁几乎用完了3个小时，而AlphaGo只用了1个多小时。

比赛后期，柯洁频频做出咬嘴唇、抓头发等焦虑动作，让观众紧张不已。

最终，只剩下十分钟，败局已定，但柯洁依然坚持打完比赛。

（比赛焦灼时的柯洁）（观摩室拥挤，专业围棋棋手解说）AlphaGo是由谷歌DeepMind团队的Demis Hassabis、David Silva、黄世杰等人开发的。

一个人工智能程序。

今年3月，AlphaGo以5:3击败韩国围棋选手李世石，成为第一个击败人类职业围棋选手的计算机程序。

今年12月底，身穿“大师”马甲的AlphaGo在5天内横扫中日韩棋坛，最终以60连胜的成绩退役。

读完这篇文章，你可以知道以下问题的答案： 1）年初的PK你不是通过了吗？怎么又来了？ 2）为什么AI一直关注围棋？ 3）AlphaGo是如何下棋的？（最通俗易懂版本的讲解）4）扑克、围棋、象棋，下一个被AI入侵的领域是什么？ 5）AlphaGo技术的现实意义是什么？（第一局10点30分开始） 1、事实上，在柯洁与AlphaGo的比赛开始之前，胜率并不被很多人看好。

就连柯洁本人也在4月初的发布会上也用了“对死亡有信念，不会轻易放弃”的悲情话语。

昨晚11点30分，他在微博上发布了一条著名的帖子。

《最后的对决》的赛前评论。

“无论我赢还是输，这都将是我和人工智能之间的最后三场比赛。

” “目前AI的进步远远超出了我们的想象，虽然国产的爵翼和日产的ZEN还远远落后于AIphago，但它已经展现出了超强的实力……”“我相信未来是属于人工智能的。

但它始终是与人类相比，我感受不到它对围棋的热情和热爱……”好沉重。

如此悲伤，很难想象这是一个曾经意气风发的才华横溢的年轻人。

去年3月9日李世石以1:4输给AlphaGo时，这位19岁的选手在微博上大胆表态——“即使AlphaGo打败了李世石，也打不过我。

”当时的柯洁还不知道谁的故事让吃瓜群众嘲笑他，然后立即被一连串的世界冠军打脸，这是一个经历的逆转。

国内公众一直对柯洁有偏爱。

我们都喜欢听传奇故事，喜欢看任性的天才少年打破规则，成名，就像起点网写的人生赢家一样。

此战失利，着实令人失望。

2、年初PK不是就通过了吗？怎么又来了？事实上，这并不是柯洁第一次与AlphaGo交手。

2016年12月底，一位身穿大师背心的神秘棋手突然出现，5天之内横扫中日韩棋坛，其中包括年仅19岁的三届世锦赛九段冠军柯洁。

当时20岁（今年20岁），韩国排名第一的选手。

朴廷焕九段、中国名人对战冠军连笑七段等，更激励了64岁的行业领军人物聂卫平参加比赛。

终于，在连胜60局之后，他公布了自己的真实身份——AlphaGo。

既然已经PK过了，为什么还要再比呢？原来，年底的时候，大师与棋手们下了30秒的快棋。

对于计算能力强大的计算机来说，优势非常明显。

这次柯洁对阵AlphaGo下的是慢棋，有3个小时的思考时间，这对人类更加有利。

另外，这次柯洁与AlphaGo正在下“三盘棋”。

无论输赢，他们都会打满三场比赛。

接下来的两轮比赛将分别在本周四（25日）和本周六（27日）同一天进行。

比赛将持续一段时间，还将有1万美元的奖金。

3、为什么AI总是聚焦围棋？很多人对AlphaGo的棋路其实存在误解。

他们认为是程序，所以用最简单（最暴力）的方法——穷举自然是最有效的。

而且……也不是不可能。

但我们首先计算一下穷举计算中会出现多少种情况。

普林斯顿大学的研究人员曾经进行过这样一个统计项目。

对于标准的围棋棋盘来说，共有19-19=个棋局，每个棋局有黑、白、空三种情况。

因此，理论上一盘棋有 3^ 种可能。

但根据围棋规则，并不是所有的棋局都可以合法落子，所以排除掉所有非法棋局后，合法棋局的准确数量是——……你真的想知道吗？ ……深吸一口气……局。

让计算机穷尽暴力算法也不是不可能……普林斯顿大学的研究人员再次尝试了这一点。

使用具有 15TB 硬盘空间、8-16 核处理器和 GB 内存的服务器，这大约等于 2.0810^ 轮。

要想把所有的棋子都穷举一遍，恐怕要花几个月的时间。

按照三个月计算，如果AlphaGo按照这个配置，一举一动都穷举所有情况，那么到这场比赛的时候，今年20岁的柯洁已经六十多岁了…… 4. AlphaGo 是如何下棋的？（最容易理解的版本解释）当然，上面的比喻有点盗用概念，而AlphaGo的配置比这个高得多。

当我和李世石下棋时，AlphaGo配备了CPU和GPU。

如今，经过一年多的软硬件升级，自然已经具备了计算能力。

不过，AlphaGo确实使用的并不是穷举方法，而是结合了深度学习（Deep Learning）和强化学习（Reinforcement Learning）的系统。

DeepMind 团队在《自然》杂志发表的《用深度神经网络和树搜索掌握围棋博弈(Mastering the Game of Go with Deep Neural Networks and Tree Search)》论文中详细介绍了AlphaGo是如何下棋的。

这里我就不详细说了。

我只粗略介绍一下过程： 1）分析职业棋手的棋谱，得到两个结果，分别是 Rollout Policy 和 SL Policy Network。

其中，快棋策略类似于通过观察棋盘获得的“直觉”，采用线性模型进行训练；策略网络通过深度学习模型进行训练和分析，类似于人类的“深思熟虑”。

2）使用新的策略网络与之前训练好的策略网络对战，利用强化学习修改参数，最终得到增强的策略网络（RL Policy Network），类似于人类得到“更周到”的策略互相争斗之后。

由此判断某个动作的质量。

3）将所有结果组合成一个价值网络，对整个盘面进行“全局分析”判断。

图中蓝色位置越深，获胜潜力越大。

这样可以让节目有大局观，不贪小利。

并且输掉整场比赛。

4）综合评估“直觉”、“深思熟虑”和“全局分析”的结果，迭代寻找最佳放置点。

在多次阅读原论文并收集大量其他资料后，微软亚洲研究院首席研究员郑宇和微软亚洲研究院副研究员张俊波完成了更详细的AlphaGo原理流程图，此处转载以供解释。

，版权归两位作者所有。

5、扑克、围棋、国际象棋，下一个被AI入侵的领域会是什么？ AlphaGo中的“Go”是英文“围棋”的意思。

AlphaGo，顾名思义，是专门为围棋构建的程序。

不过，DeepMind团队却透露下一阶段将改变目标，挑战暴雪的即时战略游戏《星际争霸》。

再次满足之后，星际高手们应该做好心理准备了。

下一个挑战可能是人类与人类之间。

在神族和虫族的世界里。

事实上，早在 2016 年，DeepMind 就在 NIPS 上发表了《用深度增强学习玩Arari游戏(Playing Atari with Deep Reinforcement Learning)》这篇论文，让机器可以像人类一样玩 Atari 游戏，即只接收屏幕像素输入，只在视频游戏控制器上生成按下信号。

后来DeepMind基于这个应用被谷歌以6亿美元收购。

算是一支爱玩游戏的AI团队。

事实上，自从第一台计算机出现以来，人们就一直在尝试编写更强大、更高效的计算机程序，希望计算机有一天能够打败人类。

二十年来，发生过很多次人机大战，给人们留下了深刻的印象。

当年5月，IBM的“深蓝”超级计算机以2胜1负3平的战绩击败了当时的世界象棋大师冠军卡斯帕罗夫（ГарриКимовичКаспаров）。

事实上，从今天的角度来看，“深蓝”还不够聪明，它主要依靠其强大的计算能力穷尽所有选项来选择最佳策略。

当时，“深蓝”每秒可计算2亿步，位居世界超级计算机之首。

据说，在比赛过程中，卡斯帕罗夫因第二局比赛的惨败而深受打击。

接下来的三局比赛他的斗志和体力都被消耗殆尽，决胜局只用了19步就放弃了。

IBM拒绝了卡斯帕罗夫的重赛请求，解散了“深蓝”。

因此，尽管卡斯帕罗夫后来多次用电脑画画，但他已经无法再向深蓝寻求“报复”了。

2016年，同样来自IBM的人工智能程序Watson在美国老牌智力问答节目《危险边缘》上挑战了两位人类冠军。

“沃森”存储了2亿页数据，包括各种百科全书、新闻、词典、文学书籍等，还可以分析比赛奖金数额、领先或落后的情况以及你是否擅长这个领域。

来决定是否要回答某个问题。

最终，沃森轻松击败了两位人类冠军。

在今年1月20日的人机大战第三场比赛中，百度大脑以2-0轻松击败人类选手王宇恒。

本次比赛，百度大脑与“水哥”王宇恒的比拼依然是图像识别。

通过行车记录仪、高空摄像头和手机在夜间拍摄的三张模糊动态图像，双方需要记住三个不同识别主体的面部特征，然后在展会的30人中进行识别。

。

此外，还有今年4月初由李开复发起、创新工场和海南生态软件园共同主办的“冷大师”VS“龙队”德州扑克人机大战。

《冷大师》的前身来自卡内基梅隆大学（以下简称CMU）Tuomas Sandholm教授开发的扑克程序Libratus。

今年1月30日，Libratus在一对一无限注德州扑克比赛中击败了四位人类顶尖选手。

在为期20天的比赛中，他面对了12万手牌，赢得了接近筹码总数的胜利。

人类队由六位中国顶级扑克玩家组成。

队长杜越曾在世界德州扑克系列赛WSOP无限注德州扑克赛事中获得冠军。

最终，比赛以冷玩高手彻底击败人类而告终。

李开复赛后也断言，“人工智能已经从信息完美的AlphaGo延伸到信息不完善的冷扑高手，人机大战基本没有悬念。

据说AlphaGo将来到中国，近期与柯洁竞争其实已经不再是这样了。

”它不再具有科学意义了。

” 6、AlphaGo技术的现实意义是什么？事实上，AlphaGo并不是DeepMind唯一的项目，也不是最大的项目。

DeepMind 的最终目标是智能助理、医疗保健和机器人。

谷歌大中华区总裁斯科特·博蒙特在4月初的新闻发布会上表示，虽然AlphaGo只是为围棋开发的系统，但其原理可以应用于现实生活中的问题，例如医学中的癌症检测和机器人训练。

谷歌高级研究员、传奇编程大师 Jeffrey Dean 曾表示，谷歌现在拥有两套人工智能系统，其中包括谷歌自己的免费开放的机器学习开发工具 TensorFlow，另一套是谷歌 2016 年收购 DeepMind 的 AlphaGo 系统。

AlphaGo专注于国际象棋游戏的发展，未来计划应用于医疗或自动驾驶汽车。

在刚刚结束的谷歌I/O开发者大会上，谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)还介绍，17岁高中生布列塔尼·温格(Brittany Wenger)开发了一种人工神经网络，通过自学机器学习和TensorFlow 框架。

，准确率超过90%。

最近，人工智能在医疗方面的应用非常流行，在血液检测、医学图像处理等方面都取得了突破。

与纯粹的深度学习应用不同，AlphaGo在系统中添加了增强学习部分。

强化学习不一定为机器设定特定且明确的行为。

机器试探性地执行一个动作后，观察“世界”会如何反应（奖励或惩罚），最终逐渐形成对刺激的预期，产生最大的收益。

习惯性行为。

这种方法具有普适性，因此在许多其他领域也得到了研究，但它更集中在步骤可能性较少和任务行为狭窄的领域（例如围棋、简单的身体动作等）。

NVIDIA CEO黄仁勋在本月初的GTC大会上宣布了一款名为ISAAC的增强学习世界模拟器，创建了一个专门为训练机器人设计的完全虚拟的世界，训练它们打冰球和高尔夫。

等待行动。

结论：未来属于人工智能，但人类还没有完成。

无论最近两场比赛的结果如何，人工智能最终在围棋中击败人类都是可以预见的未来。

即使柯洁最终赢得了这场三局棋比赛，也无法扭转这一趋势。

也许明年，也许后年，但总有一天会到来——就像宝马，世界上跑得最快的马，最终也跑不过汽车。

正如柯洁所说，“我相信未来属于人工智能”。

但话又说回来，AlphaGo的胜利是否意味着人类的终结呢？别再闹了，Go并不是我们生活中的一切，人工智能只是用来提高人类生产力的工具。

对于很多科幻小说中提出的“超级智能”最终能够“推翻人类”、“统治人类”，我们实在不必太担心。

（Yann LeCun）“卷积神经网络之父”、深度学习三巨头之一、Facebook人工智能研究院院长Yann LeCun曾解释道，大多数人类行为如占领、统治、斗争等都在一个一代。

在一代又一代的进化过程中，他们都是被“希望获得资源”的目的所驱动。

如果我们想要一台机器做某事，我们需要赋予它这种能力并为此目的构建机器。

今天我们制造了在特定领域比人类更聪明的机器，但人工智能不会真正统治世界，因为我们不会为此目的而这样做。

火车刚发明的时候，美国一位权威人士曾预言：“如果美国修铁路，首先会建很多精神病院，因为人们看到呼啸而过的火车会被吓到。

”而德国专家则表示，“一旦火车速度超过每小时15英里，血液就会从乘客的鼻腔中喷出，导致死亡。

上一篇：万事达卡 (MasterCard) 与 Ringly 合作开发可穿戴 NFC 支付技术

下一篇：Alexa 在 AI IQ 竞争中落败？不甘示弱，亚马逊现推出新功能

新闻快讯！人机战争首战柯洁惨败，深度拆解AlphaGo套路相关文章