当前位置: 首页 > 数码发展

发明家首次回顾人机大战,看AlphaGo如何获胜

时间:2023-12-20 13:27:02 数码发展

原标题:AlphaGo将走进人类生活,发明家首次回顾人机大战  钛媒体注:《古力》 ” 世纪战争的硝烟已经散去,由此引发的机器学习和人工智能热潮不但没有减弱反而有增无减。近日,AlphaGo(中文俗称“阿尔法狗”)项目负责人、被誉为“阿尔法狗之父”的大卫·西尔弗(David Silver)回到英国伦敦,前往母校伦敦大学学院(UCL)学习。 。

私人会议回顾了人工智能围棋系统AlphaGo与李世石之间的五场棋战,在场观众被禁止拍照。这也是AlphaGo团队赛后的首次半公开评审。   UCL 计算机科学系是英国排名第一的计算机科学学院。

UCL计算机系在读博士生张维楠参加了分享会,并在会后与席尔瓦进行了面对面的交流。钛媒体独家邀请张维楠根据席尔瓦的分享以及会后与席尔瓦的交流撰写了本文。席尔瓦还透露了AlphaGo下一步可能采取的行动和应用前景。席尔瓦透露,最新版本的AlphaGo自测分数在4500分左右,远超柯洁的3625分。

其实力等级在十三级左右,在人类玩家中所向披靡。     张伟南正在与AlphaGo之父席尔瓦交流  在两周前的人机大战中,AlphaGo出人意料地取得了压倒性的胜利,以4:1击败了李世石。棋局的激烈程度和精彩程度,丝毫不亚于人类棋手创造的那些著名的历史棋局。

  3月24日,回到UCL大学,席尔瓦在回顾中详细介绍了AlphaGo背后的技术原理以及对古力5盘棋的分析。   取得历史性胜利后,外界非常关注AlphaGo的下一步和未来。

席尔瓦透露,在《Nature》的文章引起广泛关注和轰动后,AlphaGo团队将再撰写一篇论文,与外界分享AlphaGo与李世石比赛中的技术进展。   Silva 还表示,DeepMind 一直希望为开发者社区做出贡献。他们此前还公布了DQN项目(deep-q-network)的代码——一个基于深度强化学习的游戏平台。

他们将来可能会发布AlphaGo代码,只要能找到合适的解决方案,但他们还没有找到。   投资一个20人的团队,花很多钱去下围棋,对于谷歌来说意味着什么?下一步将如何延伸到其他产业领域?   Silva透露,DeepMind未来的重点是与人们日常生活密切相关、能够改变世界的应用,比如精准医疗、家庭机器人、智能手机助手等。   AlphaGo之父十年磨一剑  看似一夜之间,机器棋手击败了人类围棋顶尖棋手。

然而,对于席尔瓦来说,人工智能围棋的研发花了十几年的时间,最终却只是水到渠成。   作为 AlphaGo 背后团队的技术总监,也是 Google DeepMind 团队中最重要的科学家之一,Silva 还担任 UCL 大学的教员,是该校计算机系的教授,教授《强化论》学习”课程。 。

  Silva 在加拿大阿尔伯塔大学获得博士学位,师从世界顶尖“强化学习”大师 Richard S. Sutton,研究强化学习算法。随后,他在另一家科技公司Temple从事美国麻省理工学院博士后研究。

  在博士学习和博士后工作期间,Silva一直致力于围棋人工智能的强化学习研究。在英国 UCL 大学计算机科学系任教后,他在讲座中经常使用 Go 作为应用示例。   一开始听席尔瓦课程的人并不多。我三年前上过他的课程。

有一次我因为某种原因迟到了20分钟,但教室里还有空位。现在,随着他加入Deepmind团队,尤其是他掌舵AlphaGo项目的声誉,他的课程变得非常受欢迎,后来者基本上只能站着听课。    在加入 DeepMind 之前,Silva 就已经开始与 CEO Demis Hassabis 一起研究强化学习。哈萨比斯在伦敦大学学院获得神经学博士学位。

两人都沉迷于游戏。哈萨比斯小时候是英国国际象棋队的队长,13岁就已经获得了国际象棋大师的称号。他年轻时就创办了自己的游戏公司,而席尔瓦则一直对围棋感兴趣。

很久。孤。   2014年初,在被谷歌收购之前,DeepMind开始与UCL谈判,希望买断席尔瓦的工作时间。

这使他能够保留在大学的教学职位,同时也允许他在 DeepMind 全职工作。   加入 DeepMind 后,Silva 组建了 20 人的 AlphaGo 团队,专门研究围棋人工智能。凝聚整个团队的力量,他要求在技术研发的各个环节都追求卓越。AlphaGo团队的一位成员透露,一些智能模块在谷歌团队看来已经是完美的,但席尔瓦仍然认为它们是失败的,距离完美还很远。

  长期专注于人工智能和围棋项目,追求技术的极致,再加上实力雄厚、财大气粗的谷歌的团队合作,最终导致了AlphaGo的突然爆发。   盘古李之战重播  重播是职业围棋棋手经常做的事情。

他们认为总结以往比赛的经验和教训可以提高自己的棋艺。   AlphaGo团队也进行了审核。席尔瓦通过几张幻灯片回顾了这五场比赛的胜负要点,并且禁止在场观众拍照。   第一盘胜负的关键在于AlphaGo的第102步白棋击中了黑天。

职业大师们普遍认为这是一个危险的举动,而李世石似乎对此早有准备。事后看来,原来李世石在棋局过程中犯了一个错误,陷入了AlphaGo的计算节奏中。又下了几手,AlphaGo已经占据了明显的优势。

  第二局比赛开始后不久,AlphaGo就做出了职业棋手普遍认为不妥的一步棋。席尔瓦称这是一个不人道的举动——第37步,5肩冲。大部分观战的职业高手都认为这不太成立,超出了职业高手正常的下棋逻辑。   在随后的过程中,这一招的价值逐渐显现出来,李师师再次没脾气了。

  席尔瓦解释道:“大多数评论员立即批评了这一举动,从来没有人在这种情况下做出过这样的举动。在胜负确定后,一些专业人士重新考虑了这一举动。

他们改口说,他们可能会做出这个举动。”    从AlphaGo的角度来看,这只是当时正常的走法选择。   第一局和第二局,很多职业围棋棋手和媒体分析师都认为AlphaGo翻盘获胜,但根据AlphaGo自己的价值网络所做的实时胜率分析,它始终处于领先地位。

在AlphaGo获胜的四场比赛中,AlphaGo系统自身的胜率评估始终领先于李世石,从始至终压制着它,直到最终获胜。   第三局和第五局,AlphaGo在比赛开始后不久就取得了明显的优势,并持续提高胜率,直到比赛结束。

与职业棋手根据经验做出胜负判断不同,AlphaGo自身的胜率评估是基于一个数值模块来预测棋局的结果。   这两种判断完全不同。

当第五盘右下角争夺变得复杂时,AlphaGo选择先发制人,转移到其他位置。很多职业棋手都认为AlphaGo在这里犯了错误,落后了,但AlphaGo的选择是根据全局最优估计做出的。  从几轮的成败来看,AlphaGo的判断似乎更加准确。它突破了职业棋手对围棋的传统理解。

不再局限于棋手多年培养的围棋直觉和套路。它将选择探索职业国际象棋棋手通常不想考虑的走法。在人类象棋学习的基础上,AlphaGo还进行了大量的自对弈,从而发展出了一些人类从未涉足过的走法。  “上帝之手”的背后  AlphaGo系统并不是无懈可击的但漏洞并不是所谓的模仿棋、抢劫等,它的漏洞在李世石获胜的第四局比赛中得到了体现。

AlphaGo取得巨大进步的价值模块存在缺陷。这也是AlphaGo在五场比赛中唯一的漏洞,也是唯一的一场失利。   第四局,开局不久就几近绝望的李世石打出被中国世界冠军古力称为“神手”的白78招,在空中挖了下去。

强硬的对手突然倒下,AlphaGo不知所措,犯了一系列低级错误。这也使得AlphaGo首次有记录公开落败。   对于AlphaGo的异常表现,观赛的专业专家们充满了猜测。

就连正在观看比赛的哈萨比斯和席尔瓦也不知道发生了什么。   后续分析显示,在李世石下第78手棋之前,AlphaGo自己的胜率评估一直认为自己处于领先地位,预估胜率高达70%。第78手之后,AlphaGo的预估胜率急转直下,李世石遥遥领先,差距再也没有缩小过。   为什么AlphaGo对李世石的第78手棋表现这么差?是因为它没有预料到李世石的举动吗?   席尔瓦透露了这个秘密。

AlphaGo的计算系统确实评估了这一步棋。然而,在AlphaGo的评估中,李世石下棋的概率约为万分之一。最终它没有想到李世石会做出这一举动,所以它并没有算计李世石。怎么处理这个问题。

  赛后,获胜的李世石表示,在他看来,此举是唯一的选择。   AlphaGo 背后的蒙特卡洛树搜索依赖于策略网络,该网络是基于人类棋局记录数据训练的模型。

它很难预测白方第78步这样的所谓手筋伎俩,也很难根据这一步来判断是否继续。向下滚动搜索后续输赢状态。   这是AlphaGo在这五场比赛中表现出的唯一缺陷,也是人类智能仍然领先于AlphaGo背后的大数据驱动的通用人工智能(Data-driven Artificial General Intelligence)的地方。  人工智能已经无敌了吗?  在这场比赛之前,包括李世石本人在内的大部分职业围棋棋手都认为李世石会轻松获胜。

不过,DeepMind团队信心十足。 DeepMind团队的另一位主要成员也介绍了AlphaGo在UCL的进展。

在期待与李世石的比赛时,他一度坚定地预测AlphaGo会获胜。   当有人问AlphaGo从去年10月战胜樊麾到今年3月对阵李世石,半年时间里做了哪些改进时,席尔瓦简短地回答道:“我们改进了系统中的每个模型。

尽可能的达到效果最大化,特别是在价值网络上,有了很大的提升,除了通过自我对战的结果来训练价值网络的目标胜率之外,我们还使用了搜索策略来逼近理论上的胜率尽可能高。”   直观上来说,3月版AlphaGo相比半年前的水平,大概就是让4子——让对手先占据4星位置!   击败李世石后,中国、韩国、日本的很多职业棋手,包括李世石本人,都希望能够再次与AlphaGo交手。   从排名来看,AlphaGo排名世界第二,仅次于中国的世界冠军柯洁。席尔瓦透露,最新版本的AlphaGo自估分数在4500分左右,远超现在的柯洁,超过3600。

它的实力等级在十三级左右,在人类玩家中已经是无敌了!    AlphaGo 为什么会这样?这么强的表现?讲座中,席尔瓦部分背诵并讲解了今年1月发表在《Nature》上的论文,描述了人工智能的基本原理和AlphaGo的技术框架。   对于人工智能来说,围棋游戏的难点在于决策空间太大。决策是人工智能的关键要素,它使机器能够在人类世界中发挥作用。   在围棋和任何游戏中,一个决定往往会将游戏更新到一个新的情况,从而影响后续的决定,直到最终游戏的结果。

人工智能的关键是在决策空间中寻找利益最大化的路径,最终体现在当前的决策中。   围棋棋盘上棋子可能的组合数量是10的170次方,超过了宇宙中原子的总数。在近乎无限的决策空间中,绝对不可能在当前棋盘上暴力寻找下一个最佳棋步。

  AlphaGo的解决方案是在这样的超级空间中尽可能有效地进行路径选择。这个想法是一个框架加两个模块:解决方案框架是蒙特卡罗树搜索,两个模块是策略网络和价值网络。  策略网络根据当前棋盘状态决定下一步行动,这是一个典型的人工智能决策问题。构建策略网络的第一步是根据 KGS Go 服务器上 30 万业余棋手的棋局记录进行监督学习(Supervised Learning),确定当前棋盘上人类最有可能的下一步棋是什么。

  第二步是利用监督学习得到的第一个策略网络,通过自我对弈的方式训练增强版的策略网络。学习方法就是强化学习(Reinforcement Learning)。

3000万局自走棋向人类学习,进一步改进走棋策略。   经过策略网络的判断,蒙特卡罗树搜索框架下各个棋盘状态的采样范围大大缩小。这是搜索宽度的减少,但是由于围棋一盘棋的总手数可以高达250多步,搜索深度仍然带来无法处理的巨大计算量,而这由第二个模块——价值网络来解决。

  价值网络的作用是根据当前棋盘状态来确定黑白棋子的胜率。这是一个人工智能预测(Prediction)问题。   处理预测问题的机器学习模型一般需要直接知道要预测的真正目标是什么,比如预测第二天的天气,或者预测用户一周内是否会购买某种产品。这些历史数据都有直接的目标。

数据可用于机器学习。在围棋游戏中,对于给定的棋局,完全有可能在历史上的任何棋局中都找不到这样的情况,也无法直接得出棋局的最终结果。   AlphaGo的解决方案是利用强化学习得到的策略网络,以棋局为起点与大量的自棋手对弈,记录最终的胜率作为价值网络学习的目标。   有了价值网络,蒙特卡罗树搜索不再需要采样,直到游戏结束。

相反,它会停在适当的搜索深度,直接利用价值网络来估计当前的胜率。这通过减少搜索深度而大大减少了计算量。   AlphaGo集成了当前机器学习领域大部分有效的学习模型,包括蒙特卡罗树搜索通过采样逼近最优解,以及监督学习和强化学习训练来减少搜索宽度并做出走棋决策。策略网络,以及通过监督学习训练的价值网络,减少搜索深度,提前确定胜率。

  作为人类国际象棋领军人物,33岁的职业围棋九段大师李世石在过去15年里赢得了十多个世界冠军头衔。他总共下过 10,000 盘围棋。经过30,000小时的训练,他可以搜索10种可能的动作。  但是,作为人工智能技术进步的代表,它吸收了机器学习和人工智能的最新进展,建立了新的价值网络和战略网络。

AlphaGo诞生仅两年,已经经历了近3万小时的训练。在训练期间,它每秒可以搜索 100,000 个可能的动作。

这一刻,胜负已定。   人工智能领域巨头之争  AlphaGo取得巨大成功并受到全球广泛关注的背后,是谷歌、Facebook、微软等几大科技巨头之间的竞争。基于人工智能,几大巨头纷纷开展各自的项目研究,争夺人才。

  在前几天的智能围棋大赛中,Facebook派出了自己开发的“黑暗森林”,获得了第二名。其主要创造者田元东来自谷歌。

他曾参与谷歌的自动驾驶汽车项目。团队。

  显然,黑暗森林还不是AlphaGo的对手。   2014年下半年和2015年中,我两次在微软剑桥研究院实习,参与了微软Xbox音乐推荐引擎的研究项目。我希望能够交互式地为用户提供基于强化学习的人工智能算法。

推荐他们喜欢的音乐,并从用户提供的反馈中进一步了解。   这个项目组的直接负责人是业界知名机器学习专家、技术巨头中的围棋高手Thore Graepel。他负责 Windows 围棋游戏中人工智能的开发。

和席尔瓦一样,他也是伦敦大学学院计算机科学系的兼职教授。   一个周一早上,当我来到微软剑桥办公室时,一位同事告诉我,格兰德已经辞职,并且像席尔瓦一样加入了 DeepMind。他后来告诉我,他在 DeepMind 感受到了前所未有的魅力,以至于他后悔没有早点加入。他感叹自己从来没有见过一个凝聚力如此之高、目标如此统一、没有任何考核压力的团队。

   后来,Grump 的名字也出现在了 AlphaGo 论文的作者名单中《Nature》。古李战争间隙,他和李世石接受了电视台的采访。

熟悉他的人都能明显感觉到,他是发自内心的高兴。    我在微软实习的另一位导师是毕业于剑桥大学的贝叶斯机器学习专家。他有扎实的数学基础。

他还于2015年下半年从微软辞职,加入了剑桥的一家公司。该公司是一家生产语音识别智能系统的初创公司,不久后被苹果收购。他带领着12人的团队,负责苹果Siri智能问答系统的一项技术。

  就在最近,我在伦敦的一家酒吧遇见了他,他私下透露自己正在申请加入DeepMind。他表示,我们现在正处于人工智能真正爆发的历史转折点,从0到1,总体意义重大。未来5到10年,无论是工业界还是学术界,人工智能都将爆发式发展。

在这样的时代,搞人工智能的他难道不想拥抱这股浪潮吗?   这样的情况,他不愿意在球队里管。他已经半年没有写过一行程序,也没有推过一个程序。

数学公式。 “今天的人工智能领域就像一场举世闻名的英超德比,全世界人民都为之兴奋。

这个时候,我们人工智能研究者应该走上比赛,成为主角,而不是在球场上欢呼雀跃。”观众。”  AlphaGo的巨大效应让谷歌在吸引人才方面具有优势,但Facebook、苹果、微软都不愿意放弃这个头衔。  格鲁普从微软辞职后,一位年轻的女研究员接任我在微软的实习项目,他们的研究成果发表在人工智能会议AAAI2016上。

2015年上半年,她在微软推出了一个名为AIX的人工智能项目,该项目提供了一个通用的人工智能平台,可以让计算机科学家编写在微软的《我的世界》(Minecraft)游戏世界中编写智能学习程序并创建应用程序。测试中。  在AIX中,科学家不需要直接编程来告诉机器人如何完成特定任务,例如选择哪条路径爬到山顶。相反,他们将如何学习和进步的程序输入到机器人中,让它们通过与环境的交互来自动学习如何完成任务,真正“教机器如何钓鱼”。

  与谷歌不同,微软延续了一贯的平台战略思维。巨头们有不同的战略思路很正常,但他们都非常看好人工智能和机器学习带来的战略机遇,同时开始在人才、技术、市场等方面进行布局和竞争。

也许这场竞争将决定未来10年。几大巨头之间竞争的结果。