当前位置: 首页 > 科技观察

携Science封面,CMU大神Noam博士毕业,论文已公开

时间:2023-03-17 16:16:43 科技观察

登上Science封面,CMU硕士Noam博士毕业,论文发表近日,这两个AI系统的开发者之一,CMU硕士,宣布完成博士论文,即将毕业从CMU毕业。当地时间9月21日,FAIR研究科学家NoamBrown在推特上宣布,他在CMU顺利完成博士论文答辩,并发布了230页的超硬核博士论文《Equilibrium Finding for Large Adversarial Imperfect-Information Games》和101页的幻灯片。Noam在论文的前言中表示,除了5.3节描述的ReBel算法外,论文中的所有其他研究都是与他的导师TuomasSandholm合作完成的。Tuomas在整个研究过程中耐心地指导了Noam。诺姆说,如果没有导师的悉心指导,他不可能顺利完成博士学位。NoamBrown和他的导师TuomasSandholm教授(右)。NoamBrown的博士论文题目是《大型对抗性不完美信息博弈的均衡发现》。不完全信息博弈模拟多个主体与私人信息之间的交互。在这种情况下,一个典型的目标是近似均衡,其中所有代理的策略都是最优的。完全信息博弈和不完全信息博弈是游戏中信息博弈的两种主要形式。在游戏中,完美信息游戏的前提是所有玩家都知道游戏的信息,例如规则等;不完全信息博弈中的玩家对正在玩的游戏没有共同的知识,例如其他玩家是谁,哪些策略或行动是可行的,结果取决于行动等。在难度方面,信息的不完全性增加玩家决策选择的难度大,因此博弈分析的难度也更大。围棋、国际象棋、西洋跳棋等棋类游戏都是完美的信息游戏。扑克是一种典型的不完全信息游戏,这也是诺姆·布朗研究的重点。从2017年的AI系统Libratus到2019年的新算法Pluribus,都属于不完全信息博弈的范畴。在论文中,诺姆·布朗总结了他博士期间的一系列研究成果。机器之心简单介绍了论文的核心内容,感兴趣的读者可以阅读原文。论文地址:http://www.cs.cmu.edu/~noamb/thesis.pdf幻灯片地址:http://www.cs.cmu.edu/~noamb/thesis_slides.pdf博士论文介绍本博士论文详解A大型对抗性不完美信息游戏中均衡计算的一系列进展。这些新技术使AI智能体首次有可能在无限注扑克中击败顶级职业选手,这是AI和博弈论几十年来的主要挑战。反事实遗憾最小化(CFR)的改进作者首先介绍了反事实遗憾最小化(CFR)的改进,这是一种在两人零和博弈中收敛到纳什均衡的迭代算法。此外,还描述了CFR的新变体,它利用贴现原理(贴现)显着加快收敛速度??。病死率法。然后作者介绍了理论上合理的剪枝技术,可以在大型游戏中将收敛速度提高几个数量级。CFR中的修剪过程。将CFR扩展到大型游戏作者描述了通过自动抽象和函数逼近算法将CFR扩展到大型游戏的新方法。具体来说,作者介绍了第一个在不完全信息博弈中离散化连续动作空间的算法,该算法被证明是局部最优的。然而,这种算法需要大量的领域知识,很难扩展到其他游戏。以前方法的局限性。因此,作者提出了CFR的变体DeepCFR,它使用神经网络函数逼近而不是基于分桶的抽象。DeepCFR是第一种非表格形式的CFR,可扩展到大型游戏,并使CFR能够部署在几乎没有领域知识的环境中。使用DeepCFR扩展到大型游戏。不断改进搜索技术作者提出了一种新的不完全信息博弈搜索技术,可确保代理的搜索策略不被对手利用。这些新的搜索形式在理论和实践上都优于以前的方法。此外,作者介绍了一种深度限制搜索方法,该方法的计算成本明显低于以前的方法。Pluribus算法中的深度限制搜索。最后,作者提出了一种新颖的ReBel算法,该算法在训练和测试期间结合了强化学习和搜索,并朝着弥合完美和不完美信息博弈研究的差距迈出了关键一步。比较两人无限德州扑克的结果。以下为博士论文章节目录:NoamBrown,CMU大神,致力于扑克游戏AI研究NoamBrown,Facebook人工智能实验室研究科学家,致力于将计算博弈论与机器学习相结合开发可以处理不完美信息的多元智能。一种在包罗万象的环境中进行战略推理的人工智能系统,其研究成果分别应用于Libratus和Pluribus,分别是双人无限扑克和多人无限扑克的第一批人类顶级玩家。这两个游戏中的AI系统都为NoamBrown带来了巨大的荣誉。2017年,NoamBrown和他的导师TuomasSandholm开发的人工智能系统Libratus在匹兹堡Rivers赌场举行的为期20天的1对1无限注德州扑克比赛中成功击败了四位世界顶级职业选手,宾夕法尼亚州。该研究发表在期刊《科学》,与该研究相关的另一篇论文《Safe and Nested Subgame Solving for Imperfect-Information Games》也获得了NIPS2017年度最佳论文奖。此外,Noam团队还获得了IJCAI颁发的第二个MarvinMinsky奖章。Noam在IJCAI2019会议上获得了他的MarvinMinsky奖章证书。2019年,NoamBrown和他的导师TuomasSandholm在Libratus的基础上开发了一种对计算能力要求较低的新算法Pluribus。在为期12天、超过10,000手的比赛中,Pluribus击败了15位顶级人类玩家。这是AI首次在超过2名玩家(或团队)的大型基准游戏中击败顶级职业玩家。Pluribus不仅登上了《科学》杂志的封面,还被该杂志列为2019年十大突破性科学成果之一。Pluribus登上了《科学杂志》的封面。此外,诺姆还曾获得2017年AllenNewell“卓越研究奖”,还入选麻省理工科技评论2019年“35岁以下科技精英”(MITTR35)。2019年,NoamBrown和他的导师TuomasSandholm合着的论文《Solving Imperfect-Information Games via Discounted Regret Minimization》获得了AAAI杰出论文荣誉奖。