在击败围棋游戏中的无敌棋手之后,DeepMind 的 Alpha 家族开始钻研所有棋类游戏,包括国际象棋和日本将军。
今年12月初,在AlphaZero诞生一周年之际,《自然》杂志以封面文章的形式发表了AlphaZero完整的同行评审论文。
Deepmind 创始人兼首席执行官 Hassabis 亲自撰写了这篇论文。
AlphaGo Zero于今年10月发布,真正引起关注是在去年12月初发表的杂志《科学》上。
论文显示,AlphaGo Zero 在三天内自学了三种不同的棋盘游戏,包括国际象棋、围棋和日本将棋,无需人工干预。
这个结果震惊了国际象棋界,几个小时之内,AlphaGo Zero就成为了世界上最好的棋手。
众所周知,在国际象棋方面,IBM的深蓝在20年前就击败了国际象棋大师,随后的Stockfish、Komodo等国际象棋程序早已称霸了国际象棋界。
AlphaGo Zero发布后,很多人质疑它在国际象棋领域的价值。
这次的完整论文对一些人认为机器算法在下棋中毫无价值的论点提出了一些相当严厉的批评。
这是因为,在过去的 12 个月里,AlphaZero 清楚地展示了一种人类以前从未见过的智能。
接下来我们通过论文来分析一下AlphaZero。
虽然深蓝、鳕鱼和科莫多可以击败人类,但它们无法真正理解这个游戏。
文章指出,在过去的二十年里,利用机器算法下棋已经取得了很大的进步。
2006年,IBM的国际象棋程序“深蓝”在六场比赛中击败了当时的人类世界冠军加里·卡斯帕罗夫。
现在看来,这个成就并不神秘。
深蓝每秒可以计算2亿个位置。
它永远不会疲倦,永远不会计算错误,也永远不会忘记刚才的想法。
无论结果是好是坏,《深蓝》玩起来都像真机一样,粗糙而有料。
它的计算能力远远超过卡斯帕罗夫,但在思维上却无法真正超越他。
第一局比赛,深蓝贪婪地接受了卡斯帕罗夫用汽车换主教的牺牲,但在16步后就输掉了比赛。
如今,世界上一些最强大的国际象棋程序,例如 Stockfish 和 Komodo,仍然以这种方式下棋。
他们喜欢吃掉对手的棋子;他们的防御坚如钢铁。
但是,尽管这些国际象棋程序比任何人类棋手都强大得多,但它们并没有真正理解游戏本身的意义。
几十年来,人类棋手的棋局经验已被编程为复杂的评估工具,表明下棋时应寻求哪些优势以及应避免哪些劣势。
例如,王的安全、棋子的移动、棋子的形状、中央控制以及如何平衡利弊。
但过去的许多国际象棋程序本质上都忽视了这些原则,给人留下了残酷、残暴的印象。
这些程序速度快得惊人,但完全缺乏洞察力。
AlphaGo Zero 不仅击败了人类和所有程序,而且还具有洞察力——所有这些都随着机器学习的兴起而改变。
AlphaZero 通过与自己对弈并根据经验更新其神经网络,发现了国际象棋的原理,并迅速成为历史上最好的棋手。
它不仅能够轻松击败所有最强的人类国际象棋棋手,还能够击败当时的计算机国际象棋世界冠军Stockfish。
在与Stockfish的比赛中,AlphaZero取得了28胜72平的战绩。
它没有输掉一场比赛。
最不可思议的是,AlphaZero似乎表达了一种自然的洞察力。
它具有浪漫而激进的风格,能够以直观而美丽的方式完成计算机无法完成的事情。
它耍花招、冒险。
在其中的几轮中,它禁用了Stockfish并玩弄它。
当 AlphaZero 在第 10 场比赛中进攻时,它佯攻其后到棋盘的角落,远离 Stockfish 的国王。
一般来说,这不是攻击女王应该放置的地方。
然而这种奇怪的撤退行为充满了恶意,无论Stockfish如何应对,都注定要失败。
经过数十亿次残酷的计算,AlphaZero 几乎在等待 Stockfish 意识到自己的处境有多么无望,就像一头失败的公牛面对斗牛士一样平静地失败。
大师们从来没有见过这样的机器。
AlphaZero拥有精湛的工艺和机器的力量。
这是人类第一次看到一种令人敬畏的新型智能。
很明显,AlphaZero 的胜利是靠更聪明的思考,而不是更快的思考。
它每秒只计算 60,000 个位置,而 Stockfish 每秒计算 6000 万个。
它更聪明,知道该思考什么以及忽略什么。
卡斯帕罗夫在《科学》杂志文章的评论中写道,AlphaZero 开发了一种通过自主发现国际象棋原理“反映游戏真相”的游戏玩法,而不是“程序员式的优先级”。
和偏见”。