1月28日上午,谷歌今日召开全球电话会议。其DeepMInd创始人DemisHassabis宣布了谷歌在人工智能领域的重要进展:开发了一个能够在围棋比赛中击败职业选手的程序AlphaGo,它使用机器学习来掌握比赛。计算机和人类之间的竞争在国际象棋游戏中并不少见。计算机先后在五子棋、西洋跳棋、国际象棋等游戏中完成了对人类的挑战。但对于有2500多年历史的围棋来说,计算机从未战胜过人类。围棋似乎有一个简单的棋盘和简单的规则。棋盘纵横方向共有九条等距垂直相交的平行线共19条,共形成19×19(361)个交点。游戏的两侧交替移动,目的是在棋盘上占据尽可能多的空间。在游戏极简主义的外表下,围棋具有令人难以置信的深度和微妙之处。当棋盘为空时,第一个玩家有361个选项。在对弈过程中,它的选择远比国际象棋多,这也是人工智能和机器学习的开发者们一直希望在这里有所突破的原因。从机器学习的角度看,围棋的计算最多有3361个棋局,大概体积是10170个,而观测到的宇宙原子数只有1080个。国际象棋只有2155个棋局,称为香农数,大概是1047。传统的人工智能方法是构造一个所有可能走法的搜索树,但是这种方法不适合围棋。谷歌此次推出的AlphaGo将高级搜索树与深度神经网络相结合。这些神经网络通过12个处理层传递棋盘的描述,其中包含数百万个类似神经的连接。其中一个神经网络“策略网络”负责选择下一步行动,另一个神经网络“价值网络”用于预测游戏的赢家。谷歌使用人类围棋高手的3000万步同时,AlphaGo也自行研究新策略,在其神经网络之间运行数千场围棋棋局,通过反复试验调整连接点。这个过程也称为强化学习。通过广泛使用谷歌云平台,已经完成了大量的研究工作。AlphaGo征服围棋使用的神经网络结构示意图,对谷歌来说意义重大。AlphaGo不仅是一个遵循人类规则的“专家”系统,它还通过“机器学习”来学习如何自己赢得围棋比赛。就谷歌而言,它希望利用这些技术来解决现实世界中一些最棘手、最紧迫的问题——从气候建模到复杂的灾难分析。在具体的机器训练方面,决策网络的方式是输入人类围棋高手的对局,直到系统能够预测到57%的人类动作,之前的最好成绩是44%。此后,AlphaGo开始通过在神经网络内部下棋(可以简单理解为与自己下棋)来学习自主探索新的围棋策略。目前,AlphaGo的决策网络可以击败大多数拥有巨大搜索树的最先进的围棋程序。价值网络也是通过与自己下棋来训练的。当前价值网络可以估计每一步获胜的可能性。这在以前被认为是不可能的。事实上,AlphaGo已经成为目前最好的人工智能围棋程序。在与其他程序的对局中,AlphaGo取得了单机500胜的成绩,甚至有过4手让对手获胜的战绩。去年10月5日至10月9日,谷歌安排了AlphaGo与欧洲围棋冠军范辉(范辉:法国国家围棋队主教练)的闭门比赛,谷歌5-0获胜。AlphaGo与欧洲围棋冠军范辉的5局公开赛将于今年3月举行。AlphaGo将在韩国首尔与韩国围棋选手李世石进行9段比赛。LeeSe-dol在过去10年中赢得了世界上最多冠军头衔的国际象棋选手,谷歌为此提供了100万美元的奖金。李世石表示,对这场对决充满期待,对取胜充满信心。值得一提的是,上一场著名的人机对弈还要追溯到1997年,当时IBM研发的超级计算机“深蓝”战胜了国际象棋冠军卡斯帕罗夫。然而,国际象棋的算法比围棋简单得多。在象棋中要获胜,只需“杀”王即可,而在围棋中,是用计子或比较目标的方法来计算胜负,而不是简单地杀掉对方的子子。此前,“深蓝”计算机的设计者在2007年发表文章称,他相信十年内超级计算机可以在围棋比赛中打败人类。此外,AlphaGo的发布也是自2014年1月谷歌收购DeepMInd以来的首次公告。在收购之前,这家总部位于伦敦的人工智能公司还获得了特斯拉和SpaceX创始人埃隆马斯克的投资。
