作者丨徐杰成近日,曾推出轰动一时的AlphaGo围棋机器人的DeepMind公开发布了一款名为AlphaCode的代码生成系统。据DeepMind介绍,在正式亮相之前,AlphaCode已经通过知名编程竞赛网站Codeforces举办的10场算法竞赛检验了自己的实力。AlphaCode在这10场比赛中击败了近一半的参赛者,在最终得分中排名54%。论文链接:https://storage.googleapis.com/deepmind-media/AlphaCode/competition_level_code_generation_with_alphacode.pdf一些人工智能研究科学家在社交媒体上表示,AlphaCode需要几年时间才能达到人类水平,其在codeforce上的排名是局限性,例如许多参与者是高中生或大学生;事实上,AlphaCode生成的绝大多数程序都是错误的,它通过示例测试进行过滤,使AlphaCode能够真正解决一些问题。也有研究人员表示,这似乎是AlphaStar努力创造奇迹的结果。当然,这远不是人工智能与人类智能的第一次相遇。迄今为止,在人工智能技术的发展中,AlphaCode已经出现了很多“老前辈”,他们在不同领域与人类顶尖高手的交锋中取得了骄人的成绩,他们的每一次胜利都为人工智能的发展做出了贡献。情报技术。产生了深远的影响。深蓝?在人机对抗史上,AI的第一次胜利发生在1997年,IBM的深蓝超级计算机以3.5:2.5的比分战胜了当时世界排名第一的国际象棋大师卡斯帕罗夫。在技??术上,深蓝采用混合决策,将通用超级计算机处理器与国际象棋加速芯片相结合,利用α-β剪枝算法穷举棋局中的所有路子,通过比对选择最佳执行。每一步策略的分数。在算力和算法的加持下,深蓝拥有每秒2亿步的计算速度,这在当时已经是技术的天花板了。赛后,深蓝的设计者许凤雄表示,深蓝通过硬计算可以预测12步棋,而卡斯帕罗夫可以预测10步。虽然从今天的角度来看,深蓝之所以能够战胜棋王,更多的是依靠计算能力而非智能,但作为AI战胜人类的开端,深蓝的成功给人工智能从业者带来了极大的想象空间。Watson?2011年,IBM再次发力。深蓝的师弟沃森在美国老牌智力竞赛节目《危险边缘》中挑战了两位人类冠军,最终获胜。与它的兄弟深蓝相比,沃森最大的亮点在于其应用自然语言处理的能力。IBM称之为DeepQA,它代表了一整套问答系统。Watson成功的关键在于它能够根据上下文搜索答案,而不仅仅是关键字关联。而沃森使用的软件是分布式系统的集成。Hadoop和UIMA协同工作,引导数据,让Watson的各个节点协同工作。如果说“深蓝”代表着人工智能在计算能力上超越人类,那么“沃森”则代表着人工智能在自然语言处理能力上的突破。如今,许多基于自然语言处理技术开发的沃森“后代”已经出现在我们的生活中,其中就包括最近火爆的冬奥AI手语翻译“灵语”。AlphaGo?2016年,在深度学习发展的巅峰时期,AI迎来了迄今为止最黄金的时刻。被誉为世界围棋史上第二人的李世石与谷歌围棋人工智能程序AlphaGo在全球媒体的关注下展开了一场五番棋比赛。最终,AlphaGo以4:1战胜了李世石。为了解决更复杂的围棋问题,DeepMind摒弃了深蓝使用的蛮力法,为AlphaGo设计了两种神经网络:决策网络和价值网络。其中,监督学习决策网络是一个13层的卷积神经网络。它的主要功能是:输入当前棋盘的特征参数,输出下一着法的概率分布,预测下一着法位置。训练样本使用3000万人类棋手生成的棋盘数据,并使用随机梯度下降算法进行调优。只有通过策略网络,AlphaGo才能以57%的准确率预测对手的下一步。价值网络也是一个13层的卷积神经网络,其结构与决策网络相同。它的主要功能是:输入当前棋盘参数,输出对下一棋盘上某一着法的评价,从而判断此着法的优劣。在训练过程中,为了克服训练数据的相关性造成的过拟合,价值网络从决策网络产生的3000万个棋局中抽取样本,形成3000万个不相关的棋盘作为训练样本,最后在测试中在集合上获得了0.224的均方误差。这两种神经网络的主要作用是缩小博弈树的搜索空间规模,而AlphaGo在搜索算法的选择上采用了蒙特卡洛树搜索算法:先随机游走,然后通过更新游走值最终数据。通过这种方式进行大量的随机模拟,从而自动出现最优解。与深蓝、沃森相比,AlphaGo在数据学习能力上的突破探索是人工智能发展的里程碑。值得一提的是,在这场比赛之后,DeepMind再次升级了AlphaGo。全新的AlphaGoZero,摒弃了人类对局数据的学习,完全依靠强化学习进行自我对弈升级。经过仅仅3天的训练,它就以100:0的比分彻底完爆了AlphaGo。AlphaStar?AlphaGo在围棋领域取得统治地位后不久,AI再次征服了更复杂的RTS游戏。2019年,谷歌新一代人工智能AlphaStar挑战了被认为对计算能力、反应能力和运行速度要求最高的电子游戏《星际争霸》。0分赢得所有比赛。与桌游不同,RTS游戏存在信息游戏不完全、长期战略规划和实时操作等难点。正如强化学习之父DavidSilver所说:AI=DL+RL,面对这些问题,AlphaStar选择了深度监督学习+强化学习的基本框架。最关键的技术在于团训策略。AlphaStar同时训练了三个策略集:主代理、主暴露人、联盟暴露人。由于游戏的复杂性,策略集必须首先通过深度监督学习用人类数据进行初始化,然后主代理将使用强化学习与集合的其余部分进行对抗训练。与AlphaGo不同的是,masteragent被编程为使用优先级自学策略,在两人零和博弈中寻找一种针对历史分布的策略,该分布趋向于纳什均衡。暴露主力的对手只是现任主务,主要目的是寻找现任主务的弱点。AllianceExposor同样采用了深度学习的方法,对手主代理的历史版本,目标是发现主代理的系统性弱点。并且暴露的主代理和联盟会每隔一定时间重置为深度监督学习得到的集合,以增加策略对抗人类的稳定性。正如AlphaStar研发团队赛后所表达的那样,分组训练策略是一种更靠谱的训练策略,也是一条通往安全、鲁邦AI的道路。如今,AlphaStar所采用的分组训练策略已经广泛应用于天气预报、气候建模、语言理解等诸多领域的信息不完备的长序列建模任务。AlphaCode?虽然和众多“前辈”相比,AlphaCode目前的实力和战绩只能算是差强人意。不过,作为未来有望作为助手融入开发者工作的AI明星,AlphaCode的工作原理还是值得去理解和梳理的。从DeepMind的博客介绍和发表的论文中,我们可以发现AlphaCode的执行过程大致可以分为四个部分。预训练:使用标准语言建模目标在Github的数据集上预训练Transformer语言模型。Fine-tuning:在竞争性编程数据集上进行模型微调,使用GOLD和tempering作为训练目标,进一步缩小搜索空间。生成结果:使用训练好的模型生成所有可能满足任务要求的样本。筛选提交:过滤样本,删除不能通过样本的代码样本,将剩余样本通过测试数据模型聚类,从最大的簇中选出10个样本依次提交。总的来说,AlphaCode将Transformer模型与采样过滤相结合,创建了一个更新颖的解决方案。远非赢得比赛,AlphaCode呈现的结果代表了AI解决问题能力的重大飞跃。DeepMind表示将继续探索这一领域,希望进一步研究并生产出更强大的编程工具。写在最后?在当前人工智能技术的发展下,我们可以大胆预测,未来人工智能将在更多不同领域不断刷新人类极限,为人类进步提供更多助力。那么现阶段,有哪些前沿技术有望推动人工智能进一步突破,帮助人工智能实现更好的泛化应用落地呢?人工智能从感知智能到认知智能的旅程还有多远?未来人工智能技术行业的发展趋势将是怎样的?以上问题都可以在WOT全球科技创新大会上得到答案。在4月9日-10日举办的WOT全球科技创新大会上,多位人工智能领域的产学界技术专家将在“认知智能发展新趋势”专场与听众分享Intelligence”他们对人工智能技术发展的感悟。感兴趣的同学可以扫描下方二维码了解更多详情。目前大会购票优惠20折,现购票立省1160元,团购优惠更多!如有疑问,请联系售票小姐姐秋秋:15600226809(电话同微信)
