OpenAI在2016年击败了Dota2世界顶级选手Dendi。
本月初,它击败了一支由半职业团队组成的团队职业选手和评论员。
这一系列精彩的比赛表现,引发了人们对人工智能能否再次获胜的期待。
8月22日在温哥华举行的TI8上,OpenAI联合创始人兼CTO Greg Brockman带着新的OpenAI五人组如约而至,但连续两场比赛输给了巴西队和中国队。
据悉,巴西队目前世界排名第14位。
这至少说明,一直想挑战“最强”人类的人工智能目前在Dota2电竞赛场上还无法击败人类。
机器的缺点。
正如专注于游戏领域人工智能研究的迈克·库克在推特上所说,“机器人擅长即时和本地响应,但不擅长宏观决策。
” OpenAI计划在当地时间周三、周四和周五连续进行三场比赛。
由于比赛采用三局两胜制,OpenAI在输给中国队后结束了TI8之旅。
两场比赛分别持续了51分钟和45分钟。
从数据来看,OpenAI五人在比赛的前20-35分钟确实有很大的胜算。
从AI的算力来看,OpenAI五人有很多出色的表现,比如“围剿”孤立英雄、近距离释放技能、计算血量等,在与巴西队paiN的较量中,AI也赢得了更多比对手“领先”。
毕竟,人工智能是一种可以从游戏后端获取精确数字反馈的机器,比如英雄状态、英雄之间的距离等。
然而,在策略方面,人工智能却远远不如人类。
它痴迷于打肉山,莫名其妙地在家里和塔下插入病房,在没有对手的情况下放大。
这种精确的计算和不稳定的策略恰恰反映了AI如何学习玩Dota。
OpenAI使用强化学习来训练AI从头开始学习,并通过反复尝试坚持有效的行动。
这也导致OpenAIFive在面对训练中没有遇到过的情况时束手无策。
从事OpenAIDota项目的软件工程师Susan Zhang表示,“如果AI在比赛过程中遇到以前从未遇到过的情况,将很难立即调整。
同时,在训练过程中游戏中透露,机器人最多会提前14分钟来判断采取什么行动。
比赛开始前,Greg Brockman 告诉 The Verge,公司进行了内部员工民意调查,认为 OpenAIFive 获胜的机会不到 50%,这是普遍共识。
但他补充说,真正重要的是人工智能的进步速度。
当AI接近某个队伍的水平时,就会与他们对战。
一两周后,AI就会超越他们。
这种事情已经被“验证”过很多次了。
不可否认,AI具有很强的学习能力。
即使彻底击败了巴西队和中国队,OpenAI的AI选手也远远超越了早期的电竞机器人。
“OpenAI Five”在体育和游戏中让人工智能与人类较量有着悠久的历史。
IBM开发的深蓝计算机成为第一个与国际象棋世界冠军竞争并获胜的计算机系统。
击败日益具有挑战性的人类冠军已经慢慢成为衡量人工智能进步的标准。
2019年3月,AlphaGo与围棋世界冠军、围棋职业九段棋手李世石进行围棋人机对战,并以总比分4:1获胜。
之后,AlphaGo以在线围棋棋手“大师”的身份与来自中、日、韩的数十名棋手进行了对决。
围棋大师角逐,最终以60胜0负的成绩结束。
此后,DeepMind团队宣布了一种新的强化学习算法——AlphaZero,仅通过自我对弈就达到了超越人类的水平。
去年,谷歌旗下的 DeepMind 与马斯克创立的非盈利研究实验室 OpenAI 合作开发了一种基于人类反馈的强化学习新方法,并发表了论文《Deep reinforcement learning from human preferences》(基于人类偏好的深度强化学习)。
要构建安全的AI系统,很重要的一步就是不再让人类为AI系统编写目标函数,因为这可能会导致AI行为偏离轨道或者造成危险。
新算法只需要人类逐步告诉AI两个AI推荐的动作中哪一个更好,AI根据人类的需求进行学习。
例如,新算法使用人类评估者的第二选择反馈来学习后空翻。
。
OpenAI和DeepMind希望通过新算法提高人工智能的安全性。
DeepMind 的 Alpha Go 不负众望。
同样专注于强化学习领域的OpenAI正在重点关注Dota2,因为在数学计算方面,电子竞技游戏比国际象棋或围棋更复杂。
这种看似“不规则”的事情,实际上对人工智能来说是一个巨大的挑战。
游戏需要人工智能团队协调行动、制定长期策略并做出复杂的决策。
如果赋予人工智能的这些技能可以通过游戏来磨练和“提炼”,那么它们就可以应用到现实生活中。
这也恰好符合OpenAI的初衷——吸收人类一切优点,打造安全的通用机器人。