当前位置: 首页 > 科技赋能

从粗活到成为“棋神”的关键是“强化学习”

时间:2024-05-22 13:10:50 科技赋能

编辑|杜小雷介绍:实验证明,计算机正在探索如何做开发者没有教过它们的事情。

在一个简单的计算机模拟中,一群自动驾驶汽车正在一条四车道的虚拟高速公路上进行疯狂表演:一半的自动驾驶汽车试图在车道上从右向左移动,而另一半则在试图从左向右移动。

向右移动。

对向行驶的自动驾驶汽车要顺利并道而不发生碰撞是非常困难的,但他们做到了。

1、强化学习技术原来是自动驾驶和AlphaGo背后的“神助攻”。

去年12月在巴塞罗那举行的人工智能大会上的模拟驾驶非常令人惊讶。

控制汽车行为的软件根本没有使用传统的方法。

编程。

它只是通过实践学会了如何整齐、安全地将汽车合并在一起。

在训练过程中,控制软件一遍又一遍地执行操作命令,每次指令都略有变化。

大多数时候,汽车并道速度非常慢,并且汽车之间会互相干扰。

但只要并道顺利进行,系统就会学会支持汽车的行为。

这种方法被称为强化学习,在 AlphaGo 中得到了广泛的应用。

AlphaGo是Alphabet子公司DeepMind开发的程序。

它已经掌握了复杂棋盘游戏的规则。

今年5月27日,AlphaGo以3:0击败世界排名第一的围棋选手柯洁,引起广泛关注。

除了用于AlphaGo和改进自动驾驶汽车之外,强化学习还可以让机器人抓取以前从未识别过的物体,并计算数据中心设备的最佳配置。

现在,强化学习可能很快就会被应用到智力游戏中。

2.强化学习技术来源于生活。

强化学习的本质是从自然界复制一个非常简单的原理。

心理学家爱德华·桑代克(Edward Thorndike)多年前??记录了一个现象,他将几只猫放在一个盒子里。

猫只能通过按下盒子里的按钮才能逃脱。

经过长时间的踱步和哀鸣,其中一只猫不小心踩到了按钮,从盒子里逃了出来。

当他们学会将这种行为与期望的结果联系起来后,他们被困的时间就会变得越来越短。

一些早期的人工智能研究人员相信这种现象可以有效地应用于机器中。

1999年,哈佛大学的学生马文·明斯基后来成为麻省理工学院的教授,也是人工智能的创始人之一。

他使用简单的强化学习方法构建了一台机器,模拟老鼠在迷宫中“导航”的行为。

明斯基的随机神经模拟强化计算机和 NARC 都是由十个管道、电机和离合器组成,模拟 40 个神经元和突触的行为。

当“模拟老鼠”退出虚拟迷宫时,一些突触连接的强度会增加,从而巩固机器的基本行为。

在接下来的几十年里,强化学习技术并没有取得突破。

2009年,IBM研究员Gerald Tesauro利用强化学习技术编写了一个程序,并用它来演示下棋,他的技术能力可以与优秀棋手相媲美。

这是人工智能领域的一个重要里程碑。

但事实证明,强化学习很难扩展到更复杂的问题。

当今强化学习的主要倡导者、英国 DeepMind 的研究员 David Silver 表示:“每个人都说这是一个好主意,但它行不通。

”然而,这种看法在今年3月份发生了戏剧性的变化。

AlphaGo是一个使用强化学习技术训练的程序,击败了韩国著名围棋选手李世石。

因为用传统方法几乎不可能编写出好的围棋程序,所以比赛的结果确实令人惊讶。

围棋游戏非常复杂,即使是优秀的围棋棋手有时也很难解释每一步棋对后续棋步的影响,因此游戏的原理很难编写代码。

大多数人工智能研究人员认为,计算机还需要10年才能达到职业围棋棋手的水平。

3.强化学习+深度学习,让AI在现实生活中得到更广泛的应用。

西尔弗是一位温和的英国人,在剑桥大学读本科时就对人工智能非常着迷。

他曾经说过:“强化学习最近变得如此强大的关键是将其与使用巨大的模拟神经网络来识别数据的深度学习相结合。

”强化学习之所以有效,是因为研究人员可以让机器自动计算动作的值。

例如,“模拟老鼠”会在迷宫中做出许多正确和错误的决定。

计算机将“模拟鼠标”的行为以数字形式存储在一张大表中,并实时更新。

但这种方法对于大型且复杂的任务来说是不切实际的。

近年来,深度学习已被证明是识别数据模式的一种非常有效的方法,无论该数据是指迷宫中的转弯、棋盘上的位置,还是计算机游戏屏幕上显示的像素。

事实上,DeepMind在游戏领域很有名。

2016年,该公司公布了一个项目的细节,即编写一个程序,可以学习玩各种雅达利视频游戏,其水平远远优于人类。

2006年,谷歌以超过5亿美元的价格收购了该公司。

这激发了其他研究人员和公司进入强化学习领域。

许多工业机器人制造商正在测试这种方法,以训练他们的机器自动执行新任务,而无需人工编程。

谷歌的一名研究人员正在与 DeepMind 合作,利用深度强化学习技术来提高数据中心的能源效率。

弄清楚数据中心的所有元素如何影响能源使用很困难,但强化学习算法可以从整理的数据和模拟实验中学习这种模式。

例如,如何以及何时运行冷却系统。

4.自动驾驶汽车技术仍面临许多需要克服的困难。

自动驾驶汽车的软件非常人性化。

如今的自动驾驶汽车在复杂的情况下经常会出现问题,例如与人类驾驶员的互动。

在交通圈或者四通车站,我们不希望自动驾驶自行车冒不必要的风险,但也不能太犹豫造成道路拥堵。

他们需要获得更细致的驾驶技能,例如在一组车辆中争夺位置。

Mobileye 是一家以色列公司,为特斯拉等汽车公司生产汽车安全系统。

Mobileye 技术副总裁 Shai Shalev-Shwartz 用一段视频展示了自动驾驶汽车将面临的一些挑战:自动驾驶汽车将行驶在耶路撒冷繁忙的街道、巴黎疯狂的十字路口、印度混乱的高速公路。

Shai Shalev-Shwartz 表示:“如果自动驾驶汽车只能准确遵守交通规则,那么在高峰时段,我可能需要在自动驾驶自行车混杂的道路上等待一个小时。

” Mobileye 计划在今年晚些时候与宝马和英特尔合作测试一款汽车软件。

谷歌和优步也表示,他们正在使用强化学习技术来测试自动驾驶汽车。

斯坦福大学助理教授艾玛·布伦斯基尔表示:“强化学习正在越来越多的领域得到应用,这项技术非常适合自动驾驶,因为它支持”良好的决策序列。

如果程序员必须提前编写所有可能的决策,那么进度将会慢得多。

但仍有一些挑战需要克服。

百度首席科学家吴恩达警告说,这种方法需要大量数据,其成功很大程度上取决于计算机可以在模拟中一遍又一遍地练习。

事实上,研究人员仍在研究如何使强化学习在执行多个目标的复杂情况下发挥作用。

Mobileye 必须调整其协议,以便自动驾驶汽车既能避免交通事故,又不会对人类造成伤害。

当你看到文章开头提到的自动驾驶汽车融合的演示时,Mobileye 已经取得了一些成果。

今年晚些时候,你可能会在高速公路上看到自动驾驶汽车。

这就是强化学习。

迄今为止最戏剧性和最重要的测试。