当前位置: 首页 > 科技观察

人类终于创造出了懒惰的人工智能...

时间:2023-03-13 19:22:17 科技观察

许多文章解释了强化学习(RL)的概念,但很少有文章解释如何在现实世界中实际设计和实现RL。这一次,小新想分享人工智能范式转换课程,讨论设计权衡,深入技术细节。所以,我们开始吧!首先,饮料?想象一下,您正在参加一个聚会,喝得有点醉或醉得很厉害,自愿参加一场饮酒游戏,并试图给一个迷人的熟人(或几个熟人)留下深刻印象。有人蒙上你的眼睛,递给你一杯或一瓶啤酒,然后大喊:“倒!”你做什么工作?你可能会有以下反应:妈的,我该怎么办?我怎么可能赢!输了怎么办!?游戏规则如下:在10秒内将啤酒尽量靠近玻璃杯上的标记。啤酒可以倒进倒出。RL(ReinforcementLearning)解决方案面临类似的任务,高大上且有意义,欢迎了解。现实世界中的啤酒问题环保型共享单车业务存在大问题。全天每个自行车公园(杯)的共享单车(啤酒)过多或过少。纽约市自行车停放处的自行车过多(左)和短缺(右)给骑自行车的人带来了不便,并花费了数百万美元来管理运营。不久前,我在纽约大学的团队的任务是提供一种人工智能解决方案,最大限度地减少人为干预并帮助管理自行车库存。目标:将自行车停放点的数量保持在每天1到50个之间(想想杯子上的标记)。这被称为共享经济中的“再平衡问题”。限制:由于运营限制,团队每天每小时只能移动1、3或10辆自行车(可以倒或倒的啤酒量)。当然,他们可以选择什么都不做。团队移动的自行车越多,价格就越高。LazyRL(ReinforcementLearning)解决方案团队决定使用RL(ReinforcementLearning),它克服了传统方法的许多局限性(例如基于规则和预测)。如果你想了解RL(强化学习)和一些关键概念,JonathanHui写了一篇很棒的介绍,ThomasSimonini详细解释了解决方案中应用的RL算法Q-Learning。事实证明,人类创造了极其惰性的人工智能。当自行车库存超过60辆时,它通常会选择什么都不做或执行最少的操作(移动1或3辆自行车)。这似乎违反直觉,但却非常明智。直觉上,可能是移动尽可能多的自行车以将其保持在50辆以下,尤其是当停车场已满时。然而,RL(强化学习)认识到移动的成本(移动的自行车越多,成本越高)以及在某些情况下成功的机会。考虑到剩下的时间,根本不可能达到目的。它知道最好的选择是“放弃”。因此,放弃比继续尝试的代价要小!所以呢?当人工智能做出非常规决策时,类似于GoogleAlphaGo开发的著名的第37步和第78步,它们挑战人类的偏见并帮助打破知识壁垒。诅咒,将人类推向未知的道路。创造人工智能既是一项发明,也是探索人类内部运作的旅程。——DeepMind创始人戴米斯·哈萨比斯(DemisHassabis)在《经济学人》杂志《2020年的世界》(TheWorldin2020)上的一篇文章中说道。但是,请谨慎。人类的价值体系无可替代,所以人类不会一落千丈或迷失自我。足够的哲学知识,现在让我们现实一点,强化学习是如何管理自行车停放的?下图显示了在使用和不使用RL的情况下一天内停放了多少辆自行车。蓝线是没有RL的自行车停放趋势。黄线是在初始RL情况下移出自行车的趋势,这很昂贵。绿线是训练有素的RL,它只移动足够的自行车来达到目标??,具有更好的成本意识。作者分析了RL是如何决定做什么的?下面是98,000个训练时期后RL解决方案的Q表快照。它解释了RL如何根据公园里的自行车数量(垂直数据)来决定做什么(水平数据)。RL不太可能选择以红色运营。查看底部的红色区域。作者对RL的分析有多聪明?下图介绍了RL对车位的管理。通过深度学习,RL可以逐渐将总体成功率提高到令人印象深刻的98%。作者分析希望大家喜欢这篇文章,真诚期待RL在现实世界中的潜力。