当前位置: 首页 > 科技观察

强化学习到底是什么,它是如何工作的?

时间:2023-03-17 15:17:36 科技观察

强化学习是机器学习的一个子集,它使代理能够理解在特定环境中执行特定操作的相应后果。目前,相当多的机器人正在使用强化学习来掌握各种新能力。强化学习是一种行为学习模型,其中算法提供数据分析反馈并引导用户逐步达到最佳结果。与使用样本数据集训练机器模型的监督学习不同,强化学习试图通过反复试验来学习技巧。通过一系列的正确决策,模型本身会逐渐得到加强,逐渐掌握更好的解决问题的方法。强化学习与人类在婴幼儿时期的学习过程非常相似。我们每个人的成长都离不开这种学习强化——正是在父母的帮助下,我们在一次次跌倒后,才最终站起来。这是一个基于经验的学习过程,机器会不断尝试和犯错,最终找到正确的解决方案。我们只需要为机器模型提供最基本的“游戏规则”,剩下的就完全交给模型自己去探索了。模型会从随机尝试开始,逐步建立自己的复杂战术,通过无数次尝试完成任务并获得奖励。事实证明,强化学习已经成为培养机器人想象力的重要方法之一。与普通人类不同,人工智能会从数千轮游戏中积累知识,强大的计算机基础设施将为此类模型提供可靠的计算支持。YouTube上的视频是强化学习应用的示例。观看当前视频后,平台会向你展示它认为你可能感兴趣的类似内容。如果你点击了推荐的视频但没有观看,机器会认为推荐失败,下次尝试其他推荐方式.强化学习的挑战强化学习的核心挑战是如何大规模模拟环境。仿真环境在很大程度上取决于要执行的任务。让我们以国际象棋、围棋或Atari游戏为例。这种模拟环境比较简单,易于搭建。然而,要用同样的方法训练出安全可靠的自动驾驶汽车,就需要创建一个非常逼真的街道原型环境,引入突然出现的行人或各种可能导致碰撞事故的因素。如果仿真程度不够,模型从训练环境转移到真实场景后会出现一系列问题。另一个挑战是如何扩展和修改代理的神经网络。除了奖励和惩罚之外,我们没有其他方式连接到这个网络。这有可能引发严重的“健忘症”症状,即网络在获取新信息时会抹去一些潜在重要的旧知识。换句话说,我们需要找到管理学习模型“记忆”的方法。最后,还要防止机器代理“作弊”。有时机器模型可以取得很好的效果,但实现起来却与我们的预期相去甚远。有些代理人甚至会在没有完成实际任务的情况下,通过“浑水摸鱼”的方式获得最大的奖励。强化学习的应用游戏机器学习之所以享有盛誉,主要是因为它在解决各种游戏问题上的惊人实力。最著名的当然是AlphaGo和AlphaGoZero。AlphaGo通过无数人类棋手的棋谱进行了大量训练,凭借策略网络中的蒙特卡罗树价值研究和价值网络(MCTS)获得了超人的棋力。但研究人员随后尝试了另一种更纯粹的强化学习方法——从头开始训练机器模型。最终出现了新的智能体AlphaGoZero,其学习过程完全来源于自我探索,不添加任何人工数据,最终以100-0的压倒性优势战胜了前辈AlphaGo。个性化推荐新闻内容推荐是一个历史遗留问题。瞬息万变的新闻趋势、随时可能变化的用户偏好、与用户留存率密不可分的点击率,都让研究人员头疼不已。管杰等研究人员发表的文章《DRN:用于新闻推荐的深度强化学习框架》,希望探索如何将强化学习技术应用到新闻推荐系统中,以克服这一重大挑战。为此,他们构建了四类资源,即:1)用户资源;2)上下文资源(如环境状态资源);3)用户新闻资源;4)新闻资源(如动作资源)。他们将这四种资源插入深度Q网络(DQN)以计算Q值。然后,根据Q值,他们选择一个新闻列表进行推荐,并将用户对推荐内容的点击作为强化学习代理的重要奖励指标。作者还采用了其他技术来应对相关挑战,包括记忆重复、生存模型、决斗强盗梯度下降等方法。如何设计计算机集群中的资源管理算法,将有限的资源分配给不同的任务,也是一个具有挑战性的课题,往往需要人类的启发指导。这篇名为《使用深度强化学习实现资源管理》的论文描述了如何通过让模型自动发现如何为预留作业分配和安排计算机资源,来使用强化学习来最小化平均作业(任务)处理时间。该方法使用一个“状态空间”来表示当前的资源分配和作业的资源分配方式。在动作空间方面,他们使用了一种技巧,允许代理在不同的时间阶段选择多个动作。奖励是系统中所有工作的总和(-1/工作持续时间)。接下来,他们将强化学习算法与基线相结合来计算策略梯度,以找到最佳策略参数,从中计算最小化目标的动作的概率分布。TrafficLightControl在这篇名为《基于强化学习的多代理交通信号网络控制系统》的文章中,研究人员试图设计一种交通灯控制方案来解决交通拥堵问题。他们的方法仅在模拟环境中进行了测试,表现出优于传统方法的性能水平,这也反映了在交通系统设计中引入多智能体强化学习技术的潜在可行性。他们在五个十字路口的交通网络中部署了五个智能体,并在中央十字路口部署了一个强化学习智能体来控制交通信号。他们将交通状态定义为一个8维向量,每个元素代表每条车道的相对交通流量。每个智能体可以从8个选项中选择一个,每个选项代表每个阶段的组合,奖励条件是新组合必须在交通流延迟方面优于之前的组合。作者使用SQN来计算{state,action}对的Q值。机器人强化学习在机器人领域的应用也大放异彩。感兴趣的朋友请关注强化学习在机器人领域的研究成果。在这方面,研究人员尝试通过训练引导机器人学习策略,将原始视频图像映射到机器人动作。RGB图像输入到CNN中进行计算,最终输出的是每台发动机的扭矩。强化学习组件负责根据训练数据中的状态分布总结出准确的转换策略。网络系统配置网络系统往往包含100多个可配置参数,参数调整过程需要合格的操作人员不断跟踪和错误测试。这篇名为《强化在线网络系统自我配置能力的学习方法》的论文介绍了研究人员首次尝试如何在基于动态虚拟机的环境中自动重新配置多层网络系统中的参数。研究人员可以以有限MDP(马尔可夫决策过程)的形式制定重构过程。状态空间是系统配置,每个参数的动作空间包括{增加,减少,保持不变}。奖励定义为预期响应时间与测量响应时间之间的差异。作者使用Q学习算法来执行此任务。当然,作者也使用了一些其他的技术(比如策略初始化)来解决大状态空间和复杂问题场景下计算困难的问题,所以不能简单地认为是依靠强化学习和神经网络的结合。但相信这一开创性工作为未来的探索铺平了道路。化学中的强化学习同样擅长优化化学反应。研究人员发现他们的模型已经发展出一种非常先进的算法,文章《通过深度强化学习优化化学反应》也探讨了如何将这种算法泛化到各种不同的潜在场景。强化学习代理与LSTM(长短期记忆网络)合作对策略特征进行建模,通过以{S,A,P,R}为特征的马尔可夫决策过程(MDP)优化化学反应。其中,S表示一组实验条件(如温度、pH等),A是所有可能调整的动作的集合,P是从当前实验条件切换到下一个条件的概率,R是状态奖励函数。这组应用场景很好地展示了强化学习技术如何在相对稳定的环境下减少试错次数,缩短学习周期。阿里巴巴拍卖与广告研究人员发表文章《在广告展示中采用多代理强化学习进行实时竞拍》,表示其基于集群的分布式多智能体解决方案(DCMAB)取得了可喜的成果,下一步研究计划将其上架淘宝平台进行实测.一般来说,淘宝广告平台负责为经销商提供可供竞价的广告展示区域。目前大多数代理商无法快速解决这个问题,因为交易者之间往往会相互竞价,而竞价往往与他们的业务和决策密切相关。在这篇论文中,研究人员将商家和顾客分成不同的组,以降低计算复杂度。每个代理的状态空间代表代理自己的成本收入状态,动作空间是(连续)出价,奖励是客户端集群收入。深度学习最近,越来越多的研究人员开始尝试将强化学习与其他深度学习架构相结合,并取得了令人瞩目的成果。最有影响力的成果之一是DeepMind尝试将CNN与强化学习相结合。基于此,智能体可以通过高维传感器“观察”环境,然后学习如何与之交互。CNN与强化学习相结合,成为人们探索新思想的有力组合。RNN是一种具有“记忆”的神经网络。与强化学习结合使用,RNN将为代理提供记忆能力。例如,研究人员将LSTM与强化学习相结合,创建了深度循环Q网络(DRQN)并学习如何玩Atari游戏。他们还使用LSTM强化学习解决了化学反应优化问题。DeepMind还展示了如何使用生成模型和强化学习来生成程序。在这个模型中,以对抗方式训练的代理使用对抗信号作为改进行动的奖励,这与GAN(生成对抗网络)将梯度传播到入口空间的方式不同。总结:什么时候开始使用强化学习?所谓强化,就是根据所做的决定和奖励,探索最佳的方法;这种类型可以与环境互动并随时从中学习。对于每一个正确的行为,我们都会给予奖励;对于每一个错误的行为,我们都会进行惩罚。在工业中,这种学习方法将有助于优化流程、模拟、监控、维护并有望导致强大的自治系统。您可以使用以下标准来考虑何时何地使用强化学习技术:?何时需要模拟复杂甚至危险的特定过程。?在处理某些需要大量人类分析师和领域专家的问题时。强化学习方法模仿人类推理,而不是简单地预测最佳策略。?何时可以向学习算法提供奖励的良好定义。您可以在每次交互时正确校准模型,从而确保奖励始终大于惩罚,帮助模型逐渐找出正确的解决路径。?当某个特定问题缺乏足够的数据时。除了工业领域,强化学习还广泛应用于教育、健康、金融、图像和文字识别等各个行业。除了工业领域,强化学习还广泛应用于教育、健康、金融、图像和文字识别等各个行业。