当前位置: 首页 > 科技观察

强化学习的10个实际应用

时间:2023-03-15 10:05:16 科技观察

在强化学习中,我们使用奖励和惩罚机制来训练智能体。代理人将因正确的行为而获得奖励,并因错误的行为而受到惩罚。这样,agent就会尽量减少自己的错误行为,最大化自己的正确行为。在本文中,我们将重点关注强化学习在现实生活中的实际应用。在无人驾驶中的应用许多论文都提到了深度强化学习在自动驾驶领域的应用。在无人驾驶中,需要考虑的问题很多,比如:不同地方的限速不同,是否是可行驶区域,如何避障等等。一些自动驾驶任务可以结合强化学习,比如如高速公路上的轨迹优化、运动规划、动态路由、最优控制和情境学习策略。例如自动泊车策略可以完成自动泊车。变道可以通过q-learning实现,超车可以通过超车学习策略实现超车的同时避开障碍物,之后保持稳定的速度。AWSDeepRacer是一款自动驾驶赛车,旨在测试强化学习算法在真实赛道上的性能。它使用摄像头可视化赛道,并可以使用强化学习模型来控制油门和转向。Wayve.ai已成功应用强化学习来训练汽车如何在白天驾驶。他们使用深度强化学习算法来解决车道跟随任务的问题。他们的网络结构是一个深度神经网络,有4个卷积层和3个全连接层。示例如图所示。中间的图像代表驾驶员的视角。强化学习在工业自动化中的应用在工业自动化中,基于强化学习的机器人被用来执行各种任务。这些机器人不仅比人类更有效率,它们还可以执行危险的任务。Deepmind使用AI代理来冷却谷歌数据中心是一个成功的用例。这样,节省了40%的能源费用。现在,这些数据中心完全由人工智能系统控制,除了少数数据中心专家外,几乎不需要其他人为干预。该系统的工作原理如下:数据中心每五分钟拍摄一次数据快照,并将其输入深度神经网络,以预测不同的组合将如何影响未来的能源消耗。数据中心下发相应措施并执行操作。当然,具体的措施还是由本地控制系统来完成。强化学习在金融交易中的应用监督时间序列模型可用于预测未来的销售和股票价格。然而,这些模型无法决定在特定股价下应该采取什么行动,强化学习(RL)就是为这个问题而生的。通过市场基准标准对RL模型进行评估,确保RL代理做出正确的持有、买入或卖出决策,确保最佳回报。通过强化学习,金融交易不再像以前那样由分析师来做,真正实现了机器的自动决策。例如,IBM为金融交易构建了一个强大的强化学习平台,可以根据每笔金融交易的损失或利润来调整奖励函数。强化学习在自然语言处理(NLP)中的应用强化学习可用于文本摘要、问答和机器翻译等NLP任务。EunsolChoi、DanielHewlett和JakobUszkoret在他们的论文中提出了一种基于RL的长文本问答方法。具体来说,先从文档中选出几个与问题相关的句子,然后将选出的句子和问题结合起来,通过RNN生成答案。本文将监督学习与强化学习相结合,生成抽象文本摘要。论文作者RomainPaulus、CaimingXiong和RichardSocher等希望解决基于注意力的RNN编解码模型在摘要生成中面临的问题。论文提出了一种新的innerattention神经网络,通过attention可以关注输入并不断产生输出,使用监督学习和强化学习进行模型训练。在机器翻译方面,科罗拉多大学和马里兰大学的研究人员提出了一种基于强化学习的机器翻译模型,可以学习预测一个词是否可信,并利用强化学习来决定是否需要输入更多的信息来翻译。帮忙翻译。斯坦福大学、俄亥俄州立大学和微软研究院的研究人员提出了Deep-RL,可用于对话生成任务。Deep-RL使用两个虚拟代理来模拟对话,并学习在多轮对话中对未来的奖励进行建模。同时,它应用了一种策略梯度方法来为高质量的对话获得更高的奖励,例如连贯性、信息丰富性和简单性。等待。强化学习在医疗保健中的应用在医疗保健中,强化学习系统只能为患者提供治疗策略。该系统能够在没有先验信息(例如生物系统的数学模型)的情况下使用以前的经验找到最优策略,这使得基于RL的系统具有更广泛的适用性。医疗保健中基于RL的动态治疗方案(DTR)包括慢性病或重症监护、自动化医疗诊断和其他几个领域。DTRs的输入是一组患者的临床观察和评价数据,输出是每个阶段的治疗方案。通过RL,DTR能够在特定时间确定患者的最佳治疗计划,从而实现时间依赖性决策。在医疗保健领域,RL方法还可用于根据治疗的延迟效果改善长期结果。对于慢性疾病,RL方法也可用于发现和生成最佳DTR。通过本文,您可以深入研究RL在医疗保健中的应用。强化学习在工程中的应用在工程领域,Facebook提出了一个开源的强化学习平台——Horizo??n,它使用强化学习来优化大规模生产系统。在Facebook内部,Horizo??n用于:个性化引导向用户发送更有意义的通知优化视频流质量Horizo??n的主要过程包括:模拟环境分布式数据平台模型训练和输出以进行数据处理典型的例子是,强化学习可选地为用户提供基于视频缓冲区的状态和来自其他机器学习系统的估计的低比特率或高比特率视频。Horizo??n还可以处理以下问题:大规模部署特征归一化分布式学习超大规模数据的处理和服务,例如包含高维数据和数千个特征的数据集。强化学习在新闻推荐中的应用在新闻推荐领域,用户的偏好不是一成不变的,根据评论和(历史)偏好向用户推荐新闻不可能一劳永逸。基于强化学习的系统可以动态跟踪读者反馈并更新推荐。构建这样一个系统需要获取新闻特征、读者特征、上下文特征和读者阅读的新闻特征。其中,新闻特征包括但不限于内容、标题、发布者;读者特征是指读者与内容互动的方式,例如点击和分享;上下文特征包括新闻时间和新鲜度等。然后定义一个基于用户行为的奖励函数并训练RL模型。强化学习在游戏中的应用强化学习在游戏领域的应用备受关注,并取得了极大的成功。最典型的例子就是前几年大名鼎鼎的AlphaGoZero。使用强化学习,AlphaGoZero能够从头开始并自行学习围棋游戏。经过40天的训练,AlphaGoZero战胜了世界第一柯洁。该模型仅包含一个神经网络,并且仅使用黑白棋子作为输入特征。由于网络是单一的,因此使用简单的树搜索算法来评估位置偏移和样本偏移,而无需任何蒙特卡罗扩展。实时竞价——强化学习在广告营销中的应用本文提出了一种基于多代理强化学习的实时竞价策略。将大量的广告主集群,然后为每个集群分配一个战略竞价代理来实施竞价。同时,为了平衡广告商之间的竞争与合作,论文还提出了分布式合作多代理竞价(DCMAB)。在营销中,选择合适的目标人群可以带来高回报,所以个人定位非常重要。论文以中国最大的电子商务平台淘宝为研究对象,表明上述多智能体强化学习优于现有的单智能体强化学习方法。强化学习在机器人控制中的应用通过深度学习和强化学习的方法训练机器人,可以使机器人抓取各种物体,甚至是训练中没有出现过的物体。因此,它可以用于流水线上的产品制造。上述思想是通过结合大规模分布式优化和QT-Opt(一种深度Q-Learning的变体)来实现的。其中,QT-Opt支持连续的动作空间操作,可以很好地处理机器人问题。在实践中,模型是离线训练的,然后在真实的机器人上部署和微调。对于爬行任务,GoogleAI耗时4个月,使用7个机器人运行800个机器人小时。实验表明,在700次实验中,QT-Opt方法有96%的概率成功抓取不熟悉的物体,而之前的方法只有78%的成功率。结论强化学习是一个非常有趣的领域,值得广泛研究。RL技术的进步及其在现实各个领域的应用必将取得更大的成功。在本文中,我们对强化学习的不同领域应用进行了粗略的介绍。希望这能激发您的好奇心,并引导您热爱和研究RL。如果你想了解更多,我建议查看这两个项目:https://github.com/aikorea/awesome-rl,https://github.com/dennybritz/reinforcement-learning。本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。