当前位置: 首页 > 科技观察

量化评价、算法拓展:强化学习研究的10条原则

时间:2023-03-22 14:08:11 科技观察

大数据文摘制作编译:蒋宝尚在今年9月举办的DeepLearningIndaba2018Summit上干货满满。关于自然语言处理的精彩问答。今天,文摘菌就为大家梳理了关于强化学习的10条原则,不仅对强化学习有用,也为机器学习研究提供了一些参考。这10条原则是Insight数据分析研究中心的博士生SebastianRuder在DavidSilver的报告会议期间组织的。除了罗德自己的分析,他还分享了自己拍摄的照片。1.评价驱动进步量化评价驱动进步。评估奖励的选择决定了进展的方向,确保评估指标与目标密切相关,避免主观评估(例如人类受试者)。还有一点就是double-Qlearning优于single-Qlearning,因为后者可以减少bias。2.算法的可扩展性决定了如何扩展成功的算法非常重要,避免性能上限。深度学习很棒,因为它可以有效地扩展,但样本效率同样重要。算法的可扩展性的性能取决于资源,算法的可扩展性决定了它是否成功:如何通过给更多的资源来提高性能?值得一提的是,这里的资源指的是计算、内存或数据。3.通用性,即算法在其他任务上的表现非常重要。关键是要设计一系列具有挑战性的任务,即要在不同的新任务上进行评估。避免过度使用当前任务。4.相信代理人的经验不依赖于人类的专业知识或工程特征。当数据有限时,领域专业知识和归纳偏差很重要。有些任务看似不可能,但您可以从中学到很多东西。这类任务或项目通常会遇到这三点:难以接受RL的核心问题。是AI的核心问题,值得你去努力5.状态应该是主观的状态应该建立为模型的状态,即RNN的隐藏状态,而不是根据环境来定义。只有代理人对世界的主观看法很重要。不要对外部现实进行推理,因为达到的效果是非常有限的。6、控制流Agent影响数据流和体验。代理应具有访问控制环境的能力。重点不仅在于最大化奖励,还在于建立对流程的控制。7.价值函数塑造世界价值函数有效地总结了当前和未来的状况。多值函数使我们能够模拟世界的多个方面。可以帮助控制流量。8.Learnfromimaginedexperience(想象的经验)来学习下一步如何计划?同样,RL算法可以从想象的经验(imaginedexperience)中学习,比如在Alphago中使用MCTS和价值函数。9、使用函数逼近器,可以将算法的复杂性纳入神经网络架构,甚至MCTS、层次控制等也可以用NN建模。然后才能真正理解:我们从模型中学到了什么。10.要学会学习,就要精通元学习。那么,你可能不再需要手动搭建网络架构,一切都是端到端的学习。总而言之,神经网络会在尽可能少的人为干预下处理事情。然而,归纳偏差应该仍然有用。相关报道:https://twitter.com/seb_ruder/status/1040235236284669952?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter【本文为栏目组织大数据文摘原创翻译,微信♂“大数据文摘(id:BigDataDigest)》】点此查看作者更多好文