当前位置: 首页 > 科技观察

GitHub万星资源:强化学习算法实现,教程代码学习规划全收录

时间:2023-03-16 10:40:32 科技观察

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。自从强化学习(RL)问世以来,AI已经能够在底层的星际争霸和雅达利上大放异彩,令圈内人陶醉,圈外人惊奇。这里有超过10000星的强化学习资源。它包括教程建议和支持练习。网友们学了都说不错,还在实时更新中。入学要求不高,只需要一些数学和机器学习的基础知识。清晰的学习路径想要开始精进学习,高质量的课程必不可少。强化学习资源有上千种,项目作者DennyBritz极力推荐这两个:DavidSilver的强化学习课程:http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html和RichardSutton和AndrewBarto的《强化学习:简介(第二版)》:http://incompleteideas.net/book/RLbook2018.pdfp.s。MeasuredwithoutmagicDennyBritz说,这两本书几乎涵盖了强化学习入门需要知道的大部分内容,对于研究论文来说,基础决定高度,理论知识还是要学扎实。理论有了,但是书上没有算法实现。别急,扶人到底,送佛到西,DennyBritz亲自用Python、OpenAIGym和Tensorflow实现了大部分标准的强化算法,并分享给大家配合教材使用。真是太甜了。在万兴资源中,每个文件夹对应教材的一个或多个章节。除了练习和解决方案外,每个文件夹还包含一系列学习目标、基本概念摘要和相关链接。以“基于模型的强化学习:使用动态规划的策略迭代和值迭代”一章为例。本章伴随着DavidSilver的强化学习课程动态规划规划的第3讲。一、学习目标:了解策略评估和策略改进的区别,以及这些过程如何相互作用了解策略迭代算法了解值迭代算法了解动态规划方法的局限性设定学习目标,本教程还将为您规划关键概念.最后,给出了一个实践练习。大框架已经搭好了,只关注如何填空:标准答案附在文后:ListofImplementationAlgorithmsThistutorialnowcoversthefollowingalgorithmimplementations.DynamicProgrammingPolicyEvaluationDynamicProgrammingPolicyIterationDynamicProgrammingValueIterationMonteCarloPredictionMonteCarloControlofEpslion-GreedyPolicyMonteCarlowithImportanceSamplingOff-PolicyControlSARSA(PolicyTDLearning)Q-Learning(离策略TD学习)Q-用于线性函数逼近的深度Q学习用于Atari游戏的双重深度Q学习用于Atari游戏的优先深度Q学习用于体验回放(建设中)-CriticAlgorithmwithContinuousActionSpaceDeterministicPolicyGradientinContinuousActionSpace(UnderConstruction)DDPG(UnderConstruction)AsynchronousAdvantageActor-CriticAlgorithm(A3C)学习路径这么清晰,这么优质的资源,是不是想标记它吗??传送门:https://github.com/dennybritz/reinforcement-learning