这个开源项目用Pytorch实现了17种强化学习算法

时间：2023-03-18 20:10:24 科技观察

这个开源项目使用Pytorch实现了17种强化学习算法一个关于强化学习的开源项目。这个开源项目使用PyTorch实现了17种深度强化学习算法的教程和代码库，帮助大家在实践中理解深度RL算法。以下17维模型包括：DeepQLearning(DQN)(Mnihetal.2013)DQNwithFixedQTargets(Mnihetal.2013)DoubleDQN(DDQN)(HadovanHasseltetal.2015)DDQNwithPrioritized经验重播(Schauletal.2016)DuelingDDQN(Wangetal.2016)REINFORCE(Williamsetal.1992)DeepDeterministicPolicyGradients(DDPG)(Lillicrapetal.2016)TwinDelayedDeepDeterministicPolicyGradients(TD3)(Fujimotoetal.2018)SoftActor-Critic(SAC&SAC-Discrete)(Haarnojaetal.2018)AsynchronousAdvantageActorCritic(A3C)(Mnihetal.2016)SynchronousAdvantageActorCritic(A2C)ProximalPolicyOptimization(PPO)).)(Schulmanetal.2017)DQNwithHindsightExperienceReplay(DQN-HER)(Andrychowiczetal.2018)DDPGwithHindsightExperienceReplay(DDPG-HER)(Andrychowiczetal.2018)Hierarchical-DQN(h-DQN);(Kulkarnietal.2016)用于分层强化学习的随机神经网络(SNN-HRL)(F洛伦萨等人2017)DiversityIsAllYouNeed(DIAYN)(Eyensbachetal.2018)所有实现都能够快速解决CartPole（离散动作）、MountainCarContinuous（连续动作）、BitFlipping（离散动作）或FetchReach（连续动作）actionwithdynamicgoals)创作者计划很快添加更多分层RL算法。1.CartPole和MountainCar下面展示了各种RL算法成功地学习了离散动作游戏CartPole或连续动作游戏MountainCar。使用3个随机种子运行算法的平均结果如下所示：阴影区域表示正负1个标准偏差。使用的超参数可以在results/Cart_Pole.py和results/Mountain_Car.py文件中找到。2.HindsightExperienceReplay(HER)Experiments下图展示了DQN和DDPG在论文《后见之明体验重放2018》和《多目标强化学习2018》中描述的BitFlipping（14-bit）和FetchReach环境下的表现。这些结果复制了论文中的结果，并展示了FetchHER如何让代理解决它无法解决的问题。请注意，每对智能体都使用了相同的超参数，因此它们之间的唯一区别是是否使用了后见之明。3.HierarchicalReinforcementLearningExperiments上图左侧的结果展示了DQN和Kulkarni等人提出的hierarchy-DQN算法的性能。2016年在LongCorridor环境中。上图右侧的结果展示了Florensaetal.,2017,StochasticNeuralNetworksforHierarchicalReinforcementLearning(SNN-HRL)提出的DDQN算法的性能。目前，该项目已在Github上Star了962、170个Fork（Github地址：https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch）

上一篇：连接到Linux服务器时首先运行的5个命令

下一篇：调查显示4G手机市场占比79% 功能机或成增长点

这个开源项目用Pytorch实现了17种强化学习算法相关文章