这个开源项目使用Pytorch实现了17种强化学习算法一个关于强化学习的开源项目。这个开源项目使用PyTorch实现了17种深度强化学习算法的教程和代码库,帮助大家在实践中理解深度RL算法。以下17维模型包括:DeepQLearning(DQN)(Mnihetal.2013)DQNwithFixedQTargets(Mnihetal.2013)DoubleDQN(DDQN)(HadovanHasseltetal.2015)DDQNwithPrioritized经验重播(Schauletal.2016)DuelingDDQN(Wangetal.2016)REINFORCE(Williamsetal.1992)DeepDeterministicPolicyGradients(DDPG)(Lillicrapetal.2016)TwinDelayedDeepDeterministicPolicyGradients(TD3)(Fujimotoetal.2018)SoftActor-Critic(SAC&SAC-Discrete)(Haarnojaetal.2018)AsynchronousAdvantageActorCritic(A3C)(Mnihetal.2016)SynchronousAdvantageActorCritic(A2C)ProximalPolicyOptimization(PPO)).)(Schulmanetal.2017)DQNwithHindsightExperienceReplay(DQN-HER)(Andrychowiczetal.2018)DDPGwithHindsightExperienceReplay(DDPG-HER)(Andrychowiczetal.2018)Hierarchical-DQN(h-DQN);(Kulkarnietal.2016)用于分层强化学习的随机神经网络(SNN-HRL)(F洛伦萨等人2017)DiversityIsAllYouNeed(DIAYN)(Eyensbachetal.2018)所有实现都能够快速解决CartPole(离散动作)、MountainCarContinuous(连续动作)、BitFlipping(离散动作)或FetchReach(连续动作)actionwithdynamicgoals)创作者计划很快添加更多分层RL算法。1.CartPole和MountainCar下面展示了各种RL算法成功地学习了离散动作游戏CartPole或连续动作游戏MountainCar。使用3个随机种子运行算法的平均结果如下所示:阴影区域表示正负1个标准偏差。使用的超参数可以在results/Cart_Pole.py和results/Mountain_Car.py文件中找到。2.HindsightExperienceReplay(HER)Experiments下图展示了DQN和DDPG在论文《后见之明体验重放2018》和《多目标强化学习2018》中描述的BitFlipping(14-bit)和FetchReach环境下的表现。这些结果复制了论文中的结果,并展示了FetchHER如何让代理解决它无法解决的问题。请注意,每对智能体都使用了相同的超参数,因此它们之间的唯一区别是是否使用了后见之明。3.HierarchicalReinforcementLearningExperiments上图左侧的结果展示了DQN和Kulkarni等人提出的hierarchy-DQN算法的性能。2016年在LongCorridor环境中。上图右侧的结果展示了Florensaetal.,2017,StochasticNeuralNetworksforHierarchicalReinforcementLearning(SNN-HRL)提出的DDQN算法的性能。目前,该项目已在Github上Star了962、170个Fork(Github地址:https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch)
