RL-420: Deep Reinforcement Learning

Course Description

Neural network function approximation for RL. DQN: experience replay, target networks, Atari results. Rainbow: double DQN, dueling networks, prioritized replay, distributional RL, noisy nets. Policy gradient theorem, REINFORCE, baseline variance reduction. Actor-critic: A3C, A2C, PPO, SAC. Offline RL: IQL, CQL, TD3+BC. Multi-agent RL: independent Q-learning, QMIX, MAPPO. OpenAI Gym, Gymnasium, and Brax environments.