Home/AI/Policy Gradient Methods/Introduction

📊 Policy Gradient Methods

Learn to optimize policies directly through gradient ascent

Your Progress

0 / 5 completed

←

Previous Module

Q-Learning Visualizer

What are Policy Gradient Methods?

Direct Policy Optimization

Unlike value-based methods (Q-Learning), policy gradient methods directly optimize the policy by computing gradients of expected reward with respect to policy parameters. This enables learning in continuous action spaces and stochastic policies.

🎯

Parameterized Policy

Policy π(a|s,θ) is represented by parameters θ (e.g., neural network weights) that we optimize directly.

📈

Gradient Ascent

Update parameters in direction that increases expected cumulative reward using gradient ascent.

🎲

Stochastic Policies

Naturally handle exploration through probability distributions over actions.

🔄

Continuous Actions

Work seamlessly with continuous action spaces where value methods struggle.

The Policy Gradient Theorem

∇_θJ(θ) = E_π[∇_θ log π(a|s,θ) Q^π(s,a)]

∇_θJ(θ):Gradient of expected return

π(a|s,θ):Parameterized policy

Q^π(s,a):Action-value function

E_π[·]:Expected value under policy

💡

Key Insight

The policy gradient theorem shows we can compute gradients without knowing environment dynamics. We only need to sample trajectories from the policy and use observed rewards.

✅ Advantages

•Effective in high-dimensional spaces
•Natural exploration via stochastic policies
•Handles continuous action spaces
•Converges to local optimum guaranteed

⚠️ Challenges

•High variance in gradient estimates
•Sample inefficient (needs many episodes)
•Sensitive to hyperparameters
•Can get stuck in local optima