On-policy vs Off-policy
| On-policy | Off-policy | |
|---|---|---|
| 优点 | 实现更简单 训练更稳定 理论保证更强 | 更好的样本效率 可以重用历史数据 可以从演示中学习 |
| 缺点 | 样本效率低 需要频繁收集新数据 不能重用历史数据 | 实现更复杂 训练可能不稳定 需要更多的超参数调整 |
Last updated on
| On-policy | Off-policy | |
|---|---|---|
| 优点 | 实现更简单 训练更稳定 理论保证更强 | 更好的样本效率 可以重用历史数据 可以从演示中学习 |
| 缺点 | 样本效率低 需要频繁收集新数据 不能重用历史数据 | 实现更复杂 训练可能不稳定 需要更多的超参数调整 |