Welcome to my paper nodebook
Here’s my research on deep learning.
Computer Vision
目标检测 (Object Detection)
注意力机制 (Attention Mechanisms)
Reinforce Learning
On-policy vs Off-policy
| On-policy | Off-policy | |
|---|---|---|
| 优点 | 实现更简单 训练更稳定 理论保证更强 | 更好的样本效率 可以重用历史数据 可以从演示中学习 |
| 缺点 | 样本效率低 需要频繁收集新数据 不能重用历史数据 | 实现更复杂 训练可能不稳定 需要更多的超参数调整 |
Last updated on