强化学习-概要

强化学习

分类

  • Valued-based / policy-based / A3C=A+C
  • Model based / Model free
  • 回合更新(蒙特卡洛) / 时间差分(步更新)
  • On-policy / off-policy
  • 稳态和非稳态
  • 全部可观测MDP / 部分可观测

DRL:本质把DNN作为一个actor。

特点

  1. explore and exploit
  2. Delayed reward
  3. Time critical(时间处理实现)
  4. Agent actor稳定提升