强化学习-概要

Oct 12, 2019 · 强化学习 ·

分享到:

强化学习

分类

Valued-based / policy-based / A3C=A+C
Model based / Model free
回合更新（蒙特卡洛） / 时间差分（步更新）
On-policy / off-policy
稳态和非稳态
全部可观测MDP / 部分可观测

DRL：本质把DNN作为一个actor。

特点

explore and exploit
Delayed reward
Time critical(时间处理实现)
Agent actor稳定提升