强化学习-概要 Oct 12, 2019 · 强化学习 · 分享到: 强化学习 分类 Valued-based / policy-based / A3C=A+C Model based / Model free 回合更新(蒙特卡洛) / 时间差分(步更新) On-policy / off-policy 稳态和非稳态 全部可观测MDP / 部分可观测 DRL:本质把DNN作为一个actor。 特点 explore and exploit Delayed reward Time critical(时间处理实现) Agent actor稳定提升