强化学习-多臂老虎机问题
多臂老虎机问题
名词解释
- stochastic MAB(stationary random rewards MAB)
- non-stochastic MAB(Adversarial Bandits) 对抗性质,有对手会改变每个臂的收益,根据对手是否与玩家独立可分为oblivious和non-oblivious两种
- restless 马尔可夫MAB的一种,每个臂都会独立地进行状态转移,无论臂是否被选中
- rested MAB 马尔可夫MAB的一种,只有被选中的臂进行状态转移,其他臂状态不变,处于冻结状态
- non-stationary MAB
- contextual MAB 会带有一定的附属信息,可以根据附属信息来帮助判断选择哪个或哪一类臂
- variants
- dualing MAB
- etc
Bandit算法
- 汤普森采样
- e-greedy
- UCB及其变种
- COFIBA
- exp3
- hedge
- softmax
基本的Bandit对应
- stochastic -- UCB
- adversarial -- Exp3
- Oblivious: 每个杆变换的分布独立于拉栏者,基本上这种就是撞大运,研究的少
- Non-oblivious: 每个杆的分布会一句拉杆者的策略而变化,有点博弈的意思。
- Markovian -- Gittins indices