博弈论之完全信息静态博弈(贝叶斯博弈)

信息分割:对于全集Ω\Omega,集系H2Ω\mathcal{H}\subseteq 2^{\Omega}\setminus \varnothingΩ\Omega的一个分割,如果它是Ω\Omega互不相交的子集的集合(即为集系)且这些子集的并是Ω\Omega

形式化定义:hiHhi=Ω;hi,hjH,hihj=(ij)\bigcup_{h_i\in\mathcal{H}}h_i=\Omega;\forall h_i,h_j\in \mathcal{H},h_i\cap h_j=\varnothing(i\neq j)

直观的看,信息分割就是把全集Ω\Omega分成互不相交的几份。

信息分割出来的每一个片段称之为信息集。对每一局中人来说,其无法区分同一信息集中的元素,即局中人只能直到是哪个信息集,但是不知道是该信息集中的哪一个元素。

信息分割=等价于\xlongequal{等价于}信息函数。
信息函数:映射H:Ω2ΩH:\Omega→2^\Omega满足:
(i)ωΩ,ωH(ω)\forall \omega\in\Omega, \omega\in H(\omega)
(ii)ωΩ,ωH(ω),H(ω)=H(ω)\forall \omega\in\Omega,\forall \omega'\in H(\omega), H(\omega')=H(\omega)

信息函数意义在于给出任一个元素ω\omega得出它在哪一个信息集(分割)中。由于信息集两两不互相交,因此两个元素要么都在同一个信息集中要么不在同一个信息集中。信息函数是构成贝叶斯博弈的重要组成部分。

知识函数:映射K:2Ω2ΩK:2^\Omega→2^\Omega使得E2Ω,K(E)={ωΩH(ω)E}\forall E\in 2^\Omega, K(E)=\{\omega∈ \Omega|H(\omega)\subseteq E\}

ωK(E)ω\omega∈ K(E)\Rightarrow \omega发生,那么事件E也发生了。知识函数可以通过一个线索ω\omega,推断事件E是否发生。

使用奥曼模型表示贝叶斯博弈为G=(N,A,Ω,H,P,u)G=(N,A,{\color{red}{\Omega,H,P}},u)。其中:

  • 局中人集合N={1,2,3,,n}N=\{1,2,3,\dotsb,n\}和静态博弈中一样
  • 策略/动作空间:A=A1×A2××AnA=A_1×A_2×\dotsb×A_n和和静态博弈中一样
  • 状态空间Ω{\color{red}{\Omega}}:非空有限集合。状态空间描述了贝叶斯博弈中的状态,即存在多少种的博弈,每一种博弈以一定的概率出现。
  • 信息函数H{\color{red}{H}}:这是一个关键概念。它描述的是每一位局中人对此贝叶斯博弈的了解程度。首先,每一个局中人都有自己的信息函数即H=(H1,H2,,Hn)H=(H_1,H_2,\dotsb,H_n);若局中人观察到某一元素发生,那他可以推到该元素属于的信息集发生了。局中人对博弈了解越清晰,其信息集越小,不确定也就越小。(对于完美信息博弈,信息集都是单元素集)
  • 共同先验信息P{\color{red}{P}}:首先PP描述了状态空间的概率分布,即Ω[0,1]\Omega→[0,1]。显然,有ωΩP(ω)=1\sum_{\omega \in \Omega}P(\omega)=1。同时要求每一局中人的信息集也大于0,即iN,ωΩ,P(Hi(ω))>0\forall i∈ N,\forall \omega\in\Omega,P(H_i(\omega))>0
  • 收益u=(u1,u2,,un)u=(u_1,u_2,\dotsb,u_n):定义和完全信息静态博弈一样,但是其原像空间多了状态可供选择uiA×ΩRu_i→A×\Omega→\mathbb{R},即动作确定后,还需要知道目前处于哪个状态(那一个博弈)。

对于信息函数有:

  • EΩ,P(E)=ωEP(ω)\forall E\subseteq \Omega,P(E)=\sum_{\omega\in E}P(\omega)
  • ωΩ,ωHi(ω)P(ωHi(ω))=P(ω)P(Hi(ω))\forall \omega\in \Omega,\forall \omega'\in H_i(\omega)有P(\omega'|H_i(\omega))=\frac{P(\omega')}{P(H_i(\omega))}

贝叶斯纯策略不再是单纯的一个动作,而是一个与状态相关的函数。对于局中人ii其纯策略空间也不再是AiA_i,而是一个函数的集合Si={si:ΩAi  ω,ωΩ[Hi(ω)=Hi(ω)][si(ω)=si(ω)]} S_i=\{s_i:\Omega→A_i |\;\forall\omega,\omega'\in\Omega[H_i(\omega)=H_i(\omega')]\Rightarrow [s_i(\omega)=s_i(\omega')]\} 其中,每一个函数sis_i要做的就是当知道现在状态ω\omega的时候,给出对应的动作aia_i(在状态和动作都有限的情况下,这种映射应该是有限的,个人意见)。在贝叶斯纯策略中,如果状态ω\omega给定,那么局中人的动作也是确定的。但是这类函数需要满足一个限制条件,由于局中人无法分辨其同一信息集中的不同元素,因此对于同一信息集下的所有元素,在特定状态ω\omega下,其给出的动作是一样的

和贝叶斯纯策略集类似,贝叶斯行为策略也是一个函数,定义域还是状态空间,但是至于不再限于单个动作集AA,可以是混合策略,记局中人的混合策略空间为M=M1×M2××MnM=M_1×M_2×\dotsb×M_n,其中局中人ii的混合策略空间为MiM_i,则局中人ii的一个贝叶斯行为策略为 bi:ΩMi  ω,ωΩ[Hi(ω)=Hi(ω)][si(ω)=si(ω)] b_i:\Omega→M_i |\;\forall\omega,\omega'\in\Omega[H_i(\omega)=H_i(\omega')]\Rightarrow [s_i(\omega)=s_i(\omega')] 其中,每一个函数bib_i要做的就是当知道现在状态ω\omega的时候,给出对应的混合策略mim_imim_i是在AiA_i是的一个概率组合,由于混合策略集是无限多,这种映射当然也是无穷的)。在贝叶斯行为策略中,如果状态ω\omega给定,那么局中人的混合策略(动作的概率分布)也是确定的。同样,也需要满足和贝叶斯纯策略中一样的信息集限制,这里不再赘述。

综合所有这样的函数,得到局中人ii的贝叶斯行为策略空间 Bi={bi:ΩMi  ω,ωΩ[Hi(ω)=Hi(ω)][si(ω)=si(ω)]} B_i=\{b_i:\Omega→M_i |\;\forall\omega,\omega'\in\Omega[H_i(\omega)=H_i(\omega')]\Rightarrow [s_i(\omega)=s_i(\omega')]\} 那么整体贝叶斯行为策略描述为B=B1×B2××BnB=B_1×B_2×\dotsb×B_n

在纯策略中,每一个贝叶斯纯策略sis_i的收益是该纯策略在不同状态ω\omega下,所给定的每一个动作收益的期望。有两点需要注意:

  1. 局中人在应对不同信息集时,给出的动作可能是不一样的
  2. 在同一状态ω\omega下,局中人ii的收益不仅仅和自己的动作si(ω)s_i(\omega)有关,也和其他人在状态ω\omega下的动作si(ω)s_{-i}(\omega)有关(这和完全信息静态博弈一个道理)。需要指出,在状态ω\omega给定(即信息集给定)时,其他局中人i{-i}的动作也是确定的,即si(ω)s_{-i}(\omega)是一个唯一确定的n1n-1维向量。

总结,收益由三个要素决定:状态,状态下局中人的动作,状态下其他局中人的动作,可记为: ui(s)=ωΩP(ω)ui(si(ω),si(ω),ω) u_i(s)=\sum_{\omega\in\Omega}P(\omega)u_i(s_i(\omega),s_{-i}(\omega),\omega)

在贝叶斯行为策略中,我们可以仿照纯策略写出贝叶斯行为策略的收益表达式: ui(b)=ωΩP(ω)ui(bi(ω),bi(ω),ω),bB u_i(b)=\sum_{\omega\in\Omega}P(\omega)u_i(b_i(\omega),b_{-i}(\omega),\omega),\forall b\in B 到这一步与纯策略的收益只有sbs\rightarrow b这点不同。对于某一具体的状态ω\omega,由于bi(ω)b_i(\omega)是混合策略,因此该状态下的收益是混合策略中各个动作收益的期望,即 ui(bi(ω),bi(ω),ω)=aAjNbj(ω)(aj)ui(a,ω) u_i(b_i(\omega),b_{-i}(\omega),\omega)=\sum_{a\in A}\prod_{j\in N}b_j(\omega)(a_j) u_i(a,\omega) 需指出,aAa\in A是一个N维向量,表示N个局中人各自的动作(纯策略)。 ui(a,ω)u_i(a,\omega)就是在状态ω\omega下执行纯策略aa的收益。那么每一个纯策略发生的概率是多少呢?就是这一项jNbj(ω)(aj)\prod_{j\in N}b_j(\omega)(a_j)其中bj(ω)(aj)b_j(\omega)(a_j)是在状态ω\omega下,局中人jj执行aa中自身动作aja_j的概率,N个局中人连乘就是纯策略aa的发生概率,在对所有的aAa\in A求和,即为求混合策略的收益期望。在对所有的状态的概率求期望: ui(b)=ωΩP(ω)aAjNbj(ω)(aj)ui(a,ω) u_i(b)=\sum_{\omega\in\Omega}P(\omega)\sum_{a\in A}\prod_{j\in N}b_j(\omega)(a_j) u_i(a,\omega) 就是混合策略bBb\in B的收益。我们可以发现,者本质上是求 两次期望,一次是状态概率下的期望,一次是动作发生概率下的期望。

其定义和完美信息博弈是类似的,都是用最优反应来定义。 >贝叶斯行动策略均衡:对于一个贝叶斯行为策略bBb\in B,如果iN,biBi\forall i \in N,\forall b'_i\in B_i都有 >>ui(bi,bi)ui(bi,bi)> >u_i(b_i,b_-i{})\geq u_i(b_i',b_{-i}) > >则贝叶斯行为策略bBb\in B是一个贝叶斯行为均衡

为了计算方便,我们有以下定理:

定理1:贝叶斯混合策略是一个贝叶斯行为均衡当且仅当iN,ωΩ,miMi\forall i\in N,\forall \omega\in \Omega,\forall m_i\in M_iωHi(ω)P(ω)ui(bi(ω),bi(ω),ω)ωHi(ω)P(ω)ui(mi,bi(ω),ω) \sum_{\omega'\in H_i(\omega)}P(\omega')u_i(b_i(\omega'),b_{-i}(\omega'),\omega')\geq\sum_{\omega'\in H_i(\omega)}P(\omega')u_i(m_i,b_{-i}(\omega'),\omega') 且仅当iN,ωΩ,miMi\forall i\in N,\forall \omega\in \Omega,\forall m_i\in M_iωHi(ω)P(ωHi(ω))ui(bi(ω),bi(ω),ω)ωHi(ω)P(ωHi(ω))ui(mi,bi(ω),ω) \sum_{\omega'\in H_i(\omega)}P(\omega'|H_i(\omega))u_i(b_i(\omega'),b_{-i}(\omega'),\omega')\geq\sum_{\omega'\in H_i(\omega)}P(\omega'|H_i(\omega))u_i(m_i,b_{-i}(\omega'),\omega') 多个信息集的不等式可以求出每个信息集中作为最佳相应的贝叶斯行为策略的在纯策略上的概率分布。

我们来理解一下这个定理。先看这个定理的第一部分,它和贝叶斯行为均衡的区别仅在于概率求和的范围不同。贝叶斯行为均衡的定义是对所有状态下收益函数求期望即ωΩP(ω)\sum_{\omega\in\Omega}P(\omega)\dotsb而定理中缩减了范围,由于我们知道,贝叶斯博弈中的行为策略是针对每一信息集的,信息集中的元素无法区分,因此只要针对每一信息集其贝叶斯行为策略是最优的,那么整体的行为策略也会是最有的,所以就有ωΩ,ωH(ω)P(ω)\forall \omega\in\Omega,\sum_{\omega'\in H(\omega)}P(\omega')\dotsb

定理的第2部分是第1部分的扩展,实际上就是两边同时乘以了一个大于0的数:P(Hi(ω)ω)P(Hi(ω))\frac{P(H_i(\omega)|\omega')}{P(H_i(\omega))}。由于ωH(ω)\omega'\in H(\omega),所以分子P(Hi(ω)ω)=1P(H_i(\omega)|\omega')=1,只要信息集P(Hi(ω))>0P(H_i(\omega))>0,定理的第一部分和第二部分就是等价的。第二部分定理给出了我们一个考虑贝叶斯博弈的另一个思路,即在每一个信息集中,可以独立考虑如何进行动作/策略选择,信息集之间的策略选择是没有互相影响的。接下来我们介绍基于这个思想的代理人博弈。

可以将每一个局中人在每一个信息集下的决策是独立的,即在此信息集下设置一个代理人,由这个代理人来实现此信息集的条件期望最大化。将贝叶斯博弈转换为代理人博弈的原理是就是定理1的第二部分。

定义贝叶斯代理人模式博弈:

在贝叶斯博弈下,贝叶斯混合策略均衡和贝叶斯行为策略均衡是等价。

哈萨尼模型的描述结构与奥曼模型类似,使用的是类型而不是信息集与状态;二者分析的结果是一样。