两个人一人一枚硬币,如果同正,我给你三块,如果同负,我给你一块,如果一正一负,你给我两块,公平吗?

我的回答

先说结论:不公平。

因为如果你以 $3/8$ 的概率出正面,那么如果我出正面,我的期望收益是:

\[\frac{3}{8} \cdot 3 + \frac{5}{8} \cdot (-2) = -\frac{1}{8}\]

相反如果我出反面呢,我的期望收益是:

\[\frac{3}{8} \cdot (-2) + \frac{5}{8} \cdot 1 = -\frac{1}{8}\]

也就是说如果你选择了上述的出币策略,不论我怎么出,我的期望收益都是负的。

这个 $3/8$ 怎么算出来的呢?用 $(p, q)$ 表示我以概率 $p$ 出正面你以概率 $q$ 出正面。同时用 $U(p, q)$ 表示我的期望收益, $V(p, q)$ 表示你的期望收益。那么有没有一种稳定的组合 $(p^{*}, q^{*})$ 使得我们之间任何一个人都不可能单方面通过改变策略来提高期望收益呢,如果有,用数学的语言描述就是:

\[U(p^*, q^*) \geq U(p, q^*) \text{ for all } 0 \leq p \leq 1\] \[V(p^*, q^*) \geq V(p^*, q) \text{ for all } 0 \leq q \leq 1\]

亦即:

\[\begin{equation} \begin{split} &U(p^*, q^*) \\ &= max_p \{ 3pq^*+(1-p)(1-q^*)-2p(1-q^*)-2(1-p)q^* \}\\ &=max_p \{8pq^*-3p-3q^*+1\} \end{split} \end{equation}\] \[\begin{equation} \begin{split} &V(p^*, q^*) \\ &= max_q \{ -3p^*q-(1-p^*)(1-q)+2p^*(1-q)+2(1-p^*)q \}\\ &=max_q \{-8p^*q+3p^*+3q-1\} \end{split} \end{equation}\]

联立可以解得:

\[p^*=q^*=\frac{3}{8}\]

上述推导的解释就是:对于组合 $(3/8, 3/8)$ 而言,我和你都不会选择改变自己的策略,否则将有可能让各自的收益变得更低,如果我们足够理性与聪明。譬如我将策略改为全部出正面,那么显然你可以调整自己的策略为全部出反面,这样一来我的期望收益就降为 $-2$ 了。所以这样看来,即使当 $p^*=3/8$ 时我依然是输,这已经是能输最少的策略了。对于你这方面的分析也是类似的,就不多赘述了。

其实熟悉博弈论的人肯定早就已经看出来了,这个 $(p^{*}, q^{*})$ 实际上就是纳什均衡点,在这个点上我们双方都是采用的优势策略,大家都不能通过单方面改变自己策略使得收益得到提高了。