序言:博弈论介绍
一、什么是博弈论?
博弈论(Game Theory) 是 相互依存 情况中的 理性行为 的数学建模。博弈由这几个要素构成:
- 玩家(Players):博弈的参与者
- 策略(Strategy):博弈玩家各自的操作
- 收益(Payoff):博弈玩家的收益,一般用矩阵来表示,在连续的时候也会写成函数。
- 信息(Information):博弈玩家知道的信息
- 理性(Rationality):博弈玩家是理性的,在竞争的情况下使自己的收益最大化
博弈论方法的本质——相互依存性 :每一方的收益不仅依赖于自己的策略,同时也依赖其他参与方的策略。
博弈论研究的目标——均衡 :因为博弈的参与方的策略改变会造成收益的变化,所以,各玩家会调整策略使自己的收益最大。在这样的情况下,一个“稳定”的策略选择是值得研究的。各个玩家选择了各自的策略之后,没有动机去改变当前的策略,就形成了稳定的状态。
定义是抽象的,还是用一些例子来找找感觉吧。
二、例子:囚徒困境
这个例子应该是众所周知。简要介绍一下:
两个共谋犯罪的人被关入监狱,不能互相沟通情况。①如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;②若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十二年;③若互相揭发,则因证据确凿,二者都判刑六年。
考察博弈的几个要素:
- 玩家:这两个犯罪的人,记为A、B
- 策略:二者的策略都是{揭发、沉默}
- 收益:用收益矩阵来表示
4. 信息:这种情况是完全信息的,即,每一参与者都拥有所有其他参与者的收益函数的准确信息。
剧透一下,囚徒困境的”均衡“,是二人都选择 揭发 的策略。
三、分类
- 根据玩家数量分为:1人,2人,多人博弈
- 根据“同时做决策”还是“轮流做决策”分为:策略式博弈(静态博弈)和扩展式博弈(动态博弈)、
- 根据信息的了解情况分为:完全信息博弈和非完全信息博弈
- 根据收益分为:零和博弈、非零和博弈
- 合作、非合作博弈
- 根据策略的数量分为:有限博弈和无限博弈
当然,上面的分类很杂,我们的课程主要讲了这几种:
- 完全信息策略式博弈
- 非完全信息策略式博弈
- 完全信息扩展式博弈
- 非完全信息扩展式博弈
- 重复博弈
四、小结
博弈论很有趣的,你会发现很多意想不到的结果。不过,由于博弈论假设每个玩家都是“理性”的,而现实生活却不一定是这样,因此,很多情况下博弈论给出的结论只是一个理论上的参考。
有一些有意思的小例子,算是智力小测试了,感兴趣可以看看:
- Nim博弈:有一堆硬币,总个数是N;有2个玩家,轮流取硬币。每次可以选择取1枚或2枚。取到最后一枚硬币的人获胜。请问先手有必胜策略还是后手?(和N有关)
- 海盗博弈:这个更有意思一些
- 有五个理性的海盗,P1、 P2、 P3 、P4 和P5,找到了100个金币,需要想办法分配金币。海盗们有严格的等级制度:P1 < P2 < P3 < P4 < P5。
- 海盗世界的分配原则是:等级最高的海盗提出一种分配方案。所有的海盗投票决定是否接受分配,包括提议人。并且在票数相同的情况下,提议人有决定权。如果提议通过,那么海盗们按照提议分配金币。如果没有通过,那么提议人将被扔出船外,然后由下一个最高职位的海盗提出新的分配方案。
- 请问,最终每个人分别会获得多少金币呢?
五、博弈论笔记目录
- 博弈论笔记(一):策略式博弈及其纳什均衡
- 博弈论笔记(二):混合策略博弈及其纳什均衡
- 博弈论笔记(三):占优策略均衡和理性化
- 博弈论笔记(四):连续博弈
- 博弈论笔记(五):相关均衡
- 博弈论笔记(六):非完全信息策略式博弈
- 博弈论笔记(七):扩展式博弈(Extensive Game)
- 博弈论笔记(八):求解子博弈完美均衡——单步偏移,后向归纳
- 博弈论笔记(九):二人零和博弈
欢迎大家提问题和建议~