第17章 猎鹿博弈:怎么才能更好地合作(1 / 1)

猎鹿博弈(stag hunt game)

猎鹿博弈(stag hunt game)又称猎鹿模型(stag hunt model),源自法国启蒙思想家让-雅克·卢梭(Jean-Jacques Rousseau,1712—1778)的著作《论人类不平等的起源和基础》中的一个故事。两个人出去打猎,猎物为鹿和兔子。如果两个人独自去打兔子,一天下来可以打到2只兔子,如果选择去打鹿,这个时候就需要两个人共同合作才能成功打到鹿。一只鹿的价值相当于8只兔子,两个人平分以后相当于每个人打到了4只兔子。如果一个人选择打兔子,另一个人选择去打鹿,那么打鹿的人会一无所获,而选择打兔的人仍然能得到2只兔子。表17.1给出了猎鹿博弈的四种结果。

表17.1 猎鹿博弈

不难发现,在猎鹿博弈中首先有两个纯策略的纳什均衡,要么一起去打鹿,要么分头去打兔子。一个去打鹿,一个去打兔子肯定不是纳什均衡。如果出现这种情况,其中的某一方会选择与对方相同的行为:要么选择打兔子的一方跟着对方去打鹿,要么选择打鹿的一方转而选择去打兔子。这就如前面介绍的夫妻博弈一样,夫妻双方分开过年肯定不是纳什均衡,因为总会有一方调整自己的行为,选择与对方一起过年。

在猎鹿博弈中,除了两个纯策略纳什均衡以外,还有一个混合策略纳什均衡。根据上一章介绍的混合策略纳什均衡的计算方法,我们可以算出在刚才的这个猎鹿博弈中,双方各以50%的概率打鹿或打兔子是一个混合策略纳什均衡解,每个猎人的期望收益均为2只兔子。具体的计算过程就不再给出,相信读者能够自己计算出来。

根据刚才的计算结果,有几个问题值得我们进一步思考。

第一,两个猎人合伙打鹿一定是最优结果。但一方选择去打鹿的前提是他能够预期到对方会选择打鹿,而对方选择去打鹿的前提也是预期到另一方会去打鹿。也就是说,只有“双方都去打鹿”成为一个共同知识的前提下,最优结果才会如期出现,这也再次说明博弈中共同知识的重要性。

第二,对于每个猎人来说,选择去打兔子的收益是2只兔子,而选择去打鹿的收益要么是4只兔子要么是0。这意味着一旦选择去打鹿,就会冒着空手而归的风险。从刚才的计算得知,在混合策略纳什均衡的情况下,对方选择打鹿的概率是50%,因此选择去打鹿的期望收益也只有2只兔子。那么,对于任何一方来说,出于规避风险的考虑(在一般情况下,人总是厌恶风险的),还不如独自去打兔子。问题就在于,当双方都意识到这一点后,一起去打鹿反而变得不太可能了。

第三,为了让双方都有一个更好的结果,提前沟通就变得非常重要了。如果双方提前约定好一起去猎鹿,那么都选择猎鹿就是一个纳什均衡结果。此时,没有人愿意偏离这个结果而选择去打兔子。反之,出于规避风险的考虑,分头去打兔子反而是一个更能预期到的纳什均衡结果。我们之前已经谈到,沟通是有成本的。在这个例子中,如果沟通成本小于4只兔子,提前沟通能够提高双方总的收益水平,反之还不如分头去打兔子。

不难想象,如果两个猎人住在同一个村子里,他们出门之前会沟通约定一起去猎鹿。如果两个猎人住得非常远,要走大半天的山路才能碰到一起,那么,他们很可能就选择独自去打兔子了。从这点看,人类之所以选择居住在城市,城市的楼之所以越建越高,除了基于节约土地的考虑,更多是出于降低沟通成本的考虑。沟通和协调成本越低,人与人之间就越容易建立合作关系。

对比囚犯困境:沟通往往带来更好的结果

大家应该还记得在囚犯困境中,双方都选择抗拒比都选择坦白的结果更好。正如在猎鹿博弈中,猎人都选择猎鹿是比各自选择打兔子结果更好一样。但是两者最大的区别在于猎鹿博弈可以通过沟通协商引向新的更优的均衡结果,而在囚犯困境中即便事先约定都选择抗拒,双方也都存在选择坦白的最优策略(因为选择坦白能导致自身收益的增加)。在猎鹿博弈中,如果双方约定好了一起去打鹿,你选择违背约定去打兔子,只会导致自身收益的减少,而那个遵守约定的人会因此面临一个更大的损失。理性的你应该不会这么做,这也会让对方放心地去猎鹿。这再次印证了纳什均衡的本质特征在于,一旦我们有了一个共同的约定,没有人愿意去破坏这个约定。

在猎鹿博弈中,只要双方沟通好了,就一定能够带来更好的结果。囚犯困境则不行,它有严格占优策略(坦白),再怎么沟通也改变不了彼此的策略选择和均衡结果。要想改变结果,除非改变游戏规则。我在后面的内容中,会通过一个更有趣的案例告诉你,在博弈论中,沟通什么时候是有效的,什么时候是无效的。

考虑到混合策略的计算方法特别重要。通过下面这道计算题,请你再检验一下自己的计算能力和学习成果。表17.2给出了一个修改过的猎鹿博弈。这个博弈的不同之处在于如果两个人一起去打兔子比单独一个人去打兔子的收益要多1只(从之前的2只兔子增加到了3只兔子)。请问,在分散决策的情况下,每个猎人选择打鹿和打兔子的概率分别是多少?此外,为了避免出现分头行动的情况(一个打鹿,另一个打兔子),在这个博弈中,当双方的沟通成本小于多少时,双方在出发之前应该选择先沟通?

表17.2 另一种猎鹿博弈

多重纳什均衡

介绍完猎鹿博弈,不知道你是否会有这样的印象:在一个2×2(每个参与者两个选项共4种结果)的博弈类型中,有的只有一个纳什均衡,如囚犯困境中双方都坦白的均衡结果,以及智猪博弈中大猪按按钮小猪等着吃的均衡结果。如果只有一个纳什均衡,这个均衡就是我们在现实中能够预期到的。但是,在另外一些博弈中,会出现两个纳什均衡,如懦夫博弈、夫妻博弈和猎鹿博弈。这个时候,一定会给你带来某种困惑:如何预期现实中的实际状况,并指导自己的决策。

在很多博弈中,纳什均衡不止两个,甚至可能是无数个。如果两个纳什均衡都让你觉得无从预测的话,那么当一个博弈存在无数个纳什均衡的时候,你会更无从下手。

在课堂上,我会和同学们玩这样一个游戏。游戏规则是:请两位同学各给我发一个1~10元的红包,如果总金额刚好等于10元,这两位同学各奖励10元,多于或小于10元,钱被没收。附加的约束条件是双方不能有信息传递。你会发现,在这个游戏中,如果每个同学都是发整数金额的话,共有9个纳什均衡。如果考虑到还可以发1.01元的话,从1元到9元,共有901个纳什均衡结果。我在上课的过程中就曾经碰到过有同学发2.87元的。我当时很疑惑地问他为啥发2.87元,这位同学给我的回答是微信钱包里面一共就只有这么多钱了。他甚至很委屈地说:“我把微信里所有的钱都发给你了,还不行吗?”你可以想象,这次博弈的结果,那两个同学一定没有获得10元的奖励。因为,另外一个同学怎么都想不到他应该发7.13元才对。我想谁都想不到。

纳什均衡的概念为博弈论的发展奠定了坚实基础。后来的研究者们发现,困扰人们的往往不是一个博弈是否存在纳什均衡,而是当存在很多纳什均衡时应该怎么办。这就是纳什均衡的多重性问题。

谢林点:某个更容易被预期的均衡结果

谢林曾经在课堂上问一些学生,如果明天你要在纽约跟一个陌生人见面,你会选择什么时间和地点?他发现同学们的回答大多数是:中午12点在纽约的中央车站。不难想象,见面的时间可以是一天中的任何时候,哪怕是半夜12点,见面的地点也可以是全纽约的任何地方,如电影院、图书馆、酒店或某停车场等。但是,为什么大多数人首先想到的是中午12点的这个时间,以及中央车站的这个地方呢?这个地方是全纽约最知名的吗?

我自己也曾经在课堂上给学生们出过类似的题目。题目是:如果你是一位学生,你的一位朋友要到学校来找你,你们约好了明天中午12点半在学校见面,你会在以下三个地点中选择哪个地方等对方。

1. 校医院门口;

2. 图书馆楼下;

3. 学校大食堂一楼的教育超市门口。

当然,我的这个问题也不仅仅是想简单地了解一下同学们最喜欢选哪一个,因为我还增加了一条规则:如果你的选择地点是全班同学选择比例最高的,期末总成绩加2分;如果你的选择地点是全班同学选择比例居中的,期末成绩加1分;如果你的选择地点是全班同学选择比例最低的,期末成绩不加分。如果某两个选项全班的比例相同,则由任课老师决定两者的比例高低。

最后的统计结果是:96名学生中,4人选了校医院,76人选了图书馆,16人选了学校食堂。这是一个班的统计结果,另外一个班,我给了另外三个不同的选项:(1)行政楼的大门口;(2)临湖餐厅门口;(3)校医院边上的校门口。统计结果是:86名学生中,24人选了(1),11人选了(2),51人选了(3)。相较于前面班级,这个班在地点的选择上要稍微分散一点。

当一个博弈有很多均衡结果时,某个更容易被预期的均衡结果被称为“聚点均衡”。因为是谢林最早提出的,所以该理论也被称为“谢林点”(Schelling point)。本书的第9章“共同知识”中所提到的,韩国首尔机场大厅里写着“Meeting Point”这个会合点,其实就是一个非常典型的谢林点。我国深圳机场里面也能看到好几个“Meeting Point”,你去深圳机场的时候可以去找一下。

回到一开始的猎鹿博弈。为了收获更多的猎物,猎人们需要相互沟通和协调。协调的目的是在多个纳什均衡中找到某个均衡点。在这里,均衡选择依赖参与人之间对博弈拥有相同的信念。

这种相同的信念,可以是来自以往的博弈经验。试想,两个猎人之前一直是各自打兔子,结果有一次刚巧碰到了一起,并联合起来干掉了一只鹿,让双方的收益都比以前增加了一倍。那么,他们下次出门的时候,自然就会“不约而同”地去猎鹿,正如我们约会的时候特别喜欢说“老地方见”一样。

经验的积累会逐步转化为习俗、惯例、道德和文化等社会因素。猎人们的后代从父辈们总是一起去猎鹿的经验中,建立了一种群体的习俗和惯例。这种习俗和惯例具有强大的自我强化功能。那些选择偏离的猎人们发现自己每次打猎(打兔子)的收获都没有一起去猎鹿的猎人们的收益高,自然地,他们也就不再选择单独去打兔子了。

其实,这种通过协调找到均衡点的博弈不仅仅局限于猎鹿博弈、夫妻博弈这样的合作关系中,即便是之前介绍的懦夫博弈也同样如此。两个人同时站在一个门口要进去,这个门很小,每次只能进去一个人。这个时候为了避免出现碰撞,总会有人先进去,有人后进去。靠什么来协调呢?一般是靠文化、道德或习俗。比如女士优先、老人优先、地位高的人优先、站右手边的优先等。

除了习俗和文化,很多时候也需要靠法律。十字路口的“红灯停、绿灯行”就是一种硬性的法律规定。人们制定法律同样是为了更便捷地找到谢林点,从而降低协调成本。

在我看来,人类文明(技术和制度)的发展过程就是一个不断降低协调成本的过程。微信的巨大成功正是源于它极大地降低了人类的协调成本。中国努力发展5G技术,也是出于相同的考虑。

本章小结

1. 猎鹿博弈描述了合作比单干好的博弈关系。

2. 猎鹿博弈中沟通有用,囚犯困境中沟通没用。

3. 人类挤在城市的重要原因是可以降低人与人之间的协调成本。

4. 习俗、文化、道德、法律等都是为了低成本地找到谢林点。

5. 人类文明一定会朝着不断降低协调成本的方向演进。

考考你

在本章学习的最后,给你三个题目,看你能否准确回答。这是我在给学生们上课的时候玩的三个小游戏。你能预测出这三个游戏的谢林点吗?

第一个游戏:请两位同学发1~20元红包,如果总金额刚好等于19.99元,两位同学各得20元,多于或少于19.99元,钱被没收。当我请A和B分别发红包的时候,他们各自会怎么发?

第二个游戏:请三位同学发1~10元红包,如果总金额刚好等于10元,三位同学获得双倍红包返还,多于或少于10元,钱被没收。请问A、B、C三位同学会分别发多少元?

第三个游戏:请三位同学发1~10元红包,如果总金额刚好等于11.11元,三位同学获得三倍红包返还,多于或少于11.11元,钱被没收。请问A、B、C三位同学会分别发多少元?