博弈论：每个人都能成为决策高手(蒋文华)_第13章　囚犯困境：没人愿意坐以待毙（1 / 1）_博弈论：每个人都能成为决策高手最新章节免费阅读无弹窗

囚犯困境的来源

囚犯困境又称“囚徒困境”，是博弈论中最为经典的理论模型之一。该理论模型有着广泛的现实应用，在管理学、经济学、政治学和社会学等众多学科中都有介绍和分析。但是，很少有人知道囚犯困境到底是怎么来的，本章的内容就给大家揭开这个谜底。

“二战”期间，美国的一批科学家和工程师参加军事工作，把运筹学运用于作战方面，获得优异成绩，颇受朝野重视。战后，为了继续这项工作，美国成立了著名的兰德公司。博弈论最初的那些大名鼎鼎的人物许多都与兰德公司有关，如冯·诺依曼、摩根斯坦、塔克、纳什、谢林等。

1950年2月，在兰德公司工作的梅里尔·弗劳特（Merrill Flood）和梅尔文·德莱歇（Melvin Dresher）做了一个有关利益分配的博弈实验。他们找来了两个好朋友，分别是加州大学洛杉矶分校的阿尔钦（A.Alchain）和兰德公司的同事威廉斯（J.D.Wlliams），让他们玩一个游戏，具体内容如表13.1所列。

表13.1　阿尔钦与威廉斯

这个游戏中每个参与者有两个选项：合作或背叛。从该博弈给出的4种结果看，对双方来说，都选择合作是最好的结果。然而每个人从自身利益考虑后发现，无论对方是否合作，选择背叛其实是对自己更好的选择，即背叛是占优策略。实验一共进行了100次的博弈，其中阿尔钦68次选择了合作，威廉斯78次选择了合作。

尽管实验的结果在兰德公司引起了广泛的关注，但大家都只觉得这是一个很有趣的实验，它并没有引起人们足够的重视。后来，威廉斯把这个博弈实验告诉了兰德公司的顾问——数学家塔克（A.W.Tucker），这个博弈实验给塔克留下了深刻的印象。

1950年5月，斯坦福大学心理学系请塔克给大家做一个有关博弈论方面的报告。在报告时，塔克想到了威廉斯告诉他的那个博弈实验，并把它乔装打扮了一番，以便更符合听众的知识背景。这就是后来广为流传的“囚犯困境”。塔克后来写信告诉威廉斯，在演讲中，他是这样说的：“两个被指共同犯罪的罪犯被警察分别关押着。每个人都被告知：（1）如果一个人招供而另一个人不招供，前者将被授以奖金，后者将被处以罚金。（2）如果两个人都招供，两个人都要被处以罚金。（3）同时，两个人都有充足的理由相信，如果两个人都不招供，两个人都将被无罪释放。”

囚犯困境的经典描述

这个关于囚犯的杜撰例子，经过几十年的传播和修改后，现在基本上是以下面的样貌呈现给大家的。

两个小偷（也称为“囚犯”）一起去盗窃，结果很不幸，被警察逮了个正着。然后，警察在两个独立的、不能互通信息的审讯室里分别对这两个小偷进行审讯。在这种情形下，两个小偷都可以做出自己的选择：选择坦白，供述以往的犯罪事实，或者选择抗拒，保持沉默。这两个囚犯都知道，如果他俩都保持沉默的话，警察只能以本次的犯罪事实定罪，判少量的徒刑，坐半年牢。警察为了激励他们招供，就告诉他们，如果他们中的一个人坦白，即告发他的同伙，那么他就可以被当场释放，而他的同伙则被加重处罚坐5年牢（坦白从宽，抗拒从严）。当然，如果这两个人都选择招供的话，就会按照以往的犯罪事实来定罪，既不会被奖励，也不会被加重处罚，每个人各坐3年牢。双方的损益矩阵如表13.2所示。

表13.2　囚犯困境

在“囚犯困境”的博弈中，囚犯们的最佳结果是双方都选择抗拒，每个人只坐半年牢。但（抗拒，抗拒）不是占优策略均衡，对每个囚犯来说，无论对方是否坦白，自己选择坦白才是占优策略，并构成一个占优策略均衡（坦白，坦白），由此每个人各坐3年牢。这个均衡结果，对囚犯们来说恰恰是最坏的结局。

在此需要给大家解释一下的是，所谓的占优策略是指无论其他参与者采取什么策略，对于某参与者来说，采用该策略的结果都优于其他策略。占优策略均衡则是指：由博弈中的所有参与者的占优策略组合所构成的均衡就是占优策略均衡。

该均衡结局并不会因为囚犯们事先口头约定“抓住后不坦白”而改变。我们甚至不妨将条件放宽，允许囚犯A和囚犯B在审讯室里一起待上10分钟，然后再决定是否坦白。很明显，双方交流的主旨就是建立攻守同盟，克服自利心理，甚至可能订立一个口头协议，要求双方都选择抗拒。然后，双方再单独被提审。我们不妨设想一下囚犯A的心理，他一定会认为，如果囚犯B遵守约定的话，则自己坦白就可获得自由；如果囚犯B不遵守约定的话，自己选择抗拒就会被判坐更长时间的牢，因此也应该选择坦白。也就是说，无论对方是否遵守约定，自己不遵守约定都是最好的选择。由此即便在双方已经有了口头约定的情况下，每个人都选择坦白依然是占优策略均衡。囚犯A甚至会预期到囚犯B也会有跟他同样的预期和选择（即不仅仅是“驴也是这么想的”，而且驴会预期“驴也是这么想的”），因而A选择违约，在心理上不会有单独背叛对方的道德负担。

进一步看，如果两个囚犯确实是第一次偷东西，他们会不会坦白说，他们以前还偷了很多东西？人们的第一反应是：不会！一个人怎么可能去冤枉自己。然而，我们要告诉你的是：会！

多年前，某电视台曾经播放过一个案例，3个小伙子被控**一名未满14周岁的少女，经审讯，3个小伙子都“坦白”了各自的犯罪事实。判决后，某省高级人民法院因案件存在一些疑点，发回重审，最后真相大白，这竟然是个假案和冤案。多亏某省高级人民法院法官发现了案件中的疑点，才没有导致悲剧的发生。人们的疑惑在于为什么小伙子们会选择“坦白”，那是因为，在案件的审理过程中，每个小伙子都发现，无论其他人是否选择“坦白”，自己选择“坦白”是一种占优策略。正如之前分析的囚犯困境，如果把囚犯的行动选项从坦白或抗拒更改为说谎（谎报自己的犯罪事实）和不说谎，那么每个人都选择说谎，就成了占优策略均衡，博弈结果如表13.3所示。

表13.3　说谎博弈

这样的结局多少让人有些沮丧，因为人们发现，现实中看到的均衡结果竟然可以跟事实的真相无关。是的，这才是“囚犯困境”要告诉我们的真相：很多时候，博弈的均衡结果和事实的真相无关，只取决于博弈的规则！你有没有一种细思极恐的感觉？

无处不在的囚犯困境

囚犯困境在现实中是无处不在的。在作者看来，环境污染、公地悲剧是囚犯困境，经济危机、价格战是囚犯困境，军备竞赛、竞技体育是囚犯困境，高考竞争、插队买票也是囚犯困境。

话说老鼠们一起开会讨论经常被猫捉住的问题。有只老鼠提议，如果给猫脖子上拴一个铃铛，那么，大家就不容易被猫捉住了，每只老鼠的性命就会更有保障。大家一致认为这是一个好主意。这时，有只小老鼠问道：“谁去给猫拴上铃铛呢？”是啊，谁愿意做那只出头鸟呢？

对于囚犯困境的原因，人们一般理解为参与人对于自身利益的追求。每个囚犯选择坦白的目的是自己能够少坐牢。如果每个囚犯不是从自己的利益考虑，而是能够为别人的利益考虑，哪怕自己多坐牢也要让对方先出去，那么无论对方选择什么，自己都会选择抗拒，最后的结果就是双方都选择抗拒，博弈的均衡结果是每个人都只坐半年牢。

囚犯困境之所以是一种困境，就在于如果每个人都想少坐牢，选择了坦白，结果是多坐牢；每个人都想多坐牢，选择了抗拒，反而可以少坐牢。博弈的结果违背了博弈的初衷，即事与愿违。

如果我们把囚犯困境的原因归结为囚犯对自身利益的追求（追求自身利益最大化），那么要想避免出现囚犯困境，就应该把囚犯们改造成“毫不利己、专门利人”的人，这几乎是不可能的。因此，表面上看是囚犯对自身利益最大化的追求导致了囚犯困境的产生。其实，真正的原因是：囚犯们在追求自身利益最大化的同时，以更多地损害他人利益为代价。换句话说，就是个人行为的负外部性。这里的关键，不在于囚犯们追求自身利益最大化出了问题，而在于通过什么方式追求自身利益的最大化。

表13.4给出了一个真正意义上的“坦白从宽，抗拒从严”的博弈结果，我称之为“囚犯乐境”。从表13.4中可以看出，两个人都坦白，每个人坐半年牢，两个人都抗拒，每个人坐3年牢，一个坦白一个抗拒，坦白的释放，抗拒的坐5年牢。从四种结果看，只要坦白一定从宽，抗拒一定从严，那么每个人的占优策略是，无论对方坦白还是抗拒，我都选择坦白，由此所形成的占优策略均衡是双方都坦白，这是一个对双方来说最好的结局，每个人只要坐半年牢。

表13.4　囚犯乐境

和表13.2中的四种结局相比，在表13.4中，每个囚犯选择坦白所带来的收益增加是以对方收益的较少减少为代价的。当B选择坦白时，A选择抗拒会坐5年牢，选择坦白会坐半年牢，所以，当A从抗拒变成了坦白时，可以让自己少坐4年半牢，而B会因此多坐半年牢，即从不坐牢变成了坐半年牢；当B选择抗拒时，A选择抗拒会坐3年牢，选择坦白就可以被释放，所以，A从抗拒变成坦白时，可以让自己少坐3年牢，而B会因此多坐2年牢，即从3年牢变成5年牢。这类似于，我采取行动A让自己得到10元的收益，会让你损失5元的收益。同样，你采取行动A也会让自己得到10元的收益，并让我损失5元的收益。那么，当我们都选择行动A，每个人都增加了5元收益。

在表13.2所描述的囚犯困境中，我采取行动A让自己得到5元的收益，会让你损失10元的收益。同样，你采取行动A也会让自己得到5元的收益，并让我损失10元的收益。那么，当我们都选择行动A时，每个人都损失了5元收益。

正是这两者之间的差别导致了在表13.2的描述中，每个人的理性选择导致了“囚犯困境”，在表13.4的描述中，每个人的理性选择并没有导致囚犯困境的出现，甚至出现了“囚犯乐境”。

当然，囚犯困境并不需要囚犯每次选择时都一定让对方遭受更多损失。但是，总损益比较一定是这样的：表13.5给出了另一种博弈结果，当B选择坦白时，A选择坦白相比抗拒会让自己少坐4年牢，B会因为A的选择多坐2年牢，但是，当B选择抗拒时，A选择坦白相比抗拒会让自己少坐1年牢，B却因此需要多坐5年牢。简单加总后，A选择坦白与选择抗拒相比可以少坐5年牢，B因为A选择坦白会多坐7年牢。相对于双方都抗拒，双方都坦白的结果是使各自都多坐了1年牢，总共多坐了2年牢。

表13.5　另一种囚犯困境

以上分析给了我们一个非常重要的启示：损人利己和损己利人本质上是一样的，是一个硬币的正反两面，在一方看来是损人利己的行为，在另一方看来就是损己利人的行为，损人利己和损己利人都有可能导致社会总福利水平的增加和减少。问题的关键是所损失的部分和所得到的部分哪个更多！由此，我们可以理解为什么不应该倡导未成年人勇斗歹徒的行为，也可以理解人们为什么会强烈谴责那些见死不救的行为（特别是在不会危及施救人员生命的情况下）。

如何走出囚犯困境

基于对囚犯困境的原因分析，人类要想走出囚犯困境，可以从以下三方面入手。

第一，要想走出囚犯困境，请努力修改游戏规则。之前的分析告诉我们，如果我们的游戏规则是真的，“坦白从宽，抗拒从严”，那么大家都坦白就不再是一种困境。环境污染也是一种囚犯困境，如果对环境污染征收高额的税收去补贴改善环境的行为，那么保护环境就是每个人的占优策略均衡。

第二，要想走出囚犯困境，请寻求道德的力量。德国著名哲学家康德曾言，有两样东西，我对它们的思考越是深沉和持久，它们在我心灵中唤起的惊奇和敬畏就会日新月异，不断增长，一是我们头顶浩瀚灿烂的星空，二是我们心中崇高的道德法则。这段话告诉我们，当一个人与社会中的其他人打交道时，必须遵守相应的道德准则。如果没有某种道德准则来约束人类的行为，那么人类社会和动物世界就没有了任何区别。

强烈的道德感会让每个博弈的参与者把对方的损益也看作自己损益的一部分。这样一来，你就不会为了让自己多赚1元钱而让他人损失10元钱了。总之，一个群体的道德感越强，越不容易出现囚犯困境。道德感让人类超越了动物世界的丛林法则。

第三，要想走出囚犯困境，请借助于历史的记忆。在重复博弈中，每个参与者都拥有报复或报答的机会。这意味着每个人在博弈的时候都需要考虑未来的收益，而不能只顾眼前的利益。就算没有重复博弈，人类也可以借助于历史记忆，并把对历史的记忆转化为对未来的想象。

本章小结

1. 囚犯困境描述的是这么一种博弈类型：每个人追求自己利益最大化的行为选择，导致双方利益最终被损害。

2. 囚犯困境的原因在于：每个人让自己利益增加，是以他人利益的更大损失为代价。

3. 囚犯困境给了我们一个非常重要的启示是：博弈的均衡结果和事实的真相无关，只取决于博弈的规则！

4. 走出囚犯困境的途径包括制度创新、道德教化、历史记忆和不断地重复博弈。

考考你

为什么说经济危机也是一种囚犯困境？