转载自得到APP《合作的进化》| 徐玲解读 - 创造自我，追求无我 [温钟浩]

关于作者
罗伯特·阿克塞尔罗德，著名的行为分析与博弈论专家，美国科学院院士。他擅长于运用计算机模型来分析社会科学问题，是这个领域的权威学者。
关于本书
本书是研究合作问题领域的最重要著作之一。作者根据博弈论原理设计了一系列计算机仿真游戏，以此来探究，在人人都自私自利的情况下，合作是如何产生的？产生之后又是如何维系的？著名进化生物学家、《自私的基因》作者理查德·道金斯认为，对于人类社会的进步而言，这本书比《圣经》更重要。
核心内容
一、这个游戏到底是怎么玩儿的；二、这个游戏给了我们什么重要启示；三、这个游戏在多大程度上反映了真实世界？

你好，欢迎每天听本书。这期音频为你解读的是《合作的进化》，一本博弈论领域的必读经典。这本书非常重要，它深入探讨了一个事关人类社会存在的根本问题：假设人人都自私自利，合作是如何产生的？产生之后又是如何维系的？
你有没有想过这样一个问题：在人类最初的社会制度出现之前，人是怎样生活的？在中国古人的想象中，那是一个人人友爱和睦的“大同”社会，类似于陶渊明笔下的世外桃源。当然也有截然相反的想象，比如英国政治哲学家霍布斯就认为，原始的自然状态奉行丛林法则，人与人之间不存在信任和友谊，每个人都自私自利、各自为政、一片混战，是“一切人对一切人的战争”。霍布斯说，在这种情况下，合作不可能在个体之间自发产生，而只能通过一个强有力的政府来建立。真的是这样吗？
为了搞清楚合作究竟是如何产生的，本书作者根据博弈论原理设计了一系列计算机仿真游戏。游戏结果出乎所有人意料：那些更愿意合作、从不首先背叛的“好人策略”全面胜利，而那些总想着时不时背叛一把来捞取好处的“坏人策略”都没好下场。也就是说，坏人最终占不到便宜，只有好人才能够笑到最后。这与我们大多数人的直觉刚好相反。
游戏结果证明了，即使在霍布斯想象的丛林竞争中，也只有合作策略才是最优生存策略，人们仅仅为了个人利益也会自发地展开合作。这就使得合作机制不仅可以在竞争对手之间自发形成，而且能够长期维持，甚至是不断进化。这就是书名《合作的进化》的含义。
本书作者阿克塞尔罗德，是著名的博弈论专家、美国科学院院士。他这本《合作的进化》一出版，就成了研究合作问题的最重要著作。著名进化生物学家、《自私的基因》作者理查德·道金斯甚至认为，对于人类社会的进步来说，《合作的进化》比《圣经》更重要。
好了，介绍完这本书的基本情况，下面，我从三个方面来给你详细介绍，阿克塞尔罗德设计的这个博弈游戏的来龙去脉：第一，这个游戏到底是怎么玩儿的；第二，这个游戏给了我们什么重要启示；第三，这个游戏在多大程度上反映了真实世界？
第一部分
下面我们就先来说第一点，这个博弈游戏到底是怎么玩儿的？
一说到博弈论，我们立马就会想到经典的“囚徒困境”模型。囚徒困境是这样的：两个犯人被抓，如果双方都招供，证据确凿，则两人各判3年；如果一方招供一方不招，那么招供的一方将功赎罪立马释放，不招的一方判5年；如果双方都打死不招，则证据不足，各判1年。
为了方便计算，游戏中把这个模型简化为：如果两个人相互合作，各得3分；如果两个人相互背叛，各得1分；如果一方合作一方背叛，那么合作者得0分，背叛者得5分。可以看出，暗算别人的好处最大，但是如果两个人都要暗算对方，那么双方都无利可图。游戏中，每个人都根据自己的利益计算来选择是合作还是背叛。
阿克塞尔罗德设计的游戏，就是用计算机模拟囚徒困境，而且是多次重复博弈。为了保证游戏的高水平，他精心挑选了14个精通博弈论的专家，邀请他们将自己的博弈策略编写成计算机程序提交。这些专家都非等闲之辈，他们来自于数学、心理学、经济学、政治学、社会学等多个学科领域，据说其中还包括美国前国务卿基辛格。
专家们提交的博弈策略五花八门，但总的来说可以分为两类：一类是好人策略，它们更愿意合作，从不首先背叛对方；另一类是坏人策略，它们总是琢磨着时不时地背叛一把，来捞取更大好处。除此之外，阿克塞尔罗德还加入了一个随机策略，它在每个回合中都随机选择是合作还是背叛。
这15个策略在计算机上进行一对一的循环赛，整个循环赛重复了5次，一共是12万个回合，猜猜看，在12万个回合的大混战之后，哪类策略最终胜出了？结果连阿克塞尔罗德自己都不敢相信：得分排名前8位的是清一色的好人策略，而6个坏人策略和1个随机策略排在最后7位。也就是说，好人大获全胜，坏人全线溃败，这简直就是童话一般的美好结局。
也许是对这个结果不太放心，阿克塞尔罗德随后又组织了第二轮比赛。这次的参赛人数扩大到了62人，每个参赛者都知道第一轮比赛的结果，可以从中吸取经验教训，并且改进这些策略。加上随机策略，这一次有63个策略参赛，进行了上百万个回合的混战，结果怎样呢？和第一轮的情况非常相似，好人策略又一次获得了压倒性优势：得分排名前15位中只有一个坏人策略，排在第8；而得分排名最后15位中只有一个好人策略。
现在的问题是：“好人得好报”的结果究竟是怎么来的？在深入分析比赛数据后，阿克塞尔罗德揭开了其中的缘由：好人策略之所以表现突出，不是因为它们在面对坏人策略时特别能打，而是因为它们能够抱团取暖，如果好人策略遇到好人策略，就能从头到尾始终保持合作，于是都能拿高分。相反，如果坏人策略遇到坏人策略，就总是相互背叛，结果双输。要是好人策略遇到坏人策略呢？虽然一开始坏人策略占优，但一旦好人策略反应过来开始反击，坏人策略也就无利可图。这些情况综合起来，还是好人策略更占优势。
除此之外，还有一点更令人惊讶，在这两轮比赛中夺冠的，是同一个好人策略，叫做“一报还一报”。它的行动原则非常简单，也就是：第一步选择合作，从第二步开始，重复对手上一步的动作，对手合作，我也合作；对手背叛，我也背叛。这一策略看上去简单粗暴，没有什么心机可言，其实非常高明。
首先，它是善良的，它一开始就选择合作，而且绝不会先背叛对方。其次，它是不好欺负的，如果对手背叛，它会马上用背叛来反击，这就让对手不敢轻举妄动。第三，它是宽容的，如果对手恢复合作，那么它也恢复合作，既往不咎。第四，它的行为模式是清晰的，简单明了，别人一看就懂，知道从它身上占不到便宜，只能选择合作。阿克塞尔罗德认为，这四大优点，也就是善良、不被欺负、宽容和清晰，正是“一报还一报”策略能够连续夺冠的根本原因。
我们通过对比其他几个参赛策略，就能看出这四大优点的重要性。比如，在第一轮中得分最低的好人策略，也就是排名第8位的弗里德曼策略。同样是第一步选择合作，而且不首先背叛，但是，只要对方出现一次背叛，它就永远以背叛来报复，绝不宽容，这种过于小心眼的反应导致了它在好人策略中得分最低。从这可以看出，宽容性是非常重要的，因为一旦出现背叛，只有具备宽容性的策略才能重新建立起合作。
但是反过来说，过于宽容、太好说话的策略也有问题，因为有些坏人策略就是专门欺负这种软骨头的。比如有个很有实力的坏人策略叫做“唐宁策略”，它的决策规则非常复杂，通过不断试探对方的底线来调整自己的方案。如果发现对方睚眦必报，它就乖乖合作；而如果发现对方很好说话，它就试着增加背叛的次数，或者干脆合作与背叛轮流出现。于是，很多好人策略在与唐宁策略相遇时都吃了大亏。从这儿可以看出，“一报还一报”策略的有仇必报特性相当重要，不给坏人可乘之机。
以上就是为你讲述的第一个重点，这个博弈游戏到底是怎么玩儿的。其实就是在计算机上模拟囚徒困境，而且是多次重复博弈。在两轮比赛中好人策略都大获全胜，而冠军是一个非常简单的“一报还一报”策略，它拥有四大优点，也就是善良、不被欺负、宽容和清晰。
第二部分
显然，专家们做游戏并不是为了好玩儿，而是用这个游戏来模拟现实世界中人们的真实博弈。人人都渴望在现实世界中成为赢家，那要如何才能赢呢？这个游戏给我们带来了一些重要启示。这就是接下来要讲的第二个重点。
前面说了，冠军策略“一报还一报”拥有善良、不被欺负、宽容和清晰这四大优点。我们想在现实博弈中获胜，肯定要向冠军策略学习。对此，阿克塞尔罗德给了我们四点具体建议：第一，不要嫉妒；第二，不要首先背叛；第三，赏罚分明；第四，不要耍小聪明。下面我们就一条一条来看。
首先是不要嫉妒。参加这个游戏最重要的一点，就是要时刻记住，这和下围棋、象棋不一样，它不是一个零和博弈，也不是一次性博弈。获胜的关键不是靠打压对方，而是要通过创造长期合作来实现共赢。具体在每局中谁拿多一点、谁拿少一点，其实并不重要，没必要斤斤计较。
一个有力的证据就是，冠军策略“一报还一报”在比赛中，没有一个回合是比对手多得分的。它的策略决定了它只能和对手拿一样多，或者比对手少。但是十几万个回合下来，它的累计得分却是最多的。这很好地说明了，自己想要成功，就要首先帮助别人成功。
第二条建议是不要首先背叛。在游戏中，从不首先背叛的是好人策略，总琢磨着时不时背叛一把的是坏人策略。坏人策略看似机关算尽，在某些具体回合中也能暂时占优，但同时，坏人策略被报复的次数也最多。出来混总是要还的，最后一算总账，坏人策略是最大输家。所以这条建议也可以简称为“不作恶”。
第三条建议是赏罚分明。也就是说，别人合作就要以合作来回报，别人背叛就要以背叛来反击，千万不可以和稀泥、做滥好人，否则就会被坏人当软柿子捏，吃亏的是自己。
第四条建议是不要耍小聪明。游戏中有一个现象很有意思：第一轮比赛结束之后，大家发现“一报还一报”虽然夺冠，但它并不是完美无缺的，实际上还有改进的空间，比如说，它对于随机策略过于友善。随机策略的每次选择都是随机的，与对手的行为无关，所以面对随机策略时，当然是每次都背叛才是最明智的。有时候，“一报还一报”又显得过于严厉，比如当两个“一报还一报”策略相遇时，一次偶然的背叛会让双方陷入相互报复的循环，进入锁死状态，无法恢复合作。
针对“一报还一报”的这些弱点，第二轮的参赛选手对它做了不少改进，很多参赛策略其实是原始“一报还一报”策略更加复杂的升级版，但万万没想到的是，在第二轮比赛中，仍然是原始版“一报还一报”策略夺冠，那些精心设计的升级版统统没有达到预期的效果。这是为什么呢？
阿克塞尔罗德认为，这一方面是因为，你的规则越复杂，就意味着你出现漏洞的可能性越大；另一方面，过于复杂的决策规则可能让对手看不懂，而误以为你是随机策略。前面说了，大家面对随机策略时，最明智的选择就是永远背叛，这显然是你最不愿意出现的情况。
这里也可以看出，零和博弈游戏与阿克塞尔罗德游戏有一个非常重要的区别。零和博弈的意思是，如果你有利益，别人就一定有损失，双方不可能合作。玩零和博弈时，你将自己的战略意图隐藏得越深，就容易获胜。而玩阿克塞尔罗德游戏则相反，你的行为规则越简单越好，别人一看就懂，知道该怎样与你合作，你的赢面才越大。现实世界中的博弈并不是零和博弈，而是更接近于阿克塞尔罗德游戏，所以像郭靖、阿甘、许三多这样的人，始终用最简单的策略来处世，反而能成为最大赢家。
这就是阿克塞尔罗德给我们的建议：不要嫉妒、不要作恶、赏罚分明、不耍小聪明。除此之外，还必须注意一点，阿克塞尔罗德游戏有一个前提条件，就是博弈的回合数要足够多，未来的利益要足够重要。这一点特别关键，它是包括“一报还一报”在内的好人策略能够胜出的必要条件。也就是说，合作的基础并不是我们通常认为的信任、友谊或者利他主义等等，而是长久的利益关系。如果只是一锤子买卖，完全不用考虑未来，或者未来利益相对于眼前利益不那么重要，那么就不可能建立起稳定的合作模式。
从这里我们也可以得到一条重要启示：如果想要促成合作，我们就要想方设法增加未来的影响力，让未来的合作利益尽可能地重要。具体办法是，一方面要把合作周期拉长，与对方建立起长久的利益关系，另一方面要增加互动的频率，大家抬头不见低头见，就更容易建立起合作。比如在商务合作时，双方可以签订一个尽可能长期的大合同，但是验收和付款要划分成很多次。总之，只要未来足够重要，合作就比背叛更划算，合作才能稳定持续。
好了，以上就是为你讲述的第二个重点，这个游戏给了我们哪些重要启示。我们想要在现实博弈中获胜，就要向冠军策略“一报还一报”学习，记住四条重要建议：不要嫉妒、不要作恶、赏罚分明、不耍小聪明。同时，要增加未来的影响力，确保未来的利益足够重要，合作才能稳定持续。
第三部分
那么，是不是掌握了这几条建议，我们就可以在现实博弈中所向披靡、成为人生赢家了呢？肯定没这么简单。阿克塞尔罗德游戏的结果非常正能量，好人总是可以笑到最后。问题是，现实真的这么乐观？这个游戏到底在多大程度上反映了真实的世界？这就是接下来我们要讲的第三个重点。
先来说说这个游戏模拟真实世界比较成功的地方。首先，它假设每个参与者都是自私的，无论是合作还是背叛都是利益权衡的结果，不需要预设道德前提，也不需要信任关系。其次，不需要一个中央权威来干预决策，所有选择都是个人的自主决定。第三，参与博弈的策略五花八门，有的理性有的疯狂，有的投机有的保守，有的善良有的阴险，有的强硬有的软弱，总之你能想得到的所有策略都可以拿来参赛。第四，博弈的回合数足够多，也就意味着未来足够重要。
可以说，这几点都很好地模拟了现实世界的情况，是游戏比较成功的地方。那么，这个游戏有没有与现实不太符合的地方呢？我们有个最直观的感受，就是游戏的结果似乎过于美好了，让人有点儿不敢相信。
事实上，阿克塞尔罗德还推演出了一个更乐观、更加不可思议的结论。他认为，随着时间的推移，好人会越来越多，合作越来越牢固，而坏人会被自然淘汰，基本灭绝。这就是他所说的“合作的进化”，他是用生物演化的方式来模拟“合作的进化”过程：假设在第一轮比赛中，A 策略的得分是 B 策略的两倍，这意味着 A 策略的生存优势是 B 策略的两倍。根据适者生存、优胜劣汰的道理，在第二轮比赛中，就要有更多的 A 策略参赛，它的数量是 B 策略的两倍。那么，这样进行1000轮比赛，也就是进化1000代，会发生什么呢？
计算机结果显示，1000代之后，所有的坏人策略都灭绝了，存活下来的全部是好人策略，而且仍然是“一报还一报”占绝对优势。阿克塞尔罗德从中得到的启示是：合作的进化是不可逆转的。也就是说，合作一旦建立，优胜劣汰的机制也开始发挥作用。人们发现好人策略可以在竞争中占优，那么，大家为了自身利益着想，都会争当好人。久而久之，社会上的好人就越来越多，坏人自取灭亡，最终灭绝，而且整个过程一旦启动就不会被逆转。
很显然，这个过于乐观的结论是与现实情况不相符合的。人类社会演化至今，早就不止1000代了，不但坏人没有灭绝，而且很难说到底是好人占优还是坏人占优。那么，问题到底出在哪里？是阿克塞尔罗德的推演出现了漏洞吗？是的。这个漏洞很隐蔽，一般人发现不了，但逃不过高手的眼睛，比如著名哲学家赵汀阳。
赵汀阳指出，阿克塞尔罗德游戏的一个最大漏洞，是它的“杀不死”假定。就是说，游戏中没有人能够消灭对方、让对方完全出局，每个人永远有卷土重来的机会。这等于是严格限制了坏人作恶的破坏力，让好人自带主角光环，无论怎样都不会挂掉。这显然与现实不符，现实中的背叛往往是一击致命的，失败者永远没有机会翻盘。
鉴于这种情况，可以稍微调整一下游戏规则：一旦某个策略累计被单方背叛N 次，也就是得了 N 次零分，那么这个策略就出局了，彻底退出比赛。这样一来，游戏结果就会有很大的不同。不太可能出现朝好人一边倒的情况，而更可能是好人策略和坏人策略各有胜负。
除此之外还有一些问题。比如，游戏中每个人的所作所为一目了然，一旦背叛就可能遭到报复，而现实中很多时候是“暗算”，并不是每次背叛都能被发现；再比如，每个参赛者采用什么策略，是程序一开始就设定好的，在整个比赛中不能更改，好人即使吃亏也只能硬扛着，而实际情况是，一旦有好人遭到背叛而挂掉，或者坏人做坏事却没被发现，就可能导致很多好人“弃明投暗”，转向坏人策略，这样坏人就会越来越多，和阿克塞尔罗德的结论刚好相反。
当然还可能出现好人和坏人的实力不均等，导致好人实际上无法做到“一报还一报”等情况。这些事实综合起来，使得社会的真实演化过程，并不是像阿克塞尔罗德所说的那样，朝着合作的单方向进化，而是一个波动循环。如果回到霍布斯想象的自然状态，假设一开始人人都是坏人，作恶就占不了什么便宜，因为相互背叛的结果是每个人收益都很低。这时候如果出现一些好人，哪怕数量相当少，但他们彼此合作能获得稳定的收益，这比坏人更有优势。以阿克塞尔罗德的话来说，就是好人小集体能够“侵入”坏人集团。
如果到这里为止，社会的确是朝着合作的方向进化的，但是之后会发生什么呢？当好人越来越多、坏人相对减少，这意味着，坏人之间彼此碰面、相互伤害的几率就变小了，而坏人遇到好人的几率变得更高，坏人通过单方背叛来捞一把的成功率就大大提升。大家看见当坏人有利可图，就纷纷抛弃好人策略转而当坏人，于是合作的进化就开始逆转，合作越来越少，背叛越来越多，又回到霍布斯所说的自然状态。
所以说，社会的真实演化进程并不是单向的，而是在这两种情况之间来回波动。合作与背叛的选择，是个动态博弈的过程，无论是好人策略还是坏人策略都不可能获得一劳永逸的胜利，这是我们应该要看到的。
好了，以上就是为你讲述的第三个重点。这个游戏模拟现实世界比较成功的地方在于，它不需要预设道德前提，不要中央权威的干预，参与的策略多种多样，博弈的回合数足够多等等。但是它也存在一些漏洞，比如“杀不死”假设，以及认为合作是单向演化的。
总结
这本书的精华内容就给你讲到这儿，下面来简单总结一下为你分享的内容。
第一，这个游戏其实就是在计算机上模拟囚徒困境，而且是多次重复博弈。在两轮比赛中好人策略都大获全胜，而冠军是一个非常简单的“一报还一报”策略，它拥有善良、不被欺负、宽容和清晰这四大优点。
第二，这个游戏给我们的启示是，如果我们想要在现实博弈中获胜，就要向冠军策略“一报还一报”学习，记住四条重要建议：不要嫉妒、不要作恶、赏罚分明、不耍小聪明。同时，要增加未来的影响力，确保未来足够重要，合作才能稳定持续。
第三，这个游戏模拟现实世界比较成功的地方在于，它不需要预设道德前提，不要中央权威的干预，参与的策略多种多样，博弈的回合数足够多等等。但是它也存在一些漏洞，比如“杀不死”假设，以及认为合作是单向演化的。
最后，我再谈一点感想。合作问题可以说是人类社会的头等大事，如何才能让人类社会实现合作最大化、冲突最小化，让人类走出“囚徒困境”的牢笼，一直是古今中外的思想家们苦苦探索的问题。阿克塞尔罗德游戏的结论在某种程度上和儒家思想是相通的，都相信“仁者无敌”。
游戏结果表明，在一定条件下，做好人能够获得显著的生存优势，这就给了我们希望，人类社会建立起永久合作是有可能的。但另一方面，我们也不能过于乐观，游戏与现实还是存在一定差距。光靠个人的利益博弈，还不足以让破坏合作的坏人坏事彻底消失，制度建设、道德建设也仍然是不可或缺的。
撰稿：徐玲
脑图：摩西
转述：宝木

转载自得到APP