博弈论的诡计(1)-第9章
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
多本来可能恢复的合作关系永久性断绝;还有一些程序把自己搞得太复杂,
总是试图通过某种机巧来占人便宜.尽管在与某些“傻”程序接触中得了高
分,但一旦碰到个性“刚烈”的程序就会搬起石头砸了自己的脚。而从最后
的总分来看,它们的小聪明得不偿失。
〃I
一报还一报:出来混迟早要还的
再做一次游戏,并把第一次的结果公开发表。这一次有62位科学家递交了改
进的程序,其中包括多个以上一次的策略为基础的改良品种。加上爱克斯罗
德自己的随机程序.63个程序又进行了一次竞赛。竞赛结果表明.在63个程
序的前15名里.只有第8名的哈灵顿程序是“非善意的”;在最后15名中,
只有1个总是合作的程序是“善意的”。而且,夺魁的仍然是一报还一报策略。
这种让几十位科学家的智慧相形见绌的神奇策略到底是怎样的呢?
说起来很简单,简单到有些不可思议:第一步合作,此后每一步都重复
对方上一步的行动:合作或背叛。如此简单的程序之所以反复获胜,是因为
它奉行了以其人之道还治其人之身的原则,并且用如下特征最有效地鼓励其
他程序同它长期合作:善良、可激怒、宽容、简单、不妒忌别人的成功。
·善良,是指它第一步总是向对方表达善意。它坚持永远不首先背叛对
方,开始总是选择合作,而不是一开始就选择背叛或主动作弊。
·可激怒,是指对方出现背叛行动时,它能够及时识别并一定要采取背
叛的行动来报复。不会让背叛者遣遥法外,
·宽容.是指它不会因为别人一次背叛。长时间怀恨在心或者没完没了
地报复.而是在对方改过自新、重新回到合作轨道时,能既往不咎地
恢复合作;
·简单.是指它的逻辑清晰.易于识别.能让对方在鞍短时间内辨识出
来其策略所在:
·不妒忌,是指它不耍小聪明,不占对方便宜,不在任何双边关系中争
强好胜。
其他各种策略输就输在上述五个方面做得不够好。在比赛结果中,所有
恶意程序(第一步背叛)都未进前10名;而某些程序太过好脾气。被对方背
叛之后不立即反应,结果鼓励菜些狡猾的程序反复占它的便宜;某些程序对
于过往关系的“好坏”太过执著,一旦被别人欺骗就很难宽容,结果使得很
多本来可能恢复的合作关系永久性断绝;还有一些程序把自己搞得太复杂,
总是试图通过某种机巧来占人便宜.尽管在与某些“傻”程序接触中得了高
分,但一旦碰到个性“刚烈”的程序就会搬起石头砸了自己的脚。而从最后
的总分来看,它们的小聪明得不偿失。
〃I
报还一报:出来混迟早要还的
在香港电影《无间道》有一句广为流传的台词:出来混.迟早要还的。
就是这句台词决定了剧中不少人物的命运,无论是黑道还是白道.警还是匪,
很多人物在以为自己胜券在握或进出生天时,猝不及防地死去.用一条命来
还了。
在博弈论中,“还”也是早晚的事,不过这不是什么宿命,而是“一报还
一报”策略的出发点和立足点,也是它的胜利基点。
地老天荒的胜利者
在博弈论中,我们可以得到很多有趣而富于哲理的启示,一报还一报策
略就是其中之一。它那种善意、宽容、强硬、简单明了的合作策略无论对个
人还是对组织的行为方式来说,都有十分重要的指导意义。
人们通过接受及回报.形成了社会生活的秩序。这种秩序即使在最无指
望的环境中,例如相互隔绝、语言不通的人群之间也是最易理解的东西。哥
伦布登上美洲大陆时.与印第安人最初的交往就开始于互赠礼物。有些看似
纯粹的利他行为,比如无偿馈赠,也通过某些间接方式,比如社会声誉的获
得,得到了回报。研究这种行为,对我们理解社会生活有很重要的意义。
爱克斯罗德通过进一步研究,发现合作的必要条件是:第一。关系要持
续,一次性的或有限次的博弈中,对局者是没有合作动机的;第二,对对方
的行为要做出回报,一个永远背叛的对局者是不会有人跟他合作的。
那么,如何提高合作性呢?
(1)要建立持久的关系。即使是爱情,也需要建立婚姻契约以维持双方
的合作。
(2)要增强识别对方行动的能力。如果不清楚对方是合作还是不合作。
就没法回报他了。
(3)要维持声誉。说要报复就一定要做到,人家才知道你是不好欺负的,
才不敢不与你合作。
(4)能够分步完成的对局不要一次完成.以维持长久关系。比如,贸易、
谈判都要分步进行,以促使对方采取合作态度。
∞I
飘譬鲨型
(5)不要嫉妒人家的成功。一报还一报正是这样的典范。
(6)不要首先背叛,以免担上罪魁祸首的道德压力。
(7)不仅对背叛要回报,对合作也要做出回报。
(8)不要耍小聪明,占人家便宜。
友善、有原则、宽容、简单、不妒忌朋友的成功,其实这些信条本来就
是我们生活中应有的为人处世之道。只是很少人会用博弈论模型的科学结论
作指导.将这些信条连接起来作为一种策略组合行事。
一报还一报的策略的目标,就是要同尽可能多的人形成井巩固互惠关系.
而且发展为信任和友谊。说得通俗点,就是尽可能多交朋友,并且鼓励这些
朋友向你提供帮助。为了达到这个目标,它的手段归结为一个词就是“回报”,
就是要对别人的各种行为进行相称的反应。有意思的是,这一策略不怕曝光.
而且恰恰需要别人知道你的基本原则,这样才能更好地实现台作双赢。
根据上述结论,我们可以回答很多交际方法问题.比如恋人如何博弈才
能走上红地毡。
每对恋人都要承受未来不确定性的折磨:如果双方都不变心,那是最好
的结局.在天成为比翼鸟,在地成为连理枝;如果都变了心.效果也不坏,
你走你的阳关道。我过我的独木桥;如果一方变了心,另外找到了更好的情
侣,另一方却还傻乎乎地忠贞不贰,那么,另觅新欢的一方是最幸福的.比
两人都不变心的结果还幸福.因为他找见了更好的情人;而被抛弃的一方是
最不幸的,比两人都变心的结果更为不幸,因为他承担的压力既来自于自己
的太不幸福,也来自于对方的太幸福。
人生发誓最多的时期大概就是恋爱时期。发什么誓呢?无非是什么非你
不娶非你不嫁一类誓言罢了.日的只有一个,就是让对方相信自己海枯石烂
此情不渝。他们希望彼此忠诚.从而换来一个好的博奔结果。但一对恋人相
互之间的忠诚,靠的不是这种情深爱笃的誓言,而是需要一定的博弈策略。
在恋爱这场不太好玩的“游戏”中,谁能熟练地驾驭博奔规则,谁就是爱情
的赢家。
很明显,胜利将总是属于那些采取善意、宽容、强硬和简单明了策略的
恋人们。反之,恶意的、尖刻的、软弱的、复杂的恋人们往往会两败俱伤。
I们
报还一报:出来混迟早要还的
所以,对于正在恋爱中的人们来说,获得幸福爱情的博弈原则应该是:
(I'善意而不是恶意地对待恋人。这个道理很简单了.无须多说。
(2)宽容而不是尖刻地对待恋人。幸福的恋人可能并不是忠贞不贰的,
当然也肯定不是见异思迁的,他们能够生活得愉快,关键是能够彼此宽容.
既宽容对力的缺点,甚至也宽容对方偶尔的不忠贞。而尖刻地对待彼此的恋
人.往往都不会幸福。
(3)强硬而不是软弱地对待恋人。就是要在我永远爱你的前提下.做到
有爱必报,有恨也必报;以眼还眼,以牙还牙;以其人之道。还治其人之身。
比如对恋人与其他异性的亲热行为,要有极其强烈的敏感与斩钉截铁的回报。
当然,每次发脾气都是有限度的,而且还要能宽容对方。
(4)简单明了丽不是山环水绕地对待恋人。爱克斯罗德的实验证明.在
博弈过程中,过分复杂的策略使得对手难于理解,无所适从,因而难以建立
稳定的台作关系。
事实上.在一个非零和的环境里,“城府深沉”、“兵不厌诈”、“揣着明白
装糊涂”往往并非上策。相反,明晰的个性、简练的作风和坦诚的态度倒是
制胜的要诀。要让恋人明白你说的是什么.切忌让对方猜来猜去的,造成误
会。至于剩下的时间嘛,还是有更多更快乐的事情可以做!
本来应该提防恋人背叛才能在恋爱中获胜的博弈,因为有了不绝于耳的
爱情誓言,更因为有了对善意的、宽容的、强硬的、简单明了的原则的把握
和利用.人世间才有了很多地老天荒的爱情和自首偕老的婚姻。
向合作进化的棘轮
一报还一报的策略在静态的群体中得到了很好的表现,那么,在一个动
态的进化的群体中,这种合作能否产生、发展和生存下去呢?群体是会向合
作的方向进化,还是向不合作的方向进化?如果大家开始都不合作,能否在
进化过程中产生合作呢,
为了回答这些疑问,爱克斯罗德用生态学的原理来分析合作的进化过程。
他假设对局者所组成的策略群体是一代一代进化下去的.进化的规则包括:
博彝论的靖铲
(1)试错。人们在对待周围环境时,起初不知道该怎么做,于是就试试
这个,试试那个,哪个结果好就照哪个去做。
(2)遗传。一个人如果合作性好.他的后代的合作基因就多。
(3)学习。比赛过程就是对手相互学习的过程,一报还一报的策略好,
有人愿意学。
按这样的思路,爱克斯罗德设计了一个实验,假设63个参与者中.谁在
第一轮中的得分高,他在第二轮的群体中所占比例就相应增加。这样.群体
的结构就会在进化过程中改变,由此可以看出群体是向什么方向进化的。
实验结果很有趣。一报还一报原来在群体中占1,63,经过1000代的进化,
结构稳定下来时,它占了24%。因此,以合作系数来测量,群体是越来越合
作的。这个结论还可以引申为:共同演化会使一报还一报的合作风格在这个
充满背信弃义的世界上蔚然成风。
另外,有一些程序在进化过程中消失了。其中有一个值得研究的程序,
即原来前15名中唯一的不善良的哈灵顿程序,它的对策方案是:首先合作,
当发现对方一直在合作,它就突然来个不合作;如果对方立刻报复它,它就
恢复合作.如果对方仍然合作.它就继续背叛。这个程序一开始发展很快,
但等到与一报还一报不同的程序开始消失时.它就开始下降了。
由此,爱克斯罗德的试验除了表明群体是越来越合作的之外,还揭示了
一个哲理:一个策略的成功应该以对方的成功为基础。
一报还一报在两个人对局时.得分不可能超过对方,最多打个平手,但
它的总分最高。它赖以生存的基础是很牢固的,因为它让对方得到了高分。
哈灵顿程序就不是这样.它得到高分时.对方必然得到低分。它的成功是建
立在别人失败的基础上的,而失败者