论“囚徒困境”与解决方式
发布时间:2023-05-13 15:05:35浏览次数:81论“囚徒困境”与解决方式摘要:博弈论就是研究互动决策的理论,主要感兴趣的是其胜负主要取决于谋略智能的对抗性局势,而囚徒困境则博弈论中的经典模型之一。该模型深刻揭示了个人理性与集体理性的冲突。在囚徒困境中,每个人都会根据自己的利益做出决策,但是最后的结果却是集体遭殃。文章以博弈论中的经典模型“囚徒困境”为工具分析解剖日常生活工作中的若干热点和难点问题,并提出相应的破解策略。关键词:博弈论 纳什均衡 囚徒困境 决策1994 年,美国经济学家约翰·纳什(John Nash)与其他两位博弈理论家共同赢得了经济学界的最高荣誉诺贝尔经济学奖。这标志着纳什均衡(Nash equilibrium)理论得到了学术界的肯定。一、纳什均衡相关理论阐述(一)纳什均衡的内涵纳什均衡,又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名。纳什均衡就是博弈中每个博弈方,各一个策略构成的一个策略组合。其中每个博弈方的策略,都是根据针对所有其他博弈方的策略构成的,并且是最佳反应。所谓“最佳反应”,指的是该策略带给采用它的博弈方的利益或期望利益,大于或至少不小于其他任何策略能够带来的利益。在经济学中,人们给纳什均衡是这样定义的:“在给定它的竞争者的行为以后,各厂商采取它能采取的最好行为。(二)纳什均衡分类纳什均衡可以分成两类:“纯战略纳什均衡”和“混合战略纳什均衡”。要说明纯战略纳什均衡和混合战略纳什均衡,要先说明纯战略和混合战略。所谓纯战略是提供给玩家要如何进行赛局的一个完整的定义。特别地是,纯战略决定在任何一种情况下要做的移动。战略集合是由玩家能够施行的纯战略所组成的集合。而混合战略是对每个纯战略分配一个机率而形成的战略。混合战略允许玩家随机选择一个纯战略。混合战略博弈均衡中要用概率计算,因为每一种策略都是随机的,达到某一概率时,可以实现支付最优。因为机率是连续的,所以即使战略集合是有限的,也会有无限多个混合战略。当然,严格来说,每个纯战略都是一个“退化”的混合战略,某一特定纯战略的机率为 1,其他的则为 0。故“纯战略纳什均衡”,即参与之中的所有玩家都玩纯战略;而相应的“混合战略纳什均衡”,之中至少有一位玩家玩混合战略。并不是每个赛局都会有纯战略纳什均衡,例如“钱币问题"就只有混合战略纳什均衡,而没有纯战略纳什均衡。不过,还是有许多赛局有纯战略纳什均衡
(如协调赛局,囚徒困境和猎鹿赛局)。甚至,有些赛局能同时有纯战略和混合战略均衡。二、囚徒困境分析1950 年,由就职于兰德公司的梅里尔·弗勒德(MerrillFlood)和梅尔文·德雷希尔(MelvinDresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:甲、乙因盗窃被警方,警方怀疑他们有抢劫行为但却没有确凿证据可以判他们犯了抢劫罪,除非有一人供认或两个人都供认。不过,即使两个人都不供认,也可判他们犯盗窃物品的轻罪。于是警方对两名嫌疑犯隔离审查,并向双方提供以下相同的选择:若一人供认并作证检控对方,而对方保持沉默,此人将即时获释,沉默者将判监 10 年。若二人都保持沉默,则二人同样判监 1 年。若二人都供认并互相检举,则二人同样判监 5 年。将上述四种选择用表格形式表达如表 1在囚徒困境中,假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:若对方沉默、背叛会让我获释,所以会选择背叛。若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。二人面对的情况一样,所以二人的理性思考都会得出相同的结论选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中,双方参与者都背叛对方,结果二人同样服刑 5 年。这场博弈的结果,显然不是顾及全体利益的最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑 1 年,总体利益更高,结果也比两人背叛对方、判刑 5 年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,二人的判决结果均比合作为高,总体利益较合作为低。这就是“困境”所在。囚徒困境通常被看作个人理性冲突和集体理性冲突的经典情形。因为在囚徒困境中,每个人
都会根据自己的利益做出决策,但是最后的结果却是集体遭殃。现实中的许多问题和现象,正是囚徒困境的翻版。三、生活中的囚徒困境破解策略我们在日常生活中经常看到公交车不遵守交通规则,横冲直撞,公交车肇事也时有耳闻。这是为什么?在目前公交系统不发达,公交运力紧张的局面下,又有所谓“公交优先”的倾斜政策 ,公交车司机与交警之间的“博弈”中,公交车司机处于优势地位,而交警处于劣势地位。当公交车司机遵守交通规则时,交警自然不能也不应处罚;否则,交警就错了,当公交车司机不遵守交通规则时,交警如果处罚,就会影响公交车上大量乘客的利益,而且,如果发生大量乘客投诉的话,交警的领导还很可能批评交警不会人性化执法;而如果不处罚,就会纵容公交车司机。因此 ,在实际生活中,一旦公交车司机违章,交警就处于两难境地,往往因为顾忌乘客的利益而不得不放过违章公交车。与此同时,公交司机则相对轻松:既然违章了,受罚是应该的,一点也不冤枉 ;而如果被放过,那就赚了。在这种轻松心态下,一旦面临交警的处罚要求,就会故意与交警胡搅蛮缠,拒绝受罚,以拖延时间,从而引发车上乘客对交警的不满与抗议,最后,交警将无可奈何地被迫放过公交司机。如此一来,公交司机交通违章却不受罚,并屡试不爽,他们那里还有遵守交通规则兴趣?将上述情景转化为博弈模型可以表示为表 2。如果公交司机守章而交警不处罚,则双方既没有受益也没有受害,他们各自得到收益均为0;如果公交司机守章而交警给予处罚,则公交司机受了冤枉,交警犯错受罚,他们各自得到收益均为 -200;如果公交司机违法章而交警没有处罚,则公交司机因本应受罚却被放过而收益,交警尽管应该按章给予处罚却没有处罚,但因无人投诉而没有受害,他们各自得到收益分别为 200 和 0;如果公交司机违法章而交警给予处罚,则公交司机因本应受罚而没有被冤枉,交警尽管按章给予处罚,但因为乘客指质投诉而受上级批评成为受害者,他们各自得到收益分别为 0 和 -100。从表 2 可以看出,(公交司机违章,交警不处罚)是优势策略纳什均衡。这就是说,公交司机的优势策略是违章,而交警的优势策略是不处罚!这个结果是令人绝望的。面对上述困局,交警部门是不是就真的束手无策了呢?我们不这样认为。由于交警在与公交车的博弈中处于弱势地
位的实际情况,我们可以设计一些策略来加强交警的地位,借以破解这一困局。例如,我们利用现有的电子监控和随身数码摄像机将违章情况录制下来,每月将公交车违章情况分送各公交公司 ,并进行处罚,年终总结,对违章率低于一定比例的个人和公司,进行表彰;对违章率超过一定比例的个人和公司,分别处以吊销驾驶证和责令整改。这一策略的优点在于,既不影响乘客的利益 ,又能促使公交司机自觉遵守交通规则。四、参考文献〔1〕范如国,韩民春.博弈论.北京:武汉大学出版社,2026.〔2〕米勒.如何利用博弈论在竞争中获胜.北京:中国财政经济出版社,2026.〔3〕董志强.身边的博弈.北京:机械工业出版社,2029.