“囚徒困境”博弈中应用研究
发布时间:2023-06-02 09:06:54浏览次数:28“囚徒困境”博弈中应用研究【摘要】博弈论研究的是存在相互影响关系下的个人选择问题。这里的参与人都是理性人。定义:理性人是在面临给定的约束条件下,能最大化自己偏好的那些人。这里理性的人与自私的人不同。理性人可能是利己主义者,也可能是利他主义者。理性人假设是博弈论的分析前提。基于这个前提,所有的参与人都尽量使自己的偏好 (利益) 最大化,如果存在某种行动会使参与人变的更好,参与人会积极努力达成更好的结果。理性人在最大化偏好时,需要相互合作,而合作中又存在着冲突。【关键词】 博弈论 纳什均衡 囚徒困境 一、研究背景和目的 (一)博弈论在政治哲学、经济理论与社会学等领域的研究中有广泛的应用。拉斯缪森曾说过“对于博弈策略研究而言,我们所理解的一个模型要说的东西甚至比它本身要说什么更重要”。这也就是说研究一种博弈策略最主要的是如何将它应用到实际中。随着博弈理论的逐渐成熟,在经济领域的应用也越来越广泛,已成为经济理论和经济学的核心分析方法,在环境、劳动、福利等方面也开始占有越来越重要的地位。 (二)阿瑟曾说过“在经济学领域,计算机模拟全无成功之例,计算机模拟在社会科学,特别是在经济学领域里声名狼藉,就好像是无赖的手法”。但是物理学家们从事计算机模拟的方法给了他很大
的启发。他认为计算机模拟就像是实验室实验一样具有可重复性和严谨性,“我发现计算机模拟是无懈可击的”。 二、博弈论概述 博弈论是由美国数学家冯·诺依曼(Von. Neumann)和经济学家摩根斯特恩(Morgenstern)于 1944 年创立的带有方法论性质的学科。 给博弈论下一个直白的、非技术性的定义:博弈即一些人、队组或其他组织,面对一定的环境条件,在一定的规则下,同时或先后、一次或多次,从各自允许选择的行为或策略中进行选择并加以实施,各自取得相应结果的过程。 囚徒困境(PD:Prisoner’s Delimma)也是博弈论中的一个经典问题。它虽然非常简单,但却很好的反映了博弈问题的根本特征。两个罪犯一起犯罪后被警察抓住,但却缺乏足够的证据,如果其中至少有一人供认犯罪,就能确认罪名成立。警方把他们分别关在两个独立的不能互通信息的牢房里,警察对他们共同犯的这个案子进行审理,给他们的政策是“坦白从宽,抗拒从严”。每个囚犯均面临着两个策略选择“坦白”和“不坦白”。如果一方“坦白”,另外一方“不坦白”,坦白方无罪释放,不坦白方将被重判(比如 10 年);如果双方均“坦白”,每人均被判刑(如 6 年),而如果每人均“不坦白”,警察抓不到足够的证据证明他们犯罪,只能对他们以妨碍公务罪名进行惩戒(如判刑半年)。在这个博弈中,从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的
结果。但他们不得不仔细考虑对方采取什么选择。甲犯不是傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后出狱而去,让他独自坐牢。但他也意识到,他的同伙也不是傻子,也会这样来设想他。所以甲犯的结论是唯一理性的选择就是背叛同伙,把一切告诉警方,因为如果他的同伙笨的只会保持沉默,那么自己就可以幸运出狱了。而如果他的同伙也根据这个逻辑向警方坦白,甲犯反正也得服刑,起码他不必在这之上再被重判。两个囚徒均选择“坦白”,因为无论对方选择什么策略,自己选择“坦白”对自己最有利的策略。 三、合作与囚徒困境 在现实社会中合作行为普遍存在,无论在心理学实验还是对实际社会的观察中,人们普遍表现出合作倾向。当我们进行社会交往和经济活动时,参与活动的各利益主体,为了取得更多的利益,常以合作的方式存在。一个机构中的管理者为了得到一些回报而给另一位管理者提供帮助。如果只有两个公司同时生产一个产品,一个公司定较高的价格是为了期望另一个公司也能保持高价,因为这样双方都能得到好处(当然消费者吃亏了)。对于囚徒困境的分析在重复博弈和动态博弈中还都有论述。值得一提的是在无限次重复博弈过程中,只要参与人有足够耐心,冷酷战略是无限次囚徒博弈的一个子博弈精炼纳什均衡。 参考文献 [1]周昌乐,走向实验的哲学透视哲学研究中的计算建模方法,厦门大学人
工智能研究所,2004-10-28 [2]陆培泽,从“囚徒困境”看价格战,商界论谈,2004 年 7 期:20-22[3]Christian Montet Daniel Serra 张琦译,博弈论与经济学,经济管理出版社,2005 [4]纳什博弈论的原理与应用, [5] 纳什简介 http://jw.nankai.edu.cn/focus/maths/nash.shtm[6] 舒尚奇,博弈思想在微观经济学中的应用,《中国市场》,2005 年 6 月 18日:58-59