论“囚徒困境”与解决方式

发布时间:2023-05-26 09:05:21浏览次数:27
论“囚徒困境”与解决方式摘要:一般认为现代博弈论的主要内容是非合作博弈理论,而非合作博弈理论的核心是纳什均衡。随着博弈论应用范围的扩大,纳什均衡理论的影响也越来越大,用纳什均衡来分析和解决经济、政治 、法律等多种领域的现象和问题,已成为引人注目的主要学术潮流。关键词:纳什均衡 囚徒困境 决策纳什均衡理论的基础与主干,涉及到现代经济学的前沿领域与敏感问题,包括理性、不完全信息和共同知识等。这些领域和问题不仅与现代经济学的基础和前提密切相关,还涉及哲学、逻辑和人性等许多方面的深层次问题。这就不仅引起经济学家的重视,而且引起哲学家、逻辑学家等的关注。一、囚徒困境与纳什均衡(一)囚徒困境博弈论学者形象地设计了一个有趣故事来说明人们彼此之间的策略矩阵模型。假设有两名嫌疑犯,虽被怀疑犯有重罪,但无确切证据可以起诉他们。为迫使两人坦白罪行,地区检察官将两人分别关押在两个牢房中,并告知同样的诱供条件。他们告诉每一嫌疑犯的具体条件是:如果你坦白,而另一个犯人抵赖,你揭发有功,就获准无罪释放,对方罪加一等,加重刑罚;如果你坦白,对方也坦白,双双有罪,但都有立功表现,故双双受到中等程度的惩罚;如果你不坦白,对方也不坦白,由于检察官没有确实的起诉证据,两人都获得较轻处罚;而如果你不坦白,对方却坦白了,你就会受到最重的惩罚。这样,两位嫌疑犯都面临两种同样的选择,但每一选择的最终结果却要取决于对方的选择。如果将惩罚由轻到重分为四等,分别以服刑年限来代表,如 0 代表无罪释放,3 代表较轻的服刑,5 代表中等的服刑 5 年,10 代表最重的服刑 10 年。每一囚犯面临的选择只有两种,或坦白或抵赖。每人必须考虑的是,如自己坦白,如对方坦白自己将受中等的 5 年的刑罚,如对方抵赖自己则受最轻的无罪释放,即结果为(5,0);相反,如自己抵赖,自己所受相应的惩罚为(10,3),分别高于坦白的结果。因此,对每一方而言,坦白都意味着较轻的惩罚。因此,很明显,每一囚犯从个人利益出发,都必然选择坦白的策略。即无论对方采取什么策略,坦白策略较抵赖策略个人的收益值更高。我们将这一策略,即无论对方如何选择,对自己都最有利的策略称为占优战略。在本案中,对囚徒双方来说,占优策略都是坦白。这样,双方都会毫不犹豫地选择坦白策略,可一旦双双坦白,等待他们是服刑 5 年的中等处罚,而这一结果较双双抵赖的服刑 3 年的较轻处罚(对两人集体来讲是最优选择)要更糟。也就是说,对个人利益最有利的坦白策略,给两人集体带来的不是最佳的而是次佳的结果。换言之,两个理性追求个人利益最大化的人,其最终却无法获得于已最优的而只能是次优的结果。这里,个人理性与集体理性的矛盾冲突正是“囚徒困境”所揭示的理性个人在追 求集体利益时的困境所在。囚徒困境管是一个假想的但它所揭示的困境却并非想象的幻影,而是在现实社会中无处不在的事实。博奕的双方并不一定是单独的个人,也可能是两大集团或更多的人,但其结果都是一样,即个人追求自我利益的理性选择,最终导致的却并非对所有人都有利的结果,即并非帕雷托最优。(二)纳什均衡定义假设有 n 个局中人参与博弈,如果某情况下无一参与者可以独自行动而增加收益(即为了自身利益的最大化,没有任何单独的一方愿意改变其策略的,则此策略组合被称为纳什均衡。所有局中人策略构成一个策略组合。纳什均衡,从实质上说,是一种非合作博弈状态。纳什均衡就是博弈中每个博弈方,各一个策略构成的一个策略组合。其中每个博弈方的策略,都是根据针对所有其他博弈方的策略构成的,并且是最佳反应。所谓“最佳反应”,指的是该策略带给采用它的博弈方的利益或期望利益,大于或至少不小于其他任何策略能够带来的利益。用科学的语言来描述纳什均 衡,指的是在一策略组合中,所有的参与者面临这样的一种情况,当其他人不改变策略时,他此时的策略是最好的。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。纳什均衡达成时,并不意味着博弈双方都处于不动的状态,在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的。纳什均衡也不意味着博弈双方达到了一个整体的最优状态,以下的囚徒困境就是一个例子。二、现实中囚徒困境的应对策略观这两年的电信市场,价格战你方唱罢我登场,前年明目张胆进行 I P 、上网卡打折,去年又推出各种资费套餐、组建“网中网”,进行变相降价竞争。在各大运营商大打价格战的动态博弈过程中,越来越多的企业已经不可避免地陷入了“囚徒困境”。在某地,两家移动运营商大打价格战。你推出本地包月任打的优惠措施(城区 288 元、各县 198元),我随后推出 238 元的本地包月套餐;你推出五款套餐,我紧接着以比对手低 10%的价格推出相应的套餐……在不断重复降价的过程中,两家移动运营商都想寻求自身最大的利益,但结果却是双方和国家这三方的利益都受损,整体利益最差。在广东,由于价格战,2010-2011 年广东电信 ARPU 值(平均每月每户收益)由 153 元降到 138 元,广东移动由 150 元降到 122 元,广东联通由 94 元降到 85 元。对于国家利益来说,价格战使移动、联通、电信三家运营商 ARPU 值和 MOU 值(每户每月通话时间)明显下降,造成国有资产大量流失和国家税收大幅减少。从长远来看,用户利益也必将受到损害。由于个体为了自己的利益最大而不愿意改变决策,最终导致整体利益最小。在价格战中,我们遇到的就是这样的情况。主导运营商和新兴运营商展开市场竞争,新兴运营商由于政府扶持而价格略低 ,当它的市场份额逐渐扩大并达到一定程度的时候,主导运营商会选择降价,而新兴运营商为了自身利 益的最大化也会随之降价。只要参与了竞争,双方都不愿意单独改变已有的降价策略,因为单独改变降价策略不会带来更大的收益,结果企业的降价就成了不断重复的行为而无法自拔,陷入了“囚徒”的困境。“囚徒困境”不但没有使企业的局部利益实现最大化,而且国家的整体利益也受到严重损害,这就需要政府伸出无形的手来扼制价格战,帮助企业走出“囚徒困境”。因为只有借助政府这个外力的作用才会打破企业不断降价的重复博弈,才能真正实现“竞合”。如果政府制订了公正合理的资费政策 ,加大了监管力度,在一定程度上限制企业的一些利益,电信市场就会形成一个合作博弈、多方共赢的新局面,这样反而会带来更大的收益,推进信息产业持续健康发展。参考文献〔1〕李伯聪,李军.关于囚徒困境的几个问题[J].自然辩证法通讯,2010,〔2〕谢识予.经济博弈论[M].上海:复旦大学出版社,2012.〔3〕杜兰.走出囚徒的困境[J].管理漫话,2013,(4).
文档格式: docx,价格: 3下载文档
返回顶部