《囚徒困境》
临清吧
全部回复
仅看楼主
level 14
💧2022💦 楼主
囚徒困境(prisoner's dilemma)是指两个被捕的囚徒之间的一种特殊博弈,说明即使合作对双方都有利时,保持合作也是困难的。囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护、人际关系等方面,也会频繁出现类似情况。
2024年10月19日 10点10分 1
level 14
💧2022💦 楼主
囚徒困境(Prisoner'sDilemma)是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。或者说在一个群体中,个人做出理性选择却往往导致集体的非理性。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。“囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德(MerrillFlood)和梅尔文·德雷希尔(MelvinDresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(AlbertTucker)以囚徒方式阐述,并命名为“囚徒困境”。两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确凿,二者都判刑八年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。最终导致纳什均衡仅落在非合作点上的博弈模型。
2024年10月19日 10点10分 2
level 14
💧2022💦 楼主
囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。于是,每个囚徒都面临两种选择:坦白或抵赖。然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,抵赖的话判十年,坦白比不坦白好; [5]如果同伙坦白、自己坦白的话判八年,比起抵赖的判十年,坦白还是比抵赖的好。结果,两个嫌疑犯都选择坦白,各判刑八年。如果两人都抵赖,各判一年,显然这个结果好。囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性-聪明的人类会因自己的聪明而作茧自缚,或者损害集体的利益。
2024年10月19日 10点10分 3
level 14
💧2022💦 楼主
整理囚徒困境的基本博弈结构,可更清楚地分析囚徒困境。实验经济学常用这种博弈的一般形式分析各种论题。以下是实现一般形式的其中一例:有两个参与者和一个庄家。参与者每人有一式两张卡片,各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下,放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性。然后,庄家翻开两个参与者卡片,根据以下规则支付利益:1.一人背叛、一人合作:背叛者得5分(背叛诱惑),合作者0分(受骗支付)。2.二人都合作:各得3分(合作报酬)。3.二人都背叛:各得1分(背叛惩罚)。简单博弈获得的点数可以得出一些一般化的结论。若以T(Temptation)=背叛诱惑,R(Reward)=合作报酬,P(Punishment)=背叛惩罚,S(Suckers)=受骗支付,以个人选择得分而言,可得出以下不等式。T>R>P>S(解:从5>3>1>0获得以上不等式)若以整体获分而言,将得出以下不等式。2R>T+S或2R>2P(解:2×3>5+0或2×3>2x1;合作2人共得6分,比起互相背叛的共得2分及单独背叛的共得5分,显然合作获分比背叛高。合作在团体而言是支配性策略。)而重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离困境。以上理论是道格拉斯·霍夫施塔特(侯世达)创建的。
2024年10月19日 10点10分 4
level 14
💧2022💦 楼主
最佳确定性策略被认为是“以牙还牙”,这是阿纳托尔·拉波波特(AnatolRapoport)开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的,只包含了四行BASIC语言,并且赢得了比赛。这个策略只不过是在重复博弈的开头合作,然后,采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛,在下一回合中你无论如何要以小概率(大约是1%~5%)时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时,“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手:你合作但是你的对手听说你背叛了。成功条件通过分析高分策略,阿克塞尔罗德指定了策略获得成功的几个必要条件。友善最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此,完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手。报复但是,阿克斯洛德主张,成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择,因为“下流”策略将残酷地剥削这样的傻瓜。宽恕成功策略的另一个品质是必须要宽恕。虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作。这停止了报复和反报复的长期进行,最大化了得分点数。不嫉妒最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数(“友善”的策略必然不嫉妒,也就是说“友善”的策略永远无法得到高于对手的分数)。因此,阿克塞尔罗德得到一种给人以乌托邦印象的结论,认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一,是友善的家伙能先完成交易。
2024年10月19日 10点10分 5
level 14
💧2022💦 楼主
现在的网络通常是我先抛出问题或者答案,
第二天或者第三天,刷视频的时候就会被推荐相关的视频,。
这就是大数据
2024年10月19日 10点10分 6
level 14
💧2022💦 楼主
### 破解囚徒困境的主要方法12
重复博弈与声誉建立:如果囚徒困境不是一次性的,而是会重复出现,那么参与者就能从过去的互动中汲取经验,并建立起对未来行为的预期。例如,“以牙还牙”策略,即首次合作,之后每一轮都重复对方上一轮的选择,这种方式简单且有效,鼓励合作,同时避免记仇。
沟通和建立信任:缺乏沟通是囚徒困境的一大症结。如果参与者能够坦诚交流并建立起信任,合作的可能性将大大增加。可以通过事前沟通、引入第三方或设计机制来监督协议执行,以增强信任。
改变博弈规则:有时,改变博弈本身的规则可以调整参与者的激励机制,使合作成为更诱人的选择。例如,引入奖励机制,给予合作行为额外的收益,同时对背叛行为进行严厉的惩罚。
道德和社会规范:在现实生活中,人们的行为不仅受理性计算驱动,还受道德和社会规范影响。通过教育和宣传,让人们认识到合作的重要性以及背叛的负面影响。
选择合作:合作是走出“囚徒困境”的最有效手段。通过合作,参与者可以共同解决问题,实现共赢。
具体策略和例子
改变态度和诉诸权威:在合作中避免不道德行为,并诉诸善意的权威人士。
“以眼还眼,以牙还牙”策略:用善意对待来者,对方出什么牌,你就出什么牌。他若善意,你便仍以善意待之;他若恶意,你便回报以恶意。
石油输出国组织(OPEC)的例子:通过合作,OPEC成功解决了石油输出国之间的恶性价格竞争和产油量增加的问题,带领成员国摆脱了“囚徒困境”。
修路的例子:如果没有外力介入,两家会选择不修路,但如果有组织者促使双方合作,可以共同修建道路,实现共赢。
2024年10月19日 10点10分 7
1