《囚徒困境》 - 临清吧

level 14

💧2022💦 楼主

囚徒困境（prisoner's dilemma）是指两个被捕的囚徒之间的一种特殊博弈，说明即使合作对双方都有利时，保持合作也是困难的。囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护、人际关系等方面，也会频繁出现类似情况。

2024年10月19日 10点10分 1

level 14

💧2022💦 楼主

囚徒困境（Prisoner'sDilemma）是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。或者说在一个群体中，个人做出理性选择却往往导致集体的非理性。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。“囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德（MerrillFlood）和梅尔文·德雷希尔（MelvinDresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（AlbertTucker）以囚徒方式阐述，并命名为“囚徒困境”。两个共谋犯罪的人被关入监狱，不能互相沟通情况。如果两个人都不揭发对方，则由于证据不确定，每个人都坐牢一年；若一人揭发，而另一人沉默，则揭发者因为立功而立即获释，沉默者因不合作而入狱十年；若互相揭发，则因证据确凿，二者都判刑八年。由于囚徒无法信任对方，因此倾向于互相揭发，而不是同守沉默。最终导致纳什均衡仅落在非合作点上的博弈模型。

2024年10月19日 10点10分 2

level 14

💧2022💦 楼主

囚徒困境的故事讲的是，两个嫌疑犯作案后被警察抓住，分别关在不同的屋子里接受审讯。警察知道两人有罪，但缺乏足够的证据。警察告诉每个人：如果两人都抵赖，各判刑一年；如果两人都坦白，各判八年；如果两人中一个坦白而另一个抵赖，坦白的放出去，抵赖的判十年。于是，每个囚徒都面临两种选择：坦白或抵赖。然而，不管同伙选择什么，每个囚徒的最优选择是坦白：如果同伙抵赖、自己坦白的话放出去，抵赖的话判十年，坦白比不坦白好； [5]如果同伙坦白、自己坦白的话判八年，比起抵赖的判十年，坦白还是比抵赖的好。结果，两个嫌疑犯都选择坦白，各判刑八年。如果两人都抵赖，各判一年，显然这个结果好。囚徒困境所反映出的深刻问题是，人类的个人理性有时能导致集体的非理性-聪明的人类会因自己的聪明而作茧自缚，或者损害集体的利益。

2024年10月19日 10点10分 3

level 14

💧2022💦 楼主

整理囚徒困境的基本博弈结构，可更清楚地分析囚徒困境。实验经济学常用这种博弈的一般形式分析各种论题。以下是实现一般形式的其中一例：有两个参与者和一个庄家。参与者每人有一式两张卡片，各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下，放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性。然后，庄家翻开两个参与者卡片，根据以下规则支付利益：1.一人背叛、一人合作：背叛者得5分（背叛诱惑），合作者0分（受骗支付）。2.二人都合作：各得3分（合作报酬）。3.二人都背叛：各得1分（背叛惩罚）。简单博弈获得的点数可以得出一些一般化的结论。若以T（Temptation）=背叛诱惑，R（Reward）=合作报酬，P（Punishment）=背叛惩罚，S（Suckers）=受骗支付，以个人选择得分而言，可得出以下不等式。T>R>P>S（解：从5>3>1>0获得以上不等式）若以整体获分而言，将得出以下不等式。2R>T+S或2R>2P（解：2×3>5+0或2×3>2x1；合作2人共得6分，比起互相背叛的共得2分及单独背叛的共得5分，显然合作获分比背叛高。合作在团体而言是支配性策略。）而重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离困境。以上理论是道格拉斯·霍夫施塔特（侯世达）创建的。

2024年10月19日 10点10分 4

level 14

💧2022💦 楼主

最佳确定性策略被认为是“以牙还牙”，这是阿纳托尔·拉波波特（AnatolRapoport）开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的，只包含了四行BASIC语言，并且赢得了比赛。这个策略只不过是在重复博弈的开头合作，然后，采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛，在下一回合中你无论如何要以小概率（大约是1%~5%）时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时，“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手：你合作但是你的对手听说你背叛了。成功条件通过分析高分策略，阿克塞尔罗德指定了策略获得成功的几个必要条件。友善最重要的条件是策略必须“友善”，这就是说，不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此，完全自私的策略仅仅出于自私的原因，也永远不会首先打击其对手。报复但是，阿克斯洛德主张，成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择，因为“下流”策略将残酷地剥削这样的傻瓜。宽恕成功策略的另一个品质是必须要宽恕。虽然它们不报复，但是如果对手不继续背叛，它们会一再退却到合作。这停止了报复和反报复的长期进行，最大化了得分点数。不嫉妒最后一个品质是不嫉妒，就是说不去争取得到高于对手的分数（“友善”的策略必然不嫉妒，也就是说“友善”的策略永远无法得到高于对手的分数）。因此，阿克塞尔罗德得到一种给人以乌托邦印象的结论，认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一，是友善的家伙能先完成交易。

2024年10月19日 10点10分 5

level 14

💧2022💦 楼主

现在的网络通常是我先抛出问题或者答案，
第二天或者第三天，刷视频的时候就会被推荐相关的视频，。
这就是大数据

2024年10月19日 10点10分 6

level 14

💧2022💦 楼主

### 破解囚徒困境的主要方法12
重复博弈与声誉建立：如果囚徒困境不是一次性的，而是会重复出现，那么参与者就能从过去的互动中汲取经验，并建立起对未来行为的预期。例如，“以牙还牙”策略，即首次合作，之后每一轮都重复对方上一轮的选择，这种方式简单且有效，鼓励合作，同时避免记仇。
沟通和建立信任：缺乏沟通是囚徒困境的一大症结。如果参与者能够坦诚交流并建立起信任，合作的可能性将大大增加。可以通过事前沟通、引入第三方或设计机制来监督协议执行，以增强信任。
改变博弈规则：有时，改变博弈本身的规则可以调整参与者的激励机制，使合作成为更诱人的选择。例如，引入奖励机制，给予合作行为额外的收益，同时对背叛行为进行严厉的惩罚。
道德和社会规范：在现实生活中，人们的行为不仅受理性计算驱动，还受道德和社会规范影响。通过教育和宣传，让人们认识到合作的重要性以及背叛的负面影响。
选择合作：合作是走出“囚徒困境”的最有效手段。通过合作，参与者可以共同解决问题，实现共赢。
具体策略和例子
改变态度和诉诸权威：在合作中避免不道德行为，并诉诸善意的权威人士。
“以眼还眼，以牙还牙”策略：用善意对待来者，对方出什么牌，你就出什么牌。他若善意，你便仍以善意待之；他若恶意，你便回报以恶意。
石油输出国组织（OPEC）的例子：通过合作，OPEC成功解决了石油输出国之间的恶性价格竞争和产油量增加的问题，带领成员国摆脱了“囚徒困境”。
修路的例子：如果没有外力介入，两家会选择不修路，但如果有组织者促使双方合作，可以共同修建道路，实现共赢。

2024年10月19日 10点10分 7