重复囚徒困境寻找策略

日期：2018年01月15日编辑：作者：无忧论文网点击次数：2500

论文价格：100元/篇论文编号：lw200701231714113225 论文字数：6992 所属栏目：公共安全管理论文

论文地区：论文语种：中文论文用途：本科毕业论文 BA Thesis

重复囚徒困境寻找策略摘要对于研究如何权衡个人利益和团体利益的多agent系统而言，囚徒困境是一个十分有用的模型。迄今为止人们已经发现了很多策略，这些策略各不相同。但是到底哪种类型的策略更加优秀，一般而言应该如何寻找比较好的策略呢？在这篇文章中，我介绍了一些寻找策略的普遍方法，并将我的试图合作策略与一些经典策略进行比较。首先，进行理论分析，说明试图合作策略既能在对手有意合作的时候积极响应，又能在对手恶意背叛的时候施以惩罚。其次，通过试图合作策略和其他不同策略竞赛的实验数据来证明：试图合作的确是一个优秀的策略。目录 1绪论 1． 1囚徒困境介绍 1950年，Merrill Flood和Melvin Dresher提出囚徒困境（Prisoner’s dilemma，简称PD），并进行研究，将之归为搏弈论的领域。尽管当时他们并没有大力宣传自己的研究成果，囚徒困境难题仍然吸引了大量不同学科研究者的关注。从此以后，众多领域，各界人士都对此难题产生了极大兴趣，并因此衍生了许多囚徒困境难题的变种。下面先介绍一下经典的囚徒困境难题。两个囚犯分别被关在不同的屋子里审讯。警察告诉他们：如果两人都坦白,各得2分；如果两个人都抵赖,各得6分；如果其中一人坦白另一人抵赖,坦白的得10分,不坦白的得0分。这些分数由一个支付矩阵决定，见图一。这里,每个囚徒都有两种选择：坦白（即背叛对方）或抵赖（即与对方合作）。如果只进行一次游戏，每个人都会选择坦白,因为不管对方选择什么，坦白总不会吃亏，因此各得2分。（A的得分，B的得分） Agent B的选择合作背叛 Agnet A的选择合作（6，6）（0，10）背叛（10，0）（2，2）图一：囚徒困境的典型支配矩阵