公共安全管理论文栏目提供最新公共安全管理论文格式、公共安全管理硕士论文范文。详情咨询QQ:1847080343(论文辅导)

重复囚徒困境寻找策略

日期:2018年01月15日 编辑: 作者:无忧论文网 点击次数:2484
论文价格:100元/篇 论文编号:lw200701231714113225 论文字数:6992 所属栏目:公共安全管理论文
论文地区: 论文语种:中文 论文用途:本科毕业论文 BA Thesis
重复囚徒困境寻找策略 摘要 对于研究如何权衡个人利益和团体利益的多agent系统而言,囚徒困境是一个十分有用的模型。迄今为止人们已经发现了很多策略,这些策略各不相同。但是到底哪种类型的策略更加优秀,一般而言应该如何寻找比较好的策略呢?在这篇文章中,我介绍了一些寻找策略的普遍方法,并将我的试图合作策略与一些经典策略进行比较。首先,进行理论分析,说明试图合作策略既能在对手有意合作的时候积极响应,又能在对手恶意背叛的时候施以惩罚。其次,通过试图合作策略和其他不同策略竞赛的实验数据来证明:试图合作的确是一个优秀的策略。 目录 1绪论 1. 1囚徒困境介绍 1950年,Merrill Flood和Melvin Dresher提出囚徒困境(Prisoner’s dilemma,简称PD),并进行研究,将之归为搏弈论的领域。尽管当时他们并没有大力宣传自己的研究成果,囚徒困境难题仍然吸引了大量不同学科研究者的关注。从此以后,众多领域,各界人士都对此难题产生了极大兴趣,并因此衍生了许多囚徒困境难题的变种。下面先介绍一下经典的囚徒困境难题。 两个囚犯分别被关在不同的屋子里审讯。警察告诉他们:如果两人都坦白,各得2分;如果两个人都抵赖,各得6分;如果其中一人坦白另一人抵赖,坦白的得10分,不坦白的得0分。这些分数由一个支付矩阵决定,见图一。这里,每个囚徒都有两种选择:坦白(即背叛对方)或抵赖(即与对方合作)。如果只进行一次游戏,每个人都会选择坦白,因为不管对方选择什么,坦白总不会吃亏,因此各得2分。 (A的得分,B的得分) Agent B的选择 合作 背叛 Agnet A的选择 合作 (6,6) (0,10) 背叛 (10,0) (2,2) 图一:囚徒困境的典型支配矩阵