重复囚徒困境寻找策略
日期:2018年01月15日
编辑:
作者:无忧论文网
点击次数:2484
论文价格:100元/篇
论文编号:lw200701231714113225
论文字数:6992
所属栏目:公共安全管理论文
论文地区:
论文语种:中文
论文用途:本科毕业论文 BA Thesis
重复囚徒困境寻找策略
摘要
对于研究如何权衡个人利益和团体利益的多agent系统而言,囚徒困境是一个十分有用的模型。迄今为止人们已经发现了很多策略,这些策略各不相同。但是到底哪种类型的策略更加优秀,一般而言应该如何寻找比较好的策略呢?在这篇文章中,我介绍了一些寻找策略的普遍方法,并将我的试图合作策略与一些经典策略进行比较。首先,进行理论分析,说明试图合作策略既能在对手有意合作的时候积极响应,又能在对手恶意背叛的时候施以惩罚。其次,通过试图合作策略和其他不同策略竞赛的实验数据来证明:试图合作的确是一个优秀的策略。
目录
1绪论
1. 1囚徒困境介绍
1950年,Merrill Flood和Melvin Dresher提出囚徒困境(Prisoner’s dilemma,简称PD),并进行研究,将之归为搏弈论的领域。尽管当时他们并没有大力宣传自己的研究成果,囚徒困境难题仍然吸引了大量不同学科研究者的关注。从此以后,众多领域,各界人士都对此难题产生了极大兴趣,并因此衍生了许多囚徒困境难题的变种。下面先介绍一下经典的囚徒困境难题。
两个囚犯分别被关在不同的屋子里审讯。警察告诉他们:如果两人都坦白,各得2分;如果两个人都抵赖,各得6分;如果其中一人坦白另一人抵赖,坦白的得10分,不坦白的得0分。这些分数由一个支付矩阵决定,见图一。这里,每个囚徒都有两种选择:坦白(即背叛对方)或抵赖(即与对方合作)。如果只进行一次游戏,每个人都会选择坦白,因为不管对方选择什么,坦白总不会吃亏,因此各得2分。
(A的得分,B的得分) Agent B的选择
合作 背叛
Agnet A的选择 合作 (6,6) (0,10)
背叛 (10,0) (2,2)
图一:囚徒困境的典型支配矩阵