当前位置: 首页 > 后端技术 > Java

JAVA进阶训练营(2021最新版)sesae

时间:2023-04-01 23:15:10 Java

下载:JAVA进阶训练营(2021最新版)问题描述囚徒困境是博弈论中的一个经典问题。有两名犯人隐瞒不报的盗窃案。在审讯过程中,每个犯人都可以选择拒不承认或者坦白。情境就是两个犯人给出自己的策略算作一种情境,然后根据情境的排列组合,有反抗、反抗招供、反抗反抗、招供、招供。认罪的人都将被判处3年徒刑。如果一方供认,另一方抗拒,抗拒的一方将被判处5年徒刑,并释放供词。游戏中的人:抵抗或坦白的两种囚犯策略。效用函数矩阵。每个人都会选择最大化自身利益的最大化策略。那么对于犯人来说,最大的好处就是服最短的刑期。为此,什么样的策略是合理的?在为一个犯人(犯人A)制定策略时,还需要考虑另一个犯人(犯人B)的策略选择,那么犯人B的选择就有两种可能:反抗或认罪,称为犯人B这里。如果犯人B认罪的前提是犯人A认罪的话要服刑3年,反抗的话要服刑5年,所以A最好的选择就是认罪。假设在前面的策略中,犯人A选择反抗,犯人B选择坦白,收益为0。当犯人A选择坦白,犯人B也会选择坦白,以获得最大利益。不管犯人B采取什么策略,招供都是犯人A对犯人A的主导策略。两个囚徒都不能通过单方面改变策略来增加自己的利益,因此也没有放弃这种策略组合的动机。DominantStrategy在选择策略时,当一种策略的效用总是大于所有其他策略的效用时,我们称这种策略为DominantStrategy。占优策略纳什均衡当所有参与者的最优反应选择自己的占优策略时,此时达到的纳什均衡称为占优策略纳什均衡。