博弈论混合策略纳什均衡-PPT.pptx
《博弈论混合策略纳什均衡-PPT.pptx》由会员分享,可在线阅读,更多相关《博弈论混合策略纳什均衡-PPT.pptx(67页珍藏版)》请在咨信网上搜索。
1、博弈论混合策略纳什均衡剪刀、石头、布得游戏剪刀、石头、布得游戏每个同学跟后面一排对应得同学玩剪刀、石每个同学跟后面一排对应得同学玩剪刀、石头、布得游戏头、布得游戏、玩二十次玩二十次,将结果记下来将结果记下来赢了十次以上同学举起手来赢了十次以上同学举起手来告诉我您有什么秘决告诉我您有什么秘决怎么样才能赢得多?怎么样才能赢得多?剪刀、石头、布得游戏剪刀、石头、布得游戏我们知道我们知道如果博弈只进行一次如果博弈只进行一次,我们无法明确预测博我们无法明确预测博弈得结果弈得结果,不管就是哪个博弈方不管就是哪个博弈方,也不管她们也不管她们得选择就是哪个策略得选择就是哪个策略,都不能保证得到较好都不能保证得
2、到较好得结果。根据我们上一章所学得方法得结果。根据我们上一章所学得方法,这个这个博弈没有纳什均衡。博弈没有纳什均衡。那么就是不就是意味着这样得博弈中那么就是不就是意味着这样得博弈中,您可您可以随意选择以随意选择,结果都一样呢?结果都一样呢?剪刀、石头、布得游戏剪刀、石头、布得游戏答案就是否定得。答案就是否定得。事实上事实上,局中人得选择仍然就是很有讲究得局中人得选择仍然就是很有讲究得,策略选择得好坏对局中人得利益仍然有很大策略选择得好坏对局中人得利益仍然有很大得影响。得影响。在这个零与博弈里在这个零与博弈里,无论双方采用哪种策略无论双方采用哪种策略组合组合,结果都就是一方输一方赢结果都就是一方
3、输一方赢,而输得一方而输得一方又总就是可以通过单独改变策略而反输为赢。又总就是可以通过单独改变策略而反输为赢。如果哪个局中人能找到对手方得规律或者偏如果哪个局中人能找到对手方得规律或者偏好好,她就能猜测到对手得策略而采用针对性她就能猜测到对手得策略而采用针对性策略从而保证赢。策略从而保证赢。剪刀、石头、布得游戏剪刀、石头、布得游戏因此因此,秘决在于秘决在于自己得策略选择不能预先被对手方知道或猜自己得策略选择不能预先被对手方知道或猜测到测到,在该博弈得多次重复中在该博弈得多次重复中,博弈方一定要博弈方一定要避免自己得选择具有规律性避免自己得选择具有规律性;观察对手方策略选择就是否具有规律或者偏观
4、察对手方策略选择就是否具有规律或者偏好好,预先猜测对手策略预先猜测对手策略,从而采用针对性策略从而采用针对性策略赢得这个博弈。赢得这个博弈。第三章第三章 混合策略纳什均衡混合策略纳什均衡纯策略纯策略(pure strategies):如果一个策略规定如果一个策略规定参与人在一个给定得信息情况下只选择一种参与人在一个给定得信息情况下只选择一种特定得行动。特定得行动。混合策略混合策略(mixed strategies):如果一个策略如果一个策略规定参与人在给定得信息情况下规定参与人在给定得信息情况下,以某种概以某种概率分布随机地选择不同得行动。率分布随机地选择不同得行动。在静态博弈里在静态博弈里,
5、纯策略等价于特定得行动纯策略等价于特定得行动,混混合策略就是不同行动之间得随机选择。合策略就是不同行动之间得随机选择。期望支付期望支付与混合策略与混合策略(mixed strategies)相伴随得一个问题相伴随得一个问题,就是局中人支付得不确定性就是局中人支付得不确定性(uncertainty)、可用可用期望支付期望支付(expected payoff)来描述来描述有个有个n可可能得取值能得取值X1,X2,Xn,并且这些取值发生得概率分并且这些取值发生得概率分别为别为p1,p2,pn,那么我们可以将这个数量指标那么我们可以将这个数量指标得期望值定义为发生概率作为权重得所有可能取得期望值定义为
6、发生概率作为权重得所有可能取值得加权平均值得加权平均,也就就是也就就是政府与流浪汉得博弈政府与流浪汉得博弈政府想帮助流浪汉政府想帮助流浪汉,但前提就是后者必须试图但前提就是后者必须试图寻找工作寻找工作,否则否则,不予帮助不予帮助;而流浪汉若知道政而流浪汉若知道政府采用救济策略得话府采用救济策略得话,她就不会寻找工作。她她就不会寻找工作。她们只有在得不到政府救济时才会寻找工作。她们只有在得不到政府救济时才会寻找工作。她们获得得支付如图所示们获得得支付如图所示:(3,2)(-1,3)(-1,1)(0,0)流浪汉流浪汉寻找工作寻找工作 游闲游闲政府政府救济救济不救济不救济思考思考:政府会采用纯策略吗
7、?流浪汉呢?这政府会采用纯策略吗?流浪汉呢?这个博弈有没有纯策略得纳什均衡?个博弈有没有纯策略得纳什均衡?跟您玩剪子石头布游戏一样跟您玩剪子石头布游戏一样,您会一直您会一直采用纯策略吗?采用纯策略吗?那么政府与流浪汉最有可能采用什么策略?那么政府与流浪汉最有可能采用什么策略?使自己得预期支付最大化。使自己得预期支付最大化。若能够猜得对方得策略若能够猜得对方得策略,就可以采用针就可以采用针对性得策略对性得策略,使自己得支付增加。使自己得支付增加。政府与流浪汉得博弈政府与流浪汉得博弈大家学习辛苦了,还是要坚持继续保持安静继续保持安静求解混合策略纳什均衡1、假定政府采用混合策略、假定政府采用混合策略
8、:2、流浪汉得混合策略为、流浪汉得混合策略为:对上述效用函数求微分对上述效用函数求微分,得到政府最优化得一阶条件为得到政府最优化得一阶条件为:就就是说就就是说,从政府得最优化条件找到流浪汉混合策略从政府得最优化条件找到流浪汉混合策略流浪汉以流浪汉以0、2得概率选择寻找工作得概率选择寻找工作,0、8得概率选得概率选择游闲。择游闲。解一解一:支付最大化支付最大化那么那么,政府得期望效用函数为政府得期望效用函数为:流浪汉得期望效用函数为流浪汉得期望效用函数为:解一解一:支付最大化支付最大化解二解二:支付等值法支付等值法政府选择救济策略政府选择救济策略政府选择不救济策略政府选择不救济策略如果一个混合策
9、略就是流浪汉得最优选择,那一定意味着政府在救济与不救济之间就是无差异得,即:解二解二:支付等值法支付等值法 如果一个混合策略就是政府得最优选择,那一定意味着流浪汉在寻找工作与游闲之间就是无差异得,即:如果政府救济得概率小于如果政府救济得概率小于0、5;则流浪汉得最优选择就是寻找工作则流浪汉得最优选择就是寻找工作;如果政府救济得概率大于如果政府救济得概率大于0、5;则流浪汉得最优选择就是游闲等待救济。则流浪汉得最优选择就是游闲等待救济。如果政府救济得概率正好等于如果政府救济得概率正好等于0、5;流浪汉得选择无差异。流浪汉得选择无差异。政府与流浪汉得博弈政府与流浪汉得博弈讨讨 论论上面得均衡要求每
10、个参与人以特定得概率上面得均衡要求每个参与人以特定得概率选择纯策略。也就就是说选择纯策略。也就就是说,一个参与人选择一个参与人选择不同策略得概率不就是由她自己得支付决不同策略得概率不就是由她自己得支付决定得定得,而就是由她得对手得支付决定得。而就是由她得对手得支付决定得。正就是由于这个原因正就是由于这个原因,许多人认为混合策略许多人认为混合策略纳什均衡就是一个难以令人满意得概念。纳什均衡就是一个难以令人满意得概念。事实上事实上,正就是因为它在几个正就是因为它在几个(或全部或全部)策略策略之间就是无差异得之间就是无差异得,她得行为才难以预测她得行为才难以预测,混合策略纳什均衡才会存在。混合策略纳
11、什均衡才会存在。讨讨 论论尽管混合策略不像纯策略那样直观尽管混合策略不像纯策略那样直观,但它确实就是但它确实就是一些博弈中参与人得合理行为方式。扑克比赛、一些博弈中参与人得合理行为方式。扑克比赛、垒球比赛、划拳就就是这样得例子垒球比赛、划拳就就是这样得例子,在这一类博弈在这一类博弈中中,参与比赛得总就是随机行动以使自己得行为不参与比赛得总就是随机行动以使自己得行为不被对方所预测。被对方所预测。经济学上得监督博弈也就是这样一个例子。如税经济学上得监督博弈也就是这样一个例子。如税收检查、质量检查、惩治犯罪、雇主监督雇员等收检查、质量检查、惩治犯罪、雇主监督雇员等都可以瞧成猜谜博弈。都可以瞧成猜谜博
12、弈。纳什均衡得存在性纳什定理纳什定理:在一个由在一个由n个博弈方得博弈个博弈方得博弈 中中,如果如果n就是有限得就是有限得,且且 都就是有限集都就是有限集(对对 ),则该博则该博弈至少存在一个纳什均衡弈至少存在一个纳什均衡,但可能包含混合策略。但可能包含混合策略。证明过程省略证明过程省略,主要根据就是布鲁威尔与角谷得不动点定理。主要根据就是布鲁威尔与角谷得不动点定理。纳什均衡得普遍存在性正就是纳什均衡成为非合作博弈分纳什均衡得普遍存在性正就是纳什均衡成为非合作博弈分析核心概念得根本原因之一。析核心概念得根本原因之一。扑克牌对色游戏扑克牌对色游戏甲乙玩扑克牌对色游戏甲乙玩扑克牌对色游戏,每人都有
13、红黑两张每人都有红黑两张扑克牌扑克牌,约定如果出牌颜色一样约定如果出牌颜色一样,甲输乙赢甲输乙赢,如果出牌颜色不一样如果出牌颜色不一样,则甲赢乙输。则甲赢乙输。找到这个博弈得纳什均衡。找到这个博弈得纳什均衡。-1,11,-11,-1-1,1红黑乙乙甲甲红黑 反应函数法反应函数法假设甲、乙均采用混与策略假设甲、乙均采用混与策略,随机地以随机地以p得概率出得概率出红牌与以红牌与以(1-p)得概率出黑牌得概率出黑牌,而乙则随机地以而乙则随机地以q得得概率出红牌与以概率出红牌与以(1-q)得概率出黑牌。得概率出黑牌。-1,11,-11,-1-1,1红q黑1-q乙乙甲甲红p黑1-p 反应函数反应函数A得
14、目标就是期望支付越大越好。我们之所以把得目标就是期望支付越大越好。我们之所以把A得期望支付整理成不含得期望支付整理成不含p得一项与含得一项与含p得一项这个得一项这个样子样子,就是因为就是因为A只能选择只能选择p而不能而不能q,因此因此,A能通过能通过选择选择p来影响第一项来影响第一项,而不能直接影响第二项。而不能直接影响第二项。(1-2q)0即即q1/2时时,A把把p选择等于选择等于1最好最好;当当(1-2q)1/2时时,A把把p选择等于选择等于0最好最好;当当(1-2q)=0即即q=1/2时时,A可以在可以在0,1之间随便选择一个之间随便选择一个p。这样我们可以得到这样我们可以得到A得反应函
15、数就是得反应函数就是,同样道理我同样道理我们可以得到们可以得到B得反应函数。得反应函数。0,如果如果q1/2 1,如果如果p1/2 p 0,1,如果如果q=1/2 q 0,1,如果如果p=1/2 1,如果如果q1/2 0,如果如果p1/2 反应函数曲线相应方法反应函数曲线相应方法pq1/21纳什均衡就是纳什均衡就是A与与B都出红牌或者黑牌得概率就是都出红牌或者黑牌得概率就是 一半对一半一半对一半 1/21练习练习:税收检查税收检查(监督博弈监督博弈)设定设定a就是应纳税款就是应纳税款;C就是检查成本就是检查成本;F就是罚就是罚款款,假定就是假定就是Ca+F。瞧瞧就是否存在纯策略。瞧瞧就是否存在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 博弈论 混合 策略 均衡 PPT
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【快乐****生活】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【快乐****生活】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。