當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

资源分配博弈之纳什均衡和斯塔克尔伯格模型

發布時間：2023/12/10 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了资源分配博弈之纳什均衡和斯塔克尔伯格模型小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

納什平衡（Nash equilibrium）?

簡介

又稱為非合作博弈均衡是博弈論的一個重要術語，以約翰·納什命名。
在一個博弈過程中，無論對方的策略選擇如何，當事人一方都會選擇某個確定的策略，則該策略被稱作支配性策略。
如果任意一位參與者在其他所有參與者的策略確定的情況下，其選擇的策略是最優的，那么這個組合就被定義為納什平衡。
一個策略組合被稱為納什平衡，當每個博弈者的平衡策略都是為了達到自己期望收益的最大值，與此同時，其他所有博弈者也遵循這樣的策略。
納什均衡：在這樣一個局面之下，沒有任何一方愿意單方面改變自己的策略，先變的一方可能得承受不好的結果
納什均衡：任何一個選項不能只考慮理想情況，一個環境都應該達到納什均衡，否則不可能長久，即使維持，代價也很高昂。

分類

納什平衡可以分成兩類：“純戰略納什平衡”和“混合戰略納什平衡”。
要說明純戰略納什平衡和混合戰略納什平衡，要先說明純戰略和混合戰略。

純戰略

是提供給玩家要如何進行賽局的一個完整的定義。特別地是，純戰略決定在任何一種情況下要做的移動。戰略集合是由玩家能夠施行的純戰略所組成的集合。

混合戰略

是對每個純戰略分配一個機率而形成的戰略。混合戰略允許玩家隨機選擇一個純戰略。混合戰略博弈均衡中要用概率計算，因為每一種策略都是隨機的，達到某一概率時，可以實現支付最優。因為機率是連續的，所以即使戰略集合是有限的，也會有無限多個混合戰略。
當然，嚴格來說，每個純戰略都是一個“退化”的混合戰略，某一特定純戰略的機率為1，其他的則為0。

故 “純戰略納什平衡”，即參與之中的所有玩家都玩純戰略；而相應的“混合戰略納什平衡”，之中至少有一位玩家玩混合戰略。

并不是每個賽局都會有純戰略納什平衡，例如“錢幣問題"就只有混合戰略納什平衡，而沒有純戰略納什平衡。不過，還是有許多賽局有純戰略納什平衡（如協調賽局，囚徒困境和獵鹿賽局）。甚至，有些賽局能同時有純戰略和混合戰略平衡。

囚徒困境

假設有兩個小偷A和B聯合犯事、私入民宅被警察抓住。警方將兩人分別置于不同的兩個房間內進行審訊，對每一個犯罪嫌疑人，警方給出的政策是：如果一個犯罪嫌疑人坦白了罪行，交出了贓物，于是證據確鑿，兩人都被判有罪。如果另一個犯罪嫌疑人也作了坦白，則兩人各被判刑8年；如果另一個犯罪嫌人沒有坦白而是抵賴，則以妨礙公務罪（因已有證據表明其有罪）再加刑2年，而坦白者有功被減刑8年，立即釋放。如果兩人都抵賴，則警方因證據不足不能判兩人的偷竊罪，但可以私入民宅的罪名將兩人各判入獄1年。

關于案例，顯然最好的策略是雙方都抵賴，結果是大家都只被判1年。但是由于兩人處于隔離的情況，首先應該是從心理學的角度來看，當事雙方都會懷疑對方會出賣自己以求自保、其次才是亞當·斯密的理論，假設每個人都是“理性的經濟人”，都會從利己的目的出發進行選擇。這兩個人都會有這樣一個盤算過程：假如他坦白，如果我抵賴，得坐10年監獄，如果我坦白最多才8年；假如他要是抵賴，如果我也抵賴，我就會被判一年，如果我坦白就可以被釋放，而他會坐10年牢。綜合以上幾種情況考慮，不管他坦白與否，對我而言都是坦白了劃算。兩個人都會動這樣的腦筋，最終，兩個人都選擇了坦白，結果都被判8年刑期。

納什均衡”首先對亞當·斯密的“看不見的手”的原理提出挑戰：按照斯密的理論，在市場經濟中，每一個人都從利己的目的出發，而最終全社會達到利他的效果。但是我們可以從“納什均衡”中引出“看不見的手”原理的一個悖論：從利己目的出發，結果損人不利己，既不利己也不利他。

硬幣正反

你正在圖書館枯坐，一位陌生美女主動過來和你搭訕，并要求和你一起玩個數學游戲。美女提議：“讓我們各自亮出硬幣的一面，或正或反。如果我們都是正面，那么我給你3元，如果我們都是反面，我給你1元，剩下的情況你給我2元就可以了。”那么該不該和這位姑娘玩這個游戲呢？這基本是廢話，當然該。問題是，這個游戲公平嗎？
每一種游戲依具其規則的不同會存在兩種納什平衡，一種是純策略納什平衡，也就是說玩家都能夠采取固定的策略(比如一直出正面或者一直出反面)，使得每人都賺得最多或虧得最少；或者是混合策略納什平衡，而在這個游戲中，便應該采用混合策略納什平衡。

斯塔克爾伯格模型

基本信息
? 在古諾模型和伯特蘭德模型里，競爭廠商在市場上的地位是平等的，因而它們的行為是相似的。而且，它們的決策是同時的。當企業甲在作決策時，它并不知道企業乙的決策。

?但事實上，在有些市場，競爭廠商之間的地位并不是對稱的，市場地位的不對稱引起了決策次序的不對稱，通常，小企業先觀察到大企業的行為，再決定自己的對策。德國經濟學家斯塔克爾伯格建立的模型就反映了這種不對稱的競爭。

? 在斯塔克爾伯格的寡頭理論中，提出了將寡頭廠商的角色定位為“領導者”與“追隨者”的分析范式。一般來說，古諾模型中互為追隨者的兩個廠商勢均力敵。而斯塔克爾伯格的寡頭廠商模型中，一個是實力雄厚的領導者，一個是實力相對較弱的追隨者。

? 該模型的基本假定條件是:在一個寡頭行業中有兩個廠商，他們生產相同的產品，其中，一個寡頭廠商是處于支配地位的領導者，另一個是寡頭廠商的追隨者；另外，與古諾模型一樣，每個廠商的決策變量都是產量，即每個廠商都會選擇自己的最優產量來實現利潤最大化。

假設條件

假設廠商1先決定它的產量，然后廠商2知道廠商1的產量后再作出它的產量決策。
因此，在確定自己產量時，廠商1必須考慮廠商2將如何作出反應。
其他假設與古諾模型相同.
領導性廠商所決定的產量需要以跟隨廠商的反應函數為約束
領導性廠商的決策不再需要自己的反應函數

分析
? 斯塔克爾伯格模型是一個產量領導模型，廠商之間存在著行動次序的區別。產量的決定依據以下次序：領導性廠商決定一個產量，然后跟隨著廠商可以觀察到這個產量，然后根據領導性廠商的產量來決定他自己的產量。需要注意的是，領導性廠商在決定自己的產量的時候，充分了解跟隨廠商會如何行動——這意味著領導性廠商可以知道跟隨廠商的反應函數。

?因此，領導性廠商自然會預期到自己決定的產量對跟隨廠商的影響。正是在考慮到這種影響的情況下，領導性廠商所決定的產量將是一個以跟隨廠商的反應函數為約束的利潤最大化產量。在斯塔克爾伯格模型中，領導性廠商的決策不再需要自己的反應函數。

轉載與：
? 納什均衡
?斯塔克爾伯格模型

總結

以上是生活随笔為你收集整理的资源分配博弈之纳什均衡和斯塔克尔伯格模型的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： consul删除无效服务
下一篇： Docker03 Docker基础知识、