01博弈三要素和囚徒困境
目錄
- 引例1:攻城問題(諾曼底登陸模擬博弈)
- 問題
- 方案
- 結果
- 策略分析
- 囚徒困境與博弈三要素
- 博弈三要素
- 囚徒困境
- 問題
- 博弈格局
- 博弈分析
- 幾個博弈論概念
- 博弈結果
- 價格大戰和雙贏對局
- 公共品供給的囚徒困境
- 問題
- 方案
- 博弈格局
- 政治家的囚徒困境
- 問題
- 方案
- 博弈格局
- 基數支付和序數支付
- 美蘇爭霸的囚徒困境
- 問題
- 方案
- 博弈格局
引例1:攻城問題(諾曼底登陸模擬博弈)
問題
如果給你兩個師的兵力,由你來當“司令”,任務是攻克“敵方”占據的一座城市,通往城市的道路只有甲乙兩條,而敵方的守備力量是三個師。規定:雙方的兵力只能整師調動;當你發起攻擊的時候,你的兵力超過敵方,你就獲勝;你的兵力比敵方的守備兵力少或者相等,你就失敗。
方案
- 敵方方案(4種):
- 三個師都駐守在甲方向(記A)
- 兩個師駐守在甲方向,一個師駐守在乙方向(記B)
- 一個師駐守在在甲方向,兩個師駐守在乙方向(記C)
- 三個師全部駐守在乙方向(記D)
- 我方方案(3種):
- 兩個師都攻打甲方向(記a)
- 一個師攻打甲方向,一個師攻打乙方向(記b)
- 兩個師都攻打乙方向(記c)
把雙方的部署方案叫做策略,即敵方有4種策略,我方有3種策略,共有12種策略組合。
結果
| a | - | - | + | + |
| b | + | - | - | + |
| c | + | + | - | - |
“+”表示行動成功,“-”表示行動失敗。
看似一場不公平的戰役,雙方取勝的概率卻相等。
策略分析
- 針對我方:
- 這三種策略是不分伯仲的,因為不管是策略a,還是策略b,亦或是策略c,我方獲勝的概率均為50%。
- 針對敵方:
- 比較A和B:如果我方采取策略a,敵方采取策略A或者策略B都會贏;如果我方采取策略b,敵方采取策略A會輸,采取策略B會贏;如果我方采取策略c,敵方采取策略A或策略B都會輸。站在敵方的立場,策略B比策略A好,B是敵方的優勢策略,A是敵方的劣勢策略。
- 比較C和D:同理可知C是敵方的優勢策略,而D是敵方的劣勢策略。
智慧的或者說理性的博弈參與人,是不會采用自己的劣勢策略的。
- 刪除敵方劣勢策略:
| a | - | + |
| b | - | - |
| c | + | - |
在刪除敵方劣勢策略之前,我們無法發覺我們的策略孰優孰劣,但現在我們可以很容易發現策略b 是一個劣勢策略了,因為它在敵方選擇他們的優勢策略B或C時我們都無法獲勝。
- 刪除我方劣勢策略
| a | - | + |
| c | + | - |
運用博弈論知識,最終的情況就是:敵方必采取B或C策略那樣的二一布防,而我方必集中兵力于某一路實施攻擊。這樣,若攻在敵方的薄弱處,就獲勝;若攻在敵人兵力較多的地方,就失敗。總之,敵我雙方獲勝的可能性還是一樣大。
也就是說,看似不公平(劣勢)的對局,如果運用好博弈論的知識,是可以達到均勢甚至優勢的。
囚徒困境與博弈三要素
科學史話:謝林教授和羅伯特·奧曼因對于博弈論的巨大貢獻,獲得了2005年的諾貝爾經濟學獎。
博弈三要素
- 參與人或者局中人(players)
- 他們可以選擇的行動(action)或策略(strategies)
- 所有可能的對局結果,即每個參與人在各種對局下的博弈所得,叫做贏利、贏得呢個、得益或支付(payoffs,這種說法比較常用)
囚徒困境
問題
一次嚴重的縱火案發生后,警察在現場抓到甲乙兩個犯罪嫌疑人。事實上,正是他們為了報復而一起放火燒了這個倉庫,但是警方沒有掌握足夠的證據。于是,警方把他們隔離囚禁起來,要求坦白交代。如果他們都承認縱火,每人將入獄3年;如果他們都不坦白,由于證據不充分,他們每人將只入獄1年;如果一個抵賴而另一個坦白并且愿意做證,那么抵賴者將入獄5年,而坦白者將得到寬大釋放,免于刑事處罰。
博弈格局
| 甲坦白 | 3-3 | 0-5 |
| 甲抵賴 | 5-0 | 1-1 |
“x-y”中的x表示甲獲刑時間,y表示乙獲刑時間。
博弈分析
幾個博弈論概念
- 全面:指的是不論對方采取哪個策略,我的這個策略總顯示優勢。囚徒困境問題中,對方坦白,我坦白比抵賴好;對方抵賴,我也是坦白比抵賴好。全面講究全面壓制,也就是在任何情況下這種策略都要比其他策略好,不允許“打平手”。
- 嚴格:指的是這個優勢策略的結局確實要好一些。囚徒困境問題中,對方坦白,我坦白確實比抵賴的結果好;對方抵賴,我坦白也確實比抵賴的結果好。所以,嚴格是說不僅僅是不差,而且是嚴格的好。(這種“嚴格”的概念類似于優化問題中局部最優解和嚴格局部最優解之間的關系)。
- “全面的嚴格的優勢策略”往往簡稱為“嚴格優勢策略”。
- 同理,如果說囚徒困境中,“坦白”是嚴格優勢策略,那么“抵賴”就是嚴格劣勢策略。嚴格劣勢策略是指被全面的嚴格優勢策略壓住的那個策略,也就是說不是嚴格優勢策略以外的策略。
- 指的是用刪除劣勢策略的方法得到的由雙方的嚴格優勢策略組成的對局,作為這個博弈的均衡。
經濟學習慣把市場力量對峙的穩定結局,叫作市場均衡(equilibrium)。比方說電視機的市場,供不應求將驅使價格上升,供大于求將迫使價格下降,供求力量對峙的結果,會在某個價格水平達到市場供求的均衡。
- 通過把嚴格劣勢策略刪去來尋求對局結果的方法。
- 如果雙方都有三四個甚至更多的策略選擇,通常需要一次一次又一次把嚴格劣勢策略刪去,才能最后得到一個均衡。這樣一次一次把嚴格劣勢策略刪去以尋求對局結果的方法就稱為嚴格劣勢策略逐次消去法。
博弈結果
理性的(這是前提)主體人是不會采用對自己明顯不利的嚴格劣勢策略的,所以從博弈論的角度來說,甲、乙雙方都會“坦白”,從而均獲刑3年。
值得一題的是,“囚徒困境”已經不僅僅指上面的縱火犯問題,已經泛化到一系列這種通過消去嚴格劣勢策略從而達到嚴格優勢策略均衡的問題。
價格大戰和雙贏對局
“囚徒困境”是一個博弈論問題,但是其模型可以用來描述兩個企業的“價格大戰”等許多經濟學現象。
經濟學把兩個企業合起來壟斷或幾乎壟斷了某種商品的市場的情形,稱為雙寡頭經濟。雙寡頭經濟是寡頭經濟的一種。寡頭經濟可以有好幾個企業,雙寡頭只限于兩個企業。兩個企業互相競爭,都想打垮對手,爭取更大的利潤。典型的例子就是可口可樂公司和百事可樂公司。
企業競爭的目的是增加自己企業的利潤。如果一家企業壟斷了整個市場,它可以直接通過提高價格增加利潤(如元太科技壟斷了整個墨水屏市場,導致墨水屏的價格居高不下);但是,當兩家企業壟斷市場(如可口可樂和百事可樂),他們就陷入了“囚徒困境”,因為如果一家提高了價格,消費者完全可以選擇另一家,除非兩者都十分默契地提高了價格。
假設甲、乙兩家企業均采用低價,各得30億的利潤;兩家都采用高價,各得50億的利潤;一家采用低價,一家采用高價,則低價者獲利60億,高價者獲利10億。則博弈格局為:
| 甲低價 | 30-30 | 60-10 |
| 甲高價 | 10-60 | 50-50 |
“x-y”中的x表示甲獲利,y表示乙獲利。
對于兩個企業,高價都是它們的嚴格劣勢策略,根據嚴格劣勢策略消去法,雙方價格大戰的結果是都采取低價策略各賺30億的情況。
雙寡頭相互競爭、相互敵對促使雙方都采取低價策略,如果雙方勾結或合作起來,都實行高價策略,那么雙方都可以避免價格大戰而獲取較高利潤。這種雙方都采取高價策略的對局形勢,叫作雙贏(two-win或者win-win)對局。因為高價策略是合作的結果,所以也叫做合作策略,低價策略也稱為不合作策略或者背叛策略。
從經濟的角度來看,如果幾個大企業聯手或勾結起來形成對行業的壟斷,謀求最大利潤,那么它們結成的聯盟,稱為卡特爾(Cartel)。卡特爾聯盟之間是利益關系,而不是上下級關系。卡特爾行為本身就提供了瓦解卡特爾的激勵。除了石油輸出國組織OPEC還算比較成功以外,卡特爾成功的例子很少。
這也意味著經濟博弈絕大多數還是非合作(競爭)博弈。
事實上,價格大戰體現出了競爭的重要性,政府也鼓勵企業之間的競爭。乍看起來,鼓勵競爭似乎對企業不利,使得企業很難獲利,但是競爭才能激勵企業改善管理,開發技術,努力以較低的成本生產質量較好的東西,提高企業的市場競爭力。
公共品供給的囚徒困境
問題
假設有一個只有甲、乙兩戶人家的小居民點,如果修一條路出去,每家都能得到“3”那么多好處,但是修路的成本相當于“4”。
方案
- 如果兩家聯合修路,每家分攤成本“2”,各得好處“3”,兩家的純得益都是“1”。
- 如果一家修另一家坐享其成,修的一家付出“4”而得到“3”,得益是“–1”,坐享其成的一家可以白白得益“3”。
- 如果兩家都不修路,結果兩家的得益都是“0”。
博弈格局
| 甲修 | 1 ~ 1 | -1 ~ 3 |
| 甲不修 | 3 ~ -1 | 0 ~ 0 |
“x ~ y”中的x表示甲獲益,y表示乙獲益。
這個問題中,“修路”對于甲和乙都是嚴格劣勢決策,運用嚴格劣勢策略消去法,最終得到這個博弈的嚴格優勢策略均衡:兩家都不修路,獲益均為0。
需要聲明的是,博弈論中的參與者(局中人)都是經濟學上的“理性人”,他們只利己,但不刻意害人。
政治家的囚徒困境
問題
1984年,美國面臨財政赤字。要解決這一問題,無外乎“節流”和“開源”兩種思路。但是裁減聯邦開支似乎難以實施,故大幅增稅在所難免。增稅是選民最不喜歡的事情,故民主黨和共和黨都想將加稅的主動權拋給對方。
方案
- 民主黨和共和黨都主動
- 一方主動,另一方不主動
- 民主黨和共和黨都不主動
博弈格局
把每個結果按照各方的利益給出1到4的排序,數字越小越好。
| 共和黨主動 | 2 ~ 2 | 4 ~ 1 |
| 共和黨不主動 | 1 ~ 4 | 3 ~ 3 |
“x ~ y”中的x表示共和黨獲益,y表示民主黨獲益。
顯然,對于雙方而言,保持被動都是一個優勢策略,運用嚴格劣勢策略消去法,最終得到這個博弈的嚴格優勢策略均衡:雙方都不主動。
基數支付和序數支付
以前講的支付矩陣,在運用劣勢策略消去法的時候,都是把相應于支付數目小的策略刪去,把相應于支付數目大的策略留下。但是政治家的囚徒困境中,我們卻把相應于數目大的策略刪去,把相應于數目小的策略留下。
究竟把小的刪去還是把大的刪去,關鍵是看大的好還是小的好,看大的表示好的還是小的表示好的。
數字表達好壞,有兩種基本的制度:一種是像百分制那樣的基數(cardinal)表示制度,數字越大越好;另外一種是第1名最好的序數(ordinal)表示制度,數字越小越好。
基數詞給出數值,而序數詞給出排序。
美蘇爭霸的囚徒困境
問題
美蘇對壘,雙方各有兩種策略選擇,一個是擴軍,發展戰略核武器,另一個是徹底裁軍,直至不設軍備。如果雙方都擴軍,則各要花費2000億美元用于軍費;如果徹底裁軍,則軍費為0。若一方擴軍,一方裁軍,則擴軍方將獲得主動權,獲利10000億美元(減去軍費,獲利8000億美元),裁軍方將損失?∞-\infty?∞。
方案
- 雙方都擴軍
- 一方擴軍,一方裁軍
- 雙方都裁軍
博弈格局
| 美國擴軍 | -2000 ~ -2000 | 8000 ~ 負無窮 |
| 美國裁軍 | 負無窮 ~ 8000 | 0 ~ 0 |
“x ~ y”中的x表示美國獲利,y表示蘇聯獲利。
顯然,對于雙方而言,擴軍都是一個優勢策略,運用嚴格劣勢策略消去法,最終得到這個博弈的嚴格優勢策略均衡:雙方都擴軍,雙方都損失。
總結
以上是生活随笔為你收集整理的01博弈三要素和囚徒困境的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 车牌识别系统服务器设计,道闸车牌识别系统
- 下一篇: MariaDB数据存储引擎的选择