数学建模(十)博弈论
在前一講中,我們討論了決策論,其中決策者面對的結(jié)果和支付只依賴于他本人的決策,而不依賴一個或者多個其他參與者的決策。決策論最后決定的結(jié)果可能存在機會和風險,但不會與另一個參與者的決策有關(guān)系。比如假定兩個國家在軍備競賽而希望裁軍,如果一方裁軍,這個國家的結(jié)果不僅依賴于該國的決策,也依賴于第二個國家的決策。
如果只依賴于一個參與者,我們把這類決策模型稱為決策論;
如果結(jié)果依賴于多于一個參與者的決策,我們把這類決策模型稱為博弈論;
10.1:博弈論:完全沖突:
按照參與者之間的沖突是完全沖突還是部分沖突對博弈論進行分類。進一步把完全沖突的博弈按照最優(yōu)策略是純策略還是混合策略進行分類。
舉例1:一個有純策略的完全沖突博弈:
例如有兩家連鎖店,都同時想在兩個城市開連鎖店,假設(shè)為A,B兩地,如圖所示是兩個連鎖店所占的市場份額:
從上圖可以發(fā)現(xiàn)兩家連鎖店其中一家每得到一點份額都是需要另一家失去一點份額,而市場總額是1,并且兩家連鎖店的決策結(jié)果不僅取決于自身還取決與對手的策略。這個博弈是完全沖突的。
定義: 純策略是參與者可采取的行動的集合,每個參與者選定的策略共同決定博弈的結(jié)果以及每個參與者的花費。
通過圖中數(shù)據(jù)我們也可以發(fā)現(xiàn),無論甲連鎖店開在何處,乙連鎖店只需要開在A地就可以始終占優(yōu)。占優(yōu)策略:
定義:策略A占優(yōu)與策略B,是指策略A的每一個結(jié)果至少和B的對應(yīng)結(jié)果一樣好,并且至少A的某一個結(jié)果嚴格優(yōu)于B的對應(yīng)結(jié)果。占優(yōu)原理:在嚴格沖突博弈中,一個理性的參與者應(yīng)該永遠不要采用被占優(yōu)的策略。
同時也可以發(fā)現(xiàn)結(jié)果(A,A)即兩個連鎖店都開在A地時,此時沒有任何一個參與者可以單方面改變策略而使得自己獲得改善,這種情況我們稱為納什均衡: 表示這樣一個結(jié)果,任何一個參與者都不能通過單方面更改策略而獲得好處。同時由于這些每個結(jié)果和是1,完全沖突博弈也稱作常數(shù)和博弈: 如果對每一個可能的結(jié)果,每個參與者的支付之和是同一個常數(shù),這個博弈稱為完全沖突博弈。
舉例2:一個有混合策略的完全沖突博弈:
這里是以擊球手與發(fā)球手來說明,發(fā)球手可以發(fā)出兩種球,而接球手也可以接兩種球,發(fā)球手選擇一種球發(fā)出,而接球手需要提前判斷并采取相應(yīng)的措施,一個參與者總是可以通過單方面更改策略而使自己得到改善。這里就有混合策略:對一個參與者的純策略的隨機化,即對參與者的每一個純策略指定一定的概率,該概率表示這個純策略被采用的相對頻率。
10.1:博弈論:部分沖突:
在前兩個例子中,決策者的沖突是完全的,意思是沒有參與者在不傷害其他參與者的前提下能夠使自己得到改善。下面的例子就是部分沖突的:
例如兩個在軍事競賽的國家已經(jīng)陷入僵局,假如國家A有兩種選擇,裁軍或者保持,國家B也有同樣的兩種選擇:
所以如圖所示,如果兩個國家都保持軍備那么就是次差選項,但是兩個國家都可以通過改變策略在不傷害對方的基礎(chǔ)上使得自己的情況得到改善,這種博弈就是部分沖突。我們將研究為了使每個國家都得到改善,需要克服怎樣的障礙,我們可以看到許多博弈中合作是有益的,但可能會存在很強的不合作動機。
定義:如果對于每一個可能的結(jié)果,每個參與者的支付之和不是同一個常數(shù),此類博弈是部分沖突的。
在研究部分沖突時的一個重要區(qū)別是博弈如何進行的,有沒有交流,有沒有仲裁,交流的形式可能是自己先出招并告知另一參與者你已經(jīng)出招,以便威脅阻止對手選擇對你不利的策略,或者承諾對手選擇你所喜歡的策略時,你會選取某個特定的策略。最后仲裁是一種根據(jù)每個參與者的策略優(yōu)勢找到的一個基于協(xié)商獲得的公平解的方法。
10.2 完全沖突博弈的線性規(guī)劃模型:純策略與混合策略
如之前說的擊球手與發(fā)球手:
現(xiàn)在需要解除策略的最優(yōu)混合方式,每個參與者決定如何采用每個策略。如果我們知道每個參與者采用其中兩個策略的概率,計算擊球平均分就是求期望值,若投球手以1/2的概率采用快球策略,以1/2的概率采用弧線球策略,擊球手以3/4的概率采用快球策略,以1/4的概率采用弧線球策略,那么其擊球平均分為:
E=0.41/23/4+0.11/21/4+0.21/23/4+0.31/21/4=0.275;
其決策樹如下:
首先對擊球手進行建模:
首先考慮擊球手的決策,他希望選擇猜測快球或者弧線球的某種組合,使擊球平均分最大。
我們定義以下變量:
A:擊球平均分 x:擊球手猜中快球的比例 1-x擊球手猜中弧線球的比例。
目標函數(shù): 擊球手的目標是:MAX A
約束: 擊球手為了使擊球平均分最大,面臨什么樣的約束呢?投球手可以全部投出快球或者弧線球,也就是說,投球手可以采用它的兩個純策略之一來應(yīng)對擊球手的混合策略,這兩個純策略給擊球手最大化擊球平均分能力施加了一個上限。
若全為快球:
EV(PF)=0.4x+0.1(1-x);
若全為弧線球:
EV(PC)=0.2x+0.3(1-x);
其中0<x<1;
所以組合起來,我們有如下針對球手的優(yōu)化問題:
MAX A:
s.t.
A<0.4x+0.1(1-x);投球手的快球策略
A<0.2x+0.3(1-x);投球手的弧線球策略
采用線性規(guī)劃的方法,對上述約束問題進行圖形求解:
可以解出x=0.5時有最優(yōu)解。
對投球手的決策進行建模:
我們現(xiàn)在考慮投球手的決策,他希望選擇投出快球或者弧線球的某種組合
定義變量:A:擊球平均分;y:投球手投出快球的比例;1-y:投球手投出弧線球的比例;
目標函數(shù):投球手的目標是MIN A
約束:投球手為了使擊球平均分最小,面臨什么樣的約束?擊球手可以全部猜測快球或者弧線球。也就是擊球手可以采用兩個純策略之一應(yīng)對投球手的混合策略,這兩個純策略給投球手最小化擊球平均分的能力施加了一個下限。所以有下面兩個約束表達式:
A>0.4y+0.2(1-y):采用純快球;
A>0.1y+0.3(1-y);采用純弧線球;
所以最后的優(yōu)化問題轉(zhuǎn)化成:
MIN A
s.t. A>0.4y+0.2(1-y):采用純快球;
A>0.1y+0.3(1-y);采用純弧線球;
0<y<1;
通過幾何求解:
最優(yōu)解的幾何解釋:
如果同時考慮擊球手和投球手的決策,我們就有如下的博弈樹:
所以期望值是:
A=0.4xy+0.1x(1-y)+0.2(1-x)y+0.3(1-x)(1-y)其中x是擊球手猜快球的比例,y是投球手選擇快球的比例,通過對其進行代數(shù)求解,可以發(fā)現(xiàn)其鞍點在點x=0.5和點y=0.25處。
總結(jié):
可以發(fā)現(xiàn)如果x=0.25,無論投球手怎么樣投球,擊球手都能得到0.25分,同樣的如果y=0.25,不論擊球手選擇什么樣的猜測,擊球手都能獲得0.25分,所以任何參與者都可以從不采用最優(yōu)策略的對手處占便宜。
10.3:與大自然的博弈:
上一節(jié)中我們看到擊球手從他的最優(yōu)問題中得到的有用信息:如何找到一個策略保證他希望的結(jié)果,而無論他面對的投球手采用什么策略,在經(jīng)濟領(lǐng)域和其他其他應(yīng)用中,“保證能夠得到的結(jié)果”的想法是一種重要思想。同時也可以考察投球手希望最小化擊球手的擊球平均分的優(yōu)化問題,擊球手可能會得到更為有用的信息。
舉例:考慮下面情形,企業(yè)計劃進行小規(guī)模生產(chǎn)還是大規(guī)模生產(chǎn),經(jīng)濟在未來幾年的一段時間可能差也可能好。
這里假如經(jīng)濟差的概率是0.4,那么小規(guī)模生產(chǎn)的期望利潤是:0.4500+0.6300=380;大規(guī)模生產(chǎn)的期望利潤是:0.4100+0.6900=580;那么在這種假設(shè)下,企業(yè)應(yīng)該實施大規(guī)模生產(chǎn)的利潤。
這里我們需要考慮為企業(yè)找到一條策略,無論經(jīng)濟情況如何,保證企業(yè)能夠得到的結(jié)果。
企業(yè)的博弈: 為企業(yè)找到一個策略,無論經(jīng)濟情況如何,保證企業(yè)得到的結(jié)果。
變量: V 企業(yè)純利潤,x:企業(yè)采用小規(guī)模生產(chǎn)的策略所占比例;(1-x)企業(yè)采用大規(guī)模生產(chǎn)的時間所占比例。
有V<500x+100(1-x):經(jīng)濟為全差時的利潤;
V<300x+900(1-x):經(jīng)濟為全好時的利潤;
所以總結(jié)為下列的線性規(guī)劃優(yōu)化問題:
Max V
s.t. V<500x+100(1-x):
V<300x+900(1-x):
0<x<1;
對其進行線性規(guī)劃,可以發(fā)現(xiàn)當解為0.8時有最優(yōu)解,即企業(yè)在80%的時間進行小規(guī)模生產(chǎn),在20%的時間進行大規(guī)模生產(chǎn),這是一個保守策略,無論經(jīng)濟總是差或者總是好,或者差與好的混合,這都是一個保守的策略。
經(jīng)濟的博弈: 經(jīng)濟針對企業(yè)所能夠做的最壞情形是什么。
變量: V 企業(yè)純利潤,y:經(jīng)濟采用差策略所占比例;(1-y)經(jīng)濟采用好策略時間所占比例。
有V>500y+300(1-y):企業(yè)采用純小規(guī)模生產(chǎn)的策略;
V>100y+900(1-y):企業(yè)采用純大規(guī)模生產(chǎn);
所以總結(jié)為下列的線性規(guī)劃優(yōu)化問題:
Max V
s.t. V>500y+300(1-y):
V>100y+900(1-y):
0<y<1;
對其進行線性規(guī)劃,可以發(fā)現(xiàn)當解為0.6時有最優(yōu)解,即經(jīng)濟60%的策略是差,40%的概率為好。
現(xiàn)在企業(yè)可以同時利用企業(yè)的博弈和經(jīng)濟的博弈來為自己定義一些選項:當企業(yè)不能確定經(jīng)濟狀況如何時,應(yīng)當采用保守策略,80%的概率進行小規(guī)模生產(chǎn),20%的概率進行大規(guī)模生產(chǎn),然而從經(jīng)濟的博弈看,如果企業(yè)認為經(jīng)濟將會在超過60%的時間為差,那么應(yīng)該采用小規(guī)模生產(chǎn)的策略從而獲得超過原先的利潤。
10.4.部分沖突博弈:經(jīng)典的兩人博弈:
在部分沖突博弈中,參與者的目標是什么?在完全沖突的情形中,每個參與者希望最大化他的支付,在這個過程中同時最小化另一個參與者的支付。但是在部分沖突博弈中,一個參與者可能會有以下目標中的任意一個目標:
1.最大化他的支付: 每個參與者選擇一個策略,希望最大化他的支付。當一個參與者推理另一個參與者應(yīng)該如何應(yīng)對時,這個參與者不會把保證另一個參與者得到“公平的”結(jié)果作為目標,參與者最大化他自己的支付。
2.找到一個穩(wěn)定的結(jié)果: 參與者通常會有興趣找到一個穩(wěn)定的結(jié)果,納什均衡結(jié)果是任何一個參與者都不能單方面得到進一步改善的結(jié)果,因此代表了一種穩(wěn)定的結(jié)果。
3.最小化對手支付: 假設(shè)有兩家公司,其產(chǎn)品市場相互作用,但不是完全沖突的,每家公司可能從最大化自身支付開始,但如果對結(jié)果不滿意,這兩家公式可能會變成敵對,并選擇最小化另一支付的目標,也就是說一個參與者可能會放棄它最大化自己利潤的長期目標,并選擇最小化對手利潤的短期目標。
4.找到一個共同公平的結(jié)果,這可能是在仲裁人的幫助下得到的: 兩個參與者可能都對當前的狀況不滿意,相互最小化對方所得到的結(jié)果可能對雙方都是很差的,在這種情況下,參與者可能會同意接受仲裁者的決策,而仲裁者必須確定一個公平的解。
總結(jié)
以上是生活随笔為你收集整理的数学建模(十)博弈论的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 惠普服务器自动装驱动安装,Win10系统
- 下一篇: htcd816+android密码,详细