博弈论:别人的想法(文末送书!)
本文節(jié)選自《算法之美:指導(dǎo)工作與生活的算法》
中信出版集團(tuán),2018年05月出版
我是一個樂觀主義者,我相信人類是高尚和可敬的,而且他們中的一些人真的很聰明……我對群體中的人有一些比較悲觀的看法。
——史蒂夫?喬布斯
投資者將股票賣給另一個人,一個人相信它會下跌,一個人認(rèn)為它會上漲;我想我知道你的想法,但不知道你認(rèn)為我在想什么;一個經(jīng)濟(jì)泡沫破裂;未來的愛人提供一份禮物,這份禮物既不是表示“我想要做的不只是朋友”,也不是“我不想超過朋友關(guān)系”;一桌食客爭論誰應(yīng)該請誰以及為什么;有人試圖幫忙卻無意中有所冒犯;有人努力裝酷卻引來旁人竊笑;某人試圖從人群中脫出,卻失望地發(fā)現(xiàn),人們也都跟著他出來了。“我愛你”,一個情人對另一個情人說,“我也愛你”,另一個人回答說,兩人都想知道對方到底是想說什么。
計(jì)算機(jī)科學(xué)對此有什么要說的呢?
學(xué)生們被教導(dǎo)要把文學(xué)情節(jié)設(shè)想為屬于以下幾個類別中的一個:人與自然、人與自己、人與人、人與社會。到目前為止,在本書中,我們主要考慮了前兩類的案例,也就是說,計(jì)算機(jī)科學(xué)一直以來都是我們對世界基本結(jié)構(gòu)和處理信息的有限能力所產(chǎn)生的問題的指南。最優(yōu)停止問題源于時間的不可逆性和不可廢止性,從時間有限的供給中探索或利用困境。松弛和隨機(jī)性是在解決旅行計(jì)劃和疫苗等挑戰(zhàn)中遇到的不可避免的復(fù)雜性問題的關(guān)鍵和必要策略。
在這一章中,我們轉(zhuǎn)移了焦點(diǎn),并考慮剩下的兩種類別,即人與人,和人與社會:實(shí)際上,我們所提出的問題也互相影響。我們對這一領(lǐng)域的最好的指導(dǎo)來自一個稱為博弈論的數(shù)學(xué)分支,這個經(jīng)典理論對20?世紀(jì)產(chǎn)生了巨大的影響。在過去的幾十年里,博弈論和計(jì)算機(jī)科學(xué)之間的交叉作用已經(jīng)產(chǎn)生了算法博弈論,這一理論從20?世紀(jì)初開始就已經(jīng)產(chǎn)生了影響。
遞歸
現(xiàn)在,一個聰明的人會把毒藥放進(jìn)自己的杯子里,因?yàn)樗乐挥猩倒喜艜焓秩ツ盟玫降臇|西。我不是傻瓜,所以我不能在你面前選酒。但你一定知道我不是一個很愚蠢的人(你會相信嗎),所以我顯然不能先選酒。
——《公主新娘》
可以說,20?世紀(jì)最具影響力的經(jīng)濟(jì)學(xué)家約翰·梅納德·凱恩斯曾經(jīng)說過:“成功的投資是預(yù)見他人的預(yù)期。”例如,股票以60?美元出售,買方肯定相信他日后可以以70?美元的價格賣掉——賣給那些相信可以以80?美元的價格出售的人,再賣給那些相信可以以90?美元的價格出售的人,再賣給那些相信可以以100美元的價格出售的人。這樣一來,股票的價值并不是人們所認(rèn)為的價值,而是人們所認(rèn)為的人們認(rèn)為它的價值。事實(shí)上,這還遠(yuǎn)遠(yuǎn)不夠。正如凱恩斯所說,在美麗與受歡迎之間做出了重要的區(qū)分:
專業(yè)投資就好比是那些報紙競爭中的競爭對手必須從100張照片里挑出6個最漂亮的面孔,該獎項(xiàng)被授予最接近整體平均偏好的競爭對手。這樣每個競爭對手都要選擇,不是選那些他自己認(rèn)為最漂亮的面孔,而是那些他認(rèn)為最有可能吸引其他競爭對手注意的面孔,他們都要從相同的觀點(diǎn)看問題。這不是要去選擇那些最漂亮的人,甚至也不是普通審美認(rèn)為是最漂亮的人。我們已經(jīng)達(dá)到了第三階段,我們考慮的是去預(yù)測普通審美所預(yù)測的普通審美。我相信還有人是在實(shí)踐第四,第五,或更高的階段。
計(jì)算機(jī)科學(xué)闡明了這種推理的基本限制,即所謂的“停機(jī)問題”。正如阿蘭·圖靈在1936年所證明的,計(jì)算機(jī)程序永遠(yuǎn)無法確定另一個程序是否會永遠(yuǎn)計(jì)算下去,除非通過模擬這個程序的運(yùn)行,才有可能脫離最終的結(jié)局。(因此,程序員永遠(yuǎn)不會有自動的工具來判定他們的軟件是否會被凍結(jié)。)這是所有計(jì)算機(jī)科學(xué)中最基本的結(jié)果之一,許多證據(jù)都就此止步。簡單地說,任何一個系統(tǒng)(無論是機(jī)器還是頭腦)都模擬了像它自己這樣復(fù)雜的工作方式,發(fā)現(xiàn)它的資源被完全利用,很明顯或多或少都有一些。計(jì)算機(jī)科學(xué)家們有一個術(shù)語來形容進(jìn)入鏡廳后無窮無盡的旅程,就是思想模擬正在模擬思想的思想——“遞歸”。
“在撲克游戲中,你從不會玩你自己手里的牌,”詹姆斯·邦德在《皇家賭場》中說,“你玩的是你對面的那個人的牌。”事實(shí)上,你真正玩的是一個理論上的無限遞歸。你知道自己手里的牌,并且知道你的對手所擁有的牌,然后你相信你的對手知道你所擁有的牌,你相信你的對手也知道你知道他有的牌……“我不知道這是不是一個真正的博弈論術(shù)語,”世界排名第一的撲克玩家丹·史密斯說道,“但是撲克玩家稱它為‘水平’。第一級水平是‘我知道’。第二級是‘你知道我知道’。第三級是,‘我知道你知道我知道’。有些情況下,你會說,‘哇,這是一個愚蠢的虛張聲勢的方法,但如果他知道這是一個愚蠢的方法,那他就不會叫我的牌,那么這就是一個聰明的虛張聲勢的方法’。這些事情經(jīng)常發(fā)生。”
其中最令人難忘的一次虛張聲勢是,當(dāng)湯姆·德萬在玩德州撲克時,下注金額已達(dá)到479 500?美元時,當(dāng)時他的牌絕對是最糟糕的2–7,那時他就直接告訴他的對手薩米·喬治,他不棄牌。“你的牌肯定不是2–7,”喬治回答說,“你的牌肯定不是2–7。”因此喬治棄牌,然后德萬(是的,的確是2–7)就贏了所有獎金。
在撲克游戲中,遞歸是一種危險的游戲。當(dāng)然,你不希望在你的對手后一步被抓住,但也有必要不要在他們前面走得太遠(yuǎn)。“有一條規(guī)則是,你真的只希望比對手高一個水平,”撲克職業(yè)選手凡妮莎·魯索解釋說:“如果你水平比對手高太多,你就會認(rèn)為他們掌握了實(shí)際上沒有掌握的信息,(而且)他們無法從你的行動中收集到你想要的信息。”有時,撲克專業(yè)人士會故意引誘對手進(jìn)入一個錯綜復(fù)雜的遞歸,同時玩得過于教條。這被稱為引誘他們進(jìn)入“一場對抗自己的水平之戰(zhàn)”。
(引誘對手進(jìn)行無結(jié)果的遞歸也可以成為其他游戲的有效策略。這是人機(jī)對抗歷史上最精彩、最奇異、最引人入勝的一場:2008年,美國大師中村光和著名的計(jì)算機(jī)象棋程序雷布卡展開了一場快棋對決。在這一游戲中,每一方只有3分鐘來走棋,要么就自動輸?shù)粲螒?#xff0c;這樣的時間優(yōu)勢當(dāng)然是在電腦的一邊——電腦每一秒都能評估數(shù)以百萬計(jì)的數(shù)位,甚至走棋都不需要調(diào)動任何肌肉。但是中村光很快就將棋勢擁塞,重復(fù)走著毫無意義的棋。與此同時,電腦浪費(fèi)了寶貴的時間,徒勞地尋找那些根本不存在的變化,并且固執(zhí)地試圖預(yù)測中村光未來所有可能的動作,而中村光他自己似乎只是在下一盤類似于玩弄自己拇指的棋。當(dāng)電腦幾乎耗盡它的時間,開始掙扎,以免超時的時候,中村光終于打開了這個走位,然后徹底翻盤。)
鑒于遞歸的危險,撲克專業(yè)人士又是如何從中跳出的呢?他們使用博弈論。“有時候,你可以想出一些理由來利用游戲,但很多時候,你只是在進(jìn)行低級游戲,無非只是噪聲而已,”丹·史密斯解釋道,“在大多數(shù)情況下,我真的很努力想要擁有一個基本級的理論進(jìn)行理解。剛開始,我總是要知道或想知道納什是什么。“那么納什是什么呢?”
達(dá)到均衡
你知道規(guī)則,我也知道……我們了解這個游戲,我們將要玩這個游戲。
——里克?阿斯特利
博弈論覆蓋非常廣泛的合作和競爭場景,但這一領(lǐng)域開始于那些類似于單挑撲克的領(lǐng)域:這是一種雙人比賽,一個玩家的收益就是另一個玩家的損失。數(shù)學(xué)家分析這些游戲的目的是尋找所謂的均衡:即,這是一套雙方都能遵循的策略,因?yàn)樗麄兊膶κ侄疾辉敢飧淖冏约旱挠螒颉K环Q為均衡,因?yàn)樗欠€(wěn)定的,沒有任何一個玩家的進(jìn)一步的想法可以讓他們做出不同的選擇。考慮到你的策略,我對我的策略很滿意,考慮到我的策略,你對我的策略也很滿意。
例如,在石頭剪刀布游戲中,均衡告訴我們,完全隨機(jī)選擇一個相同的手勢,每一個大約有1/3?的機(jī)會,這令人毫無興奮可言。使這個平衡保持穩(wěn)定的是,一旦雙方都采用這一1/3–1/3–1/3?的策略,那么除了堅(jiān)持下去也沒有什么更好的方法了。(比方說,如果我們試著出更多的石頭,我們的對手很快就會注意到,然后就開始出更多布,這將會使我們出更多的剪刀,以此類推,直到我們雙方都回到1/3–1/3–1/3的均衡狀態(tài)。)
博弈論有一個開創(chuàng)性的結(jié)果,數(shù)學(xué)家約翰·納什在1951?年證明了每一個雙人游戲至少有一種均衡。這一重大發(fā)現(xiàn)使納什獲得了1994年的諾貝爾經(jīng)濟(jì)學(xué)獎(并由此產(chǎn)生了關(guān)于納什的名為“美麗心靈”的書和電影)。這種均衡現(xiàn)在被稱為“納什均衡”,即丹·史密斯一直試圖追蹤的“納什”。
從表面上看,納什均衡總是存在于兩個玩家的游戲中,這似乎讓我們稍稍從那些描述撲克和許多其他熟悉比賽的鏡像遞歸中解脫出來。當(dāng)我們感覺自己掉進(jìn)了遞歸的兔子洞時,我們總是有辦法跳出對手的腦袋,尋找均衡,直接進(jìn)入最佳策略,設(shè)想這是一場理性的游戲。在石頭剪刀布里,仔細(xì)觀察對手的臉,看看他們可能會出什么,這也許是不值得的,如果你知道長遠(yuǎn)來看,隨便亂出才是一個不可戰(zhàn)勝的策略。
更通俗地說,納什均衡可以幫助人們預(yù)測任何一套規(guī)則或激勵制度的長期穩(wěn)定結(jié)果。因此,它是預(yù)測和制定經(jīng)濟(jì)政策以及總體社會政策的寶貴工具。正如諾貝爾獎得主經(jīng)濟(jì)學(xué)家羅杰·邁爾森所說,納什均衡“對經(jīng)濟(jì)學(xué)和社會科學(xué)產(chǎn)生了根本性和普遍的影響,與生物科學(xué)中DNA(脫氧核糖核酸)雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)具有可比性。”
然而,計(jì)算機(jī)科學(xué)把這個故事復(fù)雜化了。廣義而言,數(shù)學(xué)研究的對象是真理;計(jì)算機(jī)科學(xué)研究的對象是復(fù)雜性。正如我們所看到的,如果一個問題是難以解決的,那么要找到問題的解決辦法就是不夠的。
在博弈論環(huán)境中,知道均衡存在并不會告訴我們它是什么,或者如何實(shí)現(xiàn)它。正如加州大學(xué)伯克利分校的計(jì)算機(jī)科學(xué)家克里斯托斯·帕帕迪米特里歐所寫,博弈論“預(yù)測了代理人的均衡行為,又通常不考慮到這樣一種狀態(tài)實(shí)現(xiàn)的方式,而這正是計(jì)算機(jī)科學(xué)家最應(yīng)該關(guān)心的問題。斯坦福大學(xué)的蒂姆·拉夫加登也認(rèn)為納什提出的證明均衡永遠(yuǎn)存在的證據(jù)不充分。“好吧,”他說,“但我們是計(jì)算機(jī)科學(xué)家,對吧?”給我們一些可以用的東西。不要只告訴我它在那里,告訴我怎么找到它。因此,博弈論最初的領(lǐng)域是基于算法的博弈論,也就是說,對游戲理論上的理想策略的研究成為機(jī)器(和人)如何為游戲制定策略的研究。
事實(shí)證明,問太多關(guān)于納什均衡的問題會讓你很快陷入計(jì)算麻煩。到20?世紀(jì)末,確定一款游戲是否超過一種均衡,或者有一種能給玩家?guī)硪欢ɑ貓蟮木?#xff0c;或者一種需要采取特定行動的均衡,都被證明是棘手的問題。然后,2005—2008?年,帕帕迪米特里歐和他的同事證明,僅僅找到納什均衡都很棘手。
像石頭剪刀布這樣簡單的游戲,隨意一瞥就可以看到其中的均衡,但是我們現(xiàn)在很清楚,在現(xiàn)實(shí)世界的復(fù)雜性游戲中,我們不能想當(dāng)然地認(rèn)為參與者能夠發(fā)現(xiàn)或者達(dá)到游戲的均衡。反過來,這意味著游戲的設(shè)計(jì)者不能用均衡來預(yù)測玩家的行為。這一發(fā)人深省的結(jié)果產(chǎn)生了深遠(yuǎn)的影響:作為一種模擬和預(yù)測市場行為的方式,納什均衡在經(jīng)濟(jì)理論中保有一個神圣的地位,但這一地位可能不是應(yīng)得的。正如帕帕迪米特里歐解釋的那樣,“如果一個均衡的概念不能被有效地計(jì)算,那它作為對理性主體行為的預(yù)測的可信度就會失去大半”。麻省理工學(xué)院的斯科特·阿倫森對此表示贊同。“在我看來,”他說,“如果納什均衡成立的定理被認(rèn)為與自由市場和政府干預(yù)之間的爭論有關(guān),那么發(fā)現(xiàn)這些均衡的確難以處理的定理就也應(yīng)該被認(rèn)為是相關(guān)的。”納什均衡的預(yù)測能力只有當(dāng)參與者真正找到均衡時才體現(xiàn)其重要性。引用億貝網(wǎng)(eBay)前研究主管卡邁勒·杰恩的話:“你的筆記本電腦都無法找到的東西,市場也無法找到。”
占優(yōu)策略,無論好壞
即使當(dāng)我們達(dá)到平衡時,僅僅因?yàn)樗欠€(wěn)定的并不會使它變好。這似乎自相矛盾,但是均衡策略,是沒有參與者愿意改變策略的領(lǐng)域,并不一定是為參與者帶來最好結(jié)果的策略。沒有什么比博弈論中最著名、最具煽動性、更有爭議的雙人游戲“囚徒的困境”更能說明問題了。
囚徒的困境玩法如下。想象一下,你和一個密謀者在搶劫了一家銀行后被逮捕,并被關(guān)押在不同的牢房里。現(xiàn)在你必須決定是否要與對方“合作”,是保持沉默,不承認(rèn)任何事情,還是通過向警方告發(fā)對方來“背叛”你的伙伴關(guān)系。你們知道,如果你們彼此合作,保持沉默,州政府就沒有足夠的證據(jù)來定你們?nèi)魏我粋€人的罪,所以你們都可以重獲自由,然后兩個人分那筆贓款——每人50萬美元。如果其中一方叛變并告發(fā)對方,而另一方什么沒招供,那名告密者就將得到全部的100萬美元,而保持沉默的人則會被判為唯一的犯罪嫌疑人,并被判10年徒刑。如果你們雙方都互相告發(fā),那么你們就會分擔(dān)刑期:每人5年。問題就在這里。
不管你的同謀做了什么,你最好的選擇永遠(yuǎn)是叛變。
如果你的幫兇出賣了你,那么反過來,如果你也出賣他們,你將會減少5年的刑期——你將會與同伙共同分擔(dān)刑期(5年),而不是你自己獨(dú)自服刑(10年)。如果你的同伙保持沉默,告發(fā)他們可以使你得到100萬美元——你就不必將贓款拿出一半了。無論如何,不管你的同謀如何決定,對你來說告發(fā)總比合作更好。相反的做法則會讓你變得更糟,不管怎樣。
事實(shí)上,這使叛變不僅僅成為均衡策略,還是所謂的占優(yōu)策略。一個占優(yōu)策略避免了遞歸,因?yàn)樗菍δ銓κ炙锌赡懿呗缘淖罴逊磻?yīng),所以你甚至不需要麻煩自己了解他們的想法。占優(yōu)策略是強(qiáng)有力的。
但現(xiàn)在我們已經(jīng)到了這個矛盾的地方。如果每個人都做理性的事情,并遵循占優(yōu)策略,那么故事就會結(jié)束,你們都要服刑5?年——這與自由和每人50?萬美元相比,每個人的處境都要糟糕得多。怎么會這樣呢?
這已成為傳統(tǒng)博弈論的主要見解之一:一組游戲玩家的均衡,所有人都玩得很理性,這對那些玩家來說可能不是最好的結(jié)果。
與計(jì)算機(jī)科學(xué)原理相一致的算法博弈論,已經(jīng)接受了這一觀點(diǎn),并對其進(jìn)行量化,創(chuàng)造了一種叫作“調(diào)和率”的度量。調(diào)和率衡量合作(集中設(shè)計(jì)或協(xié)調(diào)的解決方案)和競爭(每個參與者都各自試圖最大化利于自己的結(jié)果)之間的差距。在像囚徒的困境這樣的游戲中,這個調(diào)和率實(shí)際上是無限的:增加贓款金額和延長刑期可以使可能的結(jié)果之間的差距任意擴(kuò)大,即使占優(yōu)策略保持不變。如果參與者不協(xié)調(diào)的話,那事情的痛苦程度就無止境了。但在其他游戲中,正如算法博弈理論家會發(fā)現(xiàn)的那樣,調(diào)和率并不那么糟糕。
例如,想想交通。無論是每日試圖在各種交通堵塞中通過的個人通勤者,還是在互聯(lián)網(wǎng)上移動傳輸控制協(xié)議數(shù)據(jù)包的路由器,系統(tǒng)中的每一個人僅僅想要對他們個人來說最容易的選擇。司機(jī)只是想走最快的路線,不管路線是什么,而路由器只是想在它們的包里隨意地移動,但是在這兩種情況下,這可能導(dǎo)致在關(guān)鍵路徑上過度擁擠,使大家都堵塞。但這有多大的傷害啊?令人驚訝的是,蒂姆·拉夫加登和康奈爾大學(xué)的伊娃·塔多斯在2002年證明了“自私路由”方法的調(diào)和率僅僅是4/3。也就是說,完全公開只比組織嚴(yán)密的完美的協(xié)調(diào)差33%。
拉夫加登和塔多斯的研究成果對城市規(guī)劃和網(wǎng)絡(luò)基礎(chǔ)設(shè)施都產(chǎn)生了深刻的影響。例如,自私路由的低調(diào)和率可以解釋為什么因特網(wǎng)的運(yùn)作和沒有任何中央集權(quán)管理單個數(shù)據(jù)包的路由運(yùn)行效果一樣。即使這樣的協(xié)調(diào)是有可能的,但也不會增加太多。
當(dāng)涉及人類的交通時,低調(diào)和率會在兩方面各有利弊。好的方面是,缺乏集中的協(xié)調(diào)只會使得你的通勤狀況變糟33%。另一方面,如果你希望自動駕駛的汽車能為我們帶來未來交通的理想狀況,那么如果你了解到,現(xiàn)今的自私、不愿協(xié)調(diào)的司機(jī)其實(shí)已經(jīng)相當(dāng)接近最佳狀態(tài)時,可能會令你十分沮喪。的確,自動駕駛汽車應(yīng)該減少交通事故的數(shù)量,并且能夠使汽車更緊密地往前行駛,實(shí)現(xiàn)這兩方面都能加快交通速度。但從擁塞的角度來看,調(diào)和率只有4/3,而完美的協(xié)調(diào)意味著完全協(xié)調(diào)的通勤只能是現(xiàn)在的3/4。這有點(diǎn)兒像詹姆斯·卡貝爾的名言:“樂觀主義者宣稱,我們生活在有可能是最好的世界里,而悲觀主義者則擔(dān)心這是真的。”交通擁堵永遠(yuǎn)是一個問題,要由規(guī)劃者和總需求來解決,而不是由個別司機(jī)、人類或計(jì)算機(jī)、自私或合作的決定來解決。
量化混亂的價格調(diào)和率給了這個領(lǐng)域一種具體而嚴(yán)謹(jǐn)?shù)姆椒▉碓u估分散系統(tǒng)的利弊,這在很多領(lǐng)域都有廣泛的影響,在那些領(lǐng)域里,人們發(fā)現(xiàn)自己參與到玩游戲的過程中(不管他們是否意識到)。“低調(diào)和率意味著,無論好壞,系統(tǒng)本身就會像它被精心管理的那樣良好。另一方面,高調(diào)和率意味著在謹(jǐn)慎地協(xié)調(diào)的情況下,事情有可能會最終變好,但如果沒有某種形式的干預(yù),我們就會陷入災(zāi)難。囚犯困境的游戲顯然是屬于后者。不幸的是,許多這個世界必須玩的最關(guān)鍵的游戲也都是這樣的。
公地悲劇
1968?年,生態(tài)學(xué)家加勒特·哈丁借鑒了囚徒的困境的想法,并設(shè)想將其規(guī)模擴(kuò)大到包括一個農(nóng)業(yè)村的所有成員。哈丁邀請他的讀者去描繪公共草坪的“公有地”——每個人都可以來此放牧,但容量有限。從理論上講,所有的村民放牧的動物數(shù)量都應(yīng)該是自己家的牲畜吃完草后還能給其他人留一些草。然而,實(shí)際上,多放牧一些動物的好處要比直接給你的好處多一點(diǎn)兒,而傷害似乎很小,不會有什么后果。然而,如果每一個人都遵循這樣的邏輯,大家只會得到少于他們本應(yīng)得到的公有地,這是一個可怕的均衡結(jié)果:一個完全毀壞的草坪,這樣一來,所有人的牲畜都沒有草吃。
哈丁稱之為“公地悲劇”,這已經(jīng)成為經(jīng)濟(jì)學(xué)家、政治學(xué)家及環(huán)境運(yùn)動對諸如污染和氣候變化等大規(guī)模生態(tài)危機(jī)的主要視角之一。“當(dāng)我還是個孩子的時候,有一種叫作含鉛汽油的東西,”卡內(nèi)基梅隆大學(xué)的計(jì)算機(jī)科學(xué)家、博弈論學(xué)家艾弗瑞姆·布盧姆說,“含鉛的價格便宜10?美分,但它污染了環(huán)境……考慮到其他人都在做的事情,如果你給自己的車加含鉛汽油,那么你個人(健康)到底有多糟糕?并沒有多糟。這就是囚徒的困境。”在企業(yè)和國家層面上也是如此。最近的報紙頭條簡潔地指出:“穩(wěn)定的氣候要求將大多數(shù)的化石燃料留在地下,但它們歸誰呢?”每個公司(在某種程度上,每個國家)為了競爭優(yōu)勢都比它們的同行更不顧后果。然而,如果它們的行為更加魯莽,就會導(dǎo)致地球被蹂躪,最終一切都是徒勞:相對于它們開始的階段,任何人都沒有經(jīng)濟(jì)上的優(yōu)勢。
這種游戲的邏輯是如此的普遍,以至于我們甚至不用去看那些錯誤行徑都能知道它在胡作非為。我們也可以很容易地以一種純凈的良心結(jié)束這種可怕的平衡。又怎樣進(jìn)行呢?看看你公司的假期政策。在美國,人們的工作時間是世界上最長的,正如《經(jīng)濟(jì)學(xué)人》雜志所言:“工作價值越高,休閑的價值就越低。”很少有法律規(guī)定雇主所應(yīng)提供的休假時間,甚至美國員工有休假時間,他們也不用。最近的一項(xiàng)研究表明,普通員工只享受了賦予他們的一半的假期,而驚人的是,15%的員工則完全沒有假期。
此時此刻,舊金山灣區(qū)(我們中的兩人所居住的地方)正試圖以一種激進(jìn)的思維方式來解決這一令人遺憾的事態(tài),關(guān)于假期政策這一轉(zhuǎn)變的出發(fā)點(diǎn)很好,卻注定會徹底失敗。這個前提聽起來極為天真:既沒有為每個員工設(shè)定固定的天數(shù),還浪費(fèi)人力時間來確保沒有人超過他們的工作極限,為什么不直接賦予你的員工自由呢?為什么不讓他們享受無限的假期呢?到目前為止,坊間傳聞都是喜憂參半,但從博弈論的角度來看,這種做法真是一場噩夢。理論上,所有員工都希望盡可能多地休假。但他們也都想比其他人少休一點(diǎn)兒,好讓人覺得他們更忠誠、更專注、更樂于奉獻(xiàn)(因此更有可能升職)。每個人都在尋找一個基線,而所需的休假只需比該基線稍微少一點(diǎn)兒。這個游戲的納什均衡是零。作為Travis CI?軟件公司的首席執(zhí)行官,馬賽厄斯·邁耶寫道:“人們休假前會猶豫,因?yàn)樗麄儾幌胱屪约嚎雌饋硐裥菁僮疃嗟娜恕_@是一場徹底的比賽。”
這是公地悲劇在充分發(fā)揮作用。在公司之間和在公司內(nèi)部一樣糟糕。想象一下在一個小鎮(zhèn)上有兩個商店店主。他們中的每一個人都可以選擇每周開放7?天,或者每周只開放6?天,然后周日休息,與朋友和家人一起放松一下。如果他們都休息一天,他們就會保持現(xiàn)有的市場份額,減少壓力。然而,如果一個店主決定每周開業(yè)7?天,他就會吸引更多的顧客,讓顧客遠(yuǎn)離競爭對手,這樣就可能威脅對方的生計(jì)。納什均衡,再一次讓每個人都要一直工作。
這一實(shí)際問題在2014?年的節(jié)日季成為美國的一個閃光點(diǎn),因?yàn)榱闶凵滩辉笇⑹袌龇蓊~拱手讓給那些在感恩節(jié)后的購物狂潮中領(lǐng)先的競爭對手,因此陷入一種糟糕的均衡狀態(tài)。《國際商業(yè)時報》報道稱:“商店開業(yè)比以往任何時候都要早。”梅西百貨公司決定提前兩小時開業(yè),塔吉特百貨也一樣。凱馬特百貨在感恩節(jié)的早上6?點(diǎn)開門營業(yè),不間斷營業(yè)42?個小時。
那么,作為玩家,當(dāng)我們發(fā)現(xiàn)自己處于這樣的情況下——要么是兩者間的囚徒的困境,要么是多者間的公地悲劇,我們能做什么呢?從某種意義上說,什么也不能做。這些糟糕的均衡所帶來的穩(wěn)定,也就是使它們達(dá)到平衡的東西,就變成了詛咒。總的來說,我們不能從內(nèi)部改變占優(yōu)策略。但這并不意味著壞的均衡是不能解決的。這僅僅意味著解決方案必須來自其他地方。
機(jī)制設(shè)計(jì):改變游戲
不要憎恨玩家,應(yīng)憎恨游戲。
——艾斯提
永遠(yuǎn)不要與任何對抗家庭的人站在同一立場上。
——《教父》
囚徒的困境世代以來一直是有關(guān)人類合作本質(zhì)的爭論和爭議的焦點(diǎn),但倫敦大學(xué)的博弈論理論家肯·賓默爾認(rèn)為,至少部分爭議是錯誤的。正如他所言,“囚徒的困境抓住了人類合作的重要性,這是完全錯誤的。相反,它代表了一種情況,在這種情況下,骰子是與合作的出現(xiàn)相沖突的”。
好吧,如果游戲規(guī)則促使一個壞策略產(chǎn)生,也許我們不應(yīng)該嘗試改變策略。也許我們應(yīng)該試著改變游戲規(guī)則。
這就把我們帶到一個叫作“機(jī)制設(shè)計(jì)”的博弈論分支。當(dāng)給定一套規(guī)則時,博弈論會出現(xiàn)什么樣的行為,機(jī)制設(shè)計(jì)(有時被稱為“逆向博弈理論”)在另一個方向上會問:什么規(guī)則會帶給我們想要看到的行為?如果博弈論的啟示(比如一種均衡策略對每個玩家都是合理的,但對每一個人都是不利的)被證明是違反直覺的,那么機(jī)制設(shè)計(jì)的啟示就更是如此了。
讓我們把你和你的銀行搶劫同伙再帶回到監(jiān)獄里去,再體驗(yàn)一下囚徒的困境,但增加一個關(guān)鍵性的補(bǔ)充:教父。現(xiàn)在你和你的同伴都是犯罪集團(tuán)的成員,而教父已經(jīng)成功了,很明顯,任何的告密者都可能葬身大海。這種游戲回報的改變會限制你可以采取的行動的效果,但具有諷刺意味的是,你和你的同伴最終都會有好結(jié)果。由于叛變現(xiàn)在變得不那么有吸引力(委婉地說),兩名囚徒都被誘導(dǎo)進(jìn)行合作,而且雙方都將會很高興地走出監(jiān)獄并獲得50?萬美元的財(cái)富。當(dāng)然,要減去教父名義上的那一部分。
這里存在的反直覺和強(qiáng)大的東西是,我們可以使每一個結(jié)果都惡化——一方面是死亡,另一方面是稅收,但通過改變均衡,可以使每個人的生活都變得更好。
對于小鎮(zhèn)的店主來說,口頭休戰(zhàn)并在周日放假是不確定的:一旦店主需要一些額外的現(xiàn)金,他就有可能會違反這一協(xié)議,促使其他人也開始工作,這樣就不會失去市場份額。這將使他們回到糟糕的均衡狀態(tài),對雙方都是最糟糕的——他們已經(jīng)筋疲力盡了,沒有任何競爭優(yōu)勢。但他們也可以通過簽署一份具有法律約束力的合同來履行自己的責(zé)任,例如周日一家商店的營業(yè)額另一家也能共享。通過惡化令人不滿意的均衡,可以創(chuàng)造出一個新的、更好的平衡。
另一方面,對游戲收益的改變并不會改變平衡,通常會產(chǎn)生比預(yù)期小得多的效果。印象筆記軟件公司的首席執(zhí)行官菲爾·利賓因?yàn)橐豁?xiàng)關(guān)于其員工休假的政策登上了頭條新聞。這聽起來像是一個合理的方法,可以讓更多的員工去度假,但從博弈論的角度來看,這實(shí)際上是錯誤的。例如,增加囚徒的困境中的現(xiàn)金,并沒有抓住要點(diǎn):這種變化并不能改變壞的平衡。這是否意味著利賓需要為每個員工的假期都提供數(shù)萬美元呢?并不是。機(jī)制設(shè)計(jì)告訴我們,利賓能得到他想要的快樂員工,而不是胡蘿卜,他可以在不花一分錢的情況下獲得更好的均衡。例如,他可以簡單地規(guī)定一個最低限度的假期。如果他不能改變比賽,他仍然可以改變底線。機(jī)制設(shè)計(jì)為設(shè)計(jì)人員提供了強(qiáng)有力的論據(jù),不管他是一名首席執(zhí)行官,一份規(guī)定所有各方的合同,或是一個通過絞喉來迫使他人拒絕做證的教父。
聯(lián)盟委員會委員也是這樣一種設(shè)計(jì)師。想象一下,如果沒有這樣的比賽,美國職業(yè)籃球聯(lián)賽將會多么可悲,球隊(duì)在賽季開始和結(jié)束之間的任何時間都可以隨意得分:在一個周日的凌晨3點(diǎn),在圣誕節(jié)的中午,凡是你能說得出的時間。你會看到的憔悴的、死尸般的玩家,極度缺乏睡眠,用化學(xué)刺激劑強(qiáng)制提神,幾乎失去了他們的思想。戰(zhàn)爭就是這樣的。另一方面,即使華爾街,無情而冷酷的資本家在“不夜城”以微秒進(jìn)行交易,每天下午4點(diǎn)整都要“停火”,這樣股票經(jīng)紀(jì)人就可以每晚在可預(yù)測的時間里睡覺,不會遭到競爭對手推出的無眠的平衡的偷襲。從這個意義上來講,股市與其說是一場戰(zhàn)爭,不如說是一項(xiàng)體育運(yùn)動。
擴(kuò)大這一邏輯,將為政府提供有力的支持論據(jù)。事實(shí)上,許多政府有規(guī)定最低假期和限制營業(yè)時間的法律。雖然美國是唯一一個沒有政府強(qiáng)制要求帶薪假期的發(fā)達(dá)國家,但馬薩諸塞州、緬因州和羅德島州有州一級的禁止感恩節(jié)商業(yè)行為的規(guī)定。
像這樣的法律往往起源于殖民時代,最初是宗教性質(zhì)的。事實(shí)上,宗教本身提供了一種非常直接的方式來改變這種游戲的結(jié)構(gòu)。特別是如“紀(jì)念安息日”這樣的宗教法,無論是由一個強(qiáng)大的上帝,還是由一個宗教團(tuán)體的更近似的成員來執(zhí)行都巧妙地解決了商店店主所面臨的問題。同時,將神圣的力量添加到對其他反社會行為的禁令中,例如謀殺、通奸和盜竊,同樣也是解決社會群體中的一些博弈理論問題的方法。在這方面,上帝的表現(xiàn)甚至比政府更好,因?yàn)槿芤暯翘峁┝艘粋€特別有力的保證,即若采取不好的行動將會產(chǎn)生可怕的后果。事實(shí)證明,教父并不是像上帝的父親。
宗教似乎是計(jì)算機(jī)科學(xué)家很少談?wù)摰氖虑?#xff0c;事實(shí)上,《計(jì)算機(jī)科學(xué)家很少談?wù)摰氖虑椤芬粫闹黝}既為此。但是,通過減少人們所擁有的選擇的數(shù)量,宗教所施加的行為約束不僅會使某些決策變得不那么具有挑戰(zhàn)性,還可以產(chǎn)生更好的結(jié)果。
機(jī)制設(shè)計(jì)的演變
無論人多么自私,在他的天性中,顯然有一些原則,使他對別人的財(cái)富感興趣,別人的快樂對自己來說是必要的,盡管他并沒有從中得到任何東西,除了看到他高興而已。
——《道德情操論》
心有它的理由,這是理性所不懂的。
——布萊斯?帕斯卡
加利福尼亞州的紅杉是地球上最古老、最壯觀的生物。從博弈論的角度來看,這是一個悲劇。它們這么高的唯一原因是,它們想要比其他所有東西都高,以至于過度擴(kuò)張的危害甚至比被遮蔽的危害更嚴(yán)重。正如理查德·道金斯所說:
樹冠可以被看作是一種空中草地,就像一個長滿草的大草原,但是是在高蹺上生長。樹冠以與大草原相同的速度收集太陽能。但很大一部分能量是“浪費(fèi)”,直接助長了高蹺的生長,而只是將這空中閣樓的“草地”變得更高,如果是平放在地上,那它收獲同樣光子的成本就低得多。
如果森林只能在某種程度上同意“休戰(zhàn)”,那么生態(tài)系統(tǒng)就可以享受單純的光合作用,沒有木材生長的競賽浪費(fèi)了一切。但正如我們所看到的,在這些場景中,好的結(jié)果往往只出現(xiàn)在游戲之外的權(quán)威背景下——有人從上到下改變了收益。似乎在自然界中,沒有辦法在個體間建立良好的平衡。
另一方面,如果合作真的能在某些游戲中帶來更好的結(jié)果,那么我們就該期待具有合作意識的物種在進(jìn)化上占優(yōu)勢。但是如果只有在群體層面上具有理性,而不是個人層面,合作又會從何而來?也許它必須來自某些人無法完全控制的東西。例如,情感。
考慮下面兩個看似無關(guān)的場景:(1)一個男人買了一個吸塵器,幾周內(nèi)就壞了,他花10分鐘在網(wǎng)上留下一個報復(fù)性的評論。(2)一個在便利店購物的女人注意到有人偷了一個老人的錢包并向外逃,她把小偷抓住,并把錢包拿回來。
雖然后者似乎很有英雄氣概,而前者僅僅是憤怒,但兩個小插曲的共同之處(盡管是完全不同的方式)都是不自覺的自我感覺。不滿意的消費(fèi)者并不是想要把吸塵器換掉,也不是想要退錢,他是在經(jīng)過一種非常間接的懲罰之后(從理性的、博弈論的意義上說)除了寫評論以外,還會得到一點(diǎn)兒報復(fù)的滿足感。在便利店,這位英勇的女人作為非執(zhí)法人員私自執(zhí)法,并可能會喪失巨大的個人代價,她可能會受傷甚至死亡,就是為了幫一個素不相識的人追回錢,可能只有40美元。即使她想幫忙,她也可以從她自己的口袋里掏出兩張20?美元給他,而不必冒著去醫(yī)院的風(fēng)險。從這個意義上講,兩個主角都是不理性的。但另一方面,他們的行為對他們所處的社會有好處:我們都想生活在一個沒有扒竊,沒有賣劣質(zhì)產(chǎn)品的商家的世界里。
也許我們每個人,單獨(dú)地,都能更好地成為這樣的人:我們能以自己最大的興趣做出獨(dú)立的、有計(jì)劃的決定,而不愿在成本上浪費(fèi)時間,更不用為了40?美元損失一顆牙齒。但是,我們所有人在這樣一個社會里都會生活得更好,在這樣的社會里,這種叛逆的立場是常見的。
那么,在這些人缺乏外部權(quán)威的情況下,是什么使他們行動起來、擺脫自私的均衡呢?憤怒是一方面原因。無論是由劣質(zhì)的生意還是盜賊的刺激,憤怒都可以壓倒理性。在這些情況下,可能是進(jìn)化之手完成了它原本屬于游戲之外的權(quán)威去完成的事情。
自然界中充滿了被劫持來為另一個物種的目標(biāo)服務(wù)的個體的例子。例如,柳葉刀肝吸蟲(學(xué)名:矛形雙腔吸蟲)是一種寄生蟲,它能讓螞蟻爬到草葉的頂端,這樣它們就會被羊吃掉,而羊是柳葉吸蟲的首選宿主。同樣,寄生的剛地弓形蟲可以使老鼠永久地失去對貓的恐懼,結(jié)果也類似。
情感,對于痛苦的、報復(fù)性的消費(fèi)者和便利商店的英雄來說,是我們自己的物種控制了一分鐘。“道德是個體的群居本能。”尼采寫道。稍微解釋一下,我們可能會認(rèn)為情感是物種的機(jī)制設(shè)計(jì)。正是因?yàn)楦杏X是不自覺的,它們才會不需要外部執(zhí)行的合同。復(fù)仇幾乎從來都不適合真正尋求它的人,然而,如果有人會以“非理性”的態(tài)度來回應(yīng),那就更有可能得到公平的對待。正如康奈爾大學(xué)經(jīng)濟(jì)學(xué)家羅伯特·弗蘭克所說:“如果人們期望我們對盜竊我們財(cái)產(chǎn)的行為做出非理性的反應(yīng),我們幾乎不需要這樣做,因?yàn)橥蹈`是不符合他們的利益的。”在這里,比起被物質(zhì)利益所引導(dǎo),預(yù)先傾向于做出不理智的反應(yīng)要好得多。
(如果你認(rèn)為文明的現(xiàn)代人類有法律合同和法律規(guī)則而不是懲罰,回憶一下,比起受害者希望從物質(zhì)條件中恢復(fù),起訴或檢舉某人需要付出更多的努力,并獲得更多的痛苦。訴訟是在發(fā)達(dá)社會中自我毀滅的報復(fù)手段,而不是替代。)
至于憤怒,則是為了同情、內(nèi)疚和愛。
囚徒的困境也有很多關(guān)于婚姻的啟示,盡管這聽起來很奇怪。回到本書第1章,在我們討論最優(yōu)停止問題時,如秘書問題,我們觀察了約會和找房子兩類情況作為我們必須承諾未來要做出選擇,但現(xiàn)在還未知的情況。然而,在愛情和住房方面,即使在我們做出最佳停止決定之后,我們?nèi)匀粫龅礁嗟倪x擇,所以為什么不準(zhǔn)備跳槽呢?當(dāng)然,知道另一方(無論是配偶還是房東)準(zhǔn)備跳槽,就會阻止許多長期投資(一起生兒育女,或者費(fèi)力地搬家),從而使這些協(xié)議變得有價值。
在這兩種情況下,所謂的承諾問題至少可以部分通過合同來解決。但是博弈論認(rèn)為,在約會中,法律的自愿約束力與持久的伙伴關(guān)系相比,與愛情本身的不自主的關(guān)系更不相關(guān)。正如羅伯特·弗蘭克所言:“人們擔(dān)心自己之所以會離開一段關(guān)系,是因?yàn)槠淙蘸罂赡軙兊美硇?#xff0c;但如果一開始不是理性評價將他們聯(lián)系在一起的話,那這種擔(dān)心基本都會被抹去。”他解釋道:
是的,人們尋找他們關(guān)心的客觀特征。每個人都想要一個善良、聰明、有趣和健康的另一半,也許還要外表上有吸引力,有很好的賺錢能力,很多很多的特點(diǎn),但那是第一關(guān)……在你花了足夠的時間和他在一起之后,并不是那些標(biāo)準(zhǔn)才讓你們想在一起的。事實(shí)是,就是那個人,這對你來說是有價值的,所以你并不需要這份合同,因?yàn)槟阈枰氖且环N讓你不想分開的感覺,即使在客觀的情況下,可能還會有一個更好的選項(xiàng)供你選擇。
換句話說:愛情就像有組織的犯罪。它改變了婚姻游戲的結(jié)構(gòu),使均衡成為最適合每個人的結(jié)果。劇作家蕭伯納曾寫道:“如果囚徒很快樂,為什么要把他鎖起來?”如果他不是,為什么要假裝他是?博弈論對這個特殊的謎題有一個微妙的答案。幸福就是鎖。
關(guān)于愛情的博弈論觀點(diǎn)將進(jìn)一步說明:婚姻是一種囚徒的困境,你可以選擇與你在一起的人。這似乎是一個小小的改變,但它可能對你所玩的游戲的結(jié)構(gòu)有很大的影響。如果你知道,出于某種原因,如你不在身邊,你犯罪的同伴會很痛苦(即使100?萬美元也無法治愈),你會沒那么擔(dān)心他們會“叛變”,會讓你在“監(jiān)獄”里終其一生。
因此,對愛情的理性論證是雙重的:依戀的情感不僅可以讓你不會在遞歸的思維中不停考慮你另一半的意圖,而且通過改變回報,實(shí)際上能使你的伴侶得到更好的結(jié)果。更重要的是,在愛情中不自覺的跌倒會讓你成為一個更有魅力的伴侶。你心碎的能力,在情緒里沉溺,都是讓你成為一個可靠共犯的品質(zhì)。
信息瀑布:泡沫的悲劇理性
無論何時,你發(fā)現(xiàn)自己站在大多數(shù)人的一邊,那就是時候停下來反思一下了。
——馬克?吐溫
注意別人的行為是一個好主意,部分原因是這樣做可以把別人世界里的信息添加到你自己的世界里。一家很受歡迎的餐廳很可能是不錯的,上座率只有一半的音樂廳可能不是一個好信號,如果有人在你說話的時候突然把目光投向你看不見的東西上,那么你轉(zhuǎn)過頭去也不是個壞主意。
但另一方面,向別人學(xué)習(xí)并不總是顯得特別理性。潮流和時尚是追隨他人行為的結(jié)果,而沒有基于世界的根本客觀事實(shí)。更糟糕的是,人們認(rèn)為其他人的行為是有用的導(dǎo)向,這可能會導(dǎo)致類似的群體以及隨之而來的經(jīng)濟(jì)災(zāi)難。如果每個人都在投資房地產(chǎn),那買房子似乎就是個好主意。畢竟,這樣一來,價格只會上漲。不是嗎?
2007—2009年抵押貸款危機(jī)的一個有趣的方面是,所有參與的人似乎都覺得,他們只是在做他們應(yīng)該做的事情,卻受到了不公平的懲罰。這一代美國人從小就相信房子是不保險的投資,他們看到周圍的人都在買房子,盡管(或正因?yàn)?#xff09;物價飛漲,但當(dāng)這些價格最終開始下跌時,他們遍體鱗傷。與此同時,銀行家們認(rèn)為,他們受到了不公平的指責(zé),他們認(rèn)為他們只是做了他們一直在做的事情——提供機(jī)會,他們的客戶可以接受或拒絕這些機(jī)會。在突然的市場崩盤之后,人們總是會把責(zé)任歸咎于他人。這里,博弈論提供了一個發(fā)人深省的視角:即使沒有人犯錯,這樣的災(zāi)難也會發(fā)生。
正確認(rèn)識金融泡沫的機(jī)制,始于對拍賣的理解。雖然拍賣可能看起來像是經(jīng)濟(jì)的小角落(蘇富比和佳士得拍賣行的價值百萬美元的油畫,或者是億貝網(wǎng)上的豆豆娃和其他收藏品),但它們實(shí)際上為經(jīng)濟(jì)提供了很大一部分動力。例如,谷歌90%?的收入來自廣告銷售,這些廣告都是通過拍賣方式出售的。與此同時,政府利用拍賣來出售電信頻譜(如手機(jī)傳輸頻率)的所有權(quán),籌集了數(shù)百億美元的收入。事實(shí)上,許多全球市場,從家庭到書籍再到郁金香,都是通過各種各樣的拍賣來運(yùn)作的。
最簡單的拍賣形式之一是,每個參與者都暗自寫下他們的投標(biāo)價,而出價最高的人則以他們所寫的價格贏得這個拍品。這就是所謂的“密封競價的最高價拍賣”,從算法的博弈論角度來看,有一個大問題,實(shí)際上,有好幾個問題。首先,某種程度上來說,贏家總是溢價:如果你給一個拍賣品估價25?美元,我估價10?美元,我們都以真正的估值出價(25?美元和10?美元),那么你最終會以25美元買下該拍品,但其實(shí)你只需比10?美元高一點(diǎn)點(diǎn)的出價就可以買到它。這個問題反過來又引出了另一個問題,即為了合理地競標(biāo),為了不多付不必要的錢,你需要預(yù)測拍賣中其他買家的估價,并據(jù)此“掩飾”你的報價。這已經(jīng)夠糟糕的了,但是其他買家也不會出他們真正的估價,因?yàn)樗麄儠鶕?jù)你的預(yù)測來掩蓋他們的真實(shí)出價!這樣一來,我們又回到了遞歸的問題上了。
另一種經(jīng)典拍賣形式是“荷蘭式拍賣”或“減價拍賣”,在有人愿意購買之前,它會逐漸降低拍賣品的價格。這個名字參考了荷蘭阿爾斯梅爾市的花卉拍賣,這是世界上最大的花卉拍賣市場,在荷蘭每天都舉行,但荷蘭式拍賣比最初看起來更普遍。一家商店將其未售出的商品降價出售,房東以最高的價格將公寓掛牌出售,他們認(rèn)為市場將會承受,這兩者都有一個基本特點(diǎn):就是賣家可能開始時很樂觀,并推動價格不斷下跌,直到找到買家。降價拍賣與最高價拍賣的相似點(diǎn)在于,你更有可能以接近你的最高價位來贏得拍品(也就是當(dāng)價格跌至25美元時,你將隨時準(zhǔn)備投標(biāo))。因此,你將希望通過一些復(fù)雜的戰(zhàn)略價格來遮蔽你的報價。你是要以25美元拍下,還是一直等待更低的價格?你所節(jié)省的每一美元都有可能完全失去。
荷蘭式或減價拍賣的相反就是所謂的“英式拍賣”或“升價拍賣”,這是最常見的拍賣。在英式拍賣上,競拍者交替地提高價格,直到他們中的一個退出。這似乎提供了更接近我們想要的東西:在這里,如果給一件拍品估價25美元,而我為它估價為10美元,你就會直接以超過10美元的價格贏得它,而不必一直拍到25美元或者消失在戰(zhàn)略性的兔子洞里。
然而,荷蘭式拍賣和英式拍賣的復(fù)雜性都比密封拍賣要高。它們不僅涉及每個投標(biāo)人個人所擁有的信息,也包括投標(biāo)行為的公眾流向。(在荷蘭式拍賣中,沒有出價也透露出信息,這表明其他競標(biāo)者都沒有以目前的價格水平進(jìn)行估價。)在適當(dāng)?shù)那闆r下,這種私人和公共數(shù)據(jù)的混合可能會被證明是有害的。
想象一下,競標(biāo)者對他們自己所估計(jì)的拍賣價值表示懷疑,比方說,在某些海域開采石油的權(quán)利。倫敦大學(xué)的博弈論學(xué)者肯·賓默爾指出:“每一塊地區(qū)的石油儲量都是相同的,但買家對其石油儲量的估計(jì)將取決于他們不同的地質(zhì)勘測。”這樣的勘測不僅昂貴,而且不可靠。“在這種情況下,你很自然地會仔細(xì)觀察你對手的出價,用公眾信息來增加你自己所擁有的貧乏的個人信息。”
但這一公共信息可能并沒有看上去那么有意義。你實(shí)際上不了解其他投標(biāo)者的信念,而只知道他們的行為。他們的行為完全有可能是基于你自己的行為,就像你的行為也受其他人的影響一樣。很容易想象一群人一起走在懸崖上,因?yàn)椤捌渌恕焙孟穸急憩F(xiàn)得很正常,但實(shí)際上每個人都有疑慮,只是因?yàn)樗麄儗F(tuán)隊(duì)中其他人的明顯的信任而壓制了這種疑慮。
就像公地悲劇一樣,這次的失敗并不一定是參與者的過錯。經(jīng)濟(jì)學(xué)家蘇希爾·比赫昌達(dá)尼、戴維·赫舒拉發(fā)和伊沃·韋爾奇的一篇極具影響力的論文證明,在正確的環(huán)境下,一群行為完全理性、完全正確的行為者,仍然可以成為有效的無限錯誤信息的犧牲品。這被稱為“信息瀑布”。
繼續(xù)看石油開采權(quán)的問題,想象有10?家公司可能會競標(biāo)某一地區(qū)的開采權(quán)。其中一家公司的地質(zhì)調(diào)查顯示,該地區(qū)富含石油,另一家的調(diào)查結(jié)果是不確定的,其他8?家的調(diào)查顯示,該地區(qū)是貧瘠的。當(dāng)然,作為競爭對手,這些公司之間并沒有互相分享他們的調(diào)查結(jié)果,而是只能互相觀察其他公司的行為。當(dāng)拍賣開始后,第一家公司,也就是報告認(rèn)為該地很有前景的公司,提出了很高的初始報價。第二家公司,受到了鼓勵,便開始對自己的模糊調(diào)查轉(zhuǎn)持樂觀態(tài)度,于是出價更高。第三家公司的調(diào)查結(jié)果本不是很理想,但現(xiàn)在已經(jīng)不相信這個結(jié)果了,他們認(rèn)為那兩家公司得出的是獨(dú)立調(diào)查的結(jié)果,因此這兩項(xiàng)調(diào)查表明這是一個金礦,因此他們提出了一個新的高報價。第四家公司的調(diào)查結(jié)果也乏善可陳,但現(xiàn)在它甚至更傾向于忽視這一點(diǎn),因?yàn)榭雌饋硭麄兊娜齻€競爭對手都認(rèn)為這是一個寶藏。所以他們也出價了。“共識”是來自現(xiàn)實(shí)的。于是,瀑布就形成了。
沒有一個競拍者的行為不理智,最終結(jié)果卻是災(zāi)難的。正如赫舒拉發(fā)所說:“一旦一個人決定盲目追隨他的前人,不依賴自己的信息信號,他的行為會對所有后來的決策者毫無意義。”現(xiàn)在,公共信息池不再增長。公共信息的福利……已經(jīng)停止。”
要了解當(dāng)信息瀑布發(fā)生時真實(shí)世界會變成什么樣,投標(biāo)人除了用一個人的行為來估計(jì)一個拍賣品的價值,幾乎沒有其他任何辦法,沒有比皮特·A.勞倫斯的發(fā)展生物學(xué)文本《蒼蠅的成長》更好的了,該書于2011年4月在亞馬遜的第三方市場上以23 698 655.93美元(外加3.99美元)的價格出售。這本(不可否認(rèn)受人尊敬的)書是如何做到銷售額超過2 300萬美元以及為什么會這樣呢?結(jié)果顯示,有兩家賣家將其價格計(jì)算為相互之間的對方價格的恒比:一家總是將自己的價格設(shè)置為競爭對手的0.998 3倍,而競爭對手則自動將自己的價格設(shè)定為對方的1.270 59倍。顯然,這兩家賣家都不認(rèn)為要對最終的數(shù)字設(shè)定任何限制,最終這個過程完全失去控制。
有可能類似的機(jī)制是在神秘和有爭議的2010年5月6日股票市場的“閃電崩盤”中出現(xiàn)的,當(dāng)時,在幾分鐘內(nèi),幾個看似隨機(jī)的公司的標(biāo)準(zhǔn)普爾500?指數(shù)價格升至每股100 000?美元以上,而其他的銳減到每股0.01?美元。近1?萬億美元的價值瞬間化為烏有。正如美國全國廣播公司財(cái)經(jīng)頻道的吉姆·克萊默所報道的:“那……它不可能發(fā)生。這不是真正的價格。哦,快去買寶潔!就去買寶潔公司,他們這個季度報告不錯,就去買吧……我是說,這是荒唐——這是個好機(jī)會。”克萊默的懷疑體現(xiàn)的是他的個人信息與公眾信息的矛盾。在這種情況下,他似乎是世界上唯一愿意付49?美元的股票價格的人,而市場顯然是在40?美元以下,但他并不在乎,因?yàn)樗呀?jīng)看到了季度報告,他對他所知道的十分確定。
投資者被分為兩大陣營:“基礎(chǔ)”投資者,他們交易的是他們所認(rèn)為的公司的價值,還有一類是隨交易市場波動的“技術(shù)”投資者。高速算法交易的興起打破了這兩種策略之間的平衡,人們經(jīng)常抱怨說,電腦無法固定到真實(shí)世界的商品價值(不管是將一本書的價格定在數(shù)千萬美元還是以一美分定價藍(lán)籌股)使市場的非理性更加惡化。但是,盡管這種批評通常在電腦上出現(xiàn),但人們也會做同樣的事情,因?yàn)槿魏螖?shù)量的投資泡沫都可以證明。同樣,錯誤往往不在球員身上,而是比賽本身。
信息瀑布提供了一個理性的理論,不僅是泡沫,而且更普遍的是潮流和羊群行為。他們提供了一種解釋,說明任何市場在沒有非理性、惡意或?yàn)^職的情況下,如何輕松出現(xiàn)飆升和崩潰。有好幾個因素。首先,要警惕那些公眾信息似乎超過私人信息的情況,在這些情況下,你更了解人們在做什么,而不是他們?yōu)槭裁催@么做,你更關(guān)心的是你的判斷是否符合共識,而不是符合事實(shí)。當(dāng)你大多數(shù)時候都在找別人來設(shè)定路線的時候,他們很可能也在盯著你看。第二,記住行動不是信仰,當(dāng)我們誤解別人的想法時,就會產(chǎn)生瀑布反應(yīng)。我們應(yīng)該特別謹(jǐn)慎考慮是否要推翻我們自己的懷疑,如果我們這樣做,我們可能會想要找到一些方法來傳播這些疑慮,即使我們已經(jīng)向前邁進(jìn),其他人也無法將我們頭腦中的不情愿與我們行動中隱含的熱情區(qū)分開來。最后,我們應(yīng)該從囚徒的困境中得到教訓(xùn),有時一個游戲有無比糟糕的規(guī)則。一旦我們陷入其中,我們可能什么也做不了,但是信息瀑布理論可能會幫助我們在一開始就避免這樣的游戲。
如果你是那種總是做你認(rèn)為是正確的事情的人,不管別人怎么想,那就鼓起勇氣吧。但壞消息是,你將會比人群跟隨者們更經(jīng)常犯錯。而好消息是,堅(jiān)持你的信念會產(chǎn)生積極的外部效應(yīng),讓人們從你的行為中做出準(zhǔn)確的判斷。也許會有那么一次,你把整群人從災(zāi)難中拯救出來。
你自己的計(jì)算
計(jì)算機(jī)科學(xué)在博弈論中的應(yīng)用表明,進(jìn)行戰(zhàn)略規(guī)劃的義務(wù)本身就是我們相互競爭所付出的一部分代價,通常是一大部分。而且,正如遞歸的困難所表明的那樣,沒有什么比我們需要進(jìn)入對方頭腦的代價更高。在這里,算法游戲理論為我們提供了一種重新思考機(jī)制設(shè)計(jì)的方法:不僅要考慮到游戲的結(jié)果,還要考慮玩家需要的計(jì)算工作量。
例如,我們已經(jīng)看到,看似無傷大雅的拍賣機(jī)制可能會遇到各種各樣的問題:過度思考、過度支付、失控的信息瀑布。但情況并非完全沒有希望。事實(shí)上,有一種拍賣設(shè)計(jì),尤其切除了精神遞歸的負(fù)擔(dān),就像一把熱刀子切過黃油那樣輕松。這被稱為維克瑞拍賣。
以諾貝爾經(jīng)濟(jì)學(xué)獎得主威廉·維克瑞命名的維克瑞拍賣,就像最高價拍賣一樣,是一種“密封投標(biāo)”拍賣過程。也就是說,每個競拍者都秘密地寫下一個數(shù)字,出價最高的人會贏。然而,在維克瑞拍賣中,最終獲勝者支付的并不是他們自己的出價,而是第二高的出價人的出價。也就是說,如果你出價25?美元,我出價10?美元,你以我的價格贏了這個項(xiàng)目:你只需要支付10?美元。
對于博弈理論家來說,維克瑞拍賣有很多吸引人的地方。特別是對于一個算法博弈理論家來說,這其中有一種特性尤其突出:鼓勵參與者誠實(shí)。事實(shí)上,沒有比直接以你估的“真正價值”(你認(rèn)為這個拍品值多少)來競標(biāo)更好的策略了。出價高于你的真實(shí)價值顯然是愚蠢的,因?yàn)槟憧赡軙员饶阏J(rèn)為的價值更高的價格買下此拍品。出價低于你的真實(shí)價值( 即遮蔽你的出價)可能有無故失手的風(fēng)險,因?yàn)檫@不會給你節(jié)省什么錢——如果你贏了,你只會支付第二高的出價,不管你的出價有多高。這使維克瑞拍賣的機(jī)制設(shè)計(jì)者稱之為“戰(zhàn)略證據(jù)”或只是“真實(shí)的”。在維克瑞拍賣會上,誠實(shí)是最好的政策。
更好的是,不管其他競拍者是否誠實(shí),誠實(shí)仍然是最好的政策。在“囚徒的困境”中,我們發(fā)現(xiàn)背叛是“占優(yōu)”策略——無論你的同伴是叛變還是合作,這都是最好的選擇。另一方面,在維克瑞拍賣上,誠實(shí)也是主要的策略。這是機(jī)械設(shè)計(jì)師的必殺技。你不需要制定策略或遞歸。
現(xiàn)在,與最高價拍賣相比,維克瑞拍賣似乎會讓賣家損失一些錢,但這并不一定是真的。在第一次最高價拍賣會上,每一個出價者都在掩蓋他們的出價以避免出價過高。在第二高價的維克瑞拍賣中,從某種意義上說,這沒有必要,拍賣本身就是對他們的出價進(jìn)行了遮蔽。事實(shí)上,一種叫作“收入等價”的博弈論原理是這樣的:隨著時間的推移,最高價拍賣中的平均預(yù)期售價將會與維克瑞拍賣中的價格完全一致。因此,維克瑞均衡表示相同的競拍者以同樣的價格贏得一個拍品,而沒有任何競拍者的任何策略。正如蒂姆·拉夫加登對他在斯坦福的學(xué)生說的,維克瑞拍賣“棒極了”。
對于希伯來大學(xué)的算法博弈理論家諾姆·尼恩來說,這種“棒極了”有一種近乎空想的氛圍。“你想要得到一些不值得說謊的社會規(guī)則,然后人們就不會撒謊了,對吧?”這是最基本的想法。從我的觀點(diǎn)來看,維克瑞拍賣的神奇之處就在于,你不會期望在一般情況下有可能會這樣做,對吧?特別是在拍賣會這樣的場合,我當(dāng)然想少花錢,你又怎么能得到,然后維克瑞拍賣出現(xiàn)了,這就是這樣做的方法。我覺得這真是太棒了。
事實(shí)上,這其中的啟示遠(yuǎn)遠(yuǎn)超出了拍賣的范疇。在一項(xiàng)名為“顯示原則”的里程碑式的發(fā)現(xiàn)中,諾貝爾獎得主羅杰·邁爾森證明,任何需要有策略地掩蓋真相的游戲,都可以轉(zhuǎn)化為一種只需要簡單誠實(shí)的游戲。邁爾森當(dāng)時的同事保羅·米格羅姆表示:“這種結(jié)果,當(dāng)你從不同的角度看待它時,一方面,它是絕對令人震驚和驚異的,另一方面,它也是微不足道的。”這真是太棒了,太棒了:這就是你怎么知道你在看你所能看到的最好的東西。
表面看來,顯示原則似乎難以接受,但它的證據(jù)實(shí)際上是相當(dāng)直觀的。想象一下,你有一位經(jīng)紀(jì)人或律師,他會為你玩這個游戲。如果你信任他代表你的利益,你會簡單地告訴他你想要什么,并讓他們處理所有的戰(zhàn)略偏見和遞歸策略。在維克瑞拍賣中,游戲本身也執(zhí)行了這個功能。而顯示原則只是擴(kuò)展了這個想法:你會對你的代理人講真話,而代理人為你玩的任何游戲,都將成為誠實(shí)至上的游戲,如果你想你代理人的行為納入游戲規(guī)則本身的話。正如尼森所說,“最基本的是,如果你不希望你的客戶對你進(jìn)行優(yōu)化,你最好對他們進(jìn)行優(yōu)化”。這就證明了……如果我設(shè)計(jì)了一個已經(jīng)為你優(yōu)化的算法,你就無能為力了。
在過去的20?年里,算法博弈理論為許多實(shí)際應(yīng)用做出了巨大的貢獻(xiàn):它幫助我們理解互聯(lián)網(wǎng)上的數(shù)據(jù)分組路由,改進(jìn)聯(lián)邦通信委員會的頻譜拍賣,分配寶貴的(如果是看不見的)公共產(chǎn)品,并增強(qiáng)與醫(yī)院的醫(yī)學(xué)系學(xué)生配對的匹配算法。這很可能只是一個更大轉(zhuǎn)變的開始。“我們只是剛剛開始,”尼森說,“即使在理論上,我們也剛剛開始理解它。”
法國的存在主義哲學(xué)家讓·保羅·薩特曾寫道:“他人即地獄。”他并不是說別人天生就有惡意或會令人不愉快,而是說他們把我們的想法和信念復(fù)雜化了:
當(dāng)我們思考自己,當(dāng)我們試圖了解自己的時候……我們使用別人已經(jīng)具備的知識。我們用別人所采取的方式來評價自己,并給予我們判斷自己的能力。無論我自己感覺如何,別人的判斷總是會進(jìn)入我的感覺。我覺得別人的判斷進(jìn)入了我的內(nèi)心……但這并不意味著一個人無法與其他人建立關(guān)系。它只是為我們每個人帶來了所有其他人的資本重要性。
也許,考慮到我們在這一章里所看到的,我們可能會努力修改薩特的觀點(diǎn)。與他人互動并不一定是一場噩夢,盡管在一場錯誤的游戲中它肯定是噩夢。正如凱恩斯所觀察到的,聲望是復(fù)雜的、棘手的,是一個遞歸的鏡廳。但是,美麗在旁觀者眼里,也許跟當(dāng)局者所看到的并不相同。因?yàn)槠渌说牟呗远捎靡环N不需要假設(shè)、預(yù)測、實(shí)踐和改變過程的策略,是減少戈?duì)柕线f歸之結(jié)的方法之一。有時,這種策略并不僅僅是簡單的,也是最優(yōu)的。
如果改變策略沒有幫助,你可以嘗試改變游戲。如果無法改變,你至少可以控制你選擇玩的游戲。通往地獄的道路是由棘手的遞歸、糟糕的平衡和信息瀑布鋪成的。尋找那些誠實(shí)充當(dāng)占優(yōu)策略的游戲。然后,就是做你自己。
∑編輯?|?Gemini
粉絲福利
送書!
想獲得此書,
文章底部留言,
留言點(diǎn)贊前五名的粉絲(24小時計(jì)),
免費(fèi)獲得此書!
總結(jié)
以上是生活随笔為你收集整理的博弈论:别人的想法(文末送书!)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 他患“不死癌症” 坐轮椅考上清华并获特等
- 下一篇: 【CAA智库】宁滨院士:智能交通中的若干