※ 博弈論不是“三十六計”
《三十六計》在很大程度上是一本陰謀詭計之書。詭計有三個問題:首先,詭計都有巨大的風險,詭計要想成功,你不但必須嚴密封鎖信息,而且還得假設對手是比較愚蠢的;第二,詭計是不能長期使用;還有一個更大的問題,那就是它們說的都是“零和”遊戲。真實世界中,除了戰爭,很少有這樣你死我活的局面。
計謀要是太多,愚蠢的人就不夠用了。博弈論研究的是“理性人”之間的博弈。博弈論假設人是理性的,表現為三個要求:第一,你得知道你想要什麽,並且對你想要的東西有一個明確的排序;第二,你的行動是在一定的規則之下,爭取得到你想要的東西;第三,你知道對手也是這麽想的,而且對手也知道這些規則。人有時候會被某種情緒劫持,這種情況不是博弈論的研究內容。
博弈論研究的就是一群聰明人,在一定的規則之下,如何選取最有利於自己的策略。傳統上一說到博弈都是研究怎麽選擇更高明的策略,而我想告訴你的是,如果各方都足夠理性,那麽最終決定局面的不是策略,而是規則。
博弈論要求你假設,你能想到的,別人也能想到,那你怎麽辦。你的任何行動都得考慮對手的反應。這里面沒有陰謀,全是陽謀。
跟其它學問一樣,我認為博弈論的一個重大好處是能陶冶情操。你的氣質會得到提升,你會是一個更清醒的人。當一般圍觀群眾對身邊的大事長籲短嘆的時候,你能觀察到其中的博弈格局。就算沒有機會插手,你至少知道這件事兒的關節在哪里,你至少不會有不切實際的幻想。博弈論還能讓你更積極主動。博弈論的精神絕不是冷眼旁觀,而是要做一個player!要敢於為了得到自己想要的東西而采取主動的行動。
※ 博弈的首要精神是做個“player”
player的自我修養:一個合格的player,應該擁有四個作風——有限、務實、慎重、客觀。
有限:Player 身份只是我們眾多身份中的一個,博弈不是人生的全部。能接受失敗的人,才有資格爭取勝利。贏了就忘乎所以,輸了就哭天搶地,那是最土的行為。
務實:博弈論不是研究把不可能變成可能,而是怎麽實現最可能。“降維打擊”是個幻想,任何成熟的領域都根本沒有給你降維打擊的機會。如果你以為你知道華爾街不知道的,那最大的可能是你不知道自己不知道。
慎重:任何爭論中,感情的強烈程度和所涉及到利益的價值成反比。作為player,你不能輕易挑起爭端,不能輕易表態,不能輕易透露相關信息。你要是有影響,就得注意影響。
客觀:參加博弈,其實就是老老實實地考慮這些因素 ——1. 這個博弈是什麽,我想要什麽;2. 我現在有什麽,我可以放棄什麽;3. 對手的情況。你輸入相關的條件,尋求一個限制條件下的最優解。管用的公關必須站在對方視角說話,先同步,才能領導。
善為士者不武,善戰者不怒,善勝敵者不與,善用人者為之下。Player,那是有氣質的。
※ 怎麽對付“非理性”的人
博弈論的前提是雙方都是理性的。如果一方是非理性的,那麽有兩種情況。
如果另一方不知道他是非理性的,那麽非理性的一方最終會損失重大,可能就沒命了,可是理性的一方也會遭受損失。而如果理性的一方知道對方是非理性的,那為了避免自己受害,就會選擇讓步。
所以,做出非理性的樣子,讓對方知道自己是非理性的,這對自己有好處。理性的人可能會假裝非理性。這就是為什麽有些人會在公共場合搞哭鬧、好像不管不顧一樣。
※ 群鴉的戰爭
博弈論的三個基本概念:“帕累托最優”、“壓倒性策略”和“納什均衡”。
Player,在遊戲中叫玩家,在體育比賽中叫選手,在博弈論中叫參與者——其實都是一個意思,博弈論(Game Theory)說的都是game。
有一點參與遊戲的精神,你就有權在規則範圍內采取對自己最有利的行動,你就是積極主動的,你就會平等對待對手——你就既不是一個渾渾噩噩整天根據別人設定做事的人,也不會有整個世界繞著自己轉的幻覺。
博弈論要求我們每次做判斷都要考慮對方——不是考慮怎麽對對方好,而是考慮對方會怎麽做,然後你怎麽做。
帕累托改進的意思是這個改進能在不傷害任何一個人利益的同時,使得至少一個人的境遇變得更好。如果一個局面已經好到沒有帕累托改進的余地了,這個局面就叫『帕累托最優』。
『壓倒性策略(Dominant Strategy)』這個策略壓倒其他一切策略,不管對手怎麽做,這個策略對你來說都是最好的。
『納什均衡』的意思就是這麽一種局面,在這個策略組合里,沒有任何一方願意單方面改變自己的策略。
數學只是博弈論的輔助工具,博弈論的思想並不體現在數學中。學習博弈論,寧可有思想沒數學,也不要有數學沒思想。
理想青年喜歡帕累托最優,理性青年尋找納什均衡。
※ 以和為貴
博弈論研究的一般都是“非合作博弈”,參與者並不是心往一處想勁往一處使齊心合力辦大事,而是每個人想的都是怎麽讓自己贏。出發點是非合作的,結果卻可以達成合作。
這也是經濟學的光榮傳統。從亞當·斯密開始,人們就已經知道哪怕每個人都是自私的,各人都是為了自己的利益工作,全社會卻能達成高水平合作。
博弈論研究的合作可不是要搞“思想道德教育”去勸人行善,也不是讓一個強權去管制人民,而是尋求能讓人自願合作的機制。好的合作,一定得是個納什均衡。
如果一個博弈中有個多個納什均衡,人們應該如何做選擇呢?聚焦點就是在眾多可能的納什均衡中最顯眼的那一個,人們會自動在這一點上達成合作。
聚焦點的作用是協調。有些聚焦點是設計出來的,有些聚焦點屬於歷史路徑依賴。有了聚焦點思維,我們就應該在沒有聚焦點的時候主動提出一個聚焦點,促成合作,你可以先下手為強。
聚焦點的最大價值就是它的存在本身。傳統文化和社會習俗其實也是作為聚焦點起到了協調合作的作用。
請注意,聚焦點能這麽有用,有一個關鍵的前提,那就是各方沒有根本的利益沖突。我們都希望能促成這次合作,我們需要解決的只是在哪里合作。想要合作的人們需要聚焦點。
只要你能找到借口,任何借口都可以是聚焦點。事實上,即便有一定的利益沖突,只要合作的願望大於沖突,我們還是可以使用聚焦點。
※ 不縱容,但要寬容
防止背叛,最直觀的辦法就是把單次博弈變成重複博弈。為什麽旅遊景點的飯菜質次價高?因為那是單次博弈。你下次就不來了,他能騙一把是一把。而像麥當勞這樣的連鎖店,哪怕是開在旅遊景點,也會保證質量,因為它要為整個品牌的聲譽負責。
很多商家說我們要做一百年,有些商店搞會員制,這些都是重複博弈。重複博弈之所以有效,是因為背叛者會受到懲罰。最直接的懲罰就是下次我也背叛你,讓你得不到合作的好處。
一群人要想合作,至少要滿足下面兩個條件中的一個:第一,是合作對自己有好處,人們本來就想合作;第二,是不合作會受到懲罰。利益和懲罰只是硬條件。如果內部沒有起碼的信任,合作就是脆弱的。
80年代,密西根大學的政治學家羅伯特·阿克塞爾羅德(Robert Axelrod)組織了一個博弈競賽。博弈的內容就是囚徒困境,你要決定什麽情況下合作什麽情況下背叛。各路學者提交了不同的策略算法,大家兩兩輪流博弈,看看最後誰的收益大。
出乎意料的是,最後勝出的是一個非常簡單的策略,英文叫“Tit for Tat”,一般翻譯成“以牙還牙”。這個策略是 :(1)不管跟誰,第一輪我都選擇合作;(2)第一輪過後,我就覆制對手上一輪的做法。你上一輪要是跟我合作,我下一輪也跟你合作。你要是背叛了我,我下一輪也背叛你。
以牙還牙,簡單、粗暴、有效。
但是你可能不知道的是,以牙還牙其實是一個脆弱的策略。這個策略對錯誤很不友好。計算機模擬總是精確的,但真人博弈可能會操作失誤。在真實世界中,以牙還牙並不是最好的策略,它不夠寬容。博弈論專家提出一個改進版的以牙還牙:對方背叛我一次,我繼續合作;只有當對方連續背叛我兩次,我再報復。研究表明,在有可能出錯的博弈中,這個辦法的效果比以牙還牙更好。
真實生活中別人可能犯無心的錯,你可能誤判。中國人有句話叫“退一步海闊天空”,強人通常不喜歡這句話,但是其實這句話很有道理——寬容能避免脆弱。不過請注意,這句話的關鍵詞是“一步”。退一步是寬容,退兩步就是縱容了。
有句話說“要跟你的朋友保持較近的距離——而對敵人,要更近!(Keep your friends close and your enemies closer)”古巴導彈危機之後,美蘇兩國一看這樣真不行,千萬別因為誤會大打出手,所以雙方建立了一個“熱線”,任何事情先打電話問問,消除誤會。
※ 裝好人的好處
如果雙方都明確知道對方是理性的人,那有限次重覆博弈就不會有合作。可是社會上有些人就願意當好人,他就願意合作。那麽當你面對一個好人的時候,你是合作還是背叛呢?你的理性選擇是合作。
“KMRW定理”說,在不完全信息博弈中,參與者不知道對方是好人還是理性人,那麽只要博弈重覆的次數足夠多,合作能帶來足夠的好處,雙方都會願意維護自己是好人的這樣一個聲譽,前期盡可能地保持合作,到最後才選擇背叛。
你在大多數情況下無法區分一個好人和一個理性人。
張維迎在《博弈與社會》這本書里講到,KMRW定理可以解釋“大智若愚”。“智”,就是人要自私,一切行動都是為了自己的利益。“愚”,就是寧可吃虧也不背叛別人。
每一輪都選擇背叛,看似自私,其實那是“小智”。而如果寧可吃點虧也要選擇合作,你就會建立一個良好的聲譽,就會有更多的人跟你合作,從長期來這才是“大智”。
理性人有充分的理由不暴露自己是個理性人,你應該假裝自己是個好人。那裝好人要裝到哪一步為止呢?有限次重覆博弈的實驗中,雙方通常是到了倒數第二次博弈才暴露自己的理性人面目,選擇背叛。
博弈論專家絕對不會建議你去做真正的好人。好人經常對世界有一廂情願的期待。有的好人認為他能感化別人,他覺得如果我這次跟人合作,哪怕吃了虧,下一次別人也會因為不好意思、或者為了回報我而跟我合作。
博弈論專家會說這種想法非常危險。事實上,如果你身處一個比較險惡的社會環境,那你不但不應該做好人,而且應該裝壞人。
不過話說回來,做真正的好人的確有個重大好處,那就是你會自我感覺很好。為了維持這個良好感覺,你寧可犧牲金錢的利益。好人跟好人之間形成了一個想象的共同體。這其實是一個幻覺,但是沒辦法,想象的共同體是最強大的社會力量。
這種感覺有時候會如此強烈,以至於我們認為物質利益都是不值得的。這其實也是理性的!只要你知道自己心中什麽最重要就行。博弈論不在乎具體的價值觀,但是博弈論要求你對你想要的東西有個清晰的、穩定的排序。你得知道為了什麽東西可以犧牲什麽東西。
※ 布衣競爭,權貴合謀
這個博弈格局是如果利益很大,而參與者很少,這些參與者就會聯合起來。只要上了這張桌子,穩穩當當就能瓜分天下,何必鬥個你死我活呢?
網上流傳一句話叫“上流社會人捧人,中流社會人比人,下流社會人踩人”。這句話說得很難聽,但是有幾分道理。合作的利益大就不會競爭,背叛的成本低才會背叛。
怎麽打破這個局面?一個辦法就是擴大市場準入,讓更多的參與者進來,讓商家的協調沒那麽容易。另外一個辦法就是依靠政府的力量反壟斷,相當於全體消費者聯合起來去對付那些巨頭。
※ 有一種困境叫自由,有一種解放叫禁止
博弈論是人類理性行為的第一性原理。
破解囚徒困境的方法,自由論者可能更喜歡用像重複博弈或者協調這樣自發的方式達成合作,但是老百姓有個更直觀的解決方案:讓政府管。
最高級的看法是,你應該把政府也當作一個player。而且政府也應該把自己視為一個player。既然是參加博弈的player,政府也需要博弈論。
※ 先下手為強
動態博弈的本質不是輪流出招,而是你可以改變遊戲的規則。
有個經典的博弈局面,英文叫“chicken”,是“小雞”的意思,意思是比比誰膽小。
在一條筆直的公路上,甲乙兩個人各自開一輛車相向而行,眼看就要撞在一起了。遊戲規則是誰先打方向盤靠邊誰就膽小,誰就是小雞。當然兩邊首先都肯定不想死,轉方向盤是必然的,問題就在於誰先轉。
博弈論專家不是靠膽大工作的,我們的建議是你可以當著對手的面,把自己這輛車的方向盤給卸了。你這個動作明確告訴對方自己肯定不會轉方向盤,因為你的車已經沒有方向盤了,你只能走直線。那麽現在兩輛車會不會相撞就完全取決於對方。
只要對方不想死——你知道他肯定不想死——他就只能轉方向盤,這樣你就贏了。
你改變了遊戲規則。本來遊戲規則是兩個人都可以選擇是做小雞還是死,而你把規則改成了只有對手能選擇做小雞還是死。你放棄了自己的選項,但把做小雞的唯一可能性交給了對方。
“it's better to ask forgiveness than permission”——與其事先請求允許,不如事後請求原諒。如果你算準了你做了這件事對方也沒辦法,那你就應該直接做。
既然大家都不想死為什麽不一開始就服軟呢?答案是先升級再服軟就不算是小雞了。
我們都已經證明了自己的勇敢,雙方都推動了危機升級,這時候只要有個台階,我們談判解決,各退一步,不算丟臉。雙方都堅持了原則,保全了顏面,雙方都可以宣稱下次對方再也不敢了。
事實上也真不敢了。懸崖策略是非常危險的,它很容易因為出錯而變成真的災難。
其實你讓對方先出手,你就已經錯了。最好的辦法給對方一個威懾,讓他根本不敢出手。
“威懾有三個要素:實力、決心和讓對手知道。”第一,我有實力摧毀你;第二,我有決心摧毀你;第三,你得知道我有實力和決心摧毀你。從博弈論的角度,還有特別重要的一點,那就是雙方都不想被摧毀——雙方都得是充分理性的才行。
※ 其身不正,雖令不從
動態博弈有兩個基本概念,一個叫威脅,一個叫承諾。所謂威脅,就是我要求你不要去做某件事——我說如果你做了,我就會對你進行懲罰。所謂承諾,就是我要求你去做某件事——如果你做了,我就會給你一個獎勵。威脅和承諾在本質上是一樣的,都是我事先說好,會根據你下一步的行動采取一個相應的行動。
托馬斯·謝林提出一個關鍵的概念,叫做“可信性”。不可信的威脅和承諾說了也是白說,只會讓人覺得你這個人不靠譜。但是可信的威脅和承諾則是非常有用的。可信不可信,取決於事後的利益格局。只有你事後別無選擇,履行自己的威脅或者承諾符合你在那個時候的利益,事前最優和事後最優一致,那才是可信的。不可信,是因為“事前最優”和“事後最優”的不一致。
可信=別無選擇
為了發出可信的威脅或者承諾,你必須主動束縛自己的手腳。我大概總結了一下,有三種辦法。
第一個辦法是給別人懲罰你的權力;第二個辦法是主動取消自己的選項;第三個辦法是建立聲望。聲望最大的好處就是它允許你無需花費任何成本就能提出可信的威脅和承諾。損害聲望,就是對你失信最大的懲罰。
※ 後發優勢的邏輯
先發者暴露信息,後發者利用信息。如果你已經領先,就不要主動冒險了。應該讓落後者先發起不確定性。落後者不改變打法就一點機會都沒有,他想贏就必須冒險——而領先者只需跟隨就行。
占據市場主導地位的大公司通常不願意首先做一些特別激進的創新。我們現在做得很好還折騰什麽?激進的創新往往是小公司發起的。而面對激進的小公司,大公司如果覺得它的新打法可能會威脅到自己,其實也很容易應對。一個辦法是幹脆收購這個小公司,當然還有一個辦法是直接模仿小公司。
後發優勢=先發者的信息+後發者的出手權。
信息是模仿機會,出手權是創新機會。
先發優勢在於占領,後發優勢在於信息和這時候才有的出手權。如果先發者能占住,後發者只能被迫創新,那麽這時候先發者的正確做法是模仿後發者——可是因為各種原因,先發者常常做不到。
學習前人經驗可以讓你少走彎路。但是如果你想贏,想超過前人,那你就必須得有一個前人沒有的超車動作才行。
※ 真正的“詭道”是隨機性
馮·諾依曼說,想要真的迷惑對手,你必須把謊話和實話混合起來。
因為沒有純策略的納什均衡,所以博弈論不能告訴你應該怎麽踢才能贏這一把。但是,如果你要參加很多次罰點球,博弈論就可以給你一個指導,幫助你用一個“系統”取勝。
博弈論要求你使用“混合策略(mixed strategies)”。你的混合概率選擇,應該把對手能得到的最大報償給最小化。
“最小最大值定理(Minimax theorem)”這是博弈論的一個基本定理,它涉及到非常覆雜的數學,但是這個精神是容易理解的——第一,你要按照一定的概率,混合自己的打法;第二,你混合打法的這個規律,必須是讓對手無法利用的。英雄做事,必須完全沒有可以被敵人利用的規律。
隨機性,才是真正的“詭道”。混合策略不是陰謀而是陽謀。使用混合策略,你就算把決策方式告訴對手他也沒辦法。陽謀不怕被識破……歸根結底,大家都是納什均衡的奴隸。
※ 博弈設計者
一般人遵守規則,少數人違反規則,有的人制定規則。設計一個博弈,比參加一個博弈要難得多,這是管理者的學問。
1961年, 經濟學家威廉·維克里(William Vickery)提出一種競拍方法,可以讓競拍者放心大膽地出價,現在被稱為“維克里拍賣(Vickrey auction)”,也叫“次價密封投標拍賣(Second-price sealed-bid auction)”。
這個拍賣方法是暗標,每個競拍者只出價一次,放在信封里不讓別人看到。出價最高的人中標——但是,他最後付錢不是出自己競標的價格,而是出第二名競標報價。
這聽起來有點反直覺,但正因為這樣,競標者才可以放心大膽地報出自己所能出的最高價,而不用擔心因為不懂行情而吃虧!維克里靠對拍賣的研究獲得了1996年的諾貝爾經濟學獎。
※ 冥冥之中有定數
博弈論的出發點是自由。你首先得是一個自由的player,能夠獨立自主地選擇博弈策略,才談得上使用博弈論。但博弈論的結局通常是不自由。作為一個理性的人,你的策略總是納什均衡中的一個——如果納什均衡只有一個,你就只有這一個選擇。
就好像生物演化是基因的競爭,文化演化是“模因(Meme)”的競爭一樣,博弈的演化,是策略的競爭。如果使用一個策略能帶來好的報償,人們就會模仿這個策略,這個策略就會流行開來。
※ 永無止境的博弈
“遊戲”和“博弈”,在英文里是同一個詞,都叫game。新手容易動感情,老手都是理性的。而且光有理性還遠遠不夠,你必須選擇正確的策略才行。
如果遊戲里的對手比較弱,你還可以嘗試各種各樣的玩法,享受任性;遊戲難度增加,你就沒有太多選擇;要打最高難度,很多時候只有一種正確的打法。而如果對手跟你一樣也是個人類玩家,那你就算把什麽都做對了也不一定能贏。
所有人都意識不到博弈的時候,可能你詩情畫意都能贏;少數人意識到博弈的時候,誰意識到博弈誰贏;大家都意識到博弈了,那就只能比執行力——或者看誰能意識到新的博弈。
也許你有足夠的前瞻思維能預期未來的博弈局面,也許你能舉一反三熟練應對各種博弈局面,或者,現在你至少是個敢於博弈的player。
※ 總結
“納什均衡”是博弈論里最重要的思想,也是祛除妄念的清醒劑。納什均衡的意思是說如果博弈各方都是足夠聰明的人,大家最終的策略選擇一定是這麽一個局面:在這個局面里大家都認命了,誰也無法單方面改變策略去謀求一個對自己更好的結局。
納什均衡是謀略計算的終點。
如果各方有強烈的合作意願,而博弈有不止一個納什均衡,那我們就需要一個“聚焦點”。
如果合作對所有人都有好處,但背叛對背叛者有直接的好處,那就是“囚徒困境”。
為了解脫囚徒困境,如果博弈是可重覆的,我們應該尋求對背叛者進行懲罰。“以牙還牙”是最經典的做法,但適當的寬容更能促成合作。
在殘酷世界里選擇做好人表面上看是非理性的——但只要博弈有比較多、哪怕只是“有限次的重複”,做好人其實是有利的。
如果參加博弈的人數比較少,合作的利益比較大,各方就會形成串通和“合謀”,盡管這麽做不一定對社會有好處。
有時候主動放棄一部分自由、讓第三方“監管”,反而能促進自由,而監管者也應該把自己當作博弈的一方。
如果能迅速占領某種資源或者造成既成事實,那就“先下手為強”;如果先出手的一方守不住,那“後發”者反而會因為得到了關鍵信息和出手權而獲得優勢。
想要讓別人按照你的意志行事,最好的辦法是給他一個“可信的威脅或者承諾”。
有些博弈只有“混合策略的納什均衡”,最高級的玩法不是欺騙對手,而是隨機選擇策略。
如果雙方信息不對稱,傳達信息最好的辦法是“發信號”,這意味著你要用行動去證明自己。
納什均衡是博弈的結局,可是真實世界從來都沒有結局——這是因為博弈局面總在變化,我們甚至可以主動改變博弈。
博弈論的最高級應用是“設計博弈”,比如說制定一場拍賣的規則,但這非常不容易。
而博弈論的最高視角,則是觀察不同博弈策略在人群中的演化。我們看到的是,博弈永無休止。
知乎 2019-10-21(原文出處)
