2020年4月11日 星期六

囚犯的兩難(1/2)

囚犯的兩難:賽局理論、數學天才馮紐曼,以及原子彈的謎題
Prisoner’s Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb



推薦序 重回賽局理論發展的歷史現場/馮勃翰
想搞懂賽局理論,可以看第一、三、五、六、八、十至十三章
老師的文章


導讀  無所不在的賽局理論/林繼文
庫爾諾雙佔理論- 公司訂價足以影響市價,然而市場只有兩家,一方的利潤多寡取決於對方的的定價=>不能只想著自己如何行動,還必須設身處地想像對方會如何行動(對方也一定會揣測與觀察你的行動,再決定如何行動對自己最有利)

古典經濟學(如何個人對有限資源做最好的應用?):比較利益法則下,當每個人都追求自己個人利益最大化時,加起來就是總體的最大利益
賽局理論涉及「如何對別人有限資源做最好的應用?」:每個人都追求自己利益時(自私自利),對於整體福祉而言,是不利的。
在政治領域中,最容易欺騙你的,就是你投票支持的政治人物。對於政治人物而言,欺騙自己的支持者最容易,所付出的代價最少。
林繼文老師的訪問(可惜已過世)
摘錄:
當要尋索最源頭的答案與解釋時,答案是『沒有』。科學的本質涉及對宇宙的信念。
細數那段探索信仰的日子,林繼文說,「我曾想突破理性的限制,然而父親生病帶給我許多疑問。沒有人能救他,那生命的意義是什麼?在學校學的東西就這麼多,但面對人生裡的脆弱與限制,我能做的很少,體認這些會讓我對現今存活在世上,心存很深的敬畏。我們雖不知道神的旨意、真正的藍圖是什麼,但我們相信祂的帶領;生活裡雖不能排除有意外出現,我們仍須有信心,這不是科學或理性能提供答案的。」
此外,他經歷嚴謹的社會科學訓練與多年信仰探索後,得到的感受是,「信念的基礎是信心,大的信心會產生強的信念和謙卑的心。驗證信念所帶來的知識是學術工作的本質,但無法替代信心。」
把自己交給上帝可以省去很多煩惱



1  兩難的困境
情境:
「你和你所愛的人被關在房間,綁在椅子上身旁各有一個按鈕,除非兩人其中之ㄧ在60分中內暗下自己手邊的按鈕,不然兩人都會死,而先按下按鈕的人會死。」

結局一(最不困擾):彼此對於誰該犧牲已有共識,該犧牲的人按下按鈕主動犧牲自己保全對方(e.g., 父母對子女)
結局二:雙方都覺得對方比較值得活下去,願意保全對方。結局取決於誰先按下按鈕
結局三(最尷尬):雙方都覺得自己比較值得活下去,觀望對方(還不按下按鈕)...直到最後一分鐘=>可能兩人一起死,也可能最後某一方動搖(臨死恨死對方)



核子武器的兩難
當蘇聯也研發出核武時,米國有人倡議:
為和平而發動侵略戰爭,先發制人? (不要等到最後一刻,讓雙方一同滅亡)
還好雙方都理性克制或說遲疑,讓MAD成形


約翰‧馮紐曼
賽局是一種衝突的態勢,一個人必須做出某種選擇,並且知道對方也在選擇,彼此相互的選擇決定衝突的結果

他想知道:賽局是否總是存在一種理性的玩法?
馮紐曼從數學證明了在雙人賽局中,只要彼此的利益完全對立,就永遠存在一個理性的行動方針。這一證明被稱為[大中取小定理](minimax theorem)
亦即估計其憾事的最大程度,從中選出使憾事或反效用所示的機會成本達最小的方案。


囚犯的兩難困境
透過背叛與犧牲共同利益來使自己安全與利益最大化
動搖賽局的部份基礎- 沒有理性的玩法,只要有利益衝突的地方就會有囚犯的困境,目前找不到方法可以在囚犯的困境當中促成共同的利益
兩造双法的反應無法被證明對錯,但可以從其行為決策中看出誰是自私派、誰是公益派



2  約翰‧馮紐曼
神童/庫恩統治時代的匈牙利/早年生涯/普林斯頓高等研究院/克拉拉/個性/狂飆突進時期/世界上最優秀的腦袋

John von Neumann
1955年,馮·諾依曼被診斷出患有骨癌,胰腺癌或前列腺癌,而即將死亡的陰影使他充滿恐懼。他認為人生完全不可知論”,然後他突然皈依成了天主教徒,但仍然對死亡感到恐懼,因此並沒有從中得到太多的安寧或安慰。
不世出的數理神童與奇才,可以搞懂最複雜數學公理,卻沒有辦法搞懂自己的人生。


3 賽局理論
戰爭遊戲
下棋=戰爭遊戲,透過遊戲來模擬與訓練=做好戰爭準備
Kriegspiel軍棋遊戲-每個玩家都能看到自己的棋子,但看不到對手的棋子。因此有第三人(或計算機)擔任裁判,其中包含有關遊戲進度的完整信息。輪到玩家時,他或她將嘗試移動,裁判將宣布移動為“合法”或“非法”。

遊戲勝負最初是依據機率或由裁判定奪,後來則參考戰爭數據表。
對於戰略家而言,兵棋遊戲可以當成一面鏡子,反映他們的預估與策略的期望。

所有科學與人類的思想都是遊戲的一種形式=>透過遊戲和累積經驗,來形成固定的行為模式(以利提高成功機率)

賽局理論不單是「玩與贏」的科學,而是關於理性但互不信任的人之間的衝突與合作,包含欺騙、報復以及無止境的不信任。
e.g., 橋牌
一方面要依據機率下注
另一方面要依據對手的思路下注(對方是否掌握我的思路與慣性)
狡猾與欺騙才是理性的,而且經得起嚴謹的分析。


誰最早提出賽局理論?
1921 法國數學家 波萊爾 遊戲理論- 資訊不完整下欺騙行為

1928 馮紐曼 客廳遊戲的理論
首先證明「小中取 大」(miximax)的定理。


賽局理論與經濟行為
摘錄:
該書部分基於von Neumann較早研究(客廳遊戲的理論)
Von NeumannMorgenstern使用客觀機率,並假設所有主體具有相同的概率分佈。但是,NeumannMorgenstern提到可以提供一種主觀概率理論,這項任務由Jimmie Savage1954 [4]Johann Pfanzagl1967年完成。[5] Savagevon NeumannMorgenstern的理性偏好公理擴展到了內生性概率並使其主觀。然後,他使用貝氏定理根據新信息更新這些主題概率,從而將理性選擇和推理聯繫起來。


分蛋糕
兩個孩子分蛋糕,讓其中一個切分蛋糕,另一個先選
可以卻保前者盡量把蛋糕切得一樣大,另一個不會抱怨選到小蛋糕


理性的玩家
賽局的前提:你跟對手(一個或多個)都很希望贏也都有邏輯思維能力=「完全的理性」- 其實是很嚴苛的條件
而非:為玩而玩(不求獲勝)、大人故意輸給小孩、或彼此資訊與智商落差太大


賽局樹
最基本的情境- 所有的資訊透明-無隱藏訊息的二人遊戲
e.g., 九宮格的OX遊戲,彼此可以阻撓對方連成一線
最長的分支是九步,最短的是五步

更複雜的是西洋棋,總步數約5000


賽局表
把賽局所有可能結果整理成表格

即便是很簡單的九宮格的OX遊戲,策略也可以很複雜,遑論可能性更多的西洋棋與圍棋,難以列出所有可能性(所以人跟機器對戰還有勝算)
如果可以列出賽局所有可能結果(1~n, n→∞),理論上便無須再為賽局結果煩惱

實際上:
1.雙方的選擇決定結果(彼此都會誤判)
2.彼此盡力壓縮對方的可能選擇空間
3.白方揣測黑方心思,反之亦然(跳脫客觀機率論範疇)


零和賽局
有人贏一塊,必有人輸一塊=天下沒有白吃的午餐


大中取小和蛋糕
切蛋糕與挑蛋糕兩者利益對立
對於切蛋糕的人,他所能避免的就是最糟的狀況- 自己拿到小塊的蛋糕=>小中取大=盡量切得一樣大

羅賓漢悖論(不是最佳解,只不過是鞍部低點)
彼此間的貪婪與不信任- 為了好過一點而反抗,反而遭受到更嚴酷的對待。
連作法讓幫助與信任別人的行為受到懲罰。


混合策略
偶而撒謊與作假

曲球和致命基因
棒球投手只有一種球路還可以獲勝的原因:對方不知道落點

虛張聲勢的理性
1. 不虛張聲勢的,喪失很多對決的機會
2. 虛張聲勢可以避免對方準確預測你

從父母之一繼承部分貧血症基因的人對於瘧疾有很大的免疫力
然而從父母雙方都繼承貧血症基因的人,會得到致命的貧血症
這導致具備隱性貧血症基因的人存留在瘧疾好發的地區。

對於賽局與基因演化而言,是否有意識與理性選擇並不重要也沒有差別。


大中取小定理
只是用在雙方都很理性的狀況下,不能找出更好的解
不適用在非理性與多人的賽局e.g. 股票市場


N人賽局
馮紐曼把大中取小當成真正經濟科學的基礎
而當兩人變成三人,其中兩人可以結盟使第三者降低營的機會:然而不同的聯盟可能都是穩定的,因此很難預料會發生什麼,甚至不可能預測。
不幸的是:隨著參與人數的增加,賽局的複雜度隨指數增加,預測=不切實際
零和N人賽局=N個變數的函數與N維的矩陣=>難以繪製出賽局表。



4  原子彈
馮紐曼在洛斯阿拉莫斯/戰爭期間的賽局理論/羅素/世界政府/比基尼島的核試驗/電腦/預防性戰爭
原子彈與核戰對於馮紐曼而言不過是一種數學挑戰。

Operation Crossroads



5  蘭德機構
蘭德的歷史

源自二戰期間的作業研究 RAND= Research and Development
拿空軍的預算進行各式各樣天馬行空的構想
把賽局理論應用到軍事上,客戶擴充到各公部門與州政府


想不可想之問題
第一個研究項目是- 用核武進攻蘇聯而選定目標
結果1955ICBM出現,跌破蘭德專家的眼鏡
之後提出第二擊的構想-成為五角大廈的戰略基礎- 發展核子潛艇


難得的金羊毛

各種課題廣泛的研究,包含數學教育、精神及便與阿拉伯的階級制度=>對世界無關緊要

只有少數具有建設性
e.g., ICBM變成登月計畫太空船
召幕社會科學家,研究蘇聯領導人的內心世界、建立蘇聯經濟模型


馮紐曼在蘭德


約翰‧納許
零和賽局的理性解,出自於雙方對立/互不信任,均衡源自於自身利益最大化與互不信任的制衡

非零和賽局也存在均衡解
一般人以為彼此間的聯合行動(相互信任或共同隱瞞)可以增加公同的好處(如囚犯的困境),實際上它更難達到/更難令人滿意(人不為己天誅地滅/見不得別人好- 不是跟自己比而是跟別人比)
納許均衡往往不是最佳理性解
要多回合賽局才會產生理性最佳解(鼓勵合作)



6 囚犯困境
人不是理性的
買賣別克轎車
別克轎車,中古車行收購價500鎂,出售價800
買賣雙方不透過中古車行,會如何決定交易價格
理論上:買賣雙方平分300元的價差= 650每成交
實際上:買方希望買價趨近於500,賣方希望賣價趨近於800=>越堅持不盡情理的一方在交易中越能佔到便宜。

涵義:
人的行動抉擇時,雙方的社會關係扮演重要的角色(理性算計無關緊要),然而即便親屬關係也不能保證真誠合作。

透過多人競標工作與最低價格者得標,往往得標價格不合理=驅使得標者偷工減料。


竊賊的信用
你偷了一顆知名大鑽石,只有黑道大尾哥可以銷贓,然而你得知大尾哥在先前的很多次秘密交易,都宰了對方,把貨跟錢都帶走揚長而去
於是你想出雙方不用見面,透過電話指引對方找到貨跟錢的方式

賽局如下

 
成人間與公司間的各種交易有類似困境,所以才有各種徵信與銀行開立信用狀的機制。


佛拉德—德萊歇實驗
 
重複以上賽局100
合作的次數與比例約60%以上
相互背叛只有約14%


塔克的兩難故事

對於罪犯而言,認罪的關鍵在於「是否達成死刑的判決」
我們搞不清楚誰是真正的凶手與罪犯:是背叛同夥(以獲得緩刑)的?還是接受死刑判決的人?

合理的賽局(一般正常狀況)

合作(4)通常較背叛(2)有更大的總收益及效用

囚犯的困境永無最佳的理性解,因為身處賽局當中的絕望感,無法用理性來克服;在囚犯困境的賽局中,最佳的理性解就是不要陷入抉擇與取捨的困境(=不要參與此一賽局)當中


有違常識推理(的囚犯困境賽局)
背叛是個人最佳解,因為:
1.你的選擇無法影響對方的選擇
2.只有一次機會(而非連續賽局,可以事後報復對方)
3.你怕被關與被對方背叛,對方一樣怕被關與被你背叛(=雙方不理性)

合作才是常識,因為
1.雙方困境相同,想透過背叛佔便宜是不理性的
2.要不選擇合作、要不選擇背叛,而合作的收益大於背叛

在單一回合的困境賽局中,無法證明「合作是理性的」


文獻中的囚犯困境
宗教與經典的教誨
「你要別人如何對待你,你就應該如何對待別人」

愛倫坡小說 瑪莉羅傑之謎
偵探提供獎金與豁免權給罪犯集團當中第一個招供的成員- 匪幫成員貪圖不是獎金也不害怕被抓,恐懼的是被其他成員背叛。

普契尼的歌劇 托絲卡
墮落的警長史卡皮亞愛上托絲卡,史卡皮亞判決托絲卡情人卡瓦拉杜西死刑
警長史卡皮亞跟托絲卡說,如果同意發生關係,可以改用空包彈行刑讓情人卡瓦拉杜西活命

結局是警長與托絲卡都選擇背叛

囚犯的困境就這樣被發現、評論,經常被遺忘也沒有當成一個深刻的問題


白搭便車
囚犯的困境類似於共有地的悲劇
生活上就是利用他人的信任搭便車,拿取自助商店的商品而不投錢、在報稅的時候短報收入/多報支出、開車撞壞了停在路邊的車,你會留下字條告訴車主連絡你賠償嗎?

白搭便車的難題甚至沒有解決的希望
背叛/偷雞者隱藏在人群中

徵稅與政府介入管控(+教育與道德宣導),變成避免搭便車問題的方法
人性的貪懶=搭便車,成為烏托邦與社會主義的夢靨

自由主義者可以接受不同的稅負級距以幫助弱勢與無家可歸的人
保守主義者傾向於把錢留在自己手中/自食其力與自然淘汰

白搭便車=多人賽局與社會問題的困境,沒有標準答案。
人的理性與私利程度有別


核武競賽
雙方都把對方視為深具侵略性的敵人才會陷入囚犯困境
造成困境的另一理由是恐懼:恐懼落後,恐懼敵我武力的落差過大,大到足以引誘對方先發制人,因此雙方都需投入軍備競賽(不得不開發氫彈)



7 一九五
蘇聯的原子彈/預防性戰爭:要或不要?/尤列的演說/富克斯事件/韓戰/技術突襲的本質/和平的侵略者/馬修斯是誰?/後果/大眾的反應/這是風向球嗎?/麥克阿瑟的演說/安德森/輿論反應/有多少原子彈?/尾聲

米國預測蘇聯要15-20年才能開發出原子彈,結果1949年蘇聯就已經掌握原子彈(沒有理由美國3年開發出原子彈,蘇聯要花上15年才能掌握與複製)

推測對手的內在動機是很危險的(誤判機率高)
雙方都擔心對方出其不意的核子攻擊

更趣味的是原子彈的管控在能源部,而非陸海空三軍,軍方完全不知道有多少數量的原子彈可供運用
另外大家搞不清楚有多少核武器的理由是:
1.原子彈要裝配好才能使用,裝好的有效期限是48小時
2.需要有同位素鈽210當誘發劑,半衰期只有138
3.各部份配件分開儲放(有不同的數量與瓶頸),也需要耗費大量人力與資源

1950之前,是西方可以發動預防性核戰的最後期限,之後蘇聯有大量坦克與火砲,乃至於也有原子彈/氫彈,無論如何可以讓對手損失慘重。


-------------------------------------------------------------------------------------
打工仔與組織之間也是處於多人多回合賽局,不見得可以理性與達成良性循環

自以為高明的人資高階打工仔以為可以管控薪資成本與用更低的成本創造出更大的效益與產出,其實明眼打工仔有一番自己的盤算

看似不合理/不公平的賽局,其實冥冥之中自有一番均衡與公道只有真正的笨蛋才會以為別人都是笨蛋





沒有留言: