Gerd Gigerenzer
https://en.wikipedia.org/wiki/Gerd_Gigerenzer
德國心理學家,研究領域為有限理性和啟發式在決策中的應用
研究人類如何在有限的時間和知識條件下對世界進行推論。他認為,在不確定的世界中,機率論是不夠的;人們還會運用智慧啟發法,也就是經驗法則。他將理性決策概念化為適應性工具箱(個人或機構擁有的啟發法庫)以及為當前任務選擇合適啟發法的能力。啟發法稱為生態理性,取決於其與環境結構的適應程度。
吉格倫澤認為,啟發式方法並非非理性的,也並非總是次於最佳化,正如「準確性與投入權衡」觀點所假設的那樣。在「準確度與投入權衡」觀點中,啟發式方法被視為捷徑,用較少的努力換取較低的準確性。相反,他和相關研究人員的研究發現了「少即是多」的情況,即啟發式方法可以用較少的努力做出更準確的決策。這與傳統觀點相矛盾,傳統觀點認為,資訊越多越好,或至少在免費的情況下永遠不會有害。
Risk Savvy: How to Make Good Decisions
https://www.youtube.com/watch?v=KnRWVmWQG24
摘錄:
區別風險與不確定性:
- 風險 (Risk):指可以計算的情況,例如賭場或許多醫療情境,數據估計良好,可以使用機率理論或邏輯來計算最佳決策。
- 不確定性 (Uncertainty):指無法計算風險的情況,因為不知道所有選項、所有後果或機率。這類情境需要不同的工具,例如直覺 (Intuition) 和啟發法 (Heuristics)。直覺是一種快速出現在意識中的判斷,通常基於經驗,但其潛在過程不完全為人所知。
風險溝通的挑戰與誤解:
- 資訊不清:專家往往不擅長以易於理解的方式溝通風險。例如,天氣預報中的「30% 的降雨機率」可能讓人困惑,因為人們不清楚這「30%」指的是什麼(時間、區域、天數或氣象學家的意見)。
- 相對風險與絕對風險:影片中舉例說明了避孕藥恐慌事件,新聞報導「避孕藥增加血栓風險 100%」,導致女性恐慌並停藥,造成大量意外懷孕和墮胎。實際上,這 100% 是相對風險,絕對風險僅從每 7,000 人中 1 人增加到 2 人。相對數字可能令人恐懼,而絕對數字則可能讓人在理智上做出不同判斷。
- 缺乏風險意識教育:學校教授確定性的數學,而非不確定性的數學,導致人們缺乏處理不確定性的能力。
- 社會對於培養「風險達人」(risk savvy)的公民投入甚少,當危機來臨時,我們傾向於訴諸技術、官僚體制或更嚴格的法律,而非提升民眾自身的風險素養
過度恐懼與非理性行為:
- 群體性死亡恐懼 (Dread Risk):以 9/11 恐攻後美國人選擇開車而非搭飛機的例子說明。雖然恐怖分子造成的死亡是瞬間的,但隨後一年內,因避免飛機風險而選擇開車導致了約 1,600 人的額外道路死亡,遠超過恐攻中的死亡人數。這種恐懼源於人類演化史,過去小群體中多人同時死亡是對生存的威脅,但在現代社會已不再是真實危險,卻仍容易被喚起。
- 了解真實統計數據與自身心理:成為「風險達人」意味著不僅要了解真實的統計數據(例如,開車 12 英里與搭乘不停站航班的死亡機率相同),還要理解自身的心理弱點,如這種群體性死亡恐懼。
直覺與啟發法的重要性及其誤解:
- 專業決策中的直覺:許多重要的專業決策,尤其是高階經理人的決策 (平均約 50%),最終是基於直覺,儘管他們公開場合不願承認。
- 防禦性決策 (Defensive Decision-Making):經理人為了保護自己,避免承擔責任,可能會選擇次優或第三優的方案,而非公司最佳利益的方案。這在商業領域普遍存在(約 1/3 到 1/2 的決策),在醫療領域也常見(93% 的醫生承認有防禦性醫療行為,例如不必要的檢查或手術)。防禦性決策保護決策者,卻損害公司利益。
- 創新障礙:對直覺的不信任、要求所有新想法都必須有「理性」證明、以及創建防禦性決策文化,都會阻礙創新。
複雜問題不一定需要複雜解決方案:
- 「火雞錯覺 (Turkey Illusion)」:將基於過去數據的風險模型應用於不確定性世界,結果往往錯誤。例如,大型銀行每年預測匯率的結果多年來都是錯誤的,因為它們假設未來會像過去一樣。
- 這些錯誤的預測卻仍被高層主管接受,原因在於防禦性決策:如果自己預測錯了要負責,但如果是由某某大銀行預測錯了,則可以歸咎於對方。(他們甚至會花大錢購買「頂級」顧問公司的「精確」預測,即使心知肚明其價值不高,以便在出錯時有推卸責任的對象。)
- 簡單啟發法 (Simple Heuristics) 的優勢:在高度不確定、選項多、數據少的情況下,簡單的啟發法往往比複雜模型(如:大數據、多元迴歸分析)表現更好。例如,判斷活躍客戶的「中斷啟發法 (Hiatus heuristic)」 (9 個月未購買即視為不活躍) 在預測準確性上優於複雜的統計模型。在投資方面,簡單的「1/N」啟發法(平均分配)也常優於諾貝爾獎級別的優化模型。
- 過度擬合 (Overfitting):複雜模型因試圖估計過多參數而引入更多誤差,簡單模型則因其偏誤能夠抵禦這種誤差。
對「理性」的批判:
- 許多專家認為只有一種「理性」方式,即基於機率理論的預期效用最大化,但這混淆了風險與不確定性。
- 神經經濟學 (Neuroeconomics) 的錯誤方向:它試圖在大腦中找到預期效用計算的組件,而不是去尋找大腦中「適應性工具箱 (Adaptive toolbox)」的痕跡,即大腦如何使用智能啟發法來應對不確定性世界。
為何精明冒險(Risk Savvy)至關重要?
培養精明冒險的能力,能帶來多方面的益處:
- 挽救生命與避免災難:理解風險與不確定性所能挽救的生命和預防的災難,比許多科技所能做到的更多。因此,我們應該投資於人,而不僅是科技和法規。
- 提升決策品質:它能幫助人們做出更好的個人和專業決策,例如選擇職業、投資組合或甚至婚姻。
- 賦予民眾力量:這是一個關於民主的願景,讓人民能夠更自主地掌控自己的生活,而非盲目聽從政府或專家。
- 預防社會問題:例如,理解相對風險和絕對風險的差異,可以避免不必要的恐慌,減少不必要的墮胎或車禍死亡。
擁抱簡約啟發法 (Simple Heuristics):
- 在高度不確定的環境中,簡單的啟發法往往比複雜模型更具韌性、靈活且準確。它們不是次優選擇,而是唯一可行或更好的選擇。
- 近期啟發法 (Recency heuristic):例如,預測流感傳播,只依賴最近的數據點(上週的流感病例數),其錯誤率比 Google 流感趨勢的複雜演算法低一半。
- 1/N 啟發法:在投資組合中,將資金平均分配到 N 種資產上,在許多情況下表現優於傳統的「平均方差最佳化」模型,尤其當數據量小或不確定性高時。
- 休止期啟發法 (Hiatus heuristic):在識別活躍客戶方面,簡單地將 9 個月或更長時間未購物的客戶歸類為不活躍,比複雜的統計模型更準確。
- 辨識啟發法 (Recognition heuristic):僅依賴一個變量(如品牌知名度)來判斷品質,在某些情況下可勝過複雜模型
Risks and Uncertainty: Understanding Data and Making Rational Decisions
https://www.youtube.com/watch?v=31iybjQievo
簡單啟發法的力量(Less is More):
- 在高度不確定的世界中,簡單的啟發法往往比複雜的統計模型表現更好。這是因為複雜模型可能「過度擬合(overfit)」過去的數據,導致在面對未來變化時預測失準。
- 實例:Google 流感趨勢的複雜大數據演算法在面對豬流感等新情況時預測失誤,而一個簡單的「近期啟發法(Recency Heuristic)」(即預測下週的流感數字與上週相同)卻能將 Google 的錯誤率減半。這說明在不確定環境中,簡單的方法可能更具穩健性(robustness)和彈性(flexibility)。
- 「生態理性(Ecological Rationality)」:理解何種啟發法適用於何種環境,以及心智與環境之間的匹配至關重要。
培養正向的錯誤文化(Positive Error Culture):
- 如同航空業,應將錯誤視為學習的機會,而非懲罰或掩蓋的對象。
- 通過批判性事件報告和使用簡單清單(checklist)等工具(如手術室的衛生清單),可以顯著減少錯誤並改進流程。
批判性思考與建立信任:
- 個人應培養懷疑精神,辨識利益衝突(例如,製藥公司的資訊與獨立科學研究機構的資訊)。
- 雖然不可能事事親自驗證,但學習辨別可信賴的資訊來源(如考科藍合作組織 Cochrane)至關重要。
- 社會應維護對科學、可靠媒體和政府機構的信任,避免因社交媒體上的錯誤信息而導致信任體系的崩潰。
Mindless Statistics
https://www.youtube.com/watch?v=er0SVun8rww
「無意識統計」(Mindless Statistics)的講座,探討了社會科學和生物醫學領域中普遍存在的統計方法誤用問題,及其對科學研究的深遠影響。
「虛無假說儀式」(The Null Ritual)及其問題
許多科學家在研究中遵循一種「虛無假說儀式」,而不是真正良好的統計實踐。這個儀式包括三個步驟:
- 設定無差異或零相關的虛無空假說,但「不」明確指定自己的假設或理論及其預測。
- 慣例上使用 5% 作為拒絕空值假設的標準。如果檢定顯著,就聲稱自己「從未指定」的假設獲得了勝利,並報告 P 值小於 5%、1% 或 0.1%。
- 執行這個程序,不論情況如何。
這種儀式化做法背離了統計學家費雪(Ronald Fisher)和奈曼(Jerzy Neyman)與皮爾遜(Egon Pearson)的原始意圖,這兩位統計學的創始人,儘管彼此存在激烈爭議,但都同意科學推論「不能是機械的」,需要判斷力。
虛無假說儀式的根源與其影響
- 歷史與教育問題:許多社會科學家最初接觸的是費雪的理論。然而,教科書作者將費雪和奈曼-皮爾遜的理論混合成一種在真正統計學中並不存在的「混合理論」,並強調科學推論必須是「無判斷力的」和「自動的」。這種混合理論導致研究者內心產生衝突,一邊相信需要設定兩個假設並思考事前檢定力,一邊又為了發表而盲目追求結果。
- 制度性誘因:大學行政部門根據出版物的數量來晉升人員。出版商則傾向於提供單一的「食譜式」指南,而非介紹不同的統計理論。這導致了「發表或毀滅」(publish or perish)的壓力,促使研究者為了得到顯著結果而「切片和分解數據」(slicing and dicing data)或進行「P 值駭客」(P-hacking)。
- 重複性危機:
- 醫學研究中,每天有四到五項研究報告新的顯著標誌物,但很少能被重複,更少能投入臨床實踐。
- 一項對 53 項重要研究的重複嘗試只成功了 6 項。另一項對 67 個腫瘤學、婦女健康和心血管醫學專案的調查,只能重複其中 14 項。
- 據估計,高達85% 的醫學研究是可避免的浪費,每年全球損失達 1700 億美元。
- 普遍的研究顯示,三分之一到三分之二的已發表結果無法重複,而那些能重複的,其效應量平均只有一半。
- 一些研究者甚至面臨人身攻擊,被稱為「重複警察」或「可恥的小惡霸」。
P 值的誤解與錯覺:
- P 值是「在虛無假說假設正確的情況下,觀察到該結果或更極端結果的機率」,是數據在給定假設下的機率,而非假設在給定數據下的機率。
- 重複性錯覺:許多研究者(包括統計學教師和教授)錯誤地認為,P 值為 1% 意味著結果有 99% 的機率可以被重複。在六個國家的調查中,20% 的統計學教師、39% 的教授和 66% 的學生都持有這種錯誤觀念。
- P 值告訴你假設為真的機率:另一個錯覺是,P 值為 1% 意味著空值假設為真的機率也是 1%,或替代假設為真的機率是 99%。這些都是對條件機率的基本誤解。
盲點:
- 效應量:虛無假說儀式中缺乏對效應量的關注。經濟學家對統計顯著性和經濟顯著性之間的區分能力在十年內沒有改善,反而更差。
- 統計檢定力(Power):虛無假說儀式中也沒有考慮檢定力,即「在存在效應的情況下,發現該效應的機率」。許多領域的研究(如神經科學、阿茲海默症、癌症生物標誌物)的檢定力極低,有時甚至低於 20%。這意味著許多實驗的發現機率比擲硬幣還低。
- 道德問題與學術不端行為:這種儀式創造了科學道德和追求顯著結果之間的衝突。
- 「邊緣欺騙」(borderline cheating)包括不報告所有進行過的研究、不報告所有測量的依變項、不報告所有自變項,甚至輕微下調 P 值以使其顯著(例如將 5.4% 報成 4.9%)。
- 一項針對 2,000 多名學術心理學家的研究發現,絕大多數人承認至少有一次這些「可疑的研究行為」。
- 對「真理」的威脅:當前系統和社交媒體的競爭,使得判斷什麼是真相、什麼是虛假變得越來越困難,這對公眾對科學的信任造成損害。
解決方案與建議
- 培養統計思維,而非儀式:
- 檢定自己的假設,而不是虛無假說。
- 最小化測量中的實際誤差,而非僅僅增加樣本量。
- 將統計學視為一個工具箱,沒有一種單一的統計推論方法在所有情況下都是最好的。
- 期刊編輯審稿角色的改革:
- 區分「發現假設」的研究和「檢定假設」的研究,這樣年輕科學家就不必假裝他們在實驗前就已經有了假設。
- 要求說明推論所指的總體。
- 要求進行「競爭性檢定」(competitive testing),而非空值假設檢定。
- 停止接受僅報告「顯著」或「不顯著」的論文,應報告精確的 P 值。
- 解決更大的結構性問題:
- 將質量置於數量之上:目前科學界過度強調論文數量而非質量。許多傑出科學家認為,在當前的體系下,他們可能無法獲得學術職位。
- 大學行政部門應改變晉升和終身職的評估方式,從「統計數據」轉變為「閱讀」。
- 解決科學出版業的問題:出版商濫用線上出版的無限容量,鼓勵研究者在更多特刊和期刊上發表更多論文。
- 打擊掠奪性期刊(predatory journals)和論文工廠(paper mills):這些機構收取高額費用,提供虛假文章,甚至賄賂期刊編輯以確保發表。
- 科學組織應重新掌控出版權:例如,《神經影像》(NeuroImage)期刊的 42 位編輯因不滿出版商的貪婪而辭職,並創辦了非營利的新期刊,呼籲科學界向非營利期刊提交論文。
- 恢復大學作為「知識機構」的本質,而不是將其作為企業來經營。
- 其他建議:
- 資助機構也應提供資金支持重複性研究,而不僅僅是追求新發現。
- 改革教育體系,讓學生有時間發展想法,並認識到真正的好想法是稀缺的。
- 重新思考科學溝通方式,例如使用「活文件」(living documents)而不是僵化的紙本論文。
- 針對記者進行系統性培訓,以改善公眾對科學結果的理解和信任。
How to Stay Smart in a Smart World
https://www.youtube.com/watch?v=s-xHvfScG_c
摘錄:
人工智慧的局限性:「穩定世界原則」與不確定性:
- 複雜演算法和大數據在穩定的情境中(例如:規則明確的棋類遊戲如西洋棋或圍棋)表現良好,因為這些情境「明天就像昨天一樣」。
- 在高度不確定性的情境中,例如預測人類行為、尋找浪漫伴侶、流感傳播或分析累犯時,複雜演算法就不再適用。
- 人類智慧的演進正是為了應對來自他人、危險(早期動物,現則為天氣等)的不確定性。
人類智慧的優勢:簡單啟發法與「忽略的藝術」:
- 人類智慧的奇蹟在於知道「該忽略什麼」。在不確定性情境中,簡單的模型而非過度複雜的模型往往能表現得更好,因為「更多數據也無益」。
- 吉格倫澤主張「心理學融入 AI」:AI 的原始理念是分析專家使用的啟發法並將其程式化,使電腦變得智慧(即 AI 中的「I」代表人類智慧)。他認為,當前機器學習偏離了這一點,過於依賴統計技術,這是一個「大錯誤」。
透明度、偏差與可解釋性 AI (XAI):
- 在醫療健康分析和監獄累犯分析等領域,僅依靠兩三個變量(例如年齡、性別和過往定罪次數)的"簡單模型",表現與任何複雜的「黑箱模型」一樣好。
- 這些簡單模型不僅透明,容易理解,其透明度還有助於發現數據或演算法中可能存在的歧視性偏差,例如是否不當地考慮了種族等因素。
- 吉格倫澤認為,許多可解釋性 AI 只是試圖「解釋」一個黑箱模型,其解釋可能與模型實際運作方式無關。在不確定性下,選擇預測效果相同或更好的簡單模型,能夠從根本上解決"可解釋性問題",因為它們「不難解釋」。
適應 AI 原則」與城市改造:
- 提出「適應 AI 原則」,指出 AI 通常被視為輔助系統,但我們常忽略為了讓 AI 運作,環境需要變得更穩定,而人類自身也需要變得更可預測。
- 以自動駕駛汽車為例,他認為 Level 5 的全自動駕駛(在所有條件下無需人類關注)是「行銷炒作」。更有可能實現的是 Level 4 級別的汽車,它們在受限條件(如機場或高速公路)下自動駕駛,而這將要求「我們做出改變」:重新設計城市,劃定專門區域,將行人、自行車等排除在外。
- 這不僅是 AI 的問題,更是關於 AI 背後的人、公司、企業和政府。我們的價值觀,包括隱私和尊嚴,也在隨之改變。
AI 的商業模式與隱私問題:
- 將當前 AI 公司的商業模式比作「免費咖啡屋」:表面上免費,但實際上用戶的聊天內容和行為被錄製並出售給廣告商。在這種「用數據付費」的模式下,「客戶是銷售人員,而不是你我,我們是待售的產品」。
- 這種模式導致了一些負面後果,如為了讓用戶留在平台上,公司可能設計出讓用戶情緒低落或推廣極端內容的技術。
- 他提出一個「激進的建議」:如果 Facebook(現在的 Meta)用戶每月支付約2 美元(約一杯咖啡的錢),就可以取代其 97% 來自廣告的收入,從而避免用戶數據被濫用的問題。
- 儘管許多人表示擔心數據隱私,但大多數人卻不願為保護數據而支付任何費用,這被稱為「隱私悖論」。
- 長篇、難懂且具有法律約束力的隱私政策,讓用戶沒有真正選擇的權利,這也是一個「尊嚴問題」。他認為,除非公眾理解隱私和尊嚴的重要性,否則我們將會走向一個商業和政府監控的系統。
數位素養與批判性思考的重要性:
- 呼籲將「風險素養」和「數位素養」納入教育。
- 許多大學生和高中生缺乏辨別網站真實性(例如通過「橫向閱讀」方法)或區分事實與觀點的能力。
- AI 的最大威脅是人們停止獨立思考,將決策權委託給 AI(例如語音助理 Alexa),最終可能導致監控系統的出現(如中國的社會信用系統)。這會讓人類變得更可預測、更守法,但問題是我們是否想要這樣的系統。
- 教育公眾應從學校開始,教授辨別信息來源的簡單規則,並培養記者的獨立判斷力,而非僅重複行業宣傳。最終,社會需要學會「為自己思考」。
對「助推」(Nudging)的批判:
- 吉格倫澤對「助推」方法持批判態度,認為它假設人們不善於風險決策且無法學習,因此需要政府或權威機構介入引導。
- 他主張培養「風險意識強」的人,讓他們充分了解資訊並有勇氣自己做出決策,而不是被推向某個被認為是「理性」的方向。
複雜問題(如氣候變遷)的討論:
- 在不確定性高的複雜問題中,啟發法仍然有效。
- 對於氣候變遷,吉格倫澤認為,儘管存在不確定性,我們應該「築牆」(即採取積極的應對措施,如投資可再生能源),而不是依賴不確定的預測。
沒有留言:
張貼留言