因果革命:人工智慧的大未來
The Book of Why: The New Science of Cause
and Effect
前情提要
機率不等於因果關係
相關性不等於因果關係
討論因果關係的方法
外行人班門弄斧/造口業該被打屁股,來好好反省+讀一讀真正大師的見解
自序
這本書的目標有三個:
1.以非數學語言讓讀者理解因果革命的詳細內涵,以及它將如何影響我們的生活和未來。
2.為讀者介紹科學家遭遇及挑戰關鍵因果問題時,英勇解決的歷程。
3.把因果革命帶回人工智慧的最初本源,介紹如何讓機器人學習以我們的母語(即因果語言)溝通。
人的思想與邏輯為何如此運作?因果、榮譽與遺憾、意圖與責任的意義是什麼?
前言:思想勝過資料
腦中的邏輯與因果推論(思想)詮釋了真實世界當中發生的事情(資料)
科學≒因果推論(causal
inference)
這種新科學可以處理這些看似簡潔明瞭的問題:
‧某種療法預防疾病的效果如何?
‧是新稅法使得銷售增加?還是那是打廣告的結果?
‧醫療成本中,有哪些可歸因於肥胖?
這些問題都和因果關係有關,特徵是「預防」、「使得」、「歸因於」、「政策」,以及「應該」等這些詞。這些詞在日常交談中經常使用,社會也經常得回答這些問題。但直到非常近期,科學都沒有提供任何方法來清楚表達這些問題,更不用說解答它們了。主要的阻礙是:我們用來描述因果問題的詞彙,與傳播科學理論時使用的傳統詞彙,基本上有所差異。
想像科學家試圖表達某些顯而易見的因果關係時,有多麼困難,例如氣壓計讀數為B時,代表大氣壓力為P。我們可以輕易寫出像B = kP這樣的方程式,其中k代表某個比例常數。接下來可以依據代數法則,把這個方程式隨意改寫成各種形式,例如P = B/k、k = B/P,或是B – kP = 0。這些方程式的意義全都相同,只要知道這三個量中的二個,就可求出第三個量。k、B和P這幾個字母在數學上的地位,都不比其他字母高。那麼我們又該怎麼表達我們相信是壓力造成氣壓計讀數改變,而不是氣壓計造成壓力改變?如果我們連這麼簡單的因果關係都無法表達,又怎能表達其他連數學公式都沒有的因果概念?(例如太陽升起不是因為公雞報曉的關係。)
數學等號左右兩邊可以置換,沒有因果關係概念
但隨著科學好奇心逐漸增長,我們也開始在複雜的法律、商業、醫學和政策制訂場合提出因果問題,我們發現手上沒有成熟科學應該提供的工具和原理。因果理論需求開始浮現之際,統計學也在此刻誕生。事實上,正是高爾頓和皮爾森對遺傳產生疑問,巧妙地運用跨世代資料來解答這些問題,才孕育出現代統計學。可惜的是他們沒有問為什麼,而是宣告這些問題無法回答,同時開發與因果性無關的興盛學科,稱為統計學。統計學告訴我們「相關不是因果」(Correlation is not causation.),卻沒有說因果到底是什麼。在統計學教科書的索引裡你找不到「原因」。不講X是Y的原因,只能說X和Y「相關」或「有關聯」。
由於這樣的禁忌,統計學認為不需要數學工具來處理因果問題,它在意的只有如何總結資料,而不是如何詮釋資料。唯一的例外是1920年代遺傳學家西瓦爾‧萊特發明的路徑分析(path analysis),這也是本書許多方法的鼻祖。然而路徑分析完全不受統計學和相關領域青睞,因此停滯在萌芽階段數十年之久。統計學的其他領域,包括想求助於因果推論的其他學科,也還處於禁忌時代,誤以為所有科學問題的答案都蘊含在資料中,可以透過巧妙的資料探勘技巧發掘出來。資料本位的歷史至今仍然揮之不去。然而資料本身是中性與中立的,端看當事人如何詮釋或解釋。