2020年6月27日 星期六

因果革命(4/4)

因果革命:人工智慧的大未來
The Book of Why: The New Science of Cause and Effect


這本書不好消化,但能讓已經入門的人獲得更深刻的理解,也讓人越看越謙卑:
1.人的智力有限,愚昧卻無限
2.自以為的真知灼見,其實在大師面前只不過是小菜一碟
3.不是不落因果,而是不昧於因果



第九章 中介:找尋機制
日常口語「為什麼」的兩種問法
1.直接,看到結果想知道原因,e.g.,  他看起來健康,為什麼會得到心臟病?
2.間接,想知道已知結果和已知原因之間的關連,吃柑橘類水果可以預防壞血病,中間的機制是? 想知道的「為什麼」是中介mediation
e.g., A藥物之所以能夠控心臟病是因為它能控制血壓
A藥物=>血壓=>心臟病

「反事實」目前在科學界中最風行的應用是中介分析,中介(或中介變項)是把處理效應傳遞給結果的變項,中介分析的目的是釐清直接效應和間接效應。這類問題不僅在科學上相當重要,也有實際的影響


壞血病:錯誤的中介變項
1747年林德船長的壞血病研究




然而18751894英國北極圈遠征隊,19031911的兩次南極遠征隊,全都深受壞血病荼毒。 人們其實沒有搞清楚:柑桔如何能預防壞血病

當時的觀點:
柑橘類水果=>酸性=>壞血病
為求航行長期保存酸性成分,船員把檸檬榨汁然後再加熱殺菌…(=破壞維生素)

另外食用新鮮肉類的水手往往沒有得到壞血病,只有吃肉乾與罐頭的會,
因果邏輯是:肉類不新鮮=>細菌=>壞血病
所以當探險隊出發時,大家只有檢查肉類是否腐壞。
輕忽+自負(不知道自己不知道)導致悲劇

中介不只是個抽象的數學問題


自然與養育:芭芭拉‧布克斯的悲劇人生
Barbara Burks
一己之力發明路徑分析,對抗優生學派,也是首次路徑分析用在社會科學領域,一直沒有取得理想教職,訂婚之後陷入嚴重憂鬱,最後從紐約華盛頓橋躍下身亡,年僅40歲。(欸,相較之下自己的不得志不足掛齒)

她的研究題目是:先天自然遺傳和後天教養,對於子女智商的影響
她在1926年提出的研究架構


 
雙箭頭代表共同因果(雞生蛋蛋生雞)或是因果方向不確定

找一群是撫養子女的家庭(204個,這些孩子只有受到後天教養的影響)
另一群105個一般家庭作為對照

結果顯示雙親IQ對於孩子智商的變異只有35%1/3的影響
如果親代智商高於平均值15%,子代的智商只有高出平均約5% (Regression to mean?!)

Barbara的洞見(與遭遇的難題)
如果我們設定常數變項,而這些變項不是部分或完全由我們將測量其真實關係的兩個因子之ㄧ所造成,而是由其他可影響這兩個獨立因子的遠端因素所造成,則難以估算衡量原因對於結果的影響。
衝突的情況
直接與間接效應的估算


尋找語言(柏克萊錄取率悖論)
半個世紀之後,統計學家依然難以表達直接與間接效應的概念,當然更不可進行估算
1972 加州大學柏克來分校 發現
申請研究所的男性有44%錄取,女性只有35%錄取,擔心違反性別歧視
研究結果發現辛浦森悖論的樣貌
每個系所的女生錄取率越來越高,但整體而言女性錄取率卻下降
申請人文學科的女性比率高於男性,但人文科系錄取名額少
但另一方面,女性申請理工科系人數少,但理工科系錄取名額多,錄取率高

研究建議以科系作為分層,因果圖如下:

「學系」只是中介變數,針對中介變數執行條件化其實是不正確的(中介誤謬 Mediation Fallacy),重點是「性別」對於「結果(錄取率)」的直接效應為何。

另外的統計巨擘指出以上模式的問題- 要同時針對「居住州」與「學系」執行對照,方能看出「性別」對於「結果(錄取率)」的直接效應
結論是:如果每個系所都沒有歧視,那麼學校整體不會歧視(處處公平代表整體公平)



黛西、小貓和間接效應
某人養了一隻狗-黛西,黛西不聽話
有天來了三隻小貓,這段期間黛西很規矩(被嚴密看管),小貓離開後,黛西恢復不聽話
請問小狗黛西行為是受到
1.直接被關籠子的影響(間接效應)
2.受到主人看管的影響(直接效應)

測試實證可以-
看看小貓不在時,如果嚴格看管,看看小狗黛西的行為



線性理想世界裡的中介
整體效應=直接效應+間接效應

然而以上想法不適用在調節moderation的狀況下(線性模型不容許存在交互作用),難處在於很難區分最終整體效應,多少是源自直接效應?多少原自於間接效應?
 陳述與估算方式一
間接效應=整體效應 直接效應(觀察有無M的差別)

陳述與估算方式二
透過路徑係數乘積法
直接效應=X=>Y的路徑係數
間接效應= X=>M的路徑係數* M=>Y的路徑係數

陳述與估算方式三
實驗操弄法
直接效應=控制中介變項M不變時,XY(效應)
間接效應=控制X不變時,同時增加M,使M成為X增加一單位M將達到的量,此時Y的增加(或變化)= X透過MY的間接效應

陳述與估算方式四
簡潔的數學方程式
前半部是XM的效應(條件機率值)* 後半部MY的效應(條件機率值)
竟然可以看得懂這個式子,真是太神奇了
 


中介案例分析
大學學代數:計畫及副作用
取消高三補救課程,改修大學預備課程,如何評估計畫成效?
甲說:有,數學分數在三年內進步7.8分,有75%學生的成績高於政策修改前的平均分數

乙說不見得:有干擾因子
1.先前課程已修改,不該拿課程修改前後比較(兩者基準不同)
2.此一先修課程一執行,本來落後的學生更挫折,逃學+成績更低落;可以教先修課程的老師可能無法兼顧程度較差的學生

因果圖
評估結果顯示:
1.課程修改讓成績提升2.7(直接效應)
2.但是教學環境改變反而讓成績減少2.3(間接效應)

結論是:課程改變(增加授課份量)是好的,但是教學方式與環境要改變=>本來落後的還是要補課(=授課分量加倍)


吸菸基因:中介和交互作用
本來費雪的邏輯- 抽菸導致肺炎只不過是一種假象(背後有干擾因素)
因果圖

後來基因定序終於找到Mr. Big(費雪)猜想的干擾因素 (基因rs16969968)

因果圖修改
 實證結果顯示
  1. 吸煙基因不會明顯提高吸菸量
  2. 吸煙基因不會經由與吸煙無關的路徑導致肺癌
  3. 具備吸煙基因+吸煙的族群,罹患肺癌的機率與風險會明顯提高
  4. 基因與當事人是否吸煙的交互作用,決定了罹患肺癌的機率與風險





第十章       大數據、人工智慧與大問題
機器與人工智慧無法回答人類最常問的問題- 為什麼?

因果模型與大數據
如何透過因果模型增加研究的外部效度,乃至於評估資料能否進行meta analysis




展現以往學術研究難以想像的奇蹟
欸,相見恨晚,可惜我用的統計軟體太舊,沒有辦法進行類似估計


AI和自由意志
貝氏網路能夠處理真實世界當中矛盾與不確定的資料,可是無法解釋或理解原因和結果,在貝氏網路中,資料朝因果與診斷理個方向流動:出現煙霧,則發生火災的機率提高,或火災也提高煙霧出現的可能性,無法判別因果方向。

透過卷積式類神經網路進行深度學習的人工智慧,不以嚴謹或透明的方式處理不確定性,也不包含運作環境的明確資訊,而是放任架構與路徑係數自由演變,在視覺與語音辨識方面已經相當成功

AlphaGo大敗人類棋手,只不過設計人員也說不出AlphaGo的棋力為什麼這麼強
對於人類而言,運作不透明=無法理解與進行溝通
所謂的深度學習其實侷限於因果階梯的第一階,只是所謂的弱AI;要進入強AI,必須讓因果觀念與模型從奢侈品變成必需品e.g., 讓機器理解採取其他行動的陳述
做了X=x,得到Y=y
如果採取不同行為X=x’ ,得到不同或更好的結果Y=y’
有充足的資料與因果模型,就能讓人或機器做出不同的選擇

其次機器的問題與挑戰在於:動機
能夠讓機器擁有不同作為的選擇權嗎?自由意志與動機?!
雖然對於哲學家、腦神經科學而言,人類所謂的自由意志與動機不過是一種幻覺
乃於當事人事後的穿鑿附會與詮釋。

推想自己的信念、意圖與需求的能力始終是人工智慧研究的挑戰

人的智慧與學習不過是
1.(觀察與探究)外在世界與各種人事物
2.本身對於外在世界因果模型的詮釋與程式(是否正確不重要)
3.記憶意圖與外在事件回應的關連(評估行動成效)
4.調整自己內在的預設程式=自由意識與負起責任


人工智慧的大哉問
1.我們已經打造出會思考的機器嗎?
Not yet.

2.我們能否打造出會思考的機器?
Yes, We Can
但是機器的思考方式(運算)不同於人的思考方式(邏輯)
能夠打敗人類棋手的AlphaGo=通過圖靈測驗
目前機器大概只能幫忙運算與爬上因果關聯的第二階

3.我們會打造出會思考的機器嗎?
Yes, 很難阻止人類思考與嘗試

4.我們應該打造會思考的機器嗎?
It depends on whether can we打造出能夠分辨善惡的機器
具道德感的強AI,不只會成為我們的好伙伴,還能成為我們師法的對象,教導我們更明晰、因果上更合理的正義感,這則是人工智慧給人類的第一個、也是最好的禮物。


欸,對於自己能夠(行有餘力)看書、理解這本書(當然不是全部)與作者看待因果關聯的洞見 心懷感激。




沒有留言: