From Micro to Macro: 雜訊(2)

雜訊：人類判斷的缺陷

Noise: A Flaw in Human Judgment

https://www.books.com.tw/products/0010893007

08 群體如何擴大雜訊

一群人在一起，可以減小雜訊=>群眾的智慧

也可以放大雜訊=>各自對立/沒有交集的同溫層，各自受到操弄與強化自己的成見與認知，或者形成無法解釋的湧現/一窩蜂與集體瘋狂(人云亦云)

社會共鳴與群眾交互影響

對於簡單的估計，群眾的智慧可以提升估計準確度、接近正確答案

但對於複雜與開放性的問題而言，社會影響減少群體的多樣性(想像力)，卻沒有減少誤差

資訊瀑布

造成雜訊與意見發散

社會壓力

官大學問大、不要跟自己的績效開玩笑=>老闆說了算，大家裝傻裝憨

也會降低群體獲得更正確答案的可能

群體極化

越偏激的意見反而容易吸引其他人的注意與認同

最不妥協人制約了整個群體最終的決策

人的自我意識與認知是一堆來來去去虛幻的念頭，遑論是一群人交互影響傳播謎因、人云亦云與屁話自我引用共鳴，難怪社會風俗、法律哲理與政治決策沒有道理可言

巷子口社會學的熱門文章-五隻猴子的故事

https://twstreetcorner.org/2015/05/05/linpoan/

摘錄

如果沒有生活習慣，我們的生活會陷入毫無章法的混亂之中，像極了一隻無頭蒼蠅般，到處無意義的飛舞。需要防備的是，我們會陷入不自覺的習慣或傳統束縛之中，無法因應外在環境的改變而適時反省調整。因此，馬克吐恩的名言：「讓我們陷入困境的不是無知，而是堅持看似正確的謬誤論斷。」（What gets us into trouble is not what we don’t know. It’s what we know for sure that just ain’t so）或許也是我們面對習慣時，一記發人深省的暮鼓晨鐘啊！

第三部 預測性判斷中的雜訊

為何規則、公式與演算法能夠勝過人類的判斷

和諧率(percent concordant)

隨機抽取兩位員工，真的表現較好的也獲得較好績效評估成績的機率是多少？

有時被肯定，有時不被肯定：相關係數=0，和諧率=50%

好跟不好被很清楚的鑑別，沒有誤判：相關係數=1，和諧率=100%

相關係數=0.1，和諧率=53%

相關係數=0.2，和諧率=56%

相關係數=0.3，和諧率=60%

相關係數=0.4，和諧率=63%

相關係數=0.6，和諧率=71%

相關係數=0.8，和諧率=79%

呵，以上關係說明了為何會有很多企管巫醫與很多學術研究其實是無病呻吟/鑽牛角尖(學術理論意義顯著≠理論應用robust)

相關係數顯著≠Effect Size 或預測正確率

相關係數0.3/和諧率0.6=只比亂猜穿鑿附會多了10%的正確率

換言之，我跟其他專家用盡畢生所學，幫忙診斷公司工廠會不會出事的和諧率，其實也是0.6，只比亂猜0.5的機率多了10%的正確率

09 判斷與模型

實證研究顯示

績效評估(考慮領導力、溝通力、工作技能、積極度等)與當事人績效好壞的相關細數約在0.15~0.3之間

和諧率只有55%-60%=>只比亂猜亂50%的正確率好一些

更糟的是：績效考核的程序，讓評分的主管產生效度錯覺(illusion of validity)

http://greenhornfinancefootnote.blogspot.com/2013/06/thinking-fast-and-slow2.html

對於自己的評估結果深具信心(其實只是自己對於被評估部屬的感覺與刻板印象)

欸，心得與建議

1.職場真的是演戲(高階主管的高薪其實就是明星演員的薪水)

2.不能也不需要對於這種荒謬的遊戲太認真

3.對於主管而言，應該是看員工的工作成果數量來調薪(而非所謂表現好壞的觀感)

4.對於員工而言，要盡量讓主管喜歡你/有好印象，做人比做事更重要，而非硬拼苦幹實幹(撤職查辦)

5.簡單的準則判斷，往往比人腦考慮各種複雜的因素更為準確(不是AI或演算法神奇，而是人腦受到太多因素干擾)

你的判斷模型打敗了你

判斷模型與當事人判斷的相關係數是0.8(和諧率79%)

判斷者的模型優於當事人主觀判斷的原因

1.當事人會在心中微調各項因素的權重(想得太複雜)

2.主觀判斷受到各種因素(感覺、感情)的雜訊干擾

3.人腦喜歡複雜(主觀與自由裁量)=over fitting降低解釋力

模型的好處與優點

1.消除主觀的偏見+各種雜訊的干擾

2.追求簡單準則，而非疊床架屋增加各種例外判斷與解釋(e.g., 想想各種法規的解釋令)

3.機器與準則模型判斷每次的一致性更高

大師眼中的大師

1954 Paul Meehl 臨床預測與統計預測的比較：理論分析與證據回顧

https://www.haobook123.com/contents/7595

https://scchen.com/zh/project/meehl/

Paul Meehl談心理學理論失效的十大主因

https://scchen.com/zh/post/why_psychology_failed/

摘錄：

1.脆弱的邏輯鏈(Loose derivation chain)：邏輯鏈的每個成份都有一個對應的機率，表示研究結果支持理論的成功率，與實驗條件有效的機率。如果每個成份都有0.8的成功機率，那麼獲得支持結論的正面結果，至少有0.8^5，也就是0.33。四壞球研究通常沒有認真預估每一個成份的成功機率，導致高估發現正面結果的機率。

2.不良輔助理論命題(Problematic auxiliary theories)：輔助理論因應測量器材等實際研究條件而設定。核心理論命題未完成或太過模糊，會運用輔助理論命題預測結果，容易造成研究者過度依賴工具。

3.不良控制條件(Problematic ceteris paribus clause)：今天的研究者了解如果研究的效應牽涉參與者的個別差異，都會列舉任何可測得的個別差異因素，以相關分析確定與要測量的效應無關。

4.實驗者偏誤(Experimenter error and bias)：Paul Meehl所指是研究者在過程中並非蓄意造假的操作失誤，無論是1990或今天，大多是指經驗不足的助理或學生造成的錯誤。

5.不適當的考驗力分析(Inadequate statistical power)：在Paul Meehl的著述裡，緊扣實際的科學研究過度高估。許多研究指出從低考驗力條件產生的研究結果，偽陽率(false positive rate)越高。

Paul Meehl (他的母親死於醫療疏失，難怪對於臨床研究的效力宣稱，如此嚴謹+嚴厲批判)

https://en.wikipedia.org/wiki/Paul_E._Meehl

心得感想：

我跟其他專家用盡畢生所學(To the best of our knowledge)針對公司工廠會不會出事的診斷(其實只是猜測)，其和諧率(準確度)也不過是55-60%，只比亂猜50%的機率多了5-10%的正確率=>意識到這點讓人深感謙卑與獲得解放(自己只是人不是神，無須自欺欺人)

可惜江湖上多的是充滿信心(傲慢)、鐵口直斷/藥到病除的那種專家學者(seafood)，還好真正的學者與專家，雖然不見得比較行，但至少有能耐可以辨識出哪些是冒牌的學者專家+意識到自己的效度錯覺+不斷持續成長(沒有當個鐵鎚人，e.g., 所有問題都是法規守規、SOP、人為疏失、ISO條文、安全文化、風險評估..etc)

https://chunting.me/man-with-a-hammer-syndrome/

10 無雜訊的規則

無(感情感覺干擾)雜訊的規則就是簡單的SOP(有時荒謬可笑)到複雜的機器學習

模型越簡單就越穩健

弔詭的原因在於：

給每個預測因子同樣的權重即可=>其預測準確度不亞於”最適”模型

多元回歸與機器學習會給每個不同因子不同權重，以獲得最佳結果

那個不同權重的最佳預測結果只適用於”樣本內”的情況，預測樣本外狀況時，權重又會不同

另外的原因則是複雜預測的相關係數與和諧率通常不高

e.g.,

用七個同樣權重的構面來預測經理人的績效，預測的相關係數是0.25(和諧率：58%)

而專家的專業判斷來預測經理人的績效，預測的相關係數是0.15(和諧率：55%)

簡單規則

假設有A與B兩個預測因子

A對結果的相關係數是0.6(和諧率71%)

B對結果的相關係數是0.55(和諧率69%)

而A與B又相關，相關係數0.5

那組合A和B來預測(給予不同權重)，最佳的預測效能是？

答案是相關係數0.67(和諧率73%)

越簡單越好的案例

預測被告是否棄保潛逃﹖

只需兩個因素

1.被告年紀(越大越不會潛逃)+2不按時出庭數(越多越會潛逃)

預測是否累犯，也是兩個因素

年齡和前科次數

機器學習

可以透過很多預測因子與模型，來預測一個人今晚會不會去看電影/出去吃飯或在家看電視

然而如果你剛好知道這個人今天車禍摔斷腿，那麼你會比任何模型更了解這個人今晚的狀況

當掌握「斷腿」的關鍵資訊時，該推翻預測模型

反之當沒有掌握關係資訊時，即便你不認同該模型，也該採用該模型的預測。

人工智慧，data mining與機器學習的魅力在於，能夠發掘與掌握潛在與罕見的關聯狀況

機器學習的演算法，能夠從變數組合當中，找出可能被忽略的(斷腿)重要訊號

很多人(特別是高高在上的法官、學者與專家)抗拒演算法的原因在於：這剝奪了我們身而為人(下錯誤決策&犯錯)的特權

特別是沒有完美的演算法，預測總是會出錯。

欸，回過頭用相關係數與和諧率的角度來看工安事故的預測與解釋，感想如下

1.事故的發生就陰錯陽差的離群點，難以預測

2.事故調查可謂是穿鑿附會與自娛娛人的效度錯覺

3.造成事故的因果推論太複雜，e.g., 管理不當(沒有稽核或安排SOP)就一定會導致不安全的行為嗎(和諧率>80%?)？而不安全的行為就一定會造成傷害事故嗎？(和諧率假設如果也是80%)

那麼就研究而言，以上因果鏈的機率是0.8^2=0.64=>相對於模稜兩可的50%，被鑑別出來的機率不過為14%的機率(事實上沒那麼高)

4.實務上預測公司工廠是否發生事故，唯一可靠的解釋因素只有：過去是否發生過事故(含保險理賠財損)，是否被罰或取得獎項乃至是否導入管理系統的解釋力應該不顯著

5.我對於「以前出事過的工廠」會再次發事故比「從沒過事的工廠」不會發生事故有更高的信心度

11 客觀的無知

高階主管決策依賴本能、直覺與自己的判斷

然而自信≠準確，偏見與雜訊都會造成預測誤差

客觀無知(objective ignorance)=不知道自己的判斷能有多好

客觀無知(objective ignorance)

詢問一群主管：

比對面試時的評價vs當事人錄取後的工作表現

事前的判斷猜想與事後實際表現之間，兩者吻合一致嗎？

大部分的主管謙稱(自己判斷的準確性)約75%-85%(和諧率)

學術研究顯示相關係數約0.28/和諧率59%

和諧率只有比亂猜多10%，這其實很合理

1.兩者尚未正是共事與相處(互動不可得知的不確定性)

2.雙方都隱藏了很多資訊(資訊不完整)

不確定性(uncertainty)=無知(ignorance)

大多數人在預測時，都低估了未來的不確定性與自己的無知

而少數的專業，相對參考資訊或經驗更多，預測相對準確

e.g.,

律師可以相當準確預測法官會如何判決

醫師可以預測常見疾病的病程發展

只要有預測，就會有無知，而且你不知道的事情總是比你知道的還來得多

而且人還把知道的資訊看得比不知道的資訊重要(造成過度自信)

越遙遠、越複雜互動的事件，蘊含的不確定越大，預估越容易失準(越要意識到自己的無知)

專家的預測很糟，而模型的表現也不怎麼樣

特別是長期的政治預測

醫學方面的預測，臨床人員的預測，和諧率約為60%；機器約是65-70%

否認自己的無知

要人放棄相信自己的判斷，改而相信機器與演算的判斷

違背人性與從小的教育(教育大家要相信自己)

人不知道判斷與猜測的準確度，但要能夠對那個判斷”放心”

人對機器的判斷不放心

12 常態之谷

生活軌跡的預測

社會科學能不能透過收集青少年現況的資訊來預測以後他們的人生成就？

脆弱家庭與兒童福利研究

https://en.wikipedia.org/wiki/Fragile_Families_and_Child_Wellbeing_Study

結果通常是：相關係數顯著

但相關係數通常在0.17-0.22之間(和諧率55-58%)

理解與預測

我們可以「理解」一個受到家暴或虐待的孩子，將來可能言行偏差，進而犯罪

但我們無法「預測」：一個受到家暴或虐待的孩子，將來”會”犯罪

=>在這個孩子的成長的路途上，充滿許多岔路和選擇，命運可以走上不同的道路

了解常態之谷

人世事分布在兩個極端之間

一端是早晚會發生，可以預測得到

另一端是難以想像與意料不到

了解或理解一個故事=接受這個故事當中的事件鏈(前因後果)=>讓人產生錯覺，以為這事件是可以預料的

如同每天新聞”解釋”股價的漲跌，讓人以為可以掌握(預測) 股價的漲跌

只有在後見之明失效之後，人們才會真正的驚訝於自己的無知(無法預測與掌握)

可惜人腦會自動穿鑿附會(系統一)，把關聯/相關性解釋為因果關係(=聽故事)=>這幫助人類了解&在一個比想像更難預測的世界中存活下來(人們看不到也聽不見雜訊，有的是腦中偏見的認知)

需要動用系統二，比對各種統計數據，才能夠做出預測與掌握猜對的或然率，發現世界充滿不確定性+自己常常出錯(讓人不舒服)

From Micro to Macro

2022年7月9日星期六

雜訊(2)

沒有留言:

網頁

一週內熱門文章

搜尋此網誌

瀏覽量

標籤

增廣見聞

常用網址

網誌存檔

追蹤者