From Micro to Macro: 雜訊(1)

雜訊：人類判斷的缺陷

Noise: A Flaw in Human Judgment

https://www.books.com.tw/products/0010893007

序言 人類判斷的兩種錯誤

偏誤(biased)

有信度(再現性/一致性)但沒有效度

有聚焦但沒有聚焦在靶子上

雜訊(noisy)

散亂沒有再現性與一致性

第一部 尋找雜訊

探討雜訊與偏誤的差異，從刑事判決與保險領域談起

只要是判斷就會有雜訊，而且雜訊(錯誤機率)比你想像得要高

01 犯罪與量刑雜訊

相同的犯罪行為，被判處的刑罰應該完全相同

不應該因當事人身分背景、被分派給哪一位法官、判決當天法官的心情、當下的天氣/民眾所喜愛的球隊或政黨輸贏等等，而有所差異

法學界認可的法官自由心證與裁量權=不公不義!

Marvin Frankel

https://en.wikipedia.org/wiki/Marvin_E._Frankel

Human Right First

https://www.humanrightsfirst.org/marvin-e-frankel-annual-awards

現代法治社會體系其實縱容法官恣意而為，法官獨斷造成的冤獄與社會成本其實驚人

Hint:

1.相同案件，不同法官認定沒有一致性，量刑存在重大差異(從3年到20年)

2.判決須要有所準則，以約束法官的自由心證或偏誤=>量刑應該藉助電腦輔助(讓差異小於6個月或25%)

3.量刑委員會的量刑基準表

https://www.cprc.moj.gov.tw/media/8129/452315595118.pdf?mediaDL=true

https://www.ly.gov.tw/Pages/Detail.aspx?nodeid=6590&pid=187157

75%的法官偏好參考性的體制，而非量刑基準表(可以自由發揮)

只有3%的法官認為量刑基準表比較好

只要是判斷就會有差異與偏誤

原因是

1.真實世界很複雜、充滿不確定性與穿鑿附會的因果詮釋=>判斷是非對錯本來就非常困難(型一型二錯誤風險都很高)

2.差異與雜訊超乎人們想像，雖然每個人都反對不公的判決，但每個人對於何謂「公平/公正」有著不同的認知(每個人心中的那把尺，尺度大不相同)=>所以大家反而能夠接受法官的自由裁量

3.有些做法可以降低誤判與雜訊，但這些作法也常常引發反對與阻力(注定失敗=>人就是難以認清自己受到愚弄/判斷沒有一致性)

法官說了算

https://eshmanager.blogspot.com/2014/08/blog-post_23.html

司法需要加入更多科學、減少偽裝的程序正義

https://eshmanager.blogspot.com/2021/03/6.html

02 系統雜訊

保險公司對於風險的估價，有如法官的判決，其實差異與落差不小(呵呵，陪過不少產險公司查勘，很清楚這點，也很高興Covid-19讓保險公司賠錢，大誤，學到教訓)

保險公司以為不同核保人員的估價(核定保費)誤差只有10%

實際上的差異高達55% (但這個落差還是比法官自由心證的落差來得小一些也好一些)

不必要的變異vs 有利的多樣性

就單一產品的鑑賞與評價而言，品質的變異或被鑑賞的差異越小越好

e.g., 影評人對於電影的看法、品酒師對於同一支酒的看法

但就市場競爭與天擇而言，以上品味或觀感的差異有利於創新、高風險高報酬

正因為雙方有不同的價值估計，才有買賣與交易

然而以此類推

你去醫院受到哪位醫師的診斷、案子在法院受到哪位法官的審理、投資買賣的決策，都會遭遇層出不窮的不公/爭議乃至於金錢損失。

在充滿雜訊的系統裏，錯誤與風險不會相互抵消，只會相加甚至加成

(你覺得法官與醫師充滿偏見，因此你對法官與醫師展現出敵意的身體語言，進而加深法官與醫師對你的成見與偏見)

意見一致的錯覺

資歷越深的老鳥專業人員，越是以為別人的判斷應該跟他/她的一致(才是專業與正確的見解)

其實老鳥彼此間的判斷不見得一致，只不過用的是同樣的術語(想想法院法官的例子)

只有新人與菜鳥才會擔心自己的判斷不夠精準，反而會與老鳥討論和確認(本來獨立的見解受到汙染、彼此相互強化自己的偏見，但理論上這可以讓菜鳥老鳥的判斷趨於一致、變異與落差逐漸收斂減小)

避免方式- 獨立審查：

1.第一位評審獨立給分

2.把第一位評審的給分遮蔽，交給第二位評審獨立給分

3.兩位評審分數相近時，沒有爭議

4.兩位評審分數看法落差大時，要再找來第三位

03 單一決策

重複決策vs 單一決策

兩者不是光譜的兩端，而是漸層

重複決策

醫師看病、法官審案、學校招生人員審查入學申請

=>決策者的偏誤與雜訊可以被審查出來

單一決策

個人選擇工作、買房或求婚、老闆考慮商業併購=>別人有過經驗

總統/指揮官面臨戰爭等重大決策=>別的國家或歷史有參考值

世界遇上911/金融風暴/Covid-19等黑天鵝=>完全沒有前例

(單一決策)判斷的偏誤與雜訊的衡量

1.比較不同國家因應Covid-19的作為差異

2.想像有一個跟你一樣的人、遇到相同的處境，會不會有不同的作為與決策?

3.假如你有機會再重來一次，作為是否會有所不同?

看出哪些是運氣的成分，哪些又是自己作為的影響？

呂世浩讀歷史的功用

https://eshmanager.blogspot.com/2014/10/blog-post_25.html#more

單一決策有如只發生一次的重複決策，你過去的經驗和現在的決定沒有關聯

Hint

只能在腦中不斷想像simulation 可能狀況演變與對策(超級燒腦，可能只是局部解)

求神問卜(安心 & 面對不確定性，隨機的決策不見得比較差+有作出決定可能比猶豫不決好得多)

上網Google，shopping idea

求助於國師幕僚或親朋好友提供建議(可能被利用/蒙蔽或只是一群笨蛋同溫相互取暖)

讀歷史的大用正是在於求教於歷史上的能人奇才(尋求更好的解答，但這也要設身處地、練頭腦+想像不同平行時空的發展，同樣燒腦)

槍砲、病菌與鋼鐵的對比研究法也可供參考

https://eshmanager.blogspot.com/2016/02/blog-post_27.html

第二部 你的頭腦也是一把尺

探討人類判斷的本質，甚至誰先發言都會有顯著的影響

判斷如同是「測量」，有時專家或醫師的診斷如同是一種「預測」

測量與預測都會有偏誤

04 什麼是判斷

判斷≒猜測，只有事後比對才能知道是否正確(會有型一型二錯誤風險)，事前無發知道一個判斷是否準確!

所謂的”判斷”=看法存在分歧，無法指望大家看法一致：

一是對於客觀事實認知或結果推估計算的差距

二是對於主觀意見或品味的不同

至於”判斷”當中有多少分歧是可以接受的？

=>這個問題本身就是一個主觀的判斷，也因問題的難度而異。

通常只能讓人看出某些太離譜的判斷

判斷的心智過程：

1.依據所得到的線索(每個人注意的點、選擇性回憶與對事件的詮釋角度不同)

2.把以上種種線索整合起來，很快形成一個印象

3.把以上印象轉為一個0-100(%)的匹配數字

以上三個步驟都存在變異性

很多專業判斷難以驗證(論斷是否合理或正確)，只有太離譜才會讓人知悉與自覺

e.g., 招募一個執行長、法官或委員針對錯誤量刑、經濟學家預測未來經濟走勢

變異(再現性/信度)有兩種

1.個體內的信度(within- person reliability)：自己個人每次判斷的一致性

2.不同個體間的信度(between- person reliability)：不同人判斷的一致性

問題在於

1.有沒有一個標準可供比對判斷是否正確? (通常只能信賴專業或權威；很多情境沒有標準答案，只有相對值)

2.有沒有一個重複的過程可以讓人訓練提升判斷力?(個案討論訓練的目的與理由)

3.當事人的主觀程度、對於自己判斷的自我感覺良好程度…(老闆說了算)

評估判斷的兩個方法

1.比較判斷的結果

是否正確或吻合?

事實結果與判斷(猜測)一致

2.評估判過程的品質

是否依據合理的邏輯或過往統計數據？

決策需要預測性判斷(方向/Yes or No/有罪無罪/產品能不能大賣)也需要評估性判斷(程度、輕重緩急、刑期是三個月、三年、三十年還是無期徒刑/何時能夠損益平衡或銷售額/市占率)

雜訊的問題

預測性判斷的雜訊

兩位醫師的診斷不同、經濟學家對於未來的看法不一

Any其中有一方的看法是錯誤的

評估性判斷的雜訊

法官的量刑不一致=不公平

同一家公司的信用評等不一，同一份論文的審查意見不一

05 誤差的測量

雜訊≒標準差

光看有多少比例的猜測高於真值，其實意義不大

誤差方程式

單次測量的誤差=偏誤+雜訊誤差

總體誤差(均方差)=偏誤^2+雜訊^2

有些預測與判斷有方向性的不對稱

e.g., 電梯公司只能低估最大載重量，而不能高估最大載重量

出門趕某一班火車或飛機，晚到1分鐘與晚到10分鐘結果相同(慘痛)

涵義

1.減少偏誤或雜訊，對於提升準確度有同樣的影響

2.減少預測性判斷中的雜訊，有用(大家對於未來的預測越一致，準確率越高)

3.決策設及預測性判斷，而提高準確性是唯一目標，預測時必須把你個人的偏好與價值觀和事實分開

這章講得超級school smart, 然而street smart 而言，最大的困擾與障礙在於：沒有人曉得「真值」為何?

想起有些老師的上課與教學數十年如一日：每次上課的問答內容與笑話完全相同=>就品保觀點而言，信度甚高；對於學生而言，可以去看錄影帶

但有些(我更佩服的)老師，針對不同的學生因材施教，安排不同的課程內容與教學方式=>就品保觀點而言，沒有信度(再現性與重複性)可言，但對於啟發學生而言，卻更具效度

06 雜訊分析

承續上一章school smart的架構來分析，例子是法官的裁量的刑度

系統雜訊^2=水準雜訊^2+型態雜訊^2

白話翻譯

法官判刑的刑度差異=法官個人的差異(有的法官下手重、有的法規下手輕)+不同的法規碰到不同的案子，其自由心證與裁量的變異(=法官*不同類型案件的交互作用)

謎之聲：

聰明的罪犯與辯護律師，懂得利用法官的人性弱點，讓法官對自己有好感，以獲得對自己有利的判決

07 場合雜訊

判斷就像籃球員罰球，不論想多精準呈現這個動作，沒有兩次的罰球是相同的

e.g., 球員本身的肌肉疲勞、比分接近時的壓力、觀眾的歡呼聲或噓聲、熟悉的主場或不熟悉的客場、前一天的睡眠是否充足

導致

同一位醫師看同一病患的同一症狀，兩次的診斷結果不同

同一支酒，品酒師品嘗兩次，給分相同的只有18%(通常是很糟的酒會獲得一致的評分)

法醫鑑定相同指紋，得出不同結論

經驗豐富的PM預估專案進度，兩次的時間相差甚遠

場合雜訊的來源

情緒

改變人的思考方式、乃至於道德判斷

人難以控制自己的情緒+情緒其實變化莫測=>你不是恆定的

壓力疲勞

壓力越大越疲勞，越會採取系統一的節能反應

天氣與氣溫

影響人的情緒反應(陰天讓書呆子勝算大)

案件的審查順序(定錨)

然而去除與控制以上干擾因素(解釋力約11%)，剩下的變異仍然多的驚人=>人的自我認知與情緒，就是最大的雜訊來源

欸，嘗試(其實是必須)著對自己與眾生寬容吧!

From Micro to Macro

2022年6月18日星期六

雜訊(1)

沒有留言:

網頁

一週內熱門文章

搜尋此網誌

瀏覽量

標籤

增廣見聞

常用網址

網誌存檔

追蹤者