網頁

2022年6月18日 星期六

雜訊(1)

雜訊:人類判斷的缺陷

Noise: A Flaw in Human Judgment

https://www.books.com.tw/products/0010893007

 

 

 

序言 人類判斷的兩種錯誤

偏誤(biased)

有信度(再現性/一致性)但沒有效度

有聚焦但沒有聚焦在靶子上

 

雜訊(noisy)

散亂沒有再現性與一致性


 



第一部 尋找雜訊

探討雜訊與偏誤的差異,從刑事判決與保險領域談起

只要是判斷就會有雜訊,而且雜訊(錯誤機率)比你想像得要高

 


 

01 犯罪與量刑雜訊

相同的犯罪行為,被判處的刑罰應該完全相同

不應該因當事人身分背景、被分派給哪一位法官、判決當天法官的心情、當下的天氣/民眾所喜愛的球隊或政黨輸贏等等,而有所差異

 

法學界認可的法官自由心證與裁量權=不公不義!

Marvin Frankel

https://en.wikipedia.org/wiki/Marvin_E._Frankel

 

Human Right First

https://www.humanrightsfirst.org/marvin-e-frankel-annual-awards

 

現代法治社會體系其實縱容法官恣意而為,法官獨斷造成的冤獄與社會成本其實驚人

Hint:

1.相同案件,不同法官認定沒有一致性,量刑存在重大差異(3年到20)

2.判決須要有所準則,以約束法官的自由心證或偏誤=>量刑應該藉助電腦輔助(讓差異小於6個月或25%)

3.量刑委員會的量刑基準表

https://www.cprc.moj.gov.tw/media/8129/452315595118.pdf?mediaDL=true

https://www.ly.gov.tw/Pages/Detail.aspx?nodeid=6590&pid=187157

 

75%的法官偏好參考性的體制,而非量刑基準表(可以自由發揮)

只有3%的法官認為量刑基準表比較好

 

 

只要是判斷就會有差異與偏誤

原因是

1.真實世界很複雜、充滿不確定性與穿鑿附會的因果詮釋=>判斷是非對錯本來就非常困難(型一型二錯誤風險都很高)

2.差異與雜訊超乎人們想像,雖然每個人都反對不公的判決,但每個人對於何謂「公平/公正」有著不同的認知(每個人心中的那把尺,尺度大不相同)=>所以大家反而能夠接受法官的自由裁量

3.有些做法可以降低誤判與雜訊,但這些作法也常常引發反對與阻力(注定失敗=>人就是難以認清自己受到愚弄/判斷沒有一致性)

 

 

法官說了算

https://eshmanager.blogspot.com/2014/08/blog-post_23.html

 

司法需要加入更多科學、減少偽裝的程序正義

https://eshmanager.blogspot.com/2021/03/6.html

 

 

 

02 系統雜訊

保險公司對於風險的估價,有如法官的判決,其實差異與落差不小(呵呵,陪過不少產險公司查勘,很清楚這點,也很高興Covid-19讓保險公司賠錢,大誤,學到教訓)

 

保險公司以為不同核保人員的估價(核定保費)誤差只有10%

實際上的差異高達55% (但這個落差還是比法官自由心證的落差來得小一些也好一些)

 

 

不必要的變異vs 有利的多樣性

就單一產品的鑑賞與評價而言,品質的變異或被鑑賞的差異越小越好

e.g., 影評人對於電影的看法、品酒師對於同一支酒的看法

 

就市場競爭與天擇而言,以上品味或觀感的差異有利於創新、高風險高報酬

正因為雙方有不同的價值估計,才有買賣與交易

 

然而以此類推

你去醫院受到哪位醫師的診斷、案子在法院受到哪位法官的審理、投資買賣的決策,都會遭遇層出不窮的不公/爭議乃至於金錢損失。

在充滿雜訊的系統裏,錯誤與風險不會相互抵消,只會相加甚至加成

(你覺得法官與醫師充滿偏見,因此你對法官與醫師展現出敵意的身體語言,進而加深法官與醫師對你的成見與偏見)

 

 

意見一致的錯覺

資歷越深的老鳥專業人員,越是以為別人的判斷應該跟他/她的一致(才是專業與正確的見解)

其實老鳥彼此間的判斷不見得一致,只不過用的是同樣的術語(想想法院法官的例子)

只有新人與菜鳥才會擔心自己的判斷不夠精準,反而會與老鳥討論和確認(本來獨立的見解受到汙染、彼此相互強化自己的偏見,但理論上這可以讓菜鳥老鳥的判斷趨於一致、變異與落差逐漸收斂減小)

 

避免方式- 獨立審查:

1.第一位評審獨立給分

2.把第一位評審的給分遮蔽,交給第二位評審獨立給分

3.兩位評審分數相近時,沒有爭議

4.兩位評審分數看法落差大時,要再找來第三位

 

 

 

03 單一決策

重複決策vs 單一決策

兩者不是光譜的兩端,而是漸層

 

重複決策

醫師看病、法官審案、學校招生人員審查入學申請

=>決策者的偏誤與雜訊可以被審查出來

 

單一決策

個人選擇工作、買房或求婚、老闆考慮商業併購=>別人有過經驗

總統/指揮官面臨戰爭等重大決策=>別的國家或歷史有參考值

世界遇上911/金融風暴/Covid-19等黑天鵝=>完全沒有前例

(單一決策)判斷的偏誤與雜訊的衡量

1.比較不同國家因應Covid-19的作為差異

2.想像有一個跟你一樣的人、遇到相同的處境,會不會有不同的作為與決策?

3.假如你有機會再重來一次,作為是否會有所不同?

看出哪些是運氣的成分,哪些又是自己作為的影響?

 

呂世浩 讀歷史的功用

https://eshmanager.blogspot.com/2014/10/blog-post_25.html#more

 

單一決策有如只發生一次的重複決策,你過去的經驗和現在的決定沒有關聯

Hint

只能在腦中不斷想像simulation 可能狀況演變與對策(超級燒腦,可能只是局部解)

求神問卜(安心 & 面對不確定性,隨機的決策不見得比較差+有作出決定可能比猶豫不決好得多)

上網Googleshopping idea

求助於國師幕僚或親朋好友提供建議(可能被利用/蒙蔽或只是一群笨蛋同溫相互取暖)

讀歷史的大用正是在於求教於歷史上的能人奇才(尋求更好的解答,但這也要設身處地、練頭腦+想像不同平行時空的發展,同樣燒腦)

槍砲、病菌與鋼鐵的對比研究法也可供參考

https://eshmanager.blogspot.com/2016/02/blog-post_27.html

 

 

 

第二部 你的頭腦也是一把尺

探討人類判斷的本質,甚至誰先發言都會有顯著的影響

判斷如同是「測量」,有時專家或醫師的診斷如同是一種「預測」

測量與預測都會有偏誤

 

 

04 什麼是判斷

判斷≒猜測,只有事後比對才能知道是否正確(會有型一型二錯誤風險)事前無發知道一個判斷是否準確!

 

所謂的判斷”=看法存在分歧,無法指望大家看法一致

一是對於客觀事實認知或結果推估計算的差距

二是對於主觀意見或品味的不同

 

至於判斷當中有多少分歧是可以接受的?

=>這個問題本身就是一個主觀的判斷,也因問題的難度而異。

通常只能讓人看出某些太離譜的判斷

 

 

判斷的心智過程:

1.依據所得到的線索(每個人注意的點、選擇性回憶與對事件的詮釋角度不同)

2.把以上種種線索整合起來,很快形成一個印象

3.把以上印象轉為一個0-100(%)的匹配數字

以上三個步驟都存在變異性

 

很多專業判斷難以驗證(論斷是否合理或正確),只有太離譜才會讓人知悉與自覺

e.g., 招募一個執行長、法官或委員針對錯誤量刑、經濟學家預測未來經濟走勢

 

變異(再現性/信度)有兩種

1.個體內的信度(within- person reliability):自己個人每次判斷的一致性

2.不同個體間的信度(between- person reliability):不同人判斷的一致性

 

 

問題在於

1.有沒有一個標準可供比對判斷是否正確? (通常只能信賴專業或權威;很多情境沒有標準答案,只有相對值)

2.有沒有一個重複的過程可以讓人訓練提升判斷力?(個案討論訓練的目的與理由)

3.當事人的主觀程度、對於自己判斷的自我感覺良好程度…(老闆說了算)

 

 

評估判斷的兩個方法

1.比較判斷的結果

是否正確或吻合?

事實結果與判斷(猜測)一致

 

2.評估判過程的品質

是否依據合理的邏輯或過往統計數據?

 

決策需要預測性判斷(方向/Yes or No/有罪無罪/產品能不能大賣)也需要評估性判斷(程度、輕重緩急、刑期是三個月、三年、三十年還是無期徒刑/何時能夠損益平衡或銷售額/市占率)

 

 

雜訊的問題

預測性判斷的雜訊

兩位醫師的診斷不同、經濟學家對於未來的看法不一

Any其中有一方的看法是錯誤的

 

評估性判斷的雜訊

法官的量刑不一致=不公平

同一家公司的信用評等不一,同一份論文的審查意見不一

 

 

 

05 誤差的測量

雜訊≒標準差

光看有多少比例的猜測高於真值,其實意義不大



 

誤差方程式

單次測量的誤差=偏誤+雜訊誤差

總體誤差(均方差)=偏誤^2+雜訊^2 


有些預測與判斷有方向性的不對稱

e.g., 電梯公司只能低估最大載重量,而不能高估最大載重量

出門趕某一班火車或飛機,晚到1分鐘與晚到10分鐘結果相同(慘痛)

 

 

涵義

1.減少偏誤或雜訊,對於提升準確度有同樣的影響

2.減少預測性判斷中的雜訊,有用(大家對於未來的預測越一致,準確率越高)

3.決策設及預測性判斷,而提高準確性是唯一目標,預測時必須把你個人的偏好與價值觀和事實分開


這章講得超級school smart, 然而street smart 而言,最大的困擾與障礙在於:沒有人曉得「真值」為何?

想起有些老師的上課與教學數十年如一日:每次上課的問答內容與笑話完全相同=>就品保觀點而言,信度甚高;對於學生而言,可以去看錄影帶

但有些(我更佩服的)老師,針對不同的學生因材施教,安排不同的課程內容與教學方式=>就品保觀點而言,沒有信度(再現性與重複性)可言,但對於啟發學生而言,卻更具效度

 

 

 

06 雜訊分析

 

承續上一章school smart的架構來分析,例子是法官的裁量的刑度


系統雜訊^2=水準雜訊^2+型態雜訊^2

白話翻譯

法官判刑的刑度差異=法官個人的差異(有的法官下手重、有的法規下手輕)+不同的法規碰到不同的案子,其自由心證與裁量的變異(=法官*不同類型案件的交互作用)

 

謎之聲:

聰明的罪犯與辯護律師,懂得利用法官的人性弱點,讓法官對自己有好感,以獲得對自己有利的判決

 

 

 

07 場合雜訊

 

判斷就像籃球員罰球,不論想多精準呈現這個動作,沒有兩次的罰球是相同的

e.g., 球員本身的肌肉疲勞、比分接近時的壓力、觀眾的歡呼聲或噓聲、熟悉的主場或不熟悉的客場、前一天的睡眠是否充足

導致

同一位醫師看同一病患的同一症狀,兩次的診斷結果不同

同一支酒,品酒師品嘗兩次,給分相同的只有18%(通常是很糟的酒會獲得一致的評分)

法醫鑑定相同指紋,得出不同結論

經驗豐富的PM預估專案進度,兩次的時間相差甚遠

 

 

場合雜訊的來源

情緒

改變人的思考方式、乃至於道德判斷

人難以控制自己的情緒+情緒其實變化莫測=>你不是恆定的

 

壓力疲勞

壓力越大越疲勞,越會採取系統一的節能反應

 

天氣與氣溫

影響人的情緒反應(陰天讓書呆子勝算大)

 

案件的審查順序(定錨)

 

然而去除與控制以上干擾因素(解釋力約11%),剩下的變異仍然多的驚人=>人的自我認知與情緒,就是最大的雜訊來源

 

 

欸,嘗試(其實是必須)著對自己與眾生寬容吧!

沒有留言:

張貼留言