雜訊:人類判斷的缺陷
Noise: A Flaw in Human Judgment
https://www.books.com.tw/products/0010893007
序言 人類判斷的兩種錯誤
偏誤(biased)
有信度(再現性/一致性)但沒有效度
有聚焦但沒有聚焦在靶子上
雜訊(noisy)
散亂沒有再現性與一致性
第一部 尋找雜訊
探討雜訊與偏誤的差異,從刑事判決與保險領域談起
只要是判斷就會有雜訊,而且雜訊(錯誤機率)比你想像得要高
01 犯罪與量刑雜訊
相同的犯罪行為,被判處的刑罰應該完全相同
不應該因當事人身分背景、被分派給哪一位法官、判決當天法官的心情、當下的天氣/民眾所喜愛的球隊或政黨輸贏等等,而有所差異
法學界認可的法官自由心證與裁量權=不公不義!
Marvin Frankel
https://en.wikipedia.org/wiki/Marvin_E._Frankel
Human Right First
https://www.humanrightsfirst.org/marvin-e-frankel-annual-awards
現代法治社會體系其實縱容法官恣意而為,法官獨斷造成的冤獄與社會成本其實驚人
Hint:
1.相同案件,不同法官認定沒有一致性,量刑存在重大差異(從3年到20年)
2.判決須要有所準則,以約束法官的自由心證或偏誤=>量刑應該藉助電腦輔助(讓差異小於6個月或25%)
3.量刑委員會的量刑基準表
https://www.cprc.moj.gov.tw/media/8129/452315595118.pdf?mediaDL=true
https://www.ly.gov.tw/Pages/Detail.aspx?nodeid=6590&pid=187157
75%的法官偏好參考性的體制,而非量刑基準表(可以自由發揮)
只有3%的法官認為量刑基準表比較好
只要是判斷就會有差異與偏誤
原因是
1.真實世界很複雜、充滿不確定性與穿鑿附會的因果詮釋=>判斷是非對錯本來就非常困難(型一型二錯誤風險都很高)
2.差異與雜訊超乎人們想像,雖然每個人都反對不公的判決,但每個人對於何謂「公平/公正」有著不同的認知(每個人心中的那把尺,尺度大不相同)=>所以大家反而能夠接受法官的自由裁量
3.有些做法可以降低誤判與雜訊,但這些作法也常常引發反對與阻力(注定失敗=>人就是難以認清自己受到愚弄/判斷沒有一致性)
法官說了算
https://eshmanager.blogspot.com/2014/08/blog-post_23.html
司法需要加入更多科學、減少偽裝的程序正義
https://eshmanager.blogspot.com/2021/03/6.html
02 系統雜訊
保險公司對於風險的估價,有如法官的判決,其實差異與落差不小(呵呵,陪過不少產險公司查勘,很清楚這點,也很高興Covid-19讓保險公司賠錢,大誤,學到教訓)
保險公司以為不同核保人員的估價(核定保費)誤差只有10%
實際上的差異高達55% (但這個落差還是比法官自由心證的落差來得小一些也好一些)
不必要的變異vs 有利的多樣性
就單一產品的鑑賞與評價而言,品質的變異或被鑑賞的差異越小越好
e.g., 影評人對於電影的看法、品酒師對於同一支酒的看法
但就市場競爭與天擇而言,以上品味或觀感的差異有利於創新、高風險高報酬
正因為雙方有不同的價值估計,才有買賣與交易
然而以此類推
你去醫院受到哪位醫師的診斷、案子在法院受到哪位法官的審理、投資買賣的決策,都會遭遇層出不窮的不公/爭議乃至於金錢損失。
在充滿雜訊的系統裏,錯誤與風險不會相互抵消,只會相加甚至加成
(你覺得法官與醫師充滿偏見,因此你對法官與醫師展現出敵意的身體語言,進而加深法官與醫師對你的成見與偏見)
意見一致的錯覺
資歷越深的老鳥專業人員,越是以為別人的判斷應該跟他/她的一致(才是專業與正確的見解)
其實老鳥彼此間的判斷不見得一致,只不過用的是同樣的術語(想想法院法官的例子)
只有新人與菜鳥才會擔心自己的判斷不夠精準,反而會與老鳥討論和確認(本來獨立的見解受到汙染、彼此相互強化自己的偏見,但理論上這可以讓菜鳥老鳥的判斷趨於一致、變異與落差逐漸收斂減小)
避免方式- 獨立審查:
1.第一位評審獨立給分
2.把第一位評審的給分遮蔽,交給第二位評審獨立給分
3.兩位評審分數相近時,沒有爭議
4.兩位評審分數看法落差大時,要再找來第三位
03 單一決策
重複決策vs 單一決策
兩者不是光譜的兩端,而是漸層
重複決策
醫師看病、法官審案、學校招生人員審查入學申請
=>決策者的偏誤與雜訊可以被審查出來
單一決策
個人選擇工作、買房或求婚、老闆考慮商業併購=>別人有過經驗
總統/指揮官面臨戰爭等重大決策=>別的國家或歷史有參考值
世界遇上911/金融風暴/Covid-19等黑天鵝=>完全沒有前例
(單一決策)判斷的偏誤與雜訊的衡量
1.比較不同國家因應Covid-19的作為差異
2.想像有一個跟你一樣的人、遇到相同的處境,會不會有不同的作為與決策?
3.假如你有機會再重來一次,作為是否會有所不同?
看出哪些是運氣的成分,哪些又是自己作為的影響?
呂世浩 讀歷史的功用
https://eshmanager.blogspot.com/2014/10/blog-post_25.html#more
單一決策有如只發生一次的重複決策,你過去的經驗和現在的決定沒有關聯
Hint
只能在腦中不斷想像simulation
可能狀況演變與對策(超級燒腦,可能只是局部解)
求神問卜(安心 & 面對不確定性,隨機的決策不見得比較差+有作出決定可能比猶豫不決好得多)
上網Google,shopping idea
求助於國師幕僚或親朋好友提供建議(可能被利用/蒙蔽或只是一群笨蛋同溫相互取暖)
讀歷史的大用正是在於求教於歷史上的能人奇才(尋求更好的解答,但這也要設身處地、練頭腦+想像不同平行時空的發展,同樣燒腦)
槍砲、病菌與鋼鐵的對比研究法也可供參考
https://eshmanager.blogspot.com/2016/02/blog-post_27.html
第二部 你的頭腦也是一把尺
探討人類判斷的本質,甚至誰先發言都會有顯著的影響
判斷如同是「測量」,有時專家或醫師的診斷如同是一種「預測」
測量與預測都會有偏誤
04 什麼是判斷
判斷≒猜測,只有事後比對才能知道是否正確(會有型一型二錯誤風險),事前無發知道一個判斷是否準確!
所謂的”判斷”=看法存在分歧,無法指望大家看法一致:
一是對於客觀事實認知或結果推估計算的差距
二是對於主觀意見或品味的不同
至於”判斷”當中有多少分歧是可以接受的?
=>這個問題本身就是一個主觀的判斷,也因問題的難度而異。
通常只能讓人看出某些太離譜的判斷
判斷的心智過程:
1.依據所得到的線索(每個人注意的點、選擇性回憶與對事件的詮釋角度不同)
2.把以上種種線索整合起來,很快形成一個印象
3.把以上印象轉為一個0-100(%)的匹配數字
以上三個步驟都存在變異性
很多專業判斷難以驗證(論斷是否合理或正確),只有太離譜才會讓人知悉與自覺
e.g., 招募一個執行長、法官或委員針對錯誤量刑、經濟學家預測未來經濟走勢
變異(再現性/信度)有兩種
1.個體內的信度(within- person reliability):自己個人每次判斷的一致性
2.不同個體間的信度(between- person reliability):不同人判斷的一致性
問題在於
1.有沒有一個標準可供比對判斷是否正確? (通常只能信賴專業或權威;很多情境沒有標準答案,只有相對值)
2.有沒有一個重複的過程可以讓人訓練提升判斷力?(個案討論訓練的目的與理由)
3.當事人的主觀程度、對於自己判斷的自我感覺良好程度…(老闆說了算)
評估判斷的兩個方法
1.比較判斷的結果
是否正確或吻合?
事實結果與判斷(猜測)一致
2.評估判過程的品質
是否依據合理的邏輯或過往統計數據?
決策需要預測性判斷(方向/Yes or No/有罪無罪/產品能不能大賣)也需要評估性判斷(程度、輕重緩急、刑期是三個月、三年、三十年還是無期徒刑/何時能夠損益平衡或銷售額/市占率)
雜訊的問題
預測性判斷的雜訊
兩位醫師的診斷不同、經濟學家對於未來的看法不一
Any其中有一方的看法是錯誤的
評估性判斷的雜訊
法官的量刑不一致=不公平
同一家公司的信用評等不一,同一份論文的審查意見不一
05 誤差的測量
雜訊≒標準差
光看有多少比例的猜測高於真值,其實意義不大
誤差方程式
單次測量的誤差=偏誤+雜訊誤差
總體誤差(均方差)=偏誤^2+雜訊^2
有些預測與判斷有方向性的不對稱
e.g., 電梯公司只能低估最大載重量,而不能高估最大載重量
出門趕某一班火車或飛機,晚到1分鐘與晚到10分鐘結果相同(慘痛)
涵義
1.減少偏誤或雜訊,對於提升準確度有同樣的影響
2.減少預測性判斷中的雜訊,有用(大家對於未來的預測越一致,準確率越高)
3.決策設及預測性判斷,而提高準確性是唯一目標,預測時必須把你個人的偏好與價值觀和事實分開
這章講得超級school
smart, 然而street
smart 而言,最大的困擾與障礙在於:沒有人曉得「真值」為何?
想起有些老師的上課與教學數十年如一日:每次上課的問答內容與笑話完全相同=>就品保觀點而言,信度甚高;對於學生而言,可以去看錄影帶
但有些(我更佩服的)老師,針對不同的學生因材施教,安排不同的課程內容與教學方式=>就品保觀點而言,沒有信度(再現性與重複性)可言,但對於啟發學生而言,卻更具效度
06 雜訊分析
承續上一章school smart的架構來分析,例子是法官的裁量的刑度
系統雜訊^2=水準雜訊^2+型態雜訊^2
白話翻譯
法官判刑的刑度差異=法官個人的差異(有的法官下手重、有的法規下手輕)+不同的法規碰到不同的案子,其自由心證與裁量的變異(=法官*不同類型案件的交互作用)
謎之聲:
聰明的罪犯與辯護律師,懂得利用法官的人性弱點,讓法官對自己有好感,以獲得對自己有利的判決
07 場合雜訊
判斷就像籃球員罰球,不論想多精準呈現這個動作,沒有兩次的罰球是相同的
e.g., 球員本身的肌肉疲勞、比分接近時的壓力、觀眾的歡呼聲或噓聲、熟悉的主場或不熟悉的客場、前一天的睡眠是否充足
導致
同一位醫師看同一病患的同一症狀,兩次的診斷結果不同
同一支酒,品酒師品嘗兩次,給分相同的只有18%(通常是很糟的酒會獲得一致的評分)
法醫鑑定相同指紋,得出不同結論
經驗豐富的PM預估專案進度,兩次的時間相差甚遠
場合雜訊的來源
情緒
改變人的思考方式、乃至於道德判斷
人難以控制自己的情緒+情緒其實變化莫測=>你不是恆定的
壓力疲勞
壓力越大越疲勞,越會採取系統一的節能反應
天氣與氣溫
影響人的情緒反應(陰天讓書呆子勝算大)
案件的審查順序(定錨)
然而去除與控制以上干擾因素(解釋力約11%),剩下的變異仍然多的驚人=>人的自我認知與情緒,就是最大的雜訊來源
欸,嘗試(其實是必須)著對自己與眾生寬容吧!
沒有留言:
張貼留言