多模型思維:天才的32個思考策略
The Model Thinker:What You Need to Know to Make Data Work for You
https://www.books.com.tw/products/0010882068
第 5 章 常態分布:鐘形曲線
—— 平方根法則、六標準差、加薪策略
各項參數的distribution分布形態 是建模的核心
Distribution分布形態蘊含了變異量(Variation )與多樣性(Diversity)的訊息
對於Distribution而言,首先就是區分
1. Normal Distribution
影響這個分配(Distribution)的變數(Variable)因素相互獨立(影響不能遺傳或傳遞下一期)
分配由多個隨機變數相加,每個隨機變數貢獻的變異量有(上)限
形成的分配型態不會有太極端的差距(regression to mean),極值發生機率小(滿足中央極限定律)
平均值與標準差有意義,不需要太擔心極端
e.g., 人的身高或體重分配,由基因、飲食、年齡等變數組成
2. Lognormal Distribution
影響這個分配的變數相互獨立
分配由多個隨機變數相乘
形成的分配會是一個偏斜的鐘型曲線
看平均值不如看眾數與中位數,會有一些極端狀況發生
e.g., 公司的調薪是依比例(薪水越高,加薪值越大)
員工間的薪水差異,隨著年資(公司每年等比調薪而放大)
而一開始的薪水差異,則是常態分配,薪水高低的分配,受到學歷、技能與其他公司年資等變數組成與解釋
https://today.line.me/tw/v2/article/YaZ8GgQ
3. Power-Law Distribution
影響這個分配的變數相互作用(影響可以遺傳或傳遞下一期)
長時間的迭代與演化,形成的分配會是一個長尾的L型曲線
會有黑天鵝與極端事件
不能不顧慮極端值
很棒的分配解說
http://13.114.22.58/article/ByuZaTvX_#/50
學藝不精,這才搞懂:
A.為何時間序列變數要先作穩態檢定
B.一些變數要取對數
C.背後其實是常態假設
D.難怪資料處理的第一部就是敘述統計+常態性檢定
常態分佈的應用例子
1.平方根法則
https://financetrain.com/what-is-the-square-root-rule
計算出來的標準差大小,會跟群體數大小有關
越小的群體數,計算出來的標準差越大=>越容易觀察到極好或極壞的情況
=>導致依據離群值進行推論
這解釋了
- 為什麼小學校的教學與教育品質比較好?(其實是小學校的教學變異比大學校大)
- 最高癌症發生率的國家總是人口數相對較少
- 中小企業的事故率/職災率高
2.顯著性檢定
e.g., 社會科學的檢定,顯著性門檻是否超過兩個標準差(0.05)或三個標準差(0.01)=>換言之,誤判機率<5%或1%
自然科學的檢定,正明希格斯玻色子不存在的顯著性門檻:在700萬次實驗中,希格斯玻色子的出現要少於1次
3.產品良率管理=六個標準差
每10億個產品只會出現2個不良品
對數常態分佈算是常態分佈的一個特例與過渡(到冪律分布)
第 6 章 冪律分布:長尾曲線
—— 地震、森林大火和書籍銷售量……
贏家通吃與強者越強的馬太效應
如何區分對數常態分配與冪次分配?
差別在於尾端事件的發生機率不同=>兩者很容易混淆
=>把嚴重度(規模)與發生機率都取對數作圖
產生冪律分布的模型
依附偏好模型
大者恆大,贏家續贏機率高
自我組織臨界模型
堆沙或森林大火
森林越密範圍越大,越容易被雷打中造成規模大的森林大火,反之森林大火的機率與規模越小
冪律與長尾分布的意義
不公平、不平均
一大堆輸家與侏儒,少數贏家與巨人
災難無法預測但一定會發生
地震、火災、股災與黑天鵝事故,都是冪律與長尾分布
預防對策:借鑒森林火災的預防- 避免火燒連環船
火災:防火區劃
金融危機:限制銀行間的連結與借貸
黑天鵝事故的預防:Normal Accident Theory的洞見:De-couple (=設防火牆與停損點)and De-Complex(越單純與線性反應越好,不要非線性反應或多重回饋機制)
避免發生世界大戰:限制各國組成軍事同盟=用更多小規模的區域衝突來取代
整體的波動性
長尾分佈下,大公司對於國家經濟與股市整體表現的變異性與波動性,貢獻大
深入冪律與長尾分布的世界
長尾分配由各變數間的交互作用與回饋遞延導致
想要贏家通吃要善於造勢、借力使力(吃眼前虧)
想要避免黑天鵝事故要避免變數間的交互作用與回饋
避開不了的,如公共工程與專案計畫=>各項時間節點或子計畫相互串連,導致成本只會(隨工期拖延)爆增與工期通常只會拖延
就一個年輕人的職涯規劃而言
如果選擇從醫,則年薪期望值平均是25萬鎂,標準差2.5萬的常態分配
如果選擇創業,則年薪期望值是20萬鎂,指數值為3的冪律分布(多數時候失敗成為狗熊,少數可以成為英雄)
結果顯示
可以嘗試的機會與容錯的本錢,決定了當世人對於風險的態度=>機會越多,越會願意嘗試風險
第 7 章 線性模型:迴歸分析
—— 有相關性,不代表有因果關係
迴歸分析的基本概念
https://sites.google.com/site/chiashulab/lecture_materials11
線性模型最簡單,不考慮XY之間的凸函數、凹函數、S函數,也不考慮反應的閾值效應;也無法判別偽相關
Luck and Skill Untangled: The Science of Success
https://www.wired.com/2012/11/luck-and-skill-untangled-qa-with-michael-mauboussin/
技能(skill)是指在表演和執行中輕鬆運用知識的能力。我們知道如何做某事,當那一刻到來時,我們就能做到。
運氣(luck)具有三個特定特徵——它適用於個人和/或組織,它可以是好是壞,並且可以合理地預期其他事情可能會發生。
為什麼人們難以理解成功方程式:成功=A*實力+(1-A)*運氣
- 人腦渴望因果解釋,而非機率/隨機運氣
- 所有的活動是參雜實力與運氣的光譜;有些競賽與活動實力(Skill)成分高(e.g.,西洋棋與籃球),有些競賽活動運氣(luck)成分高(賭博與股票投資)
- 越複雜或遭遇次數越少的情境,實力的重要性越低、運氣的成分越高
- 成敗是導因於實力亦或運氣,要有大數據才能分辨出來
- 有的領域會有馬太效應,如市場早期進入者,比後進者累積實力與經驗+獲得更多機會
- 有時實力是必要條件(運氣是充分條件),有時運氣是必要條件(實力是充分條件);
- 技能的悖論:在技能對結果更重要的領域(大家都很努力與實力相差不多),運氣在決定最終結果中的作用會增加。雖然在運氣對結果起著更大作用的領域中,技能也很重要
https://www.conversationagent.com/2018/01/the-difference-between-luck-and-skill.html
大係數思維vs 新現實思維
針對迴歸得到最大顯著的大係數變項切入與著手,有助於獲得最大的改變邊際效應
e.g., 交通運量與公路運輸的關係最顯著
大係數思維建議:推展道路、增加道路的運量
而新現實思維則看到:公路運輸已經飽和(邊際效應遞減),應建設鐵路/高鐵、市區公車與捷運
第 8 章 非線性模型:凸函數與凹函數
—— 72法則、報酬遞減、經濟成長
凸函數
https://zh.wikipedia.org/zh-tw/%E5%87%B8%E5%87%BD%E6%95%B0
指數成長模型
https://zh.wikipedia.org/zh-tw/%E6%8C%87%E6%95%B8%E5%A2%9E%E9%95%B7
應用:72法則
每年6%複利滾存,增長為兩倍所需的時間=72/6=12年
如果房價每年漲10%,那麼房價翻倍時間約72/10=7.2年
半衰期
https://zh.wikipedia.org/zh-tw/%E5%8D%8A%E8%A1%B0%E6%9C%9F
人們以固定速率遺忘資訊,越重要的資訊與事情,半衰期越長
凹函數
https://zh.wikipedia.org/zh-tw/%E5%87%B9%E5%87%BD%E6%95%B0
報酬與邊際效用遞減
經濟成長模型
Cobb-Douglas Model(產出是資本與勞動力的凹函數)
https://en.wikipedia.org/wiki/Cobb%E2%80%93Douglas_production_function
Solow Growth Model(長期均衡產出的增加來自於:勞動力資加、技術進步與儲蓄率增加)
https://www.indeed.com/career-advice/career-development/solow-growth-model
國家的成功與失敗
一開始是凸函數,然後變成凹函數
將非線性納入考量則直觀(線性迴歸預測)不足以解決問題
線性直觀只考慮一次效應與固定方向/斜率
非線性受到二次方效應、方向與斜率不斷改變
沒有留言:
張貼留言