2023年9月16日 星期六

多模型思維2

多模型思維:天才的32個思考策略

The Model Thinker:What You Need to Know to Make Data Work for You

https://www.books.com.tw/products/0010882068 





第 5 章    常態分布:鐘形曲線

—— 平方根法則、六標準差、加薪策略


各項參數的distribution分布形態 是建模的核心

Distribution分布形態蘊含了變異量(Variation )與多樣性(Diversity)的訊息


對於Distribution而言,首先就是區分

1. Normal Distribution 

影響這個分配(Distribution)的變數(Variable)因素相互獨立(影響不能遺傳或傳遞下一期)

分配由多個隨機變數相加,每個隨機變數貢獻的變異量有(上)限

形成的分配型態不會有太極端的差距(regression to mean),極值發生機率小(滿足中央極限定律)

平均值與標準差有意義,不需要太擔心極端

e.g., 人的身高或體重分配,由基因、飲食、年齡等變數組成



2. Lognormal Distribution

影響這個分配的變數相互獨立

分配由多個隨機變數相乘

形成的分配會是一個偏斜的鐘型曲線

看平均值不如看眾數與中位數,會有一些極端狀況發生

e.g., 公司的調薪是依比例(薪水越高,加薪值越大)

員工間的薪水差異,隨著年資(公司每年等比調薪而放大)

而一開始的薪水差異,則是常態分配,薪水高低的分配,受到學歷、技能與其他公司年資等變數組成與解釋

https://today.line.me/tw/v2/article/YaZ8GgQ 



3. Power-Law Distribution

影響這個分配的變數相互作用(影響可以遺傳或傳遞下一期)

長時間的迭代與演化,形成的分配會是一個長尾的L型曲線

會有黑天鵝與極端事件

不能不顧慮極端值


很棒的分配解說

http://13.114.22.58/article/ByuZaTvX_#/50 


學藝不精,這才搞懂:

A.為何時間序列變數要先作穩態檢定

B.一些變數要取對數

C.背後其實是常態假設

D.難怪資料處理的第一部就是敘述統計+常態性檢定



常態分佈的應用例子

1.平方根法則

https://financetrain.com/what-is-the-square-root-rule 

計算出來的標準差大小,會跟群體數大小有關

越小的群體數,計算出來的標準差越大=>越容易觀察到極好或極壞的情況

=>導致依據離群值進行推論

這解釋了

  • 為什麼小學校的教學與教育品質比較好?(其實是小學校的教學變異比大學校大)
  • 最高癌症發生率的國家總是人口數相對較少
  • 中小企業的事故率/職災率高


2.顯著性檢定

e.g., 社會科學的檢定,顯著性門檻是否超過兩個標準差(0.05)或三個標準差(0.01)=>換言之,誤判機率<5%或1%

自然科學的檢定,正明希格斯玻色子不存在的顯著性門檻:在700萬次實驗中,希格斯玻色子的出現要少於1次


3.產品良率管理=六個標準差

每10億個產品只會出現2個不良品


對數常態分佈算是常態分佈的一個特例與過渡(到冪律分布)




第 6 章    冪律分布:長尾曲線

—— 地震、森林大火和書籍銷售量……

贏家通吃與強者越強的馬太效應


如何區分對數常態分配與冪次分配?

差別在於尾端事件的發生機率不同=>兩者很容易混淆

=>把嚴重度(規模)與發生機率都取對數作圖







產生冪律分布的模型

依附偏好模型

大者恆大,贏家續贏機率高


自我組織臨界模型

堆沙或森林大火

森林越密範圍越大,越容易被雷打中造成規模大的森林大火,反之森林大火的機率與規模越小



冪律與長尾分布的意義

不公平、不平均

一大堆輸家與侏儒,少數贏家與巨人


災難無法預測但一定會發生

地震、火災、股災與黑天鵝事故,都是冪律與長尾分布

預防對策:借鑒森林火災的預防- 避免火燒連環船

火災:防火區劃

金融危機:限制銀行間的連結與借貸

黑天鵝事故的預防:Normal Accident Theory的洞見:De-couple (=設防火牆與停損點)and De-Complex(越單純與線性反應越好,不要非線性反應或多重回饋機制)

避免發生世界大戰:限制各國組成軍事同盟=用更多小規模的區域衝突來取代


整體的波動性

長尾分佈下,大公司對於國家經濟與股市整體表現的變異性與波動性,貢獻大



深入冪律與長尾分布的世界

長尾分配由各變數間的交互作用與回饋遞延導致

想要贏家通吃要善於造勢、借力使力(吃眼前虧)

想要避免黑天鵝事故要避免變數間的交互作用與回饋


避開不了的,如公共工程與專案計畫=>各項時間節點或子計畫相互串連,導致成本只會(隨工期拖延)爆增與工期通常只會拖延


就一個年輕人的職涯規劃而言

如果選擇從醫,則年薪期望值平均是25萬鎂,標準差2.5萬的常態分配

如果選擇創業,則年薪期望值是20萬鎂,指數值為3的冪律分布(多數時候失敗成為狗熊,少數可以成為英雄)


結果顯示




可以嘗試的機會與容錯的本錢,決定了當世人對於風險的態度=>機會越多,越會願意嘗試風險




第 7 章    線性模型:迴歸分析

—— 有相關性,不代表有因果關係


迴歸分析的基本概念

https://sites.google.com/site/chiashulab/lecture_materials11 


線性模型最簡單,不考慮XY之間的凸函數、凹函數、S函數,也不考慮反應的閾值效應;也無法判別偽相關


Luck and Skill Untangled: The Science of Success

https://www.wired.com/2012/11/luck-and-skill-untangled-qa-with-michael-mauboussin/ 



技能(skill)是指在表演和執行中輕鬆運用知識的能力。我們知道如何做某事,當那一刻到來時,我們就能做到。

運氣(luck)具有三個特定特徵——它適用於個人和/或組織,它可以是好是壞,並且可以合理地預期其他事情可能會發生。


為什麼人們難以理解成功方程式:成功=A*實力+(1-A)*運氣

  1. 人腦渴望因果解釋,而非機率/隨機運氣
  2. 所有的活動是參雜實力與運氣的光譜;有些競賽與活動實力(Skill)成分高(e.g.,西洋棋與籃球),有些競賽活動運氣(luck)成分高(賭博與股票投資)
  3. 越複雜或遭遇次數越少的情境,實力的重要性越低、運氣的成分越高
  4. 成敗是導因於實力亦或運氣,要有大數據才能分辨出來
  5. 有的領域會有馬太效應,如市場早期進入者,比後進者累積實力與經驗+獲得更多機會
  6. 有時實力是必要條件(運氣是充分條件),有時運氣是必要條件(實力是充分條件);
  7. 技能的悖論:在技能對結果更重要的領域(大家都很努力與實力相差不多),運氣在決定最終結果中的作用會增加。雖然在運氣對結果起著更大作用的領域中,技能也很重要



https://www.conversationagent.com/2018/01/the-difference-between-luck-and-skill.html 







大係數思維vs 新現實思維

針對迴歸得到最大顯著的大係數變項切入與著手,有助於獲得最大的改變邊際效應

e.g., 交通運量與公路運輸的關係最顯著

大係數思維建議:推展道路、增加道路的運量


而新現實思維則看到:公路運輸已經飽和(邊際效應遞減),應建設鐵路/高鐵、市區公車與捷運




第 8 章    非線性模型:凸函數與凹函數

—— 72法則、報酬遞減、經濟成長


凸函數

https://zh.wikipedia.org/zh-tw/%E5%87%B8%E5%87%BD%E6%95%B0 


指數成長模型

https://zh.wikipedia.org/zh-tw/%E6%8C%87%E6%95%B8%E5%A2%9E%E9%95%B7 


應用:72法則

每年6%複利滾存,增長為兩倍所需的時間=72/6=12年

如果房價每年漲10%,那麼房價翻倍時間約72/10=7.2年


半衰期

https://zh.wikipedia.org/zh-tw/%E5%8D%8A%E8%A1%B0%E6%9C%9F 


人們以固定速率遺忘資訊,越重要的資訊與事情,半衰期越長



凹函數

https://zh.wikipedia.org/zh-tw/%E5%87%B9%E5%87%BD%E6%95%B0 


報酬與邊際效用遞減


經濟成長模型

Cobb-Douglas Model(產出是資本與勞動力的凹函數)

https://en.wikipedia.org/wiki/Cobb%E2%80%93Douglas_production_function 


Solow Growth Model(長期均衡產出的增加來自於:勞動力資加、技術進步與儲蓄率增加)

https://www.indeed.com/career-advice/career-development/solow-growth-model 



國家的成功與失敗

一開始是凸函數,然後變成凹函數


將非線性納入考量則直觀(線性迴歸預測)不足以解決問題

線性直觀只考慮一次效應與固定方向/斜率

非線性受到二次方效應、方向與斜率不斷改變


沒有留言: