2011年11月27日 星期日

書評筆記:統計,改變了世界(2)

書評筆記:統計,改變了世界(2
本書作者:David Salsburg

書中相關統計大師的介紹與照片


第六章 百年難得一見的洪水
有什麼比百年難得一見的洪水更難預測?要如何估計會淹多高?這種問題要如何用統計模型來分析呢?逖皮特(L.H. C. Tippett, 1902-1985)找到了答案。
極值分布(distribution of extremes )可用來預測百年難得一見的洪水。

第七章 費雪大勝利
Pearson & Fisher 間的科學哲學觀點差異:
Pearson:測量值的分布是真實事物,在理想狀況下,可以收集所有量測值決定出分布參數
Fisher:量測值只是從所有可能的測量中隨機選取,由這些隨機樣本當中的測量數據算出來的參數估計值,本身也具有隨機性與機率分布。
例如老師想知道班上學生的學習成效(參數),因此進行考試(測量),考試成績結果的平均分數(統計量)
統計量是隨機的,因此單獨問一個統計量有多準確是沒有意義的,要看學生成績的機率分布對於參數(學習成效)的評估才是有意義的!
相對於皮爾生的理論, 費雪提出一致性(consistency)、不偏性(unbiasedness)和有效性(efficiency)的準則,來評判哪些是好的統計量。他又提出最大概度估計量 (MLE),隨著電腦現身了,以迭代法來計算MLE,風行全世界。

第八章 致命的劑量
「使用過量,什麼東西都是毒藥。」機率單位分析就是這句話的數學基礎。
Chester Bliss
Probit Anaysis機率單位分析


第九章 鐘形曲線
不過,要假設數據是常態分布之前,中央極限定理必須成立。
常態分配的証明利用U統計量(這個部份就不是我所能理解)
常態分布在數學上太好用,相較於Pearson的四個參數,常態分配只有兩個參數(平均值與標準差,偏度與峰度都是零)
討論的問題從中央極限定理 (central limit theorem)…到統計量到運籌學 (operations research,亦稱作業研究)

第十章 適合度檢定
從混沌理論 (chaos theory) 談到與皮爾生的適合度檢定,費雪與P (P-value)
的關係。
而混沌理論的罩門在於:只有說理論和結果現象間的pattern 有多相近,卻沒有論證兩者的適合度(goodness of fit)
皮爾生發展出「適合度檢定」,是為了檢驗觀測數據是否符合某種預測值分布。
Chi-Square Goodness of fit
卡方檢定只有一個參數:自由度
卡方檢定也讓研究者能夠進行所謂假說檢定,成為現代推論統計的關鍵基礎
而顯著性檢定則有費雪發展,宣稱某一統計結果具有顯著性的機率為P-value
1.      P很小(<0.01),則可宣稱看到某結果
2.      P很大(>0.20),如有結果,則結果不顯著(可能是樣本太少)
3.      如果P介於上述兩者之間,則應重新實驗,以得到比較好的結果

第十一章 假設檢定
尼曼發現,除非有兩個以上的可能假設,否則這種檢定毫無意義。
Jerzy Neyman, 1894-1981
談到卡爾皮爾森的兒子艾根皮爾森 (E. Pearson) 與波蘭統計學家傑瑞尼曼 (Jerry Neyman) 利用數學建立統計假設檢定 (Statistical Hypothesis Testing) 之理論架構基礎的尼曼-皮爾遜定理及定義目前在各領域均使用的P-value
為了檢定原始架設,必須有一組定義明確的對立假說:區分為對立互斥的兩者:「原始假設Null Hypothesis」及「對立假設Alternative Hypothesis」,衍生出型一型二錯誤與檢定力等觀念。
P-value與機率是什麼?
費雪的P值觀念是與population的比較(這是比較不合宜的)
P值的意義在可能不正確的條件前提下,與觀測結果有關的理論機率值
Neyman也定義出了大家常用的P<0.05(理論預測和實際抽樣測量的差異檢定,結果不顯著的犯錯機率門檻)
尼曼—皮爾生假設檢定理論的發展,躋身統計學最常被運用的工具地位,但遭遇到費雪一再攻擊,連品管大師戴明也覺得荒謬。
事實上可能沒有最好的或最佳的統計檢定方法(只不過這個尼曼—皮爾生假設檢定理論還是最常被運用&誤解


第十二章 是信賴,還是詐騙?
我們有多大的把握,認為參數的真值會落在估計的區間裡?
由愛滋病 (AIDS) 研究談起估計,區間估計 (interval estimate) 現在已經普及於幾乎所有統計分析,如民意調查…等。1934 年,尼曼的演講論文主題是抽樣調查分析,他在附錄中提出信賴區間的方法。但一開始就被大會主席批評,他覺得尼曼博士所謂的「信賴」,可能只是「一種獲取對方信賴之後的詐騙」。尼曼取巧避談機率,而將他創造出來的東西稱為「信賴區間」
這個部份一樣延續前一章P-Value的爭議,一樣在於這個所謂95%的信賴水準,機率數值到底指的是什麼?真實母體的參數存在且固定,只是我們無法量測得知,因此參數估計的結果只有兩種可能一是正確(100%)二是錯誤(0%)
也難怪我的統計水準只能騙騙外行人,很少人能夠搞清背後更深刻的數學推導與語意/科學哲學觀念。

沒有留言: