2011年3月22日 星期二

Tool & Method:Linear Regression

有修過統計的,可以進來看看測試一下自己的理解程度
另外本篇為關於統計與數量方法的學術火星文
欲繼續閱讀者,請自負身心不適的後遺症



文章與資料出處(對統計與量性研究方法有興趣的,請逕行點閱以下超棒文章)
什麼是線性迴歸
迴歸分析的假設
實務上作迴歸分析的注意事項
多元(複)迴歸分析


以下為個人(斷章取義&不負責任的)摘要整理:
  1. 迴歸分析的第一步是一一檢視每個即將納入迴歸分析模式的變項=>敘述統計分析。首先,我們必須先確定應變項有足夠的變異(variability),而且是接近常態分配(迴歸係數的估計並不要求應變項是常態分配,但對此估計做假設測定時,則是要求殘餘值應為常態分配。而應變項離開常態分配的狀態很遠時,殘餘值不是常態分配的可能性增大)。其次,各自變項也應該有適當的變異,並且要瞭解其分配之形狀和異常的離群點(outlying cases;outliers) 。可用直方圖(histogram)和Normal P-Pprobability plot)圖等來測定應變項是否拒絕其為常態分配的假設,以及是否有異常之個案。同樣的,我們可用直方圖和其他單變項之統計來檢視各個自變項之分配形狀、程度,以及異常個案等。
  2. 在作任何迴歸分析之前,記得先對所有資料對相關分析(1對1的相關),以及畫出任兩變數之間的相關矩陣,先對於變數之間的關係作初步確認沒有相關性,就不能推論因果關聯或拿來做解釋預測。做雙變項相關之分析之主要目的是檢視變項間之關係是否為線性關係(linearity)和是否為共線性(collinearity)之情況。最基本的作法是看雙變項之相關矩陣。如果應變項與自變項間之關係很弱或比自變項間之相關弱的話,就應質疑所設定之多元迴歸模式是否適當。 檢視自變項與應變項間是否為線性關係的基本作法是看雙變項間之散佈圖(scatter plot)。進階且比較好的作法是在控制其他自變項後,再看某一自變項與應變項間之部分線性關係(partial linearity)。線性關係是迴歸分析重要的假定,而且指的是自變項與應變項間之部份線性關係。我們並不用太關心自變項間是否為線性關係,但如對自變項間關係之設定有誤時,也會導致我們對虛假關係不適當的控制和解釋上的錯誤。
  3. 共線性問題的處理:實務上常遇見的就是變數之間相關很高,也就是有「共線性」的問題,如果遇到幾個解釋/自變項之間相關太密切,可考慮挑選較有代表性的變項放入迴歸分析,或者用主成分分析(principle component analysis)縮減變項,並得出每個樣本在該主成分的因素得分,然後再放進迴歸模型作分析,就不會有共線性問題了(因為各個主成分之間是獨立的。
  4. 非線性資料的轉換:除了做出相關圖之外,應該還要畫各自變項與依變項的「散佈圖」,或許某自變項跟依變項的關係並非「直線關係」,可能是二項式或logistic曲線的關係,進而修正迴歸方程式。當發現自變項與應變項間並非線性關係時,除了將該自變項之平方加入迴歸分析的方法外,也可將該自變項做對數轉換(log transformation),例如我們常將個人之收入做對數轉換之處理。究竟如何處理是適當的,是以理論為基礎
  5. 確認樣本的同質性,舉醫學統計為例,不應該把病人的資料與正常人的資料混合在一起作迴歸分析,應該分別作分析。 如果自變項是類別的變項,我們可以將這些類別一一建構成為虛擬變項。依照類別數目(k),我們只需建構k-1個虛擬變項即可。如性別有兩類,因此我們只需建構一個「男性」的虛擬變項。如果受訪者為男性,則其「男性」變項為1,如為女性,則其「男性」變項為0。同理,如果一個類別變項有四類,如台灣地區別是分成北、中、南、東等四區,則我們可將此類別變項建構成「中部」、「南部」及「東部」等三個虛擬變項。當受訪者是在北部時,其在此三虛擬變項的值會都是0。至於將那個類別做為參考類別(reference category),也就是不建構為虛擬變項的類別,通常是次數最多的類別。我們也可依理論或研究假設的需要,來考量是將那個類別做為參考類別。 當我們將這些虛擬變項納入迴歸模式後,個別虛擬變項的迴歸係數(如果達統計顯著的話),就是此虛擬變項所代表之類別與參考類別間在截距上的差距
  6. 交互作用與乘積項:如果我們假設此類別變項對應變項的影響,不只是在截距上的不同,且會有不同的斜率,也就是與另一自變項間有交互作用(interaction),我們可以進一步將虛擬變項與此另一自變項相乘而成另一新變項(如「男性*受教育年數」)。我們可將原來的兩個自變項及此新變項一起納入迴歸分析中。如果此新變項之迴歸係數達顯著的話,則其意義是與虛擬變項相乘之自變項(如受教育年數)對應變項的影響會因虛擬變項所代表的類別不同(如性別)而有不同的斜率(即影響力)。例如當受教育年數對收入的影響,男性比女性來得大時,則迴歸分析結果可能一方面表現在「男性」此一虛擬變項的正向係數達顯著,表示在受同樣教育年數的條件下,男性的起薪比女性高,另一方面也表現在「男性*受教育年數」之正向係數達顯著,表示男性每年受教育對收入的回報大過女性。
  7. 離群點的處理:在進行分析之前,應該對所有變項作「極端值」檢驗,在迴歸分析裡頭Outlier對結果的影響甚大,可用盒型圖或直方圖作檢查,檢驗是否有不合理的離群值出現。
  8. 自變數/解釋變數的處理:開始分析後,如果有好幾個預測變數,不應盲目地選擇「逐步法」,逐步程序法是最沒有理論邏輯性的方法,每個變數在放入迴歸模型之前最好都有一定的理論基礎,如果非得要用「逐步」法,那最好是挑選Forward(向前選取)或Backward(向後選取)法,它們相對於Stepwise(逐步法)是較具有邏輯性的。
  9. 樣本數的限制:一個常見的問題,就是用很少的樣本數,但卻放很多的自變項,例如只有100個樣本數卻放進20個自變項,這樣會造成各個變項的「預測效率」低落,也就是整體的F檢定達顯著(代表至少有一個自變項有預測力),但是每一個變項的迴歸係數卻都不顯著,這就是因為用太少的樣本數但卻放入太多的自變項的後果。一般建議樣本數跟自變項數目的比例是10:1。
  10. 結果的初步檢視: 檢視多元迴歸分析之結果的步驟是先檢視整體模式之適合度(goodness of fit)。這是看迴歸分析結果之ANOVA表中之F test是否達到顯著。如果是的話,我們可說此模式在母群體之R2不是0,或自至少有一個自變項對應變項有解釋力。R2(或納入自變項數目做了調整後之adjusted R2)的意義是所有自變項解釋了多少比例之應變項的變異量。 
          在檢視完整體模式之解釋力後,下一步是逐一檢視各自變項之斜率(slope),也就是迴歸係數是否達到顯著(即測定其是否為0之虛無假設)。這是要看每一自變項迴歸係數的T-testp值(通常應至少小於0.05)。迴歸係數「顯著」 (Β或β)不代表就有「強的預測力」  ,如果解釋力(R平方)只有0.02,那就代表這個自變項只能解釋2%的依變項,所以除了解釋迴歸係數的顯著性之外,也要注意看解釋能力高不高。如果某一自變項之係數達顯著水準的話,則其意義是在控制其他自變項的情況下,此一自變項對應變項之獨特影響力(unique effect)為何。另一說法是,自變項每增加一個測量時用的單位,會改變多少應變項測量時之單位。我們可代入此自變項一個數值(如此變項之平均數),然後計算在此數值和Bunstandardized coefficient)乘積,這乘積就是此自變項在此數值時,應變項的數值有多大。
  11. 看出不同變數影響的層次: 
          如果我們要知道和其他自變項比較,那一個自變項對應變項之獨特影響力比較大,則我們是要看Betastandardized coefficient)或部分相關係數(看此比較好)。如果我們的迴歸分析是建立在一個因果模式上,那我們可進行階層式迴歸分析(hierarchical regression)。看我們研究的焦點為何,我們可逐一將自變項加入迴歸模式中,然後看不同階段之迴歸模式的整體解釋力和各個自變項解釋力的變化。
  12. 模式適當性的確認:做完分析之後要作「異常點」與「殘差」檢驗,有幾種常見的檢驗方法:偏迴歸圖、t化去點殘差(辨認依變項離群值)、槓桿值(辨認自變項離群值)、DFFITS、Cook距離、DFBETAS、Tolerance及VIF(辨認共線性)嚴謹的迴歸分析是要進一步對residuals做檢視後,才報告分析所得到之結果。殘餘值是指每個個案將其自變項之數值代入迴歸模式中計算在應變項之預測值,然後將實際觀察到之值與此預測值相減後所得到之殘餘。對殘餘值之診斷主要有兩項:
          Influence diagnosis:此診斷要看的是有無一些異常的個案可能對迴歸模式的估計造成不當之的影響,並膨脹standard errors。特別是當樣本數較小時,我們要當心此可能性。如果此類個案數目不多的話(依機率,每一百個標準化之殘餘值中會有5個殘餘值之z值大於2),那我們就可說是沒有異常個案影響迴歸模式估計的問題。
          NormalityhetroskedasticityOLS迴歸分析假定在prediction function之不同level的殘餘值是常態分配,而且變異量是相同的。因此,我們可利用單變項之分析來看檢視預測值和殘餘值是否為常態分配,以及兩者間是否有相關(依照假定迴歸模式之殘餘項應和自變項間沒有相關),以及殘餘值在prediction function之各level是否有相同之變異。

沒有留言: