ANOVA 多重比較方法之——LSD

LSD (least significant difference)由Fisher提出,用於單因素ANOVA分析之後進行成對比較的方法之一。其優勢在於最容易得到顯著的結果,因此受到很多同學的歡迎。不過,由於很多同學忽略瞭該方法的使用條件,導致該方法經常被誤用。

其適用條件為:

  • 隻有單因素ANOVA拒絕瞭零假設之後才能適用
  • 隻有處理數不超過3時才能使用

為什麼要滿足這兩個條件,我們一起往下看

1. LSD對一型錯誤的控制原理

學過統計的同學都應該知道,如果我們對多組處理進行兩兩比較,那麼隨著比較次數的增多,一型錯誤就會膨脹。

例如,在一個3處理的研究中,如果直接進行兩兩之間的比較,那麼一共需要進行3次比較。若每次比較的alpha設為0.05,此時真正的alpha錯誤(3次比較中至少犯錯一次的概率)就是:

1-(1-alpha)^3=1-(1-0.05)^3=0.143 \

因此,任何多重比較的核心就是控制一型錯誤,那麼多五花八門的多重比較方法,實際上就是用不同的方式控制一型錯誤的膨脹。

LSD首先要求必須在ANOVA拒絕零假設的前提下才能進行(其他方法並不做這個要求,就算F不顯著也可以進行)。這就是其控制方法。為什麼這麼說呢?

因為在ANOVA拒絕零假設時,出現兩種情況:

  1. 錯誤拒絕零假設,即犯瞭一型錯誤,概率為alpha(零假設為真)
  2. 正確拒絕零假設,即統計檢驗力,概率為1-beta(零假設為假)

在第一種情況下,我們本身就已經犯瞭一型錯誤,概率為alpha。在這個前提下繼續進行兩兩比較3次,總共犯一型錯誤的概率就是

alpha(1-(1-alpha)^3) \

在第二種情況下,我們並沒有在ANOVA中犯一型錯誤。一型錯誤隻會來自於接下來的兩兩比較。註意到這種情況的前提是三組的均值並不是全都相等的(ANOVA零假設為假)。如果三組全都不等,那就不可能犯一型錯誤。隻有在三組當中一組與其他兩組不等時才有可能會犯一型錯誤,意味著此時3次比較中隻有一次才會犯一型錯誤。因此,第二種情況下犯一型錯誤的概率就是

(1-beta)alpha \

此時,我們令第一種情況發生的概率為p,即零假設為真的概率為p,則第二種情況發生的概率(零假設為假)為1-p

那麼兩種情況下會犯一型錯誤的總概率為:(註意到1-betaleq1)

palpha(1-(1-alpha)^3)+(1-p)(1-beta)alphaleq palpha-palpha(1-alpha)^3+(1-p)alpha=alpha-palpha(1-alpha)^3leqalpha \

因此,總的一型錯誤概率不超過alpha,無論pbeta為多少

如果擴展到4處理的設計如何?

此時一共要進行6次兩兩比較,在第一種情況下,犯一型錯誤的概率為:

alpha(1-(1-alpha)^6) \

在第二種情況下,由於可能出現mu_1=mu_2=mu_3neqmu_4的情況,此時若對前三組進行兩兩比較都會發生一型錯誤。那麼犯一型錯誤的概率為

(1-beta)(1-(1-alpha)^3) \

總共的一型錯誤概率為:

palpha(1-(1-alpha)^6)+(1-p)(1-beta)(1-(1-alpha)^3) \

我們無需繼續進行復雜的推導,隻需要令p=0,beta=0帶入計算可得到最終的概率為

1-(1-alpha)^3 \

明顯超過瞭alpha

因此,在使用LSD進行成對比較時,一定要註意前提條件,否則會導致誤用。

2. LSD的計算方法

LSD實際上就是獨立樣本t檢驗的擴展,其不同之處在於使用瞭ANOVA中的誤差方差(誤差均方)來估計t的標準誤。實際上,很多其他的成對比較方法也就是這樣的t檢驗。

例如,我們有來自於一個單因素三水平的完全設計數據:

處理1 處理2 處理3
3 5 8
3 3 9
4 5 7
6 7 10
6 8 10
8 8 10

進行方差分析後得到:

來源 平方和 自由度 方差(均方) F P
組間 52 2 26 8.125 0.004
組內 48 15 3.2
100 17

此時ANOVA顯著,我們想要繼續進行LSD兩兩比較,SPSS給出的結果如下:

image-20220527152124561

此時標準誤差就是利用方差分析的誤差方差(或者叫誤差均方)進行估計的,回憶一下獨立樣本t檢驗的標準誤公式

SE=sqrt{dfrac{Sp^2}{n_1}+dfrac{Sp^2}{n_2}} \

其中Sp通常被叫做聯合方差,實際上就是這裡的誤差方差。我們將誤差方差MS_{組內}=3.2帶入計算,此時n_1=n_2=6,即可得到表格中的1.03280(近似值)

之後計算t值

t=dfrac{M_1-M_2}{SE} \

以處理1和處理3為例,二者均值差值為4,帶入後得到t=dfrac{4}{1.0328}=3.873,在自由度為15的t分佈中查表(因為使用的是ANOVA誤差方差估計的,所以自由度也要用誤差自由度),即可得到顯著性p=0.0015approx0.002