2019.11.18,修改記錄:帽子矩陣已修改。

大傢好!

從這一節開始,我們算是正式的進入瞭多元線性回歸的內容。在介紹完之前那些困難而復雜的定理之後,這裡的內容就會顯得稍微平和一些啦,這當然是一件好事ヾ(o◕∀◕)ノヾ。

不過,我們這裡的內容也隻是一個入門級別,因為我們下學期專門有一門課會關註多元方面的內容,那才是真正的又一次的深入。不過,相對一元的情況它也不是特別容易,同時會多次涉及到我們之前的內容。不過請放心,我會在每個地方標註之前的引入,讀者可以通過文章開頭的鏈接索引到之前的文章。

另外,因為回歸分析中的符號比較繁雜,因此一些不必要的上下標我會有所省略,希望不會對閱讀造成太多的負面影響~

提供之前的筆記:

  • 回歸分析|筆記整理(1)——引入,一元線性回歸(上)
  • 回歸分析|筆記整理(2)——一元線性回歸(下)
  • 回歸分析|筆記整理(3)——多元正態分佈理論(上)
  • 回歸分析|筆記整理(4)——多元正態分佈理論(中)
  • 回歸分析|筆記整理(5)——多元正態分佈理論(下)

我們開始本節的內容。

目錄

  • 多元線性回歸(上)
    • 引入
    • 參數估計
      • e 的協差陣
      • sigma^2 的無偏估計
      • 極大似然估計
    • 參數相關性質
    • 顯著性檢驗
      • 方程顯著性檢驗
      • 系數顯著性檢驗
    • 擬合優度(上)
      • 偏相關系數,偏決定系數
    • 中心化,標準化
    • 樣本相關陣

多元線性回歸

引入

和一元線性回歸有相同的定義,多元線性回歸中,一個因變量開始由多個自變量來決定,所以它的方程的形式就變成瞭

其中第二個就是理論回歸方程。因為多元線性回歸一個觀測值就不再是一個標量而是一個向量瞭,所以可能自變量的觀測值就變成瞭 (1,x_{11}, ldots, x_{1p}),(1, x_{21}, ldots, x_{2p}),ldots ,而對應的因變量的觀測值不變,還是 y_1,y_2, ldots ,因此我們把這些觀測值每一行每一行的疊加起來就成為瞭一個向量或者矩陣,所以引入矩陣的表示是必要的。

為瞭方便,記

那麼這個時候的多元線性回歸的表示就變成瞭 y=Xbeta+ epsilon ,其中 X 我們一般稱為設計矩陣。

同樣的,它也有自己的一套基本假定。對應的下面三條。

可能有的人要問瞭,如何去理解多元線性回歸的含義?我們其實根據理論回歸方程,比方說對自變量 x_1 求偏導,就會有 frac{partial E(y)}{partial x_1} = beta_1 ,註意偏導的含義是控制其餘變量不變的。因此這裡 beta_1 的含義就是在控制其餘因素不變的情況下,我每增加一個單位的 x_1 會給我的因變量帶來 beta_1 個單位的影響。這也是和一元回歸稍微不一樣的地方。

參數估計

逃不掉的還是參數估計,首先第一步就是要得到我們的 beta 的估計值。方法和一元的情況完全相同,但是結果為什麼是《數理統計概要》中介紹的那個矩陣,可能還是需要看看具體的推導。

註意到我們現在需要最小化的函數是

(這裡為瞭方便,我沒有給每一個 beta_i 加上帽子,實際要寫的時候應該寫成 hat beta_i

那麼同樣的,對每一個需要估計的參數求偏導,我們可以得到一系列的方程組如下

使用常規的方法確實可以解出這樣的方程組,可是這樣未免讓初學者看著有些太可怕瞭不是嗎?所以我們這裡使用矩陣的語言來說明,會更容易些。

首先我們來看第一個式子,求和號需要求和的這一個元素是什麼?如果我們設 hat y_i = beta_0+beta_1x_{i1}+ldots+beta_px_{ip} ,那麼相當於每一個元素的殘差求和為0。也就是說, sum e_i = 0 。關鍵來瞭,我們把它寫成矩陣形式,也就是 e^Tmathbf{1}=0 ,這裡 e=(e_1,e_2,ldots,e_n)^T 。你沒有忘記啥是 mathbf{1} 吧?

那麼同樣的,我們看看第二個式子,我需要說的是它是針對下標 _i 來做的求和,所以如果我們同樣的可以得到 sum e_ix_{i1}=0 ,也就是 e^TX_1=0 ,其中 X_1=(x_{11},x_{21},ldots,x_{n1})^T

以此類推,我們事實上可以得到一系列內積為0的式子。這樣的話,我們事實上可以把這些關於 X_i 的矩陣拼在一起,也就是說 e^Tbegin{bmatrix}mathbf{1} & X_1 & cdots & X_nend{bmatrix}=0 。這樣的話我們就可以得到我們最終的結論

這裡 X 就是我們上面的設計矩陣。這就很方便瞭,因為 e^T=y-Xhat beta ,所以我們代進去做一些化簡

這裡要註意矩陣 X 是列滿秩的(多元回歸基本假定第一條),所以 X^TX 是可逆矩陣,因此運算是合法的。通過這一套計算,我們也最終得到瞭我們想要的結果。

說到這裡,我們要提一下我們所得到的矩陣。因為它太重要瞭,所以需要給它一個單獨的定義。

也就是說,如果我們的觀測值是 y (請註意,這裡是向量不再是數瞭,請盡快習慣矩陣的語言)。那麼估計值就是 Hy

這個矩陣在數值線性代數,數值逼近等課程中也是高頻出現的,足以顯現出其重要性。

e 的協差陣

一個重要的性質是帽子矩陣是對稱冪等的(見第三節筆記),因此 tr(H)=r(H)=p+1=sum_{i=1}^nh_{ii} 。而且有瞭帽子矩陣,我們就可以把得到的殘差寫成 e=y-hat y=(I-H)y 。也很方便計算它的協差陣。同樣的,根據第三節筆記的理論,我們有

(一個重要的性質是如果 H 對稱冪等,那麼 I-H 也是對稱冪等陣。在數值線性代數中它們被稱為投影矩陣。)

因此,如果把向量的每一元拆開,就可以得到 e_i=sigma^2(1-h_{ii}) 。其中 h_{ii} 是帽子矩陣的對角元,也叫杠桿值,在之後的章節中還會涉及到。

sigma^2 的無偏估計

在一元線性回歸(筆記第二節)中,我們介紹瞭方差的無偏估計 frac{1}{n-2}sum_{i=1}^{n} e_i^2 。因此在多元中,有理由相信它還是和殘差平方和有關,所以我們考慮 e^Te 的期望。先做些變換~

分別來看拆出來的這四項,有沒有發現第一項和第三項都有元素 (I-H)X ?那麼它是什麼呢?

Surprise!這個元素是0,所以第一項和第三項都是0瞭。第二項是第三項的轉置,因此也是0,所以最後隻需要看看 epsilon^T(I-H)epsilon 的期望即可。

所以我們可以看出 E(e^Te)=sigma^2(n-p-1) 。而且在多元回歸中, e^Te=SSE ,所以最終的無偏估計就是

有沒有感覺和一元的結果,其實是一回事呢?就改瞭一個分母罷瞭。

極大似然估計(MLE)

這就沒有任何新鮮的內容瞭,目的還是一樣,使得

最小,因此連分析的過程都和一元的情況一模一樣。所以結果就是 hatsigma_L^2=frac{SSE}{n}

參數相關性質

和一元的情況一樣,多元得到的參數也有很多性質。比如說

太顯然瞭,不是嗎?

這個也還行,註意到 E(hat beta)=E((X^TX)^{-1}X^Ty)=(X^TX)^{-1}X^T(Xbeta)=beta 即可。

不過,對於 hat beta 的協差陣(怕大傢忘瞭,就是一元意義下的方差),情況就有點不一樣瞭。

不過這也不難,註意到 cov(hat beta)=cancel{(X^TX)^{-1}X^T}cov(y)cancel{X}(X^TX)^{-1}=sigma^2(X^TX)^{-1} 即可。

這也不是特別難,我們註意下兩個統計量的表達式

這是因為 (I-H)X=0 可以推出 X^T(I-H)=0

最後還有個很重要的定理,我們單獨拉出來說

我們首先根據方差公式,先求出 D(c^That beta)=c^TD(hat beta)c=sigma^2c^T(X^TX)^{-1}c

我們要註意到的是 hat beta 其實是 beta 的無偏估計,那麼另一方面註意到 y 又是 hat beta 的一個線性變換,所以如果找 c^Tbeta 的無偏估計,我們自然是可以考慮取 Y 的分量的任意線性組合,看它結果是什麼。所以我們這裡設 a^Tyc^Tbeta 的任一無偏估計,那麼就會有 E(a^Ty)=a^TXbeta=c^Tbeta 。那麼註意到 beta 這裡是任意的,所以有 X^Ta=c 。這樣的話,我們看看方差的差

註意第二個式子要把得到的關系式 c=X^Ta 代進去,然後註意中間的矩陣為對稱冪等陣,我們在第三節說過它自然也是一個半正定陣。所以實際上就可以得到差不小於0的結論,這就夠瞭。

顯著性檢驗

請註意,在多元回歸中顯著性檢驗就不止一種情況瞭。我們一一來看

方程顯著性檢驗

方程顯著性檢驗的意思是:我檢驗這個回歸方程本身是否有效。也就是說,如果這個檢驗發現它不顯著,那麼這個方程就可以直接放棄瞭。所以它的原假設是

也就是說,隻要一個回歸系數不為0,就拒絕原假設。因為這相當於是一個整體的假設判定,所以我們需要考慮的自然是 SSRSSE ,因為直觀上它們綜合使用瞭所有的數據點的信息,因此優先考慮考慮也正常。

現在來看看 SSR 是什麼。我們註意到在多元回歸中

這隻需要類比一下一元的情況 SSR=sum(hat y_i-bar y)^2=sum hat y_i^2-nbar y^2 ,並且註意到 hat y^That y =[X(X^TX)^{-1}X^TY]^TX(X^TX)^{-1}X^TY=Y^T[X(X^TX)^{-1}X^T]Y 即可。另一方面,如果我們設 J=X(X^TX)^{-1}X^T-frac1nmathbf{11}^T ,那麼直接驗證可以得到它是對稱冪等陣,所以秩和跡相同,也就可以得到它服從一個分佈 sigma^2chi^2(r(X)-1,lambda_2) (別忘瞭因為隨機向量的協差陣不是單位陣,所以分佈前面是有標準化系數的)。

學過F檢驗(《數理統計概要》第二節)的話,你應該知道上下分佈都應該是 chi^2 分佈,但是從來沒有什麼非中心化系數之說對吧?所以下一個問題就是,這裡的分佈是不是也是中心化的,要使用 SSR 就需要我們證明 lambda_2=0 。在第五節我們知道,這就是需要說明

不要傻乎乎的直接去證明瞭。在做假設檢驗的時候一定要記住的是原假設成立的情況下構造統計量。所以這裡我們要把 beta_1=beta_2=ldots=beta_n=0 代入。根據這個我們再分塊 beta=begin{bmatrix}beta_0 \ 0end{bmatrix}, X=begin{bmatrix}mathbf{1} & tilde Xend{bmatrix} ,那這個時候, Xbeta=beta_0mathbf{1},beta^TX^T=beta_0mathbf{1}^T (註意 beta_0 是數)。代進去就可以得到

這是因為 mathbf{1}^Tmathbf{1}=n 。所以我們證明瞭 frac{SSR}{sigma^2}sim chi^2(r(X)-1)=chi^2(p) 。那麼 SSE 的情況其實是類似的,可以證明 frac{SSE}{sigma^2} sim chi^2(n-p-1)

在第五節中,我們已經證明瞭 SSR,SSE 是獨立的,所以有瞭這些前置條件,就可以構造F檢驗瞭。定義好顯著性水平就可以進行假設檢驗瞭。

系數顯著性檢驗

如果方程是有效的,有一個問題自然是到底哪個系數是顯著的?這就是系數顯著性檢驗的作用。所以我們實際上要檢驗的就是

既然要檢驗 beta_j ,我們自然要知道的就是 hat beta_j 的均值與方差,因為這樣我們就可以根據 hat beta_j 的值確定置信區間,進而確定是否顯著。

根據無偏性和 cov(hat beta)=sigma^2(X^TX)^{-1} ,就可以知道 hat beta_j sim N(beta_j, c_{jj}sigma^2) ,其中 c_{jj} (X^TX)^{-1} 的對角線元素。因此如果要檢驗,我們隻需要考慮構造正態或者t檢驗。

問題來瞭, sigma^2 我們並不知道,所以隻能考慮t檢驗瞭。t檢驗的形式是 frac{X}{sqrt{Y/N}} ,分子上的標準正態分佈很好找就是 frac{hat beta_j}{sqrt{c_{jj}}sigma} (還是那句話,在構造分佈時原假設條件要代入)。而註意到 SSE/sigma^2 sim chi^2(n-p-1) ,所以根據 hat sigma=sqrt{frac{SSE}{n-p-1}} 再組合就可以得到所要的t檢驗

同樣的,你也不難得到每一個回歸系數的置信區間。分子上減一個 beta_j 就可以得到分佈,然後解關於 beta_j 的不等式就好,具體細節可以參考《數理統計概要》第三節。

擬合優度(上)

顧名思義,擬合優度就是衡量一個回歸做的好不好的指標。這一部分我們分開說的原因是,剛開始會涉及一些小的概念,不會占有太多的篇幅。但之後的內容概念可能會有些理論和復雜的東西。

首先是決定系數,沒什麼好說的,定義為 R^2=frac{SSR}{SST} ,對應的一個東西叫作樣本復相關系數,定義為 R=sqrt{frac{SSR}{SST}} 。所以這就是看擬合的好不好的一個綜合指標。

下面我們來說說偏相關系數和偏決定系數。這個概念是相對比較“動態”的。我們從偏決定系數看起。

偏決定系數考量的因素是:在每一次添加自變量後,回歸的方程 SSE 下降的程度。通過這句話也就不難理解為什麼它是一個衡量每一個回歸系數的指標瞭。具體公式如下

註意它的下標,上面的式子其實表示的意思就是:在已經有瞭第2,3,…,p個自變量後,新添加第1個自變量後, SSE 到底下降瞭多少。所以要理解為第1個自變量與其餘自變量已經存在的模型的偏決定系數。

至於偏相關系數,那沒什麼好說的瞭,就是偏決定系數開個根號。

實際情況中,有的人希望能夠檢驗出一下子添加多個變量後會對 SSE 造成多大影響,Prof提供瞭一個計算的思路。不過它不是我們要關註的重點,感興趣的註意下就好。

中心化,標準化

這又是多元回歸中的一些小的操作。

首先是中心化,因為多元回歸的直線一定過 (bar x_1,bar x_2,ldots,bar x_p,bar y) (對離差平方和的 beta_0 求偏導即可得到),所以中心化的意思就是,把所有的數據點都平移,使得回歸的原點變成數據的均值點。換句話說,如果我們設原始的理論回歸方程為

那所要做的變換就是 x_{ij}'=x_{ij}-bar x_j, j=1,cdots,py_i'=y_i-bar y

如果做瞭這樣的一個變換,那麼如果我們設 hat y=hat beta_0+hat beta_1x_1+cdots+hat beta_px_p 是它的經驗回歸方程,對右邊代入變換就可以得到 hat y=bar y+hat beta_1x_1'+cdots+hat beta_px_p' 。又因為我們對變量 y 也做瞭類似的變換,所以這樣就會有最後的中心化經驗回歸方程

可以看出來,這樣的方程是沒有常數項的。

在做PCA(Principal Component Analysis,主成分分析)的時候,剛開始的數據處理往往都要中心化。不過要註意的是回歸中的中心化會有一些隱患。

現在我們不對 y 作變換,但是 x_i 依然中心化,那麼相當於針對原來的理論回歸方程 y=Xbeta+epsilon 兩邊同乘瞭一個中心化矩陣 I_n-frac1n mathbf{11}^T 。這樣的話,如果我們設中心化之後的數據為 tilde X ,那麼沒有中心化的時候,模型相當於 y=[mathbf{1} mid tilde X]begin{bmatrix}gamma_0 \ beta_lend{bmatrix}+epsilon ,兩邊乘完之後就變成瞭

形式一樣,但是因為 epsilon 被多乘瞭一個東西,它的獨立同分佈條件就不一定能夠滿足瞭。

那麼什麼是標準化呢?其實很簡單,就是下面的變換

其中 L_{jj}=sum_{i=1}^{n}(x_{ij}-bar x_j)^2 。這樣變換後,新的回歸的離差平方和就是1。

樣本相關陣

我們用它來結束這一節,把一些較理論的收尾的部分放到下一節。

你應該沒有忘記我們在一元回歸中介紹的簡單相關系數。在多元中它的定義是一樣的。

那麼如果我們把每一對自變量之間的關系都拉出來進行衡量,自然會得到一個矩陣,這就是樣本相關陣

做數據分析的人絕對不陌生,因為你拿到一個dataframe之後,基本上第一件事就是看它每個變量之間的相關性。

實際計算中,如果單獨計算每一個 r_{ij} 也必然是很累人的事情。所以標準化就派上瞭用場。如果我們設 X^*=begin{bmatrix}frac{x_{11}-bar x_1}{sqrt{L_{11}}} &frac{x_{12}-bar x_2}{sqrt{L_{22}}} &cdots &frac{x_{1p}-bar x_p}{sqrt{L_{pp}}} \ frac{x_{21}-bar x_1}{sqrt{L_{11}}} & frac{x_{22}-bar x_2}{sqrt{L_{22}}}& cdots & frac{x_{2p}-bar x_p}{sqrt{L_{pp}}} \ vdots & vdots & ddots& vdots \ frac{x_{n1}-bar x_1}{sqrt{L_{11}}} & frac{x_{n2}-bar x_2}{sqrt{L_{22}}} & cdots & frac{x_{np}-bar x_p}{sqrt{L_{pp}}}end{bmatrix} ,那麼這個時候直接可以驗證 r=(X^*)^TX^* 。所以標準化之後的矩陣可以直接拿來計算相關陣。

如果我們把矩陣再擴大一下,把因變量 y 也加進去,那麼就會有

實際研究中,增廣陣會用在高維數據(自變量的個數大於或者接近數據的個數)的處理中。很多時候我們都會先考慮每一個變量與因變量之間的大小關系,進而篩掉部分變量,以使得回歸可以正常進行。

我們還沒有完全結束多元回歸,還剩一些比較理論的東西。不過這一節的東西再加感覺難度上又不會友好瞭,就先到此為止吧。

小結

本節我們主要關註瞭多元回歸的大部分內容。細心的讀者可以發現大部分多元回歸的分析思路(參數估計,假設檢驗)都與一元回歸完全相同。而諸如相關系數這樣的概念很多地方也和一元的情況相重合。所以在多元中,其實大部分內容都可以類比筆記的第1-2節一元回歸的部分去對比學習,這會比較有幫助。

因為我們下一周就要進行《回歸分析》的期中考試,所以我們近期還會推出一篇文章,這樣之前的文章就覆蓋瞭我們學院的期中考試的所有內容。也請大傢稍作等待,文章很快就好~

——————————————————廣告——————————————————

本專欄為我的個人專欄,也是我學習筆記的主要生產地。任何筆記都具有著作權,不可隨意轉載和剽竊。

個人微信公眾號:cha-diary,你可以通過它來有效的快速的獲得最新文章更新的通知。

本人最近在尋找與數據科學,計算數學,統計有關的科研和實習機會。希望各路大佬神仙如果有看得上我的可以和我聯系下~謝謝你們!

專欄目錄:筆記專欄|目錄

想要更多方面的知識分享嗎?歡迎關註專欄:一個大學生的日常筆記。我鼓勵和我相似的同志們投稿於此,增加專欄的多元性,讓更多相似的求知者受益~