“經典線性模型(classical linear regression model)”裡面 通常有一個假定是:X為固定(fixed)的或者確定的,不是隨機變量。這個“fixed”到底如何理解?

為瞭說明的方便,假設有一個預測房價的模型,自變量x為房屋面積,y為房價。模型是: y=a+bx+u,a是截距,b是回歸系數,u是誤差項。

為瞭研究房價和房屋面積的關系,我們會去收集數據,假設抽取的樣本觀察數是n,那麼就會得到n個房屋面積(可能有重復值),每個房屋面積對應一個房價。假設有5個人各自收集自己的樣本,樣本容量皆為n,很顯然,這5個樣本每個樣本中的房屋面積觀測值並不相同,所以我們認為自變量房屋面積是隨機變量。假設世界上的房屋面積隻有10個,分別是50平米,55,60,65,…,95,100平米。每次抽取樣本的時候每個房屋面積恰好一個觀測值。如果是這種抽樣,那麼5個人收集的樣本每個樣本裡面房屋面積都是一模一樣,隻是對應的房價可能不同。這個時候我們說x是“固定值”。固定值的意思是每次抽樣你得到的X完全一模一樣,並不隨機。

這麼假定的好處是什麼?好處太多瞭。

比如推導回歸系數的無偏性: b=(X'X)^-1X'y=(X'X)^-1X'(Xbeta+varepsilon)=beta+(X'X)^-1X'varepsilon,如果X是固定值,不是隨機變量,那麼 (X'X)^-1X' 就是一個常量,誤差項的期望假設是0,就可以很容易推出 b 的期望為 E(b)=beta ,所以回歸系數是無偏估計量。如果X是隨機變量,那麼在推導這個無偏性的時候先要得到條件期望,然後運用“迭代期望”定理才能得到E(b)=beta,反正很囉嗦。從這裡我們可以看到X是否是隨機變量,b都是無偏的。其實還有其它的很多結論也是這樣,X是否隨機,結論都一樣。既然這樣,那麼假設X是“固定值”還是非常不錯的一個主意。假設X是“固定值”,能避免一些難點,推出一些結論。在高級課程基於X是隨機變量的性質把很少的一些結論稍作修改或者加一些額外假設結論依然不變。這對於學習和理解線性回歸是非常有好處的。

“經典線性模型”裡面X一般假定為固定的,不是隨機變量,把X作為隨機變量的是“新經典線性模型”(neo-classical linear regression model)。

續篇: