R-squared

패널 회귀에서는 4가지 R제곱을 고려할 수 있음

① Within R-sq: 종속변수의 WG 변동을 \(\mathbf{x}_{it}\hat\beta\)의 WG 변동이 얼마나 잘 설명하는지 나타내는 지표(또는 상한).
② Between R-sq: \(\bar{y}_i\)의 횡단면 차이를 \(\bar{\mathbf{x}}_{i}\hat\beta\)이 얼마나 잘 설명하는지 나타내는 지표(또는 상한).
③ Overall R-sq: \(y_{it}\)의 전체 차이를 \(\mathbf{x}_{it}\hat\beta\)이 얼마나 잘 설명하는지 나타내는 지표(또는 상한).
④ LSDV로부터의 R제곱: 개체별 더미변수들도 설명변수로 간주하므로 보통 높음.
보통, FE 추정에서는 Within R-sq를, BE 추정에서는 Between R-sq를, POLS 추정에서는 Overall R-sq를 보고함
- FE 회귀에서 Within R-sq는 SSE/SST, 즉 설명력을 나타내고 나머지는 cor 제곱
- BE 회귀에서 Between R-sq는 SSE/SST, 즉 설명력을 나타내고 나머지는 cor 제곱
- POLS 회귀에서 Overall R-sq는 SSE/SST, 즉 설명력을 나타내고 나머지는 cor 제곱

다음을 실행하라.

use gasoline, clear
local model "lgaspcar lincomep lrpmg lcarpcap i.year"
qui xtreg `model', be
est store be
qui xtreg `model', fe
est store fe
qui xtreg `model', re
est store re
qui reg `model'
est store pols
est tab fe pols re be, b se stats(r2 r2_w r2_o r2_b)

POLS에서 보고되는 R제곱은 세 가지 R제곱(within, between, overall) 중 어느 것과 동일한가?

Within r-sq를 최대화하는 추정방법은? Between r-sq를 최대화하는 추정방법은? Overall r-sq를 최대화하는 추정방법은? RE 추정방법은 뭐가 좋은가?

POLS와 RE를 비교하면 POLS의 표준오차가 더 작다. 도대체 어떻게 된 일인가? 문제를 해결하고 회귀를 다시 실행하여 POLS와 RE의 표준오차를 비교하라.

어떤 R제곱을 보고할 것인가?

death1.dta에서 deathrate를 smoke로(연도더미 없이) BE, POLS, RE, FE 회귀를 하고 세 R제곱들의 값들을 각각 비교하라. 어떻게 이런 일이 있을 수 있는지 설명하라. FE와 LSDV의 R제곱도 서로 비교하라.

코드 보기

use death1, clear
reg deathrate smoke
est store pols
xtreg deathrate smoke, be
est store be
xtreg deathrate smoke, re
est store re
xtreg deathrate smoke, fe
est store fe
areg deathrate smoke, a(region)
est store lsdv
est tab be pols re fe lsdv, stat(r2 r2_w r2_b r2_o)