Difference GMM

모형: \(y_{it} = \alpha + \mathbf{x}_{1,it}\beta_1 + \mathbf{x}_{2,it} \beta_2 + \mathbf{x}_{3,it} \beta_3 + \rho y_{it-1} + \mu_i + \varepsilon_{it}\)
- \(\mathbf{x}_{1,it}, \mathbf{x}_{2,it}, \mathbf{x}_{3,it}\)은 각각 외생적, 선결적, 내생적 설명변수
- 외생성, 선결성, 내생성은 연구자가 선정

Difference GMM

우선 방정식을 차분하여 고정효과(\(\mu_i\))를 소거 \(\Delta y_{it} = \Delta \mathbf{x}_{1,it} \beta_1 + \Delta \mathbf{x}_{2,it} \beta_2 + \Delta \mathbf{x}_{3,it} \beta_3 + \rho \Delta y_{it-1} + \Delta \varepsilon_{it}\)
\(\Delta \varepsilon_{it}\)와 비상관인 관측변수들을 도구변수로 사용

\(T=4\)라 하자. \(\mathbf{x}_{1,it}\)가 강외생적, \(\mathbf{x}_{2,it}\)가 약외생적(선결적), \(\mathbf{x}_{3,it}\)가 동시기적으로 내생적이라 할 때, \(\Delta \varepsilon_{i3}\)과 비상관인 관측변수들을 모두 나열하라.

Anderson & Hsiao (1981)

\(\Delta \mathbf{x}_{1,it}, \mathbf{x}_{2,it-1}, \mathbf{x}_{3,it-2}, y_{it-2}\)를 도구변수(IV)로 사용하여 2SLS
- \(t\)마다 도구변수의 개수는 동일
- \(\Delta \mathbf{x}_{1,it}\), \(\Delta \mathbf{x}_{2,it-1}\), \(\Delta \mathbf{x}_{3,it-2}\), \(\Delta y_{it-2}\)를 사용하는 것도 고려

\(\Delta\mathbf{x}_{1,it}, \mathbf{x}_{2,it-1}, \mathbf{x}_{3,it-2}, y_{it-2}\)는 \(\Delta \varepsilon_{it}\)와 비상관임을 (수식으로) 확인하라.

Stata: ivregress 2sls d.y d.x1 (d.x2 d.x3 ld.y = l.x2 l2.x3 l2.y), vce(cl id)

위 Stata 명령에서 클러스터 표준오차를 사용한 이유는 무엇이겠는가?

Arellano & Bond (1991)

모든 가능한 래그들(\(\Delta \mathbf{x}_{1,it}, \mathbf{x}_{2,i1}, \ldots, \mathbf{x}_{2,it-1}\), \(\mathbf{x}_{3,i1}, \ldots, \mathbf{x}_{3,it-2}\), \(y_{i1}, \ldots, y_{it-2}\))을 도구변수로 사용하여 GMM
- \(t\)마다 도구변수의 개수가 다름
- 그래서 ‘GMM’ 사용
이론적으로만 보면 \(\Delta \mathbf{x}_{1,it}\) 대신에 모든 시기의 \(\mathbf{x}_{1,it}\), 즉 \(\mathbf{x}_{1,i1}, \ldots, \mathbf{x}_{1,iT}\)를 사용해도 좋으나 실용적이지 않음

\(\varepsilon_{it}\)에 시계열상관이 없다는 가정이 맞다면 Arellano and Bond (1991)가 사용한 도구변수들이 모두 오차항과 비상관임을 수식으로 확인하라.

Stata xtabond y x1, pre(x2) endo(x3) [lags(1)] [two] [vce(r)]

다음을 실행하라(dem은 민주주의 정도, inc_1은 전(前)기의 소득). 이 회귀에서 inc_1은 predetermined로 설정되었는데 그렇다면 inc (현재 기의 소득)는 어느 범주에 속한다고 볼 수 있는가?

use ajry08five, clear
xtabond dem yr3-yr11 if sample==1, pre(inc_1) vce(r) nocons

위 결과에서 L1.dem 변수와 inc_1 변수의 계수 추정 결과를 읽고 해석하라. 소득과 민주주의의 관계는 어떠한가?

모형설정 검정

두 가지 검정
1. 사용된 도구변수들이 정말로 오차항과 비상관인지 검정(Sargan, Hansen)
2. \(\varepsilon_{it}\)가 정말로 시계열 상관을 안 가지는지 검정(Arellano & Bond 검정)

Sargan 검정

귀무가설은 사용된 도구변수들이 오차항(\(\Delta \varepsilon_{it}\))과 비상관이라는 것
귀무가설을 기각하지 않아야 모형설정 검정이 통과되는 것
vce(r) 옵션과 함께 사용할 수 없음. 이 경우 나중에 살펴볼 Hansen 검정 사용

다음 결과로부터 어떤 결론을 얻는가?

use ajry08five, clear
qui xtabond dem yr3-yr11 if sample==1, pre(inc_1) nocons two
estat sargan

Arellano-Bond 검정

\(\varepsilon_{it}\)가 정말로 시계열상관을 안 갖는지 검정(Arellano-Bond 검정).
그런데 Arellano and Bond 추정법은 차분(difference)한 방정식을 고려하므로 \(\varepsilon_{it}\)가 아니라 차분(difference)한 오차항 \(\Delta \varepsilon_{it}\)에 시계열 상관이 존재하는지 검정
\(\varepsilon_{it}\)에 시계열상관이 없으면 \(\Delta \varepsilon_{it}\)와 \(\Delta \varepsilon_{it-1}\)은 반드시 음의 상관을 가지므로, Order 1 (AR(1)이라고도 함)에서는 반드시 음의 시계열상관이 존재
반면 Order 2 (AR(2)라고도 함) 이상에서는 시계열상관이 존재하지 않아야 함
모형이 제대로 설정되어 있으려면 ‘Order 1은 음수로 기각, Order 2 이상은 채택’이 되어야 함

다음 결과로부터 어떠한 결론을 얻는가? 설명하라.

use ajry08five, clear
xtabond dem yr3-yr11 if sample==1, pre(inc_1) nocons vce(r) two
estat abond

\(T=4\)라 하자. 그러면 ‘Order 1’ 검정은 가능하나 ‘Order 2’ 검정은 가능하지 않다. 이제, 어떤 연구자가 Arellano-Bond 추정을 한 다음 Arellano-Bond 검정을 했더니 ‘Order 1’ 검정통계 값이 2.58이 나오고 \(p\)값은 0.0099였다고 하자. 이로부터 어떤 결론을 얻는가?

\(T\ge 5\)라 하자. 어떤 연구자가 AR(1)에서 검정통계 값이 -1.3이고 \(p\)값은 0.194, AR(2)에서 검정통계 값이 .703이고 \(p\)값이 0.482라면 모형에 관하여 어떤 결론을 내리는가?

우변변수 유형의 설정

우변변수가 exogenous인지 predetermined인지 endogenous인지는 연구자가 설정하는 사안
Truth보다 더 강하게 설정하면 추정량이 inconsistent
Truth보다 더 약하게 설정하면 정확성이 떨어짐(standard error가 큼)
실제 연구에서 truth가 무엇인지는 적절한 reasoning을 통하여 잘 defend하도록 함
경험에 따르면, Sargan-Hansen 검정이 기각되면 더 약하게 설정(외생적 → 선결적 등)하고, Arellano-Bond 검정이 통과되지 않으면 래그 차수 증가

(i) 설명변수 \(x_1\)이 외생적임에도 불구하고 선결적(pre 옵션)이라고 지정하면 무슨 문제가 있는가? (ii) 설명변수 \(x_2\)가 선결적임에도 불구하고 내생적(endo 옵션)이라고 지정하면 무슨 문제가 있는가? (iii) 설명변수 \(x_2\)가 선결적임에도 불구하고 외생적이라고 지정하면 무슨 문제가 있는가?

종합하여, (i) 실제보다 더 “약하다고”(예: 외생적이지만 선결적 혹은 내생적이라고) 지정하면 무슨 문제가 발생하는가? 그 이유는? (ii) 실제보다 더 “강하다고”(예: 내생적이지만 선결적이라고) 지정하면 무슨 문제가 발생하는가?

Difference GMM의 문제점

실제 DGP가 \(y_{it} = y_{it-1} + \varepsilon_{it}\)이면 \(\Delta y_{it-1} = \varepsilon_{it-1}\)이므로 도구변수 \(y_{it-2}\)와 설명변수 \(\Delta y_{it-1}\)가 서로 독립이 됨
즉, 이 경우 도구변수에 정보가 없어 무의미한 추정이 이루어짐
\(\rho\)의 참값이 1에 가까울 때 ‘약한 도구변수’ 문제가 발생하여 Difference GMM이 안 좋은 모습을 보이고 performance가 심각하게 나빠질 수 있음
아래 모의실험에서 \(y_{it}\)는 임의보행(\(y_{it} = y_{it-1} + \varepsilon_{it}\))이며, AH 추정결과와 AB 추정결과는 참값(1.0)과 큰 차이가 있음

clear all
local n 5000
local T 10
set obs `=`n'*`T''
gen id = ceil(_n/`T')
by id, sort: gen year = 1990 + _n
xtset id year
set seed 1
gen e = rnormal()
by id: gen y = sum(e)
ivregress 2sls d.y (ld.y = l2.y), vce(cl id) first
xtabond y

위 모의실험을 실제로 해 보고 정말로 그러한지 확인하라.

“해결책”은 더 강한 가정을 하는 것
그 중 하나는 System GMM