instrumentales Regresión con variables

(1)

Regresión con variables instrumentales

Tema 9

Econometría y predicción Matilla, M., Pérez, P. y Sanz, B. McGraw Hill

(2)

Introducción

 Cuando el supuesto de exogeneidad no se cumple, los estimadores MCO son sesgados e inconsistentes

 El método de Variables Instrumentales (VI) permite, bajo determinadas condiciones, obtener estimadores

consistentes de los parámetros …

 Para presentar el método recurrimos a un ejemplo:

pero la habilidad no es observable.

0 1 2

log(sal)    educ habil  (1)

(3)

Introducción

 Sabemos que excluir la variable y estimar la ecuación

viola el supuesto de exogeneidad lo produce sesgo e inconsistencia (a no ser

corr(educ, habil)=0)

 La solución de emplear variables proxy puede ser buena si disponemos de ellas, pero no siempre es el caso

 Pero, aún sin proxy, podríamos estimar de forma

consistente 

₀

y 

₁

, si disponemos de un instrumento o

variable instrumental, z, para la educación.

0 1

log(sal)   educ u (2)

(4)

Condiciones del instrumento

 La variable instrumento debe cumplir dos condiciones:

 Debe estar (muy) correlacionada con la educación (Relevancia)

 No debe estar correlacionada con u (y por tanto con la habilidad que estará en u (Exogeneidad)

 La primera condición es fácilmente contrastable: basta

estimar educ=₀+₁z+v y ver si podemos rechazar H₀:₁=0

 La segunda es más difícil de contrastar (de hecho en este caso no es posible: û no representaría a u …)

(5)

Obtención del estimador VI

 Veamos cómo funciona el estimador VI a partir de la ecuación simple y=₀+₁x+u, siendo z un instrumento válido

 Multiplicamos por z y tomamos esperanzas,

 Pero en virtud de las condiciones impuestas al instrumento cov(uz) = 0, y cov(z₀) = 0, al ser ₀ una constante. Por tanto,

 Si sustituimos por las covarianzas muestrales,

0 1

( ) ( ) ( ) ( ), o

cov( ) cov( ) cov( ) cov( )

E yz E z E xz E uz

yz z xz uz

 

  

1

cov( , ) cov( , ) y z

  x z

1 1

ˆ ˆ

cov( , ) cov( , )

ˆ , diferente de ˆ

ˆ ˆ

cov( , ) var( )

VI y z MCO y x

x z x

   

(6)

Obtención del estimador VI

Las estimaciones MCO y VI pueden ser muy diferentes.

Ejemplo de Haavelmo

Estimar la ecuación Consumo = 

₀

₊ 

₁

Renta_D +  , ^plantea

problema de endogeneidad (causalidad simultánea). Como instrumento de la Renta propuso la Inversión ^.

ˆ 344.7 3.048 , 2 0.817

(16.48) (0.34)

Renta  Inversion R  Relevancia instrumento

(7)

Obtención del estimador VI

Los datos proporcionan la siguiente matriz,

2

1

2

1

2379.23 ˆ ˆ

: 84.01 0.73 , 0.97 0.73

3249.65 (14.55) (0.03)

584.89 ˆ ˆ

: 113.07 0.67 , 0.96 0.67

870.42 (17.8) (0.037)

MCO

VI

Consumo Renta R



 

      

 

 

      

MCO

VI

CO IN RE

CO 1794.34 584.89 2379.23 IN 584.89 285.53 870.42 RE 2379.23 870.42 3249.65

(8)

VI = MC2E renta = 

₀

+ 

₁

invers+v

• El método VI funciona porque el instrumento recoge solo la variación de la renta que no está correlacionada con el error…

• Para verlo explicaremos el método de MC2E que, en este contexto, es equivalente a VI

• La estimación MCO de la ecuación hace la separación ya que 𝑟𝑒𝑛𝑡𝑎 no está correlada con . Esta es la denominada ecuación de la forma reducida y es la primera etapa del método

• En en la segunda etapa, en lugar de ^consu=^₀⁺^₁^renta+^, estimamos, por MCO, para obtener el estimador VI,

• Es claro el nombre de Mínimos Cuadrados en dos Etapas

0 1

ˆ ˆ

renta   invers

bˆ₁^VI ⁰ ¹

consu    renta u

(9)

Equivalencia de VI y MC2E (en este caso)

• Para ver porqué MC2E proporciona el mismo estimador que VI, consideremos las ecuaciones,

• Con los datos de toda la población podemos escribir,

0 1

( )

renta invers v forma reducida consu renta forma estructural

 

  

  

0 1

1 2

0 1

0 1 1

1

0 1 1

ˆ ˆ

ˆ ( )

ˆ ˆ

ˆ ˆ ( )

ˆ ˆ ˆ

ˆ ˆ ˆ ˆ ˆ

t t t t

t t t

t t t t t t t VI

t t t t t t t

c r c i

r r i

c c i c i c i

r r i r i r i

  

 

  

   

  



    



 

   

(10)

Proxy e instrumento

• Una proxy para una variable omitida, no puede emplearse como instrumento

• Por ejemplo, en

• La variable coeficiente de inteligencia puede ser una buena proxy para habilidad, pero no podría emplearse como

instrumento en,

• porque si el modelo verdadero es el primero, v incluiría la habilidad correlacionada con el coeficiente de inteligencia que, por tanto, incumpliría la condición de exogeneidad

0 1 2

salario   estudios habilidad 

0 1

salario    estudios v

(11)

Modelo VI general

 El caso anterior es el más sencillo. En un modelo general,

(3) suele denominarse ecuación estructural

 Distinguimos cuatro tipos de variables en este contexto:

 La variable a explicar o propiamente endógena, Y_0i

 Los r regresores exógenos, X_ri

 Los k regresores endógenos, Y_ki

 Los m instrumentos Z_i: no están en (3), pero habrán de usarse

0_i 0 1 1_i ... _r _ri _r 1 1_i ... _{r k ki} _i

Y    X   X  _Y   _ Y  ₍₃₎

(12)

Modelo VI general

 En el modelo general,

además de la ecuación estructural, tendremos que



emplear también k ecuaciones de la forma reducida:

 O sea: cada explicativa endógena se regresa en los regresores exógenos y los instrumentos

0_i 0 1 1_i ... _r _ri _r 1 1_i ... _{r k ki} _i

Y    X   X  _Y   _ Y  ₍₃₎

1 10 11 1 12 2 1 1· 1 1 1·

0 1 1 2 2 · 1 1 ·

... ...

...

... ...

i i i r ri r i r m mi

ki k k i k i kr ri k r i k r m mi

Y X X X Z Z

     

 

       

(13)

Modelo VI general: identificabilidad

 Cuando, como sucede en (3), hay varios regresores endógenos, necesitaremos más de un instrumento …

 Siendo k el nº de regresores endógenos, si llamamos m al nº de instrumentos, caben las siguientes posibilidades:

 m = k, los coeficientes están exactamente identificados

 m > k, los coeficientes están sobreidentificados

 m < k, los coficientes están subidentificados

 Solo en los dos primeros casos podemos llevar a cabo la estimación por VI (MC2E)

(14)

Modelo VI general: un regresor endógeno

 Supongamos que solo hay un regresor endógeno

 Si disponemos de un solo instrumento, Z₁,contrastamos su validez a partir de la forma reducida,

 El instrumento es válido (relevancia) si se rechaza H₀:_r+1=0

 Si hubiese dos instrumentos, la forma reducida sería,

 Si podemos rechazar H₀:_r+1= _r+2=0 ambos instrumentos serían conjuntamente relevantes (basta que uno de los  sea no nulo para disponer de un instrumento válido)

0_i 0 1 1_i ... _r _ri _r 1 1_i _i

Y    X   X  _Y 

1_i 0 1 1_i ... _r _ri _r 1 1_i _i

Y   X   X  _ Z u

1_i 0 1 1_i ... _r _ri _r 1 1_i _r 2 2_i _i

Y   X   X  _ Z  _ Z u

(15)

Más de un regresor endógeno

 Cuando hay más de un regresor endógeno necesitamos como mínimo que m = k (condición de orden)

 Pero esta condición, aunque necesaria, ya no es suficiente para garantizar la identificabilidad

 La condición suficiente o condición de rango, exige que la matriz de los , formada por todos los coeficientes de las variables instrumentales en las distintas formas reducidas, debe tener un rango igual o mayor que el número de

regresores endógenos (k)

(16)

Más de un regresor endógeno: ejemplo

 Como ejemplo de la condición de rango, sea la ecuación,

 donde hay dos regresores endógenos. Supongamos que se dispone de dos instrumentos, Z₁ y Z₂.

 Se cumple por tanto la condición de orden dado que m=k=2

 Para verificar la condición de rango estimamos la formas reducidas,

 Como tiene rango 2, igual al número

de regresores endógenos, se cumple la condición de rango

0i 0 1 1i 1 1i 2 2i i

Y    X  Y  Y 

1 1 1 2

2 1 1 2

ˆ 3 4 3 2

ˆ 1 2 2

i i i i

Y X Z Z

   

    

3 2

1 2

 _{ }^ ^ ^_

 

(17)

Más de un regresor endógeno: ejemplo

 Supongamos ahora que disponemos de tres instrumentos, Z₁ Z₂ y Z₃ y que la estimación de las formas reducidas es,

 m > k por lo que se cumple la condición de orden, pero

 Y ninguna de las matrices 2x2 que pueden formarse, es de rango igual a 2: no se cumple la condición de rango

1 1 1 2 3

2 1 1 2 3

ˆ 2 3 2 2

ˆ 1 3 2 / 3 2 / 3

i i i i i

Y X Z Z Z

    

3 2 2

1 2 / 3 2 / 3

 _{ }^ ^ ^_

  

(18)

Distribución muestral del estimador VI

 Los supuestos de la regresión VI son similares a los conocidos.

 Partiendo del modelo,

0_i 0 1 1_i ... _r _ri _r 1 1_i _i

Y    X    X   _ Y 

1) Exogeneidad: E(ε_i|X_1i, …, X_ri)= 0

2) (X_1i, …, X_ri, Y_1i, …, Y_ki) es una muestra aleatoria iid de la población

3) Grandes atípicos poco probables (momentos de orden cuatro finitos y mayores que cero)

4) Se cumplen las condiciones de validez de los instrumentos

(19)

Distribución muestral del estimador VI

 En estas condiciones el estimador VI (MC2E) es consistente (pero no insesgado) y se distribuye de forma asintóticamente normal

 La inferencia puede llevarse a cabo del modo habitual

 La fórmula para el cálculo de las varianzas y covarianzas de los estimadores es bastante más complicada,

 

¹ ¹ ¹ ¹ ¹

2

var ˆ ( ) ( )

con , y [ ' ]

MC2E

XZ ZZ ZX XZ ZZ ZZ ZX XZ ZZ ZX

XZ ZZ E i

n n 

    

 

  

β Q Q Q Q Q Q Q Q Q Q X'Z Z'Z

Q Q Ω ZZ

(20)

La regresion VI y la endogeneidad

 El método VI (o MC2E) se puede usar siempre que algún X_i no sea exógeno, cualquiera que sea la causa …

 El particular, si hay simultaneidad … En este contexto, si solo disponemos de datos de P_t y Q_t, tendríamos,

0_i 0 1 1_i ... _r _ri _r 1 1ˆ_i _i

Y    X    X  _ Y  Q_i

P_i

• No se mantiene la exogeneidad

• Si estimamos una curva, puede ser tanto a la oferta como a la demanda

• La solución está en disponer de un instrumento

• La lluvia influye en la ecuación de oferta, pero no en la de demanda

• Fijada la ecuación de oferta, puede obtenerse la de demanda

(21)

Contraste de endogeneidad

 Para saber si hay problemas de endogeneidad disponemos del test de Hausman.

 Por ejemplo, con un solo regresor endógeno,

 Procedemos de la siguiente forma:

 Estimamos la forma reducida de Y₁ y salvamos los residuos, û

 Introducimos û en la ecuación estructural,

 Si el coeficiente  es significativo, Y₁ es un regresor endógeno

 Los  en la segunda ecuación son los estimadores MC2E

0_i 0 1 1_i ... _k _ki _k 1 1_i _i

Y    X   X  _Y 

0_i 0 1 1_i ... _k _ki _k 1 1_i ˆ _i

Y    X   X  _Y u



(22)

Validez de los instrumentos

Relevancia, [cov(Z_i, X_i)  0]

cov(Z_i, X_i) ha de ser elevada. En otro caso instrumento débil

Puede contrastarse a partir de la forma reducida. Una regla

práctica es que la F de la forma reducida sea mayor que 10; si no el instrumento(s) sería(n) débil(es)

Exogeneidad, [cov(Z_i, _i) = 0]

No es contrastable con un solo instrumento (_i desconocido)

Con más de un instrumento, el contraste de sobreidentificación de restricciones sirve para ver si al menos uno de ellos es exógeno (incorrelado con _i)

(23)

Test de sobreidentificación de restricciones

Sea la ecuación y supongamos que disponemos de dos instrumentos ^Z_1i y ^Z_2i para ^Y_2i.

 Podemos estimar Y_1i usando Z₁ y obtener

 A continuación podemos contrastar si Z₂ y están correlados

 Estimando Y_1i con Z₂, podemos contrastar también corr(Z₁, )

En el test de restricciones de sobreidentificación, se contrasta si todos los instrumentos son exógenos. Solo puede llevarse a cabo en ecuaciones con más instrumentos que regresores endógenos

 Estimar por MC2E Y_1i usando todas las VI y obtener

 Regresar en las exógenas y los instrumentos y obtener R²

 J=mF ²(mk); H₀: todas las VI incorreladas con _i (m: nº instrumentos, k : nº explicativas endógenas)

 Si H₀ no se puede rechazar, al menos un instrumento es exógeno

1i 0 1 2i 1 1i 2 2i i

Y   Y  X  X  ˆ_i

 ˆ_i



ˆ_i



ˆ_i

 ˆ_i



(24)

Validez de los instrumentos. Ejemplo

Consideremos la ecuación de salarios,

La estimación MCO es,

Es decir, un año más de educación supone un incremento salarial del11%. Sospechamos que educ es endógeno. Tenemos dos

instrumentos Z₁ (educación de la madre) y Z₂(educación del padre). El test de Hausman confirma la sospecha,

2

0 1 2 3

lsal    educ exper exper 

0.522 0.107 0.04 .0008 2

(0.19) (0.014) (0.013) (.0004) lsal    educ exper exper

2 ˆ

0.011 0.064 0.046 .0009 0.06

(0.36) (0.029) (0.013) (.0004) (0.03)

lsal    educ exper exper  u

(25)

Validez de los instrumentos. Ejemplo

Comprobamos la validez de los instrumentos Condición de relevancia,

Ambos instrumentos son individualmente significativos en la forma reducida y el contraste de significatividad conjunto arroja una valor para la F, muy elevado (mucho mayor que 10).

2

1 2

0 3 4

8.34 0.08 0.001 0.19 0.18

(0.27) (0.025) (0.0008) (.026) (0.024)

: 0, 124

educ exper exper Z Z

H   F

    

  

(26)

Validez de los instrumentos. Ejemplo

Comprobamos la validez de los instrumentos Condición de exogeneidad,

Salvamos los errores estimados de la ecuación MC2E empleando los dos instrumentos y obtenemos:

Por tanto el estadístico de contraste es:

J = mF =2·0.187 = 0.357

Al 5% , ² con 2 g.l. es 5.99. Por tanto no se puede rechazar la hipótesis nula: al menos uno de los instrumentos es exógeno

5 7 2 2

1 2

0.01 1.8 7.34 0.007 0.006 , .00088, 0.187, 428

(0.14) (0.013) (0.0004) (.012) (0.011)

exper exper Z R F N

   ^  ^     

(27)

Validez de los instrumentos. Ejemplo

La estimación MC2E es,

Un año más de educación supone un incremento de salario del 6.1% (con MCO habíamos obtenido un 11%)

Dependent Variable: LWAGE Method: Two-Stage Least Squares Date: 04/06/19 Time: 14:56 Sample (adjusted): 1 428

Included observations: 428 after adjustments Instrument specification: EXPER EXPERSQ Z1 Z2 Constant added to instrument list

Variable Coefficient Std. Error t-Statistic Prob.

C 0.048100 0.400328 0.120152 0.9044

EDUC 0.061397 0.031437 1.953024 0.0515

EXPER 0.044170 0.013432 3.288329 0.0011

EXPERSQ -0.000899 0.000402 -2.237993 0.0257 R-squared 0.135708 Mean dependent var 1.190173 Adjusted R-squared 0.129593 S.D. dependent var 0.723198 S.E. of regression 0.674712 Sum squared resid 193.0200 F-statistic 8.140709 Durbin-Watson stat 1.945659 Prob(F-statistic) 0.000028 Second-Stage SSR 212.2096

J-statistic 0.374538 Instrument rank 5

Prob(J-statistic) 0.540541

instrumentales Regresión con variables

Regresión con variables instrumentales

Tema 9

Introducción

 Cuando el supuesto de exogeneidad no se cumple, los estimadores MCO son sesgados e inconsistentes

 El método de Variables Instrumentales (VI) permite, bajo determinadas condiciones, obtener estimadores

consistentes de los parámetros …

 Para presentar el método recurrimos a un ejemplo:

pero la habilidad no es observable.

Introducción

 Sabemos que excluir la variable y estimar la ecuación

viola el supuesto de exogeneidad lo produce sesgo e inconsistencia (a no ser

 La solución de emplear variables proxy puede ser buena si disponemos de ellas, pero no siempre es el caso

 Pero, aún sin proxy, podríamos estimar de forma

consistente 

y 

, si disponemos de un instrumento o

Condiciones del instrumento

Obtención del estimador VI

Obtención del estimador VI

Las estimaciones MCO y VI pueden ser muy diferentes.

Estimar la ecuación Consumo = 

+ 

Renta_D +  , plantea

problema de endogeneidad (causalidad simultánea). Como instrumento de la Renta propuso la Inversión .

Obtención del estimador VI

VI = MC2E renta = 

+ 

invers+v

Equivalencia de VI y MC2E (en este caso)

Proxy e instrumento

Modelo VI general

 El caso anterior es el más sencillo. En un modelo general,

(3) suele denominarse ecuación estructural

 Distinguimos cuatro tipos de variables en este contexto:

Modelo VI general

 En el modelo general,

además de la ecuación estructural, tendremos que

emplear también k ecuaciones de la forma reducida:

 O sea: cada explicativa endógena se regresa en los regresores exógenos y los instrumentos

Modelo VI general: identificabilidad

 Cuando, como sucede en (3), hay varios regresores endógenos, necesitaremos más de un instrumento …

 Siendo k el nº de regresores endógenos, si llamamos m al nº de instrumentos, caben las siguientes posibilidades:

 Solo en los dos primeros casos podemos llevar a cabo la estimación por VI (MC2E)

Modelo VI general: un regresor endógeno

Más de un regresor endógeno

Más de un regresor endógeno: ejemplo

Más de un regresor endógeno: ejemplo

Distribución muestral del estimador VI

Distribución muestral del estimador VI

 

La regresion VI y la endogeneidad

Contraste de endogeneidad

Validez de los instrumentos

Test de sobreidentificación de restricciones

Validez de los instrumentos. Ejemplo

Validez de los instrumentos. Ejemplo

Validez de los instrumentos. Ejemplo

Validez de los instrumentos. Ejemplo

₊ 

Renta_D +  , ^plantea

problema de endogeneidad (causalidad simultánea). Como instrumento de la Renta propuso la Inversión ^.