• No se han encontrado resultados

TEMA 3: PROPIEDADES DEL ESTIMADOR MCO

N/A
N/A
Protected

Academic year: 2021

Share "TEMA 3: PROPIEDADES DEL ESTIMADOR MCO"

Copied!
32
0
0

Texto completo

(1)

PROPIEDADES DEL ESTIMADOR MCO

S. Álvarez, A. Beyaert, M. Camacho, M. González, A. Quesada

Departamento de Métodos Cuantitativos para la Economía y la Empresa

(2)

1. El valor esperado del estimador MCO

1.1 Supuestos necesarios para la insesgadez

1.2 Errores de especificación e insesgadez del estimador MCO

2. La varianza del estimador MCO y su estimación

2.1 La varianza del estimador MCO

2.2 Multicolinealidad fuerte y varianzas MCO

2.3 El estimador de la varianza del estimador MCO 2.4 Varianzas en modelos mal especificados

3. Optimalidad del estimador MCO

3.1 Supuestos necesarios

3.2 El Teorema de Gauss-Markov

4. Consistencia del estimador MCO

4.1 Introducción

4.2 Supuestos necesarios 4.3 Teorema

Bibliografía básica: Wooldridge, 2006, cap. 3 y 5

(3)

1.1 Supuestos necesarios para la insesgadez

• Propiedad de insesgadez:

E

( )

βˆ j es una medida de posición del estimadorE

(

βˆj / x , x ,11 21 , x( k 1) N , xkN

)

= βj, j= 0,1,, k

• El estimador MCO de los coeficientes poblacionales es insesgado si se cumplen ciertos supuestos:

– RLM.1 Modelo lineal en los parámetros – RLM.2 Muestreo aleatorio

– RLM.3 Media condicionada nula:

– RLM.4 No multicolinealidad perfecta

(“RLM”=Regresión Lineal Múltiple)

0, 1, , k

β β ⋯ β

( ) ( )

i 11 21 (k 1) N kN i

i

E( x , x , , x , x ) E

E 0

 ε = ε



 ε =

i 1, , N

∀ = …

(4)

1.1 Supuestos necesarios para la insesgadez

• RLM.1 Modelo lineal en los parámetros

Supuesto bastante flexible: permite usar funciones de las variables

0 1 1 k k

y = β + β x + + β⋯ x + ε

de interés Ejemplo:

2

0 1 2 3

log(salario) = β + β educ+ β exp er + β exp er + ε

¿Cómo se interpretan los coeficientes de este ejemplo?

(5)

1.1 Supuestos necesarios para la insesgadez

• RLM.2 Muestreo aleatorio

Los datos necesarios para estimar el modelo se han obtenido por muestreo aleatorio

Por tanto, los datos y el error de la observación “i” y de la observación “h” son independientes

i 0 1 1i k ki i

y = β + β x + + β⋯ x + ε i =1,⋯, N

i h

cov( , ) 0 i h con i, h 1, , N

⇒ ε ε = ∀ ≠ = ⋯

(6)

1.1 Supuestos necesarios para la insesgadez

• RLM.3 Media condicionada nula

El valor esperado del error, condicionado a las explicativas, es igual al valor esperado no condicionado, y vale cero

( )

i 11 21 ( k 1) N kN i

E( x , x , , x , x ) E i 1, , N (RLM.3a)

 ε = ε ∀ =



⋯ ⋯

 exogeneidad estricta

incorrelacionado con las N observaciones de cada una de las explicativas

 media nula

( )

i 11 21 ( k 1) N kN i

E i 0 i 1, , N (RLM.3b)

 ε = ∀ =



⋯ ⋯

εi

(RLM.3a) ≡

(RLM.3b) ≡

(7)

exogeneidad débil :

incorrelacionado con la observación i-ésima de cada una de las explicativas

• Con muestreo aleatorio, exogeneidad débil exogeneidad estricta

1.1 Supuestos necesarios para la insesgadez

i 1i 2i ki i

E(ε x , x ,⋯, x ) = ε ∀E( ) i con i =1,⋯, N

εi

• Con muestreo aleatorio, exogeneidad débil exogeneidad estricta

▫ RLM.2

Por tanto: ▫ Exogeneidad débil RLM.3

▫ RLM.3b

• Si no hay exogeneidad débil, por lo menos una explicativa, , está correlacionada con , y esta variable explicativa es endógena.

xji

εi

(8)

1.1 Supuestos necesarios para la insesgadez

• RLM.4 No multicolinealidad exacta

En la muestra ninguna de las variables explicativas es constante, y no existen relaciones lineales exactas entre las explicativas

se refiere sólo a las variables explicativas en la muestra.

No excluye cierta correlación -no perfecta- entre las explicativas

.

¿Puede cumplirse el supuesto RLM.4 en este ejemplo?

2

0 1 2 3

log(salario) = β + β educ+ β exp er+ β exp er + ε

(9)

1.1 Supuestos necesarios para la insesgadez

Si hay multicolinealidad exacta, no es posible obtener el estimador MCO porque no está bien definido

• ¿Por qué?

Ejemplo: y = β + β x + β x + ε Ejemplo:

• En general, la multicolinealidad exacta se debe a un error del analista

donde = residuo de regresar sobre , y un término constante

es la parte de no relacionada con pero si (multicolinealidad exacta): r1i = ∀0 i

x1

x1 x2

x2

i 0 1 1i 2 2i i

y = β + β x + β x + ε

1i 2i

x = kx

r1i N

1i i i 1

1 N

2 1i i 1

r y ˆ

r

=

=

β =

(10)

1.1 Supuestos necesarios para la insesgadez

Teorema de insesgadez

Bajo los supuestos RLM.1 a RLM.4,

para cualquiera de los valores del coeficiente poblacional.

(

ˆj 11 21 ( k 1) N kN

)

j

E β / x , x ,⋯, x , x = β , j= 0,1,⋯, k

• Los estimadores MCO son estimadores insesgados de los coeficientes poblacionales

• No se puede hablar de la insesgadez de una estimación, sino del estimador.

• Demostración: Wooldridge p. 54 para modelo de regresión simple

Nota: Todas las esperanzas y varianzas están condicionadas a los valores muestrales de las variables explicativas, pero para simplificar notación en las ecuaciones del resto del tema no aparece dicha condición, salvo cuando sea útil.

(11)

1.2 Errores de especificación e insesgadez del MCO

• Dos tipos frecuentes de error de especificación:

– Inclusión de irrelevantes:

una (o más) variable(s) explicativa(s) incluida(s) no tiene(n) ningún efecto sobre la variable dependiente del modelo => modelo sobreespecificado

sobreespecificado

– Omisión de relevantes:

se omite una (o más) variable(s) explicativa(s) que sí tiene(n) efecto sobre la variable dependiente del modelo => modelo subespecificado

• Tienen efectos distintos sobre la insesgadez

(12)

1.2 Errores de especificación e insesgadez del MCO

• Efecto de la inclusión de irrelevantes:

i 0 1 1i i

i 0 1 1i 2 2i i 2

i 0 1 1i 2 2i

y x ,

y x x 0

y x x

modelo verdadero: cumple RLM.1-RLM.4 modelo planteado:

modelo estimado:

= β + β + ε

= β + β + β + ε ⇒β =

= β + βɶ ɶ + βɶ ɶ

• Se siguen cumpliendo RLM.1-RLM.4

la inclusión de irrelevantes no afecta a la insesgadez

( )

j j j

E j 0,1, 2

⇒ β = β ∀ =ɶ ∀β

( ) ( ) ( )

0 0

1 1

2 2

E E

E 0

 β = β



⇒  β = β

 β = β =



ɶ ɶ ɶ

(13)

• Efecto de la omisión de relevantes:

i 0 1 1i 2 2i i 2

i 0 1 1i i i 2 2i i

i 0 1 1i

y x x , 0,

y x x ,

y x

= β + β + β + ε β ≠

= β + β + ν ⇒ν = β + ε

= β + βɶ ɶ ɶ

modelo verdadero: cumple RLM.1-RLM.4

modelo planteado: puede fallar RLM.3

modelo estimado:

1.2 Errores de especificación e insesgadez del MCO

Usando el modelo verdadero,

• Pero con el modelo mal especificado:

( ) ˆ

1 1

E β = β

Sesgo de mala

especificación, función de:



 cov. muestral entre y (si no es cero, falla RLM.3)

β2

x

1

x

2

N

1i 1 2i 2

i 1

1 1 2 N

2

1i 1

i 1

(x x )(x x ) E( )

(x x )

=

=

− −

β = β + β

ɶ

(14)

• ¿Por qué?

1.2 Errores de especificación e insesgadez del MCO

( )

1i 1 i 1i 1 1 1i 1 2 2i 2 i

1 2 2

1i 1 1i 1

1i 1 2i 2 1i 1 i

1 2 2 2

(x x )(y y) (x x ) (x x ) (x x ) ( )

(x x ) (x x )

(x x )(x x ) (x x )( )

(x x ) (x x )

− − − β − + β − + ε − ε

β = =

− −

− − − ε − ε

= β + β +

− −

∑ ∑

∑ ∑

∑ ∑

∑ ∑

ɶ

• No sólo es importante el signo del sesgo sino también el tamaño del mismo.

1 2 2 2

1i 1 1i 1

(x x ) (x x )

= β + β +

− −

∑ ∑

( )

1 1 2 1i 1 2i 2 2 1i 1 i 2

1i 1 1i 1

1i 1 2i 2

1 2 2

1i 1

(x x )(x x ) (x x )( )

E E

(x x ) (x x )

(x x )(x x ) (x x )

 − − − ε − ε 

β = β + β +  =

− −

 

 

− −

= β + β

∑ ∑

∑ ∑

ɶ

(15)

1.2 Errores de especificación e insesgadez del MCO

• Ejemplo: salario en función del nivel de estudios y de la habilidad Modelo verdadero (estimado):

Modelo planteado (estimado): salɶ i = β + βɶ0 ɶ1nei

( )

β = βɶ

(nei ne)(habili habil)

i ˆ0 ˆ1 i ˆ2 i

salˆ = β + β ne + β habil

• Es probable que y también

• Por tanto:

o Sobreestimación de

o Sobrevaloración del impacto de ne sobre sal

( )

1 2 i i 2

i

(ne ne)(habil habil) Sesgo

(ne ne)

− −

β = β

ɶ

Cov(ne, habil) > 0

β1

1 0, 2 0

β > β >

(16)

2.1 La varianza del estimador MCO

Necesitamos una medida de la dispersión de alrededor del valor central :

• depende de las características del modelo.

ˆ

j

( ) ˆ

j

β V

β

( ) ˆ

j

V

β

( ) ˆ

j

E β

• Característica más simple: Supuesto RLM.5: homoscedasticidad

La varianza del error ( y por tanto de y) es independiente de los valores de las explicativas, y además es constante.

homoscedasticidad ≡ “la varianza del error es constante “

2

i 11 21 (k 1) N kN i

2

i 11 21 ( k 1) N kN i 11 21 ( k 1) N kN

V( x , x , , x , x ) V( ) i 1, , N

V(y x , x , , x , x ) V( x , x , , x , x ) i

ε = ε = σ ∀ =

⇒ = ε = σ ∀

⋯ ⋯

⋯ ⋯

(17)

2.1 La varianza del estimador MCO

• Homoscedasticidad:

[ ]

y E y / x

x1 x2 x3

(

3

)

E y x = x

( 2 )

E y x = x

( 1)

E y x = x

( )

0 1

E y / x = β + β x

x

(18)

2.1 La varianza del estimador MCO

• Heteroscedasticidad:

[ ]

y E y / x

x1 x2 x3

x

(

3

)

E y x = x

( 2 )

E y x = x

( 1)

E y x = x

( )

0 1

E y / x = β + β x

(19)

2.1 La varianza del estimador MCO

Teorema de las varianzas muestrales de los estimadores MCO de los coeficientes de los regresores:

Bajo RLM.1 a RLM.5, condicionando a los valores muestrales de las variables explicativas,

, proporcional a la varianza muestral de

R-cuadrado de la regresión de sobre el resto de explicativas y un término constante

( )

j 2 2

j j

V ˆ j 1, 2, , k

STC (1 R )

β = σ =

− ⋯

( )

N 2

j ji j

i 1

STC x x

=

=

x

j

2

R

j =

x

j

(20)

2.1 La varianza del estimador MCO

Tres componentes:

varianza del error : a mayor , mayor

grande, muestra más dispersa estimación menos precisa de las pendientes

σ2

σ2

( )

j 2 2

j j

V ˆ j 1, 2, , k

STC (1 R )

β = σ =

− ⋯

ˆ

j

V( ) β

σ

2

variación muestral de : a mayor , menor

varía mucho más fácil capturar con precisión el efecto ceteris paribus de sus variaciones sobre y

• relación de con las demás explicativas: a menor , menor

muy relacionado con el resto de explicativas más difícil capturar con precisión el efecto ceteris paribus de sus variaciones sobre y

x

j

STC

j

V( ) β ˆ

j

x

j

x

j

R

2j

V( ) β ˆ

j

x

j

(21)

2.2 Multicolinealidad fuerte y varianzas MCO

Multicolinealidad fuerte ( o multicolinealidad)

existe una correlación alta (no exacta) entre dos o más variables explicativas

• No viola ninguno de los supuestos RLM.1 a RLM.5 ☺☺☺☺

• No viola ninguno de los supuestos RLM.1 a RLM.5 ☺☺☺☺

• Pero genera valores altos de varios => varias (muy) altas fuente de (mucha) imprecisión en las estimaciones 

• ¿cómo detectarla? ¿soluciones posibles?

2

R

j

V( )

β

ˆ

j

(22)

2.2 Multicolinealidad fuerte y varianzas MCO

Para detectarla:

– Si es entre 2 variables explicativas

• Coeficiente de correlación lineal

• Diagrama de dispersión

– Si es entre más de dos variables explicativas

• los j=1,2,…k

Para solucionarla:

– Recoger más datos (aumentar N)

– Si no es posible, reducirla eliminando alguna variable menos relevante (problema: ¿cuál es “menos relevante”? ¿reducimos multicolinealidad y dispersión a costa de introducir sesgo? (Ver tema4)

2

Rj

(23)

2.3 El estimador de la varianza del estimador MCO

• Necesitamos un estimador insesgado de

2

j 2

j j

V( ) ˆ

STC (1 R ) β = σ

desconocido calculable

2 2

E(

i

)

σ = ε

• Bajo RLM.1 - RLM.5 (demostración: Wooldridge p.62 para modelo de regresión simple)

estimador insesgado de

( )

N 2 i

2 i 1 2 2

e

s E s

N

=

K con

= = σ

2

j j 2

j j

ˆ ˆ ˆ s V( ) : V( )

STC (1 R )

β β =

(24)

• Inclusión de irrelevantes:

2.4 Varianzas en modelos mal especificados

i 0 1 1i i

i 0 1 1i 2 2i i 2

i 0 1 1i 2 2i

y x ,

y x x 0

y x x

= β + β + ε

= β + β + β + ε ⇒β =

= β + βɶ ɶ + βɶ ɶ

modelo verdadero: cumple RLM.1-RLM.5 modelo planteado:

modelo estimado:

las varianzas aumentan

se pierde precisión en la estimación

2 1

1 2

1 2

1 1

V( )ˆ

STC

V( ) STC (1 R )

en mod. verdadero

pero en mod. estimado

β = σ

β = σ

− ɶ

(25)

• Omisión de relevantes:

2.4 Varianzas en modelos mal especificados

i 0 1 1i 2 2i i 2

i 0 1 1i i i 2 2i i

i 0 1 1i

y x x , 0,

y x x

y x

= β + β + β + ε β ≠

= β + β + ν ⇒ ν = β + ε

= β + βɶ ɶ ɶ

modelo verdadero: cumple RLM.1-RLM.5

modelo planteado: pero se ignora

modelo estimado:

las varianzas estimadas podrían reducirse mayor precisión aparente en la estimación

2

1 2

1 1

2 1

1

ˆ s V( )ˆ

STC (1 R ) ˆ s

V( ) STC

ν

β = −

β =ɶ pero

(26)

3.1 Supuestos necesarios

• Hasta ahora, hemos visto:

o RLM.1-RLM.4: necesarios para la insesgadez de MCO o RLM.1-RLM.5: necesarios para la fórmula de V( )βˆj

• RLM.1-RLM.5 = “supuestos de Gauss-Markov”

Garantizan la optimalidad del estimador MCO.

Recordemos: “estimador óptimo” ≡ estimador de mínima varianza dentro de una clase concreta

(27)

3.2 Teorema de Gauss-Markov

Teorema de Gauss-Markov:

Bajo los supuestos RLM.1-RLM.5, son los estimadores lineales insesgados óptimos (ELIO) de , respectivamente.

0 1 k

ˆ , ˆ , , ˆ β β ⋯ β

0

,

1

, ,

k

β β ⋯ β

• Interpretación:

RLM.1-RLM.5 garantizan que el MCO es el estimador más preciso de entre todos los estimadores lineales e insesgados.

Si falla un supuesto de RLM.1 a RLM.4 (p.ej. RLM.3 que suele fallar), deja de ser insesgado.

Si falla RLM.5, existe otro estimador más preciso (ver Tema 6)

(28)

4.1 Introducción

• No siempre se cumplen RLM.1-RLM.4 que aseguran insesgadez del MCO (propiedad de muestra finita)

Pero un estimador debe ser por lo menos consistente: a mayor tamaño muestral, menos probabilidad de que el estimador se aleje del valor poblacional (propiedad asintótica)

Tamaño muestral : T1<T2< …<T

Valor poblacional: 4

(29)

Bajo RLM.1-RLM.4, MCO es insesgado y consistente:

(dem. Consistencia Wooldridge p. 183)

• Puede fallar la exogeneidad estricta. Entonces, MCO está sesgado.

4.2 Supuestos necesarios

j j j j

N

ˆ ˆ

E( ) y también p lim( )

β = β →∞ β = β

• Pero con supuestos más débiles, garantizamos por lo menos la consistencia.

RLM.3’:

( ) ( )

i 1i ' 2i ki i

i

E( x , x , , x ) E i 1, ,i, , N (RLM.3a ')

E 0 i 1, , N (RLM.3b)

 ε = ε ∀ =



ε = =



⋯ ⋯ ⋯

RLM.3a’ : exogeneidad débil

(30)

4.3 Teorema

Teorema de consistencia del estimador MCO:

Bajo los supuestos RLM.1, RLM.3’ y RLM.4,

j j

N

p lim( ) ˆ

→∞ β = β

• No hace falta RLM.2

• La validez práctica de este resultado requiere un tamaño muestral grande

• Nota: con sólo exogeneidad débil, el estimador MCO está sesgado y deja de ser ELIO, y las fórmulas de las varianzas utilizadas ya no sirven.

(31)

1. Propiedades de muestra finita del MCO:

 Supuestos mínimos que garantizan la insesgadez del MCO

Linealidad en los parámeros, muestreo aleatorio, exogeneidad estricta, no multicolinealidad exacta.

no multicolinealidad exacta.

 Efectos de la mala especificación sobre la insegadez:

o Incluir una irrelevante no sesga la estimación MCO

o Omitir una relevante sesga la estimación, y el sesgo es mayor cuanto más relacionada esté la omitida con las incluidas

(32)

 Varianza del estimador MCO, bajo homoscedasticidad y los supuestos de insesgadez

 Cómo estimar esta varianza

 Cómo afecta la multicolinealidad fuerte a la precisión de las estimaciones

 Cómo la inclusión de irrelevantes y la omisión de relevantes afectan a la

 Cómo la inclusión de irrelevantes y la omisión de relevantes afectan a la precisión de la estimación

 Los supuestos para que MCO sea óptimo (ELIO)

2. Propiedad asintótica del MCO:

 Unos supuestos menos exigentes, para que MCO sea al menos consistente: exogeneidad débil

Referencias

Documento similar

PARA EVITAR HUECOS PELIGROSOS, TODO COLCHÓN UTILIZADO EN ESTA CAMA DEBE SER UN COLCHÓN DE CUNA DE TAMAÑO COMPLETO QUE MIDA POR LO MENOS 131 CM (51 5/8 PULGADA) DE LARGO, 69 CM (27

Los lípidos presentes son sólo uno de los componentes de la nutrición parenteral. Para una nutrición parenteral completa es necesaria la sustitución concomitante con

Com que la resposta de l'estimador en règim permanent està fortament afectada pel soroll no és possible emprar aquesta velocitat directament sense filtre. Si hi col·loquem un

• Se completa el estudio de la localización industrial con otras variables como los costes de mano de obra y las economías de aglomeración. • Son modelos muy simplificados y,

Uno de los episodios de la presencia jesuita de los que quizá menos se sabe, quizá por la modestia tanto en tamaño como por la población atendida, es el de su paso por el archipiélago

“Bajo las hipótesis del modelo clásico, b es un estimador lineal e insesgado de los parámetros del modelo. Además, con independencia de que X sea o no estocástica, b es un

El interesado podrá acudir ante el señor Personero Municipal o a la Defensoría del Pueblo para que se le colabore en la elaboración de su demanda o petición, así como en los

Advi ´ertase que los resultados obtenidos coinciden con el estimador por m´ınimos cuadrados no lineales, por tanto, al igual que antes, no es posible dar una soluci ´on anal´ıtica