PROPIEDADES DEL ESTIMADOR MCO
S. Álvarez, A. Beyaert, M. Camacho, M. González, A. Quesada
Departamento de Métodos Cuantitativos para la Economía y la Empresa
1. El valor esperado del estimador MCO
1.1 Supuestos necesarios para la insesgadez
1.2 Errores de especificación e insesgadez del estimador MCO
2. La varianza del estimador MCO y su estimación
2.1 La varianza del estimador MCO
2.2 Multicolinealidad fuerte y varianzas MCO
2.3 El estimador de la varianza del estimador MCO 2.4 Varianzas en modelos mal especificados
3. Optimalidad del estimador MCO
3.1 Supuestos necesarios
3.2 El Teorema de Gauss-Markov
4. Consistencia del estimador MCO
4.1 Introducción
4.2 Supuestos necesarios 4.3 Teorema
Bibliografía básica: Wooldridge, 2006, cap. 3 y 5
1.1 Supuestos necesarios para la insesgadez
• Propiedad de insesgadez:
• E
( )
βˆ j es una medida de posición del estimadorE(
βˆj / x , x ,11 21 ⋯, x( k 1) N− , xkN)
= βj, j= 0,1,⋯, k• El estimador MCO de los coeficientes poblacionales es insesgado si se cumplen ciertos supuestos:
– RLM.1 Modelo lineal en los parámetros – RLM.2 Muestreo aleatorio
– RLM.3 Media condicionada nula:
– RLM.4 No multicolinealidad perfecta
(“RLM”=Regresión Lineal Múltiple)
0, 1, , k
β β ⋯ β
( ) ( )
i 11 21 (k 1) N kN i
i
E( x , x , , x , x ) E
E 0
ε − = ε
ε =
⋯
i 1, , N
∀ = …
1.1 Supuestos necesarios para la insesgadez
• RLM.1 Modelo lineal en los parámetros
Supuesto bastante flexible: permite usar funciones de las variables
0 1 1 k k
y = β + β x + + β⋯ x + ε
de interés Ejemplo:
2
0 1 2 3
log(salario) = β + β educ+ β exp er + β exp er + ε
¿Cómo se interpretan los coeficientes de este ejemplo?
1.1 Supuestos necesarios para la insesgadez
• RLM.2 Muestreo aleatorio
Los datos necesarios para estimar el modelo se han obtenido por muestreo aleatorio
Por tanto, los datos y el error de la observación “i” y de la observación “h” son independientes
i 0 1 1i k ki i
y = β + β x + + β⋯ x + ε i =1,⋯, N
i h
cov( , ) 0 i h con i, h 1, , N
⇒ ε ε = ∀ ≠ = ⋯
1.1 Supuestos necesarios para la insesgadez
• RLM.3 Media condicionada nula
El valor esperado del error, condicionado a las explicativas, es igual al valor esperado no condicionado, y vale cero
( )
i 11 21 ( k 1) N kN i
E( x , x , , x − , x ) E i 1, , N (RLM.3a)
ε = ε ∀ =
⋯ ⋯
exogeneidad estricta
incorrelacionado con las N observaciones de cada una de las explicativas
media nula
( )
i 11 21 ( k 1) N kN i
E i 0 i 1, , N (RLM.3b)
−
ε = ∀ =
⋯ ⋯
⋯
εi
(RLM.3a) ≡
(RLM.3b) ≡
⇒
• exogeneidad débil :
incorrelacionado con la observación i-ésima de cada una de las explicativas
• Con muestreo aleatorio, exogeneidad débil exogeneidad estricta
1.1 Supuestos necesarios para la insesgadez
i 1i 2i ki i
E(ε x , x ,⋯, x ) = ε ∀E( ) i con i =1,⋯, N
εi
⇒
• Con muestreo aleatorio, exogeneidad débil exogeneidad estricta
▫ RLM.2
Por tanto: ▫ Exogeneidad débil RLM.3
▫ RLM.3b
• Si no hay exogeneidad débil, por lo menos una explicativa, , está correlacionada con , y esta variable explicativa es endógena.
⇒
⇒
xji
εi
1.1 Supuestos necesarios para la insesgadez
• RLM.4 No multicolinealidad exacta
En la muestra ninguna de las variables explicativas es constante, y no existen relaciones lineales exactas entre las explicativas
• se refiere sólo a las variables explicativas en la muestra.
• No excluye cierta correlación -no perfecta- entre las explicativas
.
¿Puede cumplirse el supuesto RLM.4 en este ejemplo?
2
0 1 2 3
log(salario) = β + β educ+ β exp er+ β exp er + ε
1.1 Supuestos necesarios para la insesgadez
• Si hay multicolinealidad exacta, no es posible obtener el estimador MCO porque no está bien definido
• ¿Por qué?
Ejemplo: y = β + β x + β x + ε Ejemplo:
• En general, la multicolinealidad exacta se debe a un error del analista
donde = residuo de regresar sobre , y un término constante
es la parte de no relacionada con pero si (multicolinealidad exacta): r1i = ∀0 i
x1
x1 x2
x2
i 0 1 1i 2 2i i
y = β + β x + β x + ε
1i 2i
x = kx
r1i N
1i i i 1
1 N
2 1i i 1
r y ˆ
r
=
=
β =
∑
∑
1.1 Supuestos necesarios para la insesgadez
• Teorema de insesgadez
Bajo los supuestos RLM.1 a RLM.4,
para cualquiera de los valores del coeficiente poblacional.
(
ˆj 11 21 ( k 1) N kN)
jE β / x , x ,⋯, x − , x = β , j= 0,1,⋯, k
• Los estimadores MCO son estimadores insesgados de los coeficientes poblacionales
• No se puede hablar de la insesgadez de una estimación, sino del estimador.
• Demostración: Wooldridge p. 54 para modelo de regresión simple
Nota: Todas las esperanzas y varianzas están condicionadas a los valores muestrales de las variables explicativas, pero para simplificar notación en las ecuaciones del resto del tema no aparece dicha condición, salvo cuando sea útil.
1.2 Errores de especificación e insesgadez del MCO
• Dos tipos frecuentes de error de especificación:
– Inclusión de irrelevantes:
una (o más) variable(s) explicativa(s) incluida(s) no tiene(n) ningún efecto sobre la variable dependiente del modelo => modelo sobreespecificado
sobreespecificado
– Omisión de relevantes:
se omite una (o más) variable(s) explicativa(s) que sí tiene(n) efecto sobre la variable dependiente del modelo => modelo subespecificado
• Tienen efectos distintos sobre la insesgadez
1.2 Errores de especificación e insesgadez del MCO
• Efecto de la inclusión de irrelevantes:
i 0 1 1i i
i 0 1 1i 2 2i i 2
i 0 1 1i 2 2i
y x ,
y x x 0
y x x
modelo verdadero: cumple RLM.1-RLM.4 modelo planteado:
modelo estimado:
= β + β + ε
= β + β + β + ε ⇒β =
= β + βɶ ɶ + βɶ ɶ
• Se siguen cumpliendo RLM.1-RLM.4
la inclusión de irrelevantes no afecta a la insesgadez
( )
j j jE j 0,1, 2
⇒ β = β ∀ =ɶ ∀β
( ) ( ) ( )
0 0
1 1
2 2
E E
E 0
β = β
⇒ β = β
β = β =
ɶ ɶ ɶ
• Efecto de la omisión de relevantes:
i 0 1 1i 2 2i i 2
i 0 1 1i i i 2 2i i
i 0 1 1i
y x x , 0,
y x x ,
y x
= β + β + β + ε β ≠
= β + β + ν ⇒ν = β + ε
= β + βɶ ɶ ɶ
modelo verdadero: cumple RLM.1-RLM.4
modelo planteado: puede fallar RLM.3
modelo estimado:
1.2 Errores de especificación e insesgadez del MCO
• Usando el modelo verdadero,
• Pero con el modelo mal especificado:
( ) ˆ1 1
E β = β
Sesgo de mala
especificación, función de:
cov. muestral entre y (si no es cero, falla RLM.3)
β2
x
1x
2N
1i 1 2i 2
i 1
1 1 2 N
2
1i 1
i 1
(x x )(x x ) E( )
(x x )
=
=
− −
β = β + β
−
∑
∑
ɶ
• ¿Por qué?
1.2 Errores de especificación e insesgadez del MCO
( )
1i 1 i 1i 1 1 1i 1 2 2i 2 i
1 2 2
1i 1 1i 1
1i 1 2i 2 1i 1 i
1 2 2 2
(x x )(y y) (x x ) (x x ) (x x ) ( )
(x x ) (x x )
(x x )(x x ) (x x )( )
(x x ) (x x )
− − − β − + β − + ε − ε
β = =
− −
− − − ε − ε
= β + β +
− −
∑ ∑
∑ ∑
∑ ∑
∑ ∑
ɶ
• No sólo es importante el signo del sesgo sino también el tamaño del mismo.
1 2 2 2
1i 1 1i 1
(x x ) (x x )
= β + β +
− −
∑ ∑
( )
1 1 2 1i 1 2i 2 2 1i 1 i 21i 1 1i 1
1i 1 2i 2
1 2 2
1i 1
(x x )(x x ) (x x )( )
E E
(x x ) (x x )
(x x )(x x ) (x x )
− − − ε − ε
β = β + β + =
− −
− −
= β + β
−
∑ ∑
∑ ∑
∑
∑
ɶ
1.2 Errores de especificación e insesgadez del MCO
• Ejemplo: salario en función del nivel de estudios y de la habilidad Modelo verdadero (estimado):
Modelo planteado (estimado): salɶ i = β + βɶ0 ɶ1nei
( )
β = βɶ∑
(nei −ne)(habili − habil)i ˆ0 ˆ1 i ˆ2 i
salˆ = β + β ne + β habil
• Es probable que y también
• Por tanto:
o Sobreestimación de
o Sobrevaloración del impacto de ne sobre sal
( )
1 2 i i 2i
(ne ne)(habil habil) Sesgo
(ne ne)
− −
β = β
−
∑
ɶ
∑
Cov(ne, habil) > 0
β1
1 0, 2 0
β > β >
2.1 La varianza del estimador MCO
• Necesitamos una medida de la dispersión de alrededor del valor central :
• depende de las características del modelo.
ˆ
j( ) ˆ j β V
β
( ) ˆ j
V
β( ) ˆ j
E β
• Característica más simple: Supuesto RLM.5: homoscedasticidad
La varianza del error ( y por tanto de y) es independiente de los valores de las explicativas, y además es constante.
homoscedasticidad ≡ “la varianza del error es constante “
2
i 11 21 (k 1) N kN i
2
i 11 21 ( k 1) N kN i 11 21 ( k 1) N kN
V( x , x , , x , x ) V( ) i 1, , N
V(y x , x , , x , x ) V( x , x , , x , x ) i
−
− −
ε = ε = σ ∀ =
⇒ = ε = σ ∀
⋯ ⋯
⋯ ⋯
2.1 La varianza del estimador MCO
• Homoscedasticidad:
[ ]
y E y / x
x1 x2 x3
(
3)
E y x = x
( 2 )
E y x = x
( 1)
E y x = x
( )
0 1E y / x = β + β x
x
2.1 La varianza del estimador MCO
• Heteroscedasticidad:
[ ]
y E y / x
x1 x2 x3
x
(
3)
E y x = x
( 2 )
E y x = x
( 1)
E y x = x
( )
0 1E y / x = β + β x
2.1 La varianza del estimador MCO
• Teorema de las varianzas muestrales de los estimadores MCO de los coeficientes de los regresores:
Bajo RLM.1 a RLM.5, condicionando a los valores muestrales de las variables explicativas,
, proporcional a la varianza muestral de
R-cuadrado de la regresión de sobre el resto de explicativas y un término constante
( )
j 2 2j j
V ˆ j 1, 2, , k
STC (1 R )
β = σ =
− ⋯
( )
N 2
j ji j
i 1
STC x x
=
=
∑
−x
j2
R
j =x
j2.1 La varianza del estimador MCO
Tres componentes:
• varianza del error : a mayor , mayor
grande, muestra más dispersa estimación menos precisa de las pendientes
σ2
σ2
( )
j 2 2j j
V ˆ j 1, 2, , k
STC (1 R )
β = σ =
− ⋯
ˆ
jV( ) β
σ
2 ⇒• variación muestral de : a mayor , menor
varía mucho más fácil capturar con precisión el efecto ceteris paribus de sus variaciones sobre y
• relación de con las demás explicativas: a menor , menor
muy relacionado con el resto de explicativas más difícil capturar con precisión el efecto ceteris paribus de sus variaciones sobre y
x
jSTC
jV( ) β ˆ
jx
jx
jR
2jV( ) β ˆ
jx
j⇒
⇒
2.2 Multicolinealidad fuerte y varianzas MCO
• Multicolinealidad fuerte ( o multicolinealidad)
existe una correlación alta (no exacta) entre dos o más variables explicativas
• No viola ninguno de los supuestos RLM.1 a RLM.5 ☺☺☺☺
• No viola ninguno de los supuestos RLM.1 a RLM.5 ☺☺☺☺
• Pero genera valores altos de varios => varias (muy) altas fuente de (mucha) imprecisión en las estimaciones
• ¿cómo detectarla? ¿soluciones posibles?
2
R
jV( )
βˆ
j2.2 Multicolinealidad fuerte y varianzas MCO
• Para detectarla:
– Si es entre 2 variables explicativas
• Coeficiente de correlación lineal
• Diagrama de dispersión
– Si es entre más de dos variables explicativas
• los j=1,2,…k
• Para solucionarla:
– Recoger más datos (aumentar N)
– Si no es posible, reducirla eliminando alguna variable menos relevante (problema: ¿cuál es “menos relevante”? ¿reducimos multicolinealidad y dispersión a costa de introducir sesgo? (Ver tema4)
2
Rj
2.3 El estimador de la varianza del estimador MCO
• Necesitamos un estimador insesgado de
2
j 2
j j
V( ) ˆ
STC (1 R ) β = σ
−
desconocido calculable
2 2
E(
i)
σ = ε• Bajo RLM.1 - RLM.5 (demostración: Wooldridge p.62 para modelo de regresión simple)
estimador insesgado de
( )
N 2 i
2 i 1 2 2
e
s E s
N
=K con
= = σ
−
∑
2
j j 2
j j
ˆ ˆ ˆ s V( ) : V( )
STC (1 R )
β β =
−
• Inclusión de irrelevantes:
2.4 Varianzas en modelos mal especificados
i 0 1 1i i
i 0 1 1i 2 2i i 2
i 0 1 1i 2 2i
y x ,
y x x 0
y x x
= β + β + ε
= β + β + β + ε ⇒β =
= β + βɶ ɶ + βɶ ɶ
modelo verdadero: cumple RLM.1-RLM.5 modelo planteado:
modelo estimado:
las varianzas aumentan
se pierde precisión en la estimación
2 1
1 2
1 2
1 1
V( )ˆ
STC
V( ) STC (1 R )
en mod. verdadero
pero en mod. estimado
β = σ
β = σ
− ɶ
• Omisión de relevantes:
2.4 Varianzas en modelos mal especificados
i 0 1 1i 2 2i i 2
i 0 1 1i i i 2 2i i
i 0 1 1i
y x x , 0,
y x x
y x
= β + β + β + ε β ≠
= β + β + ν ⇒ ν = β + ε
= β + βɶ ɶ ɶ
modelo verdadero: cumple RLM.1-RLM.5
modelo planteado: pero se ignora
modelo estimado:
las varianzas estimadas podrían reducirse mayor precisión aparente en la estimación
2
1 2
1 1
2 1
1
ˆ s V( )ˆ
STC (1 R ) ˆ s
V( ) STC
ν
β = −
β =ɶ pero
3.1 Supuestos necesarios
• Hasta ahora, hemos visto:
o RLM.1-RLM.4: necesarios para la insesgadez de MCO o RLM.1-RLM.5: necesarios para la fórmula de V( )βˆj
• RLM.1-RLM.5 = “supuestos de Gauss-Markov”
• Garantizan la optimalidad del estimador MCO.
Recordemos: “estimador óptimo” ≡ estimador de mínima varianza dentro de una clase concreta
3.2 Teorema de Gauss-Markov
• Teorema de Gauss-Markov:
Bajo los supuestos RLM.1-RLM.5, son los estimadores lineales insesgados óptimos (ELIO) de , respectivamente.
0 1 k
ˆ , ˆ , , ˆ β β ⋯ β
0
,
1, ,
kβ β ⋯ β
• Interpretación:
• RLM.1-RLM.5 garantizan que el MCO es el estimador más preciso de entre todos los estimadores lineales e insesgados.
• Si falla un supuesto de RLM.1 a RLM.4 (p.ej. RLM.3 que suele fallar), deja de ser insesgado.
• Si falla RLM.5, existe otro estimador más preciso (ver Tema 6)
4.1 Introducción
• No siempre se cumplen RLM.1-RLM.4 que aseguran insesgadez del MCO (propiedad de muestra finita)
• Pero un estimador debe ser por lo menos consistente: a mayor tamaño muestral, menos probabilidad de que el estimador se aleje del valor poblacional (propiedad asintótica)
Tamaño muestral : T1<T2< …<T∞
Valor poblacional: 4
• Bajo RLM.1-RLM.4, MCO es insesgado y consistente:
(dem. Consistencia Wooldridge p. 183)
• Puede fallar la exogeneidad estricta. Entonces, MCO está sesgado.
4.2 Supuestos necesarios
j j j j
N
ˆ ˆ
E( ) y también p lim( )
β = β →∞ β = β
• Pero con supuestos más débiles, garantizamos por lo menos la consistencia.
• RLM.3’:
( ) ( )
i 1i ' 2i ki i
i
E( x , x , , x ) E i 1, ,i, , N (RLM.3a ')
E 0 i 1, , N (RLM.3b)
ε = ε ∀ =
ε = =
⋯ ⋯ ⋯
⋯
RLM.3a’ : exogeneidad débil
4.3 Teorema
• Teorema de consistencia del estimador MCO:
Bajo los supuestos RLM.1, RLM.3’ y RLM.4,
j j
N
p lim( ) ˆ
→∞ β = β
• No hace falta RLM.2
• La validez práctica de este resultado requiere un tamaño muestral grande
• Nota: con sólo exogeneidad débil, el estimador MCO está sesgado y deja de ser ELIO, y las fórmulas de las varianzas utilizadas ya no sirven.
1. Propiedades de muestra finita del MCO:
Supuestos mínimos que garantizan la insesgadez del MCO
Linealidad en los parámeros, muestreo aleatorio, exogeneidad estricta, no multicolinealidad exacta.
no multicolinealidad exacta.
Efectos de la mala especificación sobre la insegadez:
o Incluir una irrelevante no sesga la estimación MCO
o Omitir una relevante sesga la estimación, y el sesgo es mayor cuanto más relacionada esté la omitida con las incluidas
Varianza del estimador MCO, bajo homoscedasticidad y los supuestos de insesgadez
Cómo estimar esta varianza
Cómo afecta la multicolinealidad fuerte a la precisión de las estimaciones
Cómo la inclusión de irrelevantes y la omisión de relevantes afectan a la
Cómo la inclusión de irrelevantes y la omisión de relevantes afectan a la precisión de la estimación
Los supuestos para que MCO sea óptimo (ELIO)
2. Propiedad asintótica del MCO:
Unos supuestos menos exigentes, para que MCO sea al menos consistente: exogeneidad débil