Taller de Teoría 2
Fecha de Entrega 23 de Mayo de 2014 Modelo de Regresión Lineal Múltiple
1.
Muestre que el estimador de OLS en general podría estar sesgado cuando omite una variable
del modelo. Muestre que el sesgo del estimador es tal que usted puede expresarlo de la siguiente
forma:
𝐸[𝑏|𝑥] = 𝛽 + 𝛾
𝑐𝑜𝑣(𝑥, 𝑤)
𝑉𝑎𝑟(𝑥)
En un modelo que está correctamente especificado así:
𝑌 = 𝛽𝑥 + 𝛾𝑤 + 𝜀
En el cual la variable omitida es
𝑊
. Suponga que se sigue cumpliendo que
𝐸[𝑋𝜀|𝑋] = 0
.
a.
¿Cómo se interpreta al término
𝛾
𝑐𝑜𝑣(𝑥,𝑤)𝑉𝑎𝑟(𝑥)
?
b.
¿En qué casos la variable omitida no tiene efectos sobre la propiedad de insesgadez del
estimador OLS de
𝛽
? Responda analizando la expresión de la pregunta anterior.
c.
¿De qué depende la magnitud y la dirección del sesgo cuando tengo una variable
omitida en el modelo?
2.
El objetivo de este problema es que usted piense acerca de cómo se determina la varianza de
un estimador particular en un modelo de regresión lineal múltiple. Considere el siguiente
modelo de regresión lineal múltiple.
u x x
y
0
1 1...
k k a. Dada la siguiente expresión
n i ij n i i ij jy
1 2 1ˆ
ˆ
ˆ
Donde
ˆ
ijes el error estimado de la siguiente regresión:i ik k j i j j i j i
ij
x
x
x
x
x
0
1 ,1
...
1 , 1...
1 , 1
...
Encuentre una fórmula para var
j|X
b. Explique porque, ceteris paribus, un incremento en el tamaño de muestra causará, que la varianza del estimador
j se reduzca.c. Explique porque, ceteris paribus, una reducción en la correlación entre las variables explicativas causará que la varianza del estimador
j se reduzca.d. Explique porque, manteniendo
R
2j constante ySCT
j constante, pero permitiendo que ele. Porque, en general, uno podría esperar que incluir en la ecuación de regresión mas determinantes de la variable dependiente y, causará que la varianza del estimador
j seincremente. Bajo qué condiciones específicas la inclusión de nuevas variables explicativas causará que la varianza del estimador
j se reduzca.3. Suponga que usted está estimando un modelo de determinación de precios de vivienda, usted estima un modelo donde los resultados son los siguientes:
PRICEi = 40 + 35.0 LOTi – 2.0 AGEi + 10.0 BEDi – 4.0FIREi + 100 BEACHi (29) (5.0) (1.1) (10.0) (3.0) (9.0)
n = 30, R2 = .63
donde,
PRICEi = Precio de la casa (en miles de dolares) LOTi = Tamaño del lote (en miles de pies cuadrados) AGEi = Edad de la casa en años
BEDi = Número de cuartos
FIREi = Una variable dummy indicando si la casa tiene chimenea (1 = si, 0=No)
BEACHi = Una variable dummy indicando si la casa tiene vista a la playa (1 = si, 0=No)
a. Interprete los coeficientes de las variables LOTi, FIREi, BEACHi
b. Esperaría usted que las variables LOTi, BEDi, BEACHi tengan coeficientes positivos?
Construya test de hipótesis para tal fin y evalúelas a un nivel de significancia del 5%. Indique en cada caso si se rechaza o no la hipótesis nula e interprete en términos del problema cuales son las repercusiones de esta condición.
c. Usted esperaría que la variable AGEi tenga un coeficiente negativo? Construya un test de hipótesis para tal fin y evalúe la hipótesis a un nivel de significancia del 5%. Indique si se rechaza o no la hipótesis nula e interprete en términos del problema cuales son las repercusiones de esta condición.
d. A primera vista usted esperaba que el coeficiente de la variable FIREi tuviese un efecto positivo, pero después de discutir con algunos colegas quienes argumentan que las
chimeneas son difíciles de limpiar e impopulares, ahora usted no está seguro cual puede ser el signo del efecto de la variable FIREi. Construya un test de alternativas bilaterales y evalúe la hipótesis nula a un nivel de significancia del 5%. Indique si se rechaza o no la hipótesis nula e interprete en términos del problema cuales son las repercusiones de esta condición.
4. Modelo de Mínimos cuadrados en su forma Matricial.
El siguiente modelo de regresión múltiple cumple los supuestos de partida:
𝑌𝑖 = 𝛽1+ 𝛽2𝑋2𝑖+ 𝛽3𝑋3𝑖+ 𝛽4𝑋4𝑖+ 𝑈𝑖
∑𝑌𝑖 = 4 ∑𝑋2𝑖𝑌𝑖 = 5 ∑𝑋3𝑖𝑌𝑖 = 0 ∑𝑋4𝑖𝑌𝑖 = 5 ∑𝑌𝑖2= 19.2
𝑋′𝑋 =
16 8 4 −4
8 5 3 0
4 3 6 3
−4 0 3 7
(𝑋′𝑋)−1=
1.59375 −2.25 −0.5 1.125
−2.25 3.5 0.5 −1.5 −0.5 0.5 0.5 −0.5
1.125 −1.5 −0.5 1
Halle:
i. Los estimadores MCO
ii. Obtenga los errores estándar de estimación
iii. Construya intervalos de confianza al 99% para los coeficientes del modelo iv. Construya intervalos de confianza al 95% para 𝛽2+ 𝛽3
v. Determine si cada uno de los coeficientes es significativamente diferente de cero
5. Los siguientes resultados vienen dados de un conjunto de regresiones por el método de mínimos cuadrados ordinarios, de la forma:
𝑌𝑡 = 𝛽1+ 𝛽2𝑋2𝑡+. . . +𝛽𝑘𝑋𝑘𝑡+ 𝑈𝑡
para 𝑡 = 1 … 𝑇
Pregunta: Diga si se puede rechazar o no la hipótesis nula de cada test? Interprete el significado de esta condición en cada caso.
H0 H1 ε β̂1 σ̂β1 n K
a) 𝛽1= 0 𝛽1≠ 0 0.05 2.36 3.01 124 6
b) 𝛽1= 0 𝛽1≠ 0 0.01 -0.3 0.12 33 3
c) 𝛽1= 0 𝛽1> 0 0.05 1.32 0.91 54 8
d) 𝛽1= 0 𝛽1≠ 0 0.01 0.85 0.07 12 3
e) 𝛽1= 0 𝛽1< 0 0.05 0.54 0.31 19 5
Donde
H0: Hipótesis nula H1: Hipótesis alternativa ε: Nivel de significancia
β̂1: Estimación de β1 σ̂β1: Error estándar de β̂1 n: Número de observaciones
Preguntas 6, 7 y 8
Las próximas preguntas están basadas en el siguiente conjunto de regresiones estimadas. Los resultados han sido resumidos en la tabla a continuación. En donde
AHE= Promedio del salario por hora
College= Variable binaria (1 tiene universidad, 0 no tiene universidad)
Female= Variable binaria (1 mujer, 0 hombre)
Age= Edad en años
Ntheast= Variable binaria (1 vive en el noreste del país, 0 otro caso)
Midwest= Variable binaria (1 vive en el medio occidente del país, 0 otro caso)
South= Variable binaria (1 vive en el sur del país, 0 otro caso)
West= Variable binaria (1 vive en el occidente del país, 0 otro caso)
Note además que:
SER= Sumatoria de cuadrado del Error (SCE)
n = Tamaño de la muestra.
7. a. Es la diferencia entre los salarios de hombres y mujeres significativa al 5% en la primera regresión. Construya un intervalo de confianza al 95% de confianza. Interprete el significado del intervalo
b. Es la diferencia entre los individuos con universidad y los que no significativa en la primera regresión. Construya un intervalo de confianza al 95% de confianza. Interprete el significado del intervalo
8. a. Interprete los coeficientes de las regiones, note que la regresión excluye la variable para la región West. (Suponga que las regiones Ntheast, Midwest, South, West describen
exhaustivamente la totalidad del territorio del país en cuestión)
b. Construya un test de hipótesis para rechazar la hipótesis nula de que no existen diferencias regionales en salarios (coeficientes de Ntheast, Midwest, South todos son iguales a cero) Diga si se rechaza o no la hipótesis nula e interprete esta condición.
9. Considere ahora el siguiente modelo:
i i
i ii
i D X D X u
Y
0
1
2 2
3 1 * 2 Donde Di es una variable dummy que toma el valor de 1 para hombre y cero para mujeres. X2i
es una variable continua.
a. Cuál sería el valor de
i i
X Y
2
para los hombres? Explique.
b. Cuál sería el valor de
i i
X Y
2
para las mujeres? Explique.
c. Cuál sería el valor de
i i
D Y
si X2i se mantiene constante? Explique.