Regresión Simple y Múltiple Parte II
Profesor Oscar Millones Borrador, Octubre 12, 2008
Supuestos en el modelo de regresión
• 1.- Para cada valor de X, existe un grupo de valores de Y que tienen una distribución normal. (graficar esta idea)
• 2.- Las medias de estas distribuciones normales de valores de Y deben estar sobre la recta de regresión.
• 3.- Las desviaciones estándar de estas distribuciones normales son iguales.
• 4.- Los valores de Y son estadísticamente independientes. Es decir, que en la selección de una muestra, los valores elegidos de Y para un valor particular de X no depende de los valores de Y para otro valor de X.
Error estándar de regresión
Recordar: Dado el modelo
Y
i=
a
+
bX
i+
u
i, en la muestra se tiene:i i
i
a
b
X
e
Y
=
+
+
∧ ∧
con
Y
ia
b
X
i ∧ ∧ ∧+
=
dondeei
=
Y
i−
Y
∧i es el error de regresiónSe calcularon:
X b Y a x
y x b
i i
i ˆ
ˆ ˆ
2 = −
= ∑
∑ donde
−
−
= X X
xi i ;
−
−
= Y Y
yi i
• El error estándar de la estimación mide la dispersión de los valores
observados
Y
i alrededor de la recta de regresiónY
i ∧, es decir, la
dispersión de los
ei
=
Y
i−
Y
∧i.• Fórmula usada para calcular el error estándar:
Error estándar de regresión
2 2 2
− =
∑
n i e x
y S
Evaluación del modelo de regresión 1 (evaluación global) Tabla ANOVA y el R2
El cuadro o Tabla ANOVA es la colección de tres tipos de varianzas calculadas en el ejercicio de una regresión. Estas varianzas o “suma de cuadrados totales” son:
Suma de Cuadrados Totales (SCT) Suma de Cuadrados Explicados (SCE) Suma de cuadrados Residuales (SCR)
Suma de Cuadrados Totales (SCT)
Si definimos las siguientes variables en términos de sus desviaciones
−
−
= Y Y
yi i
− ∧ ∧
−
=
Y
Y
yi
ientonces,
y
=
y
ˆ
+
e
Esto se puede ver gráficamente así:
Es fácil demostrar que
∑
2 y =∑
∧2
y +
∑
2 e SCT = SCE + SCROsea, la suma de cuadrados totales ∑y2 es igual a la suma de cuadrados
Ordenando estos cálculos del ejercicio se tiene la Tabla ANOVA siguiente
Tabla ANOVA Fuente de
variación
Suma de Cuadrados
gl Cuadrados Medios
Test F Explicada
SCE=
∑
∧ 2 y1
∑
∧ 2y /1 F1,(n-2)
Residual
SCR=
∑
2e n-2
∑
e2/(n-2)Total
SCT
∑
y2 n-1El coeficiente de Determinación R2
“El R2 es la proporción de la variación de Y explicada por la regresión”, es decir cuán bien el modelo de regresión representa a los datos.
Dividiendo la ecuación
∑
2 y =∑
∧2
y +
∑
2 eentre ∑y2 se tiene
∑ ∑ + ∑ ∑ =
∧
y2 e2
y2
2
y
1
Definiendo
SCT
SCE
2
2
2
=
∑
∑
∧
=
y
y
R
y reemplazando arriba se tieneSCT
SCR
R
2
1
=
+
óSCT
SCR
1
2
=
−
R
luego
=
=
=
SCT
SCE
2
R
donde
SCR: Suma de Cuadrados Residuales =
SCT: Suma de Cuadrados Totales de desvíos “y” =
SCE: Suma de Cuadrados Explicada por la regresión “y” en “x” =122.5
Preguntas interesantes
¿Qué pasaría si la variable dependiente fuera constante?
¿Qué significa que un modelo explique el 50% y otro el 90% de la variable de interés observada?
Intervalos de confianza en la predicción (opcional)
Estimados los parámetros con la muestra, puede ser de interés predecir el valor Y0 para algún valor específico X0 . Notar que X0 puede estar dentro o fuera del rango de los valores muestrales.
La predicción será
0
0
b
X
y
a∧
∧
+
=∧
con un error de predicción de = −∧
0 0 0 Y y e
según esto el IC al 5% de la predicción es
)
0
(
025
.
0
0
t
Var
e
y
±
∧
es decir,)
0
(
025
.
0
)
0
(
∧
a
+
∧
b
X
±
t
Var
e
• El intervalo de confianza para el valor medio de Y dado X0 está definido por el IC de arriba pero:
Usando
)
2
2
0
1
(
2
)
0
(
∑
+
=
x
x
n
e
Var
σ
• El intervalo de confianza para un valor individual de Y dado X0 se define por el IC de arriba pero :
Usando
)
2
2
0
1
1
(
2
)
0
(
∑
+
+
=
x
x
n
e
Var
σ
Ejercicio• Con la información del ejemplo de costo de libros:
· calcule el error estándar de la estimación:
2 2 2 − =
∑
n i e x yS = 3.471
· desarrolle un intervalo de confianza de 95% para los libros de 650 páginas: [24.03, 30.25]. Verifique
Evaluación del Modelo de regresión 2 (evaluación individual de factores) Inferencia sobre los parámetros estimados (Prueba t)
Por ilustrar en Lab
Estudiar Reporte de software Por ilustrar en Lab.
Regresión Múltiple
• Para dos variables independientes, la fórmula general de la ecuación de regresión múltiple es:
• X1 y X2 son las variables independientes.
• a es la intercepción en Y.
• b1 es el cambio neto en Y por cada cambio unitario en X1, manteniendo X2 constante.
• Se denomina coeficiente de regresión parcial, coeficiente de regresión neta o bien coeficiente de regresión.
• La ecuación general de regresión múltiple con k varibles independientes es:
• El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación.
• Como estimar b1, b2, etc. es muy tedioso, existen muchos programas de cómputo que pueden utilizarse para estimarlos.
Y
'
=
a
+
b X
1 1+
b X
2 2+ +
. . .
b X
k k2 2 1 1
'
a
b
X
b
X
Test t
• El estadístico de prueba es la distribución t con n - (k + 1) grados de libertad.
Ejemplo
• Un estudio de mercado para la cadena de tiendas autoservicio Super Dollar analiza la cantidad anual que gastan en comida las familias de cuatro o más miembros. Se piensa que tres variables independientes se relacionan con los gastos en comida. Esas variables son: ingreso
familiar total, tamaño de la familia y si la familia tiene hijos en la universidad.
• ¿Qué gastos en comida estima para una familia de 4 integrantes, sin hijos en la universidad y con ingresos de $50,000?
• Y’=954 + 10.9(50) + 748(4) + 565 (0) = 4491.
Ejercicio
• Realice una prueba individual para determinar qué coeficientes son distintos de cero.
• Entonces,
• Para 5% de nivel de significancia, se rechaza H0 si el valor p < .05
Como el valor p =.039 <.05, se rechaza H0 y se concluye que
H
0:
β
2=
0
H
1:
β
2≠
0
Y
'
=
954
+
10 9
.
X
1+
748
X
2+
565
X
3Family Food Income Family College
Expenditure (thousands) Size Student
1 3900 37.6 4 0
2 5300 51.5 5 1
3 4300 51.6 4 0
4 4900 46.8 5 0
5 6400 53.8 6 1
6 7300 62.6 7 1
7 4900 54.3 5 0
8 5300 43.7 4 0
9 6100 60.8 5 1
10 6400 51.3 6 1
11 7400 49.3 6 1
12 5800 56.3 5 0
0
. Esto es, el tamaño de la familia y cantidad gastada en comida tienen una relación significativa.
Test F
• La prueba global se usa para investigar si todas las variables independientes tienen coeficientes significativos.
• Las hipótesis son:
La alternativa es
Ha : al menos uno de los coeficientes de regresión no es cero.
• El estadístico de prueba es la distribución F con k (número de variables independientes) y n - (k + 1) grados de libertad, donde n es el tamaño de la muestra.
Ejercicio
• Realice una prueba global de hipótesis para determinar si alguno de los coeficientes de regresión es distinto de cero.
0
:
1 2 30
β
=
β
=
β
=
H
H1 : al menos una
• H0 se rechaza si F > 4.07
• A partir de la salida del output, el valor del estadístico de prueba calculado es 10.94
• Decisión: como F = 10.94 > 4.07, H0 se rechaza.
• Entonces, no todos los coeficientes de regresión son cero.
0
...
:
1 2 30