Análisis de Regresión Múltiple
Precio de la casa = β0 + β1(Área de la casa) + ε
Pero en general, una variable dependiente depende de más de una variable independiente:
Precio de la casa puede depender de:
Área
Antigüedad
Número de baños Área del garaje Etc.
y = β
0+ β
1x
1+ ε
Regresión Lineal Simple
Regresión Lineal Múltiple
y = β
0+ β
1x
1+ β
2x
2+ ……… + β
px
p+ ε
Para tratar este tipo de problemas se
Modelo de Regresión Múltiple
Vamos a examinar la relación lineal entre una variable dependiente (y) y dos o más variables independientes (xi)
ε
x
β
x
β
x
β
β
y
0
1 1
2 2
k k
i
e
0
1
1i
2
2i
k
ki
i
b
b
x
b
x
b
x
y
Modelo poblacional:
Y-intercepto Pendientes Error aleatorio
Valor de y Pendientes estimadas Modelo de regresión múltiple muestral:
y-intercepto
Modelo de Regresión Múltiple
k
k
2
2
1
1
0
b
x
b
x
b
x
b
yˆ
Valor estimado o
predecido de ŷ Pendientes estimadas
15-6
Modelo de Regresión Múltiple
Modelo de dos variables:
y
x1
x2
2 2 1
1
0
b
x
b
x
b
yˆ
y x1 x2 2 2 1 1
0
b
x
b
x
b
yˆ
yi
yi
<
e = (y – y) <
x2i
x1i La ecuación de mejor ajuste,
y, es hallada minimizando la suma de cuadrados del error, e2
<
Observación muestral
Modelo de Regresión Múltiple
Modelo de dos variables:
Modelo de Regresión Múltiple Poblacional
Los términos de error (ε) son realizaciones estadísticamente
independientes de una variable aleatoria para cada nivel de x.
Para un valor dado de x, pueden existir muchos valores de y, por lo
tanto muchos valores posibles para e. La distribución de los posibles errores del modelo para cualquier nivel de x es normal.
Las distribuciones de los posibles valores de los errores e tienen igual
varianza en cada nivel de x.
Las medias de la variable dependiente y, para todos los valores
especificados de x, pueden ser conectados con una línea la cual es el componente lineal del modelo de regresión poblacional.
Conceptos Básicos para la Construcción de
Modelos
Los modelos son usados para evaluar cambios sin
implementarlos en el sistema real.
Los modelos pueden ser usados para predecir
“outputs” basados en “inputs” específicos.
El proceso de construcción de modelos consiste de 3
Especificación del modelo
Especificación del modelo de regresión poblacional. Recolección de la data muestral.
Formulación o construcción del modelo
Cálculo de los coeficientes de correlación entre las distintas
variables, dependientes e independientes.
Ajuste del modelo a la data. Estimación de la ecuación de
regresión múltiple.
Diagnóstico del modelo
Pruebas estadísticas para determinar la bondad de ajuste del
modelo a la data.
Verificación de los supuestos de regresión múltiple.
Especificación del Modelo
A veces referido como identificación del modelo
Es un proceso para establecer la estructura del modelo
Decidir qué se quiere hacer y seleccionar la variable
dependiente (y).
Determinar las potenciales variables independientes (x) para
el modelo.
Recolectar los datos muestrales (observaciones) para todas
Construcción del Modelo
Es el proceso de construir la ecuación para los datos.
Puede incluir todas o algunas de las variables
independientes (x).
El objetivo es explicar la variación en la variable
Diagnóstico del Modelo
Analizar la calidad del modelo (efectuar las pruebas de
diagnóstico).
Evaluar el grado en que los supuestos se satisfacen.
Si el modelo es inaceptable, iniciar el proceso de construcción
del modelo nuevamente.
Ejemplo
Ejemplo:Especificación del Modelo
Un distribuidor de pies (postres) desea evaluar los factores
que se cree influyen en la demanda
Variable dependiente: Ventas (unidades / semana)
Variables independientes: Precio ($) y Publicidad ($100)
Modelo de Regresión múltiple Poblacional:
Ejemplo: Construcción o Formulación del Modelo
Modelo de Regresión Múltiple (Muestral):
Ventas
j= b
0+ b
1(Precio
j) + b
2(Publicidad
j) + error
jModelo de Regresión Múltiple Lineal
Interpretación de los Coeficientes
Estimados
Pendientes (bi)
Estiman el cambio en el valor promedio de “y” como bi unidades por
cada unidad de incremento en xi manteniendo las otras variables constantes.
Ejemplo: Si b1 = -20, entonces se espera que las ventas promedio (y)
se reduzcan en 20 pies por semana por cada $1 en que se incremente el precio (x1), manteniendo constante la variable publicidad (x2).
y-intercepto (b0)
Estima el valor promedio de y cuando todas las variables xi son
Formulación del Modelo
Los datos que se presentan fueron
Formulación del Modelo
Ventas = b0 + b1 (Precio) + b2 (Publicidad)
Semana Venta de pies Precio ($) Publicidad ($100s)
1 350 5.50 3.3 2 460 7.50 3.3 3 350 8.00 3.0 4 430 8.00 4.5 5 350 6.80 3.0 6 380 7.50 4.0 7 430 4.50 3.0 8 470 6.40 3.7 9 450 7.00 3.5 10 490 5.00 4.0 11 340 7.20 3.5 12 300 7.90 3.2 13 440 5.90 4.0 14 450 5.00 3.5 15 300 7.00 2.7
Matriz de Correlación
Las correlaciones entre la variable dependiente y las
variables independientes seleccionadas pueden obtenerse usando Excel:
Datos / Análisis de datos / Coeficiente de correlation
Puede evaluar la significancia estadística de la correlación
Matriz de Correlación: Ventas de Pies
Ventas vs. Precio : r = -0.44327
Hay una asociación lineal negativa entre las ventas y el precio
Ventas vs. Publicidad : r = 0.55632
Hay una asociación lineal positiva entre las ventas y la publicidad
Ventas de
pies Precio Publicidad
Ventas de pies 1
Precio -0.44327 1
Estimación de la Ecuación de Regresión
Lineal Múltiple
Programas estadísticos (computadora) son
generalmente usados para generar estimados
de los coeficientes y medidas de bondad de
ajuste de la regresión múltiple
Excel:
Datos / Análisis de datos / Regresión
Estimación de la Ecuación de
Regresión Lineal Multiple
Regresión Múltiple: Excel (Resultado)
licidad) 74.131(Pub
cio) 24.975(Pre
-306.526
b1 = -24.975: Las
ventas decrecerán en promedio 24.975 pies por semana por cada $1 incrementado en el precio, manteniendo constante la publici-dad
b2 = 74.131: Las ventas crecerán en promedio 74.131 pies por semana por cada $100 incrementado en publicidad,
manteniendo cons-tante el precio
Donde:
Ventas (número de pies por semana) Precio ($) Publicidad ($100’s) licidad) 74.131(Pub cio) 24.975(Pre -306.526
Ventas
Regresión Múltiple: Excel (Resultado)
(continuación)
Usando el Modelo para hacer Predicciones
Predecir las ventas de una semana en la cual
el precio es $5.50 y la publicidad es $350.
La venta predecida es 428.62 pies
Nota: La publicidad está en $100’s, entonces x2 = 3.5
significa $350 licidad) 74.131(Pub cio) 24.975(Pre -306.526
Ventas
Coeficiente de Determinación Múltiple (R
2)
Reporta la proporción de la variación total en y que
es explicada por todas las variables (juntas) x
consideradas en el modelo
cuadrados
de
total
Suma
regresión
de
cuadrados
de
Suma
SST
SSR
.52148 0
56493.3 29460.0 SST
SSR
R2
El 52.1% de la variación en las ventas es explicada por la variación en los precios y la publicidad
(continuación)
R
2
Ajustado
R
2nunca decrece cuando una nueva variable x es
añadida al modelo
Esto puede ser una desventaja cuando se compara
modelos
¿Cuál es el efecto neto de agregar una nueva
variable?
Se pierde un grado de libertad cuando una nueva
variable x es añadida
¿La nueva variable x aporta suficiente poder
Muestra la proporción explicada de la variación en y por las
variables x’s tomando en cuenta la relación entre el tamaño de muestra y el número de variables independientes (k)
(Donde n = Tamaño muestral, k = Número de variables independientes)
Penaliza el uso excesivo de variables independientes no
importantes
Es más pequeña que el R2
Útil en la comparación entre modelos
(continuación)
1
k
n
1
n
)
R
1
(
1
R
2A 2.44172
0
R
2A
El 44.2% de la variación en las ventas es explicada por la variación en los precios y la publicidad, tomando en cuenta la
relación entre el tamaño de muestra y el número de variables independientes
Diagnóstico del Modelo: Prueba F
(Significancia General)
Prueba F para la significancia del modelo (general)
Muestra sí hay una relación lineal entre todas las
variables x (consideradas en forma conjunta) e y
Usa el estadístico de prueba F
Hipótesis:
H0: β1 = β2 = … = βk = 0 (No hay relación lineal)
HA: Al menos un βi ≠ 0 (Existe relación lineal entre (y)
Estadístico de prueba:
Donde: Los grados de libertad de F son:
gl
numerador= k
gl
denominador= (n – k – 1)
(continuación)
MSE
MSR
1
k
n
SSE
k
SSR
F
6.5386 2252.8
14730.0 MSE
MSR
F
(continuación)
Con 2 y 12 grados de
libertad Valor P para la prueba
H0: β1 = β2 = 0; HA: β1 o β2 es diferente de cero
Conclusión: Hay suficiente evidencia para concluir que el modelo de regresión explica parte de la variación en la venta de pies
(al menos una de las pendientes de regresión no es cero)
0
= 0.05
Rechazar H0 No rechazar H0
6.5386
F
MSE MSR
Valor crítico: F0.05 = 3.885
F
(continuación)
Diagnóstico del Modelo: Prueba F
(Significancia General)
= 0.05 glnumerador= 2 gldenominador = 12
Estadístico de prueba:
Diagnóstico del Modelo:
¿Las Variables Individuales son Significativas?
Usar la prueba t para evaluar la significancia de cada
pendiente
Muestra si hay una relación lineal entre la variable x
ie
y
Hipótesis:
H
0: β
i= 0 (No hay relación lineal)
H
0: β
i= 0 (No hay relación lineal)
H
A: β
i≠ 0 (Existe relación lineal entre x
ie y)
Estadístico de prueba:
(
gl = n – k – 1)i
b
i
s
0
b
t
(continuación)
Diagnóstico del Modelo:
El estadístico de prueba t para el Precio es -2.306 (valor p = 0.0398)
El estadístico de prueba t para la
Publicidad es 2.855 (valor p = 0.0145)
(continuación)
Diagnóstico del Modelo:
g.l. = 15-2-1 = 12
= 0.05
t/2 = 2.1788
H0: βi = 0; HA: βi 0
Excel (Resultado):
Coeficientes Error típico Estadístico t Valor p
Precio -24.97509 10.83213 -2.30565 0.03979 Publicidad 74.13096 25.96732 2.85478 0.01449
Decisión: Para cada variable se rechaza H0
Rechazar H0 Rechazar H0
/2=0.025
-tα/2 No rechazar H0
0 tα/2
/2=0.025
-2.1788
(continuación)
Diagnóstico del Modelo:
¿Las Variables Individuales son Significativas?
2.1788
Intervalo de Confianza para las
Pendientes
El intervalo de confianza para la pendiente poblacional β1 (efecto sobre las ventas de pie respecto a cambios en el precio):
Ejemplo: Las ventas semanales de pies se reducirán entre 1.37 a 48.58 pies por cada incremento de $1 en el precio
i
b
2
/
i
t
s
b
Donde t tieneDesviación Estándar del Modelo de
Regresión
La estimación de la desviación estándar del modelo de
regresión está dada por:
MSE
k
n
SSE
s
1
¿Este valor es grande o pequeño? Para evaluarlo se
La desviación estándar del modelo de regresión es 47.46
(continuación)
La desviación estándar del modelo de regresión es
47.46
Un rango de predicción para las ventas de pies en una
semana se puede aproximar por
Considerando que el promedio muestral de pies por
semana es 399.3, un error de ±94.2 pies es
problablemente
grande
para
ser
aceptado.
El
distribuidor podría querer buscar variables adicionales
que puedan explicar más de la variación en las ventas.
94.2 2(47.46)
(continuación)
Diagnóstico del Modelo:
Multicolinealidad
Multicolinealidad: Es la presencia de correlación entre dos
variables independientes y, por lo tanto, se traslapan.
Incluir dos variables independientes altamente
correlacionadas puede afectar adversamente los resultados de regresión:
No proporciona nueva información.
Puede llevar a coeficientes inestables (error estándar
grande y valores t bajos).
Los signos de los coeficientes podrían no ser coherentes
con nuestras expectativas iniciales y con la matriz de correlación.
(continuación)
Problemas e Indicios de
Multicolinealidad Severa
Signos incorrectos en los coeficientes.
Cambio grande en el valor de un coeficiente como resultado
de agregar una nueva variable al modelo.
Una variable anteriormente significativa se vuelve no
significativa cuando una nueva variable independiente es agregada.
El estimado de la desviación estándar del modelo se
Detección de Multicolinealidad
(Factor de Inflación de Varianza)
VIF
jes usado para medir la colinealidad:
Si VIFj ≥ 5, entonces xj está altamente correlacionado con las otras variables
explicativas
R2
j es el coeficiente de determinación de la
regresión de la jma variable independiente contra
las restantes k – 1 variables independientes
2
1
1
j j
R
VIF
Variables Dummy
El modelo de regresión requiere el uso de variables cuantitativas de ratio (medida de relación entre dos variables cualitativas)
¿Cómo manejar posibles variables categóricas que
frecuentemente se presentan en la explicación de una variable dependiente?
Ejemplo: Género, estado civil, grado de instrucción, tipo de vecindario, etc.
Variables Dummies
Son usadas para incorporar variables explicativas
categóricas al modelo de regresión:
Si o no, masculino o femenino, etc.(variable dummy: 0,
1)
Casado o divorciado o viudo o soltero (variables
15-51
Variables Dummies
El número de variables dummies requerido es
(categorías – 1) por cada variable cualitativa.
A veces llamadas variables indicadoras.
Los interceptos de regresión son diferentes si la
variable es significativa.
Variable Dummy (Dos Niveles) en un Modelo
de Regresión: Ejemplo
Sea:
ŷ = Ventas de pies
x
1= Precio
x
2= Feriado
(X2 = 1 si hay feriado en una semana) (X2 = 0 si no hay feriado en una semana)2 1
0
b
x
b
x
b
Misma
pendiente
(continuación)
x1 (Precio) y (Ventas)
b0 + b2
b0 1 0 1 0 1 2 0 1 0
x
b
b
(0)
b
x
b
b
yˆ
x
b
)
b
(b
(1)
b
x
b
b
yˆ
1 2 1 1 2 1
Feriado No Feriado Interceptos diferentesSi H0: β2 = 0 es
rechazada, entonces
Feriado tiene un efecto significativo sobre las ventas
Ventas: Número de pies vendidos por semana
Precio: Precio del pie en dólares
Feriado:
Regresión, Variable Dummy (Dos Niveles):
Interpretación de Coeficientes
Ejemplo:
1 Si hay feriado en una semana
0 Si no hay feriado en una semana
b
2= 15: En promedio, las ventas en una
semana con feriado son de 15 pies más que
en una sin feriado, manteniendo el mismo
precio
)
15(Feriado
30(Precio)
-300
El número de variables dummies es
una unidad
menos que el número de categorías
Ejemplo:
y = Precio de casa ; x
1= Área (pies cuadrados)
El estilo de la casa se cree que debe ser
conside-rado:
Estilo =
Rancho, condominio, dos niveles
Tres categorías, entonces se requiere dos variables dummies
Regresión, Variables Dummies (Más
es
lo
no
Si
0
niveles
dos
es
Si
1
x
es
lo
no
Si
0
rancho
es
Si
1
3 2x
3 2 10
b
x
b
x
b
x
b
yˆ
1
2
3b2 muestra el impacto sobre el precio si el estilo de
la casa es rancho, comparado a un condominio
b3 muestra el impacto sobre el precio si el estilo de
la casa es dos niveles, comparado a un condominio
(continuación)
Asumamos que la categoría por defecto sea “condominio”
Con la misma área, se estima que un rancho tendrá un
precio promedio de $23.53 (miles) más que un
condominio.
Con la misma área, se estima que un dos niveles tendrá un precio promedio de $18.84 (miles) más que un
condominio.
Supongamos que la ecuación estimada es:
3 2
1
23.53x
18.84x
0.045x
20.43
yˆ
18.84
0.045x
20.43
yˆ
1
23.53
0.045x
20.43
yˆ
1
1
0.045x
20.43
yˆ
Para un condominio: x2 = x3 = 0
Para un rancho: x3 = 0
Para un dos niveles: x2 = 0