Análisis de Regresión Múltiple

(1)

Análisis de Regresión Múltiple

(2)

Precio de la casa = β₀ + β₁(Área de la casa) + ε

Pero en general, una variable dependiente depende de más de una variable independiente:

Precio de la casa puede depender de:

 Área

 Antigüedad

 Número de baños  Área del garaje  Etc.

(3)

y = β

₀

+ β

₁

x

₁

+ ε

Regresión Lineal Simple

Regresión Lineal Múltiple

y = β

₀

+ β

₁

x

₁

+ β

₂

x

₂

+ ……… + β

_p

x

_p

+ ε

Para tratar este tipo de problemas se

(4)

Modelo de Regresión Múltiple

Vamos a examinar la relación lineal entre una variable dependiente (y) y dos o más variables independientes (x_i)

ε

x

β

x

β

x

β

y



₀



₁ ₁



₂ ₂







_k _k



i

e





₀

₁

_1i

₂

_2i

_k

_ki

i

b

x

b

x

b

x

y



Modelo poblacional:

Y-intercepto Pendientes Error aleatorio

Valor de y _{Pendientes estimadas} Modelo de regresión múltiple muestral:

y-intercepto

(5)

Modelo de Regresión Múltiple

k

2

1

0

b

x

b

x

b

x

b

yˆ









Valor estimado o

predecido de ŷ Pendientes estimadas

(6)

15-6

Modelo de Regresión Múltiple

Modelo de dos variables:

y

x₁

x₂

2 2 1

1

0

b

x

b

x

b

yˆ





(7)

y x₁ x₂ 2 2 1 1

0

b

x

b

x

b

yˆ





y_i

<

e = (y – y) <

x_2i

x_1i La ecuación de mejor ajuste,

y, es hallada minimizando la suma de cuadrados del error, e2

<

Observación muestral

Modelo de Regresión Múltiple

Modelo de dos variables:

(8)

Modelo de Regresión Múltiple Poblacional

 Los términos de error (ε) son realizaciones estadísticamente

independientes de una variable aleatoria para cada nivel de x.

 Para un valor dado de x, pueden existir muchos valores de y, por lo

tanto muchos valores posibles para e. La distribución de los posibles errores del modelo para cualquier nivel de x es normal.

 Las distribuciones de los posibles valores de los errores e tienen igual

varianza en cada nivel de x.

 Las medias de la variable dependiente y, para todos los valores

especificados de x, pueden ser conectados con una línea la cual es el componente lineal del modelo de regresión poblacional.

(9)

Conceptos Básicos para la Construcción de

Modelos



Los modelos son usados para evaluar cambios sin

implementarlos en el sistema real.



Los modelos pueden ser usados para predecir

“outputs” basados en “inputs” específicos.



El proceso de construcción de modelos consiste de 3

(10)

 Especificación del modelo

 Especificación del modelo de regresión poblacional.  Recolección de la data muestral.

 Formulación o construcción del modelo

 Cálculo de los coeficientes de correlación entre las distintas

variables, dependientes e independientes.

 Ajuste del modelo a la data. Estimación de la ecuación de

regresión múltiple.

 Diagnóstico del modelo

 Pruebas estadísticas para determinar la bondad de ajuste del

modelo a la data.

 Verificación de los supuestos de regresión múltiple.

(11)

Especificación del Modelo



A veces referido como identificación del modelo



Es un proceso para establecer la estructura del modelo

 Decidir qué se quiere hacer y seleccionar la variable

dependiente (y).

 Determinar las potenciales variables independientes (x) para

el modelo.

 Recolectar los datos muestrales (observaciones) para todas

(12)

Construcción del Modelo



Es el proceso de construir la ecuación para los datos.



Puede incluir todas o algunas de las variables

independientes (x).



El objetivo es explicar la variación en la variable

(13)

Diagnóstico del Modelo

 Analizar la calidad del modelo (efectuar las pruebas de

diagnóstico).

 Evaluar el grado en que los supuestos se satisfacen.

 Si el modelo es inaceptable, iniciar el proceso de construcción

del modelo nuevamente.

(14)

Ejemplo

(15)

(16)

Ejemplo:Especificación del Modelo

Un distribuidor de pies (postres) desea evaluar los factores

que se cree influyen en la demanda

 Variable dependiente: Ventas (unidades / semana)

 Variables independientes: Precio ($) y Publicidad ($100)

Modelo de Regresión múltiple Poblacional:

(17)

Ejemplo: Construcción o Formulación del Modelo

Modelo de Regresión Múltiple (Muestral):

Ventas

_j

= b

₀

+ b

₁

(Precio

_j

) + b

₂

(Publicidad

_j

) + error

_j

Modelo de Regresión Múltiple Lineal

(18)

Interpretación de los Coeficientes

Estimados

 Pendientes (b_i)

 Estiman el cambio en el valor promedio de “y” como b_i unidades por

cada unidad de incremento en x_i manteniendo las otras variables constantes.

 Ejemplo: Si b₁ = -20, entonces se espera que las ventas promedio (y)

se reduzcan en 20 pies por semana por cada $1 en que se incremente el precio (x₁), manteniendo constante la variable publicidad (x₂).

 y-intercepto (b₀)

 Estima el valor promedio de y cuando todas las variables x_i son

(19)

Formulación del Modelo



Los datos que se presentan fueron

(20)

Formulación del Modelo

Ventas = b₀ + b₁ (Precio) + b₂ (Publicidad)

Semana Venta de pies Precio ($) Publicidad ($100s)

1 350 5.50 3.3 2 460 7.50 3.3 3 350 8.00 3.0 4 430 8.00 4.5 5 350 6.80 3.0 6 380 7.50 4.0 7 430 4.50 3.0 8 470 6.40 3.7 9 450 7.00 3.5 10 490 5.00 4.0 11 340 7.20 3.5 12 300 7.90 3.2 13 440 5.90 4.0 14 450 5.00 3.5 15 300 7.00 2.7

(21)

Matriz de Correlación

 Las correlaciones entre la variable dependiente y las

variables independientes seleccionadas pueden obtenerse usando Excel:

 Datos / Análisis de datos / Coeficiente de correlation

 Puede evaluar la significancia estadística de la correlación

(22)

Matriz de Correlación: Ventas de Pies



Ventas vs. Precio : r = -0.44327

 Hay una asociación lineal negativa entre las ventas y el precio



Ventas vs. Publicidad : r = 0.55632

 Hay una asociación lineal positiva entre las ventas y la publicidad

Ventas de

pies Precio Publicidad

Ventas de pies 1

Precio -0.44327 1

(23)

Estimación de la Ecuación de Regresión

Lineal Múltiple



Programas estadísticos (computadora) son

generalmente usados para generar estimados

de los coeficientes y medidas de bondad de

ajuste de la regresión múltiple

(24)



Excel:



Datos / Análisis de datos / Regresión

Estimación de la Ecuación de

Regresión Lineal Multiple

(25)

Regresión Múltiple: Excel (Resultado)

licidad) 74.131(Pub

cio) 24.975(Pre

-306.526

(26)

b₁ = -24.975: Las

ventas decrecerán en promedio 24.975 pies por semana por cada $1 incrementado en el precio, manteniendo constante la publici-dad

b₂ = 74.131: Las ventas crecerán en promedio 74.131 pies por semana por cada $100 incrementado en publicidad,

manteniendo cons-tante el precio

Donde:

Ventas (número de pies por semana) Precio ($) Publicidad ($100’s) licidad) 74.131(Pub cio) 24.975(Pre -306.526

Ventas  

Regresión Múltiple: Excel (Resultado)

(continuación)

(27)

Usando el Modelo para hacer Predicciones

Predecir las ventas de una semana en la cual

el precio es $5.50 y la publicidad es $350.

La venta predecida es 428.62 pies

Nota: La publicidad está en $100’s, entonces x₂ = 3.5

significa $350 licidad) 74.131(Pub cio) 24.975(Pre -306.526

Ventas  

(28)

Coeficiente de Determinación Múltiple (R

2

)



Reporta la proporción de la variación total en y que

es explicada por todas las variables (juntas) x

consideradas en el modelo

cuadrados

de

total

Suma

regresión

de

cuadrados

de

Suma

SST

SSR

(29)

.52148 0

56493.3 29460.0 SST

SSR

R2   

El 52.1% de la variación en las ventas es explicada por la variación en los precios y la publicidad

(continuación)

(30)

R

2

Ajustado



R

2

nunca decrece cuando una nueva variable x es

añadida al modelo



Esto puede ser una desventaja cuando se compara

modelos



¿Cuál es el efecto neto de agregar una nueva

variable?



Se pierde un grado de libertad cuando una nueva

variable x es añadida



¿La nueva variable x aporta suficiente poder

(31)

 Muestra la proporción explicada de la variación en y por las

variables x’s tomando en cuenta la relación entre el tamaño de muestra y el número de variables independientes (k)

(Donde n = Tamaño muestral, k = Número de variables independientes)

 Penaliza el uso excesivo de variables independientes no

importantes

 Es más pequeña que el R2

 Útil en la comparación entre modelos

(continuación)

















1 k

n

1 n

)

R

1 (

1 R

2_A 2

(32)

.44172

0 R

2_A



El 44.2% de la variación en las ventas es explicada por la variación en los precios y la publicidad, tomando en cuenta la

relación entre el tamaño de muestra y el número de variables independientes

(33)

Diagnóstico del Modelo: Prueba F

(Significancia General)

Prueba F para la significancia del modelo (general)



Muestra sí hay una relación lineal entre todas las

variables x (consideradas en forma conjunta) e y



Usa el estadístico de prueba F



Hipótesis:

 H₀: β₁ = β₂ = … = β_k = 0 (No hay relación lineal)

 H_A: Al menos un β_i ≠ 0 (Existe relación lineal entre (y)

(34)



Estadístico de prueba:

Donde: Los grados de libertad de F son:

gl

_numerador

= k

gl

_denominador

= (n – k – 1)

(continuación)

MSE

MSR

1 k

n

SSE

k

SSR

F







(35)

6.5386 2252.8

14730.0 MSE

MSR

F   

(continuación)

Con 2 y 12 grados de

libertad Valor P para _{la prueba}

(36)

H₀: β₁ = β₂ = 0; H_A: β₁ o β₂ es diferente de cero

Conclusión: Hay suficiente evidencia para concluir que el modelo de regresión explica parte de la variación en la venta de pies

(al menos una de las pendientes de regresión no es cero)

0

 = 0.05

Rechazar H₀ No rechazar H₀

6.5386

F  

MSE MSR

Valor crítico: F_0.05= 3.885

F

(continuación)

Diagnóstico del Modelo: Prueba F

(Significancia General)

 = 0.05 gl_numerador= 2 gl_denominador = 12

Estadístico de prueba:

(37)

Diagnóstico del Modelo:

¿Las Variables Individuales son Significativas?



Usar la prueba t para evaluar la significancia de cada

pendiente



Muestra si hay una relación lineal entre la variable x

_i

e

y



Hipótesis:



H

₀

: β

_i

= 0 (No hay relación lineal)

(38)

H

₀

: β

_i

= 0 (No hay relación lineal)

H

_A

: β

_i

≠ 0 (Existe relación lineal entre x

_i

e y)

Estadístico de prueba:

(

gl = n – k – 1)

i

b

i

s

0 b

t





(continuación)

Diagnóstico del Modelo:

(39)

El estadístico de prueba t para el Precio es -2.306 (valor p = 0.0398)

El estadístico de prueba t para la

Publicidad es 2.855 (valor p = 0.0145)

(continuación)

Diagnóstico del Modelo:

(40)

g.l. = 15-2-1 = 12

 = 0.05

t__/2= 2.1788

H₀: β_i = 0; H_A: β_i  0

Excel (Resultado):

Coeficientes Error típico Estadístico t Valor p

Precio -24.97509 10.83213 -2.30565 0.03979 Publicidad 74.13096 25.96732 2.85478 0.01449

Decisión: Para cada variable se rechaza H₀

Rechazar H₀ Rechazar H₀

/2=0.025

-t_α/2No rechazar H0

0 tα/2

/2=0.025

-2.1788

(continuación)

Diagnóstico del Modelo:

¿Las Variables Individuales son Significativas?

2.1788

(41)

Intervalo de Confianza para las

Pendientes

El intervalo de confianza para la pendiente poblacional β₁ (efecto sobre las ventas de pie respecto a cambios en el precio):

Ejemplo: Las ventas semanales de pies se reducirán entre 1.37 a 48.58 pies por cada incremento de $1 en el precio

i

b

2 /

i

t

s

b



_

Donde t tiene

(42)

Desviación Estándar del Modelo de

Regresión



La estimación de la desviación estándar del modelo de

regresión está dada por:

MSE

k

n

SSE

s









1



¿Este valor es grande o pequeño? Para evaluarlo se

(43)

La desviación estándar del modelo de regresión es 47.46

(continuación)

(44)



La desviación estándar del modelo de regresión es

47.46



Un rango de predicción para las ventas de pies en una

semana se puede aproximar por



Considerando que el promedio muestral de pies por

semana es 399.3, un error de ±94.2 pies es

problablemente

grande

para

ser

aceptado.

El

distribuidor podría querer buscar variables adicionales

que puedan explicar más de la variación en las ventas.

94.2 2(47.46) 



(continuación)

(45)

Diagnóstico del Modelo:

Multicolinealidad

 Multicolinealidad: Es la presencia de correlación entre dos

variables independientes y, por lo tanto, se traslapan.

(46)

 Incluir dos variables independientes altamente

correlacionadas puede afectar adversamente los resultados de regresión:

 No proporciona nueva información.

 Puede llevar a coeficientes inestables (error estándar

grande y valores t bajos).

 Los signos de los coeficientes podrían no ser coherentes

con nuestras expectativas iniciales y con la matriz de correlación.

(continuación)

(47)

Problemas e Indicios de

Multicolinealidad Severa

 Signos incorrectos en los coeficientes.

 Cambio grande en el valor de un coeficiente como resultado

de agregar una nueva variable al modelo.

 Una variable anteriormente significativa se vuelve no

significativa cuando una nueva variable independiente es agregada.

 El estimado de la desviación estándar del modelo se

(48)

Detección de Multicolinealidad

(Factor de Inflación de Varianza)

VIF

_j

es usado para medir la colinealidad:

Si VIF_j ≥ 5, entonces x_j está altamente correlacionado con las otras variables

explicativas

R2

j es el coeficiente de determinación de la

regresión de la jma_{variable independiente contra}

las restantes k – 1 variables independientes

2

1

j j

R

VIF

(49)

Variables Dummy

El modelo de regresión requiere el uso de variables cuantitativas de ratio (medida de relación entre dos variables cualitativas)

¿Cómo manejar posibles variables categóricas que

frecuentemente se presentan en la explicación de una variable dependiente?

Ejemplo: Género, estado civil, grado de instrucción, tipo de vecindario, etc.

(50)

Variables Dummies

 Son usadas para incorporar variables explicativas

categóricas al modelo de regresión:

 Si o no, masculino o femenino, etc.(variable dummy: 0,

1)

 Casado o divorciado o viudo o soltero (variables

(51)

15-51

Variables Dummies



El número de variables dummies requerido es

(categorías – 1) por cada variable cualitativa.



A veces llamadas variables indicadoras.



Los interceptos de regresión son diferentes si la

variable es significativa.

(52)

Variable Dummy (Dos Niveles) en un Modelo

de Regresión: Ejemplo

Sea:

ŷ = Ventas de pies

x

₁

= Precio

x

₂

= Feriado

(X₂ = 1 si hay feriado en una semana) (X₂ = 0 si no hay feriado en una semana)

2 1

0

b

x

b

x

b

(53)

Misma

pendiente

(continuación)

x₁ (Precio) y (Ventas)

b₀ + b₂

b₀ 1 0 1 0 1 2 0 1 0

x

b

(0)

b

x

b

yˆ

x

b

)

b

(b

(1)

b

x

b

yˆ

1 2 1 1 2 1

















Feriado No Feriado Interceptos diferentes

Si H₀: β₂ = 0 es

rechazada, entonces

Feriado tiene un efecto significativo sobre las ventas

(54)

Ventas: Número de pies vendidos por semana

Precio: Precio del pie en dólares

Feriado:

Regresión, Variable Dummy (Dos Niveles):

Interpretación de Coeficientes

Ejemplo:

1 Si hay feriado en una semana

0 Si no hay feriado en una semana

b

₂

= 15: En promedio, las ventas en una

semana con feriado son de 15 pies más que

en una sin feriado, manteniendo el mismo

precio

)

15(Feriado

30(Precio)

-300

(55)



El número de variables dummies es

una unidad

menos que el número de categorías



Ejemplo:

y = Precio de casa ; x

₁

= Área (pies cuadrados)



El estilo de la casa se cree que debe ser

conside-rado:

Estilo =

Rancho, condominio, dos niveles

Tres categorías, entonces se requiere dos variables dummies

Regresión, Variables Dummies (Más

(56)

















es

lo

no

Si

0 niveles

dos

es

Si

1 x

es

lo

no

Si

0 rancho

es

Si

1

3 2

x

3 2 1

0

b

x

b

x

b

x

b

yˆ





₁



₂



₃

b₂ muestra el impacto sobre el precio si el estilo de

la casa es rancho, comparado a un condominio

b₃ muestra el impacto sobre el precio si el estilo de

la casa es dos niveles, comparado a un condominio

(continuación)

Asumamos que la categoría por defecto sea “condominio”

(57)

Con la misma área, se estima que un rancho tendrá un

precio promedio de $23.53 (miles) más que un

condominio.

Con la misma área, se estima que un dos niveles tendrá un precio promedio de $18.84 (miles) más que un

condominio.

Supongamos que la ecuación estimada es:

3 2

1

23.53x

18.84x

0.045x

20.43 yˆ





18.84 0.045x

20.43 yˆ





₁



23.53 0.045x

20.43 yˆ





₁



1

0.045x

20.43 yˆ





Para un condominio: x₂ = x₃ = 0

Para un rancho: x₃ = 0

Para un dos niveles: x₂ = 0