Universidad Católica del Norte
Escuela de Negocios Mineros
Magister en Gestión Minera
Análisis de Datos y Métodos
Cuantitativos para la D.T.
VI versión MGM
Antofagasta, Junio de 2013
Análisis de Regresión y de
Correlación Múltiple
OBJETIVOS
1. Describir la relación entre algunas variables independientes y la variable
dependiente utilizando análisis de regresión múltiple.
2. Calcular e interpretar el error estándar de un estimación, el coeficiente de
determinación múltiple, y el coeficiente de determinación múltiple
ajustado.
3. Conducir una prueba de hipótesis para determinar si los coeficientes de
regresión difieren de cero.
4. Conducir una prueba de hipótesis acerca de cada coeficiente de regresión.
5. Utilizar análisis residual para evaluar los supuestos del análisis de regresión
simple.
6. Evaluar los efectos de variables independientes correlacionadas.
7. Utilizar y entender variables independientes cualitativas.
8. Comprender e interpretar el método de regresión por etapas.
9. Comprender e interpretar la interacción posible entre variables
Regresión Lineal Múltiple – Resultados
de Minitab para el Ejemplo de Salsberry Realty
a
b
3
b
1
b
2
La Ecuación de Regresión Múltiple– Interpretando
los Coeficientes de Regresión y Aplicando el Modelo para Estimación
Interpretando los Coeficientes de Regresión
El coeficiente de regresión para la temperatura exterior media, X1, es 4.583. El coeficiente es negativo – a medida que la temperatura exterior se incrementa, el costo de calefaccionar la vivienda se reduce. Por manteniendo las otras variables constantes, se espera que el costo mensual de calefacción se incremente en $4.583 .
La variable de aislación del ático, X2, también exhibe una relación negativa (coeficiente negativo). A mayor aislación en el ático, menor es el costo de calefaccionar la vivienda. Por cada pulgada adicional de aislación, el costo de calefaccionar la vivienda declina en $14.83 por mes.
La variable de antigüedad del calefactor muestra una relación directa. Con un calefactor antiguo, el costo de calefacción se incrementa. Por cada año adicional de antigüedad de la caldera, se espera que el costo de calefacción se incremente en $6.10 por mes.
Aplicando el Modelo de Estimación
Cuál es el costo estimado de calefacción para
una vivienda si la temperatura media exterior
son 30 grados, se tienen 5 pulgadas de
aislación en el ático y el calefactor tiene 10
años de antigüedad?
Minitab
Variación Explicada
Variación No explicada
Ecuación de Regresión
Estimación del error estándar
Coeficiente de
Determinación
Coeficiente de Determinación Multiple (
r
2
)
Coeficiente de Determinación Múltiple 1. Simbolizado por R2.
2. Va desde 0 a 1.
3. No puede asumir valores negativos. 4. Fácil de interpretar.
R2 Ajustado
1. El número de variables independientes en una regresión múltiple incrementa el valor del coeficiente de determinación.
2. Si el número de variables, k, y el tamaño muestral, n, son iguales, el coeficiente de determinación es 1.0.
3. Para balancear el efecto que tiene el número de variables independientes en el coeficiente de determinación múltiple, se utiliza el R2 ajustado.
Evaluando los Coeficientes de Regresión
Individuales (β
i
= 0)
• La prueba de hipótesis es como sigue:
H0: βi = 0 H1: βi ≠ 0
Rechazar H0 if t > t/2,n-k-1 or t < -t/2,n-k-1 • La prueba estadística es la distribución t con
• n-(k+1) grados de libertad. La fórmula para calcular el estadístico de prueba es:
• Esta prueba es utilizada para determinar qué variables independientes tienen coeficientes de regresión diferentes de cero.
• Las variables que poseen coeficientes de regresión cero usualmente son descartadas del análisis.
Rechace H0 si: t>ta/2,n-k-1 t< -ta/2,n-k-1 bi-0 sb i >ta/2,n-k-1 bi-0 sb i < -ta/2,n-k-1 bi-0 sbi >t.05/2,20-3-1 bi-0 sbi < -t.05/2,20-3-1 bi-0 sb i >t.025,16 bi -0 sb i < -t.025,16 bi-0 sb i >2.120 bi-0 sb i < -2.120 -2.120 2.120
Calculando los
t
para las pendientes
Computed t -2.120 2.120-5.93
(Temp)
-3.119
(Insulation)
1.521
(Age)
Conclusión:La variable AGE no posee una pendiente
significativamente diferente de 0, pero las variables TEMP e INSULATION tienen pendientes que son significativamente diferentes de 0
Nuevo de Modelo de Regresión sin la Variable
“Antigüedad” – Minitab
-2.110 2.110-7.34
(Temp)
-2.98
Insulation
Conclusión:A un 0.05 de significancia, las pendientes (coeficientes) las variables TEMP e INSULATION Del modelo de regresión lineal de 2 variables son significativamente diferentes de 0.
Evaluando los Supuestos de la Regresión Múltiple
1. Existe una relación lineal. Existe una relación de línea recta entre la
variable dependiente y el conjunto de variables independientes.
2. La variación en los residuos es la misma tanto para valores pequeños o
grandes del Y estimado. En otras palabras, los residuos no están relacionados con la magnitud de Y. 3. Los residuos siguen una distribución de
probabilidad normal.
4. Las variables independientes no deben estar correlacionadas. Debemos seleccionar un conjunto de variables que no estén correlacionadas. 5. Los residuos son independientes. Este
supuesto es usualmente violado cuando las variables dependen del tiempo.
Multicolinealidad
• La Multicolinealidad existe cuando Lavariables independientes (X’s) están correlacionadas.
• Los Efectos de la Multicolinealidad en el Modelo:
1. Una variable independiente que se asume como un predictor importante puede
terminar teniendo un coeficiente de regresión no significativo.
2. Un coeficiente de regresión que debería tener un signo positivo termina apareciendo como negativo, o vice versa.
3. Cuando una variable independiente is adicionada o removida, se produce un cambio drástico en los valores de los coeficientes de regresión restantes.
• Cuando, las variables independientes e encuentran correlacionadas esto no afecta la capacidad de la ecuación de regresión para predecir la variable dependiente (Y).
Una regla general es que si la correlación entre dos variables independientes se encuentra entre -0.70 y -0.70 probablemente no hay problema en utilizar ambas variables independientes.
Una prueba más precisa es utilizar el
factor de inflación de varianza (VIF). Un VIF > 10 es insatisfactorio.
Remueva la variable independiente del análisis.
El valor de VIF se calcula como sigue:
El término R2
j se refiere al coeficiente de determinación, donde la variable independiente seleccionada es utilizada como variable dependiente y el resto de las variables independientes son
utilizadas como variables independientes. 2
1
1
jR
VIF
Multicolinealidad – Ejemplo
Observe los datos de la tabla, estos relacionan
los costos de calefacción con variables
independientes como la temperatura
externa, la cantidad de aislante, y la
antigüedad del calefactor.
Existe un problema con la multicolinealidad?
Encuentre e interprete el factor de inflación
de varianza para cada variable
independiente.
El valor del
VIF
de 1.32 es menor que
el valor del límite superior de 10.
Esto indica que la variable
independiente temperatura no se
encuentra fuertemente
Variables Cualitativas - Ejemplo
Frecuentemente queremos utilizar en el análisis variables medidas en escalas nominales—tales como género, si la casa posee piscina o no, o si el equipo es local o visita. Estás se conocen como variables cualitativas.
Para usar una variable cualitativa en el análisis de regresión, utilizaremos el esquema de las variables dummyen las cuales una de las posibles condiciones se codifica como 0 y la otra como 1.
EJEMPLO
Suponga en el ejemplo de Salsberry Realty que se adiciona la variable independiente “garage”. A los hogares sin un garage se les asigna 0; a los hogares con garage se les asigna 1.
Sin garage
Modelos de Regresión con
Interacción
• Suponga que estudiamos la pérdida de peso y asuma, como la literatura actual sugiere, la dieta y el ejercicio se encuentran relacionados. La variable dependiente es la cantidad de cambio en el paso y las variables independientes son: la dieta (si o no) y el ejercicio (ninguno, moderado, significativo). Estamos interesados en investigar si aquellas personas que mantuvieron su dieta y ejercicio incrementaron significativamente el promedio de reducción de positivo?
• En el análisis de regresión la interacción puede incluirse como una variable independiente separada. Una variable de interacción puede construirse
multiplicando una variable independiente con otra, con esto se crea una nueva variable independiente. Un ejemplo es:
• Recuerde el ejemplo del costo de calefacción. Existe una interacción entre la temperatura exterior y la cantidad de aislante? Si ambas variables se
incrementan, es el efecto en los costos de calefacción mayor que la suma de ahorros derivados de
temperaturas mayores y de los ahorros de mayor aislación separadamente?