4. Regresión lineal
4.2. Modelo de regresión lineal simple
El principio de parsimonia indica que el modelo de regresión lineal se convierte en el primer candi- dato para explicar la relación entre las variables. En este ejemplo, deseamos estudiar el consumo de energía de la fábrica: la variable dependiente (Y ) es el consumo, mientras que el resto de variables disponibles comprenden el conjunto de variables independientes. Es decir, deseamos encontrar un modelo que cuantifique el consumo energético a partir de las diferentes producciones.
La forma más facil de comenzar consiste en realizar representaciones gráficas.
Ejemplo 4.1. Realice un diagrama de dispersión de la variable consumo con las variables de pro-
Unidad de Consultoría
Estadística
Unidad de ConsultoríaEstadística
Solución: Dibujamos una matriz con los diagramas de dispersión:
Gráficas
yMatriz de diagrama de dispersión
Seleccionamos consumo, pr.ca, pr.cc,
pr.galv1, pr.galv2, pr.pint y
pr.tbc. yAceptar
> scatterplot.matrix(~consumo + pr.ca + pr.cc + pr.galv1 + pr.galv2 +
+ pr.pint + pr.tbc, reg.line = lm, smooth = TRUE, span = 0.5,
+ diagonal = "density", data = acero)
De los diferentes gráficos que aparecen, los más ajustados a nuestra hipótesis de trabajo se encuentran en la primera hilera, ya que la variable dependiente, el consumo, corresponde al eje de ordenadas, mientras que las independientes, las diferentes producciones, se representan en el eje de abscisas.
¿Qué nube de punto de la primera fila muestra un patrón más claro de relación? Si bien no siempre aparece claramente un comportamiento visual, se puede intuir cierta dependencia entre el consumo energía y la producción del tren de bandas en caliente (pr.tbc).
Unidad de Consultoría
Estadística
Unidad de ConsultoríaEstadística
Después de realizar una representación gráfica, procedemos a cuantificar la relación lineal entre las variables.
Ejemplo 4.2. Calcule los coeficientes de correlación lineal del consumo con el resto de produccio-
nes.
Solución: El coeficiente de correlación lineal varía de −1 a 1. Cuanto mayor sea en valor absoluto, más intensidad existe en la relación.
Estadísticos yResúmenes
yMatriz de correlaciones
Seleccionamos consumo, pr.ca, pr.cc,
pr.galv1, pr.galv2, pr.pint y
pr.tbc.
yCoeficiente de Pearson yAceptar
> cor(acero[, c("consumo", "pr.ca", "pr.cc", "pr.galv1", "pr.galv2", + "pr.pint", "pr.tbc")], use = "complete.obs")
consumo pr.ca pr.cc pr.galv1 pr.galv2 pr.pin
consumo 1.00000000 -0.04462924 0.3853352 0.40126392 0.24073916 0.193584920 pr.ca -0.04462924 1.00000000 -0.1907847 0.08285971 -0.08530484 -0.027095106 pr.cc 0.38533520 -0.19078475 1.0000000 0.30011090 0.07108381 0.268146068 pr.galv1 0.40126392 0.08285971 0.3001109 1.00000000 0.04964655 0.300788576 pr.galv2 0.24073916 -0.08530484 0.0710838 0.04964655 1.00000000 0.072855628 pr.pint 0.19358492 -0.02709511 0.2681461 0.30078858 0.07285563 1.000000000 pr.tbc 0.74329458 -0.03999992 0.1539631 0.06614846 0.10224749 0.003463181 pr.tbc consumo 0.743294582 pr.ca -0.039999921 pr.cc 0.153963066 pr.galv1 0.066148462 pr.galv2 0.102247494 pr.pint 0.003463181 pr.tbc 1.000000000
La primera columna muestra la correlación de la variable consumo con el resto de las produccio- nes. La relación más intensa se produce entre el consumo y la pr.tbc.
Investigamos con más detalle la relación entre consumo y la pr.tbc. De nuevo, empezamos con un gráfico.
Unidad de Consultoría
Estadística
Unidad de ConsultoríaEstadística
Solución: El gráfico se consigue de la siguiente forma: Gráficas
yMatriz de diagrama de dispersión
Seleccionamos: consumo y pr.tbc yMarcamos: Identificar Observaciones
yAceptar
El eje de abscisas muestra la producción de TBC y el de ordenadas el consumo de energía. Se observa una relación creciente entre ambas magnitudes. En el gráfico aparecen dos líneas. Una es la recta de regresión (el modelo más simple) y la otra la línea de regresión no paramétrica (el mejor ajuste posible). Si ambas líneas coinciden, el ajuste lineal resulta adecuado. En este caso la línea recta no sigue muy bien el comportamiento de la línea no paramétrica, por lo que el modelo lineal no ajustará bien los datos.
Además en el gráfico se muestran dos posibles observaciones atípicas, la 107 y la 88.
Si bien el gráfico sugiere que el modelo lineal no casa bien con los datos, procedemos a construir un modelo lineal que cuantifica la relación entre el consumo y la pr.tbc.
Consumo de energía = a + b · Producción de TBC
La formulación matemática de este modelo determina que el consumo sólo depende de la produc- ción de TBC y de ninguna otra producción. Este modelo a priori parece demasiado sencillo, ya que ignora el resto de información disponible.
Unidad de Consultoría
Estadística
Unidad de ConsultoríaEstadística
Ejemplo 4.4. Estime el consumo a partir de la producción de TBC. Llame a este modelo Modelo1.
Solución: Procedemos con el modelo lineal, ya que su sencillez favorece la interpretación de los coeficientes.
Estadísticos
yAjuste de modelos yModelo lineal
Nombre del modelo: Modelo1 yFormula del. . . consumo∼pr.tbc
yAceptar
> Modelo1 <- lm(consumo ~ pr.tbc, data = acero) > summary(Modelo1)
Call:
lm(formula = consumo ~ pr.tbc, data = acero) Residuals:
Min 1Q Median 3Q Max
-94.9517 -23.4839 -0.7312 21.4330 133.5283
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 36.075095 9.328889 3.867 0.000183 ***
pr.tbc 0.013661 0.001146 11.915 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 37.08 on 115 degrees of freedom
Multiple R-squared: 0.5525, Adjusted R-squared: 0.5486 F-statistic: 142 on 1 and 115 DF, p-value: < 2.2e-16
La columna de Estimate proporciona los valores de los coeficientes.
consumo= 36,075281 + 0,013661 · pr.tbc (1)
Si deseamos incorporar la variabilidad de esos coeficientes, incorporamos en la formulación sus desviaciones típicas
consumo= 36,075( s.e. 9,328) + 0,014( s.e. 0,001) · pr.tbc (2) Todos los coeficientes del modelo son significativos (distintos de 0) ya que sus p-valor (Pr(>|t|)) minoran a 0,05.
El R cuadrado, R2, representa la fracción de la variación de la variable dependiente explicada por
la regresión. El 54.86 % del consumo de energía se debe a la producción del tren de bandas en caliente. Hemos de mencionar que el R2no es un buen criterio para comparar modelos (el AIC es
Unidad de Consultoría
Estadística
Unidad de ConsultoríaEstadística
Respecto a los grados de libertad (DF, degree of freedom), cuantos más parámetros incorpore el modelo, menos grados de libertad dispone. El principio de parsimonia prioriza los modelos con más grados de libertad.
Después de estimar el modelo, hemos de verificar una serie de requisitos. Si cumple con todos ellos, el modelo ajusta correctamente los datos. Si no los verifica, hemos de plantear otra formula- ción. Destacan los siguientes condiciones: homocedasticidad (varianza constante) de los errores, normalidad de los errores, ausencia de observaciones atípicas, relación lineal y ausencia de coli- nealidad.
Ejemplo 4.5. Determine si los residuos del modelo Modelo1 son homocedásticos.
Solución: Para estudiar la homocedasticidad de un modelo usamos el test de Breusch-Pagan.
Modelos
yDiagnósticos numéricos yTest de Breusch-Pagan. . .
Aceptar
> bptest(consumo ~ pr.tbc, varformula = ~fitted.values(Modelo1),
+ studentize = FALSE, data = acero)
Breusch-Pagan test
data: consumo ~ pr.tbc
BP = 1.1495, df = 1, p-value = 0.2837
Como el p-valor (0,2837) es menor que α, los residuos se comportan de forma homocedástica (la varianza es igual en todo el gráfico). Si el p-valor hubiera superado el valor α (normalmente 0,05), se produciría una variabilidad no constante en el ajuste (heterocedástico) y habría que encontrar otra relación.
Ejemplo 4.6. ¿El modelo lineal Modelo1 (Y = a + bX) ajusta de forma correcta?, ¿no conviene
más un modelo cuadrático (Y = a + bX + cX2) o cúbico?
Solución: Para estudiar la linealidad de los residuos se utiliza el test Reset de no linealidad:
Modelos
yDiagnósticos numéricos
Unidad de Consultoría
Estadística
Unidad de ConsultoríaEstadística
Desmarcar 3 cubos yAceptar
> resettest(consumo ~ pr.tbc, power = 2, type = + "regressor", data = acero)
RESET test
data: consumo ~ pr.tbc
RESET = 5.8411, df1 = 1, df2 = 114, p-value = 0.01724
Como el p-valor (0,01724) es inferior a α, se concluye que el modelo lineal no ajusta adecuada- mente. Nuestra labor de modelado empieza de nuevo planteándonos otras relaciones, como por ejemplo
consumo= a + b · pr.tbc + c · pr.tbc2
Si bien ya hemos concluido que este ajuste lineal no cumple con los requisitos necesarios, como práctica realizamos también el control de las observaciones atípicas.
Ejemplo 4.7. ¿Existen observaciones atípicas que distorsionen el análisis del Modelo1?
Solución: El test de valores atípicos de Bonferroni indica la presencia de observaciones atípicas. Modelos
yDiagnósticos numéricos
yTest de valores atípicos de Bonferro- ni. . .
> outlier.test(Modelo1)
max|rstudent| = 3.85354, degrees of freedom = 114, unadjusted p = 0.0001929329, Bonferroni p = 0.02257315 Observation: 107