Análisis de Regresión y Correlación
con MINITAB
Primeras definiciones y conceptos de la
regresión
El análisis de la regresión es una técnica estadística que se utiliza
para estudiar la relación entre variables o factores cuantitativos referidos a un mismo grupo de unidades observadas.
Se trata de comprobar estadísticamente si tal relación es posible, y de serlo, expresarlo matemáticamente mediante una ecuación.
Su uso más frecuente es el de la predicción de resultados de una
Primeras definiciones y conceptos de la
regresión
Cuando se cree que algunas de las variables pueden causar ( o al
menos explicar) los cambios observados en otra, a éstas se les llama variables explicativas (X’s)
La que mide el resultado del estudio se le llama variable respuesta (Y)
Se intentará establecer una ecuación de la forma Y=g(x)
Metodología de un análisis de regresión
1. Representar los datos en un gráfico 2. Identificar su aspecto y sus desviaciones
3. Descripciones numéricas que informen sobre los datos y su
posible relación
4. Descripción matemática resumida del aspecto general del
1. Representación de los datos
La manera de mostrar gráficamente los datos observados en un gráfico es a través de un diagrama de dispersión.
Y, la respuesta se marca en el eje vertical; la X, variable
explicativa, en el eje horizontal. Cada observación, es un punto del gráfico
2. Identificación del aspecto del diagrama
de dispersión
El aspecto general del gráfico viene dado por la dirección,
forma y fuerza del mismo:
Dirección: positiva o negativa Forma: disposición de los puntos (rectilínea o curvilínea)
Fuerza: cuanta más amorfa sea la disposición de los puntos
2. Identificación del aspecto del diagrama
de dispersión
Es interesante en esta primera identificación del aspecto
del gráfico, identificar observaciones atípicas (aquellas que
se distinguen del aspecto general del gráfico)
El diagrama de dispersión sólo muestra el aspecto general
de la relación entre las dos variables.
En situaciones no muy evidentes, un simple cambio de
escala puede hacernos cambiar la forma de pensar.
Edad Tie m p o 48 46 44 42 40 38 36 34 32 30 450 400 350 300
Scatterplot of Tiempo vs Edad
2. Identificación del aspecto del diagrama
de dispersión
3. Descripciones numéricas
Se necesita una medida numérica que complemente al gráfico y que, independientemente de las dimensiones de los valores de las variables, nos informe sobre la fuerza de la relación existente.
Una medida es el Coeficiente de correlación
Características del coeficiente de correlación
de Pearson
r utiliza valores estandarizados, luego no le influyen las unidades: tomaría el mismo valor aunque se cambiara de unidad de medida.
r se ve afectada por las observaciones atípicas
Una r positiva (negativa)indica una relación positiva (negativa)
entre las variables.
Valores de r cercanos al 0 indican una relación lineal muy débil.
La fuerza de la relación lineal aumenta a medida que r se aleja del 0 y se acerca al +1 o al –1.
Ejemplos reales
180 170 160 150 95 90 85 80 75 Temperatura 150 160 170 180 75 80 85 90 95 Temperatura 150 160 170 180 75 80 85 90 95 TemperaturaSituación1 Situación 2 Situación 3
r = 0,983 r = 0,887 r = 0,230
p-value: 0,000 p-value: 0,000 p-value: 0,108
Un valor de r distinto de 0 no implica relación lineal Es necesario que sea “significativamente distinto de cero”
Coeficiente de correlación: Precaución
El coeficiente de correlación de Pearson sólo mide relación LINEAL
0 10 20 30
0 100 200
r = 0,5 pero ...
Relación casi perfecta, aunque no lineal.
4. Descripción matemática de la forma del
gráfico
Si la correlación entre las dos variables indica una relación fuerte, sería muy interesante poder “resumir” el gráfico en forma de una ecuación matemática.
En el caso de una forma lineal, a la recta que ajusta la nube de
puntos se le llama recta de regresión.
Esta recta se calcula teniendo en cuenta dos cosas:
Puesto que describe un cambio en la respuesta a medida que
cambia la otra variable, se necesita tener presente esta distinción a la hora de calcularla.
Puesto que ninguna recta puede pasar exactamente por todos
los puntos, se necesita una manera de construirla que asegure su paso tan cerca de todos los puntos como sea posible.
4. Descripción matemática de la forma del
gráfico
Edad Tie m p o 48 46 44 42 40 38 36 34 32 30 450 400 350 300 250 S 38,3533 R-Sq 37,1% R-Sq(adj) 35,0%Fitted Line Plot
Tiempo = - 1550 + 95,80 Edad - 1,193 Edad**2
Modelo de regresión simple
Modelo teórico para la población:
y = β0+ β1x + ε
ε~ N (0, σ)
Recta ajustada: (a partir de una muestra)
x b b yˆ= 0+ 1 xi X Y yi observado recta la de predicción i yˆ
distancia entre lo real y lo que se predice
)
x
x
(
s
s
r
y
yˆ
x y−
⋅
+
=
Modelo de regresión simple
La pendiente de la recta , b1, representa la tasa de cambio, es
decir, la cantidad en que cambia cuando x aumenta en una unidad. x y 1 s s r b = ⋅ yˆ 1 b1 b0 x b b yˆ= 0+ 1 y
Modelo de regresión simple
r
2, representa la fracción de la variación de Y que se explica
por la regresión de Y sobre X y sirve de medida de bondad
de la regresión para explicar la respuesta.
La parte de la variable Y que no es explicada por el modelo
se llama residual.
Una vez dibujada la recta de regresión, existe un valor
residual para cada dato:
e
=
y
−
yˆ
Modelo de regresión simple
i i
i
y
yˆ
e
=
−
Análisis de los residuos
La disposición de los residuos sirve para comprobar si la
recta sirve para ajustar los datos
Dibujando sus valores en el eje de ordenadas frente a las
predicciones deben presentar una forma uniforme ,
centrada en el valor 0, a lo largo de toda la recta, sin que
aparezca ningun valor extraño
Inferencia para la regresión lineal
150 160 170 180 75 85 95 Temperatura R endi 2 Rendi2 = 10,2163 + 0,447563 Temperatura S = 2,01711 R-Sq = 78,6 % R-Sq(adj) = 78,2 % Regression 95% CI 95% PI Regression Plot
Intervalo para la recta
Regresión no lineal
La relación entre x e y no tiene porqué ser lineal.
Los softwares informáticos ajustan los datos a curvas no lineales (exponenciales, parabólicas, etc.) y calculan el valor de r2para
medir la fuerza de esa relación.
Edad Tie m p o 48 46 44 42 40 38 36 34 32 30 450 400 350 300 250 S 38,3533 R-Sq 37,1% R-Sq(adj) 35,0%
Fitted Line Plot
Tiempo = - 1550 + 95,80 Edad - 1,193 Edad**2
Regresión múltiple
La regresión múltiple expresa el valor de la variable dependiente
Y, como función de las variables independientes X1, X2, ...,Xk
La más simple es la regresión lineal y el modelo al que se
debieran ajustar los datos es:
i ki k i 2 2 i 1 1 i
X
X
...
X
Y
=
α
+
β
+
β
+
+
+
β
+
ε
Regresión múltiple
Comprobar si el rendimiento de un proceso químico depende, además de la temperatura de la presión a la que se realiza.
Regresión múltiple lineal: Interpretación de
resultados
Regression Analysis: Rendi versus Presion; Temperatura
The regression equation is
Rendi = 48,9 + 1,84 Presion + 0,208 Temperatura Predictor Coef SE Coef T P Constant 48,941 2,709 18,07 0,000 Presion 1,8437 0,4699 3,92 0,001 Temperat 0,20807 0,01562 13,32 0,000 S = 0,7947 R-Sq = 90,8% R-Sq(adj) = 89,9%
Desviación tipo de los residuos s
2 yˆ±
Pruebas de significación para los coeficientes
Coeficiente de correlación múltiple
El r
2proporciona, al igual que en el caso simple, una
medida de la fuerza de la relación entre Y y sus
predicciones, a partir del modelo de regresión propuesto
(plano de regresión)
Se pueden definir también, coeficientes de correlación
parciales, r
YXi, miden la relación entre Y y X
ieliminando los
efectos del resto de X
jRegresión múltiple lineal: Interpretación de
resultados
∑
∑
−
−
−
=
=
2 i i 2 i i 2 2)
y
y
(
)
yˆ
y
(
1
r
R
Al igual que en el caso simple, pueden calcularse intervalos de confianza para los coeficientes del plano
También al igual que en el caso simple, será necesaria la
comprobación de la adecuidad del modelo con el análisis y estudio de sus residuos: éstos deben de ser normales, centrados en 0 y con variabilidad constante.
Ejemplo práctico con MINITAB
Deducir una ecuación que relacione el tiempo marcado por una
atleta (en minutos) en una carrera de triatlón con los siguientes posibles factores:
Edad del deportista
Peso del deportista
Experiencia en la práctica del triatlón, en años
Kilómetros en carrera en entrenamientos
Kilómetros en bicicleta en entrenamientos
Kilómetros nadadndo en entrenamientos
Consumo de oxígeno corriendo
Consumo de oxígeno en bicicleta
Cosumo de oxígeno nadando
Ejemplo práctico con MINITAB
Para la Regresión Simple: Stat/Regression/Fitted Line Plot
Residual Pe rc e nt 100 0 -100 99,9 99 90 50 10 1 0,1 Fitted Value Re si d ua l 380 360 340 320 100 50 0 -50 -100 Residual Fr e q ue nc y 80 40 0 -40 -80 16 12 8 4 0 Observation Order Re si d ua l 65 60 55 50 45 40 35 30 25 20 15 10 5 1 100 50 0 -50 -100
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data Residual Plots for Tiempo
Edad Tie m p o 48 46 44 42 40 38 36 34 32 30 450 400 350 300 S 44,7224 R-Sq 13,0% R-Sq(adj) 11,7%
Fitted Line Plot
Tiempo = 205,2 + 3,585 Edad Ti e m p o 48 46 44 42 40 38 36 34 32 30 450 400 350 300 250 S 38,3533 R-Sq 37,1% R-Sq(adj) 35,0%
Fitted Line Plot
Tiempo = - 1550 + 95,80 Edad - 1,193 Edad**2 Residual Pe rc e nt 100 50 0 -50 -100 99,9 99 90 50 10 1 0,1 Fitted Value Re si d ua l 360 340 320 300 280 100 50 0 -50 Fr eq ue n cy 16 12 8 4 0 Re si d ua l 100 50 0 -50
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data Residual Plots for Tiempo
Ejemplo práctico con MINITAB
Lo más habitual en la práctica es querer establecer una relación entre una variable respuesta (Y) y varias explicativas (X’s)
Para la Regresión Múltiple, existen varias opciones: Stat/Regression/Regression
Stat/Regression/Best Subsets Stat/Regression/Stepwise
Ejemplo práctico con MINITAB
Regression Analysis: Tiempo versus Edad; Peso; ...
The regression equation is
Tiempo = 486 + 3,41 Edad + 0,347 Peso - 21,4 Experiencia + 0,702 EnCarrera - 0,173 EnBici - 1,37 EnNatacion - 3,36 COCarrera - 1,38 COBici + 0,893 CONatacion
Predictor Coef SE Coef T P Constant 486,3 114,5 4,25 0,000 Edad 3,410 1,091 3,13 0,003 Peso 0,3470 0,7862 0,44 0,661 Experien -21,424 3,697 -5,80 0,000 EnCarrer 0,7025 0,2771 2,54 0,014 EnBici -0,17251 0,06920 -2,49 0,016 EnNataci -1,3727 0,9566 -1,43 0,157 COCarrer -3,3550 0,8338 -4,02 0,000 COBici -1,3845 0,9098 -1,52 0,134 CONataci 0,8934 0,9217 0,97 0,337 S = 22,70 R-Sq = 80,4% R-Sq(adj) = 77,2% Analysis of Variance Source DF SS MS F P Regression 9 116566 12952 25,14 0,000 Residual Error 55 28339 515 Total 64 144905 Unusual Observations
Obs Edad Tiempo Fit SE Fit Residual St Resid 19 36,0 408,00 359,05 10,03 48,95 2,40R
¡¡Cuidado!!
Bondad del ajuste
Linealidad significativa
Ejemplo práctico con MINITAB
Realizar un análisis de regresión multivariante tiene el siguiente
inconveniente: si dos variables X están muy relacionadas entre sí y aportan mucho a la hora de conocer Y, una de ellas tendrá un p-valor grande y la otra no. Pero, de eliminar una ¿cuál
eliminaríamos? Una la conozco, pero no sé con cual está correlacionada....
Posibilidades:
Representar gráficamente las relaciones: Gráfico matriz
Calcular los coeficientes de correlación entre las variables
Ejemplo práctico con MINITAB
Tiempo 48 40 32 60 70 800,0 2,5 5,0 30 60 90150 300 4500 10 2050 60 70 50 60 7040 50 60 420 360 300 Edad 48 40 32 Peso 80 70 60 Experiencia 5,0 2,5 0,0 EnCarrera 90 60 30 EnBici 450 300 150 EnNatación 20 10 0 CoCarrera 70 60 50 CoBici 70 60 50 CoNataciónMatrix Plot of Tiempo; Edad; Peso; Experiencia; EnCarrera; EnBici; ...
Ejemplo práctico con MINITAB
Correlations: Tiempo; Edad; Peso; Experiencia; EnCarrera; EnBici; EnNatación; Co
Tiempo Edad Peso Experien EnCarrer EnBici EnNataci CoCarrer CoBici Edad 0,361 Peso 0,249 0,342 Experien -0,436 0,414 0,254 EnCarrer -0,469 -0,288 -0,090 0,349 EnBici -0,492 -0,356 -0,091 0,137 0,792 EnNataci -0,430 -0,419 0,132 -0,005 0,479 0,691 CoCarrer -0,695 -0,306 -0,506 0,183 0,255 0,147 0,160 CoBici -0,647 -0,441 -0,474 0,146 0,376 0,323 0,090 0,695 CoNataci -0,596 -0,635 -0,340 0,134 0,478 0,415 0,380 0,548 0,652
Ejemplo práctico con MINITAB
Cuando existen muchas variables X que pueden influir en la
respuesta Y, estas opciones pueden resultar complicadas de interpretar.
¿Cómo resuelve este problema MINITAB?
Stepwise:crea un modelo paso a paso, eligiendo primero la variable X
que mejor explica la Y, añadiendo después una a una, otras X que junto con las anteriores aporten información. Para, cuando no encuentra ninguna más de las que quedan fuera que añada información
Best Subsets: Crea subconjuntos de n variables X que mejor explican
Ejemplo práctico con MINITAB
Step 1 2 3 4 5 Constant 687,9 709,7 704,1 532,8 516,1 CoCarrer -5,68 -5,20 -4,82 -3,96 -4,09 T-Value -7,67 -8,24 -8,37 -6,81 -7,45 P-Value 0,000 0,000 0,000 0,000 0,000 EnBici -0,203 -0,187 -0,128 -0,242 T-Value -5,15 -5,24 -3,51 -4,69 P-Value 0,000 0,000 0,001 0,000 Experien -10,7 -16,9 -20,8 T-Value -3,94 -5,56 -6,61 P-Value 0,000 0,000 0,000 Edad 3,03 3,53 T-Value 3,56 4,32 P-Value 0,001 0,000 EnCarrer 0,80 T-Value 2,96 P-Value 0,004 S 34,5 29,1 26,2 24,0 22,6 R-Sq 48,31 63,82 71,15 76,17 79,25 R-Sq(adj) 47,49 62,65 69,73 74,59 77,50 C-p 84,4 42,8 24,1 12,0 5,3Ejemplo práctico con MINITAB
Response is Tiempo E E E C C x n n o o p C E N C C N e a n a a o a E P r r B t r B t d e i r i a r i a a s e e c c e c c Vars R-Sq R-Sq(adj) C-p S d o n r i i r i i 1 48,3 47,5 84,4 34,482 X 1 41,8 40,9 102,6 36,578 X 2 63,8 62,6 42,8 29,081 X X 2 58,8 57,4 57,0 31,050 X X 3 71,3 69,9 23,8 26,117 X X X 3 71,2 69,7 24,1 26,177 X X X 4 76,2 74,6 12,0 23,987 X X X X 4 75,1 73,5 14,9 24,500 X X X X 5 79,3 77,5 5,3 22,573 X X X X X 5 76,9 75,0 11,9 23,801 X X X X X 6 79,5 77,4 6,7 22,631 X X X X X X 6 79,5 77,3 6,8 22,651 X X X X X X 7 80,1 77,6 7,0 22,506 X X X X X X X 7 79,7 77,2 8,1 22,721 X X X X X X XEjemplo práctico con MINITAB
Regresión-Stepwise: crea un modelo paso a paso, eligiendo primero la variable X que mejor explica la Y, añadiendo después una a una, otras X que junto con las anteriores aporten
información. Para cuando no encuentra ninguna más, de las que quedan fuera que añada información
Inconveniente:
el modelo es muy dependiente de la primera elegida (la que más
información aporta por si sola, pero puede no ser la mejor para trabajar con ella)
Ejemplo práctico con MINITAB
Regresión Best Subsets: Crea subconjuntos de n variables X que
mejor explican Y
Inconvenientes:
No dice cual es la mejor opción, luego hay que decidirse.
Su lista se basa en el valor R2, luego habrá que comprobar si las variables
Ejemplo práctico con MINITAB
Si elegimos el modelo con 5 variables (R2=77,5%) y hacemos
regresión multivariante:
The regression equation is
Tiempo = 516 + 3,53 Edad - 20,8 Experiencia + 0,796 EnCarrera - 0,242 EnBici - 4,09 CoCarrera
Predictor Coef SE Coef T P Constant 516,10 54,51 9,47 0,000 Edad 3,5335 0,8188 4,32 0,000 Experien -20,752 3,141 -6,61 0,000 EnCarrer 0,7958 0,2689 2,96 0,004 EnBici -0,24185 0,05154 -4,69 0,000 CoCarrer -4,0886 0,5490 -7,45 0,000 S = 22,57 R-Sq = 79,3% R-Sq(adj) = 77,5% Analysis of Variance Source DF SS MS F P Regression 5 114844 22969 45,08 0,000 Residual Error 59 30062 510 Total 64 144905
Ejemplo práctico con MINITAB
¿Qué pasaría con el de 6 variables añadiendo “Ennatación”?
The regression equation is
Tiempo = 521 + 3,39 Edad - 20,6 Experiencia + 0,758 EnCarrera - 0,215 EnBici - 4,07 CoCarrera - 0,582 EnNatación
Predictor Coef SE Coef T P Constant 520,92 55,06 9,46 0,000 Edad 3,3875 0,8434 4,02 0,000 Experien -20,612 3,157 -6,53 0,000 EnCarrer 0,7583 0,2742 2,77 0,008 EnBici -0,21535 0,06217 -3,46 0,001 CoCarrer -4,0746 0,5512 -7,39 0,000 EnNataci -0,5823 0,7581 -0,77 0,446 S = 22,65 R-Sq = 79,5% R-Sq(adj) = 77,3%
Ejemplo práctico con MINITAB
¿Y qué pasaría con el de 4 variables quitando “Encarrera”?
The regression equation is
Tiempo = 533 + 3,03 Edad - 16,9 Experiencia - 0,128 EnBici - 3,96 CoCarrera
Predictor Coef SE Coef T P Constant 532,77 57,62 9,25 0,000 Edad 3,0256 0,8508 3,56 0,001 Experien -16,867 3,033 -5,56 0,000 EnBici -0,12825 0,03655 -3,51 0,001 CoCarrer -3,9574 0,5815 -6,81 0,000 S = 23,99 R-Sq = 76,2% R-Sq(adj) = 74,6% Analysis of Variance Source DF SS MS F P Regression 4 110381 27595 47,96 0,000 Residual Error 60 34524 575 Total 64 144905
Ejemplo práctico con MINITAB
Antes de dar por válido el estudio y con las opciones elegidas se
Ejemplo práctico con MINITAB
Residual Pe rc e nt 80 40 0 -40 -80 99,9 99 90 50 10 1 0,1 Fitted Value Re si du a l 450 400 350 300 250 50 25 0 -25 -50 Residual Fr e que ncy 60 40 20 0 -20 -40 12 9 6 3 0 Observation Order Re si du a l 65 60 55 50 45 40 35 30 25 20 15 10 5 1 50 25 0 -25 -50Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data Residual Plots for Tiempo