• No se han encontrado resultados

Análisis de Regresión y Correlación con MINITAB

N/A
N/A
Protected

Academic year: 2021

Share "Análisis de Regresión y Correlación con MINITAB"

Copied!
25
0
0

Texto completo

(1)

Análisis de Regresión y Correlación

con MINITAB

Primeras definiciones y conceptos de la

regresión

„ El análisis de la regresión es una técnica estadística que se utiliza

para estudiar la relación entre variables o factores cuantitativos referidos a un mismo grupo de unidades observadas.

„ Se trata de comprobar estadísticamente si tal relación es posible, y de serlo, expresarlo matemáticamente mediante una ecuación.

„ Su uso más frecuente es el de la predicción de resultados de una

(2)

Primeras definiciones y conceptos de la

regresión

„ Cuando se cree que algunas de las variables pueden causar ( o al

menos explicar) los cambios observados en otra, a éstas se les llama variables explicativas (X’s)

„ La que mide el resultado del estudio se le llama variable respuesta (Y)

„ Se intentará establecer una ecuación de la forma Y=g(x)

Metodología de un análisis de regresión

1. Representar los datos en un gráfico 2. Identificar su aspecto y sus desviaciones

3. Descripciones numéricas que informen sobre los datos y su

posible relación

4. Descripción matemática resumida del aspecto general del

(3)

1. Representación de los datos

„ La manera de mostrar gráficamente los datos observados en un gráfico es a través de un diagrama de dispersión.

„ Y, la respuesta se marca en el eje vertical; la X, variable

explicativa, en el eje horizontal. Cada observación, es un punto del gráfico

2. Identificación del aspecto del diagrama

de dispersión

„

El aspecto general del gráfico viene dado por la dirección,

forma y fuerza del mismo:

„ Dirección: positiva o negativa

„ Forma: disposición de los puntos (rectilínea o curvilínea)

„ Fuerza: cuanta más amorfa sea la disposición de los puntos

(4)

2. Identificación del aspecto del diagrama

de dispersión

„

Es interesante en esta primera identificación del aspecto

del gráfico, identificar observaciones atípicas (aquellas que

se distinguen del aspecto general del gráfico)

„

El diagrama de dispersión sólo muestra el aspecto general

de la relación entre las dos variables.

„

En situaciones no muy evidentes, un simple cambio de

escala puede hacernos cambiar la forma de pensar.

Edad Tie m p o 48 46 44 42 40 38 36 34 32 30 450 400 350 300

Scatterplot of Tiempo vs Edad

2. Identificación del aspecto del diagrama

de dispersión

(5)

3. Descripciones numéricas

„ Se necesita una medida numérica que complemente al gráfico y que, independientemente de las dimensiones de los valores de las variables, nos informe sobre la fuerza de la relación existente.

„ Una medida es el Coeficiente de correlación

Características del coeficiente de correlación

de Pearson

„ r utiliza valores estandarizados, luego no le influyen las unidades: tomaría el mismo valor aunque se cambiara de unidad de medida.

„ r se ve afectada por las observaciones atípicas

„ Una r positiva (negativa)indica una relación positiva (negativa)

entre las variables.

„ Valores de r cercanos al 0 indican una relación lineal muy débil.

La fuerza de la relación lineal aumenta a medida que r se aleja del 0 y se acerca al +1 o al –1.

(6)

Ejemplos reales

180 170 160 150 95 90 85 80 75 Temperatura 150 160 170 180 75 80 85 90 95 Temperatura 150 160 170 180 75 80 85 90 95 Temperatura

Situación1 Situación 2 Situación 3

r = 0,983 r = 0,887 r = 0,230

p-value: 0,000 p-value: 0,000 p-value: 0,108

Un valor de r distinto de 0 no implica relación lineal Es necesario que sea “significativamente distinto de cero”

Coeficiente de correlación: Precaución

El coeficiente de correlación de Pearson sólo mide relación LINEAL

0 10 20 30

0 100 200

r = 0,5 pero ...

Relación casi perfecta, aunque no lineal.

(7)

4. Descripción matemática de la forma del

gráfico

„ Si la correlación entre las dos variables indica una relación fuerte, sería muy interesante poder “resumir” el gráfico en forma de una ecuación matemática.

„ En el caso de una forma lineal, a la recta que ajusta la nube de

puntos se le llama recta de regresión.

„ Esta recta se calcula teniendo en cuenta dos cosas:

„ Puesto que describe un cambio en la respuesta a medida que

cambia la otra variable, se necesita tener presente esta distinción a la hora de calcularla.

„ Puesto que ninguna recta puede pasar exactamente por todos

los puntos, se necesita una manera de construirla que asegure su paso tan cerca de todos los puntos como sea posible.

4. Descripción matemática de la forma del

gráfico

Edad Tie m p o 48 46 44 42 40 38 36 34 32 30 450 400 350 300 250 S 38,3533 R-Sq 37,1% R-Sq(adj) 35,0%

Fitted Line Plot

Tiempo = - 1550 + 95,80 Edad - 1,193 Edad**2

(8)

Modelo de regresión simple

Modelo teórico para la población:

y = β0+ β1x + ε

ε~ N (0, σ)

Recta ajustada: (a partir de una muestra)

x b b = 0+ 1 xi X Y yi observado recta la de predicción i yˆ

distancia entre lo real y lo que se predice

)

x

x

(

s

s

r

y

x y

+

=

Modelo de regresión simple

„ La pendiente de la recta , b1, representa la tasa de cambio, es

decir, la cantidad en que cambia cuando x aumenta en una unidad. x y 1 s s r b = ⋅ yˆ 1 b1 b0 x b b = 0+ 1 y

(9)

Modelo de regresión simple

„

r

2

, representa la fracción de la variación de Y que se explica

por la regresión de Y sobre X y sirve de medida de bondad

de la regresión para explicar la respuesta.

„

La parte de la variable Y que no es explicada por el modelo

se llama residual.

„

Una vez dibujada la recta de regresión, existe un valor

residual para cada dato:

e

=

y

Modelo de regresión simple

i i

i

y

e

=

(10)

Análisis de los residuos

„

La disposición de los residuos sirve para comprobar si la

recta sirve para ajustar los datos

„

Dibujando sus valores en el eje de ordenadas frente a las

predicciones deben presentar una forma uniforme ,

centrada en el valor 0, a lo largo de toda la recta, sin que

aparezca ningun valor extraño

Inferencia para la regresión lineal

150 160 170 180 75 85 95 Temperatura R endi 2 Rendi2 = 10,2163 + 0,447563 Temperatura S = 2,01711 R-Sq = 78,6 % R-Sq(adj) = 78,2 % Regression 95% CI 95% PI Regression Plot

Intervalo para la recta

(11)

Regresión no lineal

„ La relación entre x e y no tiene porqué ser lineal.

„ Los softwares informáticos ajustan los datos a curvas no lineales (exponenciales, parabólicas, etc.) y calculan el valor de r2para

medir la fuerza de esa relación.

Edad Tie m p o 48 46 44 42 40 38 36 34 32 30 450 400 350 300 250 S 38,3533 R-Sq 37,1% R-Sq(adj) 35,0%

Fitted Line Plot

Tiempo = - 1550 + 95,80 Edad - 1,193 Edad**2

Regresión múltiple

„ La regresión múltiple expresa el valor de la variable dependiente

Y, como función de las variables independientes X1, X2, ...,Xk

„ La más simple es la regresión lineal y el modelo al que se

debieran ajustar los datos es:

i ki k i 2 2 i 1 1 i

X

X

...

X

Y

=

α

+

β

+

β

+

+

+

β

+

ε

(12)

Regresión múltiple

Comprobar si el rendimiento de un proceso químico depende, además de la temperatura de la presión a la que se realiza.

Regresión múltiple lineal: Interpretación de

resultados

Regression Analysis: Rendi versus Presion; Temperatura

The regression equation is

Rendi = 48,9 + 1,84 Presion + 0,208 Temperatura Predictor Coef SE Coef T P Constant 48,941 2,709 18,07 0,000 Presion 1,8437 0,4699 3,92 0,001 Temperat 0,20807 0,01562 13,32 0,000 S = 0,7947 R-Sq = 90,8% R-Sq(adj) = 89,9%

Desviación tipo de los residuos s

2 ±

Pruebas de significación para los coeficientes

(13)

„

Coeficiente de correlación múltiple

„

El r

2

proporciona, al igual que en el caso simple, una

medida de la fuerza de la relación entre Y y sus

predicciones, a partir del modelo de regresión propuesto

(plano de regresión)

„

Se pueden definir también, coeficientes de correlación

parciales, r

YXi

, miden la relación entre Y y X

i

eliminando los

efectos del resto de X

j

Regresión múltiple lineal: Interpretación de

resultados

=

=

2 i i 2 i i 2 2

)

y

y

(

)

y

(

1

r

R

„ Al igual que en el caso simple, pueden calcularse intervalos de confianza para los coeficientes del plano

„ También al igual que en el caso simple, será necesaria la

comprobación de la adecuidad del modelo con el análisis y estudio de sus residuos: éstos deben de ser normales, centrados en 0 y con variabilidad constante.

(14)

Ejemplo práctico con MINITAB

„ Deducir una ecuación que relacione el tiempo marcado por una

atleta (en minutos) en una carrera de triatlón con los siguientes posibles factores:

„ Edad del deportista

„ Peso del deportista

„ Experiencia en la práctica del triatlón, en años

„ Kilómetros en carrera en entrenamientos

„ Kilómetros en bicicleta en entrenamientos

„ Kilómetros nadadndo en entrenamientos

„ Consumo de oxígeno corriendo

„ Consumo de oxígeno en bicicleta

„ Cosumo de oxígeno nadando

(15)

Ejemplo práctico con MINITAB

„ Para la Regresión Simple: Stat/Regression/Fitted Line Plot

Residual Pe rc e nt 100 0 -100 99,9 99 90 50 10 1 0,1 Fitted Value Re si d ua l 380 360 340 320 100 50 0 -50 -100 Residual Fr e q ue nc y 80 40 0 -40 -80 16 12 8 4 0 Observation Order Re si d ua l 65 60 55 50 45 40 35 30 25 20 15 10 5 1 100 50 0 -50 -100

Normal Probability Plot of the Residuals Residuals Versus the Fitted Values

Histogram of the Residuals Residuals Versus the Order of the Data Residual Plots for Tiempo

Edad Tie m p o 48 46 44 42 40 38 36 34 32 30 450 400 350 300 S 44,7224 R-Sq 13,0% R-Sq(adj) 11,7%

Fitted Line Plot

Tiempo = 205,2 + 3,585 Edad Ti e m p o 48 46 44 42 40 38 36 34 32 30 450 400 350 300 250 S 38,3533 R-Sq 37,1% R-Sq(adj) 35,0%

Fitted Line Plot

Tiempo = - 1550 + 95,80 Edad - 1,193 Edad**2 Residual Pe rc e nt 100 50 0 -50 -100 99,9 99 90 50 10 1 0,1 Fitted Value Re si d ua l 360 340 320 300 280 100 50 0 -50 Fr eq ue n cy 16 12 8 4 0 Re si d ua l 100 50 0 -50

Normal Probability Plot of the Residuals Residuals Versus the Fitted Values

Histogram of the Residuals Residuals Versus the Order of the Data Residual Plots for Tiempo

(16)

Ejemplo práctico con MINITAB

„ Lo más habitual en la práctica es querer establecer una relación entre una variable respuesta (Y) y varias explicativas (X’s)

„ Para la Regresión Múltiple, existen varias opciones: „ Stat/Regression/Regression

„ Stat/Regression/Best Subsets „ Stat/Regression/Stepwise

Ejemplo práctico con MINITAB

Regression Analysis: Tiempo versus Edad; Peso; ...

The regression equation is

Tiempo = 486 + 3,41 Edad + 0,347 Peso - 21,4 Experiencia + 0,702 EnCarrera - 0,173 EnBici - 1,37 EnNatacion - 3,36 COCarrera - 1,38 COBici + 0,893 CONatacion

Predictor Coef SE Coef T P Constant 486,3 114,5 4,25 0,000 Edad 3,410 1,091 3,13 0,003 Peso 0,3470 0,7862 0,44 0,661 Experien -21,424 3,697 -5,80 0,000 EnCarrer 0,7025 0,2771 2,54 0,014 EnBici -0,17251 0,06920 -2,49 0,016 EnNataci -1,3727 0,9566 -1,43 0,157 COCarrer -3,3550 0,8338 -4,02 0,000 COBici -1,3845 0,9098 -1,52 0,134 CONataci 0,8934 0,9217 0,97 0,337 S = 22,70 R-Sq = 80,4% R-Sq(adj) = 77,2% Analysis of Variance Source DF SS MS F P Regression 9 116566 12952 25,14 0,000 Residual Error 55 28339 515 Total 64 144905 Unusual Observations

Obs Edad Tiempo Fit SE Fit Residual St Resid 19 36,0 408,00 359,05 10,03 48,95 2,40R

¡¡Cuidado!!

Bondad del ajuste

Linealidad significativa

(17)

Ejemplo práctico con MINITAB

„ Realizar un análisis de regresión multivariante tiene el siguiente

inconveniente: si dos variables X están muy relacionadas entre sí y aportan mucho a la hora de conocer Y, una de ellas tendrá un p-valor grande y la otra no. Pero, de eliminar una ¿cuál

eliminaríamos? Una la conozco, pero no sé con cual está correlacionada....

„ Posibilidades:

„ Representar gráficamente las relaciones: Gráfico matriz

„ Calcular los coeficientes de correlación entre las variables

(18)

Ejemplo práctico con MINITAB

Tiempo 48 40 32 60 70 800,0 2,5 5,0 30 60 90150 300 4500 10 2050 60 70 50 60 7040 50 60 420 360 300 Edad 48 40 32 Peso 80 70 60 Experiencia 5,0 2,5 0,0 EnCarrera 90 60 30 EnBici 450 300 150 EnNatación 20 10 0 CoCarrera 70 60 50 CoBici 70 60 50 CoNatación

Matrix Plot of Tiempo; Edad; Peso; Experiencia; EnCarrera; EnBici; ...

(19)

Ejemplo práctico con MINITAB

Correlations: Tiempo; Edad; Peso; Experiencia; EnCarrera; EnBici; EnNatación; Co

Tiempo Edad Peso Experien EnCarrer EnBici EnNataci CoCarrer CoBici Edad 0,361 Peso 0,249 0,342 Experien -0,436 0,414 0,254 EnCarrer -0,469 -0,288 -0,090 0,349 EnBici -0,492 -0,356 -0,091 0,137 0,792 EnNataci -0,430 -0,419 0,132 -0,005 0,479 0,691 CoCarrer -0,695 -0,306 -0,506 0,183 0,255 0,147 0,160 CoBici -0,647 -0,441 -0,474 0,146 0,376 0,323 0,090 0,695 CoNataci -0,596 -0,635 -0,340 0,134 0,478 0,415 0,380 0,548 0,652

Ejemplo práctico con MINITAB

„ Cuando existen muchas variables X que pueden influir en la

respuesta Y, estas opciones pueden resultar complicadas de interpretar.

„ ¿Cómo resuelve este problema MINITAB?

„ Stepwise:crea un modelo paso a paso, eligiendo primero la variable X

que mejor explica la Y, añadiendo después una a una, otras X que junto con las anteriores aporten información. Para, cuando no encuentra ninguna más de las que quedan fuera que añada información

„ Best Subsets: Crea subconjuntos de n variables X que mejor explican

(20)

Ejemplo práctico con MINITAB

Step 1 2 3 4 5 Constant 687,9 709,7 704,1 532,8 516,1 CoCarrer -5,68 -5,20 -4,82 -3,96 -4,09 T-Value -7,67 -8,24 -8,37 -6,81 -7,45 P-Value 0,000 0,000 0,000 0,000 0,000 EnBici -0,203 -0,187 -0,128 -0,242 T-Value -5,15 -5,24 -3,51 -4,69 P-Value 0,000 0,000 0,001 0,000 Experien -10,7 -16,9 -20,8 T-Value -3,94 -5,56 -6,61 P-Value 0,000 0,000 0,000 Edad 3,03 3,53 T-Value 3,56 4,32 P-Value 0,001 0,000 EnCarrer 0,80 T-Value 2,96 P-Value 0,004 S 34,5 29,1 26,2 24,0 22,6 R-Sq 48,31 63,82 71,15 76,17 79,25 R-Sq(adj) 47,49 62,65 69,73 74,59 77,50 C-p 84,4 42,8 24,1 12,0 5,3

(21)

Ejemplo práctico con MINITAB

Response is Tiempo E E E C C x n n o o p C E N C C N e a n a a o a E P r r B t r B t d e i r i a r i a a s e e c c e c c Vars R-Sq R-Sq(adj) C-p S d o n r i i r i i 1 48,3 47,5 84,4 34,482 X 1 41,8 40,9 102,6 36,578 X 2 63,8 62,6 42,8 29,081 X X 2 58,8 57,4 57,0 31,050 X X 3 71,3 69,9 23,8 26,117 X X X 3 71,2 69,7 24,1 26,177 X X X 4 76,2 74,6 12,0 23,987 X X X X 4 75,1 73,5 14,9 24,500 X X X X 5 79,3 77,5 5,3 22,573 X X X X X 5 76,9 75,0 11,9 23,801 X X X X X 6 79,5 77,4 6,7 22,631 X X X X X X 6 79,5 77,3 6,8 22,651 X X X X X X 7 80,1 77,6 7,0 22,506 X X X X X X X 7 79,7 77,2 8,1 22,721 X X X X X X X

(22)

Ejemplo práctico con MINITAB

„ Regresión-Stepwise: crea un modelo paso a paso, eligiendo primero la variable X que mejor explica la Y, añadiendo después una a una, otras X que junto con las anteriores aporten

información. Para cuando no encuentra ninguna más, de las que quedan fuera que añada información

„ Inconveniente:

„ el modelo es muy dependiente de la primera elegida (la que más

información aporta por si sola, pero puede no ser la mejor para trabajar con ella)

Ejemplo práctico con MINITAB

„ Regresión Best Subsets: Crea subconjuntos de n variables X que

mejor explican Y

„ Inconvenientes:

„ No dice cual es la mejor opción, luego hay que decidirse.

„ Su lista se basa en el valor R2, luego habrá que comprobar si las variables

(23)

Ejemplo práctico con MINITAB

„ Si elegimos el modelo con 5 variables (R2=77,5%) y hacemos

regresión multivariante:

The regression equation is

Tiempo = 516 + 3,53 Edad - 20,8 Experiencia + 0,796 EnCarrera - 0,242 EnBici - 4,09 CoCarrera

Predictor Coef SE Coef T P Constant 516,10 54,51 9,47 0,000 Edad 3,5335 0,8188 4,32 0,000 Experien -20,752 3,141 -6,61 0,000 EnCarrer 0,7958 0,2689 2,96 0,004 EnBici -0,24185 0,05154 -4,69 0,000 CoCarrer -4,0886 0,5490 -7,45 0,000 S = 22,57 R-Sq = 79,3% R-Sq(adj) = 77,5% Analysis of Variance Source DF SS MS F P Regression 5 114844 22969 45,08 0,000 Residual Error 59 30062 510 Total 64 144905

Ejemplo práctico con MINITAB

„ ¿Qué pasaría con el de 6 variables añadiendo “Ennatación”?

The regression equation is

Tiempo = 521 + 3,39 Edad - 20,6 Experiencia + 0,758 EnCarrera - 0,215 EnBici - 4,07 CoCarrera - 0,582 EnNatación

Predictor Coef SE Coef T P Constant 520,92 55,06 9,46 0,000 Edad 3,3875 0,8434 4,02 0,000 Experien -20,612 3,157 -6,53 0,000 EnCarrer 0,7583 0,2742 2,77 0,008 EnBici -0,21535 0,06217 -3,46 0,001 CoCarrer -4,0746 0,5512 -7,39 0,000 EnNataci -0,5823 0,7581 -0,77 0,446 S = 22,65 R-Sq = 79,5% R-Sq(adj) = 77,3%

(24)

Ejemplo práctico con MINITAB

„ ¿Y qué pasaría con el de 4 variables quitando “Encarrera”?

The regression equation is

Tiempo = 533 + 3,03 Edad - 16,9 Experiencia - 0,128 EnBici - 3,96 CoCarrera

Predictor Coef SE Coef T P Constant 532,77 57,62 9,25 0,000 Edad 3,0256 0,8508 3,56 0,001 Experien -16,867 3,033 -5,56 0,000 EnBici -0,12825 0,03655 -3,51 0,001 CoCarrer -3,9574 0,5815 -6,81 0,000 S = 23,99 R-Sq = 76,2% R-Sq(adj) = 74,6% Analysis of Variance Source DF SS MS F P Regression 4 110381 27595 47,96 0,000 Residual Error 60 34524 575 Total 64 144905

Ejemplo práctico con MINITAB

„ Antes de dar por válido el estudio y con las opciones elegidas se

(25)

Ejemplo práctico con MINITAB

Residual Pe rc e nt 80 40 0 -40 -80 99,9 99 90 50 10 1 0,1 Fitted Value Re si du a l 450 400 350 300 250 50 25 0 -25 -50 Residual Fr e que ncy 60 40 20 0 -20 -40 12 9 6 3 0 Observation Order Re si du a l 65 60 55 50 45 40 35 30 25 20 15 10 5 1 50 25 0 -25 -50

Normal Probability Plot of the Residuals Residuals Versus the Fitted Values

Histogram of the Residuals Residuals Versus the Order of the Data Residual Plots for Tiempo

Referencias

Documento similar

Ciaurriz quien, durante su primer arlo de estancia en Loyola 40 , catalogó sus fondos siguiendo la división previa a la que nos hemos referido; y si esta labor fue de

En la parte central de la línea, entre los planes de gobierno o dirección política, en el extremo izquierdo, y los planes reguladores del uso del suelo (urbanísticos y

Cedulario se inicia a mediados del siglo XVIL, por sus propias cédulas puede advertirse que no estaba totalmente conquistada la Nueva Gali- cia, ya que a fines del siglo xvn y en

El nuevo Decreto reforzaba el poder militar al asumir el Comandante General del Reino Tserclaes de Tilly todos los poderes –militar, político, económico y gubernativo–; ampliaba

(1886-1887) encajarían bien en una antología de textos históricos. Sólo que para él la literatura es la que debe influir en la historia y no a la inversa, pues la verdad litera- ria

Habiendo organizado un movimiento revolucionario en Valencia a principios de 1929 y persistido en las reuniones conspirativo-constitucionalistas desde entonces —cierto que a aquellas

The part I assessment is coordinated involving all MSCs and led by the RMS who prepares a draft assessment report, sends the request for information (RFI) with considerations,

Es el proceso mediante el cual se realiza una elección entre diferentes alternativas o formas para resolver diferentes problemas a los que nos enfrentamos en la vida, estas se