Regresión y correlación lineal.

(1)

Regresión y correlación lineal.

Este procedimiento proporciona medios legítimos, modelos matemáticos a trabes de los cuales, se puede establecer asociaciones entre variables de interés en las cuales la relación usual no es casual. Las medidas de variabilidad a estudiar son;

1, Coeficiente de correlación

2.- regresión.

Son dos conceptos estadísticos que aunque están relacionados, representan diferentes aspectos.

CORRELACION: Establece la relación mutua entre dos variables de modo que sea posible obtener información de una de ellas a trabes de la otra.

REGRESION: Es un concepto matemáticamente más fuerte debido a que busca establecer la relación funcional (función matemática) entre dos variables.

CORRELACION:

ASOCIACION DE VARIABLES CUALITATIVAS.: En estadísticas se dice que dos variables están correlacionadas, si una de ellas entrega información acerca de la otra; se ilustra este concepto a trabes del siguiente ejemplo:

Ejemplo

:Un ingeniero en construcción esta interesado en establecer la relación que existe entre la dureza del acero medida en Kg./mm2 y la deformación de este medida en mm .Para este propósito estudia una muestra de 9 trozos de acero de iguales características y los sometió a un experimento de laboratorio , obteniendo los siguientes datos:

acero 1 2 3 4 5 6 7 8 9 Dureza/ (Kg./mm2 68 67 65 53 44 40 37 34 32 Deformación mm 6 9 11 13 22 26 28 33 35

Si consideramos: X: dureza del material (variable independiente) Y: deformación del material (variable dependiente)

Se elabora un grafico de dispersión para estudiar la relación que existe entre las variables. ¿Se observa lineal la figura.

(2)

La dureza explica la deformación.

El diagrama de dispersión , solo nos sirve para tener una idea del tipo de asociación

lineal (directa o inversa) , pero es difícil cuantificar el grado de dicha asociación

Para este propósito se utiliza el coeficiente de correlación , el que se basa en un

estadístico denominado covarianza y que esta dado por :

Sx = Cov(X,Y) =

1 ) )( ( 1 − − −

∑

= n Y Yi X Xi nn n

=

1 * 1 − −

∑

= n XY n Yi Xi n n

Este estadístico denominado covarianza tiene algunas desventajas

debido a que; *por un lado no se encuentra acotado y por ende es difícil saber cuando un valor de la covarianza, indica un alto o bajo grado de asociación.

-∞_p Sxy _p∞

*este indicador posee unidades, es decir, no es adimensional.

Estos dos aspectos dificultan la interpretación de la covarianza, rescatando de ella solo su signo (+,-), el que indica si la relación es directa (+) o inversa (-).

La solución de este problema se consigue , estandarizando la covarianza , de modo que sea acotada y adimensionada.Este nuevo coeficiente recibe el nombre de COEFICIENTE DE CORRELACION DE PEARSON , EL QUE VIENE DADO POR :

(3)

r       −       − − =

∑

= = = n n n i n i p Y n Yi X n Xi XY n Yi Xi 1 2 2 1 2 2 1 *

Este estadístico esta acotado entre = -1≤rp ≤1 .Cuando rp = 1 o rp =-1 , se

dice que existe correlación lineal perfecta (directa o inversa), entre las variables, respectivamente.

estado Coeficiente de Pearson

Correlación directa rp f0

Correlación inversa r_p _p0

No existe correlación lineal rp=0

Correlación baja ₀ _p ₀_.₃ p r ≤ Correlación media _0.3 _p p r ≤ 0.8 Correlación alta _0.8_≤ _≤₁ p r

Del ejemplo anterior:

Acero 1 2 3 4 5 6 7 8 9 Suma Dureza (xi) 68 67 65 53 44 40 37 34 32 440 Deformación(yi) 6 9 11 13 22 26 28 33 35 183 Xi*Yi 408 603 715 689 968 1040 1036 1122 1120 1701

∑

= 9 1 n

(4)

(

)

2 X Xi− 365.2 327.9 259.5 16.89 23.91 79.03 141.37 221.7 285.3 1720.8

( )

2 Y Y_i − 205.34 128.4 87.05 53.73 2.79 32.15 58.83 160.5 215.2 943.99 S 14.66 8 8 . 1720 ₌ = x S 10.86 8 99 . 943 ₌ = y X = (68+67+65+53+44+40+37+34+32)=48,89 Y = (6+9+11+13+22+26+28+33+35) =20.33 rp= y x i i i S S n Y X n Y X * ) 1 ( : ) ( 9 1 −       −

∑

= ; S

(

)

2 1 1 X X n i x − − = , S =

( )

"2 1 1 Y Y n− i− r

[

(

)

]

0.977 86 . 10 * 66 . 14 8 : ) 33 . 20 ( * ) 89 . 48 ( * 9 1701 − = − = p

*Existe una alta correlación lineal inversa entre la deformación del material y la dureza de dicho material. Es decir, a mayor dureza del material, menor es la deformación del mismo.

ASOCIACION EN ESCALA ORDINAL.

Para establecer asociación en escala ordinal, se utilizara el coeficiente de correlación de SPEARMAN.

Para variables cuantitativas emplearemos el coeficiente de

PEARSON ( r

_p

),

sin embargo este coeficiente exige que las variables que se correlacionan sean realmente números o cantidades medibles, por lo que no se puede aplicar cuando la escala es ordinal. En este caso ocuparemos el coeficiente de correlación de

SPEARMAN ( r

s

),

el cual se basa en los rangos (o posiciones que

ocupan los datos) en lugar de números o datos directamente de correlación de SPEARMAN viene dado por:

r

) 1 ( ) ( * 6 1 ₂1 2 − − =

∑

= n n D n n i s Donde: D_i=R(Xi)−R(Yi)

R (Xi) : Representa el rango o posición que ocupa el dato en la muestra. R(Yi) : Representa el rango o posición que ocupa el dato en la muestra.

(5)

OBSEREVACION: La interpretación del coeficiente de SPEARMAN es

igual al coeficiente de PEARSON.

EJEMPLO:

Diez opositores obtienen puntuaciones registradas en el cuadro 1, en cada uno de los dos ejercicios realizados. Estudie la relación que existe en las puntuaciones de ambos ejercicios.

CUADRO 1

OPOSITOR EJE.1 EJE.2

A 25 46 B 40 50 C 35 65 D 60 40 E 80 70 F 55 42 G 14 38 H 30 35 I 27 18 J 75 80

SOLUCION: Debido a que la variable involucrada (puntaje) esta medida en una escala ordinal, se aplica el coeficiente de SPEARMAN. El cuadro siguiente muestra la asignación de los rangos y las diferencias Di

CUADRO 2. Ordenación de los puntajes obtenidos por los opositores.

OPOSITOR EJEM1 EJEM2 R1 R2 Di Di

E 80 70 1 2 -1 1 J 75 80 2 1 1 1 D 60 40 3 7 -4 16 F 55 42 4 6 -2 4 B 40 50 5 4 1 1 C 35 65 6 3 3 9 H 30 35 7 9 -2 4 I 27 18 8 10 -2 4 A 25 46 9 5 4 16 G 14 38 10 8 2 4 60

Calculando el coeficiente de correlacion: r 1 0.36 0.64 ) 1 100 ( * 10 60 * 6 1 = − = − − = s

El coeficiente de correlación de SPEARMAN indica que existe una moderada correlación lineal entre los puntajes obtenidos por opositores.

OBS: Los rangos de la variable x, R(x), se obtienen ordenando los datos de esta variable, en forma ascendente o descendente, asignando un 1 al valor más pequeño y un valor “n” al valor máximo. (de

(6)

igual manera para la variable y).En caso de haber empates, el rango que se asigna es el promedio de las posiciones que sus datos ocupan.

Como ejemplo consideremos, que tres datos tienen el mismo valor y estos deberían ocupar, las posiciones 2, 3, y 4, entonces el rango único que se les asigna a estos datos seria (2+3+4)/3; el dato siguiente pasaría a ocupar la posición 5.

Regresión lineal simple.

Esta teoría permite a través de un modelo estadístico PREDECIR O PRONOSTICAR el valor de una variable (Y, denominada variable dependiente o repuesta) en función de una o más variables independientes o predoctoras (X, conocida como covariables). Para establecer el modelo de regresión, debe existir correlación entre X e Y .Si el conjunto de variables predoctoras contiene un solo elemento, la regresión se denomina regresión simple, en caso contrario se denomina regresión múltiple.

Si la relación que existe entre X e Y es lineal, el modelo se denomina REGRESION LINEAL SIMPLE.

Consideremos el siguiente modelo estadístico; Y = f(X) +ε , con ε un error aleatorio (variable aleatoria).La forma de f(x) generalmente se obtiene a partir del diagrama de dispersión.

Lineal cuadrática exponencial

F(X) = A+BX FX) = AX

2

+BX+C F(X) = Ae

BX

Se define la suma de cuadrados del error (SCE); como:

SCE.=

∑

= n i 1 2 i ε

Además se define un modelo de regresión lineal como: Y = A + BX + ε;

Con A conocido como INTERCEPTO y B como la pendiente de la recta. Para un modelo de regresión simple, la SCE viene dada por:

SCE =

∑

= n i 1 2 i ε =

∑

= n i 1 (Y_i−A−BX_i)2

(7)

Para encontrar los valores de A y B se ocupa el método de los mínimos cuadrados , el cual se basa en la minimización de la suma del cuadrado del error (SCE) .Para minimizar la SCE se debe derivar respecto de A y de B e igualar a cero , de la siguiente forma.

0 ) ( 1 2 =       − −

∑

= dA BXi A Yi d n i 0 ) ( 1 2 =       − −

∑

= dB BXi A Yi d n i

Las derivadas vienen dadas por:

∑

= = = = _      − − − = − = n i n i n i i i i n i i X B nA Y dA d 1 1 1 1 2 2 2 ε ε

∑

= = = = =         − − − = − = n i n i n i i n i i i i i n i i X B Y A Y X dB d 1 1 2 1 1 1 2 2 2 ε ε

Igualando a cero las ecuaciones anteriores i despejando A y B se tiene:

= ; =

∑

= = − − n n i n n i i X n X Y X n X X 1 2 2 1

De esta manera la pendiente B es proporcional al coeficiente de correlación de PEARSON de la siguiente manera:

= Sx Sy rp .

De esta manera, la recta estimada, mediante mínimos cuadrados, viene dada por:

= + X.

COMENTARIO: Lo anterior se denomina, MODELO AJUSTADO, y siempre es posible obtenerlo, independiente de que este sea un buen modelo o no.

BONDAD DE AJUSTE DEL MODELO.

L adecuacidad de los datos al modelo se puede determinar a través de una tabla denominada TABLA DE ANALISIS DE VARIANZA (ANOVA, ANDEVA, ANVA), cuya estructura es la siguiente.

(8)

Cuadro: Tabla de análisis de varianza. Fuente de variación Suma de Cuadrados Grados de libertad

Cuadrados medios Estadístico F Regresión error SRC SCE p-1 n-p CMR = SCR/P-1 CME=SCE/n-p F=CMR/CME TOTAL SCT n-1

Del cuadro se desprende que: *Descomposición de la varianza Y SCR =

∑

= n i 1 (Yi-Y)2 SCE =

∑

= n i 1 (Yi- )2 SCT =

∑

= n i 1

( )

2 Y Yi−

Las ecuaciones anteriores se deducen de la siguiente idea, DESVIO MAX = DESVIO MODELO + DESVIO ERROR.

( )

Yi−y =( i-Y) + (Yi- i) elevando al cuadrado, se obtiene,

( )

− 2 =

Y

Yi ( i-Y)2+2( iYi- 2-Yi*Y + Y i) + (Yi- i)2

( )

− 2 = Y Yi ( -Y)2 + (Yi- )2 /

∑

= n i 1

∑

= n i 1

( )

∑

= = − n i Y Yi 1 2 ( I-Y)2+

∑

= n i 1 (Yi- )2 SCT = SCR + SCE

La expresión anterior se conoce como la descomposicion de la varianza de Y. Decisión del modelo.

Si el estadístico F= f5 CME CMR

, EL MODELO ES ADECUADO PARA PREDECIR y EN FUNCION DE x.

COEFICIENTE DE DETERMINACION DEL MODELO.

El primer paso para realizar un análisis de REGRESION SIMPLE es realizar un diagrama de dispersión. En base a este diagrama se postula un modelo de la forma Y = f(X) +ε , posteriormente este modelo se ajusta a través del método de los mínimos cuadrados, obteniendo el modelo ajustado; Y= A + BX. Una vez hecho el ajuste se debe establecer su bondad, a través de la tabla ANOVA .Si la tabla indica que el modelo es adecuado, entonces se debe determinar el porcentaje de la variabilidad total de Y que es explicada por el modelo. Para este hecho se ocupa el coeficiente de determinación (R2), el cual viene dado por;

(9)

R2 = *100% SCT SCR R2=

( )

rp 2*100% Un valor alto de R2

indicaría que el modelo explica una alta variabilidad de Y.

Ejemplo: Un ingeniero en construcción esta interesado en establecer la relación que existe entre la dureza del acero medida en kg/mm2 y la deformación de este medida en mm .Para este propósito estudia una muestra de 9 trozos de acero de iguales características y los sometió a un experimento de laboratorio , obteniendo los siguientes datos:

acero 1 2 3 4 5 6 7 8 9 Dureza/ (kg/mm2 68 67 65 53 44 40 37 34 32 Deformación mm 6 9 11 13 22 26 28 33 35

Se pide ajustar un modelo de regresión lineal. Para ellos se definen las variables. Sean:

X: Dureza de material (variable independiente) Y: Deformación de material (variable dependiente) *modelo propuesto, de acuerdo al diagrama de dispersión.

ε + + = i i A BX Y ; i= 1,2,3,4,……..9 Deformación = A + B*Dureza +ε Modelo ajustado vía mínimos cuadrados;

= 0.723 ) 89 . 48 ( * 9 23232 ) 33 . 20 * 89 . 48 * 9 ( 7701 2 =− − − = 20.33 + 0.723*48.89 = 55.72 Cuadro de resultados del problema del acero Dureza

Xi

Deformación Yi

Xi*Yi Xi2 _Yi

(Yi-Y)2 (Yi-Y)2 (Yi-Yi) 2

68 6 408 4624 6 205 191 0 67 9 603 4489 7 128 172 3 65 11 715 4225 9 87 136 5 53 13 689 2809 17 54 9 19 44 22 968 1936 24 3 13 4 40 26 1040 1600 27 32 41 1 37 28 1036 1369 29 59 74 1 34 33 1122 1156 31 160 116 4 32 35 1120 1024 33 215 149 6 suma 7701 23232 944 902 42

(10)

33 .

20 =

Y

Entonces el modelo postulado es: i = + Xi ; i= 1,2,3,4, 9

I=55.72 – 0.72Xi INTERPRETACION:

: Bajo la ausencia de la dureza del material, se espera una deformación promedio de 55.72 mm. : Cuando existe un aumento de una unidad de medida de la dureza, se espera una disminución de 0.72 de deformación (Y) BONDAD DE AJUSTE. FUENTE DE VARIACION SUMA DE CUADRADOS GRADOS DE LIBERTAD CUADRADOS MEDIOS ESTADISTICO F REGRESION ERROR 902 42 1 7 902 6 7 42 = 150.33 902.6 TOTAL 944 8

El modelo propuesto es adecuado para predecir la deformación en función de la dureza del material (150.33f5)

COEFICIENTE DE DETERMINACION.

El 95.55% de la variabilidad total es explicada por el modelo propuesto. Es decir, cerca del 90% de la variabilidad presente en las deformaciones del material es explicada por la dureza de dicho material, mientras que aproximadamente el 4% restante es explicada por otras variables no consideradas.

VISUALMENTE TENEMOS LO SIGUIENTE;

EL GRAFICO MUESTRA LOS VALORES OBSERVADOS, PREDICHOS Y RECTA MINIMOS CUADRADOS, EN EL EJEMPLO DEL ACERO.

(11)

Aplicación nº 1.-

Suponga que los siguientes datos correspondan a 10 pacientes con hábitos de fumar. A estos pacientes se les pregunto ¿Cuántos años ha fumado? Y se les midió el daño sufrido en los pulmones, mediante un test de esfuerzo físico;

PACIENTE 1 2 3 4 5 6 7 8 9 10 AÑOS QUE HA FUMADO 25 36 22 15 48 39 42 31 28 33 DAÑO EN LOS PULMONES 55 60 50 30 75 70 70 55 30 35

1.1.- DEFINA Y CLASIFIQUE LAS VARIABLES INVOLUCRADAS. X: AÑOS QUE HA FUMADO ( CUANTITATIVA DISCRETA) Y: DAÑO. (Ordinal, cualitativa dependiente).

ORDEN:

PACIENTE AÑOS DAÑO R1 R2 Di Di2

4 15 30 1 4 -3 9 3 22 50 2 3 -1 1 1 25 55 3 1 2 4 9 28 30 4 9 -5 25 8 31 55 5 8 -3 9 10 33 35 6 10 -4 16 2 36 60 7 2 5 25 6 39 70 8 6 2 4 7 42 70 9 7 2 4 5 48 75 10 5 5 25

∑

= 122 COEFICIENTE DE SPEARMAN:

(12)

r ) 1 ( 6 1 ₂ 10 1 2 − − =

∑

= = n n Di n i s r 1 0.739 0.26 990 732 1 ) 1 100 ( 10 122 * 6 1 = − = − = − − = s ; 0≤rs ≤0.3

Existe una baja correlación Ejercicio de aplicación 2.-

La siguiente tabla relaciona las velocidades en km/hr, de cierto tipo de vehiculo, con los consumos en Lts cada 100 km.

Velocidad 50 60 60 70 80 80 90 90 100 100 100 110 consumo 5.9 6.1 6.2 6.5 6.6 6.7 6.8 6.9 7.0 7.1 7.2 7.3 Establezca si puede o no aceptar una dependencia estadística del tipo Y = A +B X

SOLUCION: SEAN

X: Variable independiente cuantitativa (velocidad) Y: Variable dependiente cuantitativa (Consumo)

= 82.5 12 990 12 110 100 100 100 90 90 80 80 70 60 60 50 = = + + + + + + + + + + + km/h = 6.69 6.7 12 3 . 80 12 3 . 7 2 . 7 1 . 7 0 . 7 9 . 6 8 . 6 7 . 6 6 . 6 5 . 6 2 . 6 1 . 6 9 . 5 = = = + + + + + + + + + + + lts/100km. =0.067 lts/km. (Xi-)2 1056.3 506.3 506.3 156.3 6.25 6.25 56.25 56.25 306.3 306.3 306.3 756.25 (Yi-)2 0.64 0.36 0.25 0.04 0.01 0 0.01 0.04 0.09 0.16 0.25 0.36

∑

( − )2 =4025.05 X Xi ; Sx = *4025.05 19.12 11 1 =

∑

(Yi−Y)2 =4.2 ; Sy = *4.2 0.62 11 1 = Xi 50 60 60 70 80 80 90 90 100 100 100 110 Yi 5.9 6.1 6.2 6.5 6.6 6.7 6.8 6.9 7.0 7.1 7.2 7.3 Xi*Yi 295 336 372 455 528 536 612 621 700 710 720 803

∑

Xi*Yi=6688

∑

Xi2 =85700 COEFICIENTE DE PEARSON: r

(

)

Sy Sx n Y X n Yi Xi p * ) 1 ( : * * − − =

∑

(13)

(

)

(

)

42 . 0 904 . 11 5 904 . 11 11 : 55 904 . 11 11 : 6633 6688 62 . 0 * 12 . 19 11 : 7 . 6 * 5 . 82 * 12 6688 = = = − = − = p r

Como 0.3prp p0.8 existe una correlación media

ESTIMACION DE LOS PARAMETROS MEDIANTE EL METODO DE LOS MINIMOS CUADRADOS. =

∑

= = − − n i N I X n Xi Y X n Yi Xi 1 2 2 1 * * * = 0.014 4025 55 81675 85700 6633 6688 ) 5 . 82 ( * 12 85700 7 . 6 * 5 . 82 * 12 6688 2 ₋ = = − = − − Como: = + ; luego = 6.7+0.014*82.5 = 7.85

Luego el modelo lineal será : Yi = 7.85 + 0.014X. INTERPRETACION :

1.- Bajo la ausencia de aumento de velocidad, se espera un consumo promedio de 7.85 lts por cada 100 km.

2.- Para un aumento de la velocidad en 1km / hr , se espera un aumento en el consumo de 0.014 lts. COEFICIENTE DE DETERMINACION DEL MODELO .

R 1*100 100% 2 . 4 2 . 4 ) ( ) ( 2 2 2 ₌ ₌ ₌ − − = =

∑

Y Yi Y Y SCT SCR Tabla : Yi 5.9 6.1 6.2 6.5 6.6 6.7 6.8 6.9 7.0 7.1 7.2 7.3 (orden) 5.9 6.1 6.2 6.5 6.6 6.7 6.8 6.9 7.0 7.1 7.2 7.3 ( - 2 ) Y 0.64 0.36 0.25 0.04 0.01 0 0.01 0.04 0.09 0.16 0.25 0.36 7 . 6 = Y

∑

= n i 1 ( - )Y 2=4.2