U4.1. Analisis de regresion y correlacion

(1)

Variable dependiente o Variable regresiva

UNIDAD 4. LOS FENOMENOS DINAMICOS

Analisis de regresión

El análisis de regresión involucra el estudio de la relación entre dos ó más variables cuantitativas. En general interesa:

 Estudiar la forma de la relación. Usando los datos propondremos un modelo para la relación que se presenta y a partir de él será posible predecir el valor de una variable a partir de las otras.

 Estudiar la fuerza de la asociación, a través de una medida de asociación que se definirá con ese objetivo.

 Investigar si existe una asociación entre las variables mediante inferencia estadística a través de un testeo de hipótesis de independencia.

Un caso simple e interesante a estudiar, y como modelo de análisis para introducirnos en esta técnica, es el modelo de regresión simple que relaciona una variable dependiente (Y) con una única variable independiente (X). La decisión sobre qué análisis usar en una situación particular, depende de la naturaleza del fenómeno y del tipo de función que se propone para relacionar las variables independiente y dependiente.

Variables en regresión

Modelo determinístico vs. Modelo aleatorio

Llamaremos modelo matemático a la función matemática que proponemos como forma de relación entre la variable dependiente (Y) y la o las variables independientes.

Un modelo determinístico supone que bajo condiciones ideales, el comportamiento de la variable dependiente puede ser totalmente descripto por una función matemática de la variable independiente. Es decir, en condiciones ideales el modelo permite predecir sin error el valor de la variable dependiente.

Variables independientes o Variables regresoras

Se usan como predictores o son variables de confusión

que interesa controlar

Atributos sobre los cuales se quieren medir

(2)

Un modelo estadístico ó aleatorio ó estocástico permite la incorporación de un componente aleatorio en la relación. En consecuencia, las predicciones obtenidas a través de modelos estadísticos tendrán asociado un error de predicción.

Ejemplo: Relación de la altura con la edad en niños. Niños de la misma edad seguramente no tendrán la misma altura. Sin embargo, a través de un modelo estadístico es posible concluir que la altura aumenta con la edad. Es más, podríamos predecir la altura de un niño de cierta edad y asociarle un error de predicción que involucra errores de medición y variabilidad entre individuos.

En problemas biológicos, trabajando en “condiciones ideales” es posible evitar los errores de medición, pero no la variabilidad individual, por eso es indispensable incluir el componente aleatorio en los modelos estadísticos.

Nos ocuparemos especialmente del modelo que involucra una sola variable independiente X y en particular de una función simple y bien conocida para estudiar la relación entre dos variables es la función lineal

y = a + b x

♦ Esta expresión es una aproximación de la verdadera relación entre X e Y que a nivel poblacional se expresa como:

Y = α + β X

♦ Para un dado valor de X el modelo predice un cierto valor para Y.

♦ Mientras mejor sea la predicción, mejor es el modelo para explicar el fenómeno.

Interpretación de los coeficientes:

 El coeficiente b ó β en la población,es la pendientede la recta, mide el cambio en Y por cada unidad de cambio dado en X.

 El coeficiente aó α en la población, es la ordenada al origen, el punto donde la recta cruza el eje Y, es decir el valor de Y cuando X = 0.

Nos ocuparemos específicamente de estudiar el modelo de Regresión Lineal, aunque pueden establecerse muchas otras relaciones matemáticas entre las variables estudiadas como exponencial o logarítmica.

Haremos énfasis en los modelos lineales porque: ♦ son de amplia aplicación,

♦ son más simples de implementar,

♦ otros procedimientos estadísticos más complejos pueden ser mejor comprendidos luego de trabajar exhaustivamente con el de regresión lineal.

Por otro lado, como dijimos antes existe una componente aleatoria que también afecta el poder estimar la variable dependiente por lo tanto sería más razonable incluir esta componente como parte de la modelización, obteniendo una expresión de la función como:

(3)

0 2 4 6 8 10 12 14 16 18 M C L ( m m ) R1 0 2 4 6 8 10 12 14 16 18

0 1 2 3

Dosis (mg) M C L ( m m )

Regresión lineal simple

Consideremos el siguiente experimento controlado y aleatorizado para estudiar el efecto de un nuevo fertilizante sobre el crecimiento de cierta especie de cultivo.

Cinco plantas fueron asignadas aleatoriamente a parcelas tratadas con cinco dosis diferentes de fertilizante y se registró la máxima variación observada en el tamaño de las plantas -ó crecimiento- luego de un período determinado. Los datos obtenidos son:

La relación crecimiento-dosis es aparentemente lineal dada la configuración de los puntos en el diagrama de dispersión. Parece razonable proponer

MCL= a + b . DOSIS + error ó yi = a + b. xi + ei

Probando con algunas rectas que podrían aproximar la variación conjunta de las variables como por ejemplo:

R1: yi= 5,5 + 3,5 . xi ó R2: yi = 0,5 + 7,0. xi Donde:

xi yi yˆi ei=yi yˆi

2

ˆ

(y_i y_i)

0,5 1,0 1,5 2,0 2,5 5,0 8,0 12,0 13,0 16,0 7,3 9,0 10,8 12,5 14,3 -2,3 -1,0 1,2 0,5 1,7 5,29 1,00 1,44 0,25 2,89 Total R1 0,3 10,87

xi yi yˆi ei=yi yˆi

2

ˆ

(y_i y_i)

0,5 1,0 1,5 2,0 2,5 5,0 8,0 12,0 13,0 16,0 4,0 7,5 11,0 14,5 18,0 1,0 0,5 1,0 -1,5 -2,0 1,00 0,25 1,00 2,25 4,00 Total R2 -1,0 8,50 (*) Dosis

(mg)

(4)

Para decidir cuál de las dos rectas ajusta mejor estos datos consideraremos una medida de cuán lejos está cada dato de la recta propuesta ⇒ Analizamos los residuos.

Con ambas rectas hemos calculado: 2 ₍ _ˆ ₎2 ₍ _{. )}2

i i i i i

e  y y  y  a b x



ya que

los valores xi e yi representan los valores observados de las variables independiente X, y dependiente Y e ˆy_i indica el valor estimado de Y a través del modelo aplicado. De ahí que las diferencias (yi - yˆ_i) representan la distancia tomada verticalmente desde cada punto del gráfico a la recta trazada.

La mejor recta sería aquella que minimice la suma de las distancias al cuadrado de los puntos a la recta (se elevan para desestimar el signo resultante).

En el ejemplo la recta R2 es mejor que la R1 ya que es la que produce menor valor

para la suma de los errores cuadráticos (*)

En general, deberíamos poder encontrar a y b tales que

2 2

(y_i  a b x. )_i  (y_i  a b x. )_i



para cualquier elección de a’ y b’ que hagamos.

Este método para encontrar la recta que mejor ajuste a los datos se conoce como Método de mínimos cuadrados.

Para encontrar la recta que produce la menor suma de cuadrados, es posible hacerlo analíticamente buscando las expresiones de a y b que minimicen la función Se(a;b) que se establece utilizando los n pares de observaciones (xi ; yi), para calcular la suma de los cuadrados de los residuos, que se expresaría como:

Se(a;b)=



(y_i  a b x. )_i 2

Resultarán así a y b las soluciones del sistema de ecuaciones normales:

2

(y_i a b x. )_i

a

 _{ }





=0 y

2

(y_i a b x. )_i

b

 _{ }





=0

De donde se obtiene











2

1

i i i i

i i

x y x y

n b

x x

n

 





y a= Y b X.

Es decir que la recta óptima pasa por el punto de coordenadas ( ; )X Y

(5)

2

1

94,5 7,5 54 _13,50

5 _5,4

1 2,5

13,75 7,5

5 b

  

  

 

y a= 10,8-5,4.1,5 = 2,7

Asi, la recta ajustada para nuestros datos es

y = a + b x = 2,7 + 5,4 x ¿Qué nos indican los valores de los coeficientes?

 Ordenada al origen a = 2,7 es el punto donde la recta corta el eje vertical es decir, el crecimiento esperado de la planta cuando la dosis es cero. No es interpretable si el 0 no está contenido en el rango de valores de X.

 Pendiente b = 5,4 nos dice que por cada mg que se aumente la dosis se espera un cambio de 5,4 mm en el tamaño de la planta.

 Si b=0 entonces y = Y . La media de los datos es el estimador de mínimos cuadrados cuando no hay variables regresoras.

Observación Importante: Para agilizar los cálculos, dado que en reiteradas ocasiones será necesario realizar estas operaciones llamaremos:

Sxx=





2 2 1

i i

x x

n





ó también Sxx=

2 2

i

x nX



Syy=





2 2 1

i i

y y

n





ó también Sxx=

2 2

i

y nY



Sxy=







1

( . )x y_i _i x_i y_i

n





ó también Sxx=

Y notar además que Sxx=

2

2 2 2 2 2 2

2 ( ) 2 ( 2 )

i i i i i i

x nX  x  X nX nX  x  X x  X  x  x XX 



Sxx=



(x_i X)2que coincide con el numerador de la varianza muestral s2.

Análisis de Correlación

Pendiente Estandarizada ó Coeficiente de Correlación

Al realizar el análisis de regresión lineal simple, la pendiente b nos indica si hay relación entre las dos variables, su signo nos indica si la relación es directa o inversa, pero no mide la fuerza de la asociación.

La razón es que su valor numérico depende de las unidades de medida de las dos variables. Un cambio de unidades en una de ellas puede producir un cambio drástico en el valor de la pendiente.

Por esa razón, puede resultar interesante considerar una versión estandarizada de la pendiente donde sxy sy son las desviaciones estándares de las variables X e Y respectivamente, resultando:

ˆ* _b·sx sXY sx sXY sxx sXY sXY _r

      

(x y_i _i)n X Y. .



(6)

donde r se define como el coeficiente de correlación de Pearson.

*Obs: sx = √

y sy = √

Notar que si sx = sy el valor estandarizado de la pendiente b coincide con r. Esta relación directa entre el coeficiente de correlación de Pearson y la pendiente de la recta de regresión sólo es válida en el contexto de regresión simple (una sola variable regresora) no vale para el caso de regresión múltiple.

En el ejemplo vale que sxy = 13,5 y sxx = 2,5. Si calculamos syy =





2 2 1

i i

y y

n





se obtiene syy = (52 82 122 132 16 )2 1(5 8 12 13 16)2 5

         = 74,8

Así resulta 13,5 0,9872

2,5.74,8

r   que estaría indicando un alto grado de correlación lineal entre las variables.

Propiedades del coeficiente de correlación

 r mide la fuerza de la asociación lineal entre X e Y.

 -1 ≤ r ≤ 1

 r = 0 implica que no hay relación lineal

 r = ± 1 cuando todos los puntos caen sobre la recta

 r tiene el mismo signo que la pendiente b

 mientras mayor el valor absoluto de r mayor la fuerza de la asociación

 el valor de r no depende de las unidades de medición.

Fuentes de variabilidad en los datos

Se habían registrado cinco valores de variación en el tamaño en las plantas 5, 8, 12, 13 y 16

Existen varias razones por las cuales varían estos cinco registros

1. Porque las diferentes plantas recibieron diferentes dosis de la fertilizante: → variabilidad explicada por la variable regresora

2. Porque aunque hubieran recibido la misma dosis la respuesta no hubiera sido exactamente igual en las 5 plantas debido a diferentes causas. Por ejemplo,

-las plantas no responden exactamente igual a la misma dosis,

-diferente manejo del investigador al manipular las plantas que afecta a su desarrollo,

-condiciones basales de las plantas ligeramente diferentes, -errores en los instrumentos de medición, etc. etc.

→ variabilidad residual (no explicada por la dosis)

Tenemos entonces,

(7)

cuadrado.

Suma total de las desviaciones cuadráticas (SDC): 2

(Y_i Y)



(coincide con el numerador de la varianza de Y)

2. Una medida de la variabilidad no explicada por la variable regresora es la suma de los residuos al cuadrado.

Suma de cuadrados residual (SCR):



(Y_i Yˆ)2 (coincide con la suma de los errores cuadráticos)

3. Finalmente, una medida de cuánto contribuye la variable X a explicar la variabilidad de Y (variabilidad explicada por el modelo de regresión) que está dada por

Suma de cuadrados explicada (SCE):



(Yˆ_i Y)2

Curiosamente existe una relación entre los términos de estas sumas:

(Y_i Y)=(Y_i Yˆ_i)+(Yˆ_i Y)

Gráficamente:

Trataremos de construir una medida de la fuerza de la relación entre las variables dependiente e independiente, que nos indique cuán buen predictor de Y es X. Se trata de decidir si el hecho de conocer el valor de X (dosis en este caso) permite predecir Y mucho mejor usando la recta de regresión y = a+bx que sin conocer el valor de X, entonces las variables están asociadas.

La medida de asociación que propondremos se construye con 4 elementos:

- Una regla I para predecir Y cuando no conocemos X → Y

- Una regla II para predecir Y cuando conocemos X → ˆy   a b x - Una medida resumen de los errores que se cometen con cada regla:

(8)

- Una medida de cuánto se reduce el error al usar la regla más sofisticada llamada coeficiente de determinación R2

2 2

2

ˆ

( )

( _i ) Y Y R Y Y   



nos dice qué porcentaje de la variabilidad total en la variable Y puede ser explicada por la variable regresora, en consecuencia es una medida de la capacidad de predicción del modelo. R2 también puede verse como una medida de la fuerza de la asociación lineal entre X e Y. (Hacemos énfasis en la palabra lineal porque fue obtenido bajo un modelo lineal)

Observemos que la expresión (Yˆ_i Y)puede calcularse teniendo en cuenta que

ˆ ₍ ₎

i

Y  Y abx  Y Y bXbx Y b x( X) entonces es equivalente hacer:

2 2 2

2

2 2

ˆ

( ) ( )

( _i ) ( _i )

Y Y b X X

R

Y Y Y Y

 

  

 



y como ya vimos antes Sxx=



(x_i X)2, se obtiene:

2

2 2 2 2

2 2 ( ) ( ) xy xx xx xx

i yy yy

s s

b X X b s s

R

Y Y s s

     



2 2 · xy xx yy s R s s     

Propiedades de R2 - 0 ≤ R2 ≤ 1

- No depende de las unidades de medición.

- Es el cuadrado del coeficiente de correlación de Pearson (deberíamos usar la notación r2)

- Mientras mayor es R2 mayor es la fuerza de la variable regresora para predecir el valor de Y.

- Mientras mayor sea R2 menor es la suma



(Y_i Yˆ)2 y por lo tanto, más cercanos están los puntos a la recta.

- Toma el mismo valor cuando usamos a X para predecir a Y o cuando usamos a Y para predecir a X.

Ejemplo (continuación) Dado que el cálculo de las sumas resulta

xi yi yˆi y Yˆ  ( ˆy Y )

2 ₍ ₎

i

y Y (y_i Y)2

0,5 1,0 1,5 2,0 2,5 5,0 8,0 12,0 13,0 16,0 5,4 8,1 10,8 13,5 16,2 -7,4 -4,7 2,0 0,7 3,4 54,76 22,09 4,00 0,49 11,56 -7,8 -4,8 -0,8 0,2 3,2 60,84 23,04 0,64 0,04 10,24

7,5 54,0 92,90 94,8

(9)

En el ejemplo se obtiene R2 = 0,975 ya que

2 92,9 _0,975

94,8

R  

Entonces, el 97% de la variación observada en el crecimiento de las plantas es explicada por la dosis de fertilizante. La dosis es un excelente predictor del crecimiento. Observar que R2 coincide con el cuadrado del coeficiente r.