UINIDAD 2. REGRESIÓN Y CORRELACIÓN

Texto completo

(1)

32

U I N I D A D 2 . R E G R E S I Ó N Y C O R R E L A C I Ó N

INTRODUCCIÓN

Repasemos brevemente el proceso de un estudio estadístico. Nos planteamos una duda, la que tú quieras, la curiosidad es la mejor de las características del progreso en el conocimiento. Esa duda va enfocada a un conjunto con características en común (dependiendo de la duda): la población. Planteas hipótesis: ¿cuáles son las condiciones iniciales y las consecuencias posibles?, pero razonas y notas que estudiar a toda la población es demasiado, es laborioso, costoso y podrías invertir tanto tiempo que para cuando presentes los resultados la realidad sea otra, así que decides elegir solamente una parte: la muestra. Elegirla al azar, así sin más, es un buen comienzo, pero si no es la primera vez que tratas de quitarte una duda, entenderás que a veces nuestros intereses personales afectan nuestros resultados, así que piensas en estrategias para seleccionar la muestra evitando esa influencia personal: los métodos de muestreo. Una vez que tienes la muestra seleccionada, debes pensar bien en qué vas a analizar: la variable, esa característica que puede cambiar de una unidad experimental a otra en tu muestra. Para obtener información, o sea, el conjunto de datos, debes pensar de qué manera hacerlo, esto es: el experimento. Un experimento puede ser tan complicado como los que hacen en el CERN, o tan sencillos como hacer una pregunta, lo importante es obtener datos.

Cuando nuestra duda nos lleva a estudiar una sola variable decimos que los datos son univariados, por ejemplo:¿qué prefieren los estudiantes en una clase virtual? O ¿cuál es la posición de un electrón en un átomo específico en un tiempo determinado?, esto significa obtener un solo dato de una unidad experimental. No comparamos este dato con otros, presentamos los resultados, calculamos las medidas de tendencia central (si los datos son cuantitativos) y listo.

Pero si analizamos dos variables en la misma unidad experimental, entonces hablamos de datos bivariados; y lo divertido de los datos bivariados es compararlos, y más divertido aún es analizar si uno es consecuencia del otro y viceversa: la correlación. Antes de adentrarnos a la correlación y regresión lineal, vamos a estudiar un poco más de los datos vibariados. Primero los cualitativos, para conocerlos, y luego los cuantitativos, en los que nos enfocaremos.

Definición 1. Datos bivariados.

Son los valores de dos variables diferentes que se obtienen de la misma unidad experimental.

(2)

33

1. DATOS BIVARIADOS CUALITATIVOS

Cuando analizamos datos bivariados, generalmente lo hacemos para comparar las dos variables, cuando se trata de presentar los resultados de variables cualitativas, tenemos varias opciones para seleccionar la mejor gráfica.

Usemos un ejemplo concreto (con población de Estados Unidos):

Queremos conocer el salario de los profesores, pero depende de algunas cosas: ¿gana más un profesor de una universidad pública o uno de universidad privada? Ah, pero esto depende del rango del profesor: ¿se trata de un porfesor de tiempo completo, un profesor adjunto o uno auxiliar? Así, ya tenemos dos variables, el tipo de universidad y el rango. Después de realizar el experimento, que puede ser aplicar una encuesta o solicitar la información directamente a la universidad, se obtienen los siguientes resultados:

Podemos presentar los resultados con gráficas de barras:

Fig. 1 Gráfica de barras comparativa.

O con tres gráficas circulares, separando el tipo de universidad. Esta no parece óptima para la presentación de los datos, ¿o sí? ¿qué opinas?

Fig. 2 Gráficas circulares comparativas.

(3)

34

Una modificación a la presentación de los datos con gráficas de barras es la siguiente:

Fig. 3 Gráfica de barras comparativas.

2. DATOS BIVARIADOS CUANTITATIVOS

Cuando las variables son cuantitativas, construimos pares ordenados (x,y) y graficamos justo como en las gráficas que haz realizado en la clase de Geometría Analítica. En la clase de Cálculo, seguramente aprendiste que en las funciones existe una variable dependiente y una independiente. En estadística, cuando analizamos datos bivariados, seleccionamos cualquiera de las dos variables como dependiente o independiente, pero el análisis lo hacemos según nuestra elección. Así, una vez clasificadas nuestras variables, construimos un diagrama de dispersión, donde colocamos a la variable independiente en el eje 𝑥 y a la variable dependiente en el eje 𝑦. Veamos esto con un ejemplo.

Se desea averiguar la cantidad de dinero que gasta a la semana una familia de Estados Unidos (en dólares), dependiendo del número de integrantes de la familia. Es importante pensar en una hipótesis antes de realizar el experimento: entre más integrantes tenga una familia, mayor será la cantidad gastada a la semana. Así, la variable independiente 𝑥, corresponde al número de integrantes en la familia y la variable dependiente 𝑦 corresponde a la cantidad de dinero gastada a la semana. Se obtienen los siguientes datos:

Extraemos los pares ordenados (2, 95.75), (2,110.19), (3,118.33), (4,150.92), (1, 85.86) y (5, 180.62). Y construimos el diagrama de dispersión:

Fig. 4 Diagrama de dispersión. El eje x representa el número de integrantes de una familia y el eje y representa la cantidad de dinero (en dólares).

(4)

35

Los puntos en las gráficas de dispersión pueden tomar diversas formas:

Fig. 5 Ejemplos de maneras en las que pueden agruparse los puntos en un diagrama de dispersión.

Nosotros nos vamos a centrar en los dos primeros cuadros, cuando no hay relación y cuando la relación es lineal. Esto es: cuando los puntos están tan dispersos que no les hayamos forma o cuando parecen ser una líne recta.

3. CORRELACIÓN

Si dos variables cuantitativas se analizan a la vez, es posible que exista una relación entre ellas. Si la variable “x” afecta a la variable “y” y viceversa, decimos que están correlacionadas.

3.1 COEFICIENTE DE CORRELACIÓN LINEAL

El coeficiente de correlación lineal 𝑟, indica el grado de relación muta que existe entre las variables. Se calula a través de la expresión:

𝑟 = 𝑆.B 𝑆.∙ 𝑆B Donde

𝑆.B es la covarianza.

𝑆. es la desviación estándar de la variable “x”.

𝑆B es la desviación estándar de la variable “y”.

Ya se vio anteriormente cómo calcular analíticamente la desviación estándar, pero no está de más agregar nuevamente la expresión:

𝑠. = gΣ(𝑥̅ − 𝑥!)%

𝑛 − 1 𝑠B= gΣ(𝑦i − 𝑦!)%

𝑛 − 1 Donde

𝑥̅ y 𝑦i son la media aritmética de los datos de las variables 𝑥 y 𝑦, respectivamente.

𝑥! y 𝑦! corresponden a cada uno de los datos de las variables 𝑥 y 𝑦 respectivamente.

𝑛 es el número total de datos, y es el mismo para las dos variables.

(5)

36 Para calcular la covarianza utilizamos:

𝑆.B=𝛴𝑥!𝑦!−𝛴𝑥!∙ 𝛴𝑦! 𝑛 − 1𝑛 Donde

𝛴𝑥!𝑦! nos indica que debemos multiplicar los valores de cada par ordenado (x,y), o sea 𝑥 ∙ 𝑦 y luego sumar todos los productos.

𝛴𝑥!∙ 𝛴𝑦! nos indica que debemos sumar todos los datos de la variable 𝑥 y todos los datos de la variable 𝑦 y posteriormente debemos multiplicar esas sumas.

𝑛 es el número total de datos, y es el mismo para las dos variables.

3.2 DIAGRAMA DE DISPERSIÓN Y SU RELACIÓN CON EL COEFICIENTE DE CORRELACIÓN LINEAL

El coeficiente de correlación lineal puede compararse con la gráfica de dispersión. Comencemos por decir que es un valor que varía entre -1 y 1, el signo nos indica si se trata de una correlación inversa o directa (respectivamente), o sea, decreciente o creciente. Si el coeficiente de correlación lineal 𝑟 está cerca de -1, existe una correlación inversa; si está cerca de 1 existe una correlación directa, observa el sentido de los puntos en las gráficas de los extremos en la figura siguiente:

Fig. 6 Mientras más cercano se encuentre el coeficiente de correlación a 1 o -1, la gráfica será más parecida a una línea recta. Mientras más crecano esté a 0, los puntos estarán más dispersos.

Cuando 𝑟 es cercano a cero, ya sea de manera negativa o positiva, decimos que no existe correlación. Dependiendo del estudio que realicemos y de la precisión con la que lo que ejecutemos, cualquier valor entre -1 y 0 puede interpretarse como una "fuerte", "mediana" o "débil" correlación inversa entre las variables; así mismo, cualquier valor entre 0 y 1 puede interpretarse como una "fuerte", "mediana" o "débil" correlación directa entre las variables.

4. REGRESIÓN LINEAL

El término regresión hace referencia a la tendencia de los datos a acercarse o "regresar" al promedio. Decimos que la regresión es lineal si un conjunto de datos tiene una tendencia a una línea recta, a la que llamamos recta de mejor ajuste o recta de regresión lineal.

Si una de las dos variables se puede clasificar como la variable dependiente 𝑦 y la otra como 𝑥, y si los datos exhiben un modelo de línea recta, es posible describir la relación que vincula a 𝑦 con 𝑥 usando una línea recta dada por la ecuación:

𝑦 = 𝑎 + 𝑏𝑥 Donde

𝑎 es la ordenada al origen.

𝑏 es la pendiente de la recta.

(6)

37

Fig. 7 La recta de regresión lineal o recta de mejor ajuste, es aquella a la que se aproximan todos los puntos de un diagrama de dispersión.

Si recordamos Geometría Analítica, los significados de 𝑎 y de 𝑏 se verían como se muestra en la siguiente gráfica:

Fig. 8 Significado geométrico de 𝑎 y de 𝑏.

Para calcular la pendiente empleamos:

𝑏 = 𝑟 m𝑆B 𝑆.n Donde

𝑟 es el coeficiente de correlación lineal.

𝑆B es la desviación estándar de la variable 𝑦.

𝑆. es la desviación estándar de la variable 𝑥.

Para calcular la ordenada al origen, utilizamos:

𝑎 = 𝑦i − 𝑏𝑥̅

Donde

𝑦i es el promedio aritmético de todos los datos de la variable 𝑦.

𝑥̅ es el promedio aritmético de todos los datos de la variable 𝑥.

𝑏 es la pendiente de la recta.

Una vez que obtenemos la ecuación de la recta de regresión lineal de un conjunto de datos bivariados, podemos añadirla a la gráfica de dispersión utilizando dos puntos cualesquiera para construir la recta. Recomiendo utilizar dos valores de 𝑥 que existan en los datos y que no pertenezcan a los extremos inferior y/o superior.

(7)

38 Ejemplo 6. Análisis y presentación de datos bivariados.

Se realiza un estudio para determinar si existe una relación entre los años de experiencia que una persona posee para cierto empleo específico y el salario inicial por hora que se le ofrece. La hipótesis es, que entre más experiencia tenga una persona, el salario inicial también será mayor. Dado que este ejemplo está contextualizado en Estados Unidos, el salñario está dado en dólares. Se registran los datos en la siguiente tabla:

Obtener:

a) El coeficiente de correlación lineal y su interpretación.

b) La ecuación de la recta de regresión lineal.

c) La gráfica de dispersión con la recta de regresión lineal.

(8)

39

Para resolver el ejercicio, debemos tener a la mano la expresiones matemáticas que vimos anteriormente.

Construiremos una primera tabla para organizar los cálculos analíticos necesarios para las fórmulas:

𝑖 𝑥" 𝑦" (𝑥̅ − 𝑥")# (𝑦2 − 𝑦")# 𝑥"∙ 𝑦"

1 2 3 4 5 6 e

)

!>$

Aquí van cada uno de los datos de la variable 𝑥.

Aquí van cada uno de los datos de la variable 𝑦.

Aquí va 𝛴𝑥": la sumatoria de todos los datos de la variable 𝑥.

Aquí va 𝛴𝑦": la sumatoria de todos los datos de la variable 𝑦.

Aquí debes restar al promedio aritmético de la variable 𝑥 cada dato de 𝑥 y el resultado elevarlo al cuadrado.

Aquí debes restar al promedio aritmético de la variabley𝑥 cada dato de 𝑦 y el resultado elevarlo al cuadrado.

Aquí debes multiplicar cada dato de 𝑥 con cada dato 𝑦.

Aquí va Σ(𝑥̅ − 𝑥")#, la sumatoria de esta columna.

Aquí va Σ(𝑦2 − 𝑦")#, la sumatoria de esta columna.

Aquí va 𝛴𝑥"𝑦", la sumatoria de esta columna.

Esta columna cambia dependiendo del número de datos.

Los resultados de las fórmulas los registraremos en esta segunda tabla:

Promedio de x 𝑥̅

Promedio de y 𝑦i

Desviación estándar de x 𝑆.

Desviación estándar de y 𝑆B

Covarianza 𝑆.B

Coeficiente de correlación lineal 𝑟

Pendiente de la recta 𝑏

Ordenada al origen de la recta 𝑎

Ecuación de la recta 𝑦 = 𝑎 + 𝑏𝑥

(9)

40

A partir de los datos del ejercicio, obtenemos los pares ordenados: (2,6), (3,7.5), (4,8), (5,12), (6,13) y (7,15.5). Para los cálculos, vamos a redondear a dos cifras decimales, ya que no podríamos incrementar la precisión, aunque utilizáramos más.

Colocamos los pares ordenados en su espacio correspondiente y calculamos las primeras sumatorias.

𝑖 𝑥" 𝑦" (𝑥̅ − 𝑥")# (𝑦2 − 𝑦")# 𝑥"∙ 𝑦"

1 2 6.00

2 3 7.50

3 4 8.00

4 5 12.00

5 6 13.00

6 7 15.50

e

)

!>$

27 62.00

Teniendo las sumatorias de los datos de las variables, obtenemos el promedio aritmético y lo registramos en la tabla de resultados.

𝑥̅ =27

6 = 4.50 𝑦i =62

6 = 10.33

Promedio de x 𝑥̅ 4.50 años de experiencia.

Promedio de y 𝑦i 10.33 dólares por hora.

Desviación estándar de x 𝑆. Desviación estándar de y 𝑆B

Covarianza 𝑆.B

Coeficiente de correlación lineal 𝑟

Pendiente de la recta 𝑏

Ordenada al origen de la recta 𝑎 Ecuación de la recta 𝑦 = 𝑎 + 𝑏𝑥

(10)

41

Ahora que tenemos los promedios, podemos completar las dos siguientes columnas.

𝑖 𝑥" 𝑦" (𝑥̅ − 𝑥")# (𝑦2 − 𝑦")#

1 2 6.00 (4.5 − 2)% = 6.25 (10.33 − 6)%= 18.78

2 3 7.50 (4.5 − 3)% = 7.50 (10.33 − 7.50)%= 8.03

3 4 8.00 (4.5 − 4)% = 8.00 (10.33 − 8.00)%= 5.44

4 5 12.00 (4.5 − 5)%= 12.00 (10.33 − 12.00)%= 2.78

5 6 13.00 (4.5 − 6)% = 2.25 (10.33 − 13.00)%= 7.11

6 7 15.50 (4.5 − 7)% = 6.25 (10.33 − 15.50)%= 26.69

e

)

!>$

27 62.00 17.50 68.83

Completamos la última columna haciendo las multiplicaciones correspondientes:

𝑖 𝑥" 𝑦" (𝑥̅ − 𝑥")# (𝑦2 − 𝑦")# 𝑥"∙ 𝑦"

1 2 6.00 6.25 18.78 (2)(6.00) = 12.00

2 3 7.50 2.25 8.03 (3)(7.50) = 22.50

3 4 8.00 0.25 5.44 (4)(8.00) = 32.00

4 5 12.00 0.25 2.78 (5)(12.00) = 60.00

5 6 13.00 2.25 7.11 (6)(13.00) = 78.00

6 7 15.50 6.25 26.69 (7)(15.50) = 108.50

e

)

!>$

27 62.00 17.50 68.83 313

Ya tenemos la primera tabla completa J :

𝑖 𝑥" 𝑦" (𝑥̅ − 𝑥")# (𝑦2 − 𝑦")# 𝑥"∙ 𝑦"

1 2 6.00 6.25 18.78 12.00

2 3 7.50 2.25 8.03 22.50

3 4 8.00 0.25 5.44 32.00

4 5 12.00 0.25 2.78 60.00

5 6 13.00 2.25 7.11 78.00

6 7 15.50 6.25 26.69 108.50

e

)

!>$

27 62.00 17.50 68.83 313.00

(11)

42 Observa que:

𝛴𝑥! = 27 𝛴𝑦! = 62.00 Σ(𝑥̅ − 𝑥!)%= 17.50 Σ(𝑦i − 𝑦!)%= 68.83 𝛴𝑥!𝑦! = 313.00 Necesitamos esos datos para completar la segunda tabla:

Promedio de x 𝑥̅ 4.50 años de experiencia.

Promedio de y 𝑦i 10.33 dólares por hora.

Desviación estándar de x 𝑆. 𝑠$= 8Σ(𝑥̅ − 𝑥")#

𝑛 − 1 = 817.50

6 − 1= 1.87 𝑎ñ𝑜𝑠 Desviación estándar de y 𝑆B 𝑠%= 8Σ(𝑦2 − 𝑦")#

𝑛 − 1 = 868.83

6 − 1= 3.71 𝑑ó𝑙𝑎𝑟𝑒𝑠

Covarianza 𝑆.B 𝑆

$%=𝛴𝑥"𝑦"−𝛴𝑥"∙ 𝛴𝑦"

𝑛 − 1𝑛 =313.00 −(27)(62.00) 6 − 1 6 = 6.8

Coeficiente de correlación lineal 𝑟 𝑟 = 𝑆.B

𝑆.∙ 𝑆B= 6.8

(1.87)(3.71)= 0.98

Pendiente de la recta 𝑏 𝑏 = 𝑟 M𝑆𝑆%

$N = (0.98) M3.71

1.87N = 1.94

Ordenada al origen de la recta 𝑎 𝑎 = 𝑦2 − 𝑏𝑥̅ = 10.33 − (1.94)(4.50) = 1.59

Ecuación de la recta 𝑦 = 𝑎 + 𝑏𝑥 𝑦 = 1.59 + 1.94𝑥

Así, la segunda tabla queda como:

Promedio de x 𝑥̅ 4.50 años de experiencia.

Promedio de y 𝑦i 10.33 dólares por hora.

Desviación estándar de x 𝑆. 1.87

Desviación estándar de y 𝑆B 3.71

Covarianza 𝑆.B 6.8

Coeficiente de correlación lineal 𝑟 0.98

Pendiente de la recta 𝑏 1.94

Ordenada al origen de la recta 𝑎 1.59

Ecuación de la recta 𝑦 = 𝑎 + 𝑏𝑥 y=1.59+1.94x

Construimos la gráfica de dispersión con los pares ordenados que ya habíamos obtenido: (2,6), (3,7.5), (4,8), (5,12), (6,13) y (7,15.5).

(12)

43

Para construir la recta, necesitamos dos puntos más. Los obtenemos asignando un valor a "x" (que se encuentre dentro del rango de "x") y calculando su valor en "y" correspondiente.

Sea x=3 𝑦 = 1.59 + 1.94(3) = 7.41 (3, 7.41) Sea x=6 𝑦 = 1.59 + 1.94(6) = 13.24 (6, 13.24) Respondamos ahora, los incisos del ejercicio.

a) El coeficiente de correlación lineal y su interpretación.

El coeficiente de correlación lineal es 0.98, está muy cercano a 1, por lo que existe una correlación lineal directa entre las variables, es decir: mientras más años de experiencia se tengan, mayor será el salario inicial por semana.

b) La ecuación de la recta de regresión lineal.

𝑦 = 1.59 + 1.94𝑥 c) La gráfica de dispersión con la recta de regresión lineal.

(13)

44 Ejemplo 7. Análisis y presentación de datos bivariados.

Tenemos un conjunto de datos bivariados: (3,6), (5,8), (2,6), (1,4), (4,7) y (4,6). Utiliza dos cifras decimales.

Obtener:

a) El coeficiente de correlación lineal y su interpretación.

b) La ecuación de la recta de regresión lineal.

c) La gráfica de dispersión con la recta de regresión lineal.

Construimos y completamos las dos tablas que se explicaron en el ejemplo anterior. Los datos son enteros, así que en la primer tabla utilizamos enteros. Pero en la segunda utilizaremos dos decimales, dado a que las medidas son más pequeñas.

𝑖 𝑥" 𝑦" (𝑥̅ − 𝑥")# (𝑦2 − 𝑦")# 𝑥"∙ 𝑦"

1 3.00 6.00 0.03 0.03 18.00

2 5.00 8.00 3.36 3.36 40.00

3 2.00 6.00 1.36 0.03 12.00

4 1.00 4.00 4.69 4.69 4.00

5 4.00 7.00 0.69 0.69 28.00

6 4.00 6.00 0.69 0.03 24.00

e

)

!>$

19.00 37.00 10.83 8.83 126.00

Promedio de x 𝑥̅ 3.17

Promedio de y 𝑦i 6.17

Desviación estándar de x 𝑆. 1.47

Desviación estándar de y 𝑆B 1.33

Covarianza 𝑆.B 1.77

Coeficiente de correlación lineal 𝑟 0.90

Pendiente de la recta 𝑏 0.82

Ordenada al origen de la recta 𝑎 3.58

Ecuación de la recta 𝑦 = 𝑎 + 𝑏𝑥 Y=3.58+0.82x

(14)

45

Luego, buscamos dos puntos para construir la recta. Los valores de "x" deben estar dentro del rango.

Asigno un valor a x Calculo el valor de y Obtengo el par ordenado para construir la recta.

Sea x=2 𝑦 = 3.58 + 0.82(2) = 5.22 (2, 5.22)

Sea x=4 𝑦 = 3.58 + 0.82(4) = 6.86 (4, 6.86)

Respuestas

a) El coeficiente de correlación lineal y su interpretación.

El coeficiente de correlación lineal es r=0.90, es un valor muy cercano a 1, por lo que se concluye que existe una fuerte correlación positiva entre las variables.

b) La ecuación de la recta de regresión lineal.

Y=3.58+0.82x

c) La gráfica de dispersión con la recta de regresión lineal.

(15)

46 Actividad 19. Correlación lineal y recta de regresión.

La tabla muestra el costo en miles de dólares de 7 residencias dependiendo del espacio que abarcan en pies2.

Obtener:

a) El coeficiente de correlación lineal y su interpretación.

b) La ecuación de la recta de regresión lineal.

c) La gráfica de dispersión con la recta de regresión lineal.

Redondea a dos cifras decimales.

𝑖 𝑥" 𝑦" (𝑥̅ − 𝑥")# (𝑦2 − 𝑦")# 𝑥"∙ 𝑦"

1 2 3 4 5 6 7 e

C

!>$

(16)

47

Promedio de x 𝑥̅

Promedio de y 𝑦i

Desviación estándar de x 𝑆. Desviación estándar de y 𝑆B

Covarianza 𝑆.B

Coeficiente de correlación lineal 𝑟

Pendiente de la recta 𝑏

Ordenada al origen de la recta 𝑎 Ecuación de la recta 𝑦 = 𝑎 + 𝑏𝑥

Asigno un valor a x Calculo el valor de y Obtengo el par ordenado para construir la recta.

Gráfica:

(17)

48 Actividad 20. Correlación lineal y recta de regresión.

El número de pases completos y el número total de yardas obtenidas se registró para Brett Favre, en 7 de los 16 juegos de temporada regular en el verano de 2006.

a) El coeficiente de correlación lineal y su interpretación.

b) La ecuación de la recta de regresión lineal.

c) La gráfica de dispersión con la recta de regresión lineal.

Redondea a dos cifras decimales.

𝑖 𝑥" 𝑦" (𝑥̅ − 𝑥")# (𝑦2 − 𝑦")# 𝑥"∙ 𝑦"

1 2 3 4 5 6 7 e

C

!>$

Promedio de x 𝑥̅

Promedio de y 𝑦i

Desviación estándar de x 𝑆.

Desviación estándar de y 𝑆B

Covarianza 𝑆.B

Coeficiente de correlación lineal 𝑟

Pendiente de la recta 𝑏

Ordenada al origen de la recta 𝑎

Ecuación de la recta 𝑦 = 𝑎 + 𝑏𝑥

(18)

49

Asigno un valor a x Calculo el valor de y Obtengo el par ordenado para construir la recta.

Gráfica:

Figure

Actualización...

Referencias

Actualización...

Related subjects :