REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE

13  173  Descargar (1)

Texto completo

(1)

_______________________________________________________________________________________ Dra. Olivia de Higueros 1 UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

CENTRO UNIVERSITARIO METROPOLITANO –CUM-

FACULTAD DE CIENCIAS MÉDICAS Fase I Primer Año

U.D. Estadística

REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE

En proyectos de investigación, con frecuencia se desea obtener algún conocimiento acerca de la relación entre dos variables; por ejemplo es posible que se tenga interés en analizar la relación entre: la presión arterial y la edad, el consuno de algún alimento y la ganancia de peso, la intensidad de un estímulo y el tiempo de reacción, la concentración de un medicamento y la frecuencia respiratoria, etc. Las variables antes mencionadas son variables cuantitativas o numéricas, esto no significa que solamente sobre éste tipo de variables pueda realizarse investigaciones con el propósito de detectar relación entre ellas, en las variables cualitativas o categóricas también es posible hacer estudios semejantes, sin embargo, las pruebas estadísticas son diferentes.

Al investigar la relación entre variables, suele tenerse interés tanto en la naturaleza

como en la intensidad de la relación, situaciones que son examinadas por medio de los análisis de regresión y correlación, las cuales son técnicas que, aunque están relacionadas sirven para propósitos diferentes.

El término regresiónlineal se refiere al hecho de que correlación y regresión miden sólo una relación en línea recta o lineal, entre dos variables. Cuando se utiliza el término

simple, se refiere a la situación donde sólo se usa una variable explicatoria (independiente) para predecir a la otra (dependiente). En la regresión múltiple se incluye más de una variable explicatoria (independiente) en la ecuación de predicción.

NOTA: Te recomiendo que al ir leyendo éste documento también anotes en tu cuaderno los conceptos que vayas encontrando, como que fueras a hacer un mapa conceptual. Pon mucha atención durante tu lectura, y trata de describir posteriormente dichos conceptos, en otras palabras, debes dar las respectivas definiciones, a los conceptos que has listado.

Modelo de Regresión

El análisis de regresión es útil para averiguar la forma probable de relación entre las variables; su objetivo final es predecir o estimar el valor de una variable, que corresponde al valor de la otra variable con la cual se está relacionando.1

1 Dawson – Saunders, Beth; Trapp, Robert G. “Bioestadística Médica”. pp. 204

(2)

________________________________________________________________________ 2 “Eres hoy lo que decidiste ayer, serás mañana lo que decidas hoy”. Recuerda, ¡Tú decides!

En la mayoría de los casos, los investigadores cuentan con los datos de una muestra. Tomando como base los resultados del análisis de los datos de la muestra, se pretende llegar a decisiones respecto a la población, de la cual se extrajo la muestra, proceso conocido como inferencia estadística. Por lo anterior, es importante que los investigadores comprendan la naturaleza de las poblaciones para que puedan elaborar un modelo matemático que la represente o, determinar si se ajusta razonablemente a algún modelo ya establecido. Por ejemplo, si un investigador va a analizar un conjunto de datos mediante los métodos de regresión lineal simple, debe estar seguro de que el modelo de regresión lineal simple proporciona una representación al menos aproximada de la población.2

Como se dijo con anterioridad el análisis de regresión lineal simple es útil para averiguar la forma probable de la relación entre dos variables, “X” y “Y”. La variable “X” se conoce (por lo general) como variable independiente, ya que frecuentemente se encuentra bajo el control del investigador, es decir, los valores de X pueden ser seleccionados por el investigador para obtener uno o más valores de Y, en correspondencia con los valores de X. En consecuencia, la otra variable, Y, se conoce como variabledependiente, y se habla de regresión de Y sobre X.

La variable independiente suele ser llamada, por otros autores, variable explicatoria y la variable dependiente, de variable de respuesta. En general, la característica explicatoria es la que se presenta primero o es más fácil de medir.3

Supuestos que fundamentan la regresión lineal simple:

a. Se dice que los valores de la variable independiente X son fijos, son previamente seleccionados por el investigador. Algunos autores la demominan variable no aleatoria.

b. La variable X se mide sin error. Dado que ningún procedimiento de medición es perfecto, esto significa que la magnitud del error de medición en X es insignificante. c. Para cada valor de X existe una subpoblación de valores Y.

d. Todas las variancias de las subpoblaciones de Y son iguales

e. Todas las medidas de las subpoblaciones de Y se encuentran sobre la misma línea recta. Lo que se conoce como suposición de linealidad.

f. Los valores de Y son estadísticamente independientes.

Diagrama de Dispersión

El primer paso, generalmente útil en el estudio de la relación entre dos variables, es elaborar un Diagrama de Dispersión. Este diagrama es una gráfica en un sistema de ejes, de todos los pares de datos recolectados de las variables en estudio. En el eje horizontal se coloca la escala que permitirá la localización de los datos de la variable independiente (X) y en el eje vertical la escala correspondiente para los datos de la variable dependiente (Y). Se procede a graficar, colocando un punto por cada pareja de datos (para cada valor de X, su correspondiente en Y).

(3)

________________________________________________________________________ 3 “Eres hoy lo que decidiste ayer, serás mañana lo que decidas hoy”. Recuerda, ¡Tú decides!

Al construir un diagrama de dispersión es conveniente elegir las escalas de los ejes, de tal manera que la amplitud de los valores sobre el eje vertical sea igual o ligeramente menor que la amplitud sobre el eje horizontal.4

El diagrama de Dispersión ayuda a visualizar la forma de la relación entre las variables, también permite observar si hay alguna relación; porque si se evidencia gráficamente que no hay relación, o por lo menos no es una relación lineal, automáticamente no se continuaría con más análisis o cálculos.

A continuación se presentan algunos diagramas de dispersión, elaborados con datos hipotéticos, con el objetivo de ilustrar diversas situaciones:

A

Correlación positiva

B

No hay correlación

C

Correlación perfecta positiva o directa

D

Correlación negativa

E

No hay correlación

F

Correlación perfecta negativa o inversa

G H I

Correlación no lineal o curvilínea

(4)

________________________________________________________________________ 4 “Eres hoy lo que decidiste ayer, serás mañana lo que decidas hoy”. Recuerda, ¡Tú decides!

Recta de Mínimos Cuadrados

Al analizar los diagramas de dispersión que se muestran anteriormente, puede observarse que algunos representan una relación lineal entre las variables. Para hacer más evidente o visible la relación, puede trazarse una línea recta a través de la nube de puntos, que representan los valores de las variables, para indicar la dirección de la relación, aunque en algunos casos no lo ameritaría (figuras C y F). Para trazar dicha línea recta, existe el método de mínimos cuadrados, y la recta resultante, se conoce como recta de mínimos cuadrados, que es un medio para determinar la ecuación de la línea que se “ajusta con precisión” al conjunto o nube de puntos.

De acuerdo con los conceptos básicos de álgebra, la ecuación general de una recta está dada por la expresión:

y

= a + b

x

Donde:

Y: es un valor sobre el eje vertical o valor de la variable dependiente.

X: un valor sobre el eje horizontal o valor de la variable independiente.

a: es la ordenada al origen, por lo tanto es el punto donde la recta de mínimos cuadrados cruza el eje vertical.

b: es la pendiente de la recta e indica la cantidad con la cual

Y (variable dependiente) cambia por cada unidad de cambio en X (variable independiente).

Para calcular los valores de

a

y de

b

, se cuenta con las siguientes fórmulas:

b = n

xy

– (∑

x

) (∑

y

)

n

x

2

(∑

x

)

2

a = ∑

y

- b∑

x

n

Dado que para trazar una recta son necesarios dos puntos, y en el diagrama de dispersión, cada punto está formado por un valor de X y un valor de Y, se puede entonces por medio de la ecuación (y = a + bx) calcular los valores de Y, para dos valores de X dados. Al unir los puntos que estas dos parejas de datos permiten ubicadas en el sistema de coordinadas se obtiene la recta correspondiente a la ecuación.

Una vez se tiene la “mejor” recta para describir la relación entre las dos variables, es necesario determinar bajo qué criterio se considera mejor; y es “mejor” en el sentido que:

La suma de las desviaciones verticales al cuadrado de los puntos correspondientes a los datos observados (yi) a partir de la recta de mínimos

(5)

________________________________________________________________________ 5 “Eres hoy lo que decidiste ayer, serás mañana lo que decidas hoy”. Recuerda, ¡Tú decides!

Predecir o Estimar

Con anterioridad se mencionó que el objetivo final del análisis de regresión es, predecir o estimar el valor de una variable que corresponde al valor dado de otra variable, en otras palabras, el valor de la variable dependiente (Y), que corresponde a un valor dado de la variable independiente (X).

Para calcular una estimación o predicción se hace uso de la ecuación utilizada para trazar la recta de mínimos cuadrados:

ŷ

= a + b

x

(la variante del símbolo indica que es

y

calculada).

Modelo de Correlación

El análisis o modelo de correlación se refiere a la medición de la intensidad de la relación entre variables. En otras palabras, la correlación es básicamente una medida de la relación entre dos variables. Debe advertirse que tales relaciones no necesariamente implican que una sea causa de la otra, éste podría o no ser el caso. En algunas situaciones se observa que dos variables están relacionadas debido a que se asocian o son causadas por una tercer variable, denominada ésta última variable interviniente o de confusión.

Coeficiente de Correlación

El diagrama de dispersión permite visualizar la relación entre las variables, sin embargo es necesario medir que tan fuerte o débil es la relación.

La magnitud o intensidad de la relación lineal entre dos variables se mide con el coeficiente de correlación de Pearson, conocido como r de Pearson). Este coeficiente puede tener valores que pueden ir de -1 a 1 (-1≤ r ≤ 1). Entre más se acerca a la unidad, el valor del coeficiente, mayor relación hay entre las variables. El signo positivo o negativo indica el tipo de relación entre las variables; si es positivo significa que al aumentar la variable independiente también lo hace la dependiente; y si es negativo, al aumentar la variable independiente, la dependiente disminuye.

Para el cálculo del coeficiente de correlación existen varias fórmulas. Se utilizará la que se detalla a continuación:

r

=. n

x y

– ( ∑

x

) ( ∑

y

) .

n

x

2

(∑

x

)

2

n

y

2

(∑

y

)

2

Nota: En el denominador debe tomarse en cuenta que: ∑x2 no es lo mismo que (∑x)2; el

(6)

________________________________________________________________________ 6 “Eres hoy lo que decidiste ayer, serás mañana lo que decidas hoy”. Recuerda, ¡Tú decides!

Una vez calculado el coeficiente de correlación, es necesario interpretarlo, la forma de interpretación suele variar de un autor a otro, por lo que, con fines docentes, y para unificación de criterios, se tomó la información que a continuación se presenta:

Guía para interpretación del coeficiente de correlación (

r

de Pearson)5.

Valor de “r” Correlación

Con signo positivo

Con signo negativo

1.00 Grande, perfecta

Positiva o Directa

Negativa o Inversa 0.90 – 0.99 Muy alta

positiva Negativa

0.70 – 0.89 Alta

0.40 – 0.69 Moderada

0.20 – 0.39 Baja

0.01 – 0.19 Muy baja

0.00 Nula

Ejemplo:

Se realizó una investigación en pacientes con fibrosis quística que reciben terapéutica de reemplazo con enzimas pancreáticas; se midió la cantidad de lípidos en heces y pérdida de energía en las evacuaciones de 20 niños.6 Los datos obtenidos se presentan a continuación:

Sujeto

Lípidos fecales (g/día)

Energía fecal

(MJ/día) Sujeto

Lípidos fecales (g/día)

Energía fecal (MJ/día)

1 10 2.1 11 3.2 1

2 11 1.1 12 4 0.5

3 9.9 1.1 13 6 0.9

4 9.8 0.9 14 8.9 0.8

5 15.5 0.7 15 9.1 0.6

6 5 0.4 16 4.1 0.5

7 10.7 1 17 17 1.2

8 13 1.5 18 22.2 1.1

9 13.8 1.2 19 2.9 0.9

10 16.7 1.4 20 5 1

Con la información anterior puede procederse a realizar el análisis de regresión y correlación lineal simple, que consiste en:

5 Tomado de “Estadística Psico-Educativa”

(7)

________________________________________________________________________ 7 “Eres hoy lo que decidiste ayer, serás mañana lo que decidas hoy”. Recuerda, ¡Tú decides!

1. Análisis de regresión:

a. Diagrama de dispersión

b. Cálculo de los valores de a y de b c. Trazo de la recta de mínimos

cuadrados

d. Estimación o predicción

2. Análisis de correlación:

a. Cálculo e interpretación del coeficiente de correlación.

Para los cálculos a realizar, es necesario elaborar una tabla de trabajo, con la información que se requerirá, según las fórmulas a utilizar, como la siguiente:

Sujeto

Lípidos fecales (g/día) x

Energía fecal

(MJ/día) y

x

*

y

x

2

y

2

1 10 2.1 21 100 4.41

2 11 1.1 12.1 121 1.21

3 9.9 1.1 10.89 98.01 1.21

4 9.8 0.9 8.82 96.04 0.81

5 15.5 0.7 10.85 240.25 0.49

6 5 0.4 2 25 0.16

7 10.7 1 10.7 114.49 1

8 13 1.5 19.5 169 2.25

9 13.8 1.2 16.56 190.44 1.44

10 16.7 1.4 23.38 278.89 1.96

11 3.2 1 3.2 10.24 1

12 4 0.5 2 16 0.25

13 6 0.9 5.4 36 0.81

14 8.9 0.8 7.12 79.21 0.64

15 9.1 0.6 5.46 82.81 0.36

16 4.1 0.5 2.05 16.81 0.25

17 17 1.2 20.4 289 1.44

18 22.2 1.1 24.42 492.84 1.21

19 2.9 0.9 2.61 8.41 0.81

20 5 1 5 25 1

(8)

________________________________________________________________________ 8 “Eres hoy lo que decidiste ayer, serás mañana lo que decidas hoy”. Recuerda, ¡Tú decides!

a. Diagrama de dispersión

:

c. Trazo de recta de mínimos cuadrados

Recordemos que para trazar una línea recta son necesarios dos puntos, por lo tanto se deben calcular dos valores de Y

,

para dos valores de X, de

la

b. Cálculo de los valores de a y de b

b = n

xy

– (∑

x

) (∑

y

)

n

x

2

(∑

x

)

2

b = 20(213.46) – (197.8) (19.9) 20(2489.44) – (197.8)2

b = 4269.2 – 3936.22 49788.8 – 39124.84

b = 0.031224798

b

0.03122

Interpretación:

Por cada g/día de lípidos fecales, la energía fecal se modifica en 0.031; y como la relación es positiva se puede interpretar de mejor manera así:

Por cada g/día de lípidos fecales que aumenta, la energía fecal aumenta en 0.031 MJ/día;

a = ∑

y

- b∑

x

n

a = 19.9 – 0.031224798 (197.8) 20

a = 19.9 – 6.176265102 20

a = 0.686186744

a

0.6862

(9)

________________________________________________________________________ 9 “Eres hoy lo que decidiste ayer, serás mañana lo que decidas hoy”. Recuerda, ¡Tú decides!

distribución que se tiene, para poder localizar los puntos respectivos que permitan el trazo de la recta.

Algunos autores opinan que se tome los valores extremos de X y otros que pueden ser cualquiera de los valores de X; el caso es que deben localizarse dos puntos.

y

= a + b

x

y

= 0.686186744 + 0.031224798 (2.9)

y

= 0.776738659

0.7767 X=2.9 Y=0.7767

y

= 0.686186744 + 0.031224798 (22.2)

y

= 1.379377267

1.3794

X=22.2 Y=1.3794

Nota: Con el fin de unificar criterios, para los cálculos se deben utilizar todos los decimales y se deberá aproximar hasta la respuesta final.

d. Estimación o predicción

Con anterioridad se dijo que la fórmula para calcular la recta de mínimos cuadrados es útil para estimar o predecir.

ŷ

= a + b

x

Ejemplo:

Qué cantidad de energía fecal se espera para un paciente a quien se le encontró 20.5 g/día de Lípidos fecales?

ŷ

= 0.686186744 + 0.031224798 (20.5)

ŷ

= 1.32629511 = 1.3263

(10)

________________________________________________________________________ 10 “Eres hoy lo que decidiste ayer, serás mañana lo que decidas hoy”. Recuerda, ¡Tú decides!

Cálculo e Interpretación del Coeficiente de Correlación

(

r

de Pearson)

r

= n

x y

– ( ∑

x

) ( ∑

y

)

√n

x

2

(∑

x

)

2

√n

y

2

(∑

y

)

2

r

= . 20 (213.46) – (197.8) ( 19.9) . √20(2489.44)(197.8)2 √20(22.71)(19.9)2

r

= . 4269.2 – 3936.22 . √49788.839124.84 √454.2396.01

r

= . 3936.22 . 787.740968

r

= 0.422702402

r

0.42

Interpretación:

El valor del coeficiente de correlación (r=0.42) indica que existe una correlación

moderada positiva entre las variables.

Ejercicios

SERIE I

A continuación se te presenta una serie de incisos, elabora lo que en cada uno se solicita:

Escribe las características y la utilidad del:

1. Análisis de Regresión Lineal Simple.

2. Análisis de Correlación Lineal Simple.

3. Diagrama de dispersión.

Explica el valor de:

4. b

5.

r

6. a

7.

ŷ

SERIE II

A continuación encontrarás una serie de problemas, elabora los incisos que en cada uno se te presentan:

(11)

________________________________________________________________________ 11 “Eres hoy lo que decidiste ayer, serás mañana lo que decidas hoy”. Recuerda, ¡Tú decides!

Distancia

(en km) 0,05 0,1 0,12 0,4 0,5 0,7 1 1,2 2,5 2,1 3 3

Nota

media 8.4 4 5.7 9.1 6.3 6.7 4.3 5.4 7.8 4.5 7.2 8.1

a. Elabora un diagrama de dispersión.

b. Traza la recta de mínimos cuadrados e indica si existe relación lineal entre

las dos variables, explica.

c. Calcula el valor de la ordenada al origen.

d. Calcula el valor de la pendiente de la recta.

2. Se midió peso y circunferencia de la cintura en 10 mujeres, que ingresarán a una rutina en un gimnasio capitalino; los datos son los siguientes:

Peso (lb) 108 143 120 143 111 137 154 123 104 128

Circunferencia

de cintura (cm) 55 72.5 65 67.5 67.5 62.5 75 70 65 62.5

a. Cuál es la variable dependiente?

b. Elabora un diagrama de dispersión.

c. Calcula el valor de la ordenada al origen.

d. Calcula el valor de la pendiente de la recta.

e. Qué valor tiene “

r

”? interpreta el resultado

f. Para una mujer con peso de 140 libras, cuánto se espera que tenga de

circunferencia de cintura?

3. A continuación se presentan los resultados de las mediciones de glucosa en un grupo de pacientes diabéticos, después de la ingesta de un medicamento “alternativo” que se tiene en investigación, para el tratamiento de dicha enfermedad.

No. De Paciente 1 2 3 4 5 6 7

Nivel de glucosa

(mg/dl) 95.5 210 156 150 185 100 75.9

Cantidad de

medicamento (mg) 10 5 9 7 6 8 12

Del problema anterior puede afirmarse lo siguiente:

a. La variable independiente es el nivel de glucosa

(12)

________________________________________________________________________ 12 “Eres hoy lo que decidiste ayer, serás mañana lo que decidas hoy”. Recuerda, ¡Tú decides!

c. El valor en el eje “y” donde atravesaría la recta de mínimos cuadrados es de 14.07

d. El coeficiente de Pearson (“r”) indica una correlación alta entre las variables

De las alternativas anteriores solamente una es correcta, explica porqué no pueden ser correctas cada una de las restantes.

Para una ingesta de 7.5 mg, del medicamento, se esperaría lo siguiente:

a. Que el nivel de medicamento fuese de 214.19

b. Que el nivel de glucosa fuese de 150.69 mg/dl

c. La glucosa estimada sería de 14.39 mg/dl

d. La glucosa disminuirá 18.31 mg/dl para la ingesta de 7.5 mg

De las alternativas anteriores solamente una es correcta, explique porqué no pueden ser correctas cada una de las restantes.

4. A continuación se presenta los resultados obtenidos en la investigación de tres grupos de pacientes, analiza los datos y responde:

a. Cuál de los grupos presenta resultados incongruentes, explica porqué? b. Interpreta la relación entre las variables, de los otros dos grupos.

Grupo A Grupo B Grupo C

a = 0.96 b = 1.25 r = 0.91

a = 79.84 b = - 3.12 r = - 0.70

a = 21.42 b = - 2.5 r = 0.76

BIBLIOGRAFÍA

1. Daniel, Wayne W. “Bioestadística”. Base para el Análisis de las Ciencias de la Salud. 3a. Edición. Editorial Limusa. México. 1999.

2. Levin, Jack. “Fundamentos de la Estadística en la Investigación Social”, 2ª. Edición, Editorial Harla, México.

3. Pagano, Marcelo; Gauvreau, Kimberlee. “Fundamentos de Bioestasística” 2ª. Edición, 2000. Editorial Thomson Learning. México D.F.

4. Dawson – Saunders, Beth; Trapp, Robert G. “Bioestadística Médica” 2a. Edición, 1999. Editorial El Manual Moderno. México D.F,

5. Johnson, Robert, “Estadística Elemental”. Grupo Editorial Iberoamérica. México D.F. 1991

(13)

________________________________________________________________________ 13 “Eres hoy lo que decidiste ayer, serás mañana lo que decidas hoy”. Recuerda, ¡Tú decides!

7. http://descartes.cnice.mec.es/materiales_didacticos/Correlacion_regresion_recta _regresion/correlacion_y_regresion.htm

8. http://www.slideshare.net/gracielacoach/regresion-y-correlacion-presentation

9. http://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf

10. http://web.usal.es/~javisan/hidro/practicas/correlacion/Correlacion_explicacion.pd f

ANOTACIONES FINALES

Es probable que al concluir con la lectura del documento y la elaboración de los ejercicios uno de los pensamientos sobre el tema es que el procedimiento es muy largo, sin embargo, recuerda que cuentas con el programa Excel y también con tu calculadora científica, quienes te ayudarán a hacerte menos engorroso el trabajo. No olvides que el énfasis está en: la elección adecuada de la utilización de éste tipo de análisis estadístico y en la interpretación de los resultados.

Algunos Tips:

¿Recuerdas cómo utilizaste tu calculadora para introducir los datos y poder calcular la media aritmética y la desviación estándar, en una distribución de frecuencias?

De forma similar se realiza para regresión y correlación:

1. Ahora no es MODO estadístico sino MODO RL (Regresión Lineal)

2. Se introducen los datos en parejas, antes se hacía introduciendo el dato de la variable y luego el de la frecuencia, ahora se introduce el dato de X y luego el

dato de Y.

3. Recordarás que entre el dato de la variable y la frecuencia debía colocarse el signo “por” (que en otras calculadoras era una coma o punto y coma) ahora entre los datos de X y Y debe colocarse “una coma”. Si en tu calculadora, en el

procedimiento anterior era una coma, quizá ahora sea un punto y coma; deberás investigar cómo funciona tu calculadora.

4. El último paso era oprimir la tecla Dt (data o M+) para introducir la información de cada pareja de datos, a la memoria de la calculadora.

Figure

Actualización...