• No se han encontrado resultados

UNIDAD 4 ANÁLISIS DE REGRESIÓN Y CORRELACIÓN

N/A
N/A
Protected

Academic year: 2022

Share "UNIDAD 4 ANÁLISIS DE REGRESIÓN Y CORRELACIÓN"

Copied!
5
0
0

Texto completo

(1)

UNIDAD 4

ANÁLISIS DE REGRESIÓN Y CORRELACIÓN

ANÁLISIS DE VARIANZA

Existe una técnica de análisis de la varianza que se utiliza para comprobar si una linea recta muestra una cantidad significativa de la variabilidad observada de Y, es decir si la variable Y depende significativamente de X

El procedimiento consiste en comparar las desviaciones de los puntos con relación a la recta de regresión con las desviaciones alrededor de la recta Y, ( Y= valor medio de los valores o

bservados de Y). Si consideramos un punto cualquiera (Xi, Yi ), la distancia vertical del valor observado Yi a Y es llamada desviación total y la designamos por (Yi –Y). Si medimos la distancia vertical desde la recta de regresión Y i a la recta Y, obtenemos (Yi –Y) que llamamos desviación explicada, y finalmente, a la distancia vertical del punto (Xi ,Yi ) a la recta de regresión Yi , (Yi -Yi) que es el error, la llamamos desviación inexplicada

Entonces tenemos:

(Yi –Y) = (Yi –Y) + (Yi -Yi)

Desv. Total desv. Explicada desv. Inexplicada

Si se miden estas desviaciones para todos los puntos, se elevan al cuadrado y se suman se obtiene:

(Yi –Y)2 = (Yi –Y)2 + (Yi -Yi)2

suma de cuadrados suma cuadrados suma de cuadrados total explicada inexplicada

Esta suma de cuadrados explicada entre la suma de cuadrados total es el coeficiente de determinación.

Usando las tres sumas de cuadrados y los grados de libertad asociados a ellas, podemos construir una tabla de análisis de varianza para la regresión lineal

TABLA DE ADEVA PARA REGRESIÓN LINEAL SIMPLE

Fuente de

variación

Grados libertad

Suma de cuadrados Cuadrados medios Fcalc

Total n-1 SC total F = S2 expl/ S2

inexpl Regresión 2-1=1 Scexplicada S2 expl = SCexpli/1

Error n-2 SC inexplicada S2 inexpl = SCinexpli/n-2

(2)

Este valor Fcalculado, se compara con el valor F teórico(tablas), el mismo que se lo localiza considerando el nivel de confianza, y los g.l regresión y g.l del error.. Si el Fcalc, es mayor que el F teórico, se concluye que Y depende significativamente de X

SUGERENCIA

Cuando desarrolla una linea de regresión, no omita el importante paso de preguntarse: ¿El coeficiente de regresión es significativamente diferente de cero?. Si no es así, entonces no existe una relación demostrada entre las variables. Por ejemplo, el propietario de un salón de bronceado tiene la corazonada de que es más probable que la gente vaya a una sesión en los días nublados. Saber esto sería de utilidad para calendarizar al personal o el mantenimiento de las máquinas. Si una regresión de “número de visitas”

en “horas de sol” reportada por el servicio metereológico local produce una linea de regresión para la cual la pendiente no es significativamente distinta de cero, entonces el propietario debería concluir que seguir las noticias sobre el tiempo no es de utilidad en la calendarización de su negocio

EJERCICIOS

1.- Se ha establecido un ìndice numèrico del grado de enfermedad de pacientes que sufren el mal de Crohn. El ìndice requiere que el paciente lleve un diario e incluya información sobre ocho variables clìnicas. El índice, si bien útil es molesto de obtener en la práctica y se ha ideado un nuevo índice que es màs fácil de calcular. Se cree que los valores obtenidos con el nuevo índice pueden ser utilizados para predecir el valor que se habría obtenido utilizando el antiguo índice ya comprobado. Se eval.ó a ciento seis pacientes utilizando ambos índices. Los valores de X recorren de 0.5 a 14.0. El diagrama de dispersión para los datos exhibe una tendencia lineal. Se tiene:

X = 366.1 Y = 12 623 X2 = 2435,63 XY = 75 989,6 X = 3,45 Y = 119,08

Manejar esta información para estimar a y b, . Cuál es la clasificaciòn predicha mediante el índice antiguo de un paciente que está clasificado en X = 16 mediante el nuevo índice. Razonar la respuesta.

2.- Se realiza un estudio para establecer una ecuación mediante la cual se pueda utilizar la concentración de estrona en saliva para predecir la concentración de esteroide en plasma libre. Se extrajeron los siguientes datos de 11 varones sanos:

Concentr.estrona en saliva, pg/ml

7.4 7.5 8.5 9.0 9.0 11.0 13.0 14.0 14.5 16.0 18.0

Concentr.de estronaen plasma,

30.0 25.0 31.5 27.5 39.5 38.0 43.0 49.0 55.0 48.5 51.0

(3)

a) La relaciòn entre estas variables es de tipo lineal? B) Encuentre la ecuación de mejor ajuste y dibújela en el diagrama. C) Utilizar la linea estimada de regresiòn para predecir el nivel de estrona en plasma libre de un varón cuyo nivel de estrona en saliva es de 17.5 pg/ml.

3.- Considèrense las siguientes observaciones sobre las variables X y Y X 2.0 2.1 2.5 3.0 3.5 3.9 4.0

Y 4.0 4.4 6.3 9.0 6.2 4.3 4.0

a) En base al diagrama de dispersión, ¿se puede esperar que r 2 (coeficiente de determinación) esté próximo a 1, -1 o 0? B) Calcular r2 e interpretarlo.

4.- Para estudiar el efecto de las aguas residuales de las alcantarillas que afluyen en un lago, se toman medidas de la concentración de nitrato en el agua. Para monitorizar la variable se ha utilizado un antiguo método manual. Se idea un nuevo método automático. Si se pone de manifiesto una alta correlación positiva entre las medidas tomadas empleando los dos métodos, entonces se hará uso habitual del método automático. Los datos obtenidos son los siguientes (las unidades son microgramos de nitrato por litro de agua)

Manual 25 40 120 75 150 300 270 400 450 575 Automático 30 80 150 80 200 350 240 320 470 583

a) ¿Aconsejaría poner en uso el método automático?

5.- Se ha realizado un estudio para evaluar la precisión en que las madres pueden juzgar el consumo de alimentos de sus hijos. Se obtuvieron datos de las madres y de un observador externo que pasó mucho tiempo observando la preparación de los alimentos y los hábitos nutritivos del niño. Entre el informe de la madre y el del observador se hallaron estas correlaciones:

Alimento Grasas g Grasas sat. g Fósforo mg Calcio mg Niacina mg Hierro R 0.52 0.38 -0.10 0.28 0.70 0.90

a) Construir diagramas de dispersión para ilustrar cómo espera usted que aparezcan los datos en cada caso

b) Explicar en un sentido práctico el significado de la correlación negativa del fósforo

c) Hallar el coeficiente de determinación para cada tipo de alimento . ¿Cuál es el porcentaje de variación de variación máxima en Y (el informe de la madre) explicado por su asociación lineal con X (informe del observador)

6.- Se lleva a cabo un estudio sobre las características corporales y el modo de actuar de los levantadores de peso olímpicos, superiores y de primera clase. Se estudian dos variables, peso corporal

(4)

del sujeto, e Y, su mejor levantamiento dictaminado en cuanto a limpieza y empuje. Se obtuvieron los siguientes datos en libras:

Peso 134 138 154 178 176 190 190 205 205 206 Mejor levantam. 185 238 260 290 312 336 339 341 358 359

a) Dibuje la nube de puntos. Basándose en ella, ¿ se puede esperar que b (coeficiente de regresión ) sea positivo o negativo?

b) Halle e interprete el coeficiente de determinación

c) Comprobar la idoneidad del modelo lineal de regresión. Si es adecuado, hallar la línea de regresión estimada de Y sobre X y utilizarla para estimar el mejor levantamiento en cuanto a limpieza y empuje para un levantador de peso que pese 200 libras

7.- Se lleva a cabo un estudio, por medio de detectores radiactivos, de la capacidad corporal para absorver hierro y plomo. Participan en el estudio diez sujetos. A cada uno se le da una dosis oral idéntica de hierro (sulfato ferroso) y de plomo (cloruro de plomo-203). Después de doce días se mide la cantidad de cada componente retenida en el sistema corporal y, a partir de ésta, se determina el porcentaje absorbido por el cuerpo. Se obtuvieron los siguientes datos:

X(%Fe absorv) 17 22 35 43 80 85 91 92 96 100 Y(%Pbabsorv) 8 17 18 25 58 59 41 30 43 58

a)Dibuje la nube de puntos. Basándose en ella, ¿ se puede esperar que b (coeficiente de regresión ) sea positivo o negativo?

b) Halle e interprete el coeficiente de determinación

c) Comprobar la idoneidad del modelo lineal de regresión. Si es adecuado, estimar la verdadera linea de regresión y utilizarla para predecir el % de hierro absorbido por un individuo cuyo sistema corporal absorbe el 15% del plomo ingerido.

8.- Se realiza un estudio para investigar la depresión en los adolescentes. Entre los factores

considerados están la preocupación y la satisfacción con el entorno inmediato. Las puntuaciones altas indican altos niveles de depresión, preocupación o satisfacción. Se hacen las siguientes afirmaciones: La

(5)

depresión está positivamente correlacionada con la preocupación, r = 0.3; La depresión está negativamente correlacionada con la satisfacción, r = - 0.36; Las puntuaciones de la satisfacción y la preocupación están correlacionadas negativamente, r = - 0.16.

a) Construir nubes de puntos para ilustrar cómo espera usted que aparezcan los datos en cada caso.

b) Un amigo que no sabe nada sobre estadística, le pide que interprete estas afirmaciones en un sentido práctico. ¿Qué diría usted?

9.-Se usa un reactivo químico para obtener un precipitado de una sustancia en una solución dada. Los datos son los siguientes:

Reactivo 7.2 4.8 5.2 4.9 5.4 6.4 6.8 8.0 6.0 6.7 Precipitado 8.4 5.4 6.3 6.8 8.0 11.1 12.3 13.3 8.4 9.5

a) La relación entre estas variables es lineal? b) Determine la mejor curva de ajuste y represéntela en el diagrama. c) Se puede estimar la cantidad de precipitado si se usa 10 de reactivo. Razone su respuesta? d) Estime el grado de relación entre estas variables, e interprete ese resultado.

10.- Los investigadores están estudiando la correlación entre obesidad y la respuesta individual al dolor . La obesidad se mide como porcentaje sobre el peso ideal (X). La respuesta al dolor se mide utilizando el umbral de reflejo de flexión nociceptiva (Y), que es una medida de sensación de punzada. Se obtiene la siguiente información:

X(%

sobrepeso)

89 90 75 30 51 75 62 45 90 20

Y (umbral reflejo)

2 3 4 4.5 5.5 7 9 13 15 14

a) En base a la información anterior, determine el grado de relación entre estas variables

 11.- Supongamos que usted tiene a su cargo el dinero de cierta región del país. Se le dan los siguientes datos de antecedentes sobre el suministro de dinero y el producto nacional bruto(en millones de dólares).

Sum. De dinero 2.0 2.5 3.2 3.6 3.3 4.0 4.2 4.6 4.8 5.0 Prod. Nac. bruto 5.0 5.5 6.0 7.0 7.2 7.7 8.4 9.0 9.7 10.0

a)La relación entre estas variables es lineal? b) Desarrolle la ecuación de estimación para predecir el producto nacional bruto en función del suministro de dinero. c) Se puede estimar el producto nacional bruto cuando el suministro de dinero es de 6.0 millones de dólares? Razone su respuesta? d) Estime el grado de relación entre estas variables, e interprete ese resultado.

Referencias

Documento similar