Análisis de regresión y correlación simple y múltiple

36  315  Descargar (3)

Texto completo

(1)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

116

Capítulo

VI

Análisis de regresión y correlación

simple y múltiple

...

...

Objetivo del

Capítulo

Establecer la relación

entre

dos

o

más

variables: análisis de

correlación. Establecer

un modelo matemático

para estimar el valor

de

una

variable

basándose en el valor

de

la(s)

otra(s):

(2)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

117

6.1 Introducción

El Análisis de Regresión y correlación es una metodología estadística que se utiliza para predecir hechos o eventos y también para pronosticarlos. Con respecto al análisis de regresión lo que se hace es evaluar la contribución de una o más variables con respecto de otra, es decir éste análisis permite evaluar que tan bien una o más variables (independientes) ayudan a explicar a otra (dependiente). El análisis de correlación mide la asociación o intensidad de la relación entre las variables sin tomar en cuenta cual es la variable dependiente y cual(es) es (son) las variable(s) independiente(s). Para realizar un análisis de regresión y correlación es recomendable seguir los siguientes pasos:

1. Recopilar los datos a través de fuentes como cuestionarios, formatos, formularios o bases de datos, textos, folletos, revistas, internet, mediciones directas, etc.

2. Dibujar el diagrama de dispersión, el cual le sugiere que modelo se podría utilizar, es un gráfico que muestra la intensidad y el sentido de la relación entre dos variables de interés. Sólo hasta planos de tres dimensiones se pueden observar mejor los modelos sugeridos, cuando se trabaja con 4 o más variables los gráficos son áreas de superficies.

3. Calcular los valores del Coeficiente de Correlación y del Coeficiente de Determinación (Nota: el Coeficiente de Correlación mide el porcentaje de asociación lineal entre las variables y el Coeficientes de Determinación mide el porcentaje de variabilidad de la variable dependiente explicada por la variable independiente)

4. Establecer el modelo que sugiere el diagrama de dispersión o los sugeridos por la experiencia del investigador.

5. Estimar la línea de Regresión usando un programa procesador con aplicaciones estadísticas (Excel, SPSS, Statgraphics,Minitab, Stattif, SAS, Stadistics, entre otros)

6. Hacer pronósticos siempre y cuando la muestra sea suficientemente grande o cuando el periodo de tiempo sea suficientemente confiable para que las predicciones no estén desfasadas de la realidad.

Es importante conocer los siguientes términos:

Variable dependiente (respuesta, predicha, endógena): es la variable que se desea predecir o estimar

Variables independientes (predictoras, explicativas exógenas). Son las variables que proveen las bases para estimar.

Regresión simple: interviene una sola variable independiente

Regresión múltiple: intervienen dos o más variables independientes. Regresión lineal: la función es una combinación lineal de los parámetros

Regresión no lineal: la función que relaciona los parámetros no es una combinación lineal

6.2 Diagrama de dispersión o nube de puntos

La distribución conjunta de dos variables puede expresarse gráficamente mediante diagrama de dispersión: en un plano cartesiano se representa cada elemento observado haciendo que sus coordenadas sobre los ejes cartesianos sean los valores que toman las dos variables para esa observación. Es costumbre representar la variable dependiente en el eje vertical (ordenadas) y la independiente en el eje horizontal (abscisas). Cuando se estudia la relación entre dos variables, una puede considerarse causa y la otra resultado o efecto de la primera. Llamaremos variable exógena, o variable independiente a la que causa el efecto y variable endógena, o variable dependiente a la que lo recibe.

(3)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

118

Tabla VI.1: Tasa de mortalidad según % de inmunización por países

Nación % Inmunización Tasa_mortalidad

Bolivia 77 118

Brasil 69 65

Cambodia 32 184

Canadá 85 8

China 94 43

Czech_Republic 99 12

Egypt 89 55

Ethiopia 13 208

Finland 95 7

France 95 9

Greece 54 9

India 89 124

Italy 95 10

Japan 87 6

México 91 33

Poland 98 16

Russian_federation 73 32

Senegal 47 145

Turkey 76 87

United_Kingdom 90 9

Pasos para levantar el gráfico en el SPSS: Gráficos<generador de gráficos/dispersión puntos<subir<pasar las variables dependiente al eje “y” y la variable independiente al eje “x”<grupos/ID de puntos

(4)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

119

En el diagrama de dispersión de la figura VI.1 observamos un indicio del tipo de relación que existe entre las variables. Estando claro a partir de la observación de los puntos que existe una tendencia general que a mayor cantidad de % de inmunización se obtendrá una menor tasa de mortalidad. A este tipo de relación se le conoce como inversa o negativa. Si se observase un proceso contrario, la correlación sería directa o positiva. Así también se observa una tendencia lineal y con buen ajuste

Características del diagrama de dispersión

Según la forma de la nube de puntos podemos obtener la siguiente información: Conocer si existe una relación directa o inversa entre las variables Saber si esa relación es fuerte o débil.

Determinar si la relación se ajusta a un modelo lineal o bien a otro modelo matemático (Ej.: modelo curvilíneo).

La producción de este tipo de diagramas es el paso más importante a la hora de estudiar la correlación entre dos variables. Así también la inspección del diagrama es esencial para detectar problemas como son las puntuaciones "outliers", que pueden deberse desde una mala introducción de la información, a la mezcla de datos correspondientes a distribuciones distintas.

A continuación mostraremos los diagramas más comunes que se suelen presentar al graficar las variables en estudio:

(5)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

120

Figura VI. 2: Diferentes diagramas de dispersión y sus respectivos modelos de regresión para ellas

6.3 Análisis de correlación

El análisis de correlación o de la covariabilidad puede verse como una propiedad conjunta de dos o más variables, donde se intenta averiguar si las propiedades medidas se relacionan entre sí. Por ejemplo cuando nosotros intentamos explicar la contaminación atmosférica causada por los óxidos de nitrógeno y el número de autos antiguos y en mal estado que circulan en una ciudad, o cuando nosotros deseamos saber si las personas más inteligentes tienen mejor rendimiento académico. En su formulación clásica, y de forma general, el estudio de la covariación o correlación entre dos variables exige que ambas variables se expresen en el mismo tipo de escala de medida (numéricas). Cumplido esto, los datos pueden describirse en forma de matriz rectangular.

Coeficiente de correlación lineal r de Pearson

Para cuantificar el grado de la relación lineal entre dos variables se utiliza el coeficiente de correlación de Pearson. La formula es la siguiente:

r =

2 2 2 2

) ( )

(

) ( ) (

y y n x x n

y x xy

n , o también

Donde se resuelve utilizando la covarianza y las desviaciones típicas de las dos variables (en su forma insesgada).

Interpretación: Este estadístico, refleja el grado de correlación lineal que existe entre dos variables. El resultado numérico fluctúa entre los rangos de < -1 a +1>, encontrándose en medio el valor “0” que indica que no existe asociación lineal entre las dos variables a estudio. Un coeficiente de valor

r

y x

x y x y

s

s

s

(6)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

121 X 6 5 4 3 2 1 0 Y 7 6 5 4 3 2 1 X 6 5 4 3 2 1 0 Y 7 6 5 4 3 2 1 X 6 5 4 3 2 1 0 Y 6 5 4 3 2 1 0 X 1 2 1 0 8 6 4 2 Y 1 2 1 0 8 6 4 2

reducido no indica necesariamente que no exista correlación ya que las variables pueden presentar una relación no lineal como puede ser el peso del recién nacido y el tiempo de gestación. En este caso el r infraestima la asociación al medirse linealmente. Los métodos no paramétrico estarían mejor utilizados en este caso para mostrar si las variables tienden a elevarse conjuntamente o a moverse en direcciones diferentes.

Una correlación de +1 significa que existe una relación lineal directa perfecta (positiva) entre las dos variables. Es decir, las puntuaciones bajas de la primera variable (X) se asocian con las puntuaciones bajas de la segunda variable (Y), mientras las puntuaciones altas de X se asocian con los valores altos de la variable Y.

Una correlación (r>0) significa que existe una relación positiva o directa entre las dos variables

Una correlación (r<0) significa que existe una relación lineal inversa o negativa entre las dos variables. Lo que significa que las puntuaciones bajas en X se asocian con los valores altos en Y, mientras las puntuaciones altas en X se asocian con los valores bajos en Y.

Una correlación de (r 0) es decir cercana a cero, se interpreta como la no existencia de una relación lineal entre las dos variables estudiadas

Outliers

Una puntuación "outlier" es una o varias puntuaciones extremas dentro de una variable (por ejemplo si en un variable los sujetos puntúan normalmente entre 20 y 35 puntos, el valor 80 debería ser considerado como "sospechoso" en principio).

Este tipo de valores afecta gravemente a la correlación, sobre todo si trabajamos con muestras pequeñas. La distorsión producida normalmente es aumentar de forma "espuria" el grado de relación lineal.

(7)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

122

CRITERIOS:

Resulta difícil precisar a partir de qué valor de “r” podemos considerar que existe una correlación lineal entre las variables. Siempre debemos tener en cuenta para la interpretación el tipo de variables a las que se aplica así como del tamaño de la muestra.

Sin embargo, para tener un referente, y siendo concientes de que estos coeficientes no son aplicables a todas las situaciones, tomamos los determinados por Bisquerra. Sin embargo no obstante el hecho que dos variables tengan un alto coeficiente de correlación no necesariamente conlleva que se pueda establecer una relación de causa-efecto entre ellas.

Ejemplo: para el problema de la tabla VI.1: tasa de mortalidad según % de inmunización por países tenemos:

Ho: 0(No hay correlación entre la tasa de mortalidad dado el % de inmunización por países)

Ha: 0(Si hay algún grado de asociación entre la tasa de mortalidad dado el % de inmunización por países) r =

2 2 2 2

) ( )

(

) ( ) (

y y n x x n

y x xy

n = -0.791

En el SPSS para pedir el coeficiente de correlación:

Analizar<correlaciones<bivariadas<pasar las variables<Pearson<aceptar

%

Inmunización Tasa_mortalidad % Inmunización Correlación de

Pearson 1

-.791(**)

Sig. (bilateral) .000

N 20 20

Tasa_mortalidad Correlación de

Pearson -.791(**) 1

Sig. (bilateral) .000

N 20 20

** La correlación es significativa al nivel 0,01 (bilateral).

Interpretación

Decisión: Rechazamos la Ho dado una significancia de .000 La puntuación extrema (x =10, y =10) produce una

relación lineal espuria (r = 0.935), ya que si eliminamos esta puntuación la relación lineal no existe (r = 0).

(8)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

123

R = - .791** Existe una alta correlación inversa entre la tasa de mortalidad y él % de inmunización; es decir a mayor % de inmunización la tasa de mortalidad disminuye significativamente (Sig = .000)

Ejemplo: A continuación veremos un ejemplo, donde la figura representada refleja la covariación entre la inteligencia (CI) y el rendimiento (Nota) de los sujetos estudiados.

Tabla VI.2: Nota según CI de un grupo de alumnos de Ingeniería Ambiental de la UPeU, 2010

CI NOTA CI NOTA CI NOTA

70 10 85 12 96 13

70 10 75 12 110 13

70 9 73 11 105 13

80 10 79 10 106 14

80 11 72 11 107 15

90 14 80 14 125 15

90 12 85 12 124 14

100 14 84 14 128 15

100 15 81 14 129 14

110 15 92 12 130 16

110 12 90 10 131 18

120 15 94 12 135 19

120 16 97 15 137 18

140 19 93 13 140 17

Figura VI.3: Diagrama de dispersión de las notas según CI

Ho: 0(No hay correlación entre el rendimiento dado la inteligencia)

(9)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

124

Reporte del SPSS:

CI NOTA

CI Correlación de

Pearson 1

.849(**)

Sig. (bilateral) .000

N 42 42

NOT A

Correlación de

Pearson .849(**) 1

Sig. (bilateral) .000

N 42 42

** La correlación es significativa al nivel 0,01 (bilateral).

Interpretación

R = .849** Existe una alta correlación directa o positiva entre la inteligencia y el rendimiento medido a través de las notas; es decir a mayor CI las notas se incrementan significativamente (Sig = .000)

6.4 Coeficiente de determinación

Nos indica el porcentaje del ajuste que se ha conseguido con el modelo lineal, es decir el porcentaje de la variación de Y(rendimiento) que se explica a través del modelo lineal que se ha estimado, es decir a través del comportamiento de X(inteligencia). Para los ajustes de tipo lineal se tiene que los coeficientes de determinación son iguales a r2, y por tanto representan además la proporción de varianza explicada por la regresión lineal; es decir la proporción de las variaciones totales en la variable dependiente Y que es explicada (no causada) o atribuida a las variaciones en la variable independiente X, también se le denomina bondad del ajuste.

El coeficiente de determinación es el cuadrado del coeficiente de correlación, y varía de 0 a 1.

2 / 2 2

/y y x

x

r

R

R

Para el ejemplo de la tabla VI.1: tasa de mortalidad según % de inmunización por países tenemos: R2 = (-.791)2 % = 62.6%; es decir se ha eliminado un 62.6% de los errores con la regresión; la tasa de mortalidad está siendo explicado en un 62.6% por la variabilidad del % de inmunización y un 37.4% se debe a la intervención de otras variables.

Para el ejemplo de la tabla VI.2: la inteligencia (CI) y el rendimiento (Nota) de los sujetos estudiados tenemos:

R2 = (.849)2 % = 72.1%; es decir se ha eliminado un 72.1% de los errores con la regresión; el rendimiento está siendo explicado en un 72.1% por la variabilidad de la inteligencia medida a través del CI y un 27.9% se debe a la intervención de otras variables.

6.5 Análisis de regresión

El objetivo del análisis de la regresión es analizar un modelo que pretende explicar el comportamiento de una variable (Variable endógena, explicada o dependiente), que denotaremos por Y, utilizando la información proporcionada por los valores tomados por un conjunto de variables (explicativas, exógenas o independientes), que denotaremos por X1, X2 , ..., X n

Las variables del modelo de regresión deben ser cuantitativas. Pero dada la robustez de la regresión es frecuente encontrar incluidas en el modelo como variables independientes a variables ordinales e incluso nominales transformadas en variables ficticias. Pero la variable dependiente debe ser cuantitativa. Para una variable dependiente binaria de emplea la regresión logística.

(10)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

125

Las técnicas de regresión permiten hacer predicciones sobre los valores de cierta variable Y (dependiente), a partir de los de otra X (independiente), entre las que intuimos que existe una relación. Ejemplo, si observamos en una determinada zona la circulación de vehículos importados de segunda podemos intuir la concentración de óxido de nitrógeno y el efecto que tiene sobre la contaminación atmosférica, observamos los valores que toman las variables

X = N° de vehículos usados Y = Contaminación atmosférica

La razón no es por cierto que conocido el n° de vehículos usados, podamos determinar el valor exacto de contaminación atmosférica. Sin embargo, alguna relación entre ellas debe existir, pues parece mucho más probable que a mayor circulación de vehículos usados mayor contaminación atmosférica.

A la deducción, a partir de una serie de datos, de este tipo de relaciones entre variables, es lo que denominamos regresión.

Mediante las técnicas de regresión inventamos una variable Ycomo función de otra variable X (o viceversa), Y= f(x), esto es lo que denominamos relación funcional. El criterio para construir Y, tal como citamos anteriormente, es que la diferencia entre Y e Ysea pequeña.

Y= f(x), Y- Y= error

El término que hemos denominado error debe ser tan pequeño como sea posible. El objetivo será buscar la función (también denominada modelo de regresión) que lo minimice.

Modelos de regresión (variable dependiente cuantitativa).

Lineal

Cuadrático

Cúbico

Logarítmico

Inverso

Potencia

Compuesto

Logístico

Exponencial

Lineal Múltiple

X

Y 0 1

) ln ( 1

0 X

Y

) / ( 1

0 X

Y

2 2 1

0 X X

Y

1

0 X

Y

X

Y 0 1

X

u Y

1 0 1

1

X

e

Y 1

0

n nX X

X X

Y 0 1 1 2 2 3 3 

3 3 2 2 1

0 X X X

(11)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

126

Modelo de regresión lineal simple

Es un modelo de regresión lineal entre dos variables: Y 0 1x , a la variable Y se la

denomina variable dependiente y a X independiente.

Ecuación de regresión: E(Y) 0 1x

Condiciones para usar el modelo de regresión lineal:

i) Para cada valor xi de X existe una v.a. Y|xi cuya media está dada por el modelo

ii) Todas las variables Y|xi son normales, independientes y con igual varianza.

A partir de una muestra aleatoria, la teoría estadística permite:

i) estimar los coeficientes i del modelo (hay dos procedimientos mínimos cuadrados y máxima

verosimilitud que dan el mismo resultado).

ii) estimar las varianzas de las variables Y/xi llamada cuadrados medios del error y representada

por 2

s

o MSE. a su raíz cuadrada se le llama error estándar de la estimación.

iii) conocer la distribución muestral de los coeficientes estimados, tanto su forma (t) como su error estándar, que permite hacer estimación por intervalos como contrastes de hipótesis sobre ellos.

Modelo: Y 0 1X

A través del método de los mínimos cuadrados (MMC) se debe obtener: Y a b x

El método de los Mínimos Cuadrados consiste en definir la función que tenga menos rango o desviación respecto a los valores observados: f(x,y), se trata de un problema de minimización del área o (desviación), estimación entre los valores observados o reales Yi son los valores calculados o estimados a partir de una función o línea de regresión.

0 y 1 son parámetros que se determinan al aplicar el MMC la cual significa minorizar:

2 2

2 0

)

( x

x n

xy x y x

2 2

1

) ( x x

n

y x xy n

Ejemplo: Se está interesado en demostrar la relación que existe entre la tasa de mortalidad y el porcentaje de inmunización que tienen los países en estudio. La data se dio en la tabla VI.I del presente capítulo.

¿Existe una relación lineal importante entre ambas variables?. Calcular la recta de regresión de la tasa de mortalidad en función del porcentaje de inmunización. ¿En cuánto aumenta la tasa de mortalidad por cada 1% de inmunización?. ¿Qué tasa de mortalidad se podría predecir para el grupo de países que presentan un % de inmunización a 80%?. Calcular la bondad de ajuste.

Función lineal

Se llama función lineal de una variable, a una función de la forma:

X

Y 0 1

0: ordenada en el origen (valor de Y cuando X = 0)

(12)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

127

Tabla VI.I. Tasa de mortalidad según % de inmunización

Nación

(x) %

Inmunización

(y) Tasa de

mortalidad X2 y2 xy

Bolivia 77 118 5929 13924 9086

Brasil 69 65 4761 4225 4485

Cambodia 32 184 1024 33856 5888

Canadá 85 8 7225 64 680

China 94 43 8836 1849 4042

Czech_Republic 99 12 9801 144 1188

Egypt 89 55 7921 3025 4895

Ethiopia 13 208 169 43264 2704

Finland 95 7 9025 49 665

France 95 9 9025 81 855

Greece 54 9 2916 81 486

India 89 124 7921 15376 11036

Italy 95 10 9025 100 950

Japan 87 6 7569 36 522

México 91 33 8281 1089 3003

Poland 98 16 9604 256 1568

Russian_federation 73 32 5329 1024 2336

Senegal 47 145 2209 21025 6815

Turkey 76 87 5776 7569 6612

United_Kingdom 90 9 8100 81 810

Sumatorias (totales) 1548 1180 130446 147118 68626

Reemplazando en las formulas, tenemos:

3 1 6 . 2 2 4 )

( 2

2 2 0

x x

n

xy x y x

1 3 6 . 2 ) ( 2

2 1

x x

n

y x xy n

En el SPSS para pedir el análisis de regresión:

Analizar<regresión lineal<pasar la variable “y. Tasa de mortalidad” a dependiente y la variable “x. % de inmunización” a independientes<aceptar

La "salida" del SPSS es:

1º. Resumen del modelo

Resumen del modelo(b)

Modelo R R cuadrado

R cuadrado corregida

Error típ. de la estimación

1 .791(a) .626 .605 40.139

a Variables predictoras: (Constante), % Inmunización b Variable dependiente: Tasa_mortalidad

Reporta r=.791 Es el mismo encontrado por el análisis de correlación, pero el reporte es en valor absoluto

2

(13)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

128

2º. Reporta el análisis de varianza para la regresión, que separa la variabilidad explicada por la regresión y la variabilidad no explicada o residual, y calcula el estadístico F y su significancia estadística.

Esta es una primera aproximación inferencial al modelo de regresión lineal, que evalúa globalmente el modelo. En nuestro ejemplo es estadísticamente significativo (Sig=p=.000) y se concluye rechazando la Ho, es decir existe asociación entre las dos variables mediante una regresión lineal); en otras palabras el modelo que daremos a continuación es bueno.

ANOVA(b)

Modelo

Suma de

cuadrados gl

Media

cuadrática F Sig. 1 Regresión 48497.050 1 48497.050 30.101 .000(a)

Residual 29000.950 18 1611.164

Total 77498.000 19

a Variables predictoras: (Constante), % Inmunización b Variable dependiente: Tasa_mortalidad

3º. En el siguiente reporte se ofrecen los coeficientes de la recta de regresión Coeficientes(a)

Modelo

Coeficientes no estandarizados

Coeficientes estandarizado

s

t Sig. B Error típ. Beta

1 (Constante) 224.316 31.440 7.135 .000

% Inmunización -2.136 .389 -.791 -5.486 .000

a Variable dependiente: Tasa_mortalidad

Donde:

0= 224.316 Tasa de mortalidad media sin ninguna influencia del % de inmunización (constante en el origen).

1= -2.136 aumento de tasa de mortalidad por cada % de inmunización; como es distinto de cero

indica correlación (pendiente de la recta)

Modelo: Y 0 1X

Reemplazando: Y 2 2 4.3 1 6 2.1 3 6X

En términos de contrastes de hipótesis.

H0: 1 = 0

H1: 1 0

según iii) 2

1 1

)

( tn

erro r

t 5.4 8 6

3 8 9 . 0

1 3 6 . 2

t , aquí t = -5.486 con un valor

p = 0,000 (sig < 0.05)

Se rechaza H0. Y por tanto concluimos a un nivel de confianza del 95% que los valores de la

(14)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

129

Predicción: Tomando como base la data de los 20 países de los cuales se midió su tasa de mortalidad y su % de inmunización ¿Qué tasa de mortalidad se esperaría si el grupo de países presentan un % de inmunización de 80%?

Tasa de mortalidad= 224.316+(-)2.136*80=53.436

Con estos resultados concluimos:

1º. Que las variables están asociadas o relacionadas linealmente en la población de la que proviene la muestra (con una muy pequeña probabilidad de que la relación encontrada sea explicada por el azar, menos del uno por mil

2º. Que la relación encontrada es muy buena (r= - .791), de hecho que la variable independiente (% de inmunización) explica en un 62.6% (r2 .626) la variabilidad de la variable dependiente (tasa de mortalidad)

3º. Que la relación es inversa, disminuyendo en promedio 2.136 de tasa de mortalidad por cada aumento de % de inmunización en los países en estudio

Ejemplo: En un grupo de 8 pacientes se miden las cantidades antropométricas peso y edad, obteniéndose los siguientes resultados: Tabla I: 4

Resultado de las mediciones

X = edad 12 8 10 11 7 7 10 14

Y = peso 58 42 51 54 40 39 49 56

¿Existe una relación lineal importante entre ambas variables? Calcular la recta de regresión del peso en función de la edad. ¿Qué peso se podría predecir para un paciente que tiene una edad de 8 años de edad?. ¿En cuánto aumenta la edad por cada kilo de peso?. Calcular la bondad del ajuste ¿En qué medida, por término medio, varía el peso cada año?

Solución:

Para saber si existe una relación lineal entre ambas variables se calcula el coeficiente de correlación lineal:

Datos previos

a ñ o s

x 9.8 7 5 ; y= 48.625 Kg ; 8

1

3 9 6 3 i

i iy

x ; x 2.3 1 5 ; y 6.9 6 3

Método 1:

a ñ o Kg x

Sx y 9.8 7 5 4 8.6 2 5 1 5.2 0 3 1 . 8

3 9 6 3

9 4 3 1 . 0 9 6 3 1 . 6 3 1 5 0 . 2

2 0 3 1 . 1 5 x S r y x x y

Método 2. De acuerdo a la formula de mínimos cuadrados:

9 4 3 . 0 6 6 3 2 2 . 1 0 3 1

9 7 3 )

3 8 9 ( 1 9 3 0 3 * 8 ) 7 9 ( 8 2 3 * 8

3 8 9 * 7 9 ) 3 9 6 3 ( 8 ) ( ) ( ) ( ) ( 2 2 2 2 2 2 r y y n x x n y x xy n r

Siendo r=0.943 se considera una correlación alta positiva o directa, por tanto el ajuste lineal es muy bueno.

(15)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

130 edad 14 12 10 8 pes o 60 55 50 45 40 35

Sq r lineal = 0,89

La recta de regresión del peso en función de la edad es:

a ñ o Kg S Kg x y X x Y x x y / 8 3 7 . 2

6 1 2 . 2 0

8 3 7 . 2 6 1 2 . 2 0 2 1 1 0 1 0

Por el método de los mínimos cuadrados:

6 1 2 . 2 0 )

7 9 ( 8 2 3 * 8

3 9 6 3 * 7 9 3 8 9 * 8 2 3 )

( 2 2

2 2 0 x x n xy x y x

8 3 7 . 2 3 4 3 9 7 3 )

7 9 ( 8 2 3 * 8

3 8 9 * 7 9 3 9 6 3 * 8 )

( 2 2

2 1 x x n y x xy n

Reporte en el SPSS Coeficientesa

Modelo

Coeficientes no estandarizados

Coeficientes tipificados

t Sig.

B Error típ. Beta

1 (Constante) 20,612 4,140 4,979 ,003

edad 2,837 ,408 ,943 6,950 ,000

a. Variable dependiente: peso

La recta de regresión: Y=20.612+2.837 * x Estimación:

Peso=20.612+2.837 * 8 años= 43.308 Kg

La bondad del ajuste o coeficiente de determinación es:

8894

.

0

)

9431

.

0

(

2 2 2 / 2

/

R

r

R

xy yx

Por tanto podemos decir que el 88.94 % de la variabilidad del peso en función de la edad es explicada mediante la recta de regresión correspondiente. Del mismo modo puede decirse que hay un 100 – 88.94 % = 11.06 % de varianza que no es explicada por la recta de regresión. Por tanto la varianza residual de la regresión del peso en función de la edad es:

años K

x r

(16)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

131

Por último la cantidad en que varía el peso de un paciente cada año es, según la recta de regresión del peso en función de la edad, la pendiente de esta recta, es decir, b1 = 2,837 Kg./año.

Pasos en Excel y SPSS para el ejemplo anterior

x Y xy x2 y2

12 58 696 144 3364

8 42 336 64 1764

10 51 510 100 2601

11 54 594 121 2916

7 40 280 49 1600

7 39 273 49 1521

10 49 490 100 2401

14 56 784 196 3136

(sumatoria)

79.00 389 3963 823 19303

X(edad) Y(peso)

Media 9.875 Media 48.625

Varianza 5.359 Varianza 48.484

Desviación 2.315 Desviación 6.963

Reporte del SPSS Correlaciones

edad Peso

Edad Correlación de Pearson

1 ,943**

Peso Sig.

(bilateral)

,000

Suma de

cuadrados y productos cruzados

42,875 121,625

Covarianza 6,125 17,375

N 8 8

**. La correlación es significativa al nivel 0,01 (bilateral).

6.6 Supuestos del modelo de regresión (errores) 1. Linealidad: relación lineal entre x e y

2. Normalidad: El término tiene una distribución de probabilidad normal

3. Homocedasticidad: La variación en torno a la recta de regresión es constante para todos los valores de x, no importando que el valor que toma sea alto o bajo; de todas formas la variación se supone que es la misma.

4. Los valores de son no correlacionados

Ejemplo: Analizar si la relación Tasa de mortalidad y % de inmunización cumple los supuestos básicos del análisis de correlación y regresión

(17)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

132

(18)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

133

Linealidad en la relación entre las variables

Utilizamos el gráfico de los residuos tipificados frente a las estimaciones tipificadas. Si la varianza de los residuos fuera constante, la nube de puntos estaría concentrada en una banda, centrada en el cero y paralela al eje de las abscisas.

Observamos que no existe ningún patrón sistemático claramente definido en los datos y los residuales fluctúan aleatoriamente alrededor de la recta que corresponde a la media de los mismos y de valor “0”

Homocedasticidad:

En cuanto a la igualdad de varianzas, el gráfico anterior nos sirve para contrastar este supuesto. Si la variabilidad de los residuos a lo largo de los valores predichos es más o menos constante, como es el caso, podemos concluir que si cumple la igualdad de varianzas. No en caso contrario

Los valores de son no correlacionados

(19)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

134

significa que los errores no están correlacionados, menor de 2 que los errores están positivamente correlacionados y mayor que 2 que están negativamente correlacionados. En el ejemplo Durbin-Watson= 2.679 es un valor ligeramente mayor que 2, indicando que no hay evidencia de autocorrelación.

En el SPSS: Analizar<regresión<lineal

Reporte:

Resumen del modelo(b)

Modelo R R cuadrado

R cuadrado corregida

Error típ. de la

estimación Durbin-Watson

1 .791(a) .626 .605 40.13931 2.679

a Variables predictoras: (Constante), % de inmunización b Variable dependiente: Tasa de mortalidad

6.7 Análisis para la regresión múltiple:

La regresión lineal múltiple es una extensión del modelo simple al que se incorporan dos o más variables independientes. El análisis de regresión múltiple produce una ecuación con varios coeficientes , dependiendo del número de variables independientes X que se introduzcan al modelo, generando de esta forma hiperplanos.

Modelo:

En la que:

0 = intersección con el eje Y

1= la pendiente de y respecto a la variable X1 manteniendo las variables X1, X2, …Xp constantes

2= la pendiente de y respecto a la variable X2 manteniendo las variables X1, X3, …Xp constantes …

n= la pendiente de y respecto a la variable Xp manteniendo las variables X1, X2, …X p 1 constantes

i= error aleatorio en Y correspondiente a la observación i i

n nX X

X

(20)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

135

Cant.Agua.L

9,0 8,0 7,0 6,0 5,0 4,0 3,0

pe

so

.L

b.

Y

12,5

10,0

7,5

5,0

2,5 Sq r lineal = 0,71

Ejemplo:

En la Unidad Económica Básica "Frank País" de Moa se desea conocer el peso promedio que alcanzarán las gallinas en el próximo trimestre. Al final de cada trimestre estas gallinas son distribuidas a la población y se inician nuevamente el ciclo de crecimiento. Se conoce que la cantidad de maíz y agua consumida por estas juega un papel determinante en el peso de las mismas. En el actual trimestre se realizó un estudio donde se obtuvieron los datos para 35 gallinas.

Nº Peso.Lb.Y Cant.maíz.Kg Cant.Agua.L Peso.Lb.Y Cant.maíz.Kg Cant.Agua.L

1 5,0 8,0 6,0 19 10,6 11,5 8,3

2 8,0 9,5 7,4 20 8,8 8,4 6,9

3 10,0 11,0 8,4 21 7,9 9,0 5,8

4 9,0 10,0 7,9 22 9,6 10,0 8,5

5 12,0 13,0 8,0 23 6,8 8,9 5,9

6 5,6 8,5 7,0 24 4,7 7,2 5,2

7 7,3 8,0 8,0 25 8,6 9,0 8,0

8 6,2 7,0 6,0 26 13,5 15,0 9,0

9 5,5 9,0 4,0 27 3,5 6,9 6,0

10 3,0 6,0 5,0 28 4,3 6,8 5,8

11 8,5 7,0 7,0 29 8,5 7,9 7,3

12 7,0 6,5 6,0 30 9,1 8,8 8,5

13 4,0 6,2 5,0 31 10,2 9,6 9,0

14 4,5 7,0 5,6 32 5,6 7,3 5,8

15 5,8 9,0 6,2 33 6,6 8,0 7,2

16 7,6 8,0 6,9 34 7,9 7,8 6,9

17 3,9 5,7 3,8 35 8,3 9,0 8,3

18 9,2 11,0 7,5

Solución

a. Realizamos en primer lugar un análisis de correlación y regresión simple

Dibujamos el diagrama de dispersión para ver la tendencia y la relación entre las variables en estudio (En el SPSS gráficos cuadro de diálogos antiguos dispersión simple)

Cant.Maíz.Kg

15,0 12,5 10,0 7,5 5,0

pe

so

.L

b.

Y

12,5

10,0

7,5

5,0

2,5

29

19 11

10

Sq r lineal = 0,726

2º Coeficiente de correlación y coeficiente de determinación Variable dependiente: Y. Peso de las gallinas en libras (lb.).

(21)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

136

Est adí st i cos descri pt i vos

7, 334 2, 4794 35 8, 613 1, 9715 35 6, 800 1, 3645 35 peso. Lb. Y

Cant . Maí z. Kg Cant . Agua. L

Media

Desviación

t í pica N

Resumen del model o

, 852a , 726 , 718 1, 3171 Modelo

1

R R cuadr ado

R cuadr ado cor r egida

Er r or t í p. de la est im ación Var iables pr edict or as: ( Const ant e) , Cant . M aí z. Kg

a.

El coeficiente de correlación = 0,852 (Existe una asociación lineal directa).

Coeficiente de determinación: R2 = 0.723 = 72.6% (Se ha eliminado un 72.6% de los errores con la regresión; el peso está siendo explicado en un 72.6% por la variabilidad de la cantidad de maíz consumida).

El error típico de la estimación o error estándar es: 1.3171

Correl aci ones

1 , 852** , 842** , 000 , 000

209, 013 141, 620 96, 894

6, 147 4, 165 2, 850 35 35 35 , 852** 1 , 690** , 000 , 000

141, 620 132, 148 63, 112

4, 165 3, 887 1, 856 35 35 35 , 842** , 690** 1 , 000 , 000

96, 894 63, 112 63, 302

2, 850 1, 856 1, 862 35 35 35 Cor r elación de Pear son

Sig. ( bilat er al) Sum a de cuadr ados y pr oduct os cr uzados Covar ianza N

Cor r elación de Pear son Sig. ( bilat er al) Sum a de cuadr ados y pr oduct os cr uzados Covar ianza N

Cor r elación de Pear son Sig. ( bilat er al) Sum a de cuadr ados y pr oduct os cr uzados Covar ianza N peso. Lb. Y

Cant . M aí z. Kg

Cant . Agua. L

peso. Lb. Y Cant . M aí z. Kg Cant . Agua. L

La cor r elación es signif icat iva al nivel 0, 01 ( bilat er al) . **.

La cantidad de agua (r=0.842) y de maíz (r=0.852) están muy bien asociadas con el peso en Lb que tienen las gallinas

3º Dócima de la regresión Planteamiento de las hipótesis:

Si se acepta H0: la variable no es significativa. (No existe relación lineal entre Y y X ).

(22)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

137

Coef i ci ent esa

- 1, 897 1, 012 - 1, 875 , 070 1, 072 , 115 , 852 9, 354 , 000 ( Const ant e)

Cant . Maí z. Kg Modelo

1

B Er r or t í p. Coef icient es no est andar izados

Bet a Coef icient es est andar izad

os

t Sig. Var iable dependient e: peso. Lb. Y

a.

Decisión: t= 9.354; Siendo el Sig 0.00 < 0.05, entonces rechazamos la Ho por lo tanto, existe relación lineal entre el peso y la cantidad de maíz consumida por las gallinas, es decir la cantidad de maíz es determinante en el peso de las gallinas.

4º Estimación

ma iz Ca n t x Yˆ 1.8 9 7 1.0 7 2 .

b. Realizamos un análisis de correlación y regresión multiple

Regresión múltiple. Variables:

Variable dependiente: Y. Peso de las gallinas en libras (lb.).

Variable independiente: X1 .cantidad de maíz consumida en kilogramos (Kg.).

Variable independiente: X2 .cantidad de agua consumida en litros (L.).

Dócima de la pendiente Planteamiento de la hipótesis:

0

: 1 2

0

H (No existe una relación lineal entre la variable dependiente y las

variables explicativas)

0 :A lmen o su n a j

Ha (Al menos un coeficiente de regresión no es igual a cero)

El rechazo de la hipótesis nula, indicará que al menos una de las variables independientes X1, X2,

…,Xk, contribuye significativamente en el modelo y como tal, podría ser útil para estimar el

promedio de Y.

Reporte del SPSS

ANO VAb

177, 586 2 88, 793 90, 411 , 000a 31, 427 32 , 982

209, 013 34 Regr esión

Residual Tot al Modelo

1

Sum a de

cuadr ados gl

Media

cuadr át ica F Sig. Var iables pr edict or as: ( Const ant e) , Cant . Agua. L, Cant . M aí z. Kg

a.

Var iable dependient e: peso. Lb. Y b.

Como el Sig< 0,05 entonces se RH0, lo que indica que al menos un de las variables explicativas

(Cant. Agua o Cant. Maíz) está relacionada con el peso en Lb. de las gallinas.

Método: Introducir

(23)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

138

El modelo tiene la siguiente ecuación:

2 1 0.8 8 2

6 5 . 0 2 6 7 . 4

ˆ X X

Y

Si quisiéramos estimar ¿Cuánto será el peso de una gallina si consume 5.5 L de agua y 7.9 Kg de maíz?

Reemplazamos los valores en la mejor recta de estimación calculada anteriormente:

Kg x

x

Yˆ 4.2 6 7 0.6 5 5.5 0.8 8 2 7.9 6.2 8

Coef i ci ent esa

- 4, 267 , 891 - 4, 791 , 000

, 650 , 119 , 517 5, 460 , 000

, 882 , 172 , 486 5, 127 , 000

( Const ant e) Cant . Maí z. Kg Cant . Agua. L Modelo

1

B Er r or t í p.

Coef icient es no est andar izados

Bet a Coef icient es est andar izad

os

t Sig.

Var iable dependient e: peso. Lb. Y a.

6.8 Correlación múltiple:

El Coeficiente de Correlación Múltiple mide la proporción de la variación total de los valores de la variable independiente, que es explicada por la regresión múltiple.

Resumen del model o

, 922a , 850 , 840 , 9910 M odelo

1

R R cuadr ado

R cuadr ado cor r egida

Er r or t í p. de la est im ación

Var iables pr edict or as: ( Const ant e) , Cant . Agua. L, Cant . M aí z. Kg

a.

R=0.922 (el modelo mejoró al interaccionar la otra variable independiente)

R2 = 0.850 (85 % de la variación en el peso de las gallinas puede ser explicada por la variación en la cant. de agua y por la variación del consumo de la cantidad de maíz en kg.).

R2 ajustada =84 % Error estándar =0,9910

6.9 Estimación Curvilínea

Antes de pedir una estimación curvilínea es importante pedir en primer lugar un gráfico de dispersión para tener idea de cuál sería el mejor modelo a estimar:

Ejemplo: para llevar a cabo la aplicación usamos la base de datos colgada en el SITE de Rosa Padilla. “data.países”. Se trata de un estudio que se realizó a nivel mundial de 30 países importantes en el mundo. La data recolectada es acerca de sus indicadores de salud-social-económico y demográfico.

Para la aplicación de un modelo curvilíneo se desea establecer la relación que existe entre la “tasa total de fertilidad (hijos por mujer)” y el “tiempo de duplicación de la población en años”

(24)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

139

Diagrama de dispersión entre la tasa de fertilidad y el tiempo de duplicación de la población

La figura presenta una tendencia no lineal inversa o negativa y un buen ajuste Una vez observado la forma en que se distribuyen los datos, pedimos:

Análisis > Regresión > Estimación curvilínea

El reporte sería:

Resumen del modelo y estimaciones de los parámetros

Resumen del modelo y estimaciones de los parámetros

Variable dependiente: Tiempo de duplicación de la población en años

Ecuación Resumen del modelo Estimaciones de los parámetros R cuadrado F gl1 gl2 Sig. Constante b1 b2 b3 Cúbico .669 17.531 3 26 .000 1437.620 -1011.990 225.598 -15.751 La variable independiente es Tasa total de fertilidad (hijos por mujer).

Reemplazando valores: 3 3 2 2 1

0 X X X

(25)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

140

Y = 1437.62-1011.99X +225.598X2-15.751X3

Resumen del modelo

R R cuadrado

R cuadrado corregida

Error típico de la estimación .818 .669 .631 100.294 La variable independiente esTasa total de fertilidad (hijos por mujer).

ANOVA

Suma de

cuadrados gl

Media

cuadrática F Sig. Regresión 529030.153 3 176343.384 17.531 .000 Residual 261528.776 26 10058.799

Total 790558.930 29

La variable independiente esTasa total de fertilidad (hijos por mujer).

Coeficientes

Coeficientes no estandarizados

Coeficientes estandarizado

s

t Sig. B Error típico Beta

Tasa total de fertilidad

(hijos por mujer) -1011.990 216.738 -10.211 -4.669 .000

Tasa total de fertilidad

(hijos por mujer) ** 2 225.598 56.721 18.457 3.977 .000

Tasa total de fertilidad

(hijos por mujer) ** 3 -15.751 4.489 -9.030 -3.509 .002 (Constante) 1437.620 243.545 5.903 .000

Ejemplo:

Dada una muestra hipotética de 20 pacientes en los que se ha recogido los siguientes datos: nivel de colesterol en plasma sanguíneo (en mg/100 ml), edad (en años), consumo de grasas saturadas (en gr/semana) y nivel de ejercicio (cuantificado como 0: ningún ejercicio, 1: ejercicio moderado y 2: ejercicio intenso), realizar el ajuste a un modelo lineal entre el nivel de colesterol y las demás variables.

Paciente Colesterol Edad Grasas Ejercicios

1 350 80 35 0

2 190 30 40 2

3 263 42 15 1

4 320 50 20 0

5 280 45 35 0

6 198 35 50 1

7 232 18 70 1

8 320 32 40 0

9 303 49 45 0

10 220 35 35 0

11 405 50 50 0

12 190 20 15 2

(26)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

141

14 227 30 35 0

15 440 30 80 1

16 318 23 40 2

17 212 35 40 1

18 340 18 80 0

19 195 22 15 0

20 223 41 34 0

SOLUCIÒN

a. Entre el nivel de colesterol y el consumo de grasas saturadas. (Correlación y regresión lineal simple)

1º. Diagrama de dispersión

Interpretación:

Correlación moderada directa 2º. Coeficiente de correlaciòn

Correlaciones

Colesterol Grasas Colesterol Correlación de

Pearson

1 ,642**

Sig. (bilateral) ,002

N 20 20

Grasas Correlación de Pearson

,642** 1

Sig. (bilateral) ,002

N 20 20

(27)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

142

Variable dependiente: Y. nivel de colesterol en plasma sanguíneo Variable independiente: X. consumo de grasas saturadas (en gr/semana)

Planteamiento de las hipótesis:

No hay correlación entre colesterol y el consumo de grasas

0 :

Ha Si hay algún grado de asociación entre colesterol y el consumo de grasas

Si se acepta H0 la variable no es significativa. (No existe relación lineal entre Y y X ).

Si se rechaza H0 la variable es significativa (Existe relación lineal entre Y y X).

Criterio: rechazo la Ho si significancia < 0.05

r = 0.642** Sig. 0.002<0.05

Decisión: como Sig. 0.002<0.05, rechazamos Ho

Conclusión: la prueba es significativa; es decir existe relación lineal entre consumo de grasas y el nivel de colesterol.

Existe (estadísticamente) una asociación significativa (Sig. 0.002< 0.05), a mayor consumo de grasas saturadas, mayor colesterol plasmático

3º. Coeficiente de determinación

Resumen del modelo Modelo

R

R cuadrado

R cuadrado corregida

Error típ. de la estimación

1 .642 .412 .380 61.67492

Interpretación:

r2 = 41.22% (proporción de varianza explicada: así, la proporción de varianza del nivel de colesterol está explicada por el consumo de grasas saturadas (en gr/semana) y el 58.72% por otras variables, como puede ser la edad o si realiza ejercicios o no, etc.

4º. Análisis de regresión

Planteamiento de las hipótesis: ANOVA (para ver que tan bueno es el modelo de regresión) Ho: No hay relación entre las variables colesterol y consumo de grasa

Ha: Si hay relación entre las variables colesterol y consumo de grasa ANOVAb

Modelo Suma de

cuadrados gl

Media

cuadrática F Sig.

1 Regresión 48020.869 1 48020.869 12.624 .002

Residual 68468.331 18 3803.796

Total 116489.200 19

0 :

Ho

% 2 2 . 4 1 1 0 0 * 4 1 2 2 . 0 ) 6 4 2 . 0 ( 2

2

(28)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

143

Rechazo Ho si Fexp >F0.0 5(1,1 8)

CM erro r g CM

Fe x p Re = 12.624

Si sig (0.002) < 0.05 rechazo Ho El modelo de regresión es bueno

Análisis de los coeficientes:

0 :

Ho No hay relación de dependencia entre las variables colesterol y consumo de grasa

0 :

Ho Si hay relación de dependencia entre las variables colesterol y consumo de grasa

Si se acepta H0: la variable no es significativa.(No existe relación lineal entre Y y X).

Si se rechaza H0 la variable es significativa (Existe relación lineal entre Y y X).

x

Yˆ 1

Y= 178.201+2.594x

Coeficientesa

Modelo Coeficientes no

estandarizados

Coeficientes tipificados

t Sig.

B Error típ. Beta

1 (Constante) 178.201 32.102 5.551 .000

Grasas 2.594 .730 .642 3.553 .002

Decisión: Siendo que el Sig 0.002<0.05, para el 1(grasas), rechazamos la hipótesis nula y concluimos que si hay relación de dependencia entre las variables colesterol y consumo de grasa

Decisión: t= 3.553; Siendo el Sig 0.002 < 0.05, entonces rechazamos la Ho por lo tanto, existe relación lineal entre las variables colesterol y consumo de grasa; es decir la cantidad de consumo de grasas saturadas es determinante en el nivel de colesterol

5º. Análisis de los residuos

1. Normalidad:

Pedimos un histograma con curva normal o un gráfico de caja o un Grafico de probabilidad normal (Normal P-P de Regresión)

(29)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

(30)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

145

En el gráfico P-P hay que observar que los residuos se distribuyan alrededor de la recta de regresión (distribución normal)

Homocedasticidad:

En cuanto a la igualdad de varianzas, el gráfico nos sirve para contrastar este supuesto. Si la variabilidad de los residuos a lo largo de los valores predichos es más o menos constante, como es el caso, podemos concluir que si cumple la igualdad de varianzas.

Linealidad:

(31)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

146

Observamos que no existe ningún patrón sistemático claramente definido en los datos y los residuales fluctúan aleatoriamente alrededor de la recta que corresponde a la media de los mismos y de valor “0”

Decisión: Siendo el Sig 0.443> 0.05; no puedo rechazar la Ho de la normalidad, por lo tanto la variable nivel de colesterol sigue una distribución normal

Tarea

Desarrollar el análisis de regresión múltiple para el colesterol dado la edad, consumo de grasa y ejercicios.

Determinar para cada par que tipo de tendencia tiene y recomendar el modelo más apropiado

PROBLEMAS DE REPASO DEL CAPÍTULO

En cada uno de los siguientes ejercicios (de la pregunta 1 a la pregunta 8), (a) Dibujar un diagrama de dispersión, (b) calcular el coeficiente de correlación muestral e intérprete, (c) ¿existe evidencia de que hay una asociación entre las dos variables?, verificar Ho: = 0, (d) Determinar la ecuación

de regresión que mejor ajuste los datos, (e) ¿existe evidencia de que hay una relación lineal entre las dos variables? Verificar Ho: 1 = 0 al nivel de significación de 0.05 (f) Calcule el coeficiente de

determinación r2 e intérprete su significado en cada problema.

1. Un agrónomo está interesado en determinar el efecto de un nuevo fertilizante orgánico natural sobre la producción de tomates. Se van a utilizar 5 cantidades diferentes del fertilizante sobre 10 parcelas equivalentes: 0, 10, 20, 30 y 40 libras por cada 100 pies cuadrados. Los niveles de fertilizante son asignados aleatoriamente a las parcelas con los siguientes resultados:

Cantidad de fertilizante, x (en libras por

100 pies cuadrados)

Producción de tomates, y (en

libras)

0 6

0 8

10 11

10 14

20 18

20 23

30 25

30 28

40 30

40 34

(32)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

147

X (porcentaje de hierro absorbido)

Y (porcentaje de plomo absorbido) 17 22 35 43 80 85 91 92 96 100 8 17 18 25 58 59 41 30 43 58

a. Dibujar el diagrama de dispersión. Basándose en ella, ¿se puede determinar si b será positivo o negativo?

b. Hallar e interpretar el coeficiente de correlación c. Hallar e interpretar el coeficiente de determinación

d. Comprobar la idoneidad del modelo lineal de regresión. Si es apropiado, estimar la línea de regresión que mejor ajuste los datos y utilizarla para predecir el porcentaje de hierro absorbido por un individuo cuyo sistema corporal absorbe el 15% del plomo ingerido.

3. Supóngase que a 10 personas se les aplica una prueba que mida la actitud que tienen hacia el éxito (o bien, el número de prejuicios o actitudes negativas hacia el). Al mismo tiempo se les pregunta el número de años de estudio que hasta la fecha han realizado. Se pide encontrar la relación que existe entre ambas variables. Los resultados de esta encuesta son los siguientes:

Personas Años de estudio: X N° de prejuicios: y A B C D E F G H I J 10 3 12 11 6 8 14 9 10 2 1 7 2 3 5 4 1 2 3 10

Realizar el análisis respectivo. Tomando como base las 10 personas de la muestra, ¿Qué número de prejuicios podría predecir para una persona que tiene 15 años de estudio?.

4. A 25 individuos se les miden las pulsaciones por minuto del corazón antes de someterlos a una entrevista de tipo laboral, obteniéndose los siguientes datos:

Pulsaciones por minuto

(33)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

148

92 92 104 74 80

8.3 8.6 6.5 6.0 8.4

70 83 94 115

5.1 7.4 8.8 5.2

5. En la Facultad de Ciencia Humanas y Educación de la Universidad Peruana Unión, se quiere entender los factores de aprendizaje de los alumnos que cursan la asignatura de Estadística inferencial aplicada a la psicología, para lo cual se escoge al azar una muestra de 15 alumnos y ellos registran notas promedios en la asignaturas de Psicometría, y Estadística inferencial aplicada a la psicología como se muestran en el siguiente cuadro.

Alumno

Estadística inferencial aplicada a la

psicología Psicometría Alumno

Estadística inferencial aplicada a la

psicología Psicometría

1 13 15 9 13 15

2 13 14 10 13 14

3 13 16 11 11 12

4 15 20 12 14 16

5 16 18 13 15 17

6 15 16 14 15 19

7 12 13 15 15 13

8 13 16

6. En un estudio de la relación entre el metabolismo de la anfetamina y una psicosis de anfetamina, a seis usuarios crónicos de este compuesto se les asignó una calificación de intensidad de psicosis. Los niveles de anfetamina en el plasma (mg./ml) se dan en la siguiente tabla:

de

pacientes

Calificación de intensidad de psicosis

Anfetamina en el plasma (mg./ml)

1 15 150

2 40 100

3 45 200

4 30 250

5 55 250

6 30 500

7. A 10 enfermos esquizofrénicos en un hospital psiquiátrico se les hacen dos evaluaciones, una para medir la percepción de la profundidad de distancia ante un estimulo visual, y la otra para medir la percepción auditiva ante un estimulo, obteniéndose los siguientes datos:

Paciente A B C D E F G H I J Visual m 4 6 4 8 10 10 12 6 12 8 Auditiva m 25 22 26 17 16 21 13 18 19 22

(34)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

149

aleatoria de 18 pacientes en una población hospitalaria de esquizofrénicos y asignaron al azar a cada paciente una de las dosis.

Paciente

Dosificación X

Tiempo de reacción

Y (mseg) Paciente

Dosificación X (mg)

Tiempo de reacción Y (mseg)

(mg)

1 0.5 12 10 2 40

2 0.5 22 11 2 44

3 0.5 30 12 2 50

4 1 18 13 2.5 44

5 1 32 14 2.5 44

6 1 36 15 2.5 60

7 1.5 40 16 3 64

8 1.5 34 17 3 68

9 1.5 46 18 3 76

9. Supongamos que los siguientes datos corresponden a pacientes de enfisema: el número de años que el paciente ha fumado (x) y la evaluación subjetiva del médico en relación al daño sufrido por los pulmones (y). La última variable se mide en una escala de 0 a 100. Las observaciones correspondientes a 10 pacientes son las siguientes:

Paciente Años que ha fumado Daño en los pulmones

1 25 55

2 36 60

3 22 50

4 15 30

5 48 75

6 39 70

7 42 70

8 31 55

9 28 30

10 33 35

¿Existe relación entre el número de años que ha fumado y el daño en los pulmones?

10.La mortalidad infantil es un hecho que depende de varios factores. En el siguiente cuadro están indicadas tres variables o hechos que pudieran explicar los niveles de mortalidad infantil. Considerando a la mortalidad infantil (y) como una variable dependiente se pide calcular los coeficientes de correlación e indicar cuál o cuáles son las variables que mejor explican el comportamiento de la mortalidad infantil.

PERÚ: CONJUNTO DE INDICADORES SOCIO-DEMOGRÁFICOS PARA UNA MUESTRA DE 13 DEPARTAMENTOS PARA EXPLICAR LA MORTALIDAD INFANTIL, 2003.

Departamentos

Mortalidad infantil x 1000 Y

Madres

analfabetas (%) X1

Desnutrición crónica en niños X2

Viviendas sin instalación de agua

X3

Amazonas Apurimac Ayacucho Callao

68 85 85 23

29 52 46 5

64 69 64 20

(35)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

150

Huancavelica Ica

La Libertad Lima

Madre de Dios Pasco

Puno Tacna Ucayali

107 39 46 26 63 66 90 40 69

48 8 18 6 13 23 33 11 13

72 29 48 24 54 57 52 18 52

88 41 50 29 78 74 84 34 80

Se puede afirmar que los niveles de mortalidad infantil tienen una obvia relación directa con el nivel educativo (analfabetismo), los estados de nutrición infantil y el % de viviendas sin instalación de agua. Determine el mejor modelo de predicción.

11.Un investigador cree que la inteligencia de los niños, medida a través del coeficiente intelectual (CI en puntos), depende del número de hermanos. Toma una muestra aleatoria de 15 niños y ajusta una regresión lineal simple. Los resultados aparecen en la tabla adjunta:

Nº CI

hermanos Nº CI Nº

hermanos

1 110 0 9 98 3

2 115 1 10 99 4

3 120 1 11 98 4

4 118 1 12 100 5

5 110 2 13 90 5

6 108 2 14 93 5

7 105 2 15 90 6

8 104 3

a) Dibuje el diagrama de dispersión e interprete el reporte, b) determine e interprete el coeficiente de correlación (r=-.929), c) determine e interprete el coeficiente de determinación o bondad de ajuste, d) de la ecuación de la recta de regresión. Interprete los estimadores en el contexto de la pregunta (constante=119.295), Nº hermanos=-.5143), e) ¿existe una relación lineal significativa entre el número de hermanos y el coeficiente intelectual?

12.La tabla siguiente muestra las notas obtenidas por 8 alumnos en un examen, las horas de estudio dedicadas a su preparación y las horas que vieron la televisión los días previos al examen.

Nota 5 6 7 3 5 8 4 9

Horas de estudio 7 10 9 4 8 10 5 14

Horas de TV 7 6 2 11 9 3 9 5

a) Representa gráficamente los diagramas correspondientes a nota-estudio y nota-TV., b) ¿Se observa correlación entre las variables estudiadas? ¿De qué tipo? ¿En qué caso estimas que es más fuerte?, c) determina el coeficiente de correlación de nota-estudio y nota-TV. ¿Qué puede deducirse con más precisión conociendo la nota que obtuvo una persona en el examen: el tiempo que dedicó al estudio o el que dedicó a ver la televisión?, d) halla las rectas de regresión correspondientes y estima para un alumno que sacó un 2 en el examen:

(36)

Cap. VI Análisis de regresión y correlación

Métodos estadísticos para la investigación - Mg. Rosa Padilla Castro

151

13.Un estudio de mercado para la cadena de tiendas autoservicio Super Dollar analiza la cantidad anual que gastan en comida las familias de cuatro o más miembros. Se piensa que tres variables independientes se relacionan con los gastos en comida. Esas variables son: ingreso familiar total, tamaño de la familia y si la familia tiene hijos en la universidad.

Familia

Gastos en comida

Ingresos ($ 1000)

Tamaño de la familia

Hijos en la universidad

1 3900 37.6 4 0

2 5300 51.5 5 1

3 4300 51.6 4 0

4 490 46.8 5 0

5 6400 53.8 6 1

6 7300 62.6 7 1

7 4900 54.3 5 0

8 5300 43.7 4 0

9 610 60.8 5 1

10 6400 51.3 6 1

11 7400 49.3 6 1

12 5800 56.3 5 0

a) Escriba la ecuación de regresión:

¿Qué gastos en comida estima para una familia de 4 integrantes, sin hijos en la universidad y con ingresos de $50,000?

yˆ =954 + 10.9(50) + 748(4) + 565 (0) = 4491

b) Realice una prueba global de hipótesis para determinar si alguno de los coeficientes de regresión es distinto de cero.

0

: 1 2 3

Ho

0 :a lmen o su n ai Ha

H0 se rechaza si F > 4.07

A partir de la salida del SPSS, el valor del estadístico de prueba calculado es 10.94 Decisión: como F = 10.94 > 4.07, H0 se rechaza. Entonces, no todos los coeficientes de regresión son cero.

c) Realice una prueba individual para determinar qué coeficientes son distintos de cero.

De la salida del SPSS, la única variable significativa es FSIZE (tamaño de familia) al usar los valores p. Las otras variables pueden omitir del modelo.

Entonces,

0 : 2

Ho Ha: 2 0

Para 5% de nivel de significancia, se rechaza H0 si el valor p < .05 Como el valor p =.039 <.05, se rechaza H0 y se concluye que.

0 2

Esto es, el tamaño de la familia y cantidad gastada en comida tienen una relación significativa. 4491

) 0 ( 565 )

4 ( 748 )

50 ( 9 . 10 954 ˆ

Figure

Figura VI: 1 Diagrama de dispersión de la tasa de mortalidad según % de inmunización en países  del mundo

Figura VI:

1 Diagrama de dispersión de la tasa de mortalidad según % de inmunización en países del mundo p.3
Figura  VI.  2:  Diferentes  diagramas  de  dispersión  y  sus  respectivos  modelos  de  regresión  para

Figura VI.

2: Diferentes diagramas de dispersión y sus respectivos modelos de regresión para p.5
Tabla VI.2: Nota según CI de un grupo de alumnos de Ingeniería Ambiental de la UPeU, 2010

Tabla VI.2:

Nota según CI de un grupo de alumnos de Ingeniería Ambiental de la UPeU, 2010 p.8
Figura VI.3: Diagrama de dispersión de las notas según CI

Figura VI.3:

Diagrama de dispersión de las notas según CI p.8
Tabla VI.I. Tasa de mortalidad según % de inmunización

Tabla VI.I.

Tasa de mortalidad según % de inmunización p.12