DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II

(1)

1

DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II

PRÁCTICA 8

Problema 1.- En una determinada investigación aplicada a una muestra de 20 sujetos se estudia el efecto de las variables Ejercicio (horas al día), Edad (años) y Grasas (kilos corporales) sobre el índice de Colesterol. Obtenemos los siguientes resultados:

a) Rellena las interrogantes (?) que faltan.

b) Interpreta los coeficientes de regresión en puntuaciones directas y estandarizadas. Cuáles son significativos y porqué.

SOL:

a) Nos indican que:

4914 . 0 701 . 0 2 2 12 . = = y R

Resumen del modelo

,701a ? ,395 57,35250 Modelo 1 R R cuadrado R cuadrado corregida Error típ. de la es timación Variables predictoras: (Constante), ejercici, grasas, edad a. ANOV Ab 50756, 248 ? ? ? ,011a ? ? ? ? ? Regres ión Residual Total Modelo 1 Suma de cuadrados gl Media cuadrática F Sig.

Variables predictoras: (Constante), ejerc ici, gras as, edad a.

Variable dependiente: c oles ter b. Coeficientesa 109,652 57,348 1,912 ,074 2,226 ,998 ,441 2,229 ,040 2,310 ,702 ,607 3,291 ,005 -15,432 20,768 -,142 -,743 ,468 (Constante) edad grasas ejercici Modelo 1 B Error típ. Coeficientes no es tandarizados Beta Coeficientes es tandarizad os t Sig.

Variable dependiente: coles ter a.

(2)

2 Luego, la primera tabla:

Por otro lado, sabemos igualmente que:

∑

− − = ₂ 2 2 12 . ) ( ) ˆ ( Y Y Y Y R_y

Despejando la suma de cuadrados total:

103288.857 ) ˆ ( ) ( ₂ 12 . 2 2 = − = −

∑

y R Y Y Y Y

Respecto a la suma de cuadrados residual:

609 . 52532 248 . 50756 -103288.857 ) ˆ ( ) ( ) ˆ ( − 2 =

∑

− 2 −

∑

− 2 = =

∑

Y Y Y Y Y Y

Sabemos que los grados de libertad son k=3, N-k-1=16 y N-1=19. Igualmente que las medias cuadráticas hacen referencia a los cocientes entre las distintas sumas de cuadrados y sus grados de libertad. Y que el valor de F es el cociente entre las dos medias cuadráticas. Así pues, la tabla completada será:

b) La ecuación de regresión en directas es:

3 2 1 2.31 15.432 226 . 2 652 . 109 ˆ _X _X _X Y = + + −

,701a ,491 ,395 57,35250 Modelo 1 R R cuadrado R cuadrado corregida Error típ. de la estimación Variables predictoras: (Constante), ejercici, grasas, edad a. ANOVAb 50756,248 3 16918,749 5,153 ,011a 52532,609 16 3283,288 103288,857 19 Regresión Residual Total Modelo 1 Suma de cuadrados gl Media cuadrática F Sig.

Variables predictoras: (Constante), ejercici, grasas, edad a.

Variable dependiente: colester b.

(3)

3 La ordenada en el origen no se interpreta aquí, porque no existen personas con 0 edad y 0 grasas. En todo caso sería el valor pronosticado en Y cuando el resto de las variables valgan 0. El valor de 2.226 nos sindica que para cada año que pasa y manteniendo constante el resto de las variables, el efecto medio sobre el colesterol es de tales puntos (significativo al 0.04). Respecto a las grasas, igualmente, por cada kilo de grasas, y manteniendo invariante el resto de las variables, el incremento medio en colesterol es de 2.31 puntos (significativo al 0.005). Y en relación al ejercicio parecería que cada hora supondría una disminución media de 15.432 puntos en colesterol, sino fuera porque no es significativo su efecto (prob = 0.468). La ecuación en estandarizadas: 3 2 1 0.607 0.142 441 . 0 ˆ _Z _Z _Z Z_y = + −

Como una variable Z no es más que el número de desviaciones tipo de un valor a su media, en este caso, 0.441 indica el número de desviaciones tipo que cambia Zˆ por cada desviación tipo de _y variación en Z₁ manteniendo el resto de las variables constantes. Lo mismo con Z2 y Z3, con la

salvedad que -0.142 no tiene un efecto significativo.

Problema 2.- Aplicamos un modelo de regresión paso a paso a una muestra de 20 sujetos para estudiar la relación entre Calificación, Inteligencia y Horas de estudio. A este respecto disponemos de la siguiente información:

Completar la tabla anterior.

?a ,577 ,939b ? Modelo 1 2 R Cambio en R cuadrado

Variables predictoras: (Constante), Inteligencia a.

Variables predictoras: (Constante), Inteligencia, Horas de estudio b. ANOVAc ? ? ? ? ,000a ? ? ? 56,652 ? ? ? ? ? ,000b ? ? ? ? ? Regresión Residual Total Regresión Residual Total Modelo 1 2 Suma de cuadrados gl Media cuadrática F Sig.

Variables predictoras: (Constante), Inteligencia a.

Variables predictoras: (Constante), Inteligencia, Horas de estudio b.

Variable dependiente: Calificación c.

(4)

4 SOL:

Obsérvese que la suma de cuadrados total es la misma para ambos modelos, ya que sólo depende de las puntuaciones obtenidas en Y. Por otro lado, en relación al modelo 1, sabemos que la R cuadrado vale 0.577, por lo que la suma de cuadrados explicada por la regresión será:

(

ˆ−

)

2 = 2

∑

(

−

)

2 =0.577*56.652=32.695

∑

Y Y R Y Y

La misma lógica con el modelo 2:

(

ˆ−

)

2 = 2

∑

(

−

)

2 =0.882*56.652=49.994

∑

Y Y R Y Y

Con estos datos ya es fácil completar el resto de la tabla.

Problema 3.- En una determinada investigación sobre el tema de la emigración en España se ha estudiado una muestra de 150 emigrantes. Entre otras variables se han considerado las siguientes: Nacionalidad (0=marroquí, 1=filipino), Sexo (0=hombre, 1=mujer) y Problemas con los que se encuentran para seguir adelante (vivienda, alimentación, rechazo ..etc) y Depresión. Utilizando esta última variable como variable a explicar y las restantes como explicativas, obtenemos tras una regresión múltiple, el siguiente listado:

(5)

5 a) Especifica la ecuación de regresión en directas, interpreta los coeficientes de regresión y su

significación estadística.

b) Calcula la depresión que por término medio presentan aquellos sujetos que son marroquíes, mujeres y presentan 5 puntos en problemas.

SOL:

a) Si la variable problemas la definimos como X1 , el sexo como X2 y la nacionalidad como X3

entonces la ecuación que liga depresión con estas variables será:

Se observa que cada unidad de incremento en problemas la depresión aumenta 1.041 puntos. El hecho de ser mujer (1 punto en X2) supone un aumento en la depresión de 4.301 por término medio.

Igualmente, el hecho de ser filipino (1 punto en X3) disminuye la depresión en 5.141 por término

medio. Se entiende, en consecuencia que los varones tienen en promedio 4.301 puntos en depresión menos que las mujeres y la media de los marroquíes, 5.141 puntos más que la media de los filipinos. Por otro lado, 11.662, la ordenada en el origen, indica el valor promedio en Y cuando las variables explicativas valen cero, aquí, ningún problema, varones y marroquíes.

Los valores asignados a la significación de t son todos inferiores a 0.01, luego son todos significativos. De hecho, como se sabe, estos valores indican la probabilidad de ocurrencia de la hipótesis nula, que es muy baja en todos ellos. Por ejemplo, en relación a los problemas, la probabilidad de obtener un coeficiente de valor 1.041 de una población cuyo parámetro es cero es 0.004. Muy improbable.

b) La puntuación estimada es justamente el promedio, así pues, la puntuación en depresión de tales sujetos será: Coeficientesa 11,662 2,584 4,513 ,000 -5,141 1,451 -,283 -3,545 ,001 4,301 1,466 ,233 2,934 ,004 1,041 ,358 ,222 2,912 ,004 (Constante) Nacionalidad Sexo Problemas Modelo 1 B Error típ. Coeficientes no estandarizados Beta Coeficient es estandari zados t Sig.

Variable dependiente: Depresión a. 3 2 1 4.301 5.141 041 . 1 662 . 11 ˆ _X _X _X Y = + + − 168 . 21 0 * 141 . 5 1 * 301 . 4 5 * 041 . 1 662 . 11 ˆ ₌ ₊ ₊ ₋ ₌ Y

(6)

6 Problema 4.- En una determinada investigación se estudia el efecto que sobre el rendimiento en matemáticas ejerce las variables horas de estudio, nivel socioeconómico y sexo (hombre 1, mujer 0). Los resultados son los siguientes:

a) Calcula la ecuación de regresión múltiple en puntuaciones directas e interpreta sus coeficientes. b) Calcula, para los hombres, la ecuación de regresión que liga Puntuación en matemáticas con

Horas de estudio y Nivel socioeconómico. Calcula, igualmente esta misma ecuación para las mujeres.

SOL:

a) La ecuación de regresión en directas será:

La interpretación de los coeficientes es la siguiente:

46.979: Rendimiento medio en matemáticas cuando las restantes variables valen cero (esto es, mujeres, con cero horas de estudio y cero en nivel socioeconómico)

0.569: Incremento medio en rendimiento cuando sexo se incrementa en una unidad (pasar de mujer a hombre) y le resto de las variables se mantiene constante. Se observa que el efecto del sexo no es significativo (P = 0.462).

2.271: Incremento medio en rendimiento por cada hora de estudio añadida, y el resto de las variables se mantienen constantes. Se observa que su efecto es muy significativo (P<0.0001).

4.795: Incremento medio en rendimiento por cada unidad de variación en la variable nivel socioeconómico, manteniéndose constante las restantes variables. Se observa que su efecto es muy significativo (P<0.0001), mayor que en anterior, ya que se encuentra a 10.410 desviaciones tipo de cero, según establece la Hipótesis nula.

Volvamos a la ecuación de regresión múltiple:

Coeficientesa 46.979 .777 60.466 .000 .569 .774 .027 .736 .462 2.271 .274 .315 8.296 .000 4.795 .461 .394 10.410 .000 (Constante) sexo Horas de estudio Nivel socioeconomico Modelo 1 B Error típ. Coeficientes no estandarizados Beta Coeficientes estandarizad os t Sig.

Variable dependiente: Puntuacion en matemáticas a. . * 795 . 4 * 271 . 2 * 569 . 0 979 . 46

. sexo horas nivelsoc

Mat = + + + . * 795 . 4 * 271 . 2 * 569 . 0 979 . 46

. sexo horas nivelsoc

(7)

7 Para el caso de mujeres:

. * 795 . 4 * 271 . 02 979 . 46 . * 795 . 4 * 271 . 2 0 * 569 . 0 979 . 46

. horas nivelsoc horas nivelsoc

Mat= + + + = + +

Y para el caso de hombres:

. * 795 . 4 * 271 . 2 548 . 47 . * 795 . 4 * 271 . 2 1 * 569 . 0 979 . 46

. horas nivelsoc horas nivelsoc

Mat= + + + = + +

Problema 5.- En una determinada investigación se estudia el efecto que sobre una determinada prueba de Habilidad Matemática ejercen las variables Nivel educativo y Horas de estudio. Cuando se estudia la regresión simple entre Matemáticas y Nivel educativo tenemos la siguiente información:

En relación a la regresión simple entre Matemáticas y Horas de estudio:

Y en relación a la regresión múltiple entre Matemáticas y las variables Horas de estudio y Nivel educativo:

Esto supuesto, determinar la correlación semiparcial entre Matemáticas y Horas de estudio.

Coeficientesa 36.797 1.260 29.210 .000 4.565 .358 .622 12.753 .000 (Constante) NIVEDUC Modelo 1 B Error típ. Coeficientes no estandarizados Beta Coeficientes estandarizad os t Sig.

Variable dependiente: MATEMATI a. Coeficientesa 44.074 .989 44.580 .000 3.572 .388 .497 9.200 .000 (Constante) HORAS Modelo 1 B Error típ. Coeficientes no estandarizados Beta Coeficientes estandarizad os t Sig.

Variable dependiente: MATEMATI a. ANOVAb 14768.229 2 7384.114 109.389 .000a 17348.371 257 67.503 32116.600 259 Regresión Residual Total Modelo 1 Suma de cuadrados gl Media cuadrática F Sig.

Variables predictoras: (Constante), NIVEDUC, HORAS a.

Variable dependiente: MATEMATI b.

(8)

8 SOL:

Nos piden la contribución exclusiva en términos de R2 de las Horas de estudio, o lo que es lo mismo, lo que las Horas de estudio añaden en términos de proporción de variabilidad explicada en Matemáticas una vez que hemos introducido el Nivel educativo. A este respecto, sabemos que la aportación del Nivel educativo cuando la introducimos en primer lugar es 0.6222 = 0.387. También sabemos que cuando introducimos conjuntamente Nivel educativo y Horas de estudio su proporción de variabilidad explicada es:

𝑅𝑦2.12= 14768.229_{32116.600 = 0.460}

Por tanto, si denominamos al Nivel educativo como X1 y a las Horas de estudio como X2, entonces: 𝑅𝑦2(2.1) = 𝑅𝑦2.12− 𝑅𝑦12 = 0.460−0.387 = 0.073

Esta es la correlación semiparcial (al cuadrado). Las Horas de estudio contribuyen con una proporción de variabilidad explicada sobre las Matemáticas de 0.073 cuando la introducimos después del Nivel educativo.

Problema 6.- Tengamos dos variables X1 e Y. La ecuación que liga ambas variables presenta los

siguientes parámetros:

Incrementemos al modelo la variable X2, entonces los parámetros de la ecuación de regresión múltiple

son: Coeficientesa 3,104 2,355 1,318 ,224 ,479 ,431 ,365 1,111 ,299 (Constante) X1 Modelo 1 B Error típ. Coeficientes no estandarizados Beta Coeficient es estandari zados t Sig. Variable dependiente: Y a. Coeficientesa -1,634 1,191 -1,372 ,212 ,990 ,151 ,864 6,537 ,000 ,417 ,173 ,318 2,408 ,047 (Constante) X2 X1 Modelo 1 B Error típ. Coeficientes no estandarizados Beta Coeficient es estandari zados t Sig. Variable dependiente: Y a.

(9)

9 Se sabe también que la matriz de correlaciones es:

Esto supuesto, explica el efecto de la variable X1 en el modelo de regresión simple y en el múltiple.

¿Qué cambio ha experimentado en términos de significación estadística? Razona la respuesta. SOL:

En el contexto de la regresión simple, el efecto de la variable X1 no es significativo y sí lo es en

la múltiple. La aportación de la variable X1 siempre es la misma, pero como todo contraste se realiza

comparando la parte explicada con la parte residual, y esta última es menor cuando se incluye la variable X2 , entonces en el contexto de la regresión múltiple ya sí es efectiva. El componente aleatorio

es menor y el azar no es suficiente para dar cuenta de la variabilidad debida a dicha variable. Obsérvese, como dato complementario, que la variable X2 tiene una importante contribución y apenas

correlaciona con X1, lo que ocasiona una notable disminución en la variabilidad residual.

Problema 7.- Sobre una muestra de 519 niños tras aplicar el modelo de regresión, hemos obtenido las siguientes tablas: Correlaciones 1,000 ,365 ,881** , ,299 ,001 10 10 10 ,365 1,000 ,055 ,299 , ,881 10 10 10 ,881** ,055 1,000 ,001 ,881 , 10 10 10 Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Y X1 X2 Y X1 X2

La correlación es significativa al nivel 0,01 (bilateral). **. ANOVAb 19773,866 ? ? ? ,000a 39634,181 ? ? ? ? Regresión Residual Total Modelo 1 Suma de cuadrados gl Media cuadrática F Sig.

Variables predictoras: (Constante), Nivel sociecómico, Horas de estudio semanales, Tipo colegio: 1=publico 0=privado

a.

Variable dependiente: Puntuación en matemáticas b.

(10)

10 a) Rellenar las interrogantes (?) que faltan y calcula la proporción de variación explicada por el

modelo.

b) Calcula la puntuación media en matemáticas de un niño que estudia en un colegio público, durante 3 horas semanales y cuyo nivel económico es de 2 puntos.

SOL: a):

b):

Problema 8.- En una determinada investigación con inmigrantes se estudia el efecto que tienen sobre la variable satisfacción (¿Estás Satisfecho de tu situación actual?), las variables rechazo (¿Los Andaluces Rechazan a los Inmigrantes?) e idioma (Calidad del idioma español). Tenemos dos modelos, el primero con la variable rechazo como variable independiente, y el segundo con las variables rechazo e idioma. A este respecto, disponemos de la siguiente información:

Coeficientesa 48,337 ,940 51,401 ,000 -1,518 ,958 -,069 -1,585 ,114 2,191 ,276 ,304 7,938 ,000 4,380 ,533 ,360 8,215 ,000 (Constante) Tipo colegio: 1=publico 0=privado Horas de estudio semanales Nivel sociecómico Modelo 1 B Error típ. Coeficientes no estandarizados Beta Coeficientes estandarizad os t Sig.

Variable dependiente: Puntuación en matemáticas a. ANOVAb 19773.866 3 6591.289 85.646 .000a 39634.181 515 76.960 59408.046 518 Regresión Residual Total Modelo 1 Suma de cuadrados gl Media cuadrática F Sig.

Variables predictoras: (Constante), Nivel socioeconómico, Horas de estudio semanales, Tipo de colegio: 1=publico, 0=privado

a.

Variable dependiente: Puntuación en Matemáticas b. 092 62 2 380 4 3 191 2 1 518 1 337 48. . * . * . * . ˆ= − + + = Y

(11)

11 Esto supuesto:

1.- Completar los datos referentes al modelo1 2.- Completar los datos referentes al modelo2 SOL:

La suma de cuadrados total es la misma para ambos modelos ya que su valor sólo depende de Y. Para el primer modelo se explica 0.063, así que este valor por la suma de cuadrados total nos da la suma de cuadrados explicada. La suma de cuadrados no explicada será la diferencia entre la total y la explicada. Para el segundo modelo la proporción de variabilidad explicada será 0.063 + 0.025 = 0.088. Procederemos de la misma forma que con el modelo 1, así pues:

,252a ,063 ,063 ,000 b ? ,025 ,001 Modelo 1 2 R R cuadrado Cambio en R cuadrado Sig. del cambio en F Estadísticos de cambio

Variables predictoras: (Constante), Los Andaluces Rechazan a los Inmigrantes

a.

Variables predictoras: (Constante), Los Andaluces Rechazan a los Inmigrantes , Calidad idioma español b. ANOVAc ? 1 25,506 27,624 ,000a ? 409 ,923 ? 410 ? 2 17,695 19,631 ,000b ? 408 ,901 403,144 410 Regresión Residual Total Regresión Residual Total Modelo 1 2 Suma de cuadrados gl Media cuadrática F Sig.

Variables predictoras: (Constante), Los Andaluces Rechazan a los Inmigrantes a.

Variables predictoras: (Constante), Los Andaluces Rechazan a los Inmigrantes , Calidad idioma español

b.

Variable dependiente: Estás S atisfecho de tu situación actual? c. ANOVA 25,506 1 25,506 27,624 ,000 377,638 409 ,923 403,144 410 35,389 2 17,695 19,631 ,000 367,754 408 ,901 403,144 410 Regresión Residual Total Regresión Residual Total Modelo 1 2 Suma de cuadrados gl Media cuadrática F Sig.

(12)

12 Problema 9.- En una estimación paso a paso en la que se han incluido tres variables hemos obtenido la siguiente información: Modelo Suma de cuadrados Bondad de ajuste Cambio en R (incremento) 1 Regresión ? 0,45 Residual ? Total ₁₀₀ 2 Regresión ? R2 y.12= 0,15 Residual ? Total _? 3 Regresión ? R2y.123= 0,1 Residual ? Total _?

1. Variables predictoras: (Constante), X1

2. Variables predictoras: (Constante), X1, X2

3. Variables predictoras: (Constante), X1, X2, X3

a) Completa la tabla calculando los valores que faltan.

b) Representa en un diagrama de Venn la variabilidad atribuida a cada variable según el orden de entrada. SOL: Modelo Suma de cuadrados Bondad de ajuste Cambio en R (incremento) 1 Regresión 45 0,45 0,45 Residual 55 Total ₁₀₀ 2 Regresión 60 R2y.12= 0,60 0,15 Residual 40 Total ₁₀₀ 3 Regresión 70 R2y.123=0.7 0,1 Residual 30 Total ₁₀₀

1. Variables predictoras: (Constante), X1

2. Variables predictoras: (Constante), X1, X2

3. Variables predictoras: (Constante), X1, X2, X3

Obsérvese que la Suma de cuadrados total siempre vale 100. También, si originalmente la Bondad de ajuste era 0.45, al aumentar en 0.15 pasa a 0.6, y al aumentar de nuevo en 0.1 pasa a 0.7. La sumas de cuadrados explicada y residual resultan muy sencillas debido al que la total vale 100. Cuando la Bondad de ajuste sea 0.60, serán respectivamente 60 y 40. Cuando sea 0.7, pues 70 y 30.

(13)

13 Problema 10.- Relacionamos la variable X₁ con la variable Y. Disponemos de la siguiente información:

A continuación incrementamos al modelo la variable X₂ aumentando la variabilidad explicada en 4 puntos. Esto supuesto, determinar: a)R2_y₁ y b)R2_y₍₂_.₁₎.

SOL:

a) Calculemos la suma de cuadrados total y residual:

(

−

)

2 =(2−5.4)2 +(4−5.4)2 +(8−5.4)2 +(6−5.4)2 +(7−5.4)2 =23.20

∑

Y Y

(

− ˆ

)

2 =

∑

2 =(−1)2+(−.02)2+(2.6)2 +(−0.6)2 +(−0.8)2 =8.8

∑

Y Y e Por tanto:

( )

(

)

(

)

(

)

( )

23.2 0.621 4 . 14 2 . 23 8 . 8 2 . 23 ˆ ˆ 2 2 2 2 2 2 1 = = − = − − − − = − − =

∑

Y Y Y Y Y Y Y Y Y Y R_y

b) Si la variabilidad explicada sube 4 puntos al incorporar al modelo X₂, entonces la suma de cuadrados explicada valdrá: 14.4 + 4 = 18.4. En consecuencia:

172 . 0 621 . 0 793 . 0 2 . 23 4 . 14 2 . 23 4 . 18 2 1 2 12 . 2 ) 1 . 2 ( = y − y = − = − = y R R R

Más fácilmente, dividir directamente el incremento por la variabilidad total:

(

)

(

)

23.4 0.171 4 ˆ 2 2 2 ) 1 . 2 ( = = − − ∆ =

∑

Y Y Y Y Ry

(14)

14 Problema 11.- Estudiamos el efecto de las variables ejercicio, edad y grasas sobre el colesterol:

a) Suponiendo que el orden de entrada sea: 1º) ejercicio, 2º) edad y 3º) grasas, determinar las contribuciones de las diferentes variables en la R múltiple global (R2_y_.₁₂₃).

b) En términos de suma de cuadrados explicada ¿cuánto mejora el modelo cuando incorporamos conjuntamente la edad y las grasas?

SOL:

a) Operando con los distintos modelos:

082 . 0 103385.200 8478.404 2 1 = = y R 141 . 0 103385.200 14618.129 2 12 . = = y R 477 . 0 103385.200 49275.942 2 123 . = = y R

Según el orden de entrada establecido:

R_y2_.₁₂₃= R_y2_.₁+R_y2_.(₂_.₁₎ +R_y2₍₃_.₁₂₎ donde: ANOVAd 8478.404 1 8478.404 1.608 .221a 94906.796 18 5272.600 103385.200 19 14618.129 2 7309.065 1.400 .274b 88767.071 17 5221.592 103385.200 19 49275.942 3 16425.314 4.857 .014c 54109.258 16 3381.829 103385.200 19 Regres ión Residual Total Regres ión Residual Total Regres ión Residual Total Modelo 1 2 3 Suma de cuadrados gl Media cuadrática F Sig.

Variabl es predictoras: (Cons tante), ejercicio a.

Variabl es predictoras: (Cons tante), ejercicio, edad b.

Variabl es predictoras: (Cons tante), ejercicio, edad, gras as c.

Variabl e dependiente: colesterol d.

(15)

15 R_y2_.(₂_.₁₎=R_y2_.₁₂-R2_y₁=0.141-0.082=0.059 336 . 0 141 . 0 477 . 0 2 12 . 2 123 . 2 ) 12 . 3 ( = y − y = − = y R R R Por tanto: 2(3.12) 0.082 0.059 0.336 0.477 2 ) 1 . 2 .( 2 1 . 2 123 . = y + y + y = + + = y R R R R

En cualquier caso, lo más fácil es ver cuanto aumenta la proporción de variabilidad explicada cada vez que se incorpora una variable:

477 . 0 336 . 0 059 . 0 082 . 0 103385.200 14618.129 -49275.942 103385.200 8478.404 -14618.129 103385.200 8478.404 2 ) 12 . 3 ( 2 ) 1 . 2 .( 2 1 . 2 123 . = + + = = + + = + + = _y _y _y y R R R R

b) Veamos la ganancia del modelo 3 respecto al 1:

538 . 40797 404 . 8478 942 . 49275 − = = Incremento

Problema 12.- En una determinada encuesta aplicada a un grupo de estudiantes se relaciona el voto emitido en el año 2004 con el nivel de ingresos familiares:

3.- Determinar la ecuación de regresión entre opción de voto e ingresos 4.- Ingreso medio del conjunto de los sujetos.

SOL

3.- Supongamos que hemos realizado la siguiente codificación:

Descriptivos Nivel de ingresos 205 1,97 ,743 116 2,22 ,814 29 2,07 ,799 PSOE PP Otros N Media Desviación típica

(16)

16

X1 X2

PSOE 1 0

PP 0 1

Otros 0 0

La ordenada en el origen muestra el valor de la variable que ha sido codificada sólo con ceros (Otros), y los distintos coeficientes de regresión la distancia de los restantes colectivos (PSOE y PP) a la ordenada en el origen. Por tanto.

2 1 0.15 10 . 0 07 . 2 ˆ _X _X Y = − + De forma más explícita: 15 . 0 07 . 2 22 . 2 22 . 2 1 * 0 * ˆ 10 . 0 07 . 2 97 . 1 97 . 1 0 * 1 * ˆ 07 . 2 07 . 2 0 * 0 * ˆ 2 2 0 2 1 0 2 1 1 0 1 1 0 2 1 0 2 1 1 0 0 0 2 1 0 2 1 1 0 = − = ⇒ = + = + + = + + = − = − = ⇒ = + = + + = + + = = ⇒ = = + + = + + = b b b b b b X b X b b Y b b b b b b X b X b b Y b b b b b X b X b b Y PP PSOE Otros

4.- Podemos hacerlo de dos formas. La primera, simplemente calculando la media ponderada:

061 . 2 350 4 . 721 29 116 205 07 . 2 * 29 22 . 2 * 116 97 . 1 * 205 3 2 1 3 3 2 2 1 1 = = + + + + = + + + + = n n n Y n Y n Y n Ytotal

También, en base a la propiedad de que tanto la media de Y como de las distintas X satisfacen la ecuación de regresión: 061 . 2 350 116 15 . 0 350 205 * 1 . 0 07 . 2 2 2 1 1 0 + + = − + = =b b X b X Y

Problema 13.- Durante el año 2006 se aplicó una amplia encuesta en la Universidad de Sevilla para conocer la actitud de distintos colectivos (alumnos, profesores y directores de departamento) en relación a la integración de esta Universidad en el Espacio Europeo de Educación Superior. Entre otras preguntas se plantea la actitud de tales colectivos en términos de pesimistaoptimista (puntuado desde -3, muy pesimista hasta +-3, muy optimista). Los resultados son los siguientes:

(17)

17 Especifica qué variables hay que crear, su codificación y la ecuación de regresión múltiple que liga tales variables con la variable dependiente.

SOL:

Hay 3 categorías, por lo que crearemos 2 variables: X₁ y X₂. Podemos repartir los unos y cero de diferentes formas. Por ejemplo:

X1 X2

Profesores 1 0

Alumnos 0 1

Directores 0 0

En este supuesto, la ecuación de regresión será:

2 2 1 1 0 ˆ _b _b _X _b _X Y = + + Dando valores a X1 y X2: 744 . 0 ) 0390 . 0 ( 7045 . 0 7045 . 0 1 * 0 * ˆ 564 . 0 ) 0390 . 0 ( 5252 . 0 5252 . 0 0 * 1 * ˆ 0390 . 0 0390 . 0 0 * 0 * ˆ 2 2 0 2 1 0 2 1 1 0 1 1 0 2 1 0 2 1 1 0 Pr 0 0 2 1 0 2 1 1 0 = − − = ⇒ = + = + + = + + = = − − = ⇒ = + = + + = + + = − = ⇒ − = = + + = + + = b b b b b b X b X b b Y b b b b b b X b X b b Y b b b b b X b X b b Y Alumnos ofesores Directores Por tanto: 2 1 0.7045 564 . 0 0390 . 0 ˆ _X _X Y =− + +

La ordenada en el origen muestra el valor de la variable que ha sido codificada sólo con ceros (Directores), y los distintos coeficientes de regresión la distancia de los restantes colectivos (Profesores y Alumnos) a la ordenada en el origen.

Descriptivos Actitud P esimista-Optimista 139 ,5252 1,51002 352 ,7045 1,57733 77 -,0390 1,52558 568 ,5599 1,57133 Profesores Alumnos Directores Total N Media Desviación típica