Regresión y Correlación

63  32  Descargar (0)

Texto completo

(1)

Regresión y Correlación

1.- El número de turistas (en millones) entrados en España mensualmente durante los años 2001 y 2002 se expone en la siguiente estadística.

a) Calcular en qué año hubo mayor dispersión de turistas por mes.

b) Calcular la matriz de covarianzas.

c) Calcular el coeficiente de correlación lineal entre los dos años e interpretarlo.

2.- Se ha tomado un grupo de parejas (con hijos) y se les ha preguntado a qué edad tuvieron su primer hijo. La información se recoge en la tabla adjunta (x = edad del padre, y = edad de la madre).

Se pide:

a) Estimar mediante la recta de regresión, la edad del padre, si la madre tuvo una edad de 25 años.

b) Estimar mediante la recta de regresión la edad de la madre si el padre tuvo una edad de 25 años.

c) Calcular e interpretar el coeficiente de correlación lineal (r) y el coeficiente de determinación (R2).

d) Representar el polígono de frecuencias absoluta y el polígono de frecuencias absolutas acumuladas de la distribución marginal de los padres.

e) Calcular la mediana y el percentil 90 de la distribución marginal de las madres.

f) Qué media es más representativa. Justificar la respuesta.

3. La tabla siguiente muestra las respectivas estaturas x, y de una muestra de 12 padres y sus hijos mayores.

Estatura x del padre 169 164 174 167 177 162 182 172 177 174 179 185 Estatura y del hijo 177 172 177 169 180 172 177 169 185 174 177 182

A) Calcular Q1, Q3 y la mediana de las estaturas “y” de los hijos.

B) Explicar cuál de las dos estaturas es más dispersa.

C) Hallar e interpretar el coeficiente de correlación lineal.

D) Calcular la recta de regresión de x sobre y. Varianza explicada y residual.

E) ¿Qué estatura tendrá el hijo mayor de un padre que mide 177 cm?

Nº Turistas

2001 2,76 2,62 2,92 3,8 4,4 4,81 8,93 9,98 5,91 4,34 2,62 3,65 4,7283 5,4129 Nº Turistas

2002 2,89 2,63 3,2 3,19 4,52 4,77 8,91 9,99 5,95 4,35 2,87 3,7 4,7475 5,3203

x\y 17-21 21-25 25-29 29-33 33-37

18-22 5 2

22-26 3 9 1

26-30 4 6 10

30-34 6 7

34-38 3 4

(2)

Regresión y Correlación

4.- La tabla siguiente muestra cómo se distribuye las notas en Matemáticas y Física de 25 estudiantes

X\Y [20 a 26) [26 a 32) [32 a 38) [38 a 44) [44 a 50) [14 a 20) 1

[20 a 26) 3 1

[26 a 32) 2 5 2

[32 a 38) 1 4 1

[38 a 44) 1 3

[44 a 50) 1

Sobre la distribución marginal X (Matemáticas) calcular:

a) La media, y la cuasivarianza.

b) Representar un diagrama de cajas y estudiar si existen puntos atípicos.

Sobre la distribución marginal Y (Física) calcular:

c) La media, la varianza de la muestra.

d) Representar el histograma de frecuencias absolutas y el polígono de frecuencias absolutas acumuladas.

Respecto de ambas variables

e) Hallar e interpretar el coeficiente de correlación lineal.

f) Calcular el porcentaje de la variación total de la variable nota de física que se explica mediante la relación con la variable nota de matemáticas.

g) Hallar la recta de regresión que permite estimar la nota de física conocida la nota de matemáticas.

5.- De una variable estadística bidimensional se conocen los siguientes datos:

x y

x=140; y=90; N=12; σ =3.5; σ =2.2

∑ ∑

y el coeficiente de correlación lineal r =

0.9. Calcular:

A) La recta de regresión de y sobre x.

B) La recta de regresión de x sobre y.

C) El valor de x para un valor de y=7.

D) El punto de intersección de las rectas de regresión.

E) Varianza residual.

F) Varianza explicada.

G) Coeficiente de determinación.

H) Matriz de covarianzas.

6.- De un cierto estudio estadístico se sabe, que las rectas de regresión de la variable estadística (X,Y) son 4x 2y 1

5x 3y 1

+ =

 

 + = 

  y que la varianza marginal de la variable Y es σ =2y 1. Hallar: a) El coeficiente de correlación lineal. b) Las medias marginales. c) La varianza marginal de X (σ2x).d) El valor estimado para y sabiendo que x=0.

(3)

Regresión y Correlación

7.-Se han realizado 10 mediciones de distintas distancias (Y) y se ha estimado el correspondiente error (X), cuyos resultados vienen reflejados en la siguiente tabla de doble entrada: a) Hallar la distancia media, el error medio. y las varianzas de las variables distancias y errores. b) Hallar ambas rectas de regresión, los coeficientes de regresión, las pendientes de las rectas de regresión y el coeficiente de correlación lineal.

8.- Se han hallado la velocidad media y la distancia a la Tierra de 10 nebulosas, tal como se indica en la siguiente tabla:

x 6 9 24 38 46 48 52 75 118 196

y 1,2 1,8 3,3 7,2 7 9,1 11 14,5 22,9 36,3

La variable x representa la velocidad media en cientos de km/s, y la variable y, la distancia a la Tierra en millones de parsecs. El parsec equivale a 3,6 años-luz, o sea, es la distancia a la cual se ve el diámetro de la órbita terrestre bajo un ángulo de 1’.

Determinar el coeficiente de correlación lineal.

9.- Sea una parcela o porción de terreno, en la cual se han tomado las coordenadas relativas de los 12 puntos que se expresan en la tabla:

Estaca X Y

1 37 64

2 39 71

3 29 53

4 42 67

5 31 55

6 30 58

7 35 77

8 28 57

9 32 56

10 22 51

11 41 76

12 37 68

a) Hallar el intervalo X± σX. ¿Qué tanto por ciento de valores en la variable X quedan dentro de dicho intervalo?

Y 0.1 0.2 0.3 0.4 0.5 X

0.01 3 0 0 0 0

0.02 1 1 0 0 0

0.03 0 1 2 0 0

0.04 0 0 0 1 1

(4)

Regresión y Correlación

Siendo la distribución conjunta (X, Y)

b) Calcular la matriz de covarianzas. c) El coeficiente correlación lineal.

Interpretarlo d) La recta de regresión de Y sobre X. e) Varianza residual. f) El coeficiente de determinación. Interpretarlo.

10.- Se ha preguntado a 10 alumnos las horas de estudio (X) y la calificación obtenida en Estadística (Y) y como resultado obtenemos las rectas de regresión: x 2y 1

5x 3y 1

− + =

 

− + = 

  y que

la varianza marginal de la variable Y es σ =2y 1. Se pide:

a) El coeficiente de correlación lineal. b) Las medias marginales.c) La covarianza d) ¿Qué tiempo tiene que dedicar como mínimo para poder aprobar?

11.-. La intensidad de corriente I, que se aprecia en un amperímetro varía con la fuerza electromotriz aplicada E, de acuerdo con la tabla de datos experimentales adjunta:

E 5 10 1.5 20 25 30 I -7 -2 1.0 4 10 12 Determinar:

a) La matriz de covarianzas.

b) El coeficiente de correlación lineal e interpretarlo.

c) La recta de regresión de la variable intensidad sobre la fuerza electromotriz. ¿Cuál será el valor estimado de la intensidad para una fuerza electromotriz de 20?

12.- La siguiente tabla representa una muestra de 6 valores de una variable estadística bidimensional (x,y).

x 5 4 3 2 1 0

y 6.2 5.6 3.4 2.3 1.9 1.2

a) Representar el diagrama de dispersión. A la vista del diagrama de dispersión es lógico adoptar un ajuste lineal.

b) Calcular:

b1) La matriz de covarianzas.

b2) El coeficiente de correlación lineal. Interpretarlo.

c) Hallar la ecuación de la recta de regresión lineal y estimar el valor de “y” para x = 4.

d) Calcular

d1) La varianza residual.

d2La varianza explicada por el ajuste lineal.

13.- Los siguientes datos representan los resultados, notas, de una determinada asignatura (Y) y el número de horas de estudio semanales (X) de 16 alumnos.

i 96

i

x =

i 64

i

y =

i i 492

i

x y⋅ =

2 657

i i

x =

i2 526

i

y =

Se pide:

a) Estimar el modelo de regresión simple que relaciona los resultados obtenidos con el número de horas dedicadas al estudio.

b) Calcule una medida de la bondad del ajuste e interprete el resultado.

c) Si un alumno ha estudiado 8 horas, ¿qué nota espera obtener en el examen?

(5)

Regresión y Correlación

d) ¿Cuál es el número de horas mínimo que un alumno debe estudiar para superar la asignatura? Considerad que el 5 es el aprobado.

14.- La siguiente tabla indica los litros de cerveza vendidos en un bar y la temperatura (en ºC) en la ciudad durante 5 días,

temperatura 34 25 32 37 39

cerveza 187 123 198 232 267

a) ¿Existe correlación entre la temperatura y los litros de cerveza vendidos?

b) Hallar e interpretar el coeficiente de determinación.

c) Calcular la varianza residual del ajuste lineal de y (litros) sobre x (temperatura).

d) Predecir la cantidad de cerveza que se vendería en este bar un día con una temperatura de 35ºC.

15.- Los neumáticos subinflados o sobreinflados pueden acelerar el desgaste de los neumáticos y aumentar o disminuir el consumo. Se toma una muestra de tamaño 14 resultando:

a) Hallar la matriz de covarianzas.

b) Los coeficientes de correlación lineal (r) y de determinación (R2). Interpretarlos.

c) Calcular la recta de regresión de M/L d) Calcular la varianza residual

16.- Conocidas la media aritmética y la varianza de cada una de las variables asociadas a una distribución bidimensional, X=3, Y=2, σ2x=6, σ2y=8 de la que se conoce, además, la recta de regresión de Y sobre X, 2x+3y-12=0. Obtener el coeficiente de correlación lineal y la recta de regresión de X sobre Y.

17.- Sea la distribución conjunta de la variable x = “número de habitaciones de un piso”

con respecto a la variable y = “precio de alquiler en euros”.

x\y 0-500 500-1000 1000- 1500 2 2 2 0 3 8 12 16 4 4 13 18 Se pide:

a) Distribuciones marginales de las variables x e y.

b) Moda y mediana de las variables x e y.

c) Centro de gravedad de la distribución conjunta.

d) Recta de regresión de x sobre y.

L: libras por

pulg2 30 30 31 31 32 32 33

M : millas 29.5 30.2 32.1 34.5 36.3 35.0 38.2 L: libras por

pulg2 33 34 34 35 35 36 36

M : millas 37.6 37.7 36.1 33.6 34.2 26.8 27.4

(6)

Regresión y Correlación

Peso Edad en años en kilos 0 1 2 3 4

0 – 4 2

4 – 8 4 2 2

8 – 12 8 9 7

12 – 16 1 2 8 14

16 - 20 1

e) Coeficiente de correlación lineal.

f) Si disponemos de 600 euros ¿Cuál es el mayor número de habitaciones de un piso de alquiler que podemos conseguir?

18.- A partir del diagrama de dispersión

Se pide: a) Coeficiente de correlación lineal. b) Recta de regresión de y sobre x. c) Si y=2 ¿qué valor se puede estimar para la variable x? d) Representar las rectas de regresión sobre el diagrama de dispersión.

19.- En una unidad de pediatría, se obtuvieron los siguientes datos respecto a los pesos y edades de los niños atendidos.

a) Obtener la mediana del peso en kilos.

b) ¿Qué distribución tiene mayor dispersión relativa?

c) Si un niño tiene 2 años y pesa 10 kg, ¿qué percentil representa entre los niños de 2 años?

d) Hallar el sesgo de la distribución de peso en kilos.

e) Hallar el coeficiente de correlación lineal. Interpretarlo.

f) Si un niño tiene un año ¿cuál será su peso estimado?

g) Si un niño pesa 10 kilos ¿cuántos años se estima que tendrá?

20.- Al probar un geodímetro se obtuvieron los siguientes resultados:

D (km) 8.7 3.7 6 3.3 5.1 6.1 2.7 4.9 3.1 3.7 5.7 4.9 5.6 7.6 4.2 2 4 6.5 7.2 2.7

∆ (cm) 7 3 4 3 4 4 3 4 4 2 6 5 3 4 3 2 2 5 6 2 Determinar el coeficiente de correlación lineal entre la distancia medida D y el error medio en una vuelta ∆ e interpretarlo.

(7)

Regresión y Correlación

21.- Decir razonadamente si las ecuaciones 2x+y+1=0; 5x+3y+4=0 pueden corresponder a las rectas de regresión de una distribución estadística bidimensional. En caso

afirmativo, determinar el coeficiente de correlación lineal.

(8)

Regresión y Correlación

1.- El número de turistas (en millones) entrados en España mensualmente durante los años 2001 y 2002 se expone en la siguiente estadística.

a) Calcular en qué año hubo mayor dispersión de turistas por mes.

b) Calcular la matriz de covarianzas.

c) Calcular el coeficiente de correlación lineal entre los dos años e interpretarlo.

Solución:

2001 2002 XY X2 Y2

2,76 2,89 7,9764 7,6176 8,3521

2,62 2,63 6,8906 6,8644 6,9169

2,92 3,2 9,344 8,5264 10,24

3,8 3,19 12,122 14,44 10,1761

4,4 4,52 19,888 19,36 20,4304

4,81 4,77 22,9437 23,1361 22,7529

8,93 8,91 79,5663 79,7449 79,3881

9,98 9,99 99,7002 99,6004 99,8001

5,91 5,95 35,1645 34,9281 35,4025

4,34 4,35 18,879 18,8356 18,9225

2,62 2,87 7,5194 6,8644 8,2369

3,65 3,7 13,505 13,3225 13,69

56,74 56,97 333,499 333,2404 334,3085 4,7283 4,7475 27,7916 27,77 27,86

momentos= 5,343829 5,4129 5,320285417 desviación típica= 2,3265634 2,30657439

a) CV(2001) x 2, 3266 X 4, 7283

= σ = ≈ 0, 49205. y 2, 3066

CV(2002)

Y 4, 7475

=σ = ≈ 0, 4850.

La dispersión en el año 2001 es un poco mayor.

b)

i i i i

xy

x y n

333,499

XY 4, 7283 4, 7475 5, 3438

n 12

σ =

− = − ⋅ =

2

x xy

2

xy y

σ σ  Σ =σ σ =

5, 4129 5, 3438 5, 3438 5, 3203

 

 

 

c)

xy xy

x y

5, 3438 r 2, 3266 2, 32066

= σ = ≈

σ σ ⋅ 0, 996. La correlación lineal es directa y casi perfecta

Nº Turistas

2001 2,76 2,62 2,92 3,8 4,4 4,81 8,93 9,98 5,91 4,34 2,62 3,65 4,7283 2,3266 Nº Turistas

2002 2,89 2,63 3,2 3,19 4,52 4,77 8,91 9,99 5,95 4,35 2,87 3,7 4,7475 2,3066

X σx

(9)

Regresión y Correlación

2.- Se ha tomado un grupo de parejas (con hijos) y se les ha preguntado a qué edad tuvieron su primer hijo. La información se recoge en la tabla adjunta (x = edad del padre, y = edad de la madre). Se pide:

a) Estimar mediante la recta de regresión, la edad del padre, si la madre tuvo una edad de 25 años.

b) Estimar mediante la recta de regresión la edad de la madre si el padre tuvo una edad de 25 años.

c) Calcular e interpretar el coeficiente de correlación lineal (r) y el coeficiente de determinación (R2).

d) Representar el polígono de frecuencias absoluta y el polígono de frecuencias absolutas acumuladas de la distribución marginal de los padres.

e) Calcular la mediana y el percentil 90 de la distribución marginal de las madres.

f) Qué media es más representativa. Justificar la respuesta.

Solución:

x\y 19 23 27 31 35 ni. ni.xi ni.(xi-m)2

20 5 2 7 140 448

24 3 9 1 13 312 208

28 4 6 10 20 560 0

32 6 7 13 416 208

36 3 4 7 252 448

n.j 5 5 13 16 21 60 1680 1312

n.jyj 95 115 351 496 735 Y= 29,87 X = 28 σ2x=21,87 n.j(yj-m)2 590,78 235,98 107,08 20,43 552,65 σ =2y 25,12

f) x=28 σx =4,68 CV(x)=0,17 y=29,87 σy =5,01 CV(y)=0,17

Las dos medias, son igual de representativas, ya que, los coeficientes de variación son iguales.

x y 17-21 21-25 25-29 29-33 33-37

18-22 5 2

22-26 3 9 1

26-30 4 6 10

30-34 6 7

34-38 3 4

(10)

Regresión y Correlación

a) Recta de regresión de x sobre y: xy2

( )

y

x X σ y Y

− = −

σ

(

x 28

)

18,13

(

y 29,87

)

21,87

− = − ⇒ =x 0,83y 3, 24+ ⇒ x=0,83 25 3, 24⋅ + =24

b) Recta de regresión de y sobre x: xy2

( )

x

y Y σ x X

− = −

σ

(

y 29,87

)

18,13

(

x 28

)

25,12

− = − ⇒ =y 0, 72x+9, 66 ⇒ y=0, 72 25 9, 66⋅ + =27, 7

c) xy xy

x y

r σ

= =

σ σ 0, 77, por tanto, la relación lineal es directa pero no demasiado buena.

6 , 0

R2 = , el ajuste no es demasiado bueno.

d) Polígonos de frecuencia, absoluta y absoluta acumulada de la distribución marginal

“padres”.

e) Mediana; M 29 28

= +16 = 30, 75 Percentil 90; P90 33 60

= +21= 35,86

x\y 19 23 27 31 35

20 1900 920

24 1656 5832 744

28 3024 5208 9800

32 5952 7840

36 3348 5040

1900 2576 8856 15252 22680 51264

covarianza 18,13

0 5 10 15 20 25

16. 18 - 22 22 - 26 26 - 30 30 - 34 34 - 38 40. 0 10 20 30 40 50 60 70

18. 22. 26. 30. 34. 38.

(11)

Regresión y Correlación

3. La tabla siguiente muestra las respectivas estaturas x, y de una muestra de 12 padres y sus hijos mayores.

Estatura x del padre 169 164 174 167 177 162 182 172 177 174 179 185 Estatura y del hijo 177 172 177 169 180 172 177 169 185 174 177 182

A) Calcular Q1, Q3 y la mediana de las estaturas “y” de los hijos.

B) Explicar cuál de las dos estaturas es más dispersa.

C) Hallar e interpretar el coeficiente de correlación lineal.

D) Calcular la recta de regresión de x sobre y. Varianza explicada y residual.

E) ¿Qué estatura tendrá el hijo mayor de un padre que mide 177 cm?

Solución:

A)

Si ordenamos la variable y de menor a mayor

N 3

4 = ⇒ Q1 =172; 3N 9

4 = ⇒ Q3 =177.5;

N 6

2 = ⇒ M 177= X 2082 173.5;

= 12 = 2x 547

45.5833 σ = 12 =

x 6.7515

σ = 6.7515

CV(x) 0.0389

173.5

= =

Y 2111 175.916

= 12 = . 2y 270.917

22.5764

σ = 12 = .

y 4.7514

σ = 4.7514

CV(y) 0.027

175.916

= =

B) La estatura de los padres es más dispersa por tener su coeficiente de variación mayor.

xy

366522

173.5 175.916 22.074

σ = 12 − ⋅ = .

C) xy 22.074 r = 6.7515 4.7514=

⋅ 0.688 Directa

D) Recta de regresión de x sobre y:

( )

xy 2 y

x X σ y Y

− = −

σ

22.074

x 173.5− = (y 175.916)−

y 169 172 174 177 180 182 185

ni 2 2 1 4 1 1 1

Ni 2 4 5 9 10 11 12

x y

(

xX

)

2

(

yY

)

2 xy

169 177 20,25 1.17506 29913 164 172 90.25 15.3351 28208 174 177 0.25 1.17506 30798 167 169 42.25 47.8311 28223 177 180 12.25 16.6791 31860 162 172 132.25 15.3351 27864 182 177 72.25 1.17506 32214 172 169 2.25 47.8311 29068 177 185 12.25 82.5191 32745 174 174 0.25 3.67106 30276 179 177 30.25 1.17506 31683 185 182 132.25 37.0151 33670

2082 2111 547 270.917 366522

(12)

Regresión y Correlación

499 . 1 y 978 . 0

x= +

La varianza explicada σ ⋅2y R2 =22, 5764 0, 688⋅ 2 ≈ 10.686

La varianza residual o no explicada σ = σ2r 2y(1 R )− 2 =22, 5764 1 0, 688⋅ −

(

2

)

≈11.89

E) Recta de regresión de Y sobre X: xy2

( )

x

y Y σ x X

− = −

σ 22.074

y 175.916 (x 173.5)

45.5833

− = − ó y=0.484x+91.897

Si la estatura del padre es x=177 sustituyendo en la ecuación anterior se obtiene y=177.56.

(13)

Regresión y Correlación

4.- La tabla siguiente muestra cómo se distribuye las notas en Matemáticas y Física de 25 estudiantes

X\Y [20 a 26) [26 a 32) [32 a 38) [38 a 44) [44 a 50) [14 a 20) 1

[20 a 26) 3 1

[26 a 32) 2 5 2

[32 a 38) 1 4 1

[38 a 44) 1 3

[44 a 50) 1

Sobre la distribución marginal X (Matemáticas) calcular:

a) La media, y la cuasivarianza.

b) Representar un diagrama de cajas y estudiar si existen puntos atípicos.

Sobre la distribución marginal Y (Física) calcular:

c) La media, la varianza de la muestra.

d) Representar el histograma de frecuencias absolutas y el polígono de frecuencias absolutas acumuladas.

Respecto de ambas variables

e) Hallar e interpretar el coeficiente de correlación lineal.

f) Calcular el porcentaje de la variación total de la variable nota de física que se explica mediante la relación con la variable nota de matemáticas.

g) Hallar la recta de regresión que permite estimar la nota de física conocida la nota de matemáticas.

Solución:

a)

xi

X 791

n 25

=

= =

31, 64,

(

i

)

2 i

2 i

x

x X n

1229, 78

S n 1 25 1

= = =

− −

51, 24

b) Q1=26.833,Q3 =36,75,1.5*IQR=14.875 31 M , 625 , 51 IQR

* 5 . 1 Q , 96 , 11 QR 1

* 5 . 1

Q1− = 3+ = =

c)

yi

Y=

n = 911

25 = 36, 44

( )

2

i i 2

2 i 2

y

y n 34081

Y 36, 44

n 25

σ =

− = − =

35, 366

11.96 14

26,8 31 36.7

50 51.62

(14)

Regresión y Correlación

d)

e)

(

i

)

2 i

2 i

x

x X n

1229, 78

49,1904

n 25

σ =

= =

xy xy

x y

32,1984 r

49,1904 35, 3664

= σ = =

σ σ 0, 7719

f) R2 =r2 =0.77192 ≈0.5959 59.59%

g) Recta de regresión de Y sobre X: xy2

( )

x

y Y σ x X

− = −

σ

) 64 . 31 x 19 ( . 49

198 . 44 32 . 36

y− = −

20 26 32 38 44

(15)

Regresión y Correlación

5.- De una variable estadística bidimensional se conocen los siguientes datos:

x y

x=140; y=90; N=12; σ =3.5; σ =2.2

∑ ∑

y el coeficiente de correlación lineal r =

0.9. Calcular: A) La recta de regresión de y sobre x. B) La recta de regresión de x sobre y. C) El valor de x para un valor de y=7. D) El punto de intersección de las rectas de regresión. E) Varianza residual. F) varianza explicada. G) Coeficiente de determinación.

H) Matriz de covarianzas Solución:

xi

140 35

X ;

N 12 3

=

= = yi 90 15

Y ;

N 12 2

=

= =

xy xy

xy xy

x y

r 0, 9 6, 93

3, 5 2, 2

σ σ

= = = ⇒ σ =

σ σ ⋅

a) Recta de regresión de y sobre x: xy2

( )

x

y Y σ x X

− = −

σ

2

15 6, 93 35

y x

2 3, 5 3

 − =  − 

   

    ⇒ y=0,5657142857·x+0, 9

b) Recta de regresión de x sobre y: xy2

( )

y

x X σ y Y

− = −

σ

2

35 6, 93 15

x y

3 2, 2 2

 − =  − 

   

    ⇒ x=1,431818181 y⋅ +0,928030303

c) El valor de x se obtiene de la recta de regresión de x sobre y

x=1.431818181 y⋅ +0.928030303=1.431818181 7⋅ +0.928030303≈10.95075757

d) El punto de intersección corresponde al centro de gravedad:

( )

X, Y = 35 153 , 2 

e) Depende de la recta de regresión Para la recta de regresión de y sobre x

La varianza residual o no explicada σ = σ2r 2x(1 R )− 2 = 3, 52⋅ −

(

1 0, 92

)

2,3275

Para la recta de regresión de x sobre y

La varianza residual o no explicada σ = σ2r 2y(1 R )− 2 =2, 22⋅ −

(

1 0, 92

)

0,9196

(16)

Regresión y Correlación

f)

La varianza explicada σ ⋅2x R2 =3, 5 0, 922 ≈ 9,9225 La varianza explicada σ ⋅2y R2 =2, 2 0, 922 ≈ 3,9204

g)

2 2 2

R =r =0, 9 =0,81

Es bastante fiable, pues explica el 81% de la variación entre las variables.

h)

2

x xy

2

xy y

σ σ  Σ =σ σ =

4,84 6, 93 6, 93 12, 25

 

 

 

(17)

Regresión y Correlación

6.- De un cierto estudio estadístico se sabe, que las rectas de regresión de la variable estadística (X,Y) son 4x 2y 1

5x 3y 1

+ =

 

 + = 

  y que la varianza marginal de la variable Y es σ =2y 1. Hallar: a) El coeficiente de correlación lineal. b) Las medias marginales. c) La varianza marginal de X (σ2x). d) el valor estimado para y sabiendo que x=0.

Solución:

Buscaremos los coeficientes de regresión despejando x e y:

( )

2

xy yx

y 1 2x

4x 2y 1 2 3 6

r b b 2 1

1 3

5x 3y 1 5 5

x y

5 5

 = − + = 

 ⇒ ⇒ = ⋅ = − ⋅ − = >

 + =    

   = −



¡Imposible!

Entonces

2

xy yx

1 1

x y

4x 2y 1 4 2 1 5 5

r b b 1

1 5

5x 3y 1 2 3 6

y x

3 3

 = − + = 

 ⇒ ⇒ = ⋅ = −  ⋅ − = <

 + =       

   = −



a)

2 5 5

r r

6 6

= ⇒ = ±  -0,9128709291

Correlación inversa y muy fuerte b)

4x 2y 1 5x 3y 1

+ =

 

 + = ⇒

 

X 1 2 Y 1

2

 =

 = −



c)

xy xy xy

xy 2 xy yx 2 2

y x x

1 1 1 / 2 5

b b

1 2 2 3

σ σ σ −

= = = − ⇒ σ = − ⇒ = = = − ⇒

σ σ σ

2 x

3 σ =10 d)

Debemos utilizar la recta de regresión de y sobre x para pode predecir el valor de y:

1 5 1 5

y x 0

3 3 3 3

= − = − = 1

3

(18)

Regresión y Correlación

7.- Se han realizado 10 mediciones de distintas distancias (Y) y se ha estimado el correspondiente error (X), cuyos resultados vienen reflejados en la siguiente tabla de doble entrada: a) Hallar la distancia media, el error medio. y las varianzas de las variables distancias y errores. b) Hallar ambas rectas de regresión, los coeficientes de regresión, las pendientes de las rectas de regresión y el coeficiente de correlación lineal.

Solución:

X\Y 0,1 0,2 0,3 0,4 0,5 ni. Xini. Xi2ni.

0,01 3 0 0 0 0 3 0,03 0,0003

0,02 1 1 0 0 0 2 0,04 0,0008

0,03 0 1 2 0 0 3 0,09 0,0027

0,04 0 0 0 1 1 2 0,08 0,0032

n.j 4 2 2 1 1 10 0,24 0,007

Yjn.j 0,4 0,4 0,6 0,4 0,50 2,3

Yj2n.j 0,04 0,08 0,18 0,16 0,25 0,71

0,05 0,05 0,06 0,04 0,04 0,24

0,005 0,01 0,018 0,016 0,02 0,07

RESULTADOS:

X Y

m1 0,024 0,23

m2 0,0007 0,071

0,000124 0,0181

m11 0,0069

0,00138

r 0,92115

a) Error medio Distancia media

i i i 10

x n 0, 24

m X

n 10

= =

= =

0, 024;

i i i 01

y n 2, 3

m Y

n 10

= =

= =

0, 23

Varianzas:

( ) ( )

2 i i

2 2

2 i 2

x 20

x n 0, 007

m X X 0, 024

n 10

σ = − =

− = − =

0, 000124

( ) ( )

2 i i

2 2

2 i 2

y 02

y n 0, 71

m Y Y 0, 23

n 10

σ = − =

− = − =

0, 0181 σ2

σxy

(19)

Regresión y Correlación

Covarianza:

i i i i

xy 11

x y n

0, 069

m XY XY 0, 024 0, 23

n 10

σ = − =

− = − ⋅ =

0, 00138

b) Rectas de regresión

Recta de regresión de y sobre x: xy2

( )

x

y Y σ x X

− = −

σ

(

y 0, 23

)

0, 00138

(

x 0, 024

)

0, 000124

− = − ⇒ y=11,12903225·x−0.03709677419

Recta de regresión de x sobre y: xy2

( )

y

x X σ y Y

− = −

σ

(

x 0, 024

)

0, 00138

(

y 0, 23

)

0, 0181

− = − ⇒ x=0,07624309392 y⋅ +0.006464088397

Los coeficientes de regresión

xy

yx 2

x

b σ

= =

σ 11,12903225

xy

xy 2

y

b σ

= =

σ 0,07624309392 Las pendientes:

byx = α =tg 11.12903225⇒ α =84º 51'56 ''

xy

b 1 0.07624309392

= tg = ⇒

β β =85º 38 ' 24 ''

El coeficiente de correlación lineal:

xy

yx xy

x y

r b b σ

= ± ⋅ = =

σ σ 0,92115 Correlación fuerte y directa

(20)

Regresión y Correlación

8.- Se han hallado la velocidad media y la distancia a la Tierra de 10 nebulosas, tal como se indica en la siguiente tabla:

x 6 9 24 38 46 48 52 75 118 196

y 1,2 1,8 3,3 7,2 7 9,1 11 14,5 22,9 36,3

La variable x representa la velocidad media en cientos de km/s, y la variable y, la distancia a la Tierra en millones de parsecs. El parsec equivale a 3,6 años-luz, o sea, es la distancia a la cual se ve el diámetro de la órbita terrestre bajo un ángulo de 1’.

Determinar el coeficiente de correlación lineal.

Solución:

x y x*y x2 y2

6 1,2 7,2 36 1,44

9 1,8 16,2 81 3,24

24 3,3 79,2 576 10,89

38 7,2 273,6 1444 51,84

46 7 322 2116 49

48 9,1 436,8 2304 82,81

52 11 572 2704 121

75 14,5 1087,5 5625 210,25

118 22,9 2702,2 13924 524,41

196 36,3 7114,8 38416 1317,69

sumas 612 114,3 12611,5 67226 2372,57

momentos 61,2 11,43 1261,15 6722,6 237,257

covarianza 561,634 2977,16 106,6121 coeficientes de regresión: 0,1886476 5,268013668 Medias:

i i i

x n 612 X=

n = 10 =

61, 2; i i i

y n 114, 3 Y=

n = 10 =

11, 43

Varianzas:

( ) ( )

2 i i

2 2

2 i 2

x 20

x n 67226

m X X 61, 2

n 10

σ = − =

− = − =

2977,16

( ) ( )

2 i i

2 2

2 i 2

y 02

y n 2372, 57

m Y Y 11, 43

n 10

σ = − =

− = − =

106, 6121

(21)

Regresión y Correlación

Covarianza:

i i i i

xy 11

x y n

12611, 5

m XY XY 61, 2 11, 43

n 10

σ = − =

− = − ⋅ =

561, 634

Los coeficientes de regresión:

xy

yx 2

x

561, 634

b 2977,16

= σ = =

σ 0,1886476

xy

xy 2

y

561, 634

b 106, 6121

=σ = =

σ 5, 268013668

Coeficiente de correlación lineal:

yx xy

r= ± b ⋅b = 0,1886476 5, 268013668⋅ ≈ 0, 996. La correlación lineal es directa y casi perfecta

(22)

Regresión y Correlación

9.- Sea una parcela o porción de terreno, en la cual se han tomado las coordenadas relativas de los 12 puntos que se expresan en la tabla:

Estaca X Y

1 37 64

2 39 71

3 29 53

4 42 67

5 31 55

6 30 58

7 35 77

8 28 57

9 32 56

10 22 51

11 41 76

12 37 68

c) Hallar el intervalo X± σX. ¿Qué tanto por ciento de valores en la variable X quedan dentro de dicho intervalo?

Siendo la distribución conjunta (X, Y)

d) Calcular la matriz de covarianzas. c) El coeficiente correlación lineal.

Interpretarlo d) La recta de regresión de Y sobre X. e) Varianza residual. f) El coeficiente de determinación. Interpretarlo.

Solución:

X Y XY X2 Y2

37 64 2368 1369 4096

39 71 2769 1521 5041

29 53 1537 841 2809

42 67 2814 1764 4489

31 55 1705 961 3025

30 58 1740 900 3364

35 77 2695 1225 5929

28 57 1596 784 3249

32 56 1792 1024 3136

(23)

Regresión y Correlación

22 51 1122 484 2601

41 76 3116 1681 5776

37 68 2516 1369 4624

Sumas 403 753 25770 13923 48139

a) X± σ X

12 i i 1

x 403

X 33, 5833;

12 12

=

= = =

( )

12 2

i 2

2 i 1 2

x

x 13923

X 33, 58333 32, 4097222

n 12

σ =

= − = − =

[ ]

X X

X , X 33.58333333 32.4097222 , 33.58333333 32, 4097222 27.89, 39.276

 − σ + σ = − + =

   

Resultan 9 de los 12 valores de X

22 28 29 30 31 32 35 37 37 39 41 42

Tenemos el 75% de los valores

b)

( )

12 2

i 2

2 i 1 2

y

y 48139

Y 62, 75 74, 0208333

n 12

σ =

= − = − =

12 i i i i 1 xy

x y n

25770

XY 33, 58333333 62, 75 40,1458333

n 12

σ =

= − = − ⋅ =

2

x xy

2

xy y

σ σ  Σ =σ σ =

32, 4097222 40,1458333 40,1458333 74, 0208333

 

 

 

c) xy xy

x y

40,1458333

r 32, 4097222 74, 0208333

= σ = ≈

σ σ 0,8196

por tanto, la relación lineal es directa y buena

d) Recta de regresión de y sobre x: xy2

( )

x

y Y σ x X

− = −

σ

(

y 62, 75

)

40,146

(

x 33, 583

)

32, 4097

− = − ⇒ y=21,15 1, 2387x+

e) La varianza residual o no explicada σ = σ2r 2y(1 R )− 2 =74, 0208 1 0,8196⋅ −

(

2

)

≈ 49, 729 f) R2 =0, 6718 67,18%

es el porcentaje de la variación total de las y que se explica mediante la relación con x

(24)

Regresión y Correlación

10.- Se ha preguntado a 10 alumnos las horas de estudio (X) y la calificación obtenida en Estadística (Y) y como resultado obtenemos las rectas de regresión: x 2y 1

5x 3y 1

− + =

 

− + = 

  y que

la varianza marginal de la variable Y es σ =2y 1. Se pide:

a) El coeficiente de correlación lineal. b) Las medias marginales.c) La covarianza d) ¿Qué tiempo tiene que dedicar como mínimo para poder aprobar?

Solución:

a) Buscaremos los coeficientes de regresión despejando x e y:

2

xy yx

1 1

y x

x 2y 1 2 2 3 1 3

r b b 1

1 3

5x 3y 1 5 2 10

x y

5 5

 = +

− + = 

 ⇒ ⇒ = ⋅ =   ⋅ = <

− + =         

   = − +



Entonces

2 3 3

r r

10 10

= ⇒ = ±  0,5477226<0,8

Correlación directa y muy débil. No se acepta el ajuste.

b)

x 2y 1 5x 3y 1

− + =

 

− + = ⇒

 

X 1 7 Y 4

7

 =

 =



c) xy xy2 xy xy yx xy2 2

y x x

3 3 3 / 5 1

b b

1 5 5 2

σ σ σ

= = = ⇒ σ = ⇒ = = = ⇒

σ σ σ

2 x

6 σ = 5

d) No podemos predecir el valor de la Y.

(25)

Regresión y Correlación

11.-. La intensidad de corriente I, que se aprecia en un amperímetro varía con la fuerza electromotriz aplicada E, de acuerdo con la tabla de datos experimentales adjunta:

E 5 10 1.5 20 25 30 I -7 -2 1.0 4 10 12 Determinar:

a) La matriz de covarianzas.

b) El coeficiente de correlación lineal e interpretarlo.

c) La recta de regresión de la variable intensidad sobre la fuerza electromotriz. ¿Cuál será el valor estimado de la intensidad para una fuerza electromotriz de 20?

Solución:

La media para cada variable es: E Ei 15.25; I Ii 3

n n

=

= =

=

Para el cálculo de varianzas y covarianzas, podemos formar la tabla

E I E−E I I−

(

EE

) ( )

I I

(

E E

)

2

( )

I I 2

5 -7 -10.25 -10 102.50 105.0625 100

10 -2 -5.25 -5 26.25 27.5625 25

1.5 1 -13.75 -2 27.50 189.0625 4

20.0 4 4.75 1 4.75 22.5625 1

25.0 10 9.75 +7 68.25 95.0625 49

30.0 12 14.75 +9 132.75 217.5625 81

SUMAS 91,5 18 0 0 362.00 656.8750 260

a) Para obtener la matriz de covarianza aplicamos

2

E EI

2

EI I

σ σ 

 =

σ σ

 

109.4791 60.3 60.3 43.3

 

 

 

 

b) Para calcular el coeficiente de correlación aplicamos la siguiente ecuación:

EI EI

E I

r σ 0.876

= = ⇒

σ σ

2

rEI= 0, 767 , por tanto, la correlación es positiva (a mayor fuerza electromotriz mayor intensidad, además es buena el modelo explica el 76,7%

La recta de regresión de I/E es: xy2

( )

E

I I σ E E

− = − ⇒

σ I=0, 5511E 5, 4042−

c) Para un valor de E = 20 esperamos una intensidad de 0,5511·20 - 5.4042 = 5,6176

(26)

Regresión y Correlación

12.- La siguiente tabla representa una muestra de 6 valores de una variable estadística bidimensional (x,y).

x 5 4 3 2 1 0

y 6.2 5.6 3.4 2.3 1.9 1.2

a) Representar el diagrama de dispersión. A la vista del diagrama de dispersión es lógico adoptar un ajuste lineal.

b) Calcular:

b1) La matriz de covarianzas.

b2) El coeficiente de correlación lineal. Interpretarlo.

c) Hallar la ecuación de la recta de regresión lineal y estimar el valor de “y” para x

= 4.

d) Calcular:

d1) La varianza residual.

,d2)La varianza explicada por el ajuste lineal.

Solución:

a) Los puntos parecen estar próximos a una recta, por tanto, es lógico efectuar un ajuste lineal.

b) En primer lugar calculamos las medias y varianzas marginales de la muestra, así como la covarianza muestral.

2 2

x x y y xy

X=2.5; S =3.5⇒S ≈1.87; Y≈3.43; S ≈4.19; S ≈2.05; S ≈3.72

La matriz de covarianzas viene dada por:

2

x xy

2

xy y

S S 3.5 3.72

S S 3.72 4.19

   

  = 

   

 

El coeficiente de correlación lineal es xy xy

x y

S 3.72

r =S ·S =1.87·2.05≈ 0.97 . La relación entre X e Y es muy buena, además nos indica que a mayor valor de la variable X mayor valor para la variable Y (correlación directa).

c) La ecuación de la recta de Y sobre X es:

( ) ( )

xy 2 x

S 3.72

y Y x X y 3.43 x 2.5

S 3.5

− = − ⇒ − = − ⇒ y=0.77 1.06x+

El valor estimado para “y” cuando x = 4 es y = 0.77 + 1.06·4 = 5.01 d) En la recta de Y/X la varianza residual o no explicada es

2 2 2

r y

S =S (1 R )− =4.19(1 0.94)− ≈ 0.24

La varianza explicada es igual a la varianza total menos la varianza no explicada.

2 2 2

explicada y r

S =S −S =4.19 0.24− =3.95, o bien

2 2 2

explicada y

S =S ·R =4.19·0.94≈3.95

(27)

Regresión y Correlación

13.- Los siguientes datos representan los resultados, notas, de una determinada asignatura (Y) y el número de horas de estudio semanales (X) de 16 alumnos.

i i

x =96

i

i

y =64

i i

i

x y⋅ =492

2i

i

x =657

i2

i

y =526

Se pide:

a) Estimar el modelo de regresión simple que relaciona los resultados obtenidos con el número de horas dedicadas al estudio.

b) Calcule una medida de la bondad del ajuste e interprete el resultado.

c) Si un alumno ha estudiado 8 horas, ¿qué nota espera obtener en el examen?

d) ¿Cuál es el número de horas mínimo que un alumno debe estudiar para superar la asignatura? Considerad que el 5 es el aprobado.

Solución:

a)

16 16

i i

i 1 i 1

x y

96 64

X 6; Y 4

n 16 n 16

= =

=

= = =

= =

( )

16 2

i 2

2 i 1 2

x

x 657

X -6 5, 0625

n 16

σ =

= − = =

( )

16 2

i 2

2 i 1 2

y

y 526

Y 4 16,875

n 16

σ =

= − = − =

16 i i i i

xy

x y n

XY 492 6 4 6, 75

n 16

σ =

− = − ⋅ =

La ecuación de la recta de Y sobre X es:

( ) ( )

xy 2 x

6, 75

y Y x X y 4 x 6

5, 0625

− = σ − ⇒ − = − ⇒

σ

y 4x 4

= 3 − b) xy xy

x y

r 6,75

5, 0625 16,875

= σ = ≈

σ σ 0,7302967433

por tanto, la relación lineal es directa y buena c) Si x=8 horas, entonces y 4 8 4 6, 6

= ⋅ − ≈3

d) Recta de regresión de X sobre Y: xy2

( )

y

x X σ y Y

− = −

σ e y=5

( )

x-6 6,75 5 4 16,875

= − ⇒ x=6, 4 horas

(28)

Regresión y Correlación

14.- La siguiente tabla indica los litros de cerveza vendidos en un bar y la temperatura (en ºC) en la ciudad durante 5 días,

temperatura 34 25 32 37 39

cerveza 187 123 198 232 267

a) ¿Existe correlación entre la temperatura y los litros de cerveza vendidos?

b) Hallar e interpretar el coeficiente de determinación.

c) Calcular la varianza residual del ajuste lineal de y (litros) sobre x (temperatura).

d) Predecir la cantidad de cerveza que se vendería en este bar un día con una temperatura de 35ºC.

Solución:

=

σx2 23,44; σy2 =2321,04; σxy =226,44

xy x y

r σ 0,9708072925

= =

σ σ

a) El coeficiente de correlación lineal es muy próximo a 1, luego existe correlación directa entre la temperatura y los litros de cerveza vendidos.

b)

2

2 xy 2

x y

R  σ  0, 9781 0,9424667991

=σ σ  = ≈ ⇒

94, 25%se explica por el modelo.

c) En la recta de Y/X la varianza residual o no explicada es

2 2 2

r y(1 R ) 2321,04(1 0, 9425)

σ = σ − = − ≈

133,52

d) Para predecir los litros de cerveza se utiliza la recta de regresión de y sobre x, es decir, y= +y b (xyx −x)=201, 4 9, 66041(35 33, 4)+ − = 216,857

x y ( )

xx 2

( )

yy 2

xy

169 177 20,25 1.17506 29913 164 172 90.25 15.3351 28208 174 177 0.25 1.17506 30798 167 169 42.25 47.8311 28223 177 180 12.25 16.6791 31860 162 172 132.25 15.3351 27864 182 177 72.25 1.17506 32214 172 169 2.25 47.8311 29068 177 185 12.25 82.5191 32745 174 174 0.25 3.67106 30276 179 177 30.25 1.17506 31683 185 182 132.25 37.0151 33670 2082 2111 547 270.917 366522

Figure

Actualización...

Referencias

Actualización...

Related subjects :