• No se han encontrado resultados

EJERCICIOS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES (CAPÍTULO 5 ) PROPUESTOS EN EXÁMENES

N/A
N/A
Protected

Academic year: 2021

Share "EJERCICIOS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES (CAPÍTULO 5 ) PROPUESTOS EN EXÁMENES"

Copied!
23
0
0

Texto completo

(1)

EJERCICIOS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES (CAPÍTULO 5 ) PROPUESTOS EN EXÁMENES

1º) Razone brevemente sobre los conceptos de Casualidad, Causalidad y Especificación de modelos estadísticos.(Junio 2003)

Respuesta.-

Consideremos en una población dos o más variables:

- Es posible que exista relación entre ellas de modo que una variación de una o varias produzca como consecuencia una variación en otras, explicable mediante alguna teoría general (por ejemplo, de la teoría de la demanda se deduce que si aumentamos el precio, disminuye la demanda). En este caso decimos que existe relación de causalidad.

- Es posible no obstante que encontremos relación entre las variables pero no exista modelo teórico lógico que fundamente la relación (por ejemplo, calificaciones obtenidas por 50 alumnos en una asignatura y producción de cereales de 50 provincias). Hablaremos en este caso de casualidad.

- Así pues, al estudiar la relación entre variables, debemos especificar previamente un modelo teórico que recoja las principales relaciones de causalidad (por ejemplo, el nº de clientes de una cadena hotelera puede venir explicado por los precios de alojamiento, el número de turistas que visitan la localidad, etc.)

2º) En una distribución de frecuencias para 2 variables (x, y), se ha obtenido la siguiente tabla de correlaciones: Y X 3 4 8 TOTAL 5 4 2 2 8 6 2 1 2 5 7 1 2 4 7 TOTAL 7 5 8 20

Obtenga: a) La regresión lineal simple de Y/ X (Y sobre X) y de X sobre Y (X/ Y). b) El coeficiente de determinación de ambas rectas de regresión. (Junio 2003)

Solución.-Efectuamos los cálculos necesarios para obtener las medias y las varianzas:

3 4 8 ni· xi·ni· xi2·ni·

5 4 2 2 8 40 200 6 2 1 2 5 30 180 7 1 2 4 7 49 343 n·j 7 5 8 20 119 723 yj·n·j 21 20 64 105 yj2·n·j 63 80 512 655 De la tabla se obtiene: a10 = 119 20 = 5,95; a01 = 105 20 = 5,25; a20 = 723 20 = 36,15; a02 = 655 20 = 32,75 y de aquí: m20= 36,15 – 5,952 = 0,7475; m02 = 32,75 – 5,252 = 5,1875

Por otra parte, si multiplicamos cada valor de X por cada valor de Y y por su respectiva frecuencia, obtenemos la tabla

60 40 80

(2)

cuya suma de elementos da 637, de donde obtenemos: a11 = 637

20 = 31,85 y de aquí:

m11 = 31,85 – 5,95·5,25 = 0,6125.

Se tendrá pues:

a) la recta de regresión de Y/X es: y – 5,25 = 0,6125

(

x 5,95

)

0,7475 − ↔ y ≅ 0,82x + 0,37 y la recta de regresión de X/Y:

x – 5,95 = 0,6125

(

y 5,95

)

5,1875 − ↔ x ≅ 0,12y + 5,33 b) el coeficiente de determinación:R2 = 2 11 20 02 m m ·m = 2 0,6125 0,7475·5,1875 ≅ 0,0967

3º) Explique y valore el significado del coeficiente de correlación lineal de Pearson. (Junio 2003 reserva)

Solución.-

Consideremos una variable bidimensional (Xi, Yi), siendo Xi la variable independiente

(exógena) e Yi la dependiente (endógena). Sea y = a+bx la recta de regresión de Y/X. Tenemos

entonces las tres varianzas:

S2Y = m02, varianza de la variable Yi; S2Yt= varianza de la variable a+bXi, (varianza explicada por

la regresión); S2rY varianza de la variable Yi–a–bXi, (varianza residual). Se demuestra que

S2Y = S2Yt + S2rY

Llamamos coeficiente de determinación R2 a la proporción (tanto por uno) de varianza explicada que forma parte de la varianza de la variable:

R2 = 2 Yt 2 Y S S demostrándose que 2 2 11 20 02 m R m ·m = y, obviamente, 0 ≤ R2≤ 1. Llamamos coeficiente de correlación al cociente:

R = 11

20 02

m m · m

cumpliéndose que –1 ≤ R ≤ 1. Si es 1 ó –1, la varianza se compone exclusivamente de la varianza explicada, es decir, la varianza residual es nula y el ajuste de la nube de puntos a la recta de regresión es perfecto; si es cero entonces la varianza se compone exclusivamente de la varianza residual y la ecuación de regresión no es representativa.

4º) Una empresa quiere realizar un estudio sobre la influencia de las campañas publicitarias en sus cifras de ventas. Para ello dispone del gasto destinado a publicidad y sus ventas en los últimos 5 años:

Años Gastos publicidad Ventas

1997 2,2 195 1998 2,5 200 1999 2,8 221 2000 2,9 230 2001 3,1 239 2002 3,5 248

(3)

a) Obtener un modelo lineal que permita predecir las ventas en función de los gastos en publicidad.

b) Predecir las ventas de 2003 si se piensa invertir en publicidad 5 millones de euros. e) Valorar los errores obtenidos por la recta de regresión. (Junio 2003 reserva)

Solución.-

a) Consideramos la variable bidimensional (xi, yi) donde xi = “gastos en publicidad”;

yi = “ventas”, tenemos la tabla:

xi yi x2i y2i xi·yi 2,2 195 4,84 38025 429 2,5 200 6,25 40000 500 2,8 221 7,84 48841 618,8 2,9 230 8,41 52900 667 3,1 239 9,61 57121 740,9 3,5 248 12,25 61504 868 Totales: 17 1333 49,2 298391 3823,7 de donde se deduce: a10= 2,83333333 m20= 0,17222222 a01= 222,166667 m02= 373,805556 m11= 7,81111111

de donde la recta de regresión de Y/X:

y – 222,17 = 7,81 (x 2,83)

0,172 − ↔ y ≅ 45,35x + 93,66

b) sustituyendo en la recta x = 5 → y ≅ 320,43

c) El coeficiente de determinación R2 = 7,812

0,17·373,80≅ 0,9477, lo que indica que la recta de regresión es representativa para realizar interpolaciones o extrapolaciones.

5º) Elabore una tabla tipo de una distribución bidimensional (X, Y) indicando el significado de los términos x1 , x2. ... xr ; y1, y2 ...ys ; ni1, ni2, ...n is ; n1j, n2j, ...., nrj; ni·; n·j ; N. (Septiembre

2003) Respuesta.- y x y1 y2 ... ys x1 n11 n12 ... n1s n1· x2 n21 n22 ... n2s n2· . . . . . . . . . ... . . . . . . xr nr1 nr2 ... nrs nr· n·1 n·2 ... n·s N x1, x2, ..., xr : valores de la variable X y1, y2, ..., yr : valores de la variable Y

nij: frecuencia del punto (xi, yj), i = 1, 2, ..., 3; j

= 1, 2, ..., s ni· =

= s 1 j ij n es la frecuencia marginal de xi. n·j =

= r 1 i ij n es la frecuencia marginal de yj. N =

= • s 1 j j n =

= • r 1 i i n =

∀ ∀i, j ij n es el total de individuos.

(4)

6º) Defina el coeficiente de correlación lineal e indique los valores que puede tomar y su significado. (Septiembre 2003) Respuesta.- R = 02 20 11 m · m m

. Se cumple que –1 ≤ R ≤ 1. Si R = ±1, la correlación es máxima y los puntos (xi, yj)

están en línea recta (las dos rectas de regresión coinciden), de pendiente positiva si R = 1 y de pendiente negativa si R = –1. Cuanto menor, en valor absoluto, sea R, mayor será el ángulo que formen entre sí las rectas de regresión. Si R = 0, no existe correlación y las rectas de regresión y = a01, x = a10, son perpendiculares.

7º) Se ha efectuado una encuesta a 20 agencias de viaje preguntando por su situación respecto a dos variables de interés (nº de clientes diarios y nº de trabajadores); en estas encuestas se han obtenido los siguientes resultados

Nº de trabajadores Nº de clientes 1 2 3 total 5 4 2 2 8 6 2 1 2 5 7 1 2 4 7 total 7 5 8 20

Obtener los momentos de orden 1 y 2 respeto a la media y respecto al origen de esta distribución y estudiar la posible dependencia entre ambas variables. (Septiembre 2003)

Solución.-

Ampliemos la tabla con los cálculos que se indican:

Nºde trabajadores Nºde clientes

1 2 3 total xi·ni· x2i·ni·

5 4 2 2 8 40 200 6 2 1 2 5 30 180 7 1 2 4 7 49 343 total 7 5 8 20 119 723 yj·n·j 7 10 24 41 y2j·n·j 7 20 72 99

Además, sustituyendo nij por el producto xi·yj·nij, obtenemos

1 2 3 5 20 20 30

6 12 12 36

7 7 28 84 obteniéndose una suma

∀ ∀i, j

ij j i·y ·n

x = 249. Ya podemos calcular los momentos:

a10 = 20 119 n · x 20 1 3 1 i i i =

= • = 5,95 a20 = 20 723 n · x 20 1 3 1 i i 2 i =

= • =36,15 m11 = a11–a10·a01 = 0,2525 a01 = 20 41 n · y 20 1 3 1 i j j =

= • = 2,05 a02 = 20 99 n · y 20 1 3 1 i j 2 j =

= • = 4,95 m20 = a20 – a10 2= 0,7475

(5)

a11 =

∀ ∀i, j ij j i·y ·n x 20 1 = 12,45 m10 = m01 = 0 m02 = a02 – a01 2 = 0,7475

El coeficiente de correlación sería: R =

7475 , 0 · 7475 , 0 2525 , 0

0,3378. Por tanto existe una correlación que puede considerarse pequeña entre las dos variables.

8º.- Razone brevemente sobre los conceptos de Casualidad, Causalidad y Especificación de modelos estadísticos. (Junio 2004)

Respuesta.- (Ver ejercicio 1º)

9º.- En una distribución de frecuencias para 2 variables (x, y), se ha obtenido la siguiente tabla de correlaciones: yi xj 1 2 3 TOTAL 0 3 0 1 4 3 0 4 2 6 5 1 1 6 8 TOTAL 4 5 9 18 Se pide:

a) Construya las distribuciones marginales de frecuencias de las variables x e y b) Calcule la media aritmética, la desviación típica y el coeficiente de variación de Pearson c) Calcule la covarianza de la distribución conjunta de ambas variables (Junio 2004)

Solución.- a) y b)

Distribución marginal de la x Distribución marginal de la y xj nj· xj·nj· xj2 xj2nj· yj n·i yj·n·i yj2 yj2n·i

0 4 0 0 0 1 4 4 1 4 3 6 18 9 54 2 5 10 4 20 5 8 40 25 200 3 9 27 9 81 18 58 254 18 41 105 x = a10 = 18 58 3,22 y= a01 = 18 41 2,28 2 x = a20 = 18 254 14,11 y2 = a 02 = 18 105 5,83 Sx = m20 = a20 −a102 ≅ 1,93 Sy = 2 01 02 02 a a m = − ≅ 0,80 CVx = x Sx 0,60 CVy = y Sy ≅ 0,35 c) Calculamos xj·yi·nji, yi xj 1 2 3 0 0 0 0 3 0 24 18 5 5 10 90 147

(6)

y sumando obtenemos

i, j ji i jy n x = 147, de donde 18 147 a y · x = 11= ≅ 8,17. Así pues, Cov(X,Y) = m11 = a11 – a10·a01≅ 0,83

10º.- La siguiente tabla de distribución de frecuencias indica, para 2 variables, la relación existente entre las ventas medias de un complejo turístico y las temperaturas medias observadas durante un conjunto de años.

Temperatura media durante el verano en grados centesimales (Xi) Ventas en euros de un complejo turístico (Yi) 25 6,5 27 7,0 30 9,0 28 8,5 31 9,0 30 8,2 Obtener:

a) Un diagrama o gráfico de dispersión

b) La recta de regresión entre la variable dependiente Yi y la independiente Xi(Jun. 2004-2ª)

Solución.-

a) Representaremos la nube de puntos:

6 6,5 7 7,5 8 8,5 9 9,5 24 25 26 27 28 29 30 31 32 Temperatura Ve n ta s

b) La recta de regresión entre la variable dependiente Yi y la independiente Xi es la recta

X/Y: x–a10 = 02 11 m m (y–a01) Temperatura media durante el verano en grados centesimales (Xi) Ventas en euros de un complejo turístico (Yi) Xi·Yi Xi2 25 6,5 162,5 625 27 7 189 729 30 9 270 900 28 8,5 238 784 31 9 279 961 30 8,2 246 900 171 48,2 1384,5 4899 a10 = 28,5 a11= 230,75 m11= 1,8 20 11 m m = 0,4235 a01= 8,03 a20= 816,5 m20 = 4,25

(7)

Luego la recta de regresión será: y – 8,03= 0,4235 (x – 28,5) y = 0,4235x – 4,0373 11º.- Se desea estudiar la repercusión que tienen los días de lluvia en la afluencia de visitantes a una determinada actividad turística; para ello se dispone de los siguientes datos medios:

Año Días de lluvia al año Miles de visitantes al año

1994 26 80 1995 30 85 1996 35 100 1997 45 120 1998 55 150 1999 45 140 2000 20 60 2001 15 35 2002 28 60 2003 40 100

a) Obtenga la recta de regresión que mejor explique el número de visitas anuales en función de los días de lluvia

b) Valore la bondad del ajuste, indicando sí puede considerarse la lluvia como una variable significativa para explicar la afluencia de público a la actividad turística analizada

c) Calcule los ingresos previstos para el año 2004 sí los meteorólogos prevén 60 días de lluvia y la entrada a la actividad cuesta 10 euros (Sep. 2004)

Solución.-

Considerando las variables X = “Días de lluvia al año” e Y = “Miles de visitantes al año”, de la tabla: xi yi xi2 yi2 xi·yi 26 80 676 6400 2080 30 85 900 7225 2550 35 100 1225 10000 3500 45 120 2025 14400 5400 55 150 3025 22500 8250 45 140 2025 19600 6300 20 60 400 3600 1200 15 35 225 1225 525 28 60 784 3600 1680 40 100 1600 10000 4000 339 930 12885 98550 35485

obtenemos los momentos:

a10 = 33,9

a01 = 93 m20=139,29

a11 = 3548,5 m02=1206

a20 = 1288,5 m11=395,8

a02 = 9855

a) La recta de regresión de Y/X:

(

x 33,9

)

29 , 139 8 , 395 93 y− = − ↔ y = 2,84x – 3,33

(8)

b) El coeficiente de determinación: R2 =

(

)

1206 · 29 , 139 8 , 395 2

0,93. Por lo tanto sí que puede considerarse la lluvia como una variable significativa para explicar la afluencia de público.

c) Haciendo x = 60 en el recta de regresión, se obtiene y = 167,1673, luego los ingresos previstos serían de 1671,67 €.

12.- Defina el concepto de Coeficiente de Correlación Lineal de Pearson y su significado

(Sep 2004. Res)

Respuesta.-

Consideremos una variable bidimensional (Xi, Yi), siendo Xi la variable independiente

(exógena) e Yi la dependiente (endógena). Sea y = a+bx la recta de regresión de Y/X. Tenemos

entonces las tres varianzas:

S2Y = m02, varianza de la variable Yi; S2Yt= varianza de la variable a+bXi, (varianza explicada por

la regresión); S2rY varianza de la variable Yi–a–bXi, (varianza residual). Se demuestra que

S2Y = S2Yt + S2rY

Llamamos coeficiente de determinación R2 a la proporción (tanto por uno) de varianza explicada que forma parte de la varianza de la variable:

R2 = 2 Yt 2 Y S S demostrándose que 2 2 11 20 02 m R m ·m = y, obviamente, 0 ≤ R2≤ 1. Llamamos coeficiente de correlación al cociente:

R = 11

20 02

m m · m

cumpliéndose que –1 ≤ R ≤ 1. Si es 1 ó –1, la varianza se compone exclusivamente de la varianza explicada, es decir, la varianza residual es nula y el ajuste de la nube de puntos a la recta de regresión es perfecto; si es cero entonces la varianza se compone exclusivamente de la varianza residual y la ecuación de regresión no es representativa.

13.- La siguiente tabla relaciona las ventas mensuales de una agencia de viajes mayorista (yj)

y el número de trabajadores contratados (xi) en distintos períodos de actividad (los meses que la

empresa tuvo 3 trabajadores contratados vendió, como media, 100.000 euros, cuando tuvo 4 vendió 125.000, etc.):

N° de trabajadores (xi) Ventas en miles de euros (y)

3 100 4 125 5 150 6 160 7 170

a) Ajuste una recta que exprese una relación causal entre ambas variables. b) Con la función obtenida en el apartado anterior, estime las ventas mensuales de la empresa si su plantilla pasa a ser de 9 trabajadores (Sep. 2004. Res)

(9)

N° de trabajadores (xi) Ventas en miles de euros (yi) xi2 yi2 xiyi 3 100 9 10000 300 4 125 16 15625 500 5 150 25 22500 750 6 160 36 25600 960 7 170 49 28900 1190 25 705 135 102625 3700

obtenemos los momentos

a10 = 5

a01 = 141 m20 = 2

a11 = 740 m11 = 35

a20 = 27

de donde la recta de regresión de Y/X:

y – 141 =

(

x 5

)

2

35

↔ y = 17,5x + 53,5

b) Haciendo x = 9 en la recta de regresión se obtiene y = 211 miles de euros.

14.- Una agencia de viajes ha comprobado experimentalmente que sus ventas (en miles de euros por semana) están relacionadas con el número de trabajadores disponibles para atender a la clientela; dispone a tal fin de los siguientes datos:

N° de trabajadores (Xi) Ventas (Yi) 5 20 6 25 7 29 8 33 9 37 10 41

Ajústese la función que mejor exprese la relación entre ambas variables y examínese su potencial de predicción. (Jun. 2005)

Solución.-

De la representación gráfica de la nube de puntos:

19 24 29 34 39 4 6 8 10 12

deducimos que la función que mejor expresa la relación entre ambas variables es una función lineal. Ajustaremos pues la recta de regresión de Y/X.

(10)

N° de trabajadores (Xi) Ventas (Yi) Xi2 Yi2 Xi·Yi 5 20 25 400 100 6 25 36 625 150 7 29 49 841 203 8 33 64 1089 264 9 37 81 1369 333 10 41 100 1681 410 45 185 355 6005 1460

deducimos los momentos:

a10 = 7,5 m1 1= 12,08

a01 = 30,83 m20 = 2,917

a11 = 243,33 m02 = 50,139

a2 = 59,17

a02 = 1000,83

y de aquí obtenemos la ecuación de la recta de regresión: y = 4,143x – 0,238 El coeficiente de determinación R2 = 02 20 2 11 m · m m

≅ 0,9984 nos indica que el potencial de predicción de la recta de regresión es elevado.

15.- Explique brevemente la teoría de la correlación y la teoría de la regresión estadística entre variables. (Junio 2005. 2ª)

Respuesta.-

En el caso de distribuciones de dos o más variables, la teoría de la correlación tiene por objeto determinar las relaciones de dependencia estadística y reflejarlas numéricamente, esto es, medir el grado de dicha dependencia.

La teoría de regresión tiene por objeto determinar qué función (lineal, cuadrática, logarítmica, exponencial,….) se ajusta mejor a los valores dados para explicar la dependencia estadística.

16.- Una compañía quiere realizar un estudio sobre la influencia del gasto en I+D sobre sus ventas. Para ello dispone de los siguientes datos sobre los últimos años;

Años Gastos millones Ventas millones

1998 3,0 130

1999 3,3 155

2000 3,8 175

2001 4,2 210

a) Realice un gráfico de dispersión.

b) Obtenga un modelo lineal que permita predecir las ventas a partir de los gastos en I+D. Comente los resultados.

c) Prediga las ventas del 2002 sabiendo que el gasto en I+D será de 4,5 millones. d) Juzgue la bondad del modelo estimado. (Jun. 2005. 2ª)

Solución.-

(11)

125 135 145 155 165 175 185 195 205 215 2,5 3 3,5 4 4,5 Gastos Ve n ta s b) Construimos la tabla:

Años millones Gastos millones xVentas i2 yi2 xiyi

1998 3 130 9 16900 390

1999 3,3 155 10,89 24025 511,5

2000 3,8 175 14,44 30625 665

2001 4,2 210 17,64 44100 882

14,3 670 51,97 115650 2448,5

de donde obtenemos los momentos. a10 = 3,575

a01 = 167,5 m20 = 0,211875

a11 = 612,125 m02 = 856,25

a20 = 12,9925 m11 = 13,3125

a02 = 28912,5

y de aquí la recta de regresión de Y/X:

y – 167,5 =

(

x 3,575)

)

212 , 0 31 , 13 ↔ y = 62,832x – 57,124

c) La predicción de ventas para el año 2002 la obtendremos sustituyendo en la recta de regresión, la x por 4,5, obteniéndose unas ventas aproximadas de 225,62 millones de €.

d) El coeficiente de determinación resulta: R2 =

02 20 2 11 m · m m

≅ 0,977, lo cual establece que la ecuación de la recta de regresión es suficientemente representativa.

(12)

(Sep 2005) Solución.- Construimos la tabla: xi yi xi2 yi2 xiyi 7 60 49 3600 420 8 64 64 4096 512 9 67 81 4489 603 10 70 100 4900 700 11 72 121 5184 792 55 195 3025 38025 10725 100 528 3440 60294 13752

De donde obtenemos los momentos:

a10 = 16,67 m11 = 825,33

a01 = 88 m20 = 295,56

a11 = 2292 m02 = 2305

a20 = 573,33

a02 = 10049

y de aquí la ecuación de la recta de regresión de Y/X:

(

x 16,67

)

56 , 295 33 , 825 88 y− = − ↔ y = 2,79x + 41,46

sustituyendo x por 25, se obtiene: y = 111,27, es decir, corresponderían unas ventas de 110270 €. El coeficiente de determinación R2 =

(

)

2305 · 56 , 295 33 , 825 2

0,9999 lo que significa que el ajuste de la recta de regresión a la nube de puntos es prácticamente perfecto

(Sep 2005. Res)

Solución.-

(13)

xi yi xi2 yi2 xiyi 20 200 400 40000 4000 a10 = 20,29 25 240 625 57600 6000 a01 = 245,71 m11 = 365,51 24 400 576 160000 9600 a11 = 5350,00 m20 = 21,35 23 350 529 122500 8050 a20 = 432,86 m02 = 9481,63 20 200 400 40000 4000 a02 = 69857,14 20 250 400 62500 5000 10 80 100 6400 800 142 1720 3030 489000 37450 de donde obtenemos:

La ecuación de la recta de regresión: y – 245,71 =

(

x 20,29

)

35 , 21 51 , 365 y = 17,122x – 101,63

b) Haciendo en la recta de regresión x = 27 → y ≅ 360,66 millones.

c) El coeficiente de determinación: R2 = 63 , 9481 · 35 , 21 51 , 365 2

≅ 0,66 lo que significa que el ajuste es deficiente, de forma que la predicción realizada no es fiable.

19. Defina el coeficiente de determinación y el coeficiente de correlación de Pearson. (Jun 06). Respuesta.- Coeficiente de determinación R2 = 02 20 2 11 m · m m

, donde m11 es la covarianza de la variable

bidimensional (X,Y) , m20 es la varianza de la variable X y m02 es la varianza de la variable Y.

Coeficiente de correlación: R = 02 20 11 m · m m

20. Una determinada empresa dispone en sus registros de los siguientes datos que relacionan el gasto semanal en publicidad con la cifra de ventas de un determinado período (en ambos casos los datos se presentan en miles de euros):

Obtener una recta de regresión que permita predecir las ventas futuras en función del gasto realizado en publicidad y valorar la calidad de dichas predicciones. (Jun 06)

Solución.- De la tabla: xi yi xiyi xi2 yi2 20 200 4000 400 40000 25 240 6000 625 57600 24 400 9600 576 160000 23 350 8050 529 122500 20 200 4000 400 40000 20 250 5000 400 62500 10 80 800 100 6400 142 1720 37450 3030 489000

(14)

a10= 20,29 a11= 5350,00 a20= 432,86 m11= 365,51 m02= 9481,63

a01= 245,71 a02= 69857,14 m20= 21,35

La recta de regresión de Y/X:

(

x 20,29

)

35 , 21 51 , 365 71 , 245 y− = − ↔ y = 17,12x – 101,63 El coeficiente de determinación: R2 = 63 , 9481 · 35 , 21 51 , 365 2

≅ 0,66 lo que significa que el ajuste es deficiente, de forma que las predicciones realizadas no serían fiables.

21. Defina, con carácter general, los momentos respecto a la media y respecto al origen en una distribución bidimensional de frecuencias; indique el significado de los momentos respecto al origen a10 y a01 y de los momentos respecto a la media m10 y m01 (Jun 06, 2ª)

Respuesta.-

Dada la variable bidimensional (X, Y) = {(xi, yj), i=1,…,r, j=1, …, s}, se define:

Momento de orden p, q respecto del origen: apq =

= = s , r 1 j , 1 i ij q j p i y n x N 1

Momento de orden p, q respecto de las medias: mpq =

(

)

(

)

= = − − s , r 1 j , 1 i ij q 01 j p 10 i a y a n x N 1 Los momentos a10 =

= = s , r 1 j , 1 i i ij n x N 1 y a01 =

= = s , r 1 j , 1 i j ij n y N 1

son respectivamente las medias de las distribuciones marginales de la X y de la Y.

Los momentos m10 y m01, no tienen ningún significado pues valen cero para cualquier

distribución.

22. Los datos siguientes corresponden al número de personas que han entrado en un espectáculo que ha variado sucesivamente el precio de las entradas:

X (Precio en euros) 5 10 15 20 25

Y (Nº de personas) 72 66 70 62 64 Se pide:

a) El diagrama de dispersión.

b) Plantear una regresión lineal que explique la relación causal entre X e Y y estimar sus parámetros.

c) Utilizando la recta de regresión obtenida en el apartado anterior, calcular cuántas personas asistirán al espectáculo si las entradas cuestan 30 euros. (Jun 06 2ª)

Solución.-

a) Representamos el diagrama de dispersión (la nube de puntos):

60 62 64 66 68 70 72 74 0 5 10 15 20 25 30

(15)

b) Construimos la tabla: xi yi xi2 yi2 xiyi 5 72 25 5184 360 10 66 100 4356 660 15 70 225 4900 1050 20 62 400 3844 1240 25 64 625 4096 1600 75 334 1375 22380 4910

de donde obtenemos los momentos:

a10 = 15 a20 = 275 m11 = –20

a01 = 66,8 a02 = 4476 m20 = 50

a11 = 982 m02 = 13,76

y la recta de regresión de Y/X: y – a01 = 20 11 m m (x – a01) sería: y – 66,8 = 50 20 − (x – 15) y simplificando : y = –0,4x + 72,8

c) Sustituyendo x = 30 en la recta de regresión, obtenemos una estimación de las personas que asistirán al espectáculo:

y = –0,4·30 + 72,8 = 60,8 ≅ 61 personas El coeficiente de determinación R2 = 02 20 2 11 m · m m

0,58 luego, al ser menor que 0,85, no podemos considerar fiable la estimación realizada.

(Sep 06) Solución.-

(16)

(Sep 06 res)

(17)

(Jun 07)

(18)

Número de trabajadores (Xi) Ventas (Yi) 5 20 6 25 7 29 8 33 9 37 10 41 (Sep 07) Solución.-

a) Ajustaremos la recta de regresión de Y/X, para lo que calcularemos los momentos bidimensionales correspondientes: xi yi xiyi xi2 5 20 100 25 6 25 150 36 a10 = 7,5 7 29 203 49 a01 = 30,83 m11 = 12,08 8 33 264 64 a11 = 243,33 m20 = 2,92 9 37 333 81 a20 = 59,17 10 41 410 100 45 185 1460 355 de donde obtenemos:

La ecuación de la recta de regresión: y – 30,83 =

(

x 7,5

)

92 , 2 08 , 12 ↔ y = 4,14x – 0,24

b) Las diferencias ei entre los valores de las ventas reales yi y los obtenidos con la recta de

(19)

xi yi yit ei 5 20 20,48 –0,48 6 25 24,62 0,38 7 29 28,76 0,24 8 33 32,90 0,10 9 37 37,05 –0,05 10 41 41,19 –0,19 (Sep 07 Res) Solución.-

a) Ajustaremos la recta de regresión de Gastos (xi)/Ventas (yi), para lo que calcularemos los

momentos bidimensionales correspondientes:

xi yi xi2 yi2 xiyi 3,0 130 9,00 16900 390 a10 = 3,58 3,3 155 10,89 24025 511,5 a01 = 167,50 m11 = 13,31 3,8 175 14,44 30625 665 a11 = 612,13 m20 = 0,21 4,2 210 17,64 44100 882 a20 = 12,99 m02 = 856,25 14,3 670 51,97 115650 2448,5 de donde obtenemos: a02 = 28912,50

La ecuación de la recta de regresión: y – 167,5 =

(

x 3,58

)

21 , 0 31 , 13 ↔ y = 62,83x – 57,12

b) Haciendo en la recta de regresión x = 4,5 → y ≅ 225,62 millones.

c) El coeficiente de determinación: R2 = 25 , 856 · 21 , 0 31 , 13 2

≅ 0,977 lo que significa que un 97,7% de la varianza está explicada por la regresión por lo que el ajuste entre la ecuación estimada y la nube de puntos es casi perfecto.

29. Relación entre los momentos respecto del origen y los momentos respecto de la media en una distribución bidimensional. (Jun 08)

Respuesta.-

Para una variable bidimensional (X, Y) = {(xi, yj), i=1,…,r, j=1, …, s}, se define:

Momento de orden p, q respecto del origen: apq =

= = s , r 1 j , 1 i ij q j p i y n x N 1

Momento de orden p, q respecto de las medias: mpq =

(

)

(

)

= = − − s , r 1 j , 1 i ij q 01 j p 10 i a y a n x N 1

(20)

En el proceso de la regresión lineal intervienen exclusivamente los momentos respecto del origen a10, a01, a11, a20, a02 y los momentos respecto de la media m11, m20 y m02. Desarrollando estos

últimos podemos comprobar que se cumple: m11= a11 – a10·a01

m20 = a20 – a102

m02 = a02 – a201

(Jun 08)

Solución.-

a) Llamaremos X (variable independiente) al precio e Y (variable dependiente) al número de visitantes De la tabla: xi yi xi2 yi2 xiyi 50 50 2500 2500 2500 a10 = 69,25 62 48 3844 2304 2976 a01 = 41,25 m11 =–171,31 70 44 4900 1936 3080 a11 = 2685,25 m20 = 271,69 95 23 9025 529 2185 a20 = 5067,25 m02 = 115,69 277 165 20269 7269 10741

obtenemos los momentos:

a02 = 1817,25

con lo que obtenemos la recta de regresión:

y – 41,25 =

(

x 69,25

)

69 , 271 31 , 171 y = –0,6305x + 84,916 b) El coeficiente de determinación R2 =

(

)

69 , 115 · 69 , 271 31 , 171 2 −

0,9337 lo que significa que un 93,37% de la varianza está explicada por la regresión por lo que la ecuación estimada se ajusta bastante bien a la nube de puntos.

c) Haciendo x = 75 en la recta de regresión, se obtiene y = –0,6305·75 + 84,916 = 37,62 , es decir, podemos esperar unos 38 visitantes.

(21)

(Sep 08) Solución.- a) De la tabla: xi yi xi2 yi2 xiyi 10 75 100 5625 750 15 60 225 3600 900 22 52 484 2704 1144 33 45 1089 2025 1485 50 25 2500 625 1250 130 257 4398 14579 5529 obtenemos los momentos:

a10 = 5 130 26 m20 = a20 – a102 = 203,6 a01= 5 257 = 51,4 m02 = a02 – a012 = 273,84 a20 = 5 4398 = 879,6 m11 = a11– a10·a01 = –230,6 a02 = 5 14579 = 2915,8 a11= 5 5529 = 1105,8

La recta de regresión de Y/X:

y – 51,4 =

(

x 26

)

6 . 203 6 , 230 − ↔ y = –1,13x + 80,85

b) La bondad del ajuste la verificaremos mediante el coeficiente de determinación R2 =

= 02 20 2 11 m m m =

(

)

≅ 84 , 273 · 6 , 203 6 , 230 2

0,9538, lo que significa un ajuste del 95% y, por lo tanto, la recta de regresión es adecuada para realizar estimaciones.

c) Sustituyendo x = 42 en la recta de regresión se obtiene y ≅ 33,28

32. Defina el concepto de coeficiente de determinación y explique qué valores que puede tomar éste. (Sep 08 Res)

Respuesta.-

En una distribución bidimensional sabemos que la varianza 2 y

S de la variable yi, es igual a la

suma de la varianza 2 yt

(22)

2 y S = 2 yt S + 2 ry S Es decir, una parte de la varianza 2

y

S está explicada por la regresión y otra parte es residual. Dividiendo ambos miembros de esta ecuación por 2

y

S obtendríamos las respectivas porciones, en tanto por uno (en % multiplicándolas por 100):

2 y 2 rt 2 y 2 yt S S S S 1= +

Se llama coeficiente de determinación R2 a la porción de varianza explicada por la regresión:

2 y 2 yt 2 S S R =

De acuerdo con la igualdad 2

y 2 rt 2 y 2 yt S S S S

1= + , su valor está comprendido entre 0 y 1.

Puesto que 20 2 11 2 yt m m S = y 2 02 y m S = , se tiene que 02 20 2 11 2 m m m R = . (Jun 09) Solución.- De la tabla: xi (Precio) (Nº habitaciones)yi xi2 yi2 xiyi 100 25 10000 625 2500 90 35 8100 1225 3150 75 50 5625 2500 3750 65 55 4225 3025 3575 50 60 2500 3600 3000 380 225 30450 10975 15975

obtenemos los momentos:

a10 = 76 m20 = 314

a01 = 45 m02 = 170

a20 = 6090 m11 = –225

a02 = 2195

a11 = 3195

a) El modelo lineal viene dado por la recta de regresión de Y/X:

(

x 76

)

314 225 45

(23)

b) El coeficiente de determinación: R2 =

(

)

170 · 314 225 2 −

≅ 0,9484. Al ser próximo a la unidad significa que la recta de regresión se ajusta bien a la nube de puntos de manera que puede utilizarse para hacer predicciones.

c) Haciendo x = 30 en la recta de regresión se obtiene y = 77,961 ≅ 78 habitaciones.

(Sep 09) Solución.- a) Construimos la tabla: xi yi xi2 yi2 xiyi 5 2500 25 6250000 12500 7 2300 49 5290000 16100 9 2000 81 4000000 18000 10 1850 100 3422500 18500 12 1800 144 3240000 21600 15 1750 225 3062500 26250 58 12200 624 25265000 112950 de donde obtenemos los momentos:

a10=9,67 m20=10,56

a01=2033,33 m02=76388,89

a20=104,00 m11=−830,56

a02=4210833,33

a11=18825,00

y la recta de regresión de Y/X:

y = –78,68x + 2793,9

b) El coeficiente de determinación R2 = 0,86. Podemos considerar que el ajuste suficientemente alto pues R2 > 0,85.

c) Haciendo x = 8 en la recta de regresión se obtiene 2164,47, que podemos redondear a 2165 visitantes.

Referencias

Documento similar