Porcentaje de Página nacidos 1 de 7 en el municipio

Texto completo

(1)

Examen de la asignatura "Estadística aplicada a las ciencias sociales" Profesor Josu Mezo. 13 de julio de 2007.

Instrucciones:

- Puedes responder a las preguntas en el orden que quieras, pero indica claramente a cuál estás respondiendo en cada caso.

- En los problemas donde debes hacer un cálculo, explica el procedimiento que sigues, la fórmula que aplicas (expresada matemáticamente o con palabras), los pasos que vas dando al elaborar tu respuesta, etc.. Así podré comprobar que sabes cómo se hacen las cosas (que es lo que importa), aunque, en su caso, puedas cometer algún pequeño error de cálculo.

- El examen tiene 9 preguntas,en cuatro páginas, con una puntuación total de 100 puntos. En cada pregunta te indico su peso en la puntuación total, para que puedas distribuir tu tiempo y atención teniendo en cuenta la importancia relativa de cada una.

Recordatorio de fórmulas [las omito] Pregunta nº 1 (5 puntos).

Clasifica las siguientes variables según sean de escala nominal, ordinal, o de intervalo, y en el último caso, según sean discretas o continuas (en el sentido “práctico”, no en el sentido teórico de la expresión). Se trata de variables derivadas de una encuesta sobre temas ambientales: a) Número de coches que tiene la familia del encuestado Intervalo- discreta

b) Ingresos familiares aproximados (en euros) Intervalo-continua

c) Grado de satisfacción con el servicio municipal de basuras (muy bueno, bueno, regular, malo, muy malo) Ordinal

d) Partido político al que vota Nominal

e) Opción, entre una lista de cuatro problemas amientales (cambio climático, contaminación del agua, contaminación del aire, desertización), sobre cuál es el más grave en España. Nominal

Pregunta nº 2 (10 puntos)

El gráfico siguiente representa los 285 municipios de Castilla-La Mancha, distribuidos según el porcentaje de los vecinos que han nacido en el mismo municipio (por tramos de cinco en cinco puntos, el valor que aparece en el eje horizontal es el límite superior de cada tramo). A) ¿Cómo se llama ese tipo de gráfico? B) Explica qué es lo que se aprende al ver este gráfico.

A) Es un histograma 0 5 10 15 20 25 30 35 40 45 50 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 N ú m e ro d e m u n ic ip io s

(2)

B) Lo que vemos es que en la mayor parte de los municipios de Castilla-La Mancha, la mayoría de su población ha nacido allí.

Más concretamente, podemos ver que el valor más común (la moda) es que entre el 60 y el 65% de la población del municipio haya nacido allí, lo que sucede en unos 42 municipios.

Los demás pueblos se distribuyen más o menos por igual en valores por encima y por debajo, de forma que si aumentamos la horquilla a los pueblos en los que ha nacido en el mismo pueblo entre el 50 y el 70% de la población, tendremos unos 125 pueblos, casi la mitad del total.

Y entre el 45% y el 75% tendríamos ya unos 165 pueblos, más de la mitad.

La “cola” del gráfico hacia la izquierda indica que hay unos cuantos pueblos (unos 40,

aproximadamente un séptimo de los pueblos) donde menos del 30% de la población ha nacido en el pueblo.

Pregunta nº 3 (21 puntos)

La siguiente tabla presenta la distribución del número de asignaturas aprobadas por los alumnos en el primer semestre del primer curso de una carrera. Calcula

Número de asignaturas Número de alumnos a) La media 0 15 b) La desviación típica 1 7 c) El coeficiente de variación 2 16 d) La mediana

3 21 e) El primer y tercer cuartil

4 32 f) El rango intercuartílico

5 24 g) La moda

6 15

Número asignaturas

Alumnos Valor *Fi

(valor-media)al cuadrado*Fi Frecuencia acumulada Frec. Acumulada relativa 0 15 0 171,4 15 0,115 1 7 7 39,7 22 0,169 2 16 32 30,5 38 0,292 3 21 63 3,0 59 0,454 4 32 128 12,3 91 0,7 5 24 120 63,0 115 0,885 6 15 90 103,0 130 1 Suma 130 440 422,9 Media 440/130= 3,38

(3)

Varianza 422,9/130= 3,25 Desv típica raiz(3,25)=

1,80 a) La media: 3,38

b) La desviación típica: 1,80

c) El coeficiente de variación: 1,80/3,38=0,533

d) La mediana: es el valor 4, que es el que tiene la frecuencia relativa acumulada 0,50 e) Primer cuartil es el valor 2 (frec. Relativa acumulada 0,25)

Tercer cuartil: es el valor 5 (frec. Relativa acumulada 0,75) f) Rango intercuartílico: 3 (5-2)

g) La moda es 4 (el valor más común, el que más alumnos tienen) Pregunta nº 4 (4 puntos) Responde y explica tus respuestas:

a) Si calculáramos la media y la mediana de los datos del gráfico de la pregunta 2 ¿cuál tendría un valor más alto?

Tendría un valor más alto la mediana, ya que la media, por efecto de la “cola hacia la izquierda” tiende a tener un valor más bajo que la mediana y la moda

b) ¿Y cuál de las dos sería más “representativa” de la serie de datos?

Al ser una distribución asimétrica, la mediana suele ser un valor más representativo de la serie de datos, es decir, que se parece más a la mayoría de los valores. En este caso concreto, de hecho, se puede calcular sumando los valores aproximados de cada barra, que la mediana está probablemente en torno al valor 50-55 ó 55-60, que es un valor muy común y en torno al cual están la mayoría de los valores.

La media, en cambio, será más baja, y más alejada de la mayoría de los valores. Pregunta nº 5 (20 puntos)

El gráfico siguiente representa el número de incendios (de más de una hectárea) que ha habido en España cada año, entre 1992 y 2005, y la línea de tendencia (en línea recta más fina), acompañada de la ecuación que expresa la tendencia (y = 50,108x + 7261,3).

a) Explica la información que obtienes al ver el gráfico sobre la evolución del número de incendios en España en los últimos años

b) Teniendo en cuenta que el año 0 sería 1991; ¿cuál sería la predicción de la línea de tendencia para el año 2007? ¿Y para 2015?

c) ¿Es esperable que esas predicciones se parezcan mucho a la realidad? Explica tu respuesta. A) El gráfico muestra que el número de incendios anuales varía bastante de un año a otro, con valores que normalmente están entre los 6.000 y 8.000, pero con mínimos de poco más de 4.000 y máximos de 10.000 (que hay que suponer que se deben a la meteorología). Mirando la evolución temporal no parece haber una tendencia fuerte de cambio, ya que la tendencia es de muy suave crecimiento (lo que se manifiesta en la ligera pendiente creciente de la línea recta que expresa la tendencia).

(4)

b) El año 2007 sería el año (2007-1991=)16 de la serie, por tanto la predicción sería : 7.261,3 + (50,108*16)=8.063 incendios

Y el año 2015 sería el año (2015-1991=)24 de la serie, por tanto la predicción sería : 7.261,3 + (50,108*24)=8.464 incendios

c) No es demasiado probable que la predicción de la línea de tendencia se parezca mucho a la realidad, ya que el elemento irregular (la oscilación anual) es muy fuerte. De modo que el número de incendios de un año concreto puede variar mucho respecto a la línea de tendencia (puede ser con toda facilidad 2.000 unidades superior o 2.000 unidades superior a lo previsto por la línea de tendencia). Puede pasar que “acertemos” pero sería casi por casualidad, porque las variaciones en torno a la tendencia son muy fuertes.

Pregunta nº 6 (6 puntos)

¿Qué es el error muestral? Explícalo con un ejemplo.

El error muestral es el error “normal” que se produce al hacer una encuesta, aunque sea por el método más riguroso y cuidadoso, y se obtenga una muestra perfectamente aleatoria. El método de muestreo aleatorio nos permite saber que la muestra no se apartará mucho de la población, e incluso nos permite calcular, dado un grado de probabilidad, cuanto se apartará la muestra de la población. Esa distancia entre el valor obtenido en la muestra y el valor en la población, debido al mero efecto del azar que se produce al elaborar una muestra, es el error muestral.

Ejemplo: si hacemos una encuesta en una población en la que el 40% de las personas van a votar al partido A, la estadística nos permite calcular que, por ejemplo, con el 95% de

probabilidad, nuestra muestra no se apartará más del 3% del valor real en la población, es decir, que con un 95% de probabilidades, el porcentaje de personas en la muestra que dirá que va a votar al partido A estará entre el 37% y el 43%. El error muestral es esa diferencia que sabemos que puede haber entre el valor real en la población y el valor muestral.

Pregunta nº 7 (10 puntos)

Según un estudio (imaginario) el número medio de cigarrillos que fuman al día las personas que fuman en España es de doce, con una desviación típica de ocho. Suponiendo que la

y = 50,108x + 7261,3 0 2000 4000 6000 8000 10000 12000 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005

(5)

distribución de esa variable fuera normal, y utilizando, cuando sea necesario, la tabla de probabilidades de los valores de z en una distribución normal estándar, que tienes reproducida al final del examen, calcula

a) ¿Qué proporción de los fumadores fuma más de quince cigarrillos al día?

Primero estandarizamos el valor: (15-12/8)=3/8=0,375

El valor z de quince cigarrillos es 0,375, que redondeamos a 0,38

Con la tabla del final averiguamos que en una distribución normal la proporción de los casos con valores z<0,38 es 0,6480

Por lo tanto, la proporción con valores mayores es (1-0,6480)= 0,352, es decir, en esa hipotética población el 35,2% de los fumadores fumaría más de 15 cigarrillos diarios

b) ¿Qué proporción fuma entre seis y ocho cigarrillos?

Estandarizamos los valores 6 y 8 6-12/8=-6/8=-0,75

8-12/8=-4/8=-0,5

La P (z<-0,75) es igual a (ver tabla): 1-0,7734=0,2266 La P(z<-0,5) es igual a (ver tabla): 1-0,6915=0,3085

Por tanto si los que fuman menos de 6 son el 0,2266 y los que fuman menos de 8 son el 0,3085, los que fuman entre 6 y 8 son: 0,3085-0,2266=0,0819, o el 8,19%

c) ¿Qué proporción de los fumadores fuma menos de doce cigarrillos al día?

La media es 12, y como es una distribución normal es también la mediana, de manera que justamente la mitad fumarán menos de 12 cigarrillos al día.

d) ¿Qué número de cigarrillos fuma, al menos, el 10% de los fumadores que más fuma?

En la tabla vemos que el valor z cuya probabilidad acumulada es 0,9 es 1,28 Transformando ese valor a nuestra serie sería (1,28*8)+12=22,24

El 10% que más fuma fuma más de 22,2 cigarrillos al día Pregunta nº 8 (14 puntos)

Una empresa con 3.500 trabajadores ha realizado un estudio sobre el absentismo laboral y las bajas por enfermedad, con una muestra aleatoria de 300 trabajadores. En el estudio ha

encontrado que el número de horas perdidas por trabajador cada año es como media de 24, con una desviación típica de 6 horas. Calcula:

a) El error típico de estimación

Por tratarse de una muestra muy grande en relación a la población aplicaremos la fórmula modificada del ETE.

Es decir, a la fórmula normal (desviación típica en la muestra/raíz de n) la modificaremos teniendo en cuenta la proporción de la población que ha sido estudiada

Si fuera una población más grande la fórmula usada sería simplemente: 6/raiz(300)=6/17,32=0,346

Pero lo multiplicamos por un factor de corrección que es raiz(1-f), donde f es la proporción que representa la muestra sobre la población, es decir 300/3500=0,086

raiz(1-f)=raiz(1-0,086)=raiz(0,914)=0,956 Por tanto el ETE será 0,346*0,956=0,331

b) El intervalo de confianza, con un nivel de confianza del 95,5%, para el número medio de horas perdidas por los trabajadores de la empresa.

Una vez obtenido el ETE, el intervalo de confianza, para el 95,5% de confianza, es el valor medio obtenido más/menos dos veces el ETE, es decir: 24±(2*0,331)=24±0,662= entre 23,338 y 24,662.

(6)

El 95,5 % de los trabajadores habría faltado al trabajo entre 23,34 y 24,66 horas. Pregunta nº 9 (10 puntos)

Se publican dos encuestas realizadas por dos medios de comunicación en los mismos días, con resultados bastante diferentes. El medio A, que ha hecho una encuesta con una muestra de 1.300 entrevistados, da una intención de voto al partido X del 43%, mientras que el medio B, con una muestra de 650 entrevistados, da una intención de voto al mismo partido X del 38%. ¿Es posible que las dos encuestas estén correctamente hechas, y las diferencias se deban al azar? ¿O tenemos motivos para sospechar que la selección de los entrevistados no se ha hecho correctamente (aleatoriamente) o que de algún otro modo las encuestas se han apartado del procedimiento estandarizado de una buena encuesta?

Lo que vamos a hacer es una comparación de poblaciones, esto es, hacer un test estadístico para ver si podemos descartar o no que ambas encuestas vengan de la misma población.

La hipótesis nula supone que ambas encuestas proceden de la misma población, en la cual la proporción de votantes del partido A sería una media ponderada de las proporciones obtenidas en las dos encuestas

Haremos una comparación bilateral, porque no tenemos ninguna razón para pensar que una u otra encuesta debía haber dado un resultado mayor o menor

H0=Pt=p1=p2=[(n1*p1)+(n2*p2)]/(n1+n2)=[(1.300*0,43)+(650*0,38)]/(1300+650)=(559+247)/19 50=0,413

Ahora vamos a calcular si la diferencia entre las proporciones obtenidas y la predicha por la hipótesis nula es demasiado grande para ser explicable por el azar.

Calculamos el valor z de la diferencia: z=(p1-p2)/raiz(pt*(1-pt)*[(1/n1)+(1/n2)])

z=(0,43-0,38)/raiz(0,413*0,587*[(1/1300)+(1/650)])= (-0,05)/raiz(0,413*0,587*(0,000769+0,0015))= -0,05/raiz(0,413*0,587*0,002269)=

-0,05/raiz(0,000559)=-0,05/0,0236=-2,118

El valor z nos sale -2,118, que redondeamos a -2,12

En la tabla de las probabilidades de los valores z vemos que la probabilidad de un valor de z<-2,12 es (1-0,9826)=0,0174

La probabilidad de un valor z mayor que 2,12 sería la misma, por lo tanto, en conjunto, la probabilidad de obtener un valor z >|2,12| es (0,0174*2)=0,0348, que es menor que 0,05 De manera que, si nuestro contraste de poblaciones lo estamos haciendo con un margen de confianza del 95%, podemos descartar la hipótesis nula, porque la probabilidad de que se den resultados tan distintos haciendo dos encuestas como esa en una misma población es menor que 0,05 (o el 5%). Es decir, podríamos decir, con un 95% de confianza, que esas dos encuestas no están correctamente hechas, no han sido hechas por los procedimientos aleatorios ordinarios, porque los resultados son demasiado distintos como para venir de una misma población.

(7)

En cambio, si queremos estar seguros al 99% no lo podemos decir, porque la probabilidad de obtener un resultado así haciendo dos encuestas a la misma población es mayor del 1%

Áreas bajo la curva normal estándar. Los valores de la tabla que no se muestran en negrita representan la probabilidad de observar un valor menor o igual al valor correspondiente de z

Segunda cifra decimal del valor de z

z 0.00 .01 .02 .03 .04 .05 .06 .07 .08 .09 0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359 0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753 0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141 0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517 0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879 0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224 0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549 0.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852 0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133 0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389 1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621 1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830 1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015 1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177 1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319 1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441 1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545 1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633 1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706 1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767 2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817 2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857 2.2 .9861 .9864 .9868 .9871 .9875 .4878 .9881 .9884 .9887 .9890 2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916 2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936 2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952 2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964 2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974 2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981 2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986 3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990 3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993 3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995 3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997 3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998

Figure

Actualización...

Referencias

Actualización...

Related subjects :