• No se han encontrado resultados

Prácticas y problemas básicos de Inferencia Estadística.

N/A
N/A
Protected

Academic year: 2021

Share "Prácticas y problemas básicos de Inferencia Estadística."

Copied!
10
0
0

Texto completo

(1)

Prácticas y problemas básicos de

Inferencia Estadística.

En este capítulo se proponen diferentes prácticas y problemas con el objetivo de repasar la estadística descriptiva de una variable unidimensional, los principales modelos de pro-babilidad univariante, y los intervalos de con…anza y test de hipótesis relativos a una y dos muestras. Para el desarrollo de las prácticas y resolución de los problemas es necesario utilizar un programa estadístico. La teoría correspondiente a los problemas de este capítulo puede verse en el Capítulo 1 del texto de teoría y un estudio más detallado de los conceptos y técnicas estadísticas utilizados puede consultarse en Cao, R. y otros (2001) u otro texto de estadística general básica.

1.1.

Estadística descriptiva de una variable.

Objetivo de la práctica:“Se genera una muestra aleatoria con dos variables, la primera es la variable de interés que sigue una distribución normal y la segunda es una variable de clasi…cación. Se hace el estudio descriptivo (analítico y grá…co) de la variable de interés”.

Desarrollo:

1. Generar una muestra de500observaciones de una variableX que sigue una distribu-ciónN 100;102 :(Comandornormal).

2. Calcular los estadísticos básicos. Utilizar el análisis

descripcion > datos numericos >analisis unidimensional

3. Estudiar los estadísticos básicos de esta muestra y comprobar si son adecuados para el modelo simulado.

4. Estudiar la tabla de frecuencias y el diagrama de representación de tallo y hojas: (diagrama de tallo y hojas).

(2)

5. Calcular e interpretar los siguientes grá…cos que permiten conocer la distribución de la muestra:

- Grá…co de puntos (graficos de dispersion). - Grá…co de cajas (grafico de cajas y bigotes). - Histograma.

- Grá…co de quantiles.

- Suavizado de la densidad (densidad suavizada). - Grá…co de simetría.

- Grá…co de la serie en función del índice, ésto es, xtfrente at: Utilizar el análisis

graficos > graficos de dispersion > grafico unidimensional

6. Generar una variable de clasi…caciónCde forma que los 100 primeros valores formen la clase “1”, los 100 siguientes la “2”, los 100 siguientes la “3”, los 100 siguientes la “4” y los 100 últimos la “5”. Utilizar el comando (rep: repeat).

7. Calcular los estadísticos básicos de la muestra según la clase C. Utilizar el análisis

descripcion > datos numericos > analisis de subgrupo

Fijarse en la tabla que compara las medias de la variable X según la clase C a la que pertenecen los valores muestrales.

8. Este análisis proporciona diferentes grá…cos que permiten comparar la variable X

según la claseC : comparar medidas de centralización (media y mediana), medidas de dispersión (desviación típica y rango) y la distribución de X según la clase C:

Son los siguientes:

- Plot de puntos (graficos de dispersion). - Grá…co de medias.

- Grá…co de medianas.

- Grá…co de desviaciones típicas. - Grá…co de rangos.

- Grá…co de cajas múltiple.

Algunos de estos grá…cos y otros de menor interés se encuentran en el apartado:

graficos exploratorios.

Repetir la práctica anterior con las siguientes variaciones:

La muestraXproviene de una distribución no normal, por ejemplo, una exponencial (comando rexponential) o de una distribución gamma (rgamma).

(3)

Utilizando los datos del …cherocoches( …chero problema-2-2que contiene datos de coches que proporciona el paquete Statgraphics), estudiar la variablempg (“miles per galon”, inversa del consumo) y/o la variable price (“precio de los coches”), utilizando como variable de clasi…caciónorigin (“origen de los coches”que toma los valores: Japan, U.S.A. y Europe).

1.2.

Modelos de probabilidad.

Objetivo de la práctica:“Con la ayuda del paquete estadístico se revisan los principales modelos de distribución, su función de probabilidad o de densidad y su función de distribución, así como la generación de muestras aleatorias”.

Desarrollo:

En el apartado de Statgraphics

descripcion >distribuciones > distribuciones de probabilidad

se pueden estudiar 24 funciones de distribución muy utilizadas. El apartado ofrece las siguientes posibilidades:

- Trabajar con cinco modelos de probabilidad del mismo tipo. - Calcular la función de distribución de los modelos seleccionados.

- Calcular la inversa de la función de distribución de los modelos seleccionados. (En estos dos últimos apartados se puede obtener la misma información que propor-cionan las tablas estadísticas de funciones de distribución).

- Calcular muestras aleatorias de los modelos seleccionados sin necesidad de utilizar comandos.

- Obtener grá…cas de las funciones de densidad, distribución y razón de fallo, entre otras, de los modelos seleccionados.

En este texto se utilizan básicamente los siguientes modelos de probabilidad relaciona-dos con las técnicas clásicas de inferencia estadística:

- Normal. - Chi-cuadrado. - t de Student. - F de Fisher.

Conviene tener un conocimiento básico de estas distribuciones. Para ello, utilizando este módulo, desarrollar la siguiente práctica

1. Dibujar en un mismo grá…co las funciones de densidad de las siguientes variables normales: N(0;12); N(0;1052); N(0;0082) yN(2;12):

2. Dibujar en un mismo grá…co las funciones de densidad de las siguientes variables chi-cuadrado: 1; 5; 10;y 30:

(4)

3. Dibujar en un mismo grá…co las funciones de densidad de las siguientes variables t

de Student: t1; t5; t10;y t30:

4. Dibujar en un mismo grá…co las funciones de densidad de las siguientes variables F

de Fisher: F20;20; F50;50; F100;100; F80;4 yF4;80:

¿Qué conclusiones se deducen de estos grá…cos?

5. Para algunos de los modelo anteriores calcular F( 2); F(0) y F(105);siendo F la función de distribución.

6. Para algunos de los modelo anteriores calcular F 1(0005); F 1(0090) y F 1(0095);

siendoF 1 la inversa de la función de distribución.

1.3.

Test de hipótesis e intervalos de con…anza de una y dos

muestras.

Objetivo de la práctica:“A partir de una muestra de una población calcular intervalos de con…anza de la media y de la desviación típica de la población, bajo la hipótesis de normalidad o no.

A partir de dos muestras (pareadas o no) calcular intervalos de con…anza de la diferencia de medias y del cociente de varianzas”.

Desarrollo:

1. Considérese la variable price del …chero de datos coches (…chero problema-2-2). Calcular intervalos de con…anza al 90 % para la media y la desviación típica de esta variable. Utilizar el análisis

descripcion > datos numericos > analisis unidimensional

Este análisis proporciona dos tipos de intervalos de con…anza: el primero bajo la hipótesis de normalidad de las observaciones y el segundo se basa en técnicas de remuestreo (bootstrap).

2. Contrastar la hipótesis estadística H0 : E(price) = 4;500; frente a diferentes

alternativas. Trabajar con un nivel de signi…cación = 0010:

El análisis anterior proporciona tres contrastes acerca de la media de la población: uno bajo la hipótesis de normalidad y dos no paramétricos basados en los rangos acerca de “la mediana”. Los test basados en rangos son menos potentes pero son menos sensibles a la presencia de datos atípicos (outliers).

3. Calcular la curva de potencia del test sobre la media de una población normal. Ésto se puede hacer con el siguiente análisis de Statgraphics:

(5)

En este apartado se puede estudiar la función de potencia de otros contrastes (sobre la desviación típica de una normal, la proporción de una binomial o la razón de una de Poisson).

4. Se está interesado en comparar lospreciosde los coches de USA (origin=1) y japone-ses (origin=3). En particular se quiere:

- Calcular un intervalo de con…anza al 90 % para el cociente de varianzas. - Calcular un intervalo de con…anza al 90 % para la diferencia de medias.

- Contrastar la hipótesis de que los precios medios de los coches de ambas poblaciones son iguales.

Estos estudios pueden hacerse en el módulo

comparacion > dos muestras > comparacion de dos muestras

En este caso cubrir los campos de introducción de datos como sigue: poner “datos y códigos en columnas”, data=“price”, code=“origin”, select=“origin<>2”.

Analizar los diferentes resultados sobre la comparación de dos muestras que propor-ciona este completo módulo del programa.

5. Calcular la curva de potencia del test sobre la diferencia de medias de dos pobla-ciones. Para ello utilizar el módulo

comparacion > dos muestras > contraste de hipotesis

1.4.

Problemas de intervalos de con…anza y test de

hipóte-sis.

Problema 1.1.

“Se ha observado una muestra de 41 datos del “tiempo de respuesta de un sistema informático”a las doce horas de un día laborable. Los datos obtenidos son los de la tabla adjunta, 22056 22033 24058 23014 19003 26076 18033 23010 21053 9006 16075 23029 22014 16028 18089 27048 10044 26086 27027 18074 19088 15076 30077 21016 24026 22090 27014 18002 21053 24099 19081 11088 24001 22011 21091 14035 11014 9093 20022 17073 19005

En base a esta muestra, calcular:

1. Intervalos de con…anza al 90 % y 95 % del tiempo medio de respuesta.

2. ¿Es razonable mantener la hipótesis de que la varianza del tiempo medio de respuesta es 25 con un nivel de signi…cación del 5 %?

(6)

3. Resolver el contraste H0: = 20frente H1: >20 en base al nivel crítico.”

Problema 1.2.

“Una empresa de software está investigando la utilidad de dos lenguajes diferentes para mejorar la rapidez de programación. A doce programadores, familiarizados con ambos lenguajes, se les pide que programen un cierto algoritmo en ambos lenguajes, se anota el tiempo que tardan. Los resultados, en minutos, son los de la tabla adjunta.

Lenguaje 1: 17, 16, 21, 14, 18, 24, 16, 14, 21, 23, 13, 18. Lenguaje 2: 18, 14, 19, 11, 23, 21, 10, 13, 19, 24, 15, 20. En base a estos datos calcular:

1. Un intervalo de con…anza al 95 % para la diferencia de medias en el tiempo de pro-gramación.

2. ¿Puede considerarse que uno de los lenguajes es preferible al otro?”

3. En relación con la pregunta anterior ¿está bien diseñado el experimento? Considerar y discutir algún diseño alternativo.

Problema 1.3.

“Un profesor realizó el siguiente experimento: le preguntó a 44 alumnos que calculasen de forma aproximada, en metros, el ancho de la clase. Obtuvo las siguientes respuestas:

Grupo 1 8 9 10 10 10 10 10 10 11 11 11 11 12 12 13 13 13 14 14 14 15 15 15 15 15 15 15 15 16 16 16 17 17 17 17 18 18 20 22 25 27 35 38 40

A otro grupo de 69 alumnos les hizo la misma pregunta, pero ahora les pidió la respuesta en pies (3028 pies = 1 metro). En este caso las respuestas fueron:

Grupo 2 24 25 27 30 30 30 30 30 30 32 32 33 34 34 34 35 35 36 36 36 37 37 40 40 40 40 40 40 40 40 40 41 41 42 42 42 42 43 43 44 44 44 45 45 45 45 45 45 46 46 47 48 48 50 50 50 51 54 54 54 55 55 60 60 63 70 75 80 94

(7)

El ancho del aula es 1301 metros (4300 pies). En base a estos datos, 1. Hacer un estudio descriptivo de estas dos muestras.

2. Calcular intervalos de con…anza al 95 % para la media y la varianza de la primera muestra.

3. Calcular intervalos de con…anza al 95 % para la diferencia de medias y el cociente de varianzas de las dos muestras.

4. ¿Puede a…rmarse que el error en la aproximación es igual si se hace en metros que en pies?”

Problema 1.4.

“Una empresa constructora está interesada en estudiar la tensión de ruptura de las barras de acero que utiliza en las estructuras de hormigón armado. Para ello, selecciona de forma aleatoria cincuentas barras y las prueba para determinar sus tensiones de ruptura. Los resultados de la prueba, en kilogramos por centímetro cuadrado, son los de la tabla adjunta 2244 2147 2240 2342 1951 2345 2001 2191 1800 1995 2033 2208 1699 2037 2087 2185 1792 2033 2112 2001 2490 2132 2070 1917 2015 2150 1960 2086 1824 1869 2278 1846 1950 2027 1699 1972 2073 2282 1889 1897 2322 1964 1809 2009 2412 1746 2304 2015 2035 1974 En base a estos datos,

1. Hacer un estudio descriptivo de la muestra.

2. Calcular intervalos de con…anza al 95 % y 99 % para la media de la tensión de ruptura de las barras de acero.

3. Calcular intervalos de con…anza al 95 % y 99 % para la varianza de la tensión de ruptura de las barras de acero.

4. ¿Qué tamaño muestral es necesario para obtener el intervalo de con…anza al 95 % para la media de la tensión de ruptura de las barras de acero con una longitud inferior a 50 unidades? Y, ¿si el intervalo de con…anza fuese al 99 %?”

(8)

1.5.

Problemas propuestos.

Problema 1.5.

“El gobierno francés está interesado en analizar los datos obtenidos en experimentos atómicos. En particular está interesado en el estudio de la potencia desarrollada por una determinada bomba nuclear. Los resultados de 15 explosiones de estas bombas, realizadas entre marzo de 1994 y enero de 1996, son los siguientes (en kilotones): 724, 718, 776, 760, 745, 759, 795, 756, 742, 740, 761, 749, 739, 747, 742.

1. Calcular intervalos de con…anza al 90, 95 y 99 % para la media de la potencia. 2. Calcular tres intervalos de con…anza distintos al 95 % para la varianza de la potencia. 3. Contrastar la hipótesis de que la media de la potencia es 750.

4. Dibujar la curva de potencia de este contraste.

5. ¿Qué hipótesis se han supuesto en el desarrollo del problema.” Problema 1.6. (se puede hacer con calculadora)

“El nivel de colesterol es un factor de alto riesgo en el desarrollo de la enfermedad de artoesclerosis cardíaca y de la enfermedad de arteria coronaria, por tanto, es importante determinar los niveles que se esperan en los diferentes grupos de edad y sexo. Para com-parar el nivel de colesterol en varones de entre 20 y 29 años de edad frente a mujeres del mismo grupo de edad se realizó un estudio cuyos estadísticos básicos son los de la tabla adjunta. Hombres Mujeres nH = 96 nM = 85 xH = 170;81 mg/dl xM = 181;08 mg/dl ^ sH = 30;55 mg/dl s^M = 30;79 mg/dl

En base a estos datos:

1. Calcular intervalos de con…anza al 90, 95 y 99 % para la diferencia de medias del nivel de colesterol entre hombres y mujeres.

2. Calcular un intervalo de con…anza al 90 % para el cociente de varianzas del nivel de colesterol entre hombres y mujeres.

3. ¿Puede suponerse que el nivel de colesterol en los hombres es igual al de las mujeres?” Problema 1.7.

“A una empresa le ofrecen impartir un curso de capacitación para aumentar el rendimien-to de sus trabajadores. La empresa decide enviar a quince de sus trabajadores elegidos al azar de toda la plantilla. Para comprobar si el curso es bene…cioso, se controla el tiempo que tardan estos trabajadores en realizar un trabajo antes de realizar el curso y después de realizar el curso. Los resultados se re‡ejan en la tabla adjunta.

(9)

Trabajador 1 2 3 4 5 6 7 8 Antes 2305 1200 2100 2200 1901 2105 2201 2004 Después 1704 2004 2000 2000 1804 1806 1806 1503 Trabajador 9 10 11 12 13 14 15 Antes 1803 2106 2303 2100 2201 2300 1200 Después 1605 1800 1603 1800 1208 1505 1800

¿Puede a…rmarse que la realización del curso mejora el rendimiento del trabajo? ¿Se ha diseñado bien el experimento?”

Problema 1.8.

“En cincuenta días lectivos consecutivos y a la misma hora se ha observado el número de terminales de una universidad conectados a internet. Los resultados son los de la tabla adjunta. 1027 1023 1369 950 1436 957 634 1281 821 882 942 904 984 1067 570 1063 1307 1212 1045 1047 1178 633 501 565 1039 1000 1227 1118 843 696 820 1092 934 968 1191 996 1089 936 568 1056 1006 749 812 1096 1183 1409 1200 1197 985 848 En base a estos datos.

1. Hacer un estudio descriptivo de la muestra.

2. Calcular intervalos de con…anza al 90 % y 95 % para el número medio de terminales conectados a internet.

3. Calcular intervalos de con…anza al 90 % y 95 % para la varianza del número de terminales conectados a internet.

4. ¿Qué tamaño muestral es necesario para obtener el intervalo de con…anza al 90 % para que el número medio de terminales conectados a internet tenga una longitud inferior a 30 unidades? Y, ¿si el intervalo de con…anza fuese al 95 %?”

Problema 1.9.

“Se ha realizado un estudio para investigar el efecto del ejercicio físico en el nivel de colesterol en suero. Veinte individuos tomaron parte en el estudio de los que se tomaron muestras de sangre para determinar el nivel de colesterol de cada sujeto. Después los individuos fueron sometidos a un programa de ejercicios que se centraba diariamente en realizar carreras y marchas. Al …nal del período de ejercicios se tomaron nuevas muestras de sangre y se obtuvo una segunda lectura del nivel de colesterol en suero. Los datos obtenidos son los de la tabla adjunta. ¿Puede a…rmarse que el ejercicio físico disminuye el nivel de colesterol en suero?”

(10)

Sujeto 1 2 3 4 5 6 7 Nivel previo (x), mg/dl 182 232 191 200 148 249 276 Nivel posterior (y), mg/dl 198 210 194 220 138 220 249

Sujeto 8 9 10 11 12 13 14

Nivel previo (x), mg/dl 213 241 480 262 242 185 205 Nivel posterior (y), mg/dl 161 210 313 270 235 164 207

Sujeto 15 16 17 18 19 20

Nivel previo (x), mg/dl 175 217 236 243 252 375 Nivel posterior (y), mg/dl 156 200 219 201 232 335 Problema 1.10. (se puede hacer con calculadora)

“Se ha realizado un estudio de igualación transversal preoperatoria en cirugía electi-va. La operación elegida es la histerectomía abdominal electielecti-va. La variable de interés

X=“el número de unidades sanguíneas contrastadas transversalmente inmediatamente disponibles”. El objetivo del estudio es comparar el número medio de unidades disponibles en 1.990 con el número medio de unidades disponibles en la actualidad. Los estadísticos básicos de la muestra del estudio son los de la tabla adjunta. En base a este estudio ¿Hay evidencia de que se produce un descenso en el número medio de unidades disponibles desde 1.990 hasta la actualidad?” En 1.990 Actualidad nP = 120 nA= 137 xP = 2;67 unid. xA= 2;21unid. ^ sP = 0;69 ^sA= 0;87 Problema 1.11.

“Se pensó que un programa de ejercicios regulares moderadamente activos podría be-ne…ciar a los pacientes que habían sufrido un infarto de miocardio. Catorce individuos participaron en un estudio para comprobar este argumento. Antes de empezar el programa, se determino la capacidad de trabajo de cada persona midiendo el tiempo que tardó en alcanzar una tasa de 160 latidos por minuto mientras caminaba sobre una rueda de andar. Después de 25 semanas de ejercicio controlado se repitieron las medidas en la rueda de andar y se registró la diferencia en tiempo para cada sujeto. Los datos obtenidos son los de la tabla adjunta. ¿Sostienen estos datos los argumentos de los investigadores?”

Sujeto 1 2 3 4 5 6 7 Antes (x), en sgs 706 909 806 905 804 902 604 Después (y), en sgs. 1407 1401 1108 1601 1407 1401 1302 Sujeto 8 9 10 11 12 13 14 Antes (x), en sgs 909 807 1003 803 808 802 903 Después (y), en sgs. 1207 1305 1201 1304 1105 1502 1109

Referencias

Documento similar

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

You may wish to take a note of your Organisation ID, which, in addition to the organisation name, can be used to search for an organisation you will need to affiliate with when you

Where possible, the EU IG and more specifically the data fields and associated business rules present in Chapter 2 –Data elements for the electronic submission of information

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

Centrándonos en la parte de Estadística Descriptiva, mostramos cómo estas simulaciones interactivas se pueden incorporar a prácticas de análisis de datos que utilizan un software

Lo anterior se debió, según este autor, no sólo a factores externos, como las presiones internacionales hacia el gobierno mexicano ante la firma del Tra- tado de Libre Comercio

Abstract: This paper reviews the dialogue and controversies between the paratexts of a corpus of collections of short novels –and romances– publi- shed from 1624 to 1637: