Universidad Técnica Federico Santa María Departamento de Informática
Estadística Computacional Guía Nº1
20 de Marzo de 2003
Profesor: Dr. Héctor Allende Olivares <[email protected]> Ayudantes: Carlos Becerra Castro <[email protected]>
Ricardo Ñanculef Alegría <[email protected]> Contenidos
• Conceptos Introductorios
• Estadística Descriptiva Univariad • Análisis de Muestras Estratificadas • Estadística Descriptiva Multivariada • Modelos de Regresión
1. Un canal de Televisión X está interesado en determinar a que empresas ofrecer espacio publicitario en su nuevo "Reality Show". Para hacer este estudio debe medir el impacto de su programa en los siguientes estratos o clases socioeconómicas: AB (alta), C1 (alta baja), C2 (media alta), C3 (media baja), D (baja) y E(extrema pobreza), cuyos niveles de significancia sobre el número total de familias son respectivamente: 0.03, 0.07, 0.2, 0.25, 0.35 y 0.1. Es imposible (o poco práctico) censar al 100% de los hogares. Proponga entonces, un método para llevar a cabo el estudio y obtener conclusiones que ayuden a tomar una decisión al respecto. Identifique a unidad de análisis, el universo bajo análisis, la población, el tipo de muestreo a realizar, las variables relevantes y su correspondiente espacio muestral. Distinga también los parámetros poblacionales de los estadísticos que decida utilizar. ¿Qué tipo de variabilidad en las mediciones a efectuar es más relevante para decidir?. Verifique que su modelo haya contemplado esta situación.
2. Uno de los indicadores más importantes de la contaminación en grandes ciudades es la concentración de ozono en la atmósfera, medidos en ppb. En cierto sector de una ciudad se obtuvo información sobre ese contaminante, por medio de una medición efectuada diaramente a las 13:00 Hrs. Esta se resumió en la siguiente tabla.
Concentración de Ozono
Intervalos Frecuencias Absolutas
0−2 8 2−4 23 4−6 53 6−8 42 8−10 22 10−12 12
a. Encuentre el valor medio, la moda y la mediana de las concentraciones de ozono.
b. Calcular la varianza muestral, desviación estándar, desviación media, amplitud intercuartil (rango intercuartílico) y coeficiente de variación.
c. Explique el significado de los valores calculados anteriormente. d. Grafique un histograma poligonal y una ojiva acumulada.
3. Demuestre que la varianza de una muestra
X
=
x
1
, x
2... x
n puede escribirse como1
n
∑
i=1n
x
i2B ¯
X
2Especule (seriamente) acerca de la estabilidad numérica presente en el cálculo de la expresión anterior versus el cálculo de la fórmula clásica.
4. Se tienen n valores
x
1
, x
2... x
n , muestrados de una variable estadísticaX
con mediaigual a 8 y desviación estándar igual a 5. Defina las siguientes transformaciones
Y
=
a
⋅
X
A
b
yZ
=
X
B
2
2a. Encuentre "astutamente" la media y la varianza de Y.
b. Encuentre "astutamente" la media y la varianza de Z, sabiendo que
1
n
∑
i=1n
x
i4B
8x
i3=
c
5. Probar que en un histograma, el área total de los rectángulos es igual al área total limitada por el correspondiente polígono de frecuencias y el eje X.
6. La menor de 150 medidas es 5.18 cm y la mayor 7.44 cm. Determinar un conjunto apropiado de intervalos de clase, fornteras de clase y marcas de clase que puedan usarse para formar la distribución de frecuencias.
7. El cálculo de la desviación estándar es algo erróneo como resultado del agrupamiento de datos en clases (error de agrupamiento). Para corregirlo, se usa la fórmula
Varianza Corregida
=
Varianza de Datos Agrupados
B
c
2
12
donde c es la anchura del intervalo de clase. La corrección se denomina "Correción de Sheppard". a. Justifique o discuta el uso de la corrección propuesta.
b. Apliquela a los cálculos del problema2.
8. Se construye una muestra de la variable
Z
mezclandon
1 valores deX
yn
2valores de
Y
, obteniéndose{
X
1, X
2.... , X
n, Y
1, Y
2... ,Y
n}
.a. Si se conocen las medias de las variables
X
eY
determine una expresión para la media deZ
.b. Si
n
1=
n
2 yW
=
X
A
Y
. CalcularW
¯
yS
W2c. Si
U
=
ln X
,X
>
0
.Obtenga expresiones aproximadas para la media y la varianza deU
9. La desviación estándar de un conjunto de datos es 5. ¿Cuál debe ser el valor del cuarto momento respecto de la media para que la distribución de los datos sea leptocúrtica, mesocúrtica o platicúrtica?10. La orientación aperturista de nuestras políticas comerciales a lo largo de los últimos 12 años ha generado una creciente llegada de capitales foráneos. La comisión de inversiones extranjeras proporciona los siguientes datos (cifras en millones de dólares)
Sector Autorizadas Materializadas
Minería 27.458 11.181 Servicios 9.500 5.813 Manufacturas 6.097 4.139 Otros 7.712 4.402 Origen 1974−1994 1995 1996 1997 Total África 243 219 74 448 984 Europa 2.966 442 1.423 2.239 7.070 Sudamérica 397 92 148 122 759 Centroaméricay el Caribe 518 109 256 252 1.135
América del Norte 7.116 2.081 2.625 1.602 13.424
Asia y Oceanía 1.279 74 268 366 1.987
Organismos internacionales
147 11 6 12 176
a. Reconozca y clasifique la variable de estudio. Indique la unidad de análisis.
b. Para la primera tabla, determine la clase modal y la moda. Compare con otras medidas de tendencia central como la media. Sugiera un estadístico para medir la dispersión de los datos. Realice un gráfico adecuado para estos datos.
c. Para la segunda tabla, calcule las medias y las varianzas para cada origen geográfico a lo largo del tiempo. ¿Qué origen es más constante u homogéneo en sus inversiones en nuestro país?. Compare según varianza e índice de dispersión. ¿Qué medida resulta más razonable?. d. Explique el significado y la importancia que tienen los resultados calculados anteriormente. e. Defina el índice de inversión como el porcentaje de inversión materializada respecto de la autorizada. Realice un gráfico que permita comparar los índices de inversión para cada país. 7. En un curso de 20 alumnos, las notas fueron (Nota de aprobación = 55)
30 75 68 100
20 68 75 60
32 60 80 20
30 28 80 75
60 60 70 28
Se postulan las siguientes medidas de tendencia central para este conjunto de datos
X
M
1=
¯
X
aprob⋅
N
aprobN
totalA
¯
X
reprob⋅
N
reprobN
total yM
2=
∑
Xi∈AX
iA
conA={X
i⁄
40
TX
iT
60
}
a. Calcule cada estadístico. Compare. b .Discuta las ventajas de una u otra medida.
8. Un encuestador al tomar una muestra de datos registra con 0 cuando una persona no responde a la pregunta sobre cierta característica X. Del total de n datos, una proporción p de ellos están registrados con 0. Un analista recién llegado a la oficina de censos procesa esta información considerando los todos los valores registrados, obteniéndo que
¯
X
n=
m
yS
n2=
v
Calcule la verdadera media y varianza de las encuestas que entregaron respuesta. 8. Suponga que estudiamos una muestra X que se encuentra estructurada en clases de equivalencia (estratos). Sea Y el espacio muestral de X. Contamos con un vector
E
i que contiene los pesos relativos de cada elemento del espacio muestral para el estrato i y con un vector G, que contiene los pesos relativos de cada estrato sobre la muestra total. Obtenga sendas fórmulas vectoriales para expresar medidas de tendencia central y variabilidad local y global.9. La producción por hora de trabajadores de 2 departamentos se da en la siguiente tabla.
Departamento1 Departamento2
Indice de Producción Número de trabajadores Indice de Producción Número de trabajadores
00 − 08 1 00 − 03 10 08 − 11 10 03 − 06 10 11 − 14 20 06 − 09 10 14 − 17 40 09 − 11 20 17 − 20 20 11 − 14 30 20 − 23 10 14 − 17 20 23 − 40 2 17 − 21 30
a. Calcule la moda, media, mediana y cuartiles para los 2 departamentos.
b. Calcule la desviación estándar y el rango intercuartílico para los 2 departamentos. c. ¿En cual de los dos departamentos es más uniforme el rendimiento de los trabajadores?. Justifique mediante el uso de medidas adecuadas.
d. Los valores atípicos, que se alejan demasiado de la mayoría de los datos son denominados "outliers" y su detección puede resultar vital para obtener estimaciones confiables de los
estadísticos que estemos considerando. Para distintos valores de a calcule la media truncada del a% de las observaciones para los trabajadores del Departamento 1 y observe que ocurre.
e. Una manera práctica de visualizar los datos atípicos y características generales de variabilidad consiste en construir box−plots. Construya box−plots para cada Departamento de manera que se puedan comparar.
10. Se desea medir el desempeño de 3 máquinas que miden el contenido de manganeso en piezas de acero. Para cada máquina se han realizado 10 pruebas para la misma pieza de acero, cuyo contenido de manganeso es conocido: 80. Los resultados son los siguientes:
Máquina A 80 74 78 70 90 77 84 85 78 82
Máquina B 86 85 87 86 86 87 84 85 85 86
a. Discuta acerca de la precisión y la exactitud de cada máquina. Si pudiera seleccionar una de ellas para operar ¿Cuál seleccionaría?.
b. En el acero, el manganeso mejora las cualidades de laminación y forjado. Cuando una máquina entrega el nivel de manganeso entrega además índices de dichas propiedades
c. Determine las medias y varianzas de estos índices para cada máquina. Discuta nuevamente acerca de la precisión y la exactitud de cada una. ¿Es prudente usar la varianza para comparar la variabilidad de las medidas? ¿Qué ocurre si usamos el coeficiente de variación o la señal de ruido? d. Suponga que decide usar 5 máquinas A, 15 máquinas B y 10 máquinas C para evaluar un lote de piezas de acero. Determine la media y la varianza resultante de la operación conjunta de las máquinas. ¿Qué grupo causa la mayor variabilidad? ¿Parece prudente remediar esta situación? e. ¿Qué máquina es más homogénea?
10. Una empresa informática tiene un registro de 47 productos de software al cual se les midió el número de errores encontrados Y medido en cientos de módulos, y el número de líneas de código X que posee medidos en miles de líneas. Los datos se encuentran resumidos en la siguiente tabla:
Y/X 10 15 20 25 30 35 40 1 10 7 2 6 5 3 4 3 4 4 1 3 1 5 2 1
a. Explique brevemente el contenido de la tabla. ¿Existe alguna relación entre las variables? ¿Cómo podría comprobar sus sospechas?
b. Encuentre Varianza Intra e Inter del número de errores encontrados, usando el número de líneas de código como variable estratificadora. Concluya
c. Encuentre el coeficiente de correlación lineal de la muestra. d. Encuentre una recta de regresión. Señale el método utilizado.
e. Se estima que el nuevo software que se desarrollará consiste en 27000 líneas de código. ¿Cuánto tiempo tomará reparar los errores si la empresa repara 10 módulos diariamente?
11. La siguiente tabla muestra la lluvia caída (en pulgadas) para la ciudad de Nevada (EEUU) desde 1870 a 1960 medida en 10 instantes de control establecidos a lo largo del año.
0 1 2 3 4 5 6 7 8 9 1870 80 40 65 46 68 32 58 188 0 60 61 60 45 48 63 44 66 39 35 1890 44 104 36 45 69 50 72 57 53 30 1900 40 56 55 46 46 72 50 68 71 37 1910 64 46 69 31 33 61 56 55 40 37
2
40
3
+
⋅
=
m lN
I
4
20
3
+
⋅
=
m fN
I
0 1 2 3 4 5 6 7 8 9 1920 40 34 60 54 52 20 49 43 62 44 1930 33 45 30 53 32 38 56 63 52 79 1940 30 62 75 70 60 34 54 51 35 53 1950 44 53 73 80 54 52 40 77 52 75 1960 42 43 39 54 70 40 73 41 75
a. Para cada año determine la cantidad media de lluvia caída y la varianza de tal medición. b. Calcule la variabilidad entre puntos (instantes) de control.
c. Calcule la varianza total estratificando por año y luego por puntos de control. Compare.
d. Se desea estimar la lluvia caída para el año 1970. Construya un modelo que permita hacer tal estimación.
12. Se clasifica a los trabajadores de un mineral en 3 categorías, mayores de 35 años, entre 25 y 35 años y menores de 25 años, obteniéndose la siguiente información respecto de su productividad en Kgs.
Categoría Nº de Trabajadores Productividad media Desviación Estándar
[20 − 25] 200 40 7
[25 − 35] 260 60 5
[35 − 40] 300 70 4
a. Calcule la productividad media global. b. Calcule la variabilidad de la productividad.
c. ¿Qué porcentaje de la variabilidad total es explicada por la diferencia de edad entre los estratos? d. ¿Qué grupo es más homogéneo?. Justifique.
13. La siguiente tabla muestra la distribución de frecuencia conjunta de los resultados de la asignatura Estadística Computacional (EC) y de la asignatura de Sistemas Operativos (SO), en el tercer año de un grupo de estudiantes de informática.
SO \ EC 45 55 65 75 85 95 Sumas 45 17 0 0 0 0 0 17 55 11 10 0 0 0 0 21 65 8 8 10 8 0 0 34 75 2 7 10 14 8 5 46 85 0 4 7 11 12 15 49 95 0 0 4 4 10 15 33 Sumas 38 29 31 37 30 35 200
a. Explique el contenido de la tabla.
b. Hallar el coeficiente de correlación lineal de la muestra.
14. La tabla muestra las edades y la presión sanguínea de 12 mujeres adultas : Edad X 56 42 72 36 63 47 55 49 38 42 68 60 Presión sanguínea Y 141 147 153 125 128 122 167 160 153 118 119 117 149 155 143 128 132 124 155 145 150 140 150 113 117 115 140 143 137 158 146 152 150 160
a. Grafique el diagrama de dispersión.
b. Encuentre los coeficientes del modelo de regresión lineal.
c. Calcule el coeficiente de correlación. ¿Existe realmente una tendencia lineal? d. ¿Existe mayor variabilidad de las muestras a medida que aumenta la edad?. e. Estime la presión sanguínea de una mujer que tenga 45 años de edad.
f. ¿Cuál podría ser la presión de una mujer de 80 años?. Si se emplea el mismo procedimiento de toma de datos de la tabla. ¿Cuál debería ser la variabilidad de la estimación a esta edad?.
g. ¿Existe alguna relación entre la variabilidad de la toma de datos de presión y la presión misma a medida que aumenta la edad de las mujeres?.
15. La siguiente tabla nos muestra la distribución de 63 niños de acuerdo al área superficial del cuerpo y la proteína circulante por la sangre:
A\P 110−139 140−169 170−199 200−229 230−259 140−159 1 1 160−179 4 7 5 1 17 180−199 1 8 12 4 2 27 200−219 4 6 4 14 220−239 1 1 2 240−259 1 1 5 21 23 10 3 62
a. Encuentre las frecuencias relativas condicionadas al área. b. Calcule Media y Varianza total.
c. Calcule Media y varianza condicionadas al área. d. Calcule Varianza Intra e Inter, según corresponda.
e. Comente si existe una relación lineal entre ambas variable. Use medidas adecuadas. f. Comente acerca de la independencia de las variables. Use medidas adecuadas.
16. A continuación se presentan los valores experimentales de la presión de una cierta masa de gas y los valores correspondientes al volumen.
Volumen V (in)3
54,3 61,8 72,4 88,7 118,6 194,0 Presión P (lb/in2) 61,2 49,5 37,6 28,4 19,2 10,1
De acuerdo a los principios termodinámicos, debería existir la siguiente relación:
P
⋅
V
g=
C
a. Encuentre los valores de C y g para determinar la ecuación anterior. b. Estime la presión cuando el volumen es de 100 in3.
17. El estrógeno es una hormona que se utiliza en métodos anticonceptivos y otras aplicaciones. La siguiente tabla muestra a 50 pacientes en las que se les aplicó una cierta cantidad C (mg) versus su edad E (años).
E\C 15 20 25 30 35 20 4 2 2 8 30 2 6 3 1 1 13 40 2 5 4 11 50 2 3 6 2 13 60 2 2 1 5 6 12 15 13 4 50
a. ¿Cuál distribución marginal es más homogénea?
b. Comente lo siguiente: "La cantidad de estrógeno aumenta con la edad" c. ¿Cuál es la media en miligramos, para pacientes entre 35 y 45 años?
d. Comente lo siguiente: "La variabilidad de la cantidad de estrógeno depende de la edad"”.
18. La tabla siguiente da las alturas redondeadas (en pulagdas) y los pesos (en libras) de una muestra de 12 estudiantes varones tomada al azar entre un grupo de estudiantes.
Aktura X 70 63 72 60 66 70 74 65 62 67 65 68
Peso Y 155 150 180 135 156 168 178 160 132 145 139 152
a. Ajustar una recta de mínimos cuadrado usando la Altura como variable independiente. b. Ajustar una recta de mínimos cuadrado usando el Peso como variable independiente.
c. Compare las rectas construídas anteriormente. ¿Cuál ajuste es mejor? (use los coeficientes de correlación). Demuestre que se cortan en el punto
X,
¯
Y
¯
d. Desarrolle un método de cálculo que le permita pasar "rápidamente" de una a otra forma.
19. Las ventas en un centro comercial de artículos deportivos tiene una variación estacional. Se dispone de la información de las ventas bimestrales
t 0 1 2 3 4 5 6
V(t) 30 60 46 32 10 4 17
20 40 26 14 8
20 12
a. Ajuste a los datos (usando mínimos cuadrados) el modelo
V t
=
a
A
b
⋅
sen t
A
e
tb. Discuta el ajuste de los datos al modelo propuesto. Si no esta conforme intente calzar otro. 20. Un examen de ingreso en cierta universidad consistía de cuatro partes; matemáticas, humanidades y ciencias. Para analizar la capacidad del examen a la hora de predecir el rendimiento en un curso de estadística,se estudiaron los datos de 200 estudiantes llamando:
X
1
=
nota en estadística
X
3=
nota en humanidades
X
2=
nota en matemáticas
X
4=
nota en ciencias
se han obtenido los siguientes resultados Medias:
¯
X
1=
75
X
¯
2=
24
X
¯
3=
15
X
¯
4=
36
Desviaciones Estándars
1=
10
s
2=
5
s
3=
3
s
4=
6
Coeficientes de Correlaciónr
12=
0.90
r
13=
0.75
r
14=
0.80
r
23=
0.70
r
24=
0.70
r
34=
0.85
a. Hallar la ecuación de regresión de mínimos cuadrados deX
1 sobre
X
2,X
3,X
4b. Si intentamos relacionar los resultados de las tres pruebas de admisión mediante un modelo de la forma
X
i=
Q
i⋅
v
donde
X
i es el vector de notas para el estudiante i y