Curso de Estadística
Unidad de Medidas Descriptivas
Lección 10:
Síntesis de Medidas Descriptivas
Creado por: Dra. Noemí L. Ruiz Limardo,
EdD
© 2010 Derechos de Autor
Objetivos
1. Reconocer las funciones de la estadística descriptiva.
2. Identificar los pasos que componen el método estadístico.
Introducción
Síntesis de Estadística Descriptiva: Realización de un Estudio
La estadística es una ciencia muy antigua, y es auxiliar de todas las demás ciencias. La administración de empresas, las ciencias médicas, la ingeniería, así como las investigaciones científicas dependen de las estadísticas para que la toma de decisiones sea efectiva durante el proceso de llevar a cabo sus funciones. Es por esto, que los procesos estadísticos se deben llevar a cabo cuidadosamente y de forma científica. Para que los datos sean útiles, las observaciones necesitan estar organizadas de tal forma que se puedan identificar tendencias a fin de llegar a conclusiones lógicas.
La estadística se compone de dos ramas: descriptiva e inferencial. En las lecciones anteriores se han estudiado sólo temas concernientes a la estadística descriptiva.
Diagrama 1: Resumen – Procesos de Estadística Descriptiva
ESTADÍSTICA DESCRIPTIVA
RECOPILACIÓN Y AGRUPACIÓN DE DATOS
REPRESENTACIÓN DE DATOS
DESCRIPCIÓN DE DATOS
RECOPILACIÓN DE DATOS CRUDOS
AGRUPACIÓN DE DATOS POR VALOR
SIMPLE
TABLAS Y GRÁFICAS
MEDIDAS DE TENDENCIA
CENTRAL
MEDIDAS DE VARIACIÓN
MEDIDAS DE POSICIÓN AGRUPACIÓN
El Diagrama 2 a continuación, presenta las medidas descriptivas que se han estudiado en este curso.
Diagrama 2: Resumen – Medidas de Estadística Descriptiva
* La mediana es tanto medida de posición como de tendencia central.
Antes de confiar en cualquier interpretación de datos o en cualquier
generalización que se haga de una muestra hacia la población bajo estudio, es necesario poner a prueba los datos, haciéndose estas preguntas: ¿Cómo se recopilaron los datos? ¿Es probable que haya algún interés en suministrar datos que lleven a una conclusión en lugar de otra? ¿Cuántas observaciones se realizaron? ¿Son los datos representativos de la población bajo estudio? Estas preguntas pueden servir de guía para tomar conciencia de los usos incorrectos que se le pueden dar a la estadística. Entre los factores que promueven el mal uso de las estadísticas se pueden mencionar: errores en el diseño de
cuestionarios, errores en el muestreo y errores en la representación de los datos.
Al presente las computadoras juegan un papel muy importante en el manejo de las estadísticas. Las mismas producen resultados rápidos y menos propensos a errores. Así también, las
computadoras permiten que el estadístico dedique más tiempo a la interpretación de resultados en lugar de realizar cómputos largos y tediosos. El uso de Excel es una herramienta muy útil ya que su potencial en análisis estadísticos y para construir gráficas, unido a
MEDIDAS DE ESTADÍSTICA DESCRIPTIVA
POSICIÓN VARIACIÓN TENDENCIA CENTRAL
CUARTILES PERCENTILES
MEDIANA*
AMPLITUD VARIANZA
DESVIACIÓN ESTÁNDAR COEFICIENTE DE
VARIACIÓN
MEDIA MEDIANA*
su bajo costo y fácil acceso, facilita la realización de análisis estadísticos. Además de Excel, existen otros programas estadísticos en el mercado que se utilizan frecuentemente.
El Método Estadístico consiste en llevar a cabo los siguientes pasos: a. Definición del problema que se desea estudiar.
b. Selección de una muestra lo más representativa posible de la población bajo estudio, esto es una muestra probabilística. Para ello se pueden utilizar los siguientes métodos de muestreo: muestreo aleatorio simple, muestreo estratificado, muestreo sistemático y muestreo por
conglomerados.
c. Agrupación de Datos: Los datos pueden agruparse por valor simple o por clases. Para llevar a cabo estos procesos se utilizan los conceptos de frecuencia relativa, frecuencia acumulada y marcas de clases, discutidos en lecciones anteriores.
d. Representación de Datos: Los datos se pueden representar por medio de tablas o de gráficas, o ambos. Entre las gráficas más populares
podemos mencionar: gráficas de barras, gráficas circulares (“Pie-charts”), histogramas, gráficas de puntos, gráficas lineales, polígonos de
frecuencias y gráficas pictóricas. El tipo de gráfica que se utiliza depende del tipo de variable (discreta o continua) y de la escala que se utiliza para medir la variable (nominal, ordinal, intervalar o de razón).
e. Cálculo de Medidas Descriptivas: Entre éstas se incluyen las siguientes: 1. Medidas de Tendencia Central: Son valores que generalmente
tienden a ubicarse hacia el centro de una distribución. Las tres medidas de tendencia central más frecuentes son: media, mediana y moda.
2. Medidas de Variación: Las medidas de variación son utilizadas para indicar el grado de uniformidad (homogeneidad) entre los datos de la variable bajo estudio. Permiten determinar el grado de variación (desviación o dispersión) que tienen los datos con
respecto a la media. Las medidas de variación más comunes son: amplitud, varianza, desviación estándar y coeficiente de variación. 3. Medidas de Posición: Son aquellos valores de la variable, que
ordenados de menor a mayor, dividen a la distribución ordenada en partes iguales. Entre estas se incluyen los cuartiles y los
f. Análisis de Resultados
Se analizan los resultados obtenidos en las medidas descriptivas anteriores a la luz del significado de las mismas. Se puede utilizar también análisis de las frecuencias o frecuencias relativas obtenidas al agrupar los datos.
g. Conclusiones, Recomendaciones y Toma de Decisiones.
Se establecen las conclusiones y recomendaciones que se derivan del análisis anterior. Se toman las decisiones pertinentes respecto al problema estudiado.
En esta lección se modelará la realización de un estudio completo con el propósito de ilustrar los siete pasos descritos anteriormente, los cuales
comprenden el método estadístico. A continuación presentamos los detalles del estudio a realizarse.
Estudio Estadístico
Datos sobre el estudio:
El Departamento de Educación de PR interesa hacer un estudio socioeconómico de los estudiantes matriculados en las Escuelas Públicas Diurnas de Puerto Rico. El propósito del estudio es conocer información relacionada al por ciento de estudiantes en las escuelas públicas diurnas de Puerto Rico que caen bajo los niveles de pobreza. Esta información es una herramienta valiosa para determinar las necesidades de los estudiantes y planificar los programas de servicios que ofrece la agencia. Este es un estudio descriptivo.
Para determinar los niveles de pobreza por familia se utiliza el proceso
preparado anualmente por el “Mid Atlantic Region” del “Food Nutrition Service”, del Departamento de Agricultura de los Estados Unidos. Hace diez años el Departamento de Educación logró identificar el por ciento de estudiantes de escuela pública que cayeron bajo el nivel de pobreza en los 101 distritos escolares de PR. Debido a que no se conoce la información similar
correspondiente de años subsiguientes, se utilizarán los datos poblacionales disponibles a fin de obtener una muestra que sea aceptable para realizar el estudio.
Tabla 1: Informe Socioeconómico Año Académico XXXX por Distrito Escolar del Departamento de Educación de PR
DISTRITO ESCOLAR %
DISTRITO ESCOLAR %
DISTRITO ESCOLAR %
DISTRITO ESCOLAR %
DISTRITO ESCOLAR % 1 84.06 26 82.50 51 76.89 76 87.98 101 82.83 2 86.10 27 89.85 52 91.19 77 72.68
3 83.12 28 80.35 53 79.45 78 86.14 4 83.32 29 82.06 54 84.02 79 86.51 5 83.30 30 82.88 55 85.20 80 88.36 6 86.60 31 82.36 56 85.13 81 89.44 7 82.72 32 74.89 57 87.05 82 91.67 8 88.17 33 68.92 58 77.37 83 95.95 9 84.04 34 84.96 59 83.75 84 81.96 10 87.48 35 74.59 60 84.90 85 87.18 11 86.65 36 81.24 61 77.15 86 84.33 12 83.02 37 81.80 62 81.68 87 88.55 13 88.15 38 76.69 63 69.92 88 85.36 14 84.19 39 79.17 64 79.33 89 85.69 15 84.81 40 85.54 65 85.32 90 78.17 16 82.91 41 89.01 66 85.66 91 74.57 17 73.88 42 78.73 67 83.52 92 79.62 18 77.87 43 81.78 68 81.99 93 84.62 19 81.05 44 82.20 69 81.23 94 94.24 20 80.03 45 87.24 70 84.17 95 86.77 21 91.54 46 80.30 71 78.41 96 89.54 22 87.51 47 79.08 72 81.85 97 86.19 23 80.59 48 88.21 73 74.64 98 70.07 24 85.32 49 76.10 74 87.64 99 86.32 25 78.72 50 77.87 75 81.44 100 84.30
A. PROBLEMA DE INVESTIGACIÓN
¿Qué por ciento de estudiantes en las escuelas públicas diurnas de P.R. caen bajo los niveles de pobreza?
1. Clasificación de nuestra variable de interés: La variable bajo estudio es el por ciento de estudiantes bajo los niveles de pobreza. La misma es cuantitativa continua.
2. Población: Nuestro universo o población bajo estudio son los
B. SELECCIÓN DE LA MUESTRA
1. Determinar el Tamaño de Muestra: El primer paso para seleccionar la muestra es determinar su tamaño. Para ello se han construido tablas que permiten determinar el tamaño de la muestra a partir del tamaño de la población y el nivel de confiabilidad que se requiere en los resultados. Debido a que la discusión de estas tablas está fuera del alcance de este curso, se recomienda utilizar una muestra de al menos un 20% de la población para poblaciones que tienen entre 50 y 300 elementos. En el presente estudio, el tamaño de la población es igual a 101, por lo tanto el tamaño de muestra, que debe ser un número entero, se calcula de la siguiente manera, y se obtiene un tamaño igual a 21. (Como el resultado fue 20.2, sobrepasó 20 distritos. Como debe ser un número entero, se redondeó hacia arriba para obtener 21 distritos.)
21
2
.
20
)
20
.
0
(
101
n
2. ¿Cuál de todos los métodos de muestreo se debe aplicar para que la muestra sea probabilística? En este caso se tiene una lista completa de la población bajo estudio, por lo tanto se puede utilizar el método de muestreo aleatorio simple. Se utilizará la Tabla 1 de números aleatorios que aparece en la Lección – 4. Comenzando con el primer número aleatorio y leyendo las columnas hacia abajo, se seleccionarán los primeros 21 distritos escolares que coincidan con los números aleatorios. A continuación se muestra la Tabla 1 de la Lección 4.
Tabla 1-Lección 4: Fragmento de la Tabla de Números Aleatorios
06 97 37 77
08 00 39 81
14 08 58 01
22 17 24 19
75 73 12 79
69 59 32 53
La muestra resultante es la siguiente:
Tabla 2: Muestra Resultante
ELEMENTO EN LA MUESTRA
#
DISTRITO
ESCOLAR % 1 6 86.60 2 8 88.17 3 14 84.19 4 22 87.51 5 75 81.44 6 69 81.23 7 54 84.02 8 97 86.19 9 17 73.88 10 73 74.64 11 59 83.75 12 3 83.12 13 37 81.80 14 39 79.17 15 58 77.37 16 24 85.32 17 12 83.02 18 32 74.89 19 48 88.21 20 77 72.68 21 81 89.44
C. AGRUPACIÓN DE DATOS
Debido a que la muestra no tiene datos repetidos no se recomienda la
agrupación por valor simple ya que la frecuencia de todos los datos sería igual a uno. Por lo tanto se procede a agrupar los datos por clases.
1. Determinar el Total de Clases K: Se establece por conveniencia que el total de clases será 6.
2. Hallar el Ancho de Clase w: Se utilizará la siguiente fórmula:
3. Hallar los Límites de Clases: Comenzando con el dato menor se suma el ancho de clase encontrado hasta terminar con dato mayor como límite superior de la última clase.
Tabla 3: Límites de Clase
CLASE # LIMITE INFERIOR LIMITE SUPERIOR
1 72.680 75.473
2 75.473 78.266
3 78.266 81.059
4 81.059 83.852
5 83.852 86.645
6 86.645 89.440
4.Hallar la Marca de Clase: La marca de clase es el punto medio entre los límites de clase
Tabla 4: Marca de Clase
CLASE # CLASE MARCA DE CLASE
1 72.680 – 75.473 74.0765
2 75.473 – 78.266 76.8695
3 78.266 – 81.059 79.6625
4 81.059 – 83.852 82.4555
5 83.852 – 86.645 85.2485
6 86.645 – 89.440 88.0425
5. Hallar las Frecuencias de cada Clase: Se cuenta cuántos datos caen en cada clase para conocer su frecuencia absoluta y partiendo de ésta se pueden hallar las otras frecuencias (relativa y acumulada) para finalizar con la Distribución de Frecuencias.
Tabla 5: Distribución de Frecuencia
CLASE # CLASE MARCA
DE CLASE
FRECUENCIA FRECUENCIA ACUMULADA
FRECUENCIA RELATIVA %
1 72.680 – 75.473 74.0765 4 4 19.0476
2 75.473 – 78.266 76.8695 1 5 4.7619
3 78.266 – 81.059 79.6625 1 6 4.7619
4 81.059 – 83.852 82.4555 6 12 28.5714
5 83.852 – 86.645 85.2485 5 17 23.8095
6 86.645 – 89.440 88.0425 4 21 19.0476
D. REPRESENTACIÓN DE DATOS
Debido a que la variable es cuantitativa continua, un histograma es la mejor representación gráfica que podemos hacer de los datos.
Gráfica 1: Estudiantes Bajo el Nivel de Pobreza en Escuelas Públicas
A. CÁLCULO DE MEDIDAS DESCRIPTIVAS
1. Medidas de Tendencia Central a. Media
Tabla 6: Por ciento de Estudiantes Bajo el Nivel de Pobreza en Escuelas Públicas
CLASE # CLASES MARCAS
DE CLASE
FRECUENCIA mi . fi
1 72.680 – 75.473 74.0765 4 296.3060
2 75.473 – 78.266 76.8695 1 76.8695
3 78.266 – 81.059 79.6625 1 79.6625
4 81.059 – 83.852 82.4555 6 494.7330
5 83.852 – 86.645 85.2485 5 426.2430
6 86.645 – 89.440 88.0425 4 352.1700
TOTAL 21 1,725.9840
POR CIENTO DE ESTUDIANTES BAJO
LOS NIVELES DE POBREZA EN ESCUELAS
PÚBLICAS
0 1 2 3 4 5 6 7
72.680-75.473
75.473-78.667
78.667-81.059
81.059-83.852
83.852-86.645
%
19
.
82
21
9840
.
1725
n
f
m
x
i ib. Moda
La clase modal es la cuarta, la que va de 81.059 a 83.852.
c. Mediana
Tabla 7: Por ciento de Estudiantes Bajo el Nivel de Pobreza en Escuelas Públicas
CLASE #
CLASES MARCAS
DE CLASE
FRECUENCIA FRECUENCIA ACUMULADA
1 72.680 – 75.473 74.0765 4 4
2 75.473 – 78.266 76.8695 1 5
3 78.266 – 81.059 79.6625 1 6
4 81.059 – 83.852 82.4555 6 12
5 83.852 – 86.645 85.2485 5 17
6 86.645 – 89.440 88.0425 4 21
TOTAL 21
Se determina la posición de la mediana hallando el 50% de n:
11
5
.
10
)
5
.
0
(
21
)
50
.
0
(
n
También, se puede determinar la posición de la mediana dividiendo n por 2:
11
5
.
10
2
21
2
n
En este caso, el dato que representa la mediana se encuentra en la undécima
el undécimo dato se encuentra en la cuarta clase.
w
f
fa
n
F
Mediana
inf2
793
.
2
6
6
5
.
10
059
.
81
Mediana
15
.
83
Mediana
2. Medidas de Dispersión
a. Amplitud
Amplitud = Dato Mayor – Dato Menor = 89.44 – 72.68 = 16.76
b. Varianza
Tabla 8: Por ciento de Estudiantes Bajo el Nivel de Pobreza en Escuelas Públicas
CLASE # CLASE MARCA
DE CLASE
FREC. mi x 2
)
(mi x (mi x)2. f
1 72.680 – 75.473 74.0765 4 -8.1135 65.8289 263.3156
2 75.473 – 78.266 76.8695 1 -5.3205 28.3077 28.3077
3 78.266 – 81.059 79.6625 1 -2.5275 6.3883 6.3883
4 81.059 – 83.852 82.4555 6 0.2655 0.0705 0.4230
5 83.852 – 86.645 85.2485 5 3.0585 9.3544 46.7720
6 86.645 – 89.440 88.0425 4 5.8525 34.2518 137.0072
TOTAL 21 482.2138
1107
.
24
20
2138
.
482
1
)
(
2 2n
f
x
m
s
ic. Desviación Estándar
Para hallar la desviación estándar se extrae la raíz cuadrada de la varianza obtenida anteriormente.
91
.
4
1107
.
24
2s
d. Coeficiente de Variación
0597
.
0
19
.
82
91
.
4
x
s
cv
3. Medidas de Posición
a. Primer cuartil (Q
1):
5
25
.
5
)
25
.
0
(
21
)
25
.
0
(
1n
posición
QEn este caso, el quinto dato sería el primer cuartil. Si observamos las frecuencias acumuladas notamos que el quinto dato estaría en la segunda clase.
793
.
2
1
4
)
25
.
0
(
21
473
.
75
25 1P
Q
96
.
78
1Q
b. Tercer Cuartil
16
75
.
15
)
75
.
0
(
21
)
75
.
0
(
3n
posición
QEn este caso, el décimo sexto dato seria el tercer cuartil. Al observar las frecuencias acumuladas se determina que este dato está en la cuarta clase.
F. ANÁLISIS DE RESULTADOS, CONCUSIONES, RECOMENDACIONES Y TOMA DE DECISIONES
El estudio realizado fue uno descriptivo. Se utilizaron los datos poblacionales correspondientes al año académico XXXX. No es apropiado generalizar
nuestros resultados a la fecha actual ya que han transcurrido más de diez años y al presente, las condiciones político-económicas en PR no son las mismas. Sin embargo, el estudio nos aporta un marco de referencia en relación a los niveles de pobreza de los estudiantes de escuela pública en el país.
Los estudiantes de las escuelas publicas diurnas en PR cayeron en un nivel de pobreza promedio de 82.19% para el año académico XXXX.
El 50% de los estudiantes de las escuelas publicas diurnas en PR cayó en un nivel de pobreza mayor a 83.15% para el año académico XXXX.
La muestra presenta muy poca variabilidad ya que el coeficiente de variación fue igual a 0.0597. Esto significa que para el año académico XXXX los niveles de pobreza de los estudiantes de escuelas públicas diurnas se distribuyeron de manera homogénea alrededor de toda la isla. No hubo mucha diferencia entre un distrito escolar y otro.
EJERCICIOS
EJERCICIO - 1
Los siguientes datos corresponden a la producción por hora de lotes de 10 unidades por caja de cierto producto durante un día normal de trabajo. La fábrica trabaja dos turnos de 8 horas cada uno.
HORA CAJAS
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
RESPUESTAS A EJERCICIOS
A. DEFINICIÓN DEL PROBLEMA DE INVESTIGACIÓN
¿Cuál es el promedio de unidades por hora que produce la empresa en un día normal de trabajo? ¿Existe o no variabilidad significativa en la producción de unidades por hora en la empresa?
1. La variable de interés son las unidades del producto que se producen por hora en la empresa. La misma es cuantitativa discreta.
2. La población bajo estudio son los datos provistos correspondientes a un día de producción normal en la empresa.
B. SELECCIÓN DE MUESTRA
1. Determinar el tamaño de muestra: Se nos indicó que la muestra debe ser un 25% del tamaño de la población. El tamaño de la población es igual a 16 ya que son 16 horas de trabajo. El tamaño de la muestra es igual a: n= 16(0.25) = 4
2. Debido a que tenemos la lista completa de la población, la muestra se seleccionará científicamente a través del método de muestreo aleatorio simple. Para ello utilizaremos la Tabla 1 de números aleatorios que aparece en la Lección – 4.
La muestra resultante es la siguiente:
HORA CAJAS
6
8
14
C. AGRUPACIÓN DE DATOS
Debido a que la muestra es muy pequeña nos conviene la agrupación por valor simple.
UNIDADES/HORA FRECUENCIA FRECUENCIA
RELATIVA %
110 2 50%
70 1 25%
100 1 25%
TOTAL 4 100%
D. REPRESENTACIÓN DE DATOS
Debido a que se tienen tres datos representados en la muestra se puede construir una gráfica de barras aunque la variable sea cuantitativa discreta.
Produccion por Hora en la Empresa XX
0 0.5 1 1.5 2 2.5
110 70 100 Unidades por Hora
F
re
c
u
e
n
c
ia
E. CÁLCULO DE MEDIDAS DESCRIPTIVAS
1. Medidas de Tendencia Central
Media = 97.5 Mediana = 90 Moda=110 2. Medidas de Variación
Amplitud = 40 Varianza = 358.33
Desv. Estándar=18.93 Coeficiente de Variación = 0.1941 3. Medidas de Posición
E. ANÁLISIS DE RESULTADOS, CONCLUSIONES, RECOMENDACIONES Y TOMA DE DECISIONES