Instrumentos y matriz de datos
Curso: Estadística
Profesor:
:Dina Ñuflo Valdivia
Fecha: 26/09/2017
Estadística Descriptiva
LOGRO DE LA SESIÓN
Al finalizar la sesión, el
estudiante estará en la
capacidad de calcular e
interpretar medidas de
dispersión
de
datos
numéricos sin agrupar y
agrupados en tablas de
frecuencias.
Sesión 6: Medidas de dispersión
CONTENIDO
SABERES PREVIOS
1. Rango.
2. Rango intercuartílico.
3. Varianza.
4. Desviación estándar.
5. Coeficiente de variación.
➲
Promedio aritmético.
Introducción
•¿Los promedios proporcionan suficiente información
para una adecuada descripción de los datos?
•¿Por qué estudiar la dispersión?
•¿Qué medida de dispersión es la más adecuada para
comparar variabilidades entre dos conjuntos de datos?
Introducción
•Los estudiantes de Estadística reciben diferentes calificaciones en la asignatura (variabilidad). ¿A qué puede deberse?
➢Diferencias individuales en el conocimiento de la materia.
•¿Podría haber otras razones (fuentes de variabilidad)?
•Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. ¿Las notas serían las mismas en todos? Seguramente No.
– Dormir poco el día del examen, no desayunaste,...
➢Diferencias individuales en la habilidad para hacer un examen.
– El examen no es una medida perfecta del conocimiento.
Medidas Resumen
Media Aritmética Mediana
Moda
Descripción Numerica de Datos
Varianza Desviación Estándar Coeficiente de Variación Rango Rango Intercuartílico Asimetría
Tendencia Central Variación Forma
Cuartiles Percentiles
¿Qué son las Medidas de Dispersión?
•
Son las que miden el grado de
concentración o dispersión de los
valores de una variable en torno
de un
promedio
.
Los más utilizados son:
•
Rango o Recorrido
•
Recorrido Intercuartílico (RIC)
•
Varianza y Desviación estándar
•
Coeficiente de Variación
¿Cómo sabré si un promedio es confiable?, o si los datos están concentrados.
Variabilidad o Dispersión
▪
Baja dispersión = Alta concentración=Datos
homogéneos.
▪
Alta dispersión = Baja concentración=Datos
heterogéneos.
Imagen visual de la Distribución de la variable
La media provee una buena representación de los valores en la base de datos.
Datos de baja variabilidad
Datos con alta variabilidad
La media ya NO provee una buena información de los datos.
Al incrementar datos la distribución cambia..
Mismo centro, Variación diferente
Medidas de Dispersión
Variación Varianza Desviación Estándar Coeficiente de Variación Rango Rango Intercuartílico• Medidas de dispersión
dan información sobre
la
dispersión
o
variabilidad
de los
datos.
Variabilidad o Dispersión
Miden el grado de dispersión de los datos.•
Rango
(
R
):
Es la diferencia entre las observaciónes extremas. – Ejemplo: Datos; 2,1,4,3,8,4.
– Es muy sensible a los valores extremos.
•
Rango intercuartílico
(
RIC
):
– Es la diferencia entre el tercer y primer cuartil.
Ejemplo:
DVD - Satisfacción
Niveles de satisfacción de 20 clientes:
1 3 5 5 7 8 8 8 8 8 8 9 9 9 9 9 10 10 10 10
Q
1= (7+8)/2 = 7.5
Me = (8+8)/2 = 8
Q
3= (9+9)/2 = 9
RIC = Q
3− Q
1= 9 − 7.5 = 1.5
n=2025
%
25
%
25
%
25
%
Q
3
Q
2
Q
1
Las puntuaciones de un exámen de15 estudiantes se listan abajo.
Halle el primer, segundo y tercer cuartíl de las puntuaciones, y el RIC.
28 43 48 51 43 30 55 44 48 33 45 37 37 42 38
Datos Ordenados:
28 30 33 37 37 38 42 43 43 44 45 48 48 51 55
Mitad inferior
Mitad Superior
Q2
Q1 Q3
Ejemplo: Rango Intercuartílico (RIC)
= 48 – 37 =
11
Las puntuaciones del exámen en la parte media de los datos varian al menos en 11 puntos.
DESVIACIÓN ESTÁNDAR
•
Mide
la dispersión de los datos con respecto al promedio
.
Cuanto menor es la desviación estándar, menos dispersos están
los datos con respecto al promedio.
•
Llamada también desviación típica.
•
En la práctica, la desviación estándar se utiliza con más
frecuencia que la varianza.
•
Una de las razones es que se expresa en las mismas unidades
de medida de la variable.
DESVIACIÓN ESTÁNDAR (
s
)
Interpretación del valor de
“
s
”
•
Tomemos como ejemplo las siguientes estadísticas de las
edades de pacientes atendidos en un consultorio médico:
Media = 39,80 años y s = 13,74 años
•
La dispersión media de las edades de los pacientes con
respecto al promedio es de 13,74 años, o bien así:
•
La variabilidad media de las edades de los pacientes en
relación al promedio es de 13,74 años.
Varianza y Desviación Estándar
Para facilitar los cálculos de s
2(la
varianza)
utilizaremos la ecuación equivalente:
Desviación estándar muestral:
Fórmula alternativa para
s
2
Ejemplo:
Los pesos (en libras) de una muestra de cinco
cajas que se envían por UPS (empresa de mensajería)
son los siguientes: 12, 6, 7, 3 y 10. Calcule la varianza y
la desviación estándar.
Varianza muestral S
2:
Desviación estándar muestral S:
Interpretación:
En promedio, los pesos de las
cajas varian 3,51 libras respecto de la media de 7,6
libras.
MEDIDAS DE DISPERSIÓN
Coeficiente de Variación
Es la razón entre la desviación estándar y la media.
◻ También se la denomina variabilidad relativa. ◻ Es frecuente mostrarla en porcentajes.
• Si la media es 80 y la desviación estándar 20 entonces
CV=20/80=0,25=25% (variabilidad relativa).
■ Es una cantidad adimensional. Conveniente para comparar dos o más conjuntos de datos medidos en unidades diferentes.
◻ Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos
Se usa como estadístico de comparación respecto al cual se
establece
si un conjunto de datos es homogéneo o heterogéneo.
-
Si CV ≤ 30% → los datos son homogéneos
(baja dispersión).
-
Si CV > 30% → los datos son heterogéneos.
(alto grado de dispersión).
Variabilidad o Dispersión
▪
¿Cuál de las siguientes variables presenta un menor
grado de dispersión?
▪
¿Cuál de las siguientes variables presenta un mayor
grado de dispersión?
• Solución:
• Media = 2.1667
• Desv. Estándar = 1.4035
Ejemplo 1: Variabilidad o Dispersión
Ante la pregunta sobre el número de hijos por familia, una muestra de 12 hogares, marcó las siguientes respuestas:
2 1 2 4 1 3
2 3 2 0 5 1
Calcule el coeficiente de dispersión de los datos
Interpretación: Como C.V.= 64.78% > 30% concluimos que la distribución del número de hijos por familia es heterogénea.
Ejemplo 2: Dos marcas de máquinas A y B, han sido diseñadas para cierto
tipo de producción. Tienen igual precio. Un fabricante para decidir cual comprar ha observado 10 máquinas diferentes de cada marca en operación durante
una hora. El promedio y la desviación estándar de artículos producidos por cada máquina es respectivamente: A; Media= 40.3, DE=4.27; B; Media= 40.8, DE=10.22. Halle C.V. e indique cual de las dos máquinas tiene menor
dispersión en las unidades de artículos producidos. • Máquina A: • Media = 40.3 • Desv. Estándar = 4.27 • Máquina B: • Media = 40.8 • Desv. Estándar = 10.22
Interpretación: Como C.V.= 10.60% < 25.05% concluimos que las máquinas A tienen menor dispersión relativa que las máquinas B. Es decir, el rendimiento de la marca A es mejor que el de la marca B.
Asimétrica
Negativa
Moda Mediana MediaSimétrica
(No Asimétrica)
Media Mediana ModaAsimétrica
Positiva
Moda Mediana Media•
Si
media=mediana=moda
, la distribución es simétrica.
•
Si
media<mediana
, la distribución es asimétrica negativa.
•
Si
media>mediana
, la distribución es asimétrica positiva.
Este diagrama permite determinar, en forma
gráfica, lo siguiente:
✵
Valores extremos o atípicos (outliers).
✵La tendencia central.
✵
La variabilidad.
✵
La asimetría de la distribución.
Estos gráficos son bastante útiles para comparar dos
o más conjuntos de datos en cuanto a su tendencia
central y variabilidad.
Diagrama de Cajas (Boxplots)
Outlier o Valor Extremo
Forma de la Distribución y BoxPlot
Asimétrica
Derecha
Asimétrica
Izquierda
Simétrica
Q1 Q2Q3 Q1Q2Q3 Q1 Q2 Q3Boxplots: Aplicación
El índice fog se utiliza para medir la dificultad para leer un texto escrito: cuanto más alto es el valor del índice, más difícil es el nivel de lectura. Se toman muestras aleatorias independientes de 6 anuncios de
Scientific American, Fortune y New Yorker. Se miden los índices fog de los 18 anuncios y se anotan en la Tabla siguiente.
Scientific
American Fortune New Yorker
15,75 12,63 9,27 11,55 11,46 8,28 11,16 10,77 8,15 9,92 9,93 6,37 9,93 9,87 6,37 8,20 9,42 5,66
Boxplots: Aplicación
Objetivo del investigador:
Comparar los niveles de dificultad (en índices fog) para leer un texto escrito.
Grupos de comparación:
Grupo 1: Índice promedio de dificultad de la revista Scientific American.
Grupo 2: Índice promedio de dificultad de la revista Fortune.
33
Tipo de Revista Estadístico
Índice fog (Dificultad de Lectura) Scientific American Varianza 7,005 Desv. típ. 2,64665 Coeficiente Variación 0,241229 Rango 7,55 Amplitud intercuartil 3,63 Fortune Varianza 1,445 Desv. típ. 1,20210 Coeficiente Variación 0,112556 Rango 3,21 Amplitud intercuartil 2,00 New Yorker Varianza 1,994 Desv. típ. 1,41196 Coeficiente Variación 0,192103 Rango 3,61 Amplitud intercuartil 2,34
Boxplots: Aplicación
Boxplots: Problema
Se llevó a cabo una encuesta entre los miembros del Club del libro del mes, para verificar si pasan más tiempo viendo televisión que leyendo. Suponga que en una muestra de 15 encuestados se obtuvieron las horas semanales que se dedican a ver televisión y las que se dedican a la lectura.
Encuestados Televisión Leyendo
1 10 6 2 14 16 3 16 8 4 18 10 5 15 10 6 14 8 7 10 14 8 12 14 9 4 7 10 8 8 11 16 5 12 5 10 13 8 3 14 19 10 15 11 6
Boxplots: Problema
Comente que le indican los Diagrama de Cajas (Boxplots)
¿Como se podrían comparar estas dos actividades?
Encuesta entre los
miembros del Club del libro
del mes, para comparar si
pasan más tiempo viendo
televisión que leyendo.
Conclusión:
•
Las medidas de dispersión son
necesarias para dos propósitos
básicos:
•
Para verificar la confiabilidad de
los promedios, y
•
Para que sirva como base para el
control de la variación misma.
Ahora estamos listos para describir y analizar datos estadísticos