• No se han encontrado resultados

Estadística Descriptiva

N/A
N/A
Protected

Academic year: 2021

Share "Estadística Descriptiva"

Copied!
38
0
0

Texto completo

(1)

Instrumentos y matriz de datos

Curso: Estadística

Profesor:

:Dina Ñuflo Valdivia

Fecha: 26/09/2017

Estadística Descriptiva

(2)

LOGRO DE LA SESIÓN

Al finalizar la sesión, el

estudiante estará en la

capacidad de calcular e

interpretar medidas de

dispersión

de

datos

numéricos sin agrupar y

agrupados en tablas de

frecuencias.

(3)

Sesión 6: Medidas de dispersión

CONTENIDO

SABERES PREVIOS

1. Rango.

2. Rango intercuartílico.

3. Varianza.

4. Desviación estándar.

5. Coeficiente de variación.

Promedio aritmético.

(4)

Introducción

•¿Los promedios proporcionan suficiente información

para una adecuada descripción de los datos?

•¿Por qué estudiar la dispersión?

•¿Qué medida de dispersión es la más adecuada para

comparar variabilidades entre dos conjuntos de datos?

(5)

Introducción

•Los estudiantes de Estadística reciben diferentes calificaciones en la asignatura (variabilidad). ¿A qué puede deberse?

Diferencias individuales en el conocimiento de la materia.

•¿Podría haber otras razones (fuentes de variabilidad)?

•Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. ¿Las notas serían las mismas en todos? Seguramente No.

– Dormir poco el día del examen, no desayunaste,...

Diferencias individuales en la habilidad para hacer un examen.

– El examen no es una medida perfecta del conocimiento.

(6)
(7)

Medidas Resumen

Media Aritmética Mediana

Moda

Descripción Numerica de Datos

Varianza Desviación Estándar Coeficiente de Variación Rango Rango Intercuartílico Asimetría

Tendencia Central Variación Forma

Cuartiles Percentiles

(8)

¿Qué son las Medidas de Dispersión?

Son las que miden el grado de

concentración o dispersión de los

valores de una variable en torno

de un

promedio

.

Los más utilizados son:

Rango o Recorrido

Recorrido Intercuartílico (RIC)

Varianza y Desviación estándar

Coeficiente de Variación

¿Cómo sabré si un promedio es confiable?, o si los datos están concentrados.

(9)

Variabilidad o Dispersión

Baja dispersión = Alta concentración=Datos

homogéneos.

Alta dispersión = Baja concentración=Datos

heterogéneos.

(10)

Imagen visual de la Distribución de la variable

La media provee una buena representación de los valores en la base de datos.

Datos de baja variabilidad

Datos con alta variabilidad

La media ya NO provee una buena información de los datos.

Al incrementar datos la distribución cambia..

(11)

Mismo centro, Variación diferente

Medidas de Dispersión

Variación Varianza Desviación Estándar Coeficiente de Variación Rango Rango Intercuartílico

• Medidas de dispersión

dan información sobre

la

dispersión

o

variabilidad

de los

datos.

(12)

Variabilidad o Dispersión

Miden el grado de dispersión de los datos.

Rango

(

R

):

Es la diferencia entre las observaciónes extremas. – Ejemplo: Datos; 2,1,4,3,8,4.

– Es muy sensible a los valores extremos.

Rango intercuartílico

(

RIC

):

– Es la diferencia entre el tercer y primer cuartil.

(13)

Ejemplo:

DVD - Satisfacción

Niveles de satisfacción de 20 clientes:

1 3 5 5 7 8 8 8 8 8 8 9 9 9 9 9 10 10 10 10

Q

1

= (7+8)/2 = 7.5

Me = (8+8)/2 = 8

Q

3

= (9+9)/2 = 9

RIC = Q

3

− Q

1

= 9 − 7.5 = 1.5

n=20

25

%

25

%

25

%

25

%

Q

3

Q

2

Q

1

(14)

Las puntuaciones de un exámen de15 estudiantes se listan abajo.

Halle el primer, segundo y tercer cuartíl de las puntuaciones, y el RIC.

28 43 48 51 43 30 55 44 48 33 45 37 37 42 38

Datos Ordenados:

28 30 33 37 37 38 42 43 43 44 45 48 48 51 55

Mitad inferior

Mitad Superior

Q2

Q1 Q3

Ejemplo: Rango Intercuartílico (RIC)

= 48 – 37 =

11

Las puntuaciones del exámen en la parte media de los datos varian al menos en 11 puntos.

(15)

DESVIACIÓN ESTÁNDAR

Mide

la dispersión de los datos con respecto al promedio

.

Cuanto menor es la desviación estándar, menos dispersos están

los datos con respecto al promedio.

Llamada también desviación típica.

En la práctica, la desviación estándar se utiliza con más

frecuencia que la varianza.

Una de las razones es que se expresa en las mismas unidades

de medida de la variable.

(16)

DESVIACIÓN ESTÁNDAR (

s

)

Interpretación del valor de

s

Tomemos como ejemplo las siguientes estadísticas de las

edades de pacientes atendidos en un consultorio médico:

Media = 39,80 años y s = 13,74 años

La dispersión media de las edades de los pacientes con

respecto al promedio es de 13,74 años, o bien así:

La variabilidad media de las edades de los pacientes en

relación al promedio es de 13,74 años.

(17)

Varianza y Desviación Estándar

Para facilitar los cálculos de s

2

(la

varianza)

utilizaremos la ecuación equivalente:

Desviación estándar muestral:

(18)

Fórmula alternativa para

s

2

Ejemplo:

Los pesos (en libras) de una muestra de cinco

cajas que se envían por UPS (empresa de mensajería)

son los siguientes: 12, 6, 7, 3 y 10. Calcule la varianza y

la desviación estándar.

Varianza muestral S

2

:

Desviación estándar muestral S:

Interpretación:

En promedio, los pesos de las

cajas varian 3,51 libras respecto de la media de 7,6

libras.

(19)

MEDIDAS DE DISPERSIÓN

(20)

Coeficiente de Variación

Es la razón entre la desviación estándar y la media.

También se la denomina variabilidad relativa.Es frecuente mostrarla en porcentajes.

Si la media es 80 y la desviación estándar 20 entonces

CV=20/80=0,25=25% (variabilidad relativa).

Es una cantidad adimensional. Conveniente para comparar dos o más conjuntos de datos medidos en unidades diferentes.

Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos

(21)

Se usa como estadístico de comparación respecto al cual se

establece

si un conjunto de datos es homogéneo o heterogéneo.

-

Si CV ≤ 30% → los datos son homogéneos

(baja dispersión).

-

Si CV > 30% → los datos son heterogéneos.

(alto grado de dispersión).

(22)

Variabilidad o Dispersión

¿Cuál de las siguientes variables presenta un menor

grado de dispersión?

¿Cuál de las siguientes variables presenta un mayor

grado de dispersión?

(23)

Solución:

Media = 2.1667

Desv. Estándar = 1.4035

Ejemplo 1: Variabilidad o Dispersión

Ante la pregunta sobre el número de hijos por familia, una muestra de 12 hogares, marcó las siguientes respuestas:

2 1 2 4 1 3

2 3 2 0 5 1

Calcule el coeficiente de dispersión de los datos

Interpretación: Como C.V.= 64.78% > 30% concluimos que la distribución del número de hijos por familia es heterogénea.

(24)

Ejemplo 2: Dos marcas de máquinas A y B, han sido diseñadas para cierto

tipo de producción. Tienen igual precio. Un fabricante para decidir cual comprar ha observado 10 máquinas diferentes de cada marca en operación durante

una hora. El promedio y la desviación estándar de artículos producidos por cada máquina es respectivamente: A; Media= 40.3, DE=4.27; B; Media= 40.8, DE=10.22. Halle C.V. e indique cual de las dos máquinas tiene menor

dispersión en las unidades de artículos producidos. • Máquina A: Media = 40.3 Desv. Estándar = 4.27Máquina B: Media = 40.8 Desv. Estándar = 10.22

Interpretación: Como C.V.= 10.60% < 25.05% concluimos que las máquinas A tienen menor dispersión relativa que las máquinas B. Es decir, el rendimiento de la marca A es mejor que el de la marca B.

(25)

Asimétrica

Negativa

Moda Mediana Media

Simétrica

(No Asimétrica)

Media Mediana Moda

Asimétrica

Positiva

Moda Mediana Media

Si

media=mediana=moda

, la distribución es simétrica.

Si

media<mediana

, la distribución es asimétrica negativa.

Si

media>mediana

, la distribución es asimétrica positiva.

(26)

Este diagrama permite determinar, en forma

gráfica, lo siguiente:

Valores extremos o atípicos (outliers).

La tendencia central.

La variabilidad.

La asimetría de la distribución.

Estos gráficos son bastante útiles para comparar dos

o más conjuntos de datos en cuanto a su tendencia

central y variabilidad.

(27)
(28)

Diagrama de Cajas (Boxplots)

Outlier o Valor Extremo

(29)

Forma de la Distribución y BoxPlot

Asimétrica

Derecha

Asimétrica

Izquierda

Simétrica

Q1 Q2Q3 Q1Q2Q3 Q1 Q2 Q3

(30)

Boxplots: Aplicación

El índice fog se utiliza para medir la dificultad para leer un texto escrito: cuanto más alto es el valor del índice, más difícil es el nivel de lectura. Se toman muestras aleatorias independientes de 6 anuncios de

Scientific American, Fortune y New Yorker. Se miden los índices fog de los 18 anuncios y se anotan en la Tabla siguiente.

Scientific

American Fortune New Yorker

15,75 12,63 9,27 11,55 11,46 8,28 11,16 10,77 8,15 9,92 9,93 6,37 9,93 9,87 6,37 8,20 9,42 5,66

(31)

Boxplots: Aplicación

Objetivo del investigador:

Comparar los niveles de dificultad (en índices fog) para leer un texto escrito.

Grupos de comparación:

Grupo 1: Índice promedio de dificultad de la revista Scientific American.

Grupo 2: Índice promedio de dificultad de la revista Fortune.

(32)
(33)

33

Tipo de Revista Estadístico

Índice fog (Dificultad de Lectura) Scientific American Varianza 7,005 Desv. típ. 2,64665 Coeficiente Variación 0,241229 Rango 7,55 Amplitud intercuartil 3,63 Fortune Varianza 1,445 Desv. típ. 1,20210 Coeficiente Variación 0,112556 Rango 3,21 Amplitud intercuartil 2,00 New Yorker Varianza 1,994 Desv. típ. 1,41196 Coeficiente Variación 0,192103 Rango 3,61 Amplitud intercuartil 2,34

Boxplots: Aplicación

(34)

Boxplots: Problema

Se llevó a cabo una encuesta entre los miembros del Club del libro del mes, para verificar si pasan más tiempo viendo televisión que leyendo. Suponga que en una muestra de 15 encuestados se obtuvieron las horas semanales que se dedican a ver televisión y las que se dedican a la lectura.

Encuestados Televisión Leyendo

1 10 6 2 14 16 3 16 8 4 18 10 5 15 10 6 14 8 7 10 14 8 12 14 9 4 7 10 8 8 11 16 5 12 5 10 13 8 3 14 19 10 15 11 6

(35)

Boxplots: Problema

Comente que le indican los Diagrama de Cajas (Boxplots)

¿Como se podrían comparar estas dos actividades?

Encuesta entre los

miembros del Club del libro

del mes, para comparar si

pasan más tiempo viendo

televisión que leyendo.

(36)
(37)

Conclusión:

Las medidas de dispersión son

necesarias para dos propósitos

básicos:

Para verificar la confiabilidad de

los promedios, y

Para que sirva como base para el

control de la variación misma.

Ahora estamos listos para describir y analizar datos estadísticos

(38)

“Las estadísticas no sustituyen el juicio.”

Referencias

Documento similar

•La Teoría de Conjuntos nos permite utilizar los conjuntos como herramienta para analizar, clasificar y ordenar diversos datos que nos ayudan a la toma de decisiones.. • The

•cero que suplo con arreglo á lo que dice el autor en el Prólogo de su obra impresa: «Ya estaba estendida esta Noticia, año de 1750; y pareció forzo- so detener su impresión

que hasta que llegue el tiempo en que su regia planta ; | pise el hispano suelo... que hasta que el

Otra conclusión interesante es que se considera que las pruebas de normalidad tradicionales con enfoque al teo- rema del límite central, como el criterio de regla empírica y

En el capítulo de desventajas o posibles inconvenientes que ofrece la forma del Organismo autónomo figura la rigidez de su régimen jurídico, absorbentemente de Derecho público por

Centrándonos en la parte de Estadística Descriptiva, mostramos cómo estas simulaciones interactivas se pueden incorporar a prácticas de análisis de datos que utilizan un software

Del cual se obtiene la siguiente información, aplicando la estadística descriptiva: Análisis de frecuencia de datos a cada uno de los indicadores que integran las variables, tanto

Posteriormente se analizaron los datos a través de métodos estadísticos tales como estadística descriptiva y análisis multivariado de correspondencias múltiples,