1
ESTADÍSTICA DESCRIPTIVA
En esta parte aprenderemos a trabajar con los datos y a resumirlos, de manera gráfica y numérica, para convertirlos en información útil para el problema en estudio.
La estadística descriptiva trata dos aspectos: el obtener información de los datos también conocido como “análisis exploratorio de datos” y por otro lado se preocupa de la "presentación de resultados".
En este parte hablaremos sobre:
Tipos de Variables
Métodos gráficos y numéricos para describir variables cualitativas - Tablas de distribución de frecuencias.
- Gráficos para variables cualitativas: Sectorial y de Barras.
Métodos gráficos para describir variables cuantitativas - Gráfico de Puntos.
- Diagrama de Tallo y Hojas. - Histograma.
Métodos numéricos para describir variables cuantitativas - Medidas de Tendencia Central: Promedio, Mediana, Moda.
- Medidas de Dispersión: Rango, Desviación Estándar, Rango entre Cuarteles. - Medidas de Posición Relativa.
Transformaciones lineales y estandarización
Definiciones:
Unidad es el objeto que observamos. Cuando el objeto es una persona, lo referimos como sujeto.
Observación es la información o característica que registramos de cada unidad. Una característica que puede variar de unidad en unidad es llamada variable. Una colección de observaciones con una o más variables se llama base de datos.
2
número de casos, comparar entre categorías, pero no podemos realizar operaciones numéricas.
Variables cuantitativas tienen valores numéricos que representan medidas (largo, peso, etc.) o
frecuencias (número de). Tiene sentido realizar operaciones numéricas con estas variables. Además distinguimos dentro de las variables cuantitativas las discretas y las continuas. Una variable discreta es aquella en la cuál se puede contar el número posible de valores. Una variable continua puede tomar cualquier valor en un intervalo dado.
Ejemplo
Nominal: está asociada a nombres. Ejemplo: Marca de auto, Sexo, Religión.
Ordinal: tiene asociado un orden.
Ejemplo: Nivel educacional, Estado nutricional, Nivel Socioeconómico.
Discreta: sólo puede tomar un número finito (o contable) de posible valores. Ejemplo: El número de respuestas correctas en una prueba de 5 preguntas de V o F.
Continua: puede tomar cualquier valor en un intervalo(s). Ejemplo: Cantidad de agua en un vaso de 50 ml.
TABLAS DE FRECUENCIAS Y GRAFICOS USADOS EN LA ORGANIZACIÓN DE
DATOS
Ejemplo:
3
DISTRIBUCION DE FRECUENCIAS
Lo primero que hacemos al querer describir variables cualitativas es contar cuántas unidades caen en cada categoría de la variable. Esto lo presentamos en una tabla de distribución de frecuencias, por ejemplo de la variable cualitativa: “Razón de visita”:
Gráficos para variables cualitativas.
Una vez que conocemos la distribución de la variable, nos interesa presentarla de alguna manera gráfica, uno de los gráficos o diagramas más usados en variables cualitativas son los diagramas sectoriales o de torta y los gráficos de barra.
Un gráfico sectorial (o de torta) muestra la distribución de una variable cualitativa dividiendo un círculo en partes que corresponden a las categorías de la variable, tal que el tamaño (ángulo) de cada pedazo es proporcional al porcentaje de ítems en cada categoría.
4
6
7
Formas de distribuciones
Los términos usados para describir la forma de una distribución son:
Simétrica: La distribución puede ser dividida en dos partes alrededor de un valor central y cada parte es el reflejo de la otra.
Sesgada: Un lado de la distribución se alarga más que el otro. La dirección del sesgo es la dirección del lado más largo.
Unimodal: La distribución tiene un único máximo que muestra el o los valores más comunes en los datos.
Bimodal: La distribución tiene dos máximos. Esto resulta a menudo cuando la muestra proviene de dos poblaciones.
8
Diagrama de Tallo y Hojas (Stem and Leaf).
Los gráficos o diagramas de tallo y hoja son una manera muy fácil de ordenar y mirar la distribución de los datos. Proporciona información respecto al rango del conjunto de datos, muestra la ubicación de la mayor concentración de mediciones y revela la presencia o ausencia de distribución de los datos.
Pasos para hacer un Tallo y Hoja:
1. Separar cada medida en un tallo y una hoja.
Generalmente la hoja consiste en exactamente un dígito (el último) y el tallo consiste en uno o más dígitos.
Ejemplo: 734 => tallo=73, hoja=4 2,345 => tallo=2,34, hoja=5.
A veces se deja fuera el decimal pero se agrega una nota de cómo leer el valor. Para 2,345 por ejemplo podremos decir que 234 | 5 se debe leer como 2,345.
2. Escribir los tallos en orden creciente de arriba abajo y dibujar una línea a la derecha de los tallos.
Ejemplo.
Separamos los números en un tallo y una hoja: 45 41 51 46 47 42 43 50 39 32 41 44 47 49 45 42 41 40 45 37 Solución
3 | 2 3 | 7 9
4 | 0 1 1 1 2 2 3 4 4 | 5 5 5 6 7 7 9 5 | 0 1
9
Usando el SPSS se tiene el diagrama de Tallos y Hojas para los datos de gastos semanales de la tienda VENDO
Diagrama de dispersión
También llamado “Scatterplot”, muestra la dispersión de datos bivariados, los cuales consisten de observaciones pareadas obtenidas desde dos variables numéricas. Es usado para detectar la posible relación entre las dos variables.
10
Diagrama de Cajas: También llamado “Boxplot”, muestra la dispersión de la variable en estudio. Es usando para comparar la variabilidad de dos o más conjuntos de datos.
MEDIDAS DE TENDENCIA CENTRAL
1. LA MEDIA ARITMETICA
Para Datos No Agrupados.
El promedio aritmético de un conjunto de valores es:
11 2. LA MEDIANA
Es el valor que ocupa la posición central de un conjunto de observaciones ordenadas. El 50% de las observaciones son mayores que este valor y el otro 50% son menores.
Para Datos No agrupados.
Para Datos agrupados.
12 3. LA MODA
Es el valor, clase o categoría que ocurre con mayor frecuencia y sus características son: - Puede no existir o existir más de una moda
- Su valor no se ve afectado por los valores extremos en los datos
- Se utiliza para analizar tanto la información cualitativa como la cuantitativa - Es una medida “inestable” cuando en número de datos es reducido.
Para Datos No Agrupados.
Por ejemplo, durante los últimos 32 días el valor de las compras en periódicos fue:
{ 5.2, 10.2, 7.0, 7.1, 10.2, 8.3, 9.4, 9.2, 6.5, 7.1, 6.6, 7.8, 6.8, 7.1, 8.4, 9.6, 8.5, 5.7, 6.4, 10.1, 8.2, 9.0, 7.8, 8.2, 5.3, 6.2, 9.1, 8.6, 7.0, 7.7, 8.3, 7.5 }
Moda = Mo = 7.1; Es el valor más frecuente, ocurre 3 veces.
13 4. MEDIA GEOMÉTRICA
Corresponde al valor representativo central de observaciones secuenciales y estrechamente relacionadas entre sí tales como tasas de: interés,
14 5. PROMEDIO PONDERADO
Cuando se desea encontrar el promedio de valores (X1 X2 ... Xk ) que ocurren con frecuencias (f1,f2 ... fk ) diferentes se deberán ponderar los valores observados con pesos diferentes:
6. PROMEDIO TOTAL
15 7. MEDIA ARMÓNICA
El promedio armónico de los valores: (X1 X2 ... Xn ) donde ninguno toma el valor “cero” es:
16 PERCENTILES, CUARTILES Y DECILES
Para Datos Agrupados
Percentiles: Son 99 valores que dividen a un conjunto de datos en 100 partes iguales.
Cuartiles: Son 3 valores Q1; Q2 y Q3 que dividen a los datos en 4 partes iguales
El Cuartil 3 (Percentil 75%) se ubicará en el cuarto intervalo
17 Para Datos No Agrupados
18
B. MEDIDAS DE VARIABILIDAD
1. AMPLITUD O RANGO
Sean los valores: (x1 x2 x3 ... xn ). La amplitud o rango de estos dato es A=(Xmax-Xmin)
2. VARIANCIA
Para Datos No Agrupados
Para Datos Agrupados
19 3. DESVIACIÓN ESTÁNDAR
Es una medida de variabilidad que corresponde a la raíz cuadrada de la variancia. Este indicador tiene la misma unidad de medida en la que se expresa el promedio.
4. COEFICIENTE DE VARIABILIDAD
Es una medida de variabilidad de los datos que se expresa en porcentaje en la cual se compara la desviación estándar con el respectivo valor del promedio de los datos:
C. MEDIDA DE FORMA: ASIMETRIA O SESGO
20 D. MEDIDA DE FORMA: CURTOSIS
Evalúa el grado de apuntamiento de la distribución, el coeficiente es:
GRAFICA DE CAJAS
El diagrama de caja se construye de la siguiente manera:
Dibujar la caja que empieza en el primer cuartil y termina en el tercer cuartil. Dibujar la mediana con una línea dentro de la caja
Localizar los dos valores adyacentes por medio de la escala a lo largo del eje horizontal, y unamos a la caja con líneas horizontales llamados Bigotes.
Cualquier valor atípico sospechoso se marca en el gráfico con un (*) y está entre los bordes internos y externos los valores atípicos extremos se marcan con un círculo (°) y est.an fuera del borde externo
NOTAS
Los valores adyacentes son las últimas observaciones en el conjunto ordenado antes del borde interno.
Los bordes internos también son llamados limite inferior y limite superior y están dadas por .
21
Si la distancia entre la mediana y los cuartiles es aproximadamente la misma podemos deducir que la distribución de los datos es más o menos simétrica como como se ve en el histograma y en el diagrama de tallo y hoja.
Del ejemplo, valores de compras en periódicos en los últimos 32 dias del Hotel AAA { 5.2, 10.2, 7.0, 7.1, 10.6, 8.3, 9.4, 9.2, 6.5, 7.1, 6.6, 7.8, 6.8, 7.1, 8.4, 9.6, 8.5, 5.7, 6.4, 10.1, 8.2, 9.0, 7.8, 8.2, 5.3, 6.2, 9.1, 8.6, 7.0, 7.7, 8.3, 7.5 }