ESTADÍSTICA DESCRIPTIVA con SPSS

23  12  Descargar (0)

Texto completo

(1)

1

ESTADÍSTICA DESCRIPTIVA

En esta parte aprenderemos a trabajar con los datos y a resumirlos, de manera gráfica y numérica, para convertirlos en información útil para el problema en estudio.

La estadística descriptiva trata dos aspectos: el obtener información de los datos también conocido como “análisis exploratorio de datos” y por otro lado se preocupa de la "presentación de resultados".

En este parte hablaremos sobre:

Tipos de Variables

Métodos gráficos y numéricos para describir variables cualitativas - Tablas de distribución de frecuencias.

- Gráficos para variables cualitativas: Sectorial y de Barras.

Métodos gráficos para describir variables cuantitativas - Gráfico de Puntos.

- Diagrama de Tallo y Hojas. - Histograma.

Métodos numéricos para describir variables cuantitativas - Medidas de Tendencia Central: Promedio, Mediana, Moda.

- Medidas de Dispersión: Rango, Desviación Estándar, Rango entre Cuarteles. - Medidas de Posición Relativa.

Transformaciones lineales y estandarización

Definiciones:

Unidad es el objeto que observamos. Cuando el objeto es una persona, lo referimos como sujeto.

Observación es la información o característica que registramos de cada unidad. Una característica que puede variar de unidad en unidad es llamada variable. Una colección de observaciones con una o más variables se llama base de datos.

(2)

2

número de casos, comparar entre categorías, pero no podemos realizar operaciones numéricas.

Variables cuantitativas tienen valores numéricos que representan medidas (largo, peso, etc.) o

frecuencias (número de). Tiene sentido realizar operaciones numéricas con estas variables. Además distinguimos dentro de las variables cuantitativas las discretas y las continuas. Una variable discreta es aquella en la cuál se puede contar el número posible de valores. Una variable continua puede tomar cualquier valor en un intervalo dado.

Ejemplo

Nominal: está asociada a nombres. Ejemplo: Marca de auto, Sexo, Religión.

Ordinal: tiene asociado un orden.

Ejemplo: Nivel educacional, Estado nutricional, Nivel Socioeconómico.

Discreta: sólo puede tomar un número finito (o contable) de posible valores. Ejemplo: El número de respuestas correctas en una prueba de 5 preguntas de V o F.

Continua: puede tomar cualquier valor en un intervalo(s). Ejemplo: Cantidad de agua en un vaso de 50 ml.

TABLAS DE FRECUENCIAS Y GRAFICOS USADOS EN LA ORGANIZACIÓN DE

DATOS

Ejemplo:

(3)

3

DISTRIBUCION DE FRECUENCIAS

Lo primero que hacemos al querer describir variables cualitativas es contar cuántas unidades caen en cada categoría de la variable. Esto lo presentamos en una tabla de distribución de frecuencias, por ejemplo de la variable cualitativa: “Razón de visita”:

Gráficos para variables cualitativas.

Una vez que conocemos la distribución de la variable, nos interesa presentarla de alguna manera gráfica, uno de los gráficos o diagramas más usados en variables cualitativas son los diagramas sectoriales o de torta y los gráficos de barra.

Un gráfico sectorial (o de torta) muestra la distribución de una variable cualitativa dividiendo un círculo en partes que corresponden a las categorías de la variable, tal que el tamaño (ángulo) de cada pedazo es proporcional al porcentaje de ítems en cada categoría.

(4)

4

(5)
(6)

6

(7)

7

Formas de distribuciones

Los términos usados para describir la forma de una distribución son:

Simétrica: La distribución puede ser dividida en dos partes alrededor de un valor central y cada parte es el reflejo de la otra.

Sesgada: Un lado de la distribución se alarga más que el otro. La dirección del sesgo es la dirección del lado más largo.

 Unimodal: La distribución tiene un único máximo que muestra el o los valores más comunes en los datos.

 Bimodal: La distribución tiene dos máximos. Esto resulta a menudo cuando la muestra proviene de dos poblaciones.

(8)

8

Diagrama de Tallo y Hojas (Stem and Leaf).

Los gráficos o diagramas de tallo y hoja son una manera muy fácil de ordenar y mirar la distribución de los datos. Proporciona información respecto al rango del conjunto de datos, muestra la ubicación de la mayor concentración de mediciones y revela la presencia o ausencia de distribución de los datos.

Pasos para hacer un Tallo y Hoja:

1. Separar cada medida en un tallo y una hoja.

Generalmente la hoja consiste en exactamente un dígito (el último) y el tallo consiste en uno o más dígitos.

Ejemplo: 734 => tallo=73, hoja=4 2,345 => tallo=2,34, hoja=5.

A veces se deja fuera el decimal pero se agrega una nota de cómo leer el valor. Para 2,345 por ejemplo podremos decir que 234 | 5 se debe leer como 2,345.

2. Escribir los tallos en orden creciente de arriba abajo y dibujar una línea a la derecha de los tallos.

Ejemplo.

Separamos los números en un tallo y una hoja: 45 41 51 46 47 42 43 50 39 32 41 44 47 49 45 42 41 40 45 37 Solución

3 | 2 3 | 7 9

4 | 0 1 1 1 2 2 3 4 4 | 5 5 5 6 7 7 9 5 | 0 1

(9)

9

Usando el SPSS se tiene el diagrama de Tallos y Hojas para los datos de gastos semanales de la tienda VENDO

Diagrama de dispersión

También llamado “Scatterplot”, muestra la dispersión de datos bivariados, los cuales consisten de observaciones pareadas obtenidas desde dos variables numéricas. Es usado para detectar la posible relación entre las dos variables.

(10)

10

Diagrama de Cajas: También llamado “Boxplot”, muestra la dispersión de la variable en estudio. Es usando para comparar la variabilidad de dos o más conjuntos de datos.

MEDIDAS DE TENDENCIA CENTRAL

1. LA MEDIA ARITMETICA

Para Datos No Agrupados.

El promedio aritmético de un conjunto de valores es:

(11)

11 2. LA MEDIANA

Es el valor que ocupa la posición central de un conjunto de observaciones ordenadas. El 50% de las observaciones son mayores que este valor y el otro 50% son menores.

Para Datos No agrupados.

Para Datos agrupados.

(12)

12 3. LA MODA

Es el valor, clase o categoría que ocurre con mayor frecuencia y sus características son: - Puede no existir o existir más de una moda

- Su valor no se ve afectado por los valores extremos en los datos

- Se utiliza para analizar tanto la información cualitativa como la cuantitativa - Es una medida “inestable” cuando en número de datos es reducido.

Para Datos No Agrupados.

Por ejemplo, durante los últimos 32 días el valor de las compras en periódicos fue:

{ 5.2, 10.2, 7.0, 7.1, 10.2, 8.3, 9.4, 9.2, 6.5, 7.1, 6.6, 7.8, 6.8, 7.1, 8.4, 9.6, 8.5, 5.7, 6.4, 10.1, 8.2, 9.0, 7.8, 8.2, 5.3, 6.2, 9.1, 8.6, 7.0, 7.7, 8.3, 7.5 }

Moda = Mo = 7.1; Es el valor más frecuente, ocurre 3 veces.

(13)

13 4. MEDIA GEOMÉTRICA

Corresponde al valor representativo central de observaciones secuenciales y estrechamente relacionadas entre sí tales como tasas de: interés,

(14)

14 5. PROMEDIO PONDERADO

Cuando se desea encontrar el promedio de valores (X1 X2 ... Xk ) que ocurren con frecuencias (f1,f2 ... fk ) diferentes se deberán ponderar los valores observados con pesos diferentes:

6. PROMEDIO TOTAL

(15)

15 7. MEDIA ARMÓNICA

El promedio armónico de los valores: (X1 X2 ... Xn ) donde ninguno toma el valor “cero” es:

(16)

16 PERCENTILES, CUARTILES Y DECILES

Para Datos Agrupados

Percentiles: Son 99 valores que dividen a un conjunto de datos en 100 partes iguales.

Cuartiles: Son 3 valores Q1; Q2 y Q3 que dividen a los datos en 4 partes iguales

El Cuartil 3 (Percentil 75%) se ubicará en el cuarto intervalo

(17)

17 Para Datos No Agrupados

(18)

18

B. MEDIDAS DE VARIABILIDAD

1. AMPLITUD O RANGO

Sean los valores: (x1 x2 x3 ... xn ). La amplitud o rango de estos dato es A=(Xmax-Xmin)

2. VARIANCIA

Para Datos No Agrupados

Para Datos Agrupados

(19)

19 3. DESVIACIÓN ESTÁNDAR

Es una medida de variabilidad que corresponde a la raíz cuadrada de la variancia. Este indicador tiene la misma unidad de medida en la que se expresa el promedio.

4. COEFICIENTE DE VARIABILIDAD

Es una medida de variabilidad de los datos que se expresa en porcentaje en la cual se compara la desviación estándar con el respectivo valor del promedio de los datos:

C. MEDIDA DE FORMA: ASIMETRIA O SESGO

(20)

20 D. MEDIDA DE FORMA: CURTOSIS

Evalúa el grado de apuntamiento de la distribución, el coeficiente es:

GRAFICA DE CAJAS

El diagrama de caja se construye de la siguiente manera:

 Dibujar la caja que empieza en el primer cuartil y termina en el tercer cuartil.  Dibujar la mediana con una línea dentro de la caja

 Localizar los dos valores adyacentes por medio de la escala a lo largo del eje horizontal, y unamos a la caja con líneas horizontales llamados Bigotes.

 Cualquier valor atípico sospechoso se marca en el gráfico con un (*) y está entre los bordes internos y externos los valores atípicos extremos se marcan con un círculo (°) y est.an fuera del borde externo

NOTAS

Los valores adyacentes son las últimas observaciones en el conjunto ordenado antes del borde interno.

 Los bordes internos también son llamados limite inferior y limite superior y están dadas por .

(21)

21

 Si la distancia entre la mediana y los cuartiles es aproximadamente la misma podemos deducir que la distribución de los datos es más o menos simétrica como como se ve en el histograma y en el diagrama de tallo y hoja.

Del ejemplo, valores de compras en periódicos en los últimos 32 dias del Hotel AAA { 5.2, 10.2, 7.0, 7.1, 10.6, 8.3, 9.4, 9.2, 6.5, 7.1, 6.6, 7.8, 6.8, 7.1, 8.4, 9.6, 8.5, 5.7, 6.4, 10.1, 8.2, 9.0, 7.8, 8.2, 5.3, 6.2, 9.1, 8.6, 7.0, 7.7, 8.3, 7.5 }

(22)
(23)

Figure

Actualización...

Referencias

Actualización...