Práctica 2
ESTADÍSTICA DESCRIPTIVA
Objetivos:
En esta práctica utilizaremos el paquete SPSS para calcular estadísticos descriptivos de una muestra. Se representarán gráficamente conjuntos de datos utilizando las posibilidades del programa. Se necesita una calculadora.
Índice:
1. Tablas de frecuencias
Una de las formas más simples de resumir la información de un conjunto de datos es por medio de una tabla de frecuencias, que consiste en calcular para cada valor de una variable el número (frecuencia) de casos en que aparece.
Una tabla de frecuencias debe indicar el nombre de la variable en su encabezamiento, los valores que toma la variable, la frecuencia de cada uno de ellos y la suma de todas las frecuencias, que coincidirá con el número total de casos válidos. También es aconsejable calcular las frecuencias relativas, o proporciones, que resultan al dividir cada frecuencia por su suma total. SPSS genera tablas de frecuencias de forma automática. En primer lugar necesitamos abrir un banco de datos, por ejemplo el del
archivo ambiente.sav, y con el menú Analizar/Estadísticos
descriptivos/Frecuencias se puede obtener la tabla de frecuencias asociada a cualquiera
de las variables. La tabla para la variable ozono obtenida por SPSS es la siguiente
Estadísticos OZONO 300 0 Válidos Perdidos N OZONO 144 48,0 48,0 48,0 156 52,0 52,0 100,0 300 100,0 100,0 Normal Alto Total Válidos Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado
La tabla nos indica que hay 300 casos válidos y ninguno perdido, que la variable ozono tiene dos valores posibles Normal y Alto (en realidad son las etiquetas asociadas a los valores 0 y 1, respectivamente). Hay 144 casos (48%) en los que ozono toma el valor Normal y 156 (52%) el valor Alto.
Ejercicio 1
• Ordena los datos por la variable ozono con Datos/Ordenar casos o haciendo clic con el botón derecho del ratón sobre su nombre en la ventana del editor de datos y comprueba que las frecuencias anteriores son correctas.
• Obtener la tabla de frecuencias de la variable provin.
• Obtener la tabla de frecuencias de la variable sulfato. ¿Qué utilidad tiene esta última tabla? Razona su conveniencia en este caso.
SPSS también cuenta con el menú alternativo Analizar/Tablas personalizadas que posibilita alterar el formato del resultado.
2. Estadísticos
Los estadísticos son valores calculados con los datos de una variable cuantitativa y que miden alguna de las características de la distribución muestral. Las principales características son: tendencia central, posición, dispersión, asimetría y apuntamiento.
2.1 Medidas de tendencia central
Se usan para saber en torno a qué valor central se distribuyen los valores de una variable. Las medidas más habituales son:
media es la suma de todas las observaciones dividida por el tamaño de la muestra. mediana es el valor que divide a la muestra ordenada en dos mitades con el mismo
número de datos.
media recortada es una media calculada después de eliminar algunos datos extremos.
Es más robusta que la media pues no tiene en cuenta los valores atípicos.
moda es el dato que posee la mayor frecuencia. En caso de empates pueden darse varias
modas.
2.2 Medidas de localización
Son las que indican el valor que ocupa una determinada posición en una distribución.
La medida más simple de localización es la mediana que también es una medida de tendencia central, puesto que el 50% de los datos son menores o iguales que ella y el 50% de los datos son mayores o iguales.
Los cuartiles Q1,Q2 y Q3, son tres valores que dividen a la distribución en cuatro
partes iguales. El primer cuartil tiene un 25% de casos menores o iguales que dicho valor; el segundo cuartil coincide con la mediana y el tercer cuartil deja un 25% de valores superiores o iguales a él. Para obtenerlos, se calcula primero las posiciones de los cuartiles p(Q1) y p(Q3) y a partir de ellas se extraen los valores correspondientes. Las
posiciones del primer y tercer cuartil (el segundo coincide con la mediana) son:
p(Q1)=(n+1)/4 y p(Q3)=3(n+1)/4. Obtenidas las posiciones, si son enteras, se buscan
los valores que las ocupan en la muestra ordenada. Si p(Qx) da un valor decimal se usa
la fórmula siguiente:
α
α f
i v
v (1− )+
siendo α la parte fraccionaria de p(Qx) y vi, vf los valores muestrales que ocupan las
posiciones más cercanas por defecto y por exceso a p(Qx), respectivamente.
Los deciles (9 en total) y percentiles (99 en total) dividen a la distribución en diez y cien partes iguales, respectivamente. Su forma de cálculo es similar a la de los cuartiles.
2.2 Medidas de dispersión
Las más utilizadas son:
rango o amplitud que es la diferencia entre el mayor y el menor valor de la muestra.
rango intercuartílico Q3-Q1, el intervalo [Q1,Q3] contiene al 50% central de los valores
muestrales.
varianza (s2) que mide el alejamiento medio de las diferencias al cuadrado de cada
observación a la media. Su definición analítica es:
∑
∑
− − = − − = i i i i x nx n x x n s ( ) 1 1 ) ( 1 1 2 2 2 2desviación típica o estándar (s) está medida en las mismas unidades que la variable y
es la raíz cuadrada positiva de la varianza.
coeficiente de variación es una medida de dispersión relativa. Es el cociente entre la
desviación típica y el valor absoluto de la media. Es decir:
x s CV =
Carece de unidades y se usa para comparar la dispersión entre variables que tengan distintas unidades de medida. Se suele expresar en tantos por ciento.
2.2 Medidas de asimetría
Su objetivo es expresar mediante un valor la forma simétrica o asimétrica de la distribución. Veamos algunas de ellas.
Para distribuciones unimodales que además son simétricas -i.e: la parte izquierda de la distribución es similar a la derecha-, los estadísticos media, mediana y moda suelen tener valores idénticos o muy parecidos. Además se sabe que la relación entre estos estadísticos tiende a ser empíricamente la siguiente:
Moda x Mediana x− )≈ − ( 3
de esta forma podemos obtener una medida de la asimetría usando cualquiera de los dos términos de la expresión anterior. Un valor aproximadamente de 0 indica una distribución aproximadamente simétrica. Si este valor es positivo significa que la media se halla por encima (a la derecha) de la moda y mediana y decimos en ese caso que la distribución es asimétrica a la derecha; si el valor es negativo la posición de la media está a la izquierda de la moda y mediana y decimos que la distribución es asimétrica a la izquierda. Si se quiere comparar la asimetría de varias distribuciones con distintas unidades de medida, se usa la desviación típica. Así, la expresión anterior quedaría:
s Moda x s Mediana x Asim= 3( − )≈ −
Otra posibilidad, más costosa de realizar a mano, es calcular el momento de orden 3 respecto de la media, es decir la media aritmética de las desviaciones cúbicas de los valores a la media:
∑
− = i i x x n m3 1 ( )3Si hay predominio de valores a la izquierda de la media los valores (xi−x) resultan negativos, mientras que los valores a la derecha de la media contribuyen positivamente en la fórmula anterior. Para obtener medidas de asimetría independientes de las unidades de medida se tipifica la variable, dividiendo el momento por la desviación típica al cubo y se introduce un factor de corrección, obteniendo el
coeficiente de asimetría: 3 ) 2 )( 1 (
∑
− − − = i i s x x n n n CAsimPor ejemplo, los datos 3,4,5,2,3,4,5,6,4,7 dan CASim=0,359543.
Hay que hacer notar que ambas medidas de asimetría son muy sensibles a valores extremos, por lo que existen otras medidas más robustas que no comentaremos aquí.
Un valor del coeficiente asimetría, dado por el SPSS, mayor que 1 en valor absoluto expresa una asimetría significativa respecto de la normal.
2.2 Medidas de apuntamiento
Indican el nivel de concentración de los datos respecto de su media. Si el nivel de concentración es alto, la distribución es de forma puntiaguda y se llama leptocúrtica, tendremos en este caso colas más cortas que en una distribución normal. Si las colas son más largas que en una distribución normal y por tanto con menos valores en el centro, la distribución es más achatada y se llama platicúrtica. En el caso intermedio, se utiliza el término mesocúrtica.
El grado de apuntamiento, o curtosis, se puede medir por el momento de orden 4 dividido por la desviación típica elevada a 4. El cociente anterior se corrige de forma que la distribución normal para este estadístico da el valor cero. Concretamente, la curtosis se calcula así:
) 3 )( 2 ( ) 1 ( 3 ) 3 )( 2 )( 1 ( ) 1 ( 4 2 − − − − − − − − + =
∑
n n n s x x n n n n n K i iPor ejemplo, la curtosis de los valores 3,4,5,2,3,4,5,6,4,7 es –0,1518.
Tendremos, por tanto que si K<0 la distribución se llama leptocúrtica; si K>0 platicúrtica y si K=0 (o aproximadamente) mesocúrtica.
Ejercicio 2
Considerar los datos siguientes: 3,4,5,2,3,4,5,6,4,7
• Calcula con ayuda de una calculadora la media, rango, desviación estándar, CV, los cuartiles, rango intercuartílico y los percentiles 30 y 80.
• Calcula la medida de asimetría Asim para decidir qué tipo de asimetría presentan estos datos.
Para obtener los estadísticos con SPSS se usa el menú Analizar/Estadísticos
descriptivos/Descriptivos donde hay que seleccionar la variable o variables de interés y
después Opciones para escoger los estadísticos que interesan. Sin embargo con este menú no se pueden obtener los percentiles. Para obtenerlos hay que usar
Analizar/Estadísticos descriptivos/Frecuencias y entrar en la opción Estadísticos en
donde se seleccionan los percentiles deseados.
Ejercicio 3
• Obtener los estadísticos del ejercicio anterior utilizando SPSS y comprobar la coincidencia con los cálculos hechos con la calculadora.
3. Representación gráfica de variables
La utilización de gráficos es necesaria en Estadística. Se pretende resumir la información de la muestra de forma gráfica con fines clarificadores o para enfatizar y descubrir determinadas características que de otra forma sería muy difícil apreciar. Por otro lado, un gráfico siempre es más inmediato de comprender que un conjunto de estadísticos. Por ejemplo, podemos dar una matriz de distancias entre un conjunto de ciudades pero aún teniendo esa información será difícil que nos imaginemos su distribución geográfica si no se adjunta un gráfico.
Los gráficos adecuados para representar variables discretas o categóricas son diferentes de los de las continuas por lo que separaremos su estudio.
3.1 Gráficos de variables discretas y categóricas
Los gráficos más utilizados en estadística para representar variables discretas o categóricas son los gráficos de sectores y los diagramas de barras.
Gráficos de sectores
Un gráfico de sectores consiste en un círculo dividido en sectores de tamaño proporcional a la frecuencia de cada valor de la variable. Se utilizan cuando hay pocos valores que representar (máximo de 7).
Para obtener un gráfico de sectores con SPSS usaremos el menú
Gráficos/Sectores y seleccionaremos una o varias variables apareciendo el cuadro de
cuyas opciones pasamos a comentar.
Resúmenes para grupos de casos
Genera un gráfico en el que cada sector corresponde a un valor de la variable seleccionada. El tamaño del sector se determina por la opción Los sectores representan, esta opción aparece en el cuadro de diálogo que surge después de apretar el botón Definir del cuadro anterior.
Por ejemplo, supongamos que queremos representar los valores de la variable provin en un diagrama de sectores donde los sectores representan el número de casos de cada provincia. El gráfico de sectores podría ser así:
VALENCIA
CASTELLON ALICANTE
También es posible que los sectores representen otra cosa, como la media de los valores de otra variable, el valor máximo, etc...; esto se consigue con la opción Otra
función resumen. Se puede también editar el gráfico haciendo doble clic sobre él, con
Resúmenes para distintas variables
Permite que los sectores representen variables en lugar de grupos de casos. Cada sector representa una función de una determinada variable (por ejemplo, la suma de los valores de sus casos).
Por ejemplo, las puntuaciones de 10 alumnos a tres profesores de Estadística han sido las siguientes:
Prof1 Prof2 Prof3
7,5 6,3 8,1 6,8 5,5 7,9 6,5 5,0 7,0 9,5 7,0 8,5 6,0 4,2 5,0 8,1 6,8 7,0 5,0 3,5 5,0 8,3 7,5 8,5 6,0 6,5 8,0 5,5 4,0 6,0
Podemos representar gráficamente con un diagrama de sectores la suma de las puntuaciones a estos tres profesores para ver si difieren mucho y para ver el respaldo relativo. Para ello, después de introducir los datos en SPSS y elegir la opción que estamos tratando, podemos obtener el siguiente gráfico de sectores, en donde se observa, por ejemplo, que la suma de las puntuaciones al Prof2 es de 56,30 y que representan un 28,7% de la suma de todas las puntuaciones (es decir su respaldo relativo). 71,00 / 36,1% 56,30 / 28,7% 69,20 / 35,2% Prof3 Prof2 Prof1
Valores individuales de los casos
Se resume una única variable, los casos ya son valores agrupados de la variable. Cada sector representa el valor de un caso individual.
Con Gráficos/Interactivos/Sectores podemos obtener representaciones con efectos más llamativos como la que aparece a continuación.
Ejercicio 4
Diagramas de barras
Sobre un eje horizontal se representan los distintos valores de una variable discreta o categórica. Sobre cada valor se levanta un rectángulo vertical cuya base está separada de las contiguas. En un eje de escala vertical se representa una característica numérica de la variable como el número de casos, o bien otra función resumen que puede estar asociada a otra variable, etc.
Los diagramas de barras permiten utilizar mayor número de valores que los gráficos de sectores. Son más versátiles que los gráficos de sectores y al igual que con éstos también se pueden conseguir efectos especiales como 3D, giros e iluminaciones.
Para generar un diagrama de barras con SPSS se utilizan los menús
Gráficos/Barras y Gráficos/Interactivos/Barras. Consultar la ayuda de SPSS para
una descripción más detallada.
Ejercicio 5
• Construye un diagrama de barras asociado a la variable provin como el de la figura siguiente.
3.1 Gráficos de variables continuas
Básicamente se utilizan tres tipos de gráficos para las representaciones de una única variable continua: Histogramas, Diagramas de tallo y hojas y Diagramas de caja. Estudiaremos también los diagramas de dispersión para representar dos variables continuas.
Histogramas
Parecidos en forma a los diagramas de barras, pero atención: su uso se restringe únicamente a las variables continuas. Los histogramas representan frecuencias agrupadas de una variable continua sobre intervalos. A diferencia de los diagramas de barras, los histogramas dibujan rectángulos unidos entre sí, lo que significa que existe una continuidad en la variable cuyos valores se representan en el eje horizontal. El eje horizontal se halla dividido en intervalos de igual amplitud (SPSS no permite alterar esta propiedad), sobre los que se elevan rectángulos de altura proporcional a su frecuencia. Por lo tanto, las áreas de los rectángulos son proporcionales a las frecuencias que representan. Los histogramas se pueden editar haciendo doble clic con el botón izquierdo del ratón, lo que permite alterar el número de clases, su amplitud, etc. La gráfica de un histograma puede ser muy distinta para los mismos datos, simplemente variando el número de clases, por lo que la elección del número de clases debe hacerse con cuidado.
En la figura siguiente, el histograma de la izquierda se ha obtenido con el número de clases fijado por defecto por SPSS, en este caso 27. El histograma de la derecha solamente tiene 10 clases (fijado por el usuario). En ambos casos se ha superpuesto una curva normal con media y desviación estándar coincidentes con las de la muestra para ver su parecido.
Para obtener un histograma con SPSS se utilizan los menús Gráficos/Histograma o
Gráficos/Interactivos/Histograma.
Histograma del ph (ambiente.sav)
7,75 7,50 7,25 7,00 6,75 6,50 6,25 6,00 5,75 5,50 5,25 5,00 4,75 4,50 Frecuencia 40 30 20 10 0 Desv. típ. = ,54 Media = 5,92 N = 300,00
Histograma del ph (ambiente.sav)
7,1 - 7,5 6,5 - 6,8 5,8 - 6,1 5,1 - 5,5 4,4 - 4,8 100 80 60 40 20 0 Desv. típ. = ,54 Media = 5,9 N = 300,00
Gráficos de tallo y hojas
Se trata de gráficos construidos con números. Constan de dos elementos: el tallo y las hojas. El tallo está formado por el primer o primeros dígitos de la variable. Las hojas están formadas por los primeros dígitos no representados en el tallo y están ordenados de menor a mayor valor. De esta forma, cada valor de la variable tiene asociado un tallo (compartido posiblemente por más valores) y exactamente una hoja. Los tallos con más hojas sobresaldrán gráficamente a los que menos hojas tienen. Puesto que no hay reglas definidas, ni fórmulas, vamos a realizar un ejemplo con unos cuantos datos. Supongamos que los valores de una variable peso representan el peso en kg de un total de 20 individuos:
68,82,70,79,101,83,95,70,88,69,78,85,92,73,82,70,84,68,82,74
Tomando como hoja el dígito de las unidades y como tallo las decenas, podríamos construir el diagrama siguiente:
6: 889 7: 0003489 8: 2223458 9: 25
10: 1
Diagrama de tallo y hojas (peso).
A diferencia del histograma, los datos individuales no desaparecen. Así, es fácil ver que en la muestra hay sólo una persona que supera los 100 kg y tres que no llegan a os 70 kg.
SPSS construye gráficos de tallo y hojas con el menú Analizar/Estadísticos
descriptivos/Explorar. La siguiente figura muestra un diagrama de tallo y hojas de la
variable ph asociado a la provincia de Castellón (archivo ambiente.sav).
PH Stem-and-Leaf Plot for PROVIN= CASTELLON
Frequency Stem & Leaf 1,00 4 . 7 1,00 4 . 8 6,00 5 . 000111 7,00 5 . 2223333 8,00 5 . 44445555 14,00 5 . 66666667777777 14,00 5 . 88889999999999 18,00 6 . 000000000111111111 9,00 6 . 222233333 14,00 6 . 44444445555555 4,00 6 . 6777 2,00 6 . 89 1,00 7 . 1 1,00 Extremes (>=7,5)
Los casos extremos (si se consideran así) son advertidos por el gráfico. En el ejemplo anterior, existe un caso extremo cuyo valor del ph es mayor o igual a 7,5. También observamos que un mismo tallo ha sido dividido en varias filas. El usuario no puede alterar este gráfico que es más robusto que el histograma.
Diagramas de caja
A diferencia de los otros gráficos ya vistos, los diagramas de caja hacen énfasis en las medidas de posición. Es muy útil para hacer comparaciones entre muestras de distintas poblaciones.
Un diagrama de caja consiste en un rectángulo cuya longitud es el rango intercuartílico, dividido por un segmento a la altura de la mediana y complementado por dos líneas (llamadas bigotes) que parten de los extremos del rectángulo, cuya longitud no supera 1,5 veces el rango intercuartílico y que intentan alcanzar los valores mínimo y máximo observados. Para obtener un diagrama de caja con SPSS se selecciona el menú
Gráficos/Diagrama de cajas. Por ejemplo:
100 100 100 N = Provincia VALENCIA CASTELLON ALICANTE PH 8 7 6 5 4 209 222 191 45
Aquí, cada provincia está representada por una caja que muestra los niveles de ph. Se puede observar diferencias en cuanto la situación de la mediana y a la dispersión. Por ejemplo, se observa que en Valencia los niveles de ph son inferiores a los de Castellón y que presentan una ligera mayor dispersión. Los casos extremos -si los hay- se representan por símbolos especiales a cuyo lado aparece el número de caso. También nos da idea de la simetría de los datos, por ejemplo una mediana descentrada -dentro del rectángulo- nos indicaría una asimetría. En este ejemplo podemos decir que las distribuciones son bastante simétricas tanto en Valencia, Castellón como en Alicante. El diagrama de cajas puede ser editado para su modificación, haciendo doble clic sobre sus elementos. Se puede alterar título, pie, anotaciones, leyenda y los valores y etiquetas de los ejes; las líneas como los ejes, las líneas de referencia y los bordes, la escala, el relleno y trama de la caja y los casos atípicos y extremos.
Ejercicio 6
• Construye un histograma de la variable sulfato de los casos de la provincia de Valencia. El número de clases debe ser 12.
• Construye un diagrama de tallo y hojas de la variable sulfato de los casos de la provincia de Valencia. Identifica los casos extremos y sus valores.
• Construye un diagrama de cajas de la variable sulfato para comparar entre las provincias de Valencia, Castellón y Alicante. Identifica los casos extremos y sus valores.
Diagramas de dispersión
Cuando tenemos varias variables continuas es interesante saber su grado de asociación. Por ejemplo, se puede estudiar la relación entre peso y altura de un determinado grupo de individuos, la renta per cápita de un país y su índice de mortalidad infantil para un grupo de países, el índice de sulfatos encontrado en aguas subterráneas y la producción agrícola de una región, etc.
La forma más sencilla para ver como covarían dos variables continuas es mediante un gráfico de dispersión o nube de puntos. Se representan ambas variables en un sistema de coordenadas, con una variable X en abscisas y la otra Y en ordenadas. Por cada caso se representa el valor (X,Y) mediante un símbolo que puede ser un círculo, un cuadrado, una estrella, etc. Los puntos generan una nube que gráficamente puede revelar algún tipo de asociación como la lineal (si los puntos tienden a posicionarse alrededor de una línea recta), o de otro tipo. El programa SPSS genera diagramas de dispersión con la selección Gráficos/dispersión/simple o bien con Gráficos/Interactivos/Diagrama de dispersión, en donde aparece un cuadro de
diálogo en el que se puede elegir qué variable ocupará el eje X y qué otra el eje Y. Por ejemplo, las variables ph (en abscisas) y sulfato (en ordenadas) del archivo ambiente.sav da lugar al siguiente diagrama de dispersión:
La identificación de casos atípicos es sencilla mediante una herramienta específica de SPSS. Así se puede identificar como atípico el caso 133 cuyo nivel de sulfato está próximo a los 25,0. Las posibilidades son muchas, demasiadas para reflejarlas aquí, por lo que el aprendizaje más profundo en el manejo de gráficos se adquiere con la experiencia y la curiosidad.
4. Ejercicios complementarios
1. Abre el archivo coches.sav y examina sus variables.
2. Calcula la moda, mediana, asimetría y curtosis del consumo medio de todos los coches.
3. Calcula el consumo medio y la mediana de los coches de 4 cilindros.
4. Obtén los percentiles 80,90 y 95 y los cuartiles de los consumos de los coches con 8 cilindros.
5. Construye un diagrama de cajas que sirva para comparar los consumos medios de cada tipo de coche dependiendo de su número de cilindros.
6. Construye un diagrama de dispersión de cilindrada (en cc) en abscisas y consumo (l/100 Km) en ordenadas.
7. Construye un histograma del peso de los coches. Superpón una curva normal. 8. Construye un diagrama de cajas para comparar las cilindradas de los coches
según el origen del coche.
9. Construye un diagrama de tallo y hojas de las cilindradas de los coches fabricados en Europa.
10. Construye un diagrama de barras de la potencia media (en CV) de los coches según su origen.
11. Construye un gráfico de sectores para ver las proporciones de coches en la muestra según su origen.
12. Abre el archivo judges.sav. Las variables representan a los jueces que han puntuado en unas pruebas de clasificación para las olimpiadas.
13. Construye un gráfico de sectores, en el que cada sector represente la media de las puntuaciones otorgadas por un juez.
14. Construye un diagrama de barras en los que cada barra represente la media de las puntuaciones otorgadas por los jueces de Rusia, Rumania y China, respectivamente.
15. El presupuesto anual de una comunidad autónoma en educación se distribuye así: Educación infantil 105, Primaria 570, ESO 1600, Bachiller 620, Universidad 3700 en miles de euros. Construye un gráfico de sectores que represente esta distribución.