Tema 2
Distribución de datos
y representación
gráfica
Ignacio Martín y José Luis Padilla IMADIL 2014-2015
1.Conceptos previos
2.Tablas de frecuencias
3.Representaciones gráficas (RG)
4.Gráfico de tallo y hojas
5.Normas para las RG
ÍNDICE
1. Conceptos previos
Una variable (símbolos: X o Y) es
una
característica
observable
que
varía entre los diferentes individuos
de una población.
Los posibles valores de una variable
suelen denominarse modalidades (X
io
Y
j)
Cuando la variable sólo se manifiesta
en una modalidad, será considerada
como constante.
1. Conceptos previos Tipos de variables: Variables Cualitativas Cuantitativas Discreta Continua 4 1. Conceptos previos
Las modalidades pueden agruparse en clases (intervalos)
◦ Edades:
Menos de 20 años, de 20 a 50 años, más de 50 años ◦ Hijos:
Menos de 3 hijos, De 3 a 5, 6 o más hijos Las modalidades/clases deben formar un sistema exhaustivo y excluyente
◦ Exhaustivo: No podemos olvidar ningún posible valor de la variable
◦Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)?
◦Bien: ¿Cuál es su grupo sanguíneo? ◦ Excluyente: Nadie puede presentar dos valores
simultáneos de la variable Estudio sobre el ocio
◦Mal: De los siguientes, qué le gusta: (deporte, cine) ◦Bien: Le gusta el deporte: (Sí, No)
5
Presentación ordenada de datos
Las tablas de frecuencias y las
representaciones gráficas son dos maneras
equivalentes
de presentar la información.
Las dos exponen ordenadamente la
información recogida en una muestra.
Género Hombre 4 Mujer 6 1. Conceptos previos 6 Tabla de frecuencia Gráfica
1.Conceptos previos
2.Tablas de frecuencias
3.Representaciones
gráficas
4.Gráfico de tallo y hojas
5.Normas para las RG
ÍNDICE
Ejemplo: Tipo de color asociado a la palabra
paz pidiendo que se ajustaran a cuatro
colores (Warren, 1974). Se preguntó a 100
personas.
A, R, A, V, A, V, A, V, A, A, A, V, A, A, A, V, A, A, V, V, V, V, A, A, V, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, R, A, A, A, V, A, A, R, A, V, A, A, A, A, A, A, A, A, A, A, A, R, A, A, A, A, A, A, V, A, A, A, A, A, A, A, A, A, A, A, R, A, A, A, V, V, A, V, A, R, A, V, R, R, R, R, R, R, V, V, V, V, V, V, V, V, V, V, V, V, V, V, V, V, V, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, 2. Distribuciones de frecuencias 8 Rojo Verde Azul Amarillo R, R, R, R, R, R, V, V, V, V, V, V, V, V, V, V, V, V, V, V, V, V, V, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, A, Xi ni fi porcentaje % 9Clase o modalidad XFrecuencia absoluta ni Frecuencia relativa fi i
% 6 DISTRIBUCIÓN DE FRECUENCIAS 17 58 19 6+17+58+19100 6/1000,06 0,17 0,58 0,19 1,00 6 17 58 19 100 2. Distribuciones de frecuencias
10
Exponen la información recogida en la
muestra, de forma que no se pierda
nada de información (o poca).
◦ Frecuencias absolutas: Contabilizan el
número de individuos de cada
modalidad
◦ Frecuencias relativas (porcentajes):
Idem, pero dividido por el total
◦ Frecuencias y porcentajes
acumulados: Sólo tienen sentido para
variables ordinales y numéricas
1 0
2. Tablas de frecuencias
11
◦EJEMPLO 1: Tabla de frecuencias obtenida con un programa de análisis estadístico. Responda a las siguientes preguntas observando la tabla:
1 1
2. Tablas de frecuencias
1)¿Qué porcentaje de individuos tiene menos de 3 hijos?
2)¿Cuántos individuos tienen entre 4 y 6 hijos?
1.Conceptos previos
2.Distribuciones de
frecuencias
3.Representaciones
gráficas
4.Gráfico de tallo y hojas
5.Normas para las RG
ÍNDICE
Diagramas de sectores
◦No usarlo con variables ordinales.
◦El área de cada sector es proporcional a su
frecuencia (absolutas o relativas)
13
3. Representaciones gráficas: Variables cualitativas
Diagramas de rectángulos
◦Tienen la misma base y su alturas son proporcionales a las frecuencias (proporciones y porcentajes) correspondientes
◦Las modalidades pueden ser colocadas en cualquier orden (sólo nominales), pues representan distintos aspectos, no ordenados de una característica o variable
14
3. Representaciones gráficas: Variables cualitativas
Pictogramas
◦ Fáciles de entender.
◦ El área de cada modalidad debe ser
proporcional a la frecuencia.
15
16
Histogramas para v. continuas
◦ El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.
3. Representaciones gráficas : Variables cuantitativas 16
17
Son diferentes en función de que las variables sean discretas o continuas. Con frecuencias absolutas o relativas.
Diagramas barras para v. discretas
◦ Se deja un hueco entre barras para indicar los valores que no son posibles
3. Representaciones gráficas: V. cuantitativas 17
Diagramas acumulados
3. Representaciones gráficas
18 0 5 10 15 20 25 30 35 40 45 50 1 2 3 4 5 6 Número de hijos1.Conceptos previos
2.Distribuciones de
frecuencias
3.Representaciones gráficas
4.Gráfico de tallo y hojas
5.Normas para las RG
ÍNDICE
DIAGRAMAS DE TALLO Y HOJAS
Los datos se organizan en un diagrama de tallo y hojas (Freixa, Salafranca, Guàrdia, Ferrer y Turbany, 1992), del modo siguiente:
Se elige el intervalo de unidades para representar el tronco, teniendo en cuenta que hay que cubrir todos los datos. Se ha de indicar en algún lugar en el diagrama, la unidad que se utiliza en el tronco para su fácil comprensión. Las hojas del diagrama se escriben separadas del tronco por una línea vertical y corresponden a las unidades de cada uno de los datos que se han obtenido.
Si las hojas se han escrito a la derecha del tronco, a la izquierda, y separadas por una línea vertical, se escriben las frecuencias absolutas, es decir, el número de veces que se repite cada dato.
Supongamos, por ejemplo, los datos, 12,
12, 14, 15, 16, 20, 21, 23, 24, 24, 27,
34, 34, 34, 44, 45, 46, 48, 48. El tallo
o tronco de la organización son los
valores que representan las decenas de
los datos, y a la derecha aparece cada
hoja, o valor de las unidades de los
mismos:
1
2 2 4 5 6
2
0 1 3 4 4 7
3
4 4 4
1. Conceptos previos
2. Distribuciones de frecuencias
3. Representaciones gráficas
4. Gráfico de tallo y hojas
5. Normas para las RG
ÍNDICE
Normas prácticas para las
representaciones gráficas
1.
El eje de abscisas (horizontal)
representará las puntuaciones de las
variable de que se trate y en el eje de
ordenadas (vertical) representará las
frecuencias, proporciones o porcentajes
2.En el eje de abscisas pondremos las
puntuaciones menores a las izquierda y
las mayores a la derecha. En el eje de
ordenadas pondremos las frecuencias
menores abajo y las mayores arriba
Normas prácticas para las
representaciones gráficas
3.
La intersección de los dos ejes será
tomada como origen de puntuaciones
en el eje de abscisas y como origen de
frecuencias, proporciones o porcentajes
en el eje de ordenadas
4.
Si la puntuación mínima de que se
trate es alta y la frecuencia mínima
también alta, en ambos ejes se suele
hacer dos corte según la figura
5.Conviene indicar explícitamente qué
representa el gráfico en general y que
representan cada uno de sus ejes
Ejemplo: Cincuenta estudiantes han obtenido en una prueba de inteligencia las siguientes puntuaciones
8, 11, 11, 8, 9, 10, 16 , 5, 12, 19, 13, 14, 9, 13, 15, 9, 12, 16, 8, 7, 14, 11, 15, 6, 14, 14, 17, 11, 6, 9, 10, 19, 12, 11, 12, 6, 15, 16, 16, 12, 13, 12, 12, 8, 17, 13, 7, 12, 14,12
Anexo: Agrupación por intervalos de v. cuantitativas continúas
Para crear la tabla de frecuencias por intervalos, primero ordena las puntuaciones:
Elegimos cinco intervalos. La amplitud total sería 19-5=14. Si dividimos 14/5=2.8. La amplitud mínima de cada intervalo será 3. Así la distribución sería la siguiente
5-7 8-10 11-13 14-16 17-19 ni 6 10 18 12 4 50 fi 0,12 0,20 0,36 0,24 0,08 1,00 Fi 0,12 0,32 0,68 0,92 1,00 Ni 6 16 34 46 50 % 12 20 36 24 8 100 % 12 32 68 92 100
Anexo: Agrupación por intervalos de v. cuantitativas continúas ni 6 10 18 12 4 50 fi 0,12 0,20 0,36 0,24 0,08 1,00 5-7 8-10 11-13 14-16 17-19 LÍMITES APARENTES LÍMITES EXACTOS PUNTO MEDIO 4,5-7,5 7,5-10,5 10,5-13,5 13,5-16,5 16,5-19,5 xi 6 9 12 15 18
Anexo: Agrupación por intervalos de v. cuantitativas continúas
Amplitud, punto medio de los intervalos y amplitud total
La amplitud de un intervalo es la diferencia entre su límite exacto superior y su límite exacto inferior. En el ejemplo anterior la amplitud de sus cuatro intervalo es 3 (7,5- 4,5= 3).
Definimos como punto medio del intervalo a la media aritmética de los sus dos límites exactos. Así en el ejemplo anterior del primer intervalo por ejemplo sería (4.5+7.5)/2=6 y del resto 9, 12, 15, 18.
Llamaremos amplitud total o rango de una serie de valores numéricos a la diferencia entre el límite exacto superior de intervalo máximo y el límite exacto inferior del intervalo mínimo. En nuestro caso 19,5-4,5=15
Anexo: Agrupación por intervalos de v. cuantitativas continúas
1. Se recomienda que con 100 o mas
observaciones , que el número de intervalos sea entre12 y 18.
2. Comenzamos fijando el número de intervalos en función del número total de observaciones. La amplitud de los intervalos dependerá de la amplitud total
3. Se establece una partición del recorrido de la variable, es decir de las unidades entre las cuales se encuentran contenidos los datos, en intervalos de valores.
NORMAS para la construcción de intervalos
4. El número de intervalos no ha de ser excesivamente grande. Algunos autores recomiendan elegir amplitudes iguales a alguno de estos valores 1, 3, 5, 10 ó 20. Estos número y sus múltiples son fácilmente manejables. Sin embargo este criterio es arbitrario y puede ser rechazado cuando sea conveniente.
5. Al dividir en intervalos el recorrido de la variable se supone que las puntuaciones contenidas en cada intervalo se reparten homogéneamente dentro del mismo.
6. Representaremos cada intervalo, para realizar los cálculos posteriores, por el punto medio. NORMAS para la construcción de intervalos