Organización y
Presentación
Presentación
de los Datos
La estadística tienen como objetivos sintetizar,
organizar, analizar y extraer la variación más
relevante de un fenómeno en particular. De tal
forma, los datos recabados deben presentarse
de forma en que sean fáciles de analizar
de forma en que sean fáciles de analizar
visualmente y que su presentación sea
sencilla y estética.
Los
métodos
para describir conjuntos de
Métodos
Tabulares
La presentación de información
cuantitativa o cualitativa, mediante
tablas, es frecuentemente
observada tanto en la literatura
observada tanto en la literatura
científica como en las ciencias
sociales. En estas tablas se
procura que sean los más sencillas
De acuerdo a la disciplina las tablas pueden seguir
diferentes formatos, por ejemplo en la literatura
Sin embargo, frecuentemente se presenta el titulo de la tabla por encima de esta y alineada a la izquierda.
Licenciatura
Número de Egresados
Egresados por Licenciatura en la UNSIJ
Informática
21
Ciencias Ambientales
11
Calificaciones obtenidas por alumnos
de la UNSIJ (mínima 10 - Máxima 100)
16
38
75
45
67
31
16
38
75
45
67
31
92
43
91
89
19
24
54
46
92
33
16
11
Para resumir la información del número de estudiantes que
obtuvieron una calificación en particular, se hace por medio de
una tabla con dos encabezados, lo cual permite mostrar la
En este tipo de tablas la amplitud de los
valores numéricos de los datos está dividida
en un cierto número de Intervalos o Clases,
las cuales se utilizan para reportar el número
de observaciones que pertenecen a cada
de observaciones que pertenecen a cada
Intervalo.
El número de observaciones que pertenecen
a una clase o intervalo se denomina
Con la información del presente ejemplo, primero
hay que decidir en cuantas clases deberá dividirse
el intervalo y después su amplitud.
De acuerdo a la experiencia se recomienda entre
5 y 20 clases, resulta conveniente construirlas de
5 y 20 clases, resulta conveniente construirlas de
modo que todas las clases tengan la misma
anchura, la cual recibe el nombre de amplitud de
Clase.
En este caso optaremos por 7 clases, todas ellas
con igual amplitud de clase.
Clase
Frecuencia
40
8
50
3
60
1
Tabla de distribución de calificaciones entre alumnos de la UNSIJ
60
1
70
1
80
1
90
1
100
3
Alumnos
18
Nota: datos obtenidos al azarSin embargo, existen otros métodos: primero se debe obtener el valor mínimo y el máximo. 16 53 14.3 8 123
0
10.3 19.7 1.1 216 0 2.7 29.5 3.1 87.1 11.3 0.2 62.5 0 1.7 60.4 1.1 142.3 0.4 4.1 176.9 1.9 202.8 3.3 35.1 176.9 1.9 202.8 3.3 35.1 119.8 32.1 169.9 19.7 124.3 155.6 25.9 157.6 146.6 0.4 133.6 154.1 8.9 187 12.3 70.8 158.7 16.3257
22.8 4.9 171.9 58.2 163.2 89.7 1.6 99.4 145.5 93 243.7 9.4 34.3 149.8 8.9 134.6 3.4 0 71.6 9.7 114.3 4.5 0 72.4 6.1 3.8 10 5.2 9.8 3.6 57.3 108.6 98.6Número de decimales y cifras, Sokal y Rohlf (1995) proponen que debe existir entre 30 a 300 unidades entre el valor mínimo y máximo. Cuando se encuentra por encima de este valor debe reducirse el número de
cifras, cuando se encuentra por debajo se debe incrementar las cifras.
Por ejemplo: Si se consideran unidades (5-10) Si se consideran unidades (5-10) Mínimo 5 Máximo 10 Diferencia 5
Pero si se considera decimales (5.0-10.0)
Mínimo 50 Máximo 100
Diferencia 50, por lo que se debe considerar como significativo el uso de decimales
Regresando a los datos de precipitación mensual
en el Estado de México
Por ejemplo:
Si se consideran unidades (0-257)
Si se consideran unidades (0-257)
Mínimo 0
Máximo 257
Diferencia 257
Por lo que se deben considerar desde el cero hasta
centenas
Sturges
, que establece que el número de clases es K = 1 + log2 n = 1 + 3.322 log n, la cual subestima el número de intervalos.Velleman
(1976), K = , recomendada cuando 2√ n es pequeño (n < 50)Dixon y Kronmal
(1965), K = 10 log √ n, para n grande (n > 50).García-Cue el al.
proponen que para cualquier tamaño de muestra √nSturges
= 1 + 3.322 log n = 1 + 3.322 log 82 = 7.35 = 7Para obtener los intervalo por clase, tomando el método de Sturges, tenemos:
37
7
.
36
7
0
257
≈
=
−
=
c
7
MÁXIMO
MÍNIMO
0
37
37
74
74
111
111
148
148
185
185
222
222
259
Comúnmente se elige al punto central de cada intervalo y se le denomina Centro de clase (mi) o punto medio de la clase (mi ), el cual se obtiene dividiendo entre dos la suma de los límites de clase.
5
.
18
2
0
37
2
min
max
m
i
=
i
−
i
=
−
≈
2
2
MÁXIMO
MÍNIMO
Centro Clase
0
37
18.5
37
74
55.5
74
111
92.5
111
148
129.5
148
185
166.5
185
222
203.5
222
259
240.5
El siguiente paso para construir la Tabla de Frecuencias es contar el número de observaciones que pertenecen a cada clase. Este número es llamado Frecuencia Absoluta de clase (fi).
MÁXIMO
MÍNIMO
Centro
Clase
fi
FRECUENCIA
0
37
18.5
IIIII IIIII IIIII IIIII IIIII IIIII
IIIII IIIII IIIII
45
0
37
18.5
IIIII IIIII IIIII
45
37
74
55.5
IIIII III
8
74
111
92.5
IIIII I
6
111
148
129.5
IIIII IIII
9
148
185
166.5
IIIII IIII
9
185
222
203.5
III
3
222
259
240.5
II
2
También resulta conveniente calcular las frecuencias relativas de clase (fRi); que indican la proporción del total de observaciones perteneciente a cada clase. Para obtenerlas, se divide la frecuencia absoluta de la clase entre el total de
observaciones (Total de frecuencias absolutas).
55
.
0
82
49
=
=
=
n
fi
fRi
82
n
MÁXIMO MÍNIMO Centro
Clase fi fi fRi
0 37 18.5 IIIII IIIII IIIII IIIII IIIII IIIII
IIIII IIIII IIIII 45 0.55 37 74 55.5 IIIII III 8 0.10 74 111 92.5 IIIII I 6 0.07 111 148 129.5 IIIII IIII 9 0.11 148 185 166.5 IIIII IIII 9 0.11 185 222 203.5 III 3 0.04 222 259 240.5 II 2 0.02 Total 82 1.00
A la tabla de frecuencias es conveniente añadirle información sobre el número de datos cuyo valor numérico es menor o igual que el límite superior de cada clase; este número recibe el nombre de frecuencia acumulada (FAi). y se obtiene al sumar las frecuencias absolutas de las clases precedentes. De la misma manera se calcula la frecuencia relativa acumulada (FRA), al adicionar las frecuencias relativas de las clases anteriores.
MÁXIMO MÍNIMO Centro
Clase fi fi fiA fRi fRA
0 37 18.5 IIIII IIIII IIIII IIIII IIIII
IIIII IIIII IIIII IIIII 45 45.00 0.55 0.55 37 74 55.5 IIIII III 8 53.00 0.10 0.65 74 111 92.5 IIIII I 6 59.00 0.07 0.72 111 148 129.5 IIIII IIII 9 68.00 0.11 0.83 148 185 166.5 IIIII IIII 9 77.00 0.11 0.94 185 222 203.5 III 3 80.00 0.04 0.98 222 259 240.5 II 2 82.00 0.02 1.00 Total 82 1.00 1.00
Métodos
Gráficos
Un inconveniente de presentar los datos en la
forma tablas de distribución de frecuencias es que
la información contenida no es aparentemente
evidente a menos que sea estudiada con detalle.
La forma más eficiente de simplificar la
interpretación de la información y evidenciar los
patrones y tendencias es transformándola a
presentaciones visuales.
En esta sesión se presentaran los métodos
Gráficas de Puntos o Líneas
Las gráficas de puntos permiten presentar datos de forma
rápida de la forma en como están distribuidos los datos.
Esta consiste en una línea marcada con divisiones de la
escala en el cual la variable es medida.
escala en el cual la variable es medida.
Cada punto representa una observación, si el valor se repite,
el punto es colocado encima del último que fue graficado.
Describir información por medio de gráfica de
barras es particularmente útil cuando se utilizan
variables categóricas que son obtenidas en una
escala nominal.
Gráficas de Barras
escala nominal.
Una gráfica de barras usa líneas (i.e. barras) que
representan categorías discretas de datos, en
donde la longitud de la línea es proporcional a la
frecuencia dentro de esa categoría
Suponga que en un bosque coloca 31 nidos artificiales, 15
son ocupados por gorriones, 10 por azulejos, 4 por
carpinteros y 2 por cuervos. La tabla tendrá que ser
construida de la siguiente manera, junto con la gráfica
ave
f
ave
f
gorrión
15
azulejo
10
carpintero
4
cuervo
2
n
31
0 2 4 6 8 10 12 14 16gorrión azulejo carpintero cuervo
N ú m e ro d e o b se rv a ci o n e s (f )
Histograma
Los histogramas son gráficas de barras en donde el área
cada bloque es proporcional a la frecuencia.
El área de un bloque es obtenido multiplicando el ancho del
bloque (intervalo de clase) por la altura (frecuencia)
50 0 5 10 15 20 25 30 35 40 45 50 18.5 55.5 92.5 129.5 166.5 203.5 240.5
F
re
cu
e
n
ci
a
Centro Clase
Ancho clase:
18.5
Frecuencia:
45
Área:
(18.5*45) = 842.5
Polígono de Frecuencia y Curva de Frecuencia
Si el punto medio del tope de cada bloque del histograma es unido por una línea, un
polígono de frecuencia
es construidoCuando el número de observaciones de una variable continua es grande y las unidades de incremento entre bloques es pequeña, las líneas entre bloques tiende a ser suavizada, formando una curva continua, llamada
Gráfica Dispersión
Cuando pares de observaciones de dos variables son obtenidas de la misma muestra (es decir, los datos son bivariados), una gráfica de dispersión es utilizada para desplegar los datos.
Gráfica Circular
Las gráficas son utilizadas frecuentemente para desplegar datos en porcentajes o proporciones. Si se considera que el total de datos es el 100% a cada categoría le corresponde una fracción o rebanada de pastel.