Análisis Exploratorio de Datos
Ejemplo 1: Una cooperativa de alimentos, creada con la finalidad de ofrecer a la venta productos de alta calidad a precios menores de los que se observan en los supermercados, registra en la actualidad 200 socios.
Debido a la imposibilidad de tener un trato directo con cada uno de los miembros, decidió realizar una encuesta para conocer las características demográficas y hábitos de compra de los mismos.
Para ello tomó una muestra de 40 familias y entre otras, se consideraron las siguientes variables:
1.-EDUCACION DEL JEFE DE LA FAMILIA
1.1.-Primaria Completa e Incompleta 1.2.-Secundaria Incompleta
1.3.-Secundaria Completa 1.4.-Universitaria Incompleta 1.5.-Universitaria Completa
2.-CANTIDAD DE PERSONAS POR FAMILIA 3.-INGRESOS MENSUALES DE LA FAMILIA Los resultados obtenidos fueron:
FAMILIA NIVEL DE EDUCACION
PERSONAS POR FAMILIA
INGRESOS FAMILIA NIVEL DE EDUCACION
PERSONAS POR FAMILIA
INGRESOS
1 1 1 250 21 1 3 800 2 1 1 280 22 3 4 1350 3 1 1 200 23 5 5 1300 4 1 1 500 24 3 8 2100 5 2 1 800 25 1 1 500 6 2 1 700 26 4 2 1800 7 2 1 350 27 3 3 2400 8 1 2 280 28 4 3 2200 9 2 2 600 29 2 4 900 10 5 5 1450 30 2 4 200 11 2 3 450 31 1 5 450 12 2 3 350 32 4 6 2450 13 3 3 1700 33 5 1 1400 14 2 4 900 34 5 3 1200 15 2 4 600 35 5 4 2400 16 1 2 280 36 3 4 1600 17 3 2 450 37 5 3 2000 18 2 2 350 38 2 3 900 19 2 3 800 39 2 4 900 20 3 4 1100 40 4 4 1550
Ejemplo 2: Supongamos las calificaciones (de 0 a 100 puntos de un grupo de 50 estudiantes que han rendido el examen final de la asignatura Estadística.
60 30 85 52 65 77 84 65 57 74 71 81 35 50 35 64 74 47 68 54 80 41 61 91 55 73 59 53 45 77 41 78 55 48 69 85 67 39 76 60 94 66 99 66 73 72 65 94 89 88
2.1.-Defina la escala de medición, cada variable en estudio y a que tipo pertenece ? 2.2.-Cómo organizaría y resumiría los datos en tablas de frecuencias ?
Ejemplo 3: Una empresa dedicada a efectuar encuestas de opinión, desea predecir el resultado de una elección municipal en una ciudad predeterminada. A los fines de seleccionar la muestra, se recurre a la correspondiente oficina de estadística. Alli se encuentra archivada la información referida a la división de la ciudad en radios censales, su ubicación geográfica y la cantidad de personas que habitan en cada uno de los radios.
Un ejemplo de radio censal puede ser el siguiente:
-Cantidad de viviendas en el radio: 130 -Cantidad de personas en el radio: 400
Como primera medida se divide la ciudad de acuerdo a cuatro niveles socioeconómicos definidos como: muy bajo, bajo, medio y alto. Considerando la cantidad de personas clasificadas en cada nivel socioeconómico establecido, se extrae una muestra al azar de radios censales y dentro de cada uno de los radios seleccionados en la muestra se eligen aleatoriamente viviendas.
El encuestador debe ir a las viviendas seleccionadas en la muestra y allí entrevistar a una persona que esté en condiciones de votar.
Las preguntas que componen el cuestionario para realizar la entrevista están referidas a: EDAD, SEXO, PROFESION, NIVEL DE INSTRUCCION, ESTADO CIVIL Y PREFERENCIA ELECTORAL.
Los resultados se publican mediante tablas mostrando los porcentajes correspondientes a las opiniones de las variables analizadas.
En base a lo comentado:
3.1.-Clasifique el tipo de estudio o investigación estadística de acuerdo a los fines que se persiguen y a la forma de recolectar los datos.
3.2.-Si la finalidad del estudio es exploratoria, que conclusiones cree que podría obtener.
Análisis Estadístico. Datos, variables y escalas de medición.
Ejemplo 1 y 2
a) Nivel de Educación del Jefe de la familia en una muestra de 40 socios de una cooperativa.
Variable: educación del jefe de la familia Tipo: cualitativa o categórica
Escala de Medición: ordinal Valores Posibles: cinco (5) Valores Observados: cuarenta (40)
b) Cantidad de personas por familia en una muestra de 40 socios de una cooperativa.
Variable: cantidad de personas por familia Tipo: cuantitativa discreta
Escala de Medición: cocientes o razones Valores Posibles: siete (7)
Valores Observados: cuarenta (40)
c) Ingresos mensuales por familia en una muestra de 40 socios de una cooperativa.
Variable: ingresos mensuales por familia Tipo: cuantitativa continua
Escala de Medición: intervalos Valores Posibles: cinco (5) Valores Observados: cuarenta (40)
d) Calificaciones de Estudiantes de Estadística Variable: calificaciones de estudiantes Tipo: cuantitativa continua
Escala de Medición: cocientes o razones Valores Posibles: siete (7)
Valores Observados: cincuenta (50)
Análisis Estadístico. Organización y Resumen de Datos
1) Datos Agrupados en Categorías (Variables Cualitativas).
Nivel de Educación del Jefe de la familia en una muestra de 40 socios de una cooperativa.
Frec. Abs. Frec. Rel. Frec. Ab. Acum. Frec. Ab. Des. Frec. Rel. Ac. Frec. Rel. Des.
ni hi Ni N'i Hi H'i
9 0,23 9 31 0,23 0,78
14 0,35 23 17 0,58 0,43
7 0,18 30 10 0,75 0,25
4 0,10 34 6 0,85 0,15
6 0,15 40 0 1,00 0,00
40 1
2) Datos Agrupados en Categorías (Variables Cuantitativas Discretas).
Cantidad de personas por familia en una muestra de 40 socios de una cooperativa.
Categoría Frec. Abs. Frec. Rel. Frec. Ab. Acum. Frec. Ab. Des. Frec. Rel. Ac. Frec. Rel. Des.
xi ni hi Ni N'i Hi H'i
1 9 0,23 9 31 0,23 0,78
2 6 0,15 15 25 0,38 0,63
3 10 0,25 25 15 0,63 0,38
4 10 0,25 35 5 0,88 0,13
5 3 0,08 38 2 0,95 0,05
6 1 0,03 39 1 0,98 0,03
8 1 0,03 40 0 1 0
40 1
3.-Secundaria completa 4.-Universitaria incompleta 5.-Universitaria completa
Categoría xi
1.-Primaria completa o incompleta 2.-Secundaria incompleta
Análisis Estadístico. Organización y Resumen de Datos
3) Datos Agrupados en Clases (Variables Cuantitativas Continuas).
Ingresos mensuales por familia de una muestra de 40 socios de una cooperativa.
Clases Marca Frec. Abs. Frec. Rel. Frec. Ab. Acum. Frec. Ab. Des. Frec. Rel. Ac. Frec. Rel. Des.
Li - Ls mi ni hi Ni N'i Hi H'i
0 -500 250 11 0,28 11 29 0,28 0,73
500-1000 750 12 0,30 23 17 0,58 0,43
1000-1500 1250 5 0,13 28 12 0,70 0,30
1500-2000 1750 4 0,10 32 8 0,80 0,20
2000-2500 2250 8 0,20 40 0 1 0
40 1
4) Datos Agrupados en Clases (Variables Cuantitativas Continuas).
Calificaciones de Estudiantes de Estadística
Clase Marca Frec. Abs. Frec. Rel. Frec. Ab. Acum. Frec. Ab. Des. Frec. Rel. Ac. Frec. Rel. Des.
mi ni hi Ni N'i Hi H'i
30-40 34,5 4 0,08 4 46 0,08 0,92
40-50 44,5 6 0,12 10 40 0,20 0,80
50-60 54,5 8 0,16 18 32 0,36 0,64
60-70 64,5 12 0,24 30 20 0,60 0,40
70-80 74,5 9 0,18 39 11 0,78 0,22
80-90 84,5 7 0,14 46 4 0,92 0,08
90-100 94,5 4 0,08 50 0 1 0
50 1
Medidas de Posición o Tendencia Central Media Aritmética, Media Geométrica, Media Armónica
1) Datos Individuales
Cantidad de nuevos clientes incorporados a una empresa.
Grupo I Grupo II Grupo III
40 32 41
32 31 38
25 20 34
35 27 40
30 28 36
36 30 39
M.A. 33,00 28,00 38,00
M.G. 32,64 27,68 37,92
M.A. 32,27 27,32 37,85
2) Datos Agrupados en Categorías (Variables Cuantitativas Discretas).
Cantidad de personas por familia
Categoría Frecuencia Cat. * Frec.
xi ni xi * ni
1 9 9
2 6 12
3 10 30
4 10 40
5 3 15
6 1 6
8 1 8
40 120
Media Aritmética 3,00
Media Geométrica 2,57
Media Armónica 2,14
3) Datos Agrupados en Clases (Variables Cuantitativas Continuas).
Calificaciones de Estudiantes de Estadística
Clase Marca Frecuencia Cat. * Frec.
mi ni mi * ni
30-40 34,5 4 138
40-50 44,5 6 267
50-60 54,5 8 436
60-70 64,5 12 774
70-80 74,5 9 670,5
80-90 84,5 7 591,5
90-100 94,5 4 378
50 3255
Media Aritmética 65,10
Media Geométrica 62,77
Media Armónica 60,27
Medidas de Posición y Orden
Medidas de Posición y Orden. Modo, Mediana y Cuartiles 1) Datos Individuales
Cantidad de nuevos clientes incorporados a una empresa.
Grupo I Grupo II Grupo III
40 32 41
32 31 38
25 20 34
35 27 40
30 28 36
36 30 39
Grupo I Grupo II Grupo III
25 20 34
30 27 36
32 28 38
35 30 39
36 31 40
40 32 41
Md 33,50 29,00 38,50
Q1 27,50 23,50 35,00
Q2 33,50 29,00 38,50
Q3 38,00 31,50 40,50
Mo No existe
Medidas de Posición y Orden
2) Datos Agrupados en Categorías (Variables Cuantitativas Discretas).
Cantidad de personas por familia
Cuartil Var. Categoría Frecuencia Frec. Acum Pos. Q1 Pos. Q2 Pos. Q3
xi ni Ni
1 9 9 Ni-1
Q1 Yi1 2 6 15 Ni Ni-1
Q2 Yi2 3 10 25 Ni Ni-1
Q3 Yi3 4 10 35 Ni
5 3 38
6 1 39
8 1 40
40
Posición Cuartiles Cuartil Valor
Q1 n/4 10 Q1 = 2
Q2 n/2 20 Q2 = 3
Q3 3n/4 30 Q3 = 4
Modo Mo= 3 y 4 Distribución Bimodal
Medidas de Posición y Orden
3) Datos Agrupados en Clases (Variables Cuantitativas Continuas).
Calificaciones de Estudiantes de Estadística
Cuartil Var. Clase Marca Frecuencia Frec. Acum Pos. Q1 Pos. Q2 Pos. Q3
mi ni Ni
30-40 34,5 4 4
40-50 44,5 6 10 Ni-1
Q1 Yi1 50-60 54,5 8 18 Ni Ni-1
Q2 Yi2 60-70 64,5 12 30 Ni Ni-1
Q3 Yi3 70-80 74,5 9 39 Ni
80-90 84,5 7 46
90-100 94,5 4 50
50
Posición Cuartiles Cuartil Valor Ecuación
Q1 n/4 12,5 Q1 = 50,12 50 + [(12,5 - 10) / (18 - 10)] * 10 = 50,12
Q2 n/2 25 Q2 = 65,83 60 + [(25 - 18) / (30 - 18)] * 10 = 65,83
Q3 3n/4 37,5 Q3 = 78,33 70 +[(37,5 - 30) / (39 - 30)] * 10 = 78,33
Clase Modal 60-70
Modo Mo= 64,5
Mo= 65,71 60 + [(12 - 8) / (12 - 8) + (12 - 9)] * 10 = 65,71
Medidas de Variabilidad y Forma
Medidas de Variabilidad y Forma
M.A. Media Aritmética D|p| Desviación Media D|Md| Desviación Mediana V(x) Varianza
D(x) Desviación Estándar C.V. Coeficiente de Variación
Asimetría Coeficiente de Forma o Asimetría Curtosis Coeficiente de Curtosis o Curtosis
1) Datos Individuales
Cantidad de nuevos clientes incorporados a una empresa
Grupo I |xi-p| |xi-Me| (xi-p)^2 (xi-p)^3 (xi-p)^4
40 7 6,50 49 343 2.401 32 1 1,50 1 -1 1 25 8 8,50 64 -512 4.096 35 2 1,50 4 8 16 30 3 3,50 9 -27 81 36 3 2,50 9 27 81
198 24 24 136 -162 6.676
M.A. 33,00
D|p| 4,00
D|Md| 4,00
V(x) 22,67
D(x) 4,76
C.V. 14,43%
Asimetría -0,25
Curtosis -0,83
Medidas de Variabilidad y Forma
Grupo II |xi-p| |xi-Me| (xi-p)^2 (xi-p)^3 (xi-p)^4
32 4 3 16 64 256 31 3 2 9 27 81 20 8 9 64 -512 4.096
27 1 2 1 -1 1
28 0 1 0 0 0
30 2 1 4 8 16
168 18 18 94 -414 4.450
M.A. 28,00
D|p| 3,00
D|Md| 3,00
V(x) 15,67
D(x) 3,96
C.V. 14,14%
Asimetría -1,11
Curtosis 0,02
Grupo III |xi-p| |xi-Me| (xi-p)^2 (xi-p)^3 (xi-p)^4
41 3 3 9 27 81
38 0 1 0 0 0
34 4 5 16 -64 256 40 2 2 4 8 16 36 2 3 4 -8 16
39 1 1 1 1 1
228 12 12 34 -36 370
M.A. 38,00
D|p| 2,00
D|Md| 2,00
V(x) 5,67
D(x) 2,38
Medidas de Variabilidad y Forma
2) Datos Agrupados en Categorías (Variables Cuantitativas Discretas) Cantidad de personas por familia
xi ni xi * ni |xi-p|*ni |xi-Me|*ni (xi-p)^2*ni (xi-p)^3*ni (xi-p)^4*ni
1 9 9 18 18 36 -72 144
2 6 12 6 6 6 -6 6
3 10 30 0 0 0 0 0
4 10 40 10 10 10 10 10 5 3 15 6 6 12 24 48
6 1 6 3 3 9 27 81
8 1 8 5 5 25 125 625
40 120 48 48 98 108 914
M.A. 3,00
D|p| 1,20
D|Md| 1,20
V(x) 2,45
D(x) 1,57
C.V. 52,17%
Asimetría 0,70
Curtosis 0,81
Medidas de Variabilidad y Forma
3) Datos Agrupados en Clases (Variables Cuantitativas Continuas Calificaciones de Estudiantes de Estadística
Clase mi ni mi * ni |mi-p|*ni |mi-Me|*ni (mi-p)^2*ni (mi-p)^3*ni (mi-p)^4*ni
29,5-39,5 34,50 4 138,00 122,40 125,32 3.745,44 -114.610,46 3.507.080,20 39,5-49,5 44,50 6 267,00 123,60 127,98 2.546,16 -52.450,90 1.080.488,46 49,5-59,5 54,50 8 436,00 84,80 90,64 898,88 -9.528,13 100.998,16 59,5-69,5 64,50 12 774,00 7,20 15,96 4,32 -2,59 1,56 69,5-79,5 74,50 9 670,50 84,60 78,03 795,24 7.475,26 70.267,41 79,5-89,5 84,50 7 591,50 135,80 130,69 2.634,52 51.109,69 991.527,95 89,5-100 94,50 4 378,00 117,60 114,68 3.457,44 101.648,74 2.988.472,84
50 3.255,00 676,00 683,30 14.082,00 -16.358,40 8.738.836,56
M.A. 65,10
D|p| 13,52
D|Md| 13,67
V(x) 281,64
D(x) 16,78
C.V. 25,78%
Asimetría -0,07
Curtosis -0,80