• No se han encontrado resultados

Análisis Exploratorio de Datos

N/A
N/A
Protected

Academic year: 2022

Share "Análisis Exploratorio de Datos"

Copied!
13
0
0

Texto completo

(1)

Análisis Exploratorio de Datos

Ejemplo 1: Una cooperativa de alimentos, creada con la finalidad de ofrecer a la venta productos de alta calidad a precios menores de los que se observan en los supermercados, registra en la actualidad 200 socios.

Debido a la imposibilidad de tener un trato directo con cada uno de los miembros, decidió realizar una encuesta para conocer las características demográficas y hábitos de compra de los mismos.

Para ello tomó una muestra de 40 familias y entre otras, se consideraron las siguientes variables:

1.-EDUCACION DEL JEFE DE LA FAMILIA

1.1.-Primaria Completa e Incompleta 1.2.-Secundaria Incompleta

1.3.-Secundaria Completa 1.4.-Universitaria Incompleta 1.5.-Universitaria Completa

2.-CANTIDAD DE PERSONAS POR FAMILIA 3.-INGRESOS MENSUALES DE LA FAMILIA Los resultados obtenidos fueron:

FAMILIA NIVEL DE EDUCACION

PERSONAS POR FAMILIA

INGRESOS FAMILIA NIVEL DE EDUCACION

PERSONAS POR FAMILIA

INGRESOS

1 1 1 250 21 1 3 800 2 1 1 280 22 3 4 1350 3 1 1 200 23 5 5 1300 4 1 1 500 24 3 8 2100 5 2 1 800 25 1 1 500 6 2 1 700 26 4 2 1800 7 2 1 350 27 3 3 2400 8 1 2 280 28 4 3 2200 9 2 2 600 29 2 4 900 10 5 5 1450 30 2 4 200 11 2 3 450 31 1 5 450 12 2 3 350 32 4 6 2450 13 3 3 1700 33 5 1 1400 14 2 4 900 34 5 3 1200 15 2 4 600 35 5 4 2400 16 1 2 280 36 3 4 1600 17 3 2 450 37 5 3 2000 18 2 2 350 38 2 3 900 19 2 3 800 39 2 4 900 20 3 4 1100 40 4 4 1550

(2)

Ejemplo 2: Supongamos las calificaciones (de 0 a 100 puntos de un grupo de 50 estudiantes que han rendido el examen final de la asignatura Estadística.

60 30 85 52 65 77 84 65 57 74 71 81 35 50 35 64 74 47 68 54 80 41 61 91 55 73 59 53 45 77 41 78 55 48 69 85 67 39 76 60 94 66 99 66 73 72 65 94 89 88

2.1.-Defina la escala de medición, cada variable en estudio y a que tipo pertenece ? 2.2.-Cómo organizaría y resumiría los datos en tablas de frecuencias ?

Ejemplo 3: Una empresa dedicada a efectuar encuestas de opinión, desea predecir el resultado de una elección municipal en una ciudad predeterminada. A los fines de seleccionar la muestra, se recurre a la correspondiente oficina de estadística. Alli se encuentra archivada la información referida a la división de la ciudad en radios censales, su ubicación geográfica y la cantidad de personas que habitan en cada uno de los radios.

Un ejemplo de radio censal puede ser el siguiente:

-Cantidad de viviendas en el radio: 130 -Cantidad de personas en el radio: 400

Como primera medida se divide la ciudad de acuerdo a cuatro niveles socioeconómicos definidos como: muy bajo, bajo, medio y alto. Considerando la cantidad de personas clasificadas en cada nivel socioeconómico establecido, se extrae una muestra al azar de radios censales y dentro de cada uno de los radios seleccionados en la muestra se eligen aleatoriamente viviendas.

El encuestador debe ir a las viviendas seleccionadas en la muestra y allí entrevistar a una persona que esté en condiciones de votar.

Las preguntas que componen el cuestionario para realizar la entrevista están referidas a: EDAD, SEXO, PROFESION, NIVEL DE INSTRUCCION, ESTADO CIVIL Y PREFERENCIA ELECTORAL.

Los resultados se publican mediante tablas mostrando los porcentajes correspondientes a las opiniones de las variables analizadas.

En base a lo comentado:

3.1.-Clasifique el tipo de estudio o investigación estadística de acuerdo a los fines que se persiguen y a la forma de recolectar los datos.

3.2.-Si la finalidad del estudio es exploratoria, que conclusiones cree que podría obtener.

(3)

Análisis Estadístico. Datos, variables y escalas de medición.

Ejemplo 1 y 2

a) Nivel de Educación del Jefe de la familia en una muestra de 40 socios de una cooperativa.

Variable: educación del jefe de la familia Tipo: cualitativa o categórica

Escala de Medición: ordinal Valores Posibles: cinco (5) Valores Observados: cuarenta (40)

b) Cantidad de personas por familia en una muestra de 40 socios de una cooperativa.

Variable: cantidad de personas por familia Tipo: cuantitativa discreta

Escala de Medición: cocientes o razones Valores Posibles: siete (7)

Valores Observados: cuarenta (40)

c) Ingresos mensuales por familia en una muestra de 40 socios de una cooperativa.

Variable: ingresos mensuales por familia Tipo: cuantitativa continua

Escala de Medición: intervalos Valores Posibles: cinco (5) Valores Observados: cuarenta (40)

d) Calificaciones de Estudiantes de Estadística Variable: calificaciones de estudiantes Tipo: cuantitativa continua

Escala de Medición: cocientes o razones Valores Posibles: siete (7)

Valores Observados: cincuenta (50)

(4)

Análisis Estadístico. Organización y Resumen de Datos

1) Datos Agrupados en Categorías (Variables Cualitativas).

Nivel de Educación del Jefe de la familia en una muestra de 40 socios de una cooperativa.

Frec. Abs. Frec. Rel. Frec. Ab. Acum. Frec. Ab. Des. Frec. Rel. Ac. Frec. Rel. Des.

ni hi Ni N'i Hi H'i

9 0,23 9 31 0,23 0,78

14 0,35 23 17 0,58 0,43

7 0,18 30 10 0,75 0,25

4 0,10 34 6 0,85 0,15

6 0,15 40 0 1,00 0,00

40 1

2) Datos Agrupados en Categorías (Variables Cuantitativas Discretas).

Cantidad de personas por familia en una muestra de 40 socios de una cooperativa.

Categoría Frec. Abs. Frec. Rel. Frec. Ab. Acum. Frec. Ab. Des. Frec. Rel. Ac. Frec. Rel. Des.

xi ni hi Ni N'i Hi H'i

1 9 0,23 9 31 0,23 0,78

2 6 0,15 15 25 0,38 0,63

3 10 0,25 25 15 0,63 0,38

4 10 0,25 35 5 0,88 0,13

5 3 0,08 38 2 0,95 0,05

6 1 0,03 39 1 0,98 0,03

8 1 0,03 40 0 1 0

40 1

3.-Secundaria completa 4.-Universitaria incompleta 5.-Universitaria completa

Categoría xi

1.-Primaria completa o incompleta 2.-Secundaria incompleta

(5)

Análisis Estadístico. Organización y Resumen de Datos

3) Datos Agrupados en Clases (Variables Cuantitativas Continuas).

Ingresos mensuales por familia de una muestra de 40 socios de una cooperativa.

Clases Marca Frec. Abs. Frec. Rel. Frec. Ab. Acum. Frec. Ab. Des. Frec. Rel. Ac. Frec. Rel. Des.

Li - Ls mi ni hi Ni N'i Hi H'i

0 -500 250 11 0,28 11 29 0,28 0,73

500-1000 750 12 0,30 23 17 0,58 0,43

1000-1500 1250 5 0,13 28 12 0,70 0,30

1500-2000 1750 4 0,10 32 8 0,80 0,20

2000-2500 2250 8 0,20 40 0 1 0

40 1

4) Datos Agrupados en Clases (Variables Cuantitativas Continuas).

Calificaciones de Estudiantes de Estadística

Clase Marca Frec. Abs. Frec. Rel. Frec. Ab. Acum. Frec. Ab. Des. Frec. Rel. Ac. Frec. Rel. Des.

mi ni hi Ni N'i Hi H'i

30-40 34,5 4 0,08 4 46 0,08 0,92

40-50 44,5 6 0,12 10 40 0,20 0,80

50-60 54,5 8 0,16 18 32 0,36 0,64

60-70 64,5 12 0,24 30 20 0,60 0,40

70-80 74,5 9 0,18 39 11 0,78 0,22

80-90 84,5 7 0,14 46 4 0,92 0,08

90-100 94,5 4 0,08 50 0 1 0

50 1

(6)

Medidas de Posición o Tendencia Central Media Aritmética, Media Geométrica, Media Armónica

1) Datos Individuales

Cantidad de nuevos clientes incorporados a una empresa.

Grupo I Grupo II Grupo III

40 32 41

32 31 38

25 20 34

35 27 40

30 28 36

36 30 39

M.A. 33,00 28,00 38,00

M.G. 32,64 27,68 37,92

M.A. 32,27 27,32 37,85

2) Datos Agrupados en Categorías (Variables Cuantitativas Discretas).

Cantidad de personas por familia

Categoría Frecuencia Cat. * Frec.

xi ni xi * ni

1 9 9

2 6 12

3 10 30

4 10 40

5 3 15

6 1 6

8 1 8

40 120

Media Aritmética 3,00

Media Geométrica 2,57

Media Armónica 2,14

3) Datos Agrupados en Clases (Variables Cuantitativas Continuas).

Calificaciones de Estudiantes de Estadística

Clase Marca Frecuencia Cat. * Frec.

mi ni mi * ni

30-40 34,5 4 138

40-50 44,5 6 267

50-60 54,5 8 436

60-70 64,5 12 774

70-80 74,5 9 670,5

80-90 84,5 7 591,5

90-100 94,5 4 378

50 3255

Media Aritmética 65,10

Media Geométrica 62,77

Media Armónica 60,27

(7)

Medidas de Posición y Orden

Medidas de Posición y Orden. Modo, Mediana y Cuartiles 1) Datos Individuales

Cantidad de nuevos clientes incorporados a una empresa.

Grupo I Grupo II Grupo III

40 32 41

32 31 38

25 20 34

35 27 40

30 28 36

36 30 39

Grupo I Grupo II Grupo III

25 20 34

30 27 36

32 28 38

35 30 39

36 31 40

40 32 41

Md 33,50 29,00 38,50

Q1 27,50 23,50 35,00

Q2 33,50 29,00 38,50

Q3 38,00 31,50 40,50

Mo No existe

(8)

Medidas de Posición y Orden

2) Datos Agrupados en Categorías (Variables Cuantitativas Discretas).

Cantidad de personas por familia

Cuartil Var. Categoría Frecuencia Frec. Acum Pos. Q1 Pos. Q2 Pos. Q3

xi ni Ni

1 9 9 Ni-1

Q1 Yi1 2 6 15 Ni Ni-1

Q2 Yi2 3 10 25 Ni Ni-1

Q3 Yi3 4 10 35 Ni

5 3 38

6 1 39

8 1 40

40

Posición Cuartiles Cuartil Valor

Q1 n/4 10 Q1 = 2

Q2 n/2 20 Q2 = 3

Q3 3n/4 30 Q3 = 4

Modo Mo= 3 y 4 Distribución Bimodal

(9)

Medidas de Posición y Orden

3) Datos Agrupados en Clases (Variables Cuantitativas Continuas).

Calificaciones de Estudiantes de Estadística

Cuartil Var. Clase Marca Frecuencia Frec. Acum Pos. Q1 Pos. Q2 Pos. Q3

mi ni Ni

30-40 34,5 4 4

40-50 44,5 6 10 Ni-1

Q1 Yi1 50-60 54,5 8 18 Ni Ni-1

Q2 Yi2 60-70 64,5 12 30 Ni Ni-1

Q3 Yi3 70-80 74,5 9 39 Ni

80-90 84,5 7 46

90-100 94,5 4 50

50

Posición Cuartiles Cuartil Valor Ecuación

Q1 n/4 12,5 Q1 = 50,12 50 + [(12,5 - 10) / (18 - 10)] * 10 = 50,12

Q2 n/2 25 Q2 = 65,83 60 + [(25 - 18) / (30 - 18)] * 10 = 65,83

Q3 3n/4 37,5 Q3 = 78,33 70 +[(37,5 - 30) / (39 - 30)] * 10 = 78,33

Clase Modal 60-70

Modo Mo= 64,5

Mo= 65,71 60 + [(12 - 8) / (12 - 8) + (12 - 9)] * 10 = 65,71

(10)

Medidas de Variabilidad y Forma

Medidas de Variabilidad y Forma

M.A. Media Aritmética D|p| Desviación Media D|Md| Desviación Mediana V(x) Varianza

D(x) Desviación Estándar C.V. Coeficiente de Variación

Asimetría Coeficiente de Forma o Asimetría Curtosis Coeficiente de Curtosis o Curtosis

1) Datos Individuales

Cantidad de nuevos clientes incorporados a una empresa

Grupo I |xi-p| |xi-Me| (xi-p)^2 (xi-p)^3 (xi-p)^4

40 7 6,50 49 343 2.401 32 1 1,50 1 -1 1 25 8 8,50 64 -512 4.096 35 2 1,50 4 8 16 30 3 3,50 9 -27 81 36 3 2,50 9 27 81

198 24 24 136 -162 6.676

M.A. 33,00

D|p| 4,00

D|Md| 4,00

V(x) 22,67

D(x) 4,76

C.V. 14,43%

Asimetría -0,25

Curtosis -0,83

(11)

Medidas de Variabilidad y Forma

Grupo II |xi-p| |xi-Me| (xi-p)^2 (xi-p)^3 (xi-p)^4

32 4 3 16 64 256 31 3 2 9 27 81 20 8 9 64 -512 4.096

27 1 2 1 -1 1

28 0 1 0 0 0

30 2 1 4 8 16

168 18 18 94 -414 4.450

M.A. 28,00

D|p| 3,00

D|Md| 3,00

V(x) 15,67

D(x) 3,96

C.V. 14,14%

Asimetría -1,11

Curtosis 0,02

Grupo III |xi-p| |xi-Me| (xi-p)^2 (xi-p)^3 (xi-p)^4

41 3 3 9 27 81

38 0 1 0 0 0

34 4 5 16 -64 256 40 2 2 4 8 16 36 2 3 4 -8 16

39 1 1 1 1 1

228 12 12 34 -36 370

M.A. 38,00

D|p| 2,00

D|Md| 2,00

V(x) 5,67

D(x) 2,38

(12)

Medidas de Variabilidad y Forma

2) Datos Agrupados en Categorías (Variables Cuantitativas Discretas) Cantidad de personas por familia

xi ni xi * ni |xi-p|*ni |xi-Me|*ni (xi-p)^2*ni (xi-p)^3*ni (xi-p)^4*ni

1 9 9 18 18 36 -72 144

2 6 12 6 6 6 -6 6

3 10 30 0 0 0 0 0

4 10 40 10 10 10 10 10 5 3 15 6 6 12 24 48

6 1 6 3 3 9 27 81

8 1 8 5 5 25 125 625

40 120 48 48 98 108 914

M.A. 3,00

D|p| 1,20

D|Md| 1,20

V(x) 2,45

D(x) 1,57

C.V. 52,17%

Asimetría 0,70

Curtosis 0,81

(13)

Medidas de Variabilidad y Forma

3) Datos Agrupados en Clases (Variables Cuantitativas Continuas Calificaciones de Estudiantes de Estadística

Clase mi ni mi * ni |mi-p|*ni |mi-Me|*ni (mi-p)^2*ni (mi-p)^3*ni (mi-p)^4*ni

29,5-39,5 34,50 4 138,00 122,40 125,32 3.745,44 -114.610,46 3.507.080,20 39,5-49,5 44,50 6 267,00 123,60 127,98 2.546,16 -52.450,90 1.080.488,46 49,5-59,5 54,50 8 436,00 84,80 90,64 898,88 -9.528,13 100.998,16 59,5-69,5 64,50 12 774,00 7,20 15,96 4,32 -2,59 1,56 69,5-79,5 74,50 9 670,50 84,60 78,03 795,24 7.475,26 70.267,41 79,5-89,5 84,50 7 591,50 135,80 130,69 2.634,52 51.109,69 991.527,95 89,5-100 94,50 4 378,00 117,60 114,68 3.457,44 101.648,74 2.988.472,84

50 3.255,00 676,00 683,30 14.082,00 -16.358,40 8.738.836,56

M.A. 65,10

D|p| 13,52

D|Md| 13,67

V(x) 281,64

D(x) 16,78

C.V. 25,78%

Asimetría -0,07

Curtosis -0,80

Referencias

Documento similar

El objetivo del presente trabajo ha sido estudiar los efectos de diferentes niveles de aireación en la solución nutritiva (Control, Bajo, Medio y Alto) sobre

En este apartado se pasará a destacar las sentencias más relevantes relacionadas con el objeto de estudio; es decir, a la geolocalización como medio de control del trabajador.

que hasta que llegue el tiempo en que su regia planta ; | pise el hispano suelo... que hasta que el

Para ello, trabajaremos con una colección de cartas redactadas desde allí, impresa en Évora en 1598 y otros documentos jesuitas: el Sumario de las cosas de Japón (1583),

dente: algunas decían que doña Leonor, "con muy grand rescelo e miedo que avía del rey don Pedro que nueva- mente regnaba, e de la reyna doña María, su madre del dicho rey,

E Clamades andaua sienpre sobre el caua- 11o de madera, y en poco tienpo fue tan lexos, que el no sabia en donde estaña; pero el tomo muy gran esfuergo en si, y pensó yendo assi

6 Para la pervivencia de la tradición clásica y la mitología en la poesía machadiana, véase: Lasso de la Vega, José, “El mito clásico en la literatura española

d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que