Capítulo 2
Análisis Exploratorio de Datos
II-2001
• Cualitativo (Categorías)
– Nominal
Viña = 1 ; Santiago = 2 ; Temuco = 3 ..etc.– Ordinal
Pobre = 1; Aceptable = 2;Bueno = 3; Excelente = 4
• Cuantitativo (Números)
– Intervalo
estatura, viscosidad, distancia, duración...etc– Razón
temperatura, peso...etcNOTA:
El tipo de Estadísticas que se pueden obtener o calcular depende del tipo de dato que se trate.
Por ejemplo promedio, mediana y varianza no tienen sentido con datos categóricos (si con proporciones)
Clasificación/Tipo de Datos
Clasificación : Nominal, Ordinal, Intervalos y Razón
Variables : Discretas y Continuas Categóricas, Cuantitativas
Organización : Frecuencia absoluta Frecuencia relativa
A partir de nivel ordinal :
Frecuencia absoluta acumulada Frecuencia relativa acumulada
Escalas de Medida
Tanto en la escala intervalar como en la de razón es posible distinguir dos tipos de variables aleatorias:
Variables Discretas: una que puede tomar sus valores de un conjunto de puntos aislados (subconjunto de valores en IR)
Variables Continuas: una que puede tomar sus valores en un conjunto donde todos sus elementos son puntos de acumulación (un intervalo en IR). Siempre es posible tratar una variable continua como discreta mediante la construcción de “intervalos de clase” representando cada uno de los intervalos por su valor medio denominado “marca de clase”
Variables Categóricas o Cualitativas
Variables Cuantitativas
Tipos de Variables
Para estudiar las características de una variable se ordenan los valores observados de la muestra en k clases denominadas c1, c2, .. ck.
Frecuencia Absoluta.
Se llama frecuencia absoluta de la clase ci al número total de individuos u observaciones que pertenece a dicha clase y se denota por ni. Como las clases c1, c2, ... ck una partición de la muestra, es fácil verificar que
n =
Σ
ni número total de observaciones o tamaño de la muestrak
i = 1
Organización/Presentación
Frecuencia Relativa.
Se llama frecuencia relativa de la clase c
ia la
proporción de individuos que pertenecen a la clase sobre el total de individuos o tamaño de la muestra.
Se de nota por f
i. Se puede verificar que f
i= --- nótese que .... Σ f
ki= 1
i = 1
n
in
Organización/Presentación
• Reglas: Partición de la Población
– Cada observación debe pertenecer a una, y sólo una clase o categoría.
– Todas las observaciones deben ser pertenecer a una.
• Tablas Tabligrama.
• Gráficos de Barras Diagrama de Pareto .
• Gráficos Circulares o de Torta .
Presentación de Datos Cualitativos
107 60 51 25 10 8 1
2 3 4 5 6
Clase Descripción Frecuencia
Ejemplo: Tablas
Usa números como una manera de separar los elementos de la población en diferentes clases o categorías. El número
asignado a la observación sólo sirve como un nombre para distinguir la categoría a la cual pertenece la observación.
• La variable induce una partición sobre la población la información puede clasificarse en clases o categorías.
• Cada clase debe estar perfectamente definida y diferenciada de las demás.
• La recopilación se reduce a contar el número de individuos en la muestra que pertenece a cada clases:
Ejemplos : Clasificación de alumnos por
Cursos : primero (1), segundo (2),...., sexto (6) año;
Sexo : masculino (M), femenino (F);
Colegio : SEK (1); Alemán(2), Ruben Castro(3), etc.
Escala Nominal
107
60
51
25
10 8
0 20 40 60 80 100 120
1 2 3 4 5 6
Clase
Frecuencia
Diagrama de Pareto
Escala Nominal
1 40%
2 23%
3 20%
4 10%
5 4%
6 3%
Diagrama Circular
Escala Nominal
Dónde existe un orden implícito entre las mediciones. El valor numérico es usado sólo como una manera de arreglar los elementos de acuerdo al orden establecido.
La variable admite grados de calidad:existe una relación de orden total entre las clases.
No es posible cuantificar la diferencia entre los individuos pertenecientes a las distintas clases.
Ejemplo calificaciones de A (muy bueno), B (bueno), C (satisfactorio), D (admisible), E (deficiente)
Escala Ordinal
0 1 2 3 4 5 6 7 8 9
Pobr e
Regula r
Aceptabl e
Buen o
Muy Bueno
Diagrama de Bloques
Escala Ordinal
Considera no sólo la información pertinente al orden, sino además, el tamaño relativo de los intervalos a que pertenece cada uno de los individuos. En este nivel es posible cuantificar la diferencia de todos los individuos pertenecientes a los
intervalos, clases o categorías distintas.
Está involucrado en concepto de distancia, y la distancia entre dos medias puede ser expresada en función de esta unidad.
Ejemplos: temperatura al interior de un silo, interés sólo clasificar en intervalos de cinco grados {(0, 5°), (5, 10°), ...,(30, 35°)}. Puntaje promedio PAA, interesa clasificar en tramos de 25 puntos.
Escala Intervalar
• Tabligramas.
• Tablas de Frecuencia.
• Histogramas: valores discretos y continuos.
– Usar 5 a 20 clases (intervalos o grupos).
– (considerar anchos de clases, límites y marca de clase).
– (polígono de frecuencias – dibujar en marca de clase).
• Frecuencia Acumulada - Ojiva.
– (graficar en límite superior).
Escala Intervalar
Ejemplo: 40 Datos
10 7 8
11 1 2 3 7 9 12 0 3 3 4 6 8
13 1 2 2 4 5 6 7 8 14 0 1 2 3 3 5 7 8 8 15 0 2 3 3 8 8
16 0 0 1 2
Diagrama de Tallos-y-hojas
Ejemplo: Tabligrama
K := N° Clases ≈ 1 + 3.3 log n ≈ 7
R := Rango = máx { xi } - mín { xi } = 162 - 107 = 55 A := Amplitud = ( R + 1 ) / K = ( 55 + 1 ) / 7 = 8
Límites
102,5-111,5 111,5-120,5 120,5-129,5 129,5-138,5 138,5-147,5 147,5-156,5 156,5-165,5
Marca 107 116 125 134 143 152 161
Frecuencias
ABS - REL - REL. AC.
3 5 5 8 7 6 6 Conteo
///
////
////
//// ///
//// //
//// / //// /
Tabla de Frecuencias
0 1 2 3 4 5 6 7 8 9
10 7
11 6
12 5
13 4
14 3
15 2
16 1
Histograma
0 1 2 3 4 5 6 7 8 9
10 7
11 6
12 5
13 4
14 3
15 2
16 1 9
9
17 0
Polígono de Frecuencias
0 1 2 3 4 5 6 7 8 9
10 7
11 6
12 5
13 4
14 3
15 2
16 1 9
9
17 0
1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 2 1 2 2 2 3 2 4 2 5 2 6 2 7 2 8 2 9 3 0 3 1 3 2 3 3 3 4 3 5 3 6 3 7 3 8 3 9 4 0
Frecuencia Acumulada: Ojiva
Esta escala se usa cuando no sólo el orden y tamaño del intervalo son importantes.
La única diferencia entre la escala de razón y la intervalar es que en la primera se puede definir un cero absoluto y en la segunda no
Buscar ejemplos de Escala intervalar Buscar ejemplos de Escala de razón
Tarea : Discuta la diferencia entre Precisión y Exactitud ,
Escala de Razón
• Mediciones de Tendencia Central
• Mediciones de Dispersión
• Coeficiente de Variación
Extraer Información desde la Muestra
• Estas medidas tienden a ubicarse en el centro del conjunto.
• Proporcionan un valor simple y
representativo, que resume un gran volumen de información.
• Media Aritmética
• Media Geométrica
• Media Armónica
• Moda
• Mediana
• Semi Rango
Medidas de Tendencia Central
• Miden la “dispersión” de valores dentro del conjunto de datos
respecto de alguna medida de tendencia central.
• Rango
• Rango Cuartílico
• Rango Percentil
• Varianza
• Desviación Estándar
• Desviación Media
Medidas de Dispersión
0,000 0 0,050 0 0,100 0 0,150 0 0,200 0 0,250 0 0,300 0 0,350 0 0,400 0 0,450 0 0,500 0
4 5 6 7
0 1 2 3
Q1 Q2 Q3 Q4 Moda
Media Aritmética Mediana
Rango
Medidas de Tendencia y Dispersión
f
M≥ f
i=
i = 1, 2, 3, ..., k.
n
in
V = 1 – f
M= 1 - = n
Mn
n - n
Mn
Variables Categóricas: (Escala Nominal)
Moda (Medida del centro)
Tasa de Variación (Medida de Dispersión)
Tipo de Variable
En un estudio de mercado se considera una muestra de 1100 fumadores averiguando la marca de cigarrillo que fuman, se obtienen la siguiente Tabla
Marca A B C D Frecuencia 220 270 310 300 Frec. Relativa 0,200 0,245 0,282 0,273
fM = 0,282 Clase modal C TV = 1 – 0,282 = 0,718 Tasa de variación
Ejemplo
Variables Categóricas: (Escala Nominal)
Moda (Mo) (Medida del centro)
Tasa de Variación (V) (Medida de Dispersión)
Variables Cualitativas: (Escala Ordinal)
Moda, Mediana (Me) Tasa de Variación,
Indice de Dispersión (ID) , Cuartíles
Q
i= C
j∃ j : min Σ f
j> i/4
Cj : clase jMediana = C
(Q2)D =
rango clase es su N° de Orden K : N° total de clases( rango C
(Q3)– rango C
(Q1)) (K –1)
Tipo de Variable
Ejemplo 2.4 :
Se tiene la impresión que el servicio prestado por una sucursal bancaria no es buena; por lo tanto, la gerencia ordena un estudio al respecto.
Se toma una muestra de 70 respuestas de clientes opinando sobre el servicio recibido
Calificación P R S B E Frec. Absoluta 20 10 18 16 6 Frec. Relativa 0,286 0,143 0,257 0,229 0,086 Frec Acumul 20 30 48 64 70 Frec Aculm.Relat. 0,286 0,429 0,686 0,914 1,000
Q1 = 0,286 > 0,25 P Q2 = 0,686 > 0,50 S Q3 = 0,914 > 0,75 B Q4 = E
fM = 0,286 CM = P Med =C(Q2) CMed = S
V = 1 - fM = 1 – 0,286 = 0,714
D = = = 0,75
rC(Q3) – rC(Q1)
(K-1)
4 – 1 5 –1
1 2 3 4 5
Variables Categóricas: (Escala Nominal)
Moda ( Medida del centro )
Tasa de Variación ( Medida de Dispersión )
Variables Cualitativas: (Escala Ordinal)
Moda, Mediana
Tasa de Variación, Índice de Dispersión
Variables Cuantitativas: (Escala Intervalar)
Moda, Mediana, Media, Media Truncada
Tasa de Variación, Índice de Dispersión, Varianza Rango, Rango Inter-cuartílico (IQR), MEDA
Medidas de homogeneidad
Señal de Ruido η = - log C
V=
X
⎟⎟⎠ S
⎜⎜⎝ ⎞
⎛
2 2
X S