• No se han encontrado resultados

Capítulo 2 Capítulo 2 Análisis Análisis Exploratorio de Exploratorio de DatosDatosII-2001II-2001

N/A
N/A
Protected

Academic year: 2022

Share "Capítulo 2 Capítulo 2 Análisis Análisis Exploratorio de Exploratorio de DatosDatosII-2001II-2001"

Copied!
31
0
0

Texto completo

(1)

Capítulo 2 Capítulo 2

Análisis Análisis

Exploratorio de Exploratorio de

Datos

Datos

II-2001

II-2001

(2)

• Cualitativo (Categorías)

– Nominal

 Viña = 1 ; Santiago = 2 ; Temuco = 3 ..etc.

– Ordinal

 Pobre = 1; Aceptable = 2;

Bueno = 3; Excelente = 4

• Cuantitativo (Números)

– Intervalo

 estatura, viscosidad, distancia, duración...etc

– Razón

 temperatura, peso...etc

NOTA:

El tipo de Estadísticas que se pueden obtener o calcular depende del tipo de dato que se trate.

Por ejemplo promedio, mediana y varianza no tienen sentido con datos categóricos (si con proporciones) NOTA:

El tipo de Estadísticas que se pueden obtener o calcular depende del tipo de dato que se trate.

Por ejemplo promedio, mediana y varianza no tienen sentido con datos categóricos (si con proporciones)

Clasificación/Tipo de Datos

Clasificación/Tipo de Datos

Clasificación/Tipo de Datos

Clasificación/Tipo de Datos

(3)

Clasificación : Nominal, Ordinal, Intervalos y Razón

Variables : Discretas y Continuas Categóricas,

Cuantitativas

Organización : Frecuencia absoluta

 Frecuencia relativa A partir de nivel ordinal :

 Frecuencia absoluta

acumulada  Frecuencia relativa acumulada

Escalas de Medida

Escalas de Medida Escalas de Medida

Escalas de Medida

(4)

Tanto en la escala intervalar como en la de razón es posible distinguir dos tipos de variables aleatorias:

Variables Discretas: una que puede tomar sus valores de un conjunto de puntos aislados (subconjunto de valores en IR)

Variables Continuas: una que puede tomar sus valores en un conjunto donde todos sus elementos son puntos de acumulación (un intervalo en IR). Siempre es posible tratar una variable continua como discreta mediante la construcción de “intervalos de clase” representando cada uno de los intervalos por su valor medio denominado “marca de clase”

Variables Categóricas o Cualitativas

Variables Cuantitativas

Tipos de Variables

Tipos de Variables Tipos de Variables

Tipos de Variables

(5)

Para estudiar las características de una variable se ordenan los valores observados de la muestra en k clases denominadas c1, c2, .. ck.

Frecuencia Absoluta.

Se llama frecuencia absoluta de la clase ci al número total de individuos u observaciones que pertenece a dicha clase y se denota por ni. Como las clases c1, c2, ... ck una partición de la muestra, es fácil verificar que

n =

ni  número total de observaciones o tamaño de la muestra

k

i = 1

Organización/Presentación

Organización/Presentación

Organización/Presentación

Organización/Presentación

(6)

Frecuencia Relativa.

Se llama frecuencia relativa de la clase c

i

a la

proporción de individuos que pertenecen a la clase sobre el total de individuos o tamaño de la muestra.

Se de nota por f

i

. Se puede verificar que

f

i

= --- nótese que ....

k

f

i

= 1

i = 1

n

i

n

Organización/Presentación

Organización/Presentación

Organización/Presentación

Organización/Presentación

(7)

• Reglas: Partición de la Población

– Cada observación debe pertenecer a una, y sólo debe una clase o categoría.

– Todas las observaciones deben ser pertenecer a una.

• Tablas  Tabligrama.

• Gráficos de Barras  Diagrama de Pareto .

• Gráficos Circulares o de Torta .

Presentación de Datos Cualitativos

Presentación de Datos Cualitativos Presentación de Datos Cualitativos

Presentación de Datos Cualitativos

(8)

107 60 51 25 10 8 1

2 3 4 5 6

Clase Descripción Frecuencia

Ejemplo: Tablas

Ejemplo: Tablas Ejemplo: Tablas

Ejemplo: Tablas

(9)

Usa números como una manera de separar los elementos de la población en diferentes clases o categorías. El número

asignado a la observación sólo sirve como un nombre para distinguir la categoría a la cual pertenece la observación.

• La variable induce una partición sobre la población la información puede clasificarse en clases o categorías.

• Cada clase debe estar perfectamente definida y diferenciada de las demás.

• La recopilación se reduce a contar el número de individuos en la muestra que pertenece a cada clases:

Ejemplos : Clasificación de alumnos por

Cursos : primero (1), segundo (2),...., sexto (6) año;

Sexo : masculino (M), femenino (F);

Colegio : SEK (1); Alemán(2), Ruben Castro(3), etc.

Escala Nominal

Escala Nominal

Escala Nominal

Escala Nominal

(10)

107

60

51

25

10 8

0 20 40 60 80 100 120

1 2 3 4 5 6

Clase

Frecuencia

Diagrama de Pareto

Escala Nominal

Escala Nominal

Escala Nominal

Escala Nominal

(11)

1 40%

2 23%

3 20%

4 10%

5 4%

6

3%

Diagrama Circular

Escala Nominal

Escala Nominal

Escala Nominal

Escala Nominal

(12)

Dónde existe un orden implícito entre las mediciones. El valor numérico es usado sólo como una manera de arreglar los elementos de acuerdo al orden establecido.

La variable admite grados de calidad:existe una relación de orden total entre las clases.

No es posible cuantificar la diferencia entre los individuos pertenecientes a las distintas clases.

Ejemplo calificaciones de A (muy bueno), B (bueno), C (satisfactorio), D (admisible), E (deficiente)

Escala Ordinal

Escala Ordinal Escala Ordinal

Escala Ordinal

(13)

0 1 2 3 4 5 6 7 8 9

Pobre Regular Aceptable Bueno Muy Bueno

Diagrama de Bloques

Escala Ordinal

Escala Ordinal Escala Ordinal

Escala Ordinal

(14)

Considera no sólo la información pertinente al orden, sino además, el tamaño relativo de los intervalos a que pertenece cada uno de los individuos. En este nivel es posible cuantificar la diferencia de todos los individuos pertenecientes a los

intervalos, clases o categorías distintas.

Está involucrado en concepto de distancia, y la distancia entre dos medias puede ser expresada en función de esta unidad.

Ejemplos: temperatura al interior de un silo, interés sólo

clasificar en intervalos de cinco grados {(0, 5°), (5, 10°), ..., (30, 35°)}. Puntaje promedio PAA, interesa clasificar en

tramos de 25 puntos.

Escala Intervalar

Escala Intervalar Escala Intervalar

Escala Intervalar

(15)

• Tabligramas.

• Tablas de Frecuencia.

• Histogramas: valores discretos y continuos.

– Usar 5 a 20 clases (intervalos o grupos).

– (considerar anchos de clases, límites y marca de clase).

– (polígono de frecuencias – dibujar en marca de clase).

• Frecuencia Acumulada - Ojiva.

– (graficar en límite superior).

Escala Intervalar

Escala Intervalar Escala Intervalar

Escala Intervalar

(16)

Ejemplo: 40 Datos

10 7 8

11 1 2 3 7 9 12 0 3 3 4 6 8

13 1 2 2 4 5 6 7 8 14 0 1 2 3 3 5 7 8 8 15 0 2 3 3 8 8

16 0 0 1 2

Diagrama de Tallos-y-hojas

Ejemplo: Tabligrama

Ejemplo: Tabligrama Ejemplo: Tabligrama

Ejemplo: Tabligrama

(17)

K := N° Clases  1 + 3.3 log n  7

R := Rango = máx { xi } - mín { xi } = 162 - 107 = 55 A := Amplitud = ( R + 1 ) / K = ( 55 + 1 ) / 7 = 8

Límites

102,5-111,5 111,5-120,5 120,5-129,5 129,5-138,5 138,5-147,5 147,5-156,5 156,5-165,5

Marca 107 116 125 134 143 152 161

Frecuencias

ABS - REL - REL. AC.

3 5 5 8 7 6 6 Conteo

///

////

////

//// ///

//// //

//// / //// /

Tabla de Frecuencias

Tabla de Frecuencias Tabla de Frecuencias

Tabla de Frecuencias

(18)

0 1 2 3 4 5 6 7 8 9

107 116 125 134 143 152 161

Histograma

Histograma

Histograma

Histograma

(19)

0 1 2 3 4 5 6 7 8 9

107 116 125 134 143 152 161

99 170

Polígono de Frecuencias

Polígono de Frecuencias Polígono de Frecuencias

Polígono de Frecuencias

(20)

01 23 45 67 89

107 116 125 134 143 152 161

99 170

1011 1213 1415 1617 1819 2021 2223 2425 2627 2829 3031 3233 3435 3637 3839 40

Frecuencia Acumulada: Ojiva

Frecuencia Acumulada: Ojiva Frecuencia Acumulada: Ojiva

Frecuencia Acumulada: Ojiva

(21)

Esta escala se usa cuando no sólo el orden y tamaño del intervalo son importantes.

La única diferencia entre la escala de razón y la intervalar es que en la primera se puede definir un cero absoluto y en la segunda no

Buscar ejemplos de Escala intervalar Buscar ejemplos de Escala de razón

Tarea : Discuta la diferencia entre Precisión y Exactitud ,

Escala de Razón

Escala de Razón Escala de Razón

Escala de Razón

(22)

• Mediciones de Tendencia Central

• Mediciones de Dispersión

• Coeficiente de Variación

Extraer Información desde la Muestra

Extraer Información desde la Muestra

Extraer Información desde la Muestra

Extraer Información desde la Muestra

(23)

• Estas medidas tienden a ubicarse en el centro del conjunto.

• Proporcionan un valor simple y

representativo, que resume un gran volumen de información.

• Media Aritmética

• Media Geométrica

• Media Armónica

• Moda

• Mediana

• Semi Rango

Medidas de Tendencia Central

Medidas de Tendencia Central Medidas de Tendencia Central

Medidas de Tendencia Central

(24)

• Miden la “dispersión” de valores dentro del conjunto de datos

respecto de alguna medida de tendencia central.

• Rango

• Rango Cuartílico

• Rango Percentil

• Varianza

• Desviación Estándar

• Desviación Media

Medidas de Dispersión

Medidas de Dispersión

Medidas de Dispersión

Medidas de Dispersión

(25)

0,0000 0,0500 0,1000 0,1500 0,2000 0,2500 0,3000 0,3500 0,4000 0,4500 0,5000

4 5 6 7

0 1 2 3

Q1 Q2 Q3 Q4 Moda

Media Aritmética Mediana

Rango

Medidas de Tendencia y Dispersión

Medidas de Tendencia y Dispersión Medidas de Tendencia y Dispersión

Medidas de Tendencia y Dispersión

(26)

f

M

 f

i

= n

i

i = 1, 2, 3, ..., k.

n

V = 1 – f

M

= 1 - = n

M

n

n - n

M

n

Variables Categóricas: (Escala Nominal)

Moda (Medida del centro)

Tasa de Variación (Medida de Dispersión)

Tipo de Variable

Tipo de Variable

Tipo de Variable

Tipo de Variable

(27)

En un estudio de mercado se considera una muestra de 1100 fumadores averiguando la marca de cigarrillo que fuman, se obtienen la siguiente Tabla

Marca A B C D Frecuencia 220 270 310 300 Frec. Relativa 0,200 0,245 0,282 0,273

fM = 0,282  Clase modal C TV = 1 – 0,282 = 0,718  Tasa de variación

Ejemplo

Ejemplo

Ejemplo

Ejemplo

(28)

Variables Categóricas: (Escala Nominal)

Moda (Mo) (Medida del centro)

Tasa de Variación (V) (Medida de Dispersión)

Variables Cualitativas: (Escala Ordinal)

Moda, Mediana (Me) Tasa de Variación,

Indice de Dispersión (ID) , Cuartíles

Q

i

= C

j

 j : min  f

j

> i/4

Cj : clase j

Mediana = C

(Q2)

D =

rango clase es su N° de Orden K : N° total de clases

( rango C

(Q3)

– rango C

(Q1)

) (K –1)

Tipo de Variable

Tipo de Variable

Tipo de Variable

Tipo de Variable

(29)

Ejemplo 2.4 :

Se tiene la impresión que el servicio prestado por una sucursal bancaria no es buena; por lo tanto, la gerencia ordena un estudio al respecto.

Se toma una muestra de 70 respuestas de clientes opinando sobre el servicio recibido

Calificación P R S B E Frec. Absoluta 20 10 18 16 6 Frec. Relativa 0,286 0,143 0,257 0,229 0,086 Frec Acumul 20 30 48 64 70 Frec Aculm.Relat. 0,286 0,429 0,686 0,914 1,000

Q1 = 0,286 > 0,25  P Q2 = 0,686 > 0,50  S Q3 = 0,914 > 0,75  B Q4 =  E

fM = 0,286  CM = P Med =C(Q2)  CMed = S

V = 1 - fM = 1 – 0,286 = 0,714 D = = = 0,75

rC(Q3) – rC(Q1) (K-1)

4 – 1 5 –1

1 2 3 4 5

(30)

Variables Categóricas: (Escala Nominal)

Moda ( Medida del centro )

Tasa de Variación ( Medida de Dispersión )

Variables Cualitativas: (Escala Ordinal)

Moda, Mediana

Tasa de Variación, Índice de Dispersión

Variables Cuantitativas: (Escala Intervalar)

Moda, Mediana, Media, Media Truncada

Tasa de Variación, Índice de Dispersión, Varianza Rango, Rango Inter-cuartílico (IQR), MEDA

 Medidas de homogeneidad

Señal de Ruido  = - log C

V

=

X

 S

 

2 2

X S

(31)

Existen dos maneras de realizar los cálculos de las madidas características de datos de escala inervalar, con ...

1. Datos Agrupados: cuando los datos

disponibles se presentan ya “trabajados” en tablas de frecuencias y no se cuenta con los datos originales.

2. Datos No agrupados: cuando los datos se presentan como “materia” en bruto

Escala Intervalar

Escala Intervalar Escala Intervalar

Escala Intervalar

Referencias

Documento similar

Y tendiendo ellos la vista vieron cuanto en el mundo había y dieron las gracias al Criador diciendo: Repetidas gracias os damos porque nos habéis criado hombres, nos

saginata, se considera común en Europa del este (15), con una prevalencia mucho más baja en Europa occidental (del orden de 0.01%) (16).. Las infecciones humanas son endémicas

Para empezar, una de las razones del bajo flujo de información y contacto entre los empleados es que no hay estándares para ello, el no conocer el orden en que se llevan

· Emisión de informe sobre la adecuación entre las competencias y conocimientos adquiridos de acuerdo con el plan de estu- dios del título de origen, o la experiencia laboral

El contar con el financiamiento institucional a través de las cátedras ha significado para los grupos de profesores, el poder centrarse en estudios sobre áreas de interés

Fuente de emisión secundaria que afecta a la estación: Combustión en sector residencial y comercial Distancia a la primera vía de tráfico: 3 metros (15 m de ancho)..

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

8 ) Productores individuales : incluye a productores que, de forma indivi- dual, apoyan y participan en iniciativas en circuitos cortos destinando el total o parte de su producción a