• No se han encontrado resultados

Capítulo 2 Análisis Exploratorio de Datos II-2001

N/A
N/A
Protected

Academic year: 2022

Share "Capítulo 2 Análisis Exploratorio de Datos II-2001"

Copied!
31
0
0

Texto completo

(1)

Capítulo 2

Análisis Exploratorio de Datos

II-2001

(2)

• Cualitativo (Categorías)

– Nominal

Viña = 1 ; Santiago = 2 ; Temuco = 3 ..etc.

– Ordinal

Pobre = 1; Aceptable = 2;

Bueno = 3; Excelente = 4

• Cuantitativo (Números)

– Intervalo

estatura, viscosidad, distancia, duración...etc

– Razón

temperatura, peso...etc

NOTA:

El tipo de Estadísticas que se pueden obtener o calcular depende del tipo de dato que se trate.

Por ejemplo promedio, mediana y varianza no tienen sentido con datos categóricos (si con proporciones)

Clasificación/Tipo de Datos

(3)

Clasificación : Nominal, Ordinal, Intervalos y Razón

Variables : Discretas y Continuas Categóricas, Cuantitativas

Organización : Frecuencia absoluta Frecuencia relativa

A partir de nivel ordinal :

Frecuencia absoluta acumulada Frecuencia relativa acumulada

Escalas de Medida

(4)

Tanto en la escala intervalar como en la de razón es posible distinguir dos tipos de variables aleatorias:

Variables Discretas: una que puede tomar sus valores de un conjunto de puntos aislados (subconjunto de valores en IR)

Variables Continuas: una que puede tomar sus valores en un conjunto donde todos sus elementos son puntos de acumulación (un intervalo en IR). Siempre es posible tratar una variable continua como discreta mediante la construcción de “intervalos de clase” representando cada uno de los intervalos por su valor medio denominado “marca de clase”

Variables Categóricas o Cualitativas

Variables Cuantitativas

Tipos de Variables

(5)

Para estudiar las características de una variable se ordenan los valores observados de la muestra en k clases denominadas c1, c2, .. ck.

Frecuencia Absoluta.

Se llama frecuencia absoluta de la clase ci al número total de individuos u observaciones que pertenece a dicha clase y se denota por ni. Como las clases c1, c2, ... ck una partición de la muestra, es fácil verificar que

n =

Σ

ni número total de observaciones o tamaño de la muestra

k

i = 1

Organización/Presentación

(6)

Frecuencia Relativa.

Se llama frecuencia relativa de la clase c

i

a la

proporción de individuos que pertenecen a la clase sobre el total de individuos o tamaño de la muestra.

Se de nota por f

i

. Se puede verificar que f

i

= --- nótese que .... Σ f

ki

= 1

i = 1

n

i

n

Organización/Presentación

(7)

• Reglas: Partición de la Población

– Cada observación debe pertenecer a una, y sólo una clase o categoría.

– Todas las observaciones deben ser pertenecer a una.

• Tablas Tabligrama.

• Gráficos de Barras Diagrama de Pareto .

• Gráficos Circulares o de Torta .

Presentación de Datos Cualitativos

(8)

107 60 51 25 10 8 1

2 3 4 5 6

Clase Descripción Frecuencia

Ejemplo: Tablas

(9)

Usa números como una manera de separar los elementos de la población en diferentes clases o categorías. El número

asignado a la observación sólo sirve como un nombre para distinguir la categoría a la cual pertenece la observación.

• La variable induce una partición sobre la población la información puede clasificarse en clases o categorías.

• Cada clase debe estar perfectamente definida y diferenciada de las demás.

• La recopilación se reduce a contar el número de individuos en la muestra que pertenece a cada clases:

Ejemplos : Clasificación de alumnos por

Cursos : primero (1), segundo (2),...., sexto (6) año;

Sexo : masculino (M), femenino (F);

Colegio : SEK (1); Alemán(2), Ruben Castro(3), etc.

Escala Nominal

(10)

107

60

51

25

10 8

0 20 40 60 80 100 120

1 2 3 4 5 6

Clase

Frecuencia

Diagrama de Pareto

Escala Nominal

(11)

1 40%

2 23%

3 20%

4 10%

5 4%

6 3%

Diagrama Circular

Escala Nominal

(12)

Dónde existe un orden implícito entre las mediciones. El valor numérico es usado sólo como una manera de arreglar los elementos de acuerdo al orden establecido.

La variable admite grados de calidad:existe una relación de orden total entre las clases.

No es posible cuantificar la diferencia entre los individuos pertenecientes a las distintas clases.

Ejemplo calificaciones de A (muy bueno), B (bueno), C (satisfactorio), D (admisible), E (deficiente)

Escala Ordinal

(13)

0 1 2 3 4 5 6 7 8 9

Pobr e

Regula r

Aceptabl e

Buen o

Muy Bueno

Diagrama de Bloques

Escala Ordinal

(14)

Considera no sólo la información pertinente al orden, sino además, el tamaño relativo de los intervalos a que pertenece cada uno de los individuos. En este nivel es posible cuantificar la diferencia de todos los individuos pertenecientes a los

intervalos, clases o categorías distintas.

Está involucrado en concepto de distancia, y la distancia entre dos medias puede ser expresada en función de esta unidad.

Ejemplos: temperatura al interior de un silo, interés sólo clasificar en intervalos de cinco grados {(0, 5°), (5, 10°), ...,(30, 35°)}. Puntaje promedio PAA, interesa clasificar en tramos de 25 puntos.

Escala Intervalar

(15)

• Tabligramas.

• Tablas de Frecuencia.

• Histogramas: valores discretos y continuos.

– Usar 5 a 20 clases (intervalos o grupos).

– (considerar anchos de clases, límites y marca de clase).

– (polígono de frecuencias – dibujar en marca de clase).

• Frecuencia Acumulada - Ojiva.

– (graficar en límite superior).

Escala Intervalar

(16)

Ejemplo: 40 Datos

10 7 8

11 1 2 3 7 9 12 0 3 3 4 6 8

13 1 2 2 4 5 6 7 8 14 0 1 2 3 3 5 7 8 8 15 0 2 3 3 8 8

16 0 0 1 2

Diagrama de Tallos-y-hojas

Ejemplo: Tabligrama

(17)

K := N° Clases ≈ 1 + 3.3 log n ≈ 7

R := Rango = máx { xi } - mín { xi } = 162 - 107 = 55 A := Amplitud = ( R + 1 ) / K = ( 55 + 1 ) / 7 = 8

Límites

102,5-111,5 111,5-120,5 120,5-129,5 129,5-138,5 138,5-147,5 147,5-156,5 156,5-165,5

Marca 107 116 125 134 143 152 161

Frecuencias

ABS - REL - REL. AC.

3 5 5 8 7 6 6 Conteo

///

////

////

//// ///

//// //

//// / //// /

Tabla de Frecuencias

(18)

0 1 2 3 4 5 6 7 8 9

10 7

11 6

12 5

13 4

14 3

15 2

16 1

Histograma

(19)

0 1 2 3 4 5 6 7 8 9

10 7

11 6

12 5

13 4

14 3

15 2

16 1 9

9

17 0

Polígono de Frecuencias

(20)

0 1 2 3 4 5 6 7 8 9

10 7

11 6

12 5

13 4

14 3

15 2

16 1 9

9

17 0

1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 2 1 2 2 2 3 2 4 2 5 2 6 2 7 2 8 2 9 3 0 3 1 3 2 3 3 3 4 3 5 3 6 3 7 3 8 3 9 4 0

Frecuencia Acumulada: Ojiva

(21)

Esta escala se usa cuando no sólo el orden y tamaño del intervalo son importantes.

La única diferencia entre la escala de razón y la intervalar es que en la primera se puede definir un cero absoluto y en la segunda no

Buscar ejemplos de Escala intervalar Buscar ejemplos de Escala de razón

Tarea : Discuta la diferencia entre Precisión y Exactitud ,

Escala de Razón

(22)

• Mediciones de Tendencia Central

• Mediciones de Dispersión

• Coeficiente de Variación

Extraer Información desde la Muestra

(23)

• Estas medidas tienden a ubicarse en el centro del conjunto.

• Proporcionan un valor simple y

representativo, que resume un gran volumen de información.

• Media Aritmética

• Media Geométrica

• Media Armónica

• Moda

• Mediana

• Semi Rango

Medidas de Tendencia Central

(24)

• Miden la “dispersión” de valores dentro del conjunto de datos

respecto de alguna medida de tendencia central.

• Rango

• Rango Cuartílico

• Rango Percentil

• Varianza

• Desviación Estándar

• Desviación Media

Medidas de Dispersión

(25)

0,000 0 0,050 0 0,100 0 0,150 0 0,200 0 0,250 0 0,300 0 0,350 0 0,400 0 0,450 0 0,500 0

4 5 6 7

0 1 2 3

Q1 Q2 Q3 Q4 Moda

Media Aritmética Mediana

Rango

Medidas de Tendencia y Dispersión

(26)

f

M

≥ f

i

=

i = 1, 2, 3, ..., k.

n

i

n

V = 1 – f

M

= 1 - = n

M

n

n - n

M

n

Variables Categóricas: (Escala Nominal)

Moda (Medida del centro)

Tasa de Variación (Medida de Dispersión)

Tipo de Variable

(27)

En un estudio de mercado se considera una muestra de 1100 fumadores averiguando la marca de cigarrillo que fuman, se obtienen la siguiente Tabla

Marca A B C D Frecuencia 220 270 310 300 Frec. Relativa 0,200 0,245 0,282 0,273

fM = 0,282 Clase modal C TV = 1 – 0,282 = 0,718 Tasa de variación

Ejemplo

(28)

Variables Categóricas: (Escala Nominal)

Moda (Mo) (Medida del centro)

Tasa de Variación (V) (Medida de Dispersión)

Variables Cualitativas: (Escala Ordinal)

Moda, Mediana (Me) Tasa de Variación,

Indice de Dispersión (ID) , Cuartíles

Q

i

= C

j

∃ j : min Σ f

j

> i/4

Cj : clase j

Mediana = C

(Q2)

D =

rango clase es su N° de Orden K : N° total de clases

( rango C

(Q3)

– rango C

(Q1)

) (K –1)

Tipo de Variable

(29)

Ejemplo 2.4 :

Se tiene la impresión que el servicio prestado por una sucursal bancaria no es buena; por lo tanto, la gerencia ordena un estudio al respecto.

Se toma una muestra de 70 respuestas de clientes opinando sobre el servicio recibido

Calificación P R S B E Frec. Absoluta 20 10 18 16 6 Frec. Relativa 0,286 0,143 0,257 0,229 0,086 Frec Acumul 20 30 48 64 70 Frec Aculm.Relat. 0,286 0,429 0,686 0,914 1,000

Q1 = 0,286 > 0,25 P Q2 = 0,686 > 0,50 S Q3 = 0,914 > 0,75 B Q4 = E

fM = 0,286 CM = P Med =C(Q2) CMed = S

V = 1 - fM = 1 – 0,286 = 0,714

D = = = 0,75

rC(Q3) – rC(Q1)

(K-1)

4 – 1 5 –1

1 2 3 4 5

(30)

Variables Categóricas: (Escala Nominal)

Moda ( Medida del centro )

Tasa de Variación ( Medida de Dispersión )

Variables Cualitativas: (Escala Ordinal)

Moda, Mediana

Tasa de Variación, Índice de Dispersión

Variables Cuantitativas: (Escala Intervalar)

Moda, Mediana, Media, Media Truncada

Tasa de Variación, Índice de Dispersión, Varianza Rango, Rango Inter-cuartílico (IQR), MEDA

Medidas de homogeneidad

Señal de Ruido η = - log C

V

=

X

⎟⎟⎠ S

⎜⎜⎝ ⎞

2 2

X S

(31)

Existen dos maneras de realizar los cálculos de las madidas características de datos de escala inervalar, con ...

1. Datos Agrupados: cuando los datos

disponibles se presentan ya “trabajados” en tablas de frecuencias y no se cuenta con los datos originales.

2. Datos No agrupados: cuando los datos se presentan como “materia” en bruto

Escala Intervalar

Referencias

Documento similar

{ En el servicio ADSL, el envío y recepción de datos se establece desde el ordenador del usuario a través de un módem ADSL Estos desde el ordenador del usuario a través de un

La Constitución de Paraguay de 1992, no obstante proteger el derecho de propiedad y la libertad económica, es la que más se asemeja a las del nuevo constitucionalismo por

En la segunda parte del trabajo hacemos una breve justificación del por qué iniciar un proceso de formación en valores democráticos en la escuela y esto nos lleva a analizar la

Podríamos apuntar dos definiciones opuestas sobre esas relaciones que llamamos internacionales: la primera sería muy restrictiva y señalaría que las relaciones

En cuanto al control concreto, el juicio de inconstitucionalidad repercute solamente en el caso de autos, y, en los términos de la Constitución y de la ley, el Tribunal no dispone

Por tanto, como vemos, de una posible reflexión ética colectiva, se podrán deducir normas de compor- tamiento para el profesional individual, para el trabajo en equipo y para el

1. LAS GARANTÍAS CONSTITUCIONALES.—2. C) La reforma constitucional de 1994. D) Las tres etapas del amparo argentino. F) Las vías previas al amparo. H) La acción es judicial en

del cuadro de "La boda campesina", reflejo de este proceso histórico en el espejo de la conciencia, expresión y obra del ojo crítico de Pieter Brueghel, el Viejo, sirve de