Probabilidad y Estadística
Unidad 1
Estadística Descriptiva y
Análisis de Datos
www.frm.utn.edu.ar/estadistica
Introducción
2018
www.frm.utn.edu.ar/estadistica
3
Naturaleza de la Estadística
• W. Wilcox (1935) estudió más de un centenar
de definiciones dadas de la Estadística. En
casi todas se alude a:
– unos datos u observaciones,
– un razonamiento acerca de ellos,
– y a unas conclusiones, fruto del razonamiento, – que se traducen en predicciones
– a las que puede acompañar una regla o decisión a tomar.
4
Estadística: definición
Barnett, (1973)
La
Estadística
es la ciencia que
estudia cómo debe emplearse la
información y cómo dar una guía
de acción en situaciones prácticas
que entrañan incertidumbre.
5
Capacidad vs. Pensamiento
• Capacidad estadística
– Uso de herramientas
– Orientada al consumidor de la Estadística
– Lectura y comprensión de la información estadística
• El pensamiento estadístico ofrece instrumentos mentales simples pero no intuitivos para:
– Desbaratar la masa de datos – Ordenar el “desorden”
– Distinguir lo disparatado
– Separar los pocos patrones relevantes de los muchos irrelevantes
6
Estadístico
Enfoques del análisis
• Análisis Clásico
– Parte de supuestos e hipótesis de los que depende la confirmación de sus resultados
• Estadística Descriptiva • Estadística Inferencial
• Análisis Exploratorio de Datos
– Principios fundamentales, John Tukey7
Estadística Descriptiva
• Provee el método para:
– Clasificar, ordenar, resumir y presentar los datos. – Utiliza números, tablas y gráficos (UT1-p4).
– Calcula estadísticos basados, principalmente, en la distancia y con datos centrados en la media.
• Ejemplos
• Se observa que la anestesia PERIBULBAR se empleó en el 13,8% del total de casos. Si el paciente es MUJER, dicho porcentaje es del 14,7%; si el paciente es HOMBRE es del 12,5%.
• El 85% de los trabajadores realizan sus tareas A GUSTO, el 13% NO OPINAN y el 2% lo hacen A DISGUSTO.
8
Estadística Inferencial
Métodos para estimar o tomar decisiones respecto de una característica de la población, basados en la
información de una muestra.
Población
Es el conjunto de todos los posibles
individuos, elementos u objetos de interés para el estudio.
Muestra
Es un subconjunto o una parte de la población, que la representa.
9
Términos usuales
Población Muestra Unidad de Análisis Variables • X • Y • ...Ilustración
10
Análisis Exploratorio de Datos
• Principios fundamentales, John Tukey (1977) • Además de los objetivos de la estadística
descriptiva:
• Se inspira en una filosofía de carácter
práctica
– Los datos son los que guían la selección de modelos matemáticos.
– El analista intenta develar el patrón y la estructura que subyace en los datos.
– Se minimiza la asunción de postulados
previamente definidos y altamente restrictivos.
11
Análisis Exploratorio de Datos
• Actitud frente al problema a investigar
– Antes de cualquier análisis de datos, es necesario un examen visual de los mismos.
– Es preciso mirarlos, entenderlos y reflexionar sobre ellos.
• Herramientas exploratorias
– Importancia de las representaciones visuales y gráficas.
• Apoyo informático
– Sin apoyo informático es imposible explorar.
12
Variables
• Numéricas o cuantitativas
– Discretas y continuas • Escala de intervalo • Escala de razón• No numéricas o cualitativas
• Escala nominal • Escala ordinalTipos
13
Variables
Tipos: UT1- INTRODUCCIÓN p11
www.frm.utn.edu.ar/estadistica
Aplicaciones con Statgraphics
Exploración de Datos
Patrón de comportamiento (UT1-p20)
Descripción de un conjunto de datos (UT1-p26)
Base Datos: Alumnos
Perfil del Grupo
www.frm.utn.edu.ar/estadistica
16
Selección de Variables
• Sexo • Deporte • Ojos • Pelo • Estatura • Calzado - Sexo • Calzado - Estatura• Tratamiento de datos agrupados
Piechart for Sexo Sexo H M 30,00% 70,00% 17
Sexo
Sexo Frecuencia Absoluta Frecuencia Relativa (proporción) Frecuencia Relativa (porcentaje) Hombres 18 0,30 30% Mujeres 42 0,70 70% Totales 60 1,00 100% H M18
Piechart for Deporte
Deporte 1 2 3 25,00% 53,33% 21,67% Deporte percentage
Barchart for Deporte by Sexo
Sexo H M 0 10 20 30 40 50 60 1 2 3
Deporte
Deporte Hombres Mujeres Totales
1. De vez en cuando 2 (3,3%) 13 (21,7%) 15 (25,0%)
2. Una vez/semana 9 (15,0%) 23 (38,3%) 32 (53,3%)
3. Dos o más/semana 7 (11,7%) 6 (10,0%) 13 (21,7%)
Totales 18 (30%) 42 (70%) 60 (100%)
19
Ojos y Pelo
Pelo Claro Pelo Oscuro Totales Ojos Claros 17 (28,3%) 06 (10,0%) 23 (38,3%)
Ojos Oscuros 08 (13,4%) 29 (48,3%) 37 (61,7%)
Totales 25 (41,7%) 35 (58,3%) 60 (100%)
Ojos
percentage
Barchart for Ojos by Pelo
Pelo PC PO 0 10 20 30 40 50 OC OO
20
Calzado
Histogram for Calzado
Calzado percentage 34 36 38 40 42 44 46 0 10 20 30 40
Density Trace for Calzado
Calzado density 35 37 39 41 43 45 47 0 0,03 0,06 0,09 0,12 0,15
21
Calzado - Sexo
Variables Sexo=H Sexo=M Density Traces 34 36 38 40 42 44 46 0 0,04 0,08 0,12 0,16 0,2 0,24 density Box-and-Whisker Plot 34 36 38 40 42 44 46 Calzado Sexo=H Sexo=M Ref. Rojo: Mujer Azul: Hombre Hombres Mujeres22
Estatura
Histogram for Estatura
Estatura percentage 150 160 170 180 190 200 0 5 10 15 20 25 30
Density Trace for Estatura
150 160 170 180 190 200 Estatura 0 0,01 0,02 0,03 0,04 0,05 density Box-and-Whisker Plot 150 160 170 180 190 200 Estatura Medidas descriptivas Datos = 60 Mínimo = 155 Máximo = 191 Promedio = 168,5 Mediana = 166,5 Varianza = 70,7 Desviación estándar = 8,4 Coef. Variación = 5,0% Cuartil Inferior = 162 Cuartil Superior = 174,5 (en centímetros)
23
Calzado – Estatura - Sexo
Plot of Calzado vs Estatura
Estatura Calzado 150 160 170 180 190 200 34 36 38 40 42 44 46 Ref. Rojo: Hombre Azul: Mujer
Exploración de Datos
25
Selección de Variables
• Sexo • Rango Edad • SPHpre • SPH1d • SPH1m • SPH2m26
Sexo
Sexo Frecuencia Absoluta Frecuencia Relativa (proporción) Frecuencia Relativa (porcentaje) Hombres 26 0,413 41,3% Mujeres 37 0,587 58,7% Totales 63 1,000 100,0%Piechart for SEXO
SEXO F M 58,73% 41,27% H M
27
Barchart for RangoEDAD
percentage 0 4 8 12 16 20 24 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79
Rango de Edad
Rango Edad Cant. Porcent. (%) Porcent. Acum. (%) 40-44 1 1,7 1,7 45-49 3 5,0 6,7 50-54 11 18,3 25,0 55-59 14 23,3 48,3 60-64 10 16,7 65,0 65-69 13 21,7 86,7 70-74 7 11,7 98,3 75-79 1 1,7 100,028
Edad
Box-and-Whisker Plot
EDAD
42 52 62 72 82
Histogram for EDAD
EDAD percentage 42 52 62 72 82 0 5 10 15 20 25
Density Trace for EDAD
EDAD density 42 52 62 72 82 0 0,01 0,02 0,03 0,04 0,05 Medidas descriptivas Datos = 60 Promedio = 60,5 Mediana = 60,5 Moda = 54,0 Varianza = 59,2373 Desviación estándar = 7,7 Mínimo = 43 Máximo = 78 Rango = 35 Cuartil Inferior = 54,5 Cuartil Superior = 66,0 Coef. Variación = 12,7%
29 Box-and-Whisker Plot EDAD 43 53 63 73 83 SEXO=H SEXO=M Variables SEXO=H SEXO=M Density Traces density 43 53 63 73 83 0 0,01 0,02 0,03 0,04 0,05 Ref. Azul: Hombre Rojo: Mujer Hombres Mujeres SEXO=H SEXO=M percentage 41 51 61 71 81 36 16 4 24 44
Edad vs.
Sexo
Hombres Mujeres30
SPHpre
Box-and-Whisker Plot
SPHPre
-10 -7 -4 -1 2 5 8
Histogram for SPHPre
SPHPre percentage -10 -7 -4 -1 2 5 8 0 10 20 30 40 50
Density Trace for SPHPre
SPHPre density -10 -7 -4 -1 2 5 8 0 0,03 0,06 0,09 0,12 0,15
31
SPH1d
Box-and-Whisker Plot SPH1d -3 -2 -1 0 1 2 3 Histogram for SPH1d SPH1d percentage -3,3 -2,3 -1,3 -0,3 0,7 1,7 2,7 0 20 40 60 80Density Trace for SPH1d
SPH1d density -3 -2 -1 0 1 2 3 0 0,1 0,2 0,3 0,4 0,5
32
SPH1m
Box-and-Whisker Plot SPH1m -0,8 -0,4 0 0,4 0,8 1,2 1,6 Histogram for SPH1m SPH1m percentage -0,8 -0,4 0 0,4 0,8 1,2 1,6 0 10 20 30 40 50Density Trace for SPH1m
SPH1m density -0,8 -0,4 0 0,4 0,8 1,2 1,6 0 0,2 0,4 0,6 0,8 1
33
SPH2m
Box-and-Whisker Plot SPH2m -0,8 -0,4 0 0,4 0,8 Histogram for SPH2m SPH2m percentage -0,9 -0,6 -0,3 0 0,3 0,6 0,9 0 10 20 30 40 50Density Trace for SPH2m
SPH2m density -0,8 -0,4 0 0,4 0,8 0 0,2 0,4 0,6 0,8 1
34
SPH Múltiple
Means and 95,0 Percent LSD Intervals
sample response SPHpre SPH1d SPH1m SPH2m -0,3 0,1 0,5 0,9 1,3 1,7 Box-and-Whisker Plot response sample SPHpre SPH1d SPH1m SPH2m -10 -8 -6 -4 -2 0 2 4 6 8
35 Scatterplot by Sample response sample SPHpre SPH1d SPH1m SPH2m -0,5 0,5 1,5 2,5 3,5
Means and 95,0 Percent LSD Intervals
sample response SPHpre SPH1d SPH1m SPH2m -0,8 -0,3 0,2 0,7 1,2 1,7 2,2 Box-and-Whisker Plot response sample SPHpre SPH1d SPH1m SPH2m -0,5 0 0,5 1 1,5 2 2,5 3 3,5 pre-1d-1m-2m Para Rango Edad:
60-64
36
SPH1d Múltiple
Por Rango Edad
Box-and-Whisker Plot SPH1d RangoEDAD 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79 -3 -2 -1 0 1 2 3
Means and 95,0 Percent LSD Intervals
RangoEDAD SPH1d 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79 -0,4 0,1 0,6 1,1 1,6 2,1 2,6
Medidas Descriptivas
Medidas de Tendencia Central Medidas de Variabilidad
Medidas de Posición Medidas de Forma
38
Medidas Descriptivas
• Tendencia central (UT1-p27) – Media – Mediana – Moda • Posición – Cuartiles – Percentiles – Puntuación Z • Variabilidad o de Dispersión (UT1-p35) – Rango – Varianza – Desviación estándar – Coeficiente de variación • Forma – Simetría – Apuntamiento39
Caso 1
0 1 2 3 4 5 6 7 8 9 10
Calificación en la escala del uno al diez
Interpretación física de la Media
40
Caso 2
0 1 2 3 4 5 6 7 8 9 10
Calificación en la escala del uno al diez
41
Caso 3
0 1 2 3 4 5 6 7 8 9 10
Calificación en la escala del uno al diez
42
Interpretación física de la media
0 1 2 3 4 5 6 7 8 9 10
X: Calificación en la escala del uno al diez
1 1 1 E = 3 x X x1 x2 x3
Media: Posición de la Equilibrante del sistema de masas de datos
(punto de equilibrio del sistema de masas de datos)
(1).(x1+x2+x3) = (3).X 3) M0 = 0 1 N i i X
x
N
Ecuaciones de equilibrio estático
(1).x1
2) FY = 0 E = 3
1) FX = 0
En caso más general será:
(x1+x2+x3+...+xN) = N . X + (1).x2 + (1).x3 – (3).X = 0
43
Promedio o Media Aritmética
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 1 N i i X
x
N
12 16
12
i i Xx
Media aritmética de una
población de tamaño N
44
Media:
Interpretación y propiedades
• Punto de equilibrio del sistema de masas datos
• Representante del conjunto de datos • Valor comprendido entre el mínimo y
máximo
• No siempre coincide con un valor observado
45
Variabilidad – Dispersión
Rango = xmáx – xmín 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 R = 0 R = 2 R = 10 R = 10 R = 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 1046
Rango
• Diferencia entre el valor máximo y el valor mínimo observado
• Es la más simple de las medidas de dispersión
• Sólo para datos numéricos
• No nos cuenta sobre la distribución de los datos dentro del mismo
47
Medición de la dispersión
0 1 2 3 4 5 6 7 8 9 10
Calificación en la escala del uno al diez
¿Cuánto se alejan los datos del punto de equilibrio?
48
Medición de la dispersión
0 1 2 3 4 5 6 7 8 9 10
La desviación respecto de la media como medida de dispersión
(
x
i
X)
49
Inconvenientes de la desviación
1(
)
0
N i X ix
La suma de las desviaciones
respecto de la media es siempre igual a cero
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
50
Varianza y Desviación Estándar
2 1
(
)
N i X i Xx
N
2 2 1(
)
X N i X ix
N
Varianza Poblacional: Promedio de las desviaciones cuadráticas respecto de la media Desviación Estándar Poblacional: Surge de la necesidad de volver a la unidad de medida de la variable en estudio51
Para pensar ...
• ¿Cuál es la estatura promedio de las personas presentes?
• ¿Cuál es la desviación estándar de la estatura de las personas presentes?
• Comparemos:
– Estatura de los adultos
– Estatura de adolescentes (13 a 17 años) – ¿Cuál tiene mayor desviación estándar?
• Comparemos media y desviación estándar:
– Estatura de los adultos
52
Valores numéricos de
0
X
0, 71
X
4, 32
X
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10Calificación en la escala del uno al diez
53
Tabla: valores de
# Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5 Grupo 6 Grupo 8
1 6 5 5 5 5 5 5 2 6 6 5 5 5 5 5 3 6 6 6 5 5 5 5 4 6 6 6 6 5 5 5 5 6 6 6 6 6 5 5 6 6 6 6 6 6 6 5 7 6 6 6 6 6 6 7 8 6 6 6 6 6 7 7 9 6 6 6 6 7 7 7 10 6 6 6 7 7 7 7 11 6 6 7 7 7 7 7 12 6 7 7 7 7 7 7 Media = 6 6 6 6 6 6 6 DE Pob= 0 0,4082 0,5774 0,7071 0,8165 0,9129 1
54
Gráficos: valores de
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
55
Caso 4
0 1 2 3 4 5 6 7 8 9 10
Los datos, en promedio, ¿cuánto se alejan a un lado y al otro de la media?
56
Caso 5
0 1 2 3 4 5 6 7 8 9 10
Los datos, en promedio y aproximadamente,
¿cuánto se alejan a un lado y al otro de la media?
0 1 2 3 4 5 6 7 8 9 10
57
Interpretación de
0 1 2 3 4 5 6 7 8 9 10 Sistema real7
X
2, 5
X
0 1 2 3 4 5 6 7 8 9 10 2,5 2,5 Sistema equivalente En ambos sistemas: En promedio, las calificaciones se alejan de la media, 2,5 puntos
58
Resumen de fórmulas (Población)
1 N i i X
x
N
2 1(
)
N i X i Xx
N
Media Poblacional Desviación Estándar Poblacional Población de tamañoN
59
Resumen de fórmulas (Muestra)
1 n i i
x
X
n
2 1(
)
1
n i i Xx
X
S
n
Media Muestral Desviación Estándar Muestral Muestra de tamañon
60
Coeficiente de Variación
UT1-p37
Medida de dispersión relativa
Permite efectuar comparaciones entre
variables medidas en la misma unidad o en unidades de medida diferentes
Expresa la dispersión como proporción o
porcentaje respecto de la media del conjunto de los datos Fórmula de cálculo: X X X
CV
S
CV
X
Poblacional MuestralCapacidad estadística vs.
Pensamiento estadístico
62
Caso 1:
Tiempos
• Variable en estudio:
– Tiempo requerido para realizar una tarea
• Se desea comparar el tiempo empleado por un grupo de personas para realizar una tarea X, con el tiempo empleado por otro grupo de personas para realizar una tarea Y.
– Desviación estándar (X): X = 0,04 min
– Desviación estándar (Y): Y = 2880 min (dos días)
• ¿Qué tiempos están más dispersos, los de la tarea X o los de la tarea Y?
63
Caso 2:
Derrames
• Variable en estudio:
– Derrame Medio Anual (hm³)
• Se desea comparar el volumen de agua que anualmente aportan dos ríos, denominados genéricamente X e Y.
– Desviación estándar (Río X): X = 546 hm³
– Desviación estándar (Río Y): Y = 113.121 hm³
• ¿Cuáles son los derrames que están más dispersos, los del Río X o los del Río Y?
64
Caso 3:
Estaturas y Pesos
• Variables en estudio:
– Estatura (X) y Peso (Y)
• Se desea comparar las estaturas con los
pesos de un grupo de personas, en términos de variabilidad.
– Desviación estándar estaturas: X = 8,6 cm – Desviación estándar pesos: Y = 13,7 kg
• ¿Qué datos están más dispersos, las
estaturas o los pesos de las personas del grupo?
65
Caso 4:
Tiempos
• Variable en estudio:
– Tiempo requerido para realizar una tarea
• Se desea comparar el tiempo empleado por los hombres (H) con el tiempo empleado por las mujeres (M) para realizar la misma tarea.
– Desviación estándar (hombres): H = 4,69 min – Desviación estándar (mujeres): M = 1,70 min
• ¿Qué tiempos están más dispersos, los de los hombres o los de las mujeres?
Otras medidas de
tendencia central
Mediana (Me) y Moda (Mo)
67
Mediana
• Definición:
– Es un valor de la variable que ocupa la posición central en un conjunto ordenado de datos.
• Determinación de la mediana:
– Si el número de observaciones es impar, es el valor observado que ocupa la posición central de los datos, una vez que éstos han sido ordenados de manera creciente.
– Si el número de observaciones es par, se calcula como el promedio aritmético de las dos
observaciones centrales, una vez que éstos han sido ordenados de manera creciente.
68
Determinación de la Mediana (1)
1º 2º 3º 4º 5º 6º 7º 8º 9º Orden 200 200 200 200 400 450 650 800 5900 Me = 400 Media = 1000 Moda = 200 Orden de la mediana: 5ºValor que ocupa la posición central
Observación
1 2
n
Mediana
x
x
69
Determinación de la Mediana (2)
Orden Observación
Cuando el número de datos es PAR
1º 2º 3º 4º 5º 6º 7º 8º 200 200 200 400 450 650 800 5900
Mediana = Promedio de los valores centrales Me = (400+450)/2 = 425 Media = 1100 Orden de la mediana: Entre el 4º y 5º 1 2 2
2
n nx
x
x
70
Propiedades de la Mediana
• La mediana de un conjunto de datos es única • NO es sensible a la presencia de datos
apartados o valores extremos
• En un conjunto de datos, la mitad de ellos son
iguales o menores que la mediana y la otra mitad son iguales o mayores que la mediana
71
Moda
• Definición:
– Es el valor de las observaciones que aparece con mayor frecuencia
• Propiedades de la Moda:
– Se puede determinar tanto para datos numéricos como para datos no numéricos
– No se ve afectada por datos apartados o valores extremos
– La moda puede o no existir; cuando existe, puede no ser única
72
Dificultades de la Moda
0 1 2 3 4 5 6 7 8 9 10
Calificación en la escala del uno al diez
Conjunto pequeño de datos Media = 5,42
Moda = 10
Mediana = 5,5
73
Histogram for Calzado
Calzado percentage 34 36 38 40 42 44 46 0 10 20 30 40
Histogram for ANTIG
ANTIG percentage 0 5 10 15 20 25 30 35 40 45 50 0 5 10 15 20 25 30
Clases Modales (datos agrupados)
Número de calzado
Antigüedad en la empresa
Medidas de Posición
Cuartiles y Percentiles (UT1-p42) Valor Z (UT1-p40)
75
Interpretación de los cuartiles
xmín = 1,1 xmáx = 9,9
Q1 = 2,2
Q2 = Me = 3,6 Q3 = 7,8
Rango Intercuartil: RI = Q3 – Q1
La cuarta parte de los datos asume valores iguales o inferiores a 2,2
Tres cuartas partes de los datos asume valores iguales o inferiores a 7,8 La mitad de los datos
(dos cuartos) asume valores iguales o inferiores a 3,6
Se forman cuatro grupos con igual cantidad de datos
10 9 8 7 6 5 4 3 2 1 0
76
Interpretación de los percentiles
xmín = 1,1 xmáx = 9,9 P25 = 2,2 P50 = Me = 3,6 P75 = 7,8 El 25% de los datos son iguales o inferiores a 2,2
El 75% de los datos son
iguales o inferiores a
7,8 El 50% de los datos (la
mitad) son iguales o
inferiores a 3,6
Se forman cien grupos con igual cantidad de datos
10 9 8 7 6 5 4 3 2 1 0
77
Para pensar ...
El cuartil inferior, ¿puede resultar igual a la mediana?
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º
1 5 5 5 5 5 5 5 7 9
1 9 7 5 7 7 5 5 5 5
El percentil 20, ¿puede resultar mayor que el cuartil superior?
1 5 5 5 5 5 7 7 7 9
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º
78
Valor Z
• Ver UT1-p40
• Describe la posición de un valor individual de la variable en estudio, respecto de la media del
grupo al cual pertenece.
• Indica a qué distancia de la media del grupo se encuentra, sea por encima (signo positivo) o por debajo de la misma (signo negativo),
medida en unidades de desviación estándar. • Fórmula de cálculo:
x
z
x
x
z
S
Valor z (población) Valor z (muestra)x
z
79
Interpretación del Valor Z
• Un valor Z negativo
– indica que la observación está por debajo de la media
• Un valor Z positivo
– indica que la observación está por encima de la media
• Un valor Z igual a cero
– ¿qué indica?
x
z
x
x
z
S
80 Y = X+1 Y = X
L
M
A G
Transformación
X Y
-3 -2 -1 0 1 2 3 4 5 y = x+1 -3 -2 -1 0 1 2 3 4 5 xL
M
A G
Y = 0 -3 -2 -1 0 1 2 3 4 5 y = (x – Media)L
M
A
G
Y = X X = 281
Transformación
X W
-3 -2 -1 0 1 2 3 4 5 xL
M
A G
W = X / constante = 1 W = X / constante = 1,08 -3 -2 -1 0 1 2 3 4 5 w = (x / constante)L
M
A
G
constante = 2 X = 2 X = 2,1682
Transformación
X Z
-3 -2 -1 0 1 2 3 4 5 xL
M
A G
X = 2 X = 2,16L
M
A G
-3 -2 -1 0 1 2 3 4 5 y = (x – Media) Y = 0L
M
A G
-3 -2 -1 0 1 2 3 4 5 y = (x – Media) Y = 0 Y = X = 2,16 Z = Y / sigma = 0 Z = Y / sigma = 1 -3 -2 -1 0 1 2 3 4 5 z = y / constanteG
A
M
constante = sigma Z = 0 Z = 1 Y = XL
z = (x – Media) / sigmaIlustración
Gráfico de Caja
Datos apartados: atípico y
anómalos
85
Construcción del Gráfico de Caja
2 4 6 8 10 12 0 1 3 5 7 9 11 Variable Numérica + atípicos REF2
REF1 REF3 REF4
anómalos atípicos
anómalos
Datos apartados Datos apartados
Datos No Apartados xmáx xmín Q1 Q2=Me Q3 REF1 = Q1 – 3 RI REF2 = Q1 – 1,5 RI REF3 = Q3 + 1,5 RI REF4 = Q3 + 3 RI
86
Construcción del Gráfico de Caja
2 4 6 8 10 12
0 1 3 5 7 9 11
Variable Numérica
+ +
Primer dato no apartado por debajo de la REF 3
atípicos
REF2
REF1 REF3 REF4
anómalos atípicos
anómalos
Datos apartados Datos apartados
Datos No Apartados xmáx xmín Q1 Q2=Me Q3 REF1 = Q1 – 3 RI REF2 = Q1 – 1,5 RI REF3 = Q3 + 1,5 RI REF4 = Q3 + 3 RI
87
Datos apartados en la distribución normal
Probabilidad de que un dato resulte anómalo = 0,0000023
Probabilidad de que un dato resulte atípico = 0,007
88
Ejemplos
G2 G3 G4 G5 G6 G7 G8 Box-and-Whisker Plot 3 4 5 6 7 8 9 response sample G6 G7 G8 5 5 3 5 5 4 5 5 4 5 5 4 5 5 4 6 5 5 6 7 7 7 7 8 7 7 8 7 7 8 7 7 8 7 7 9 G5 5 5 5 5 6 6 6 6 7 7 7 7 G4 5 5 5 6 6 6 6 6 6 7 7 7 G3 5 5 6 6 6 6 6 6 6 6 7 7 G2 5 6 6 6 6 6 6 6 6 6 6 789
SPH Múltiple
Means and 95,0 Percent LSD Intervals
sample response SPHpre SPH1d SPH1m SPH2m -0,3 0,1 0,5 0,9 1,3 1,7 Box-and-Whisker Plot response sample SPHpre SPH1d SPH1m SPH2m -10 -8 -6 -4 -2 0 2 4 6 8
90
Antigüedad
Box-and-Whisker Plot
ANTIG
0 10 20 30 40 50
Histogram for ANTIG
ANTIG percentage 0 5 10 15 20 25 30 35 40 45 50 0 5 10 15 20 25 30