Probabilidad y Estadística

(1)

Probabilidad y Estadística

Unidad 1

Estadística Descriptiva y

Análisis de Datos

www.frm.utn.edu.ar/estadistica

(2)

Introducción

2018

(3)

3

Naturaleza de la Estadística

• W. Wilcox (1935) estudió más de un centenar

de definiciones dadas de la Estadística. En

casi todas se alude a:

– unos datos u observaciones,

– un razonamiento acerca de ellos,

– y a unas conclusiones, fruto del razonamiento, – que se traducen en predicciones

– a las que puede acompañar una regla o decisión a tomar.

(4)

4

Estadística: definición

Barnett, (1973)

La

Estadística

es la ciencia que

estudia cómo debe emplearse la

información y cómo dar una guía

de acción en situaciones prácticas

que entrañan incertidumbre.

(5)

5

Capacidad vs. Pensamiento

• Capacidad estadística

– Uso de herramientas

– Orientada al consumidor de la Estadística

– Lectura y comprensión de la información estadística

• El pensamiento estadístico ofrece instrumentos mentales simples pero no intuitivos para:

– Desbaratar la masa de datos – Ordenar el “desorden”

– Distinguir lo disparatado

– Separar los pocos patrones relevantes de los muchos irrelevantes

(6)

6

Estadístico

Enfoques del análisis

• Análisis Clásico

– Parte de supuestos e hipótesis de los que depende la confirmación de sus resultados

• Estadística Descriptiva • Estadística Inferencial

• Análisis Exploratorio de Datos

– Principios fundamentales, John Tukey

(7)

7

Estadística Descriptiva

• Provee el método para:

– Clasificar, ordenar, resumir y presentar los datos. – Utiliza números, tablas y gráficos (UT1-p4).

– Calcula estadísticos basados, principalmente, en la distancia y con datos centrados en la media.

• Ejemplos

• Se observa que la anestesia PERIBULBAR se empleó en el 13,8% del total de casos. Si el paciente es MUJER, dicho porcentaje es del 14,7%; si el paciente es HOMBRE es del 12,5%.

• El 85% de los trabajadores realizan sus tareas A GUSTO, el 13% NO OPINAN y el 2% lo hacen A DISGUSTO.

(8)

8

Estadística Inferencial

Métodos para estimar o tomar decisiones respecto de una característica de la población, basados en la

información de una muestra.

Población

Es el conjunto de todos los posibles

individuos, elementos u objetos de interés para el estudio.

Muestra

Es un subconjunto o una parte de la población, que la representa.

(9)

9

Términos usuales

Población Muestra Unidad de Análisis Variables • X • Y • ...

Ilustración

(10)

10

Análisis Exploratorio de Datos

• Principios fundamentales, John Tukey (1977) • Además de los objetivos de la estadística

descriptiva:

• Se inspira en una filosofía de carácter

práctica

– Los datos son los que guían la selección de modelos matemáticos.

– El analista intenta develar el patrón y la estructura que subyace en los datos.

– Se minimiza la asunción de postulados

previamente definidos y altamente restrictivos.

(11)

11

Análisis Exploratorio de Datos

• Actitud frente al problema a investigar

– Antes de cualquier análisis de datos, es necesario un examen visual de los mismos.

– Es preciso mirarlos, entenderlos y reflexionar sobre ellos.

• Herramientas exploratorias

– Importancia de las representaciones visuales y gráficas.

• Apoyo informático

– Sin apoyo informático es imposible explorar.

(12)

12

Variables

• Numéricas o cuantitativas

– Discretas y continuas • Escala de intervalo • Escala de razón

• No numéricas o cualitativas

• Escala nominal • Escala ordinal

Tipos

(13)

13

Variables

Tipos: UT1- INTRODUCCIÓN p11

(14)

Aplicaciones con Statgraphics

(15)

Exploración de Datos

Patrón de comportamiento (UT1-p20)

Descripción de un conjunto de datos (UT1-p26)

Base Datos: Alumnos

Perfil del Grupo

(16)

16

Selección de Variables

• Sexo • Deporte • Ojos • Pelo • Estatura • Calzado - Sexo • Calzado - Estatura

• Tratamiento de datos agrupados

(17)

Piechart for Sexo Sexo H M 30,00% 70,00% 17

Sexo

Sexo Frecuencia Absoluta Frecuencia Relativa (proporción) Frecuencia Relativa (porcentaje) Hombres 18 0,30 30% Mujeres 42 0,70 70% Totales 60 1,00 100% H M

(18)

18

Piechart for Deporte

Deporte 1 2 3 25,00% 53,33% 21,67% Deporte percentage

Barchart for Deporte by Sexo

Sexo H M 0 10 20 30 40 50 60 1 2 3

Deporte

Deporte Hombres Mujeres Totales

1. De vez en cuando 2 (3,3%) 13 (21,7%) 15 (25,0%)

2. Una vez/semana 9 (15,0%) 23 (38,3%) 32 (53,3%)

3. Dos o más/semana 7 (11,7%) 6 (10,0%) 13 (21,7%)

Totales 18 (30%) 42 (70%) 60 (100%)

(19)

19

Ojos y Pelo

Pelo Claro Pelo Oscuro Totales Ojos Claros 17 (28,3%) 06 (10,0%) 23 (38,3%)

Ojos Oscuros 08 (13,4%) 29 (48,3%) 37 (61,7%)

Totales 25 (41,7%) 35 (58,3%) 60 (100%)

Ojos

percentage

Barchart for Ojos by Pelo

Pelo PC PO 0 10 20 30 40 50 OC OO

(20)

20

Calzado

Histogram for Calzado

Calzado percentage 34 36 38 40 42 44 46 0 10 20 30 40

Density Trace for Calzado

Calzado density 35 37 39 41 43 45 47 0 0,03 0,06 0,09 0,12 0,15

(21)

21

Calzado - Sexo

Variables Sexo=H Sexo=M Density Traces 34 36 38 40 42 44 46 0 0,04 0,08 0,12 0,16 0,2 0,24 density Box-and-Whisker Plot 34 36 38 40 42 44 46 Calzado Sexo=H Sexo=M Ref. Rojo: Mujer Azul: Hombre Hombres Mujeres

(22)

22

Estatura

Histogram for Estatura

Estatura percentage 150 160 170 180 190 200 0 5 10 15 20 25 30

Density Trace for Estatura

150 160 170 180 190 200 Estatura 0 0,01 0,02 0,03 0,04 0,05 density Box-and-Whisker Plot 150 160 170 180 190 200 Estatura Medidas descriptivas Datos = 60 Mínimo = 155 Máximo = 191 Promedio = 168,5 Mediana = 166,5 Varianza = 70,7 Desviación estándar = 8,4 Coef. Variación = 5,0% Cuartil Inferior = 162 Cuartil Superior = 174,5 (en centímetros)

(23)

23

Calzado – Estatura - Sexo

Plot of Calzado vs Estatura

Estatura Calzado 150 160 170 180 190 200 34 36 38 40 42 44 46 Ref. Rojo: Hombre Azul: Mujer

(24)

Exploración de Datos

(25)

25

Selección de Variables

• Sexo • Rango Edad • SPHpre • SPH1d • SPH1m • SPH2m

(26)

26

Sexo

Sexo Frecuencia Absoluta Frecuencia Relativa (proporción) Frecuencia Relativa (porcentaje) Hombres 26 0,413 41,3% Mujeres 37 0,587 58,7% Totales 63 1,000 100,0%

Piechart for SEXO

SEXO F M 58,73% 41,27% H M

(27)

27

Barchart for RangoEDAD

percentage 0 4 8 12 16 20 24 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79

Rango de Edad

Rango Edad Cant. Porcent. (%) Porcent. Acum. (%) 40-44 1 1,7 1,7 45-49 3 5,0 6,7 50-54 11 18,3 25,0 55-59 14 23,3 48,3 60-64 10 16,7 65,0 65-69 13 21,7 86,7 70-74 7 11,7 98,3 75-79 1 1,7 100,0

(28)

28

Edad

Box-and-Whisker Plot

EDAD

42 52 62 72 82

Histogram for EDAD

EDAD percentage 42 52 62 72 82 0 5 10 15 20 25

Density Trace for EDAD

EDAD density 42 52 62 72 82 0 0,01 0,02 0,03 0,04 0,05 Medidas descriptivas Datos = 60 Promedio = 60,5 Mediana = 60,5 Moda = 54,0 Varianza = 59,2373 Desviación estándar = 7,7 Mínimo = 43 Máximo = 78 Rango = 35 Cuartil Inferior = 54,5 Cuartil Superior = 66,0 Coef. Variación = 12,7%

(29)

29 Box-and-Whisker Plot EDAD 43 53 63 73 83 SEXO=H SEXO=M Variables SEXO=H SEXO=M Density Traces density 43 53 63 73 83 0 0,01 0,02 0,03 0,04 0,05 Ref. Azul: Hombre Rojo: Mujer Hombres Mujeres SEXO=H SEXO=M percentage 41 51 61 71 81 36 16 4 24 44

Edad vs.

Sexo

Hombres Mujeres

(30)

30

SPHpre

SPHPre

-10 -7 -4 -1 2 5 8

Histogram for SPHPre

SPHPre percentage -10 -7 -4 -1 2 5 8 0 10 20 30 40 50

Density Trace for SPHPre

SPHPre density -10 -7 -4 -1 2 5 8 0 0,03 0,06 0,09 0,12 0,15

(31)

31

SPH1d

Box-and-Whisker Plot SPH1d -3 -2 -1 0 1 2 3 Histogram for SPH1d SPH1d percentage -3,3 -2,3 -1,3 -0,3 0,7 1,7 2,7 0 20 40 60 80

Density Trace for SPH1d

SPH1d density -3 -2 -1 0 1 2 3 0 0,1 0,2 0,3 0,4 0,5

(32)

32

SPH1m

Box-and-Whisker Plot SPH1m -0,8 -0,4 0 0,4 0,8 1,2 1,6 Histogram for SPH1m SPH1m percentage -0,8 -0,4 0 0,4 0,8 1,2 1,6 0 10 20 30 40 50

Density Trace for SPH1m

SPH1m density -0,8 -0,4 0 0,4 0,8 1,2 1,6 0 0,2 0,4 0,6 0,8 1

(33)

33

SPH2m

Box-and-Whisker Plot SPH2m -0,8 -0,4 0 0,4 0,8 Histogram for SPH2m SPH2m percentage -0,9 -0,6 -0,3 0 0,3 0,6 0,9 0 10 20 30 40 50

Density Trace for SPH2m

SPH2m density -0,8 -0,4 0 0,4 0,8 0 0,2 0,4 0,6 0,8 1

(34)

34

SPH Múltiple

Means and 95,0 Percent LSD Intervals

sample response SPHpre SPH1d SPH1m SPH2m -0,3 0,1 0,5 0,9 1,3 1,7 Box-and-Whisker Plot response sample SPHpre SPH1d SPH1m SPH2m -10 -8 -6 -4 -2 0 2 4 6 8

(35)

35 Scatterplot by Sample response sample SPHpre SPH1d SPH1m SPH2m -0,5 0,5 1,5 2,5 3,5

sample response SPHpre SPH1d SPH1m SPH2m -0,8 -0,3 0,2 0,7 1,2 1,7 2,2 Box-and-Whisker Plot response sample SPHpre SPH1d SPH1m SPH2m -0,5 0 0,5 1 1,5 2 2,5 3 3,5 pre-1d-1m-2m Para Rango Edad:

60-64

(36)

36

SPH1d Múltiple

Por Rango Edad

Box-and-Whisker Plot SPH1d RangoEDAD 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79 -3 -2 -1 0 1 2 3

RangoEDAD SPH1d 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79 -0,4 0,1 0,6 1,1 1,6 2,1 2,6

(37)

Medidas Descriptivas

Medidas de Tendencia Central Medidas de Variabilidad

Medidas de Posición Medidas de Forma

(38)

38

Medidas Descriptivas

• Tendencia central (UT1-p27) – Media – Mediana – Moda • Posición – Cuartiles – Percentiles – Puntuación Z • Variabilidad o de Dispersión (UT1-p35) – Rango – Varianza – Desviación estándar – Coeficiente de variación • Forma – Simetría – Apuntamiento

(39)

39

Caso 1

0 1 2 3 4 5 6 7 8 9 10

Calificación en la escala del uno al diez

Interpretación física de la Media

(40)

40

Caso 2

0 1 2 3 4 5 6 7 8 9 10

(41)

41

Caso 3

0 1 2 3 4 5 6 7 8 9 10

(42)

42

Interpretación física de la media

0 1 2 3 4 5 6 7 8 9 10

X: Calificación en la escala del uno al diez

1 1 1 E = 3 x _X x₁ x₂ x₃

Media: Posición de la Equilibrante del sistema de masas de datos

(punto de equilibrio del sistema de masas de datos)

(1).(x₁+x₂+x₃) = (3)._X 3) M₀ = 0  1 N i i X

x

N



_





Ecuaciones de equilibrio estático

(1).x₁

2) F_Y = 0  E = 3

1) F_X = 0

En caso más general será:

(x₁+x₂+x₃+...+x_N) = N . _X + (1).x₂ + (1).x₃ – (3)._X = 0

(43)

43

Promedio o Media Aritmética

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 1 N i i X

x

N



_



 12 1

6

12

i i X

x









Media aritmética de una

población de tamaño N

(44)

44

Media:

Interpretación y propiedades

• Punto de equilibrio del sistema de masas datos

• Representante del conjunto de datos • Valor comprendido entre el mínimo y

máximo

• No siempre coincide con un valor observado

(45)

45

Variabilidad – Dispersión

Rango = x_máx – x_mín 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 R = 0 R = 2 R = 10 R = 10 R = 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

(46)

46

Rango

• Diferencia entre el valor máximo y el valor mínimo observado

• Es la más simple de las medidas de dispersión

• Sólo para datos numéricos

• No nos cuenta sobre la distribución de los datos dentro del mismo

(47)

47

Medición de la dispersión

0 1 2 3 4 5 6 7 8 9 10

¿Cuánto se alejan los datos del punto de equilibrio?

(48)

48

Medición de la dispersión

0 1 2 3 4 5 6 7 8 9 10

La desviación respecto de la media como medida de dispersión

(

x

_i





_X

)

(49)

49

Inconvenientes de la desviación

1

(

)

0

N i X i

x











La suma de las desviaciones

respecto de la media es siempre igual a cero

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

(50)

50

Varianza y Desviación Estándar

2 1

(

)

N i X i X

x

N













2 2 ₁

(

)

X N i X i

x

N













Varianza Poblacional: Promedio de las desviaciones cuadráticas respecto de la media Desviación Estándar Poblacional: Surge de la necesidad de volver a la unidad de medida de la variable en estudio

(51)

51

Para pensar ...

• ¿Cuál es la estatura promedio de las personas presentes?

• ¿Cuál es la desviación estándar de la estatura de las personas presentes?

• Comparemos:

– Estatura de los adultos

– Estatura de adolescentes (13 a 17 años) – ¿Cuál tiene mayor desviación estándar?

• Comparemos media y desviación estándar:

– Estatura de los adultos

(52)

52

Valores numéricos de

0

X





0, 71

X





4, 32

X





0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

(53)

53

Tabla: valores de

# Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5 Grupo 6 Grupo 8

1 ₆ ₅ ₅ ₅ ₅ ₅ ₅ 2 ₆ ₆ ₅ ₅ ₅ ₅ ₅ 3 ₆ ₆ ₆ ₅ ₅ ₅ ₅ 4 ₆ ₆ ₆ ₆ ₅ ₅ ₅ 5 ₆ ₆ ₆ ₆ ₆ ₅ ₅ 6 ₆ ₆ ₆ ₆ ₆ ₆ ₅ 7 ₆ ₆ ₆ ₆ ₆ ₆ ₇ 8 ₆ ₆ ₆ ₆ ₆ ₇ ₇ 9 ₆ ₆ ₆ ₆ ₇ ₇ ₇ 10 ₆ ₆ ₆ ₇ ₇ ₇ ₇ 11 ₆ ₆ ₇ ₇ ₇ ₇ ₇ 12 ₆ ₇ ₇ ₇ ₇ ₇ ₇ Media = 6 6 6 6 6 6 6 DE Pob= 0 0,4082 0,5774 0,7071 0,8165 0,9129 1



(54)

54

Gráficos: valores de

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10      



(55)

55

Caso 4

0 1 2 3 4 5 6 7 8 9 10

Los datos, en promedio, ¿cuánto se alejan a un lado y al otro de la media?

(56)

56

Caso 5

0 1 2 3 4 5 6 7 8 9 10

Los datos, en promedio y aproximadamente,

¿cuánto se alejan a un lado y al otro de la media?

0 1 2 3 4 5 6 7 8 9 10



(57)

57

Interpretación de

0 1 2 3 4 5 6 7 8 9 10 Sistema real

7

X





2, 5

X





0 1 2 3 4 5 6 7 8 9 10 2,5 2,5 Sistema equivalente En ambos sistemas: En promedio, las calificaciones se alejan de la media, 2,5 puntos



(58)

58

Resumen de fórmulas (Población)

1 N i i X

x

N



_



 2 1

(

)

N i X i X

x

N













Media Poblacional Desviación Estándar Poblacional Población de tamaño

N

(59)

59

Resumen de fórmulas (Muestra)

1 n i i

x

X

n





2 1

(

)

1

n i i X

x

X

S

n











Media Muestral Desviación Estándar Muestral Muestra de tamaño

n

(60)

60

Coeficiente de Variación

 UT1-p37

 Medida de dispersión relativa

 Permite efectuar comparaciones entre

variables medidas en la misma unidad o en unidades de medida diferentes

 Expresa la dispersión como proporción o

porcentaje respecto de la media del conjunto de los datos  Fórmula de cálculo: X X X

CV

S

CV

X







Poblacional Muestral

(61)

Capacidad estadística vs.

Pensamiento estadístico

(62)

62

Caso 1:

Tiempos

• Variable en estudio:

– Tiempo requerido para realizar una tarea

• Se desea comparar el tiempo empleado por un grupo de personas para realizar una tarea X, con el tiempo empleado por otro grupo de personas para realizar una tarea Y.

– Desviación estándar (X): _X = 0,04 min

– Desviación estándar (Y): _Y = 2880 min (dos días)

• ¿Qué tiempos están más dispersos, los de la tarea X o los de la tarea Y?

(63)

63

Caso 2:

Derrames

– Derrame Medio Anual (hm³)

• Se desea comparar el volumen de agua que anualmente aportan dos ríos, denominados genéricamente X e Y.

– Desviación estándar (Río X): _X = 546 hm³

– Desviación estándar (Río Y): _Y = 113.121 hm³

• ¿Cuáles son los derrames que están más dispersos, los del Río X o los del Río Y?

(64)

64

Caso 3:

Estaturas y Pesos

• Variables en estudio:

– Estatura (X) y Peso (Y)

• Se desea comparar las estaturas con los

pesos de un grupo de personas, en términos de variabilidad.

– Desviación estándar estaturas: _X = 8,6 cm – Desviación estándar pesos: _Y = 13,7 kg

• ¿Qué datos están más dispersos, las

estaturas o los pesos de las personas del grupo?

(65)

65

Caso 4:

Tiempos

– Tiempo requerido para realizar una tarea

• Se desea comparar el tiempo empleado por los hombres (H) con el tiempo empleado por las mujeres (M) para realizar la misma tarea.

– Desviación estándar (hombres): _H = 4,69 min – Desviación estándar (mujeres): _M = 1,70 min

• ¿Qué tiempos están más dispersos, los de los hombres o los de las mujeres?

(66)

Otras medidas de

tendencia central

Mediana (Me) y Moda (Mo)

(67)

67

Mediana

• Definición:

– Es un valor de la variable que ocupa la posición central en un conjunto ordenado de datos.

• Determinación de la mediana:

– Si el número de observaciones es impar, es el valor observado que ocupa la posición central de los datos, una vez que éstos han sido ordenados de manera creciente.

– Si el número de observaciones es par, se calcula como el promedio aritmético de las dos

observaciones centrales, una vez que éstos han sido ordenados de manera creciente.

(68)

68

Determinación de la Mediana (1)

1º 2º 3º 4º 5º 6º 7º 8º 9º Orden 200 200 200 200 400 450 650 800 5900 Me = 400 Media = 1000 Moda = 200 Orden de la mediana: 5º

Valor que ocupa la posición central

Observación

1 2

n

Mediana

 

x



x

_

(69)

69

Determinación de la Mediana (2)

Orden Observación

Cuando el número de datos es PAR

1º 2º 3º 4º 5º 6º 7º 8º 200 200 200 400 450 650 800 5900

Mediana = Promedio de los valores centrales Me = (400+450)/2 = 425 Media = 1100 Orden de la mediana: Entre el 4º y 5º 1 2 2

2

n n

x







(70)

70

Propiedades de la Mediana

• La mediana de un conjunto de datos es única • NO es sensible a la presencia de datos

apartados o valores extremos

• En un conjunto de datos, la mitad de ellos son

iguales o menores que la mediana y la otra mitad son iguales o mayores que la mediana

(71)

71

Moda

• Definición:

– Es el valor de las observaciones que aparece con mayor frecuencia

• Propiedades de la Moda:

– Se puede determinar tanto para datos numéricos como para datos no numéricos

– No se ve afectada por datos apartados o valores extremos

– La moda puede o no existir; cuando existe, puede no ser única

(72)

72

Dificultades de la Moda

0 1 2 3 4 5 6 7 8 9 10

Conjunto pequeño de datos Media = 5,42

Moda = 10

Mediana = 5,5

(73)

73

Histogram for Calzado

Calzado percentage 34 36 38 40 42 44 46 0 10 20 30 40

Histogram for ANTIG

ANTIG percentage 0 5 10 15 20 25 30 35 40 45 50 0 5 10 15 20 25 30

Clases Modales (datos agrupados)

Número de calzado

Antigüedad en la empresa

(74)

Medidas de Posición

 Cuartiles y Percentiles (UT1-p42)  Valor Z (UT1-p40)

(75)

75

Interpretación de los cuartiles

x_mín = 1,1 xmáx = 9,9

Q₁= 2,2

Q₂= Me = 3,6 Q₃= 7,8

Rango Intercuartil: RI = Q₃ – Q₁

La cuarta parte de los datos asume valores iguales o inferiores a 2,2

Tres cuartas partes de los datos asume valores iguales o inferiores a 7,8 La mitad de los datos

(dos cuartos) asume valores iguales o inferiores a 3,6

Se forman cuatro grupos con igual cantidad de datos

10 9 8 7 6 5 4 3 2 1 0

(76)

76

Interpretación de los percentiles

x_mín = 1,1 xmáx = 9,9 P₂₅ = 2,2 P₅₀ = Me = 3,6 P₇₅= 7,8 El 25% de los datos son iguales o inferiores a 2,2

El 75% de los datos son

iguales o inferiores a

7,8 El 50% de los datos (la

mitad) son iguales o

inferiores a 3,6

Se forman cien grupos con igual cantidad de datos

10 9 8 7 6 5 4 3 2 1 0

(77)

77

Para pensar ...

El cuartil inferior, ¿puede resultar igual a la mediana?

1º 2º 3º 4º 5º 6º 7º 8º 9º 10º

1 5 5 5 5 5 5 5 7 9

1 9 7 5 7 7 5 5 5 5

El percentil 20, ¿puede resultar mayor que el cuartil superior?

1 5 5 5 5 5 7 7 7 9

1º 2º 3º 4º 5º 6º 7º 8º 9º 10º

(78)

78

Valor Z

• Ver UT1-p40

• Describe la posición de un valor individual de la variable en estudio, respecto de la media del

grupo al cual pertenece.

• Indica a qué distancia de la media del grupo se encuentra, sea por encima (signo positivo) o por debajo de la misma (signo negativo),

medida en unidades de desviación estándar. • Fórmula de cálculo:

x

z

x

z

S













Valor z (población) Valor z (muestra)

x

  



z



(79)

79

Interpretación del Valor Z

• Un valor Z negativo

– indica que la observación está por debajo de la media

• Un valor Z positivo

– indica que la observación está por encima de la media

• Un valor Z igual a cero

– ¿qué indica?

x

z

x

z

S













(80)

80 _Y = _X+1 _Y = _X

L

M

_{A G}

Transformación

X  Y

-3 -2 -1 0 1 2 3 4 5 y = x+1 -3 -2 -1 0 1 2 3 4 5 x

L

M

A G

_Y = 0 -3 -2 -1 0 1 2 3 4 5 y = (x – Media)

L

M

A

G

_Y = _X _X = 2

(81)

81

Transformación

X  W

-3 -2 -1 0 1 2 3 4 5 x

L

M

A G

_W = _X/ constante = 1 _W = _X / constante = 1,08 -3 -2 -1 0 1 2 3 4 5 w = (x / constante)

L

M

A

G

constante = 2 _X= 2 _X = 2,16

(82)

82

Transformación

X  Z

-3 -2 -1 0 1 2 3 4 5 x

L

M

A G

_X= 2 _X = 2,16

L

M

A G

-3 -2 -1 0 1 2 3 4 5 y = (x – Media) _Y = 0

L

M

A G

-3 -2 -1 0 1 2 3 4 5 y = (x – Media) _Y = 0 _Y = _X= 2,16 _Z = _Y/ sigma = 0 _Z = _Y / sigma = 1 -3 -2 -1 0 1 2 3 4 5 z = y / constante

G

A

M

constante = sigma _Z = 0 _Z = 1 _Y = _X

L

z = (x – Media) / sigma

(83)

Ilustración

(84)

Gráfico de Caja

Datos apartados: atípico y

anómalos

(85)

85

Construcción del Gráfico de Caja

2 4 6 8 10 12 0 1 3 5 7 9 11 Variable Numérica + atípicos REF2

REF1 REF3 REF4

anómalos atípicos

anómalos

Datos apartados Datos apartados

Datos No Apartados x_máx x_mín Q1 Q₂=Me Q₃ REF1 = Q₁– 3 RI REF2 = Q₁– 1,5 RI REF3 = Q₃+ 1,5 RI REF4 = Q₃+ 3 RI

(86)

86

Construcción del Gráfico de Caja

2 4 6 8 10 12

0 1 3 5 7 9 11

Variable Numérica

+ +

Primer dato no apartado por debajo de la REF 3

atípicos

REF2

REF1 REF3 REF4

anómalos atípicos

anómalos

Datos apartados Datos apartados

Datos No Apartados x_máx x_mín Q1 Q₂=Me Q₃ REF1 = Q₁– 3 RI REF2 = Q₁– 1,5 RI REF3 = Q₃+ 1,5 RI REF4 = Q₃+ 3 RI

(87)

87

Datos apartados en la distribución normal

Probabilidad de que un dato resulte anómalo = 0,0000023

Probabilidad de que un dato resulte atípico = 0,007

(88)

88

Ejemplos

G2 G3 G4 G5 G6 G7 G8 Box-and-Whisker Plot 3 4 5 6 7 8 9 response sample G6 G7 G8 5 5 3 5 5 4 5 5 4 5 5 4 5 5 4 6 5 5 6 7 7 7 7 8 7 7 8 7 7 8 7 7 8 7 7 9 G5 5 5 5 5 6 6 6 6 7 7 7 7 G4 5 5 5 6 6 6 6 6 6 7 7 7 G3 5 5 6 6 6 6 6 6 6 6 7 7 G2 5 6 6 6 6 6 6 6 6 6 6 7

(89)

89

SPH Múltiple

sample response SPHpre SPH1d SPH1m SPH2m -0,3 0,1 0,5 0,9 1,3 1,7 Box-and-Whisker Plot response sample SPHpre SPH1d SPH1m SPH2m -10 -8 -6 -4 -2 0 2 4 6 8

(90)

90

Antigüedad

ANTIG

0 10 20 30 40 50

Histogram for ANTIG

ANTIG percentage 0 5 10 15 20 25 30 35 40 45 50 0 5 10 15 20 25 30