• No se han encontrado resultados

Estadística descriptiva: el análisis exploratorio de los datos. Segunda Parte

N/A
N/A
Protected

Academic year: 2021

Share "Estadística descriptiva: el análisis exploratorio de los datos. Segunda Parte"

Copied!
27
0
0

Texto completo

(1)

Estadística descriptiva: el

análisis exploratorio de los

datos

(2)

Forma del histograma: asimetría o sesgo

• Cuando los datos se mueven en una dirección se dice que la

distribución tiene cola larga/pesada. Si la distribución tiene cola larga hacia la izquierda (derecha), entonces es sesgada hacia la izquierda (derecha).

Asimetría o sesgo a la derecha

Asimetría o sesgo a la

(3)

Forma del histograma: asimetría o sesgo

• ¿Dónde se ubican la media y la mediana en estas

distribuciones? Asimetría o sesgo a la derecha

Asimetría o sesgo a la

izquierda Simétrica

MEDIA……...MEDIANA MEDIA……...MEDIANA MEDIA…..….MEDIANA

(4)

Forma de la distribución: asimetría o sesgo

Asimetría o sesgo a la derecha

Asimetría o sesgo a la

izquierda Simétrica

MEDIA < MEDIANA MEDIA~ MEDIANA MEDIA > MEDIANA

media

mediana mediana

(5)

Forma del histograma: moda

• ¿Cuantos picos (máximos locales) prominentes tiene el

histograma?

• Sólo uno → unimodal

• Dos → bimodal

• Tres o más → multimodal

• Ningún pico → uniforme

(6)

Forma del histograma: outliers

• ¿Existen observaciones anómalas o inusuales en los datos?

¿Por qué los outliers son importantes?

• Revelan información sobre la falta de simetría/ sesgo.

• Pueden llevar a revisar la carga de los datos (errores de tipeo)

(7)

Forma del histograma: outliers

Moda

Sesgo

unimodal bimodal multimodal uniforme

simétrica Sesgada a izquierda Sesgada a derecha

(8)

Ejercicio

¿Cuales de estas variables esperaría que muestren

una distribución uniforme?

• Precios de los departamentos en la Ciudad de Buenos

Aires.

• Salarios de una muestra de individuos tomada al azar

en la provincia de Santa Fe.

• La fecha de nacimiento (día y mes) de todos los

(9)

• Anatomía del box-plot

• Ejercicio: calcular el LS y el LI de los bigotes (wiskers)

Datos numéricos: diagrama de cajas (Box-Plot)

RIC Q RIC Q 3* ó outlier lejano 3* lejano outlier > 3 + < 1RIC Q RIC Q RIC Q RIC

Q3 +1.5* <outlier cercano< 3 +3* ó 1 −3* <outlier cercano< 1 −1.5*

(10)
(11)

Datos numéricos: diagrama de tallos y hojas (stem

and leaf)

(12)

Datos numéricos: series de tiempo

• Cuando se desea tener en cuenta el orden en que se han

tomado los datos, los histogramas no son útiles.

• En estos casos se considera un gráfico de series de tiempo.

• Cuidado con las escalas! No caer en la trampa, particularmente

Argentina- Tasa de inflación anual

-500 0 500 1000 1500 2000 2500 3000 3500 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 e n p o rc e n ta je

Argentina- Tasa de inflación anual

-5 0 5 10 15 20 25 30 1 9 9 2 1 9 9 3 1 9 9 4 1 9 9 5 1 9 9 6 1 9 9 7 1 9 9 8 1 9 9 9 2 0 0 0 2 0 0 1 2 0 0 2 2 0 0 3 2 0 0 4 2 0 0 5 2 0 0 6 2 0 0 7 2 0 0 8 2 0 0 9 2 0 1 0 2 0 1 1 2 0 1 2 e n p o rc e n ta je

(13)

Datos numéricos: diagrama de puntos (scatterplot)

• El diagrama de puntos o scatterplot es la herramienta cuando

se analiza la relación de dos variables en forma conjunta.

País

1 Afghanistan 1907 60.9 2 Albania 9489 77.4 3 Algeria 12957 71.0 4 Angola 7319 51.9 5 Antigua and Barbuda 20002 76.0 6 Argentina 17629 76.3 7 Armenia 7501 74.6 … … … … … … 183 Zambia 3070 58.1 184 Zimbabwe 1445 59.9 Esperanza de vida en años PBI per capita

PPP ($US de 2011)

(14)

Datos numéricos: diagrama de puntos (scatterplot)

• Cada punto del plano es un par ordenado (x,y)=(PIB per capita,

esperanza de vida). Son datos apareados.

Datos 2013 40 45 50 55 60 65 70 75 80 85 90 0 20000 40000 60000 80000 100000 120000 140000 160000 E s p e ra n z a d e v id a a l n a c e r (e n a ñ o s ) Outlier?

(15)

Datos numéricos: diagrama de puntos (scatterplot)

• Cada punto del plano es un par ordenado (x,y)=(PIB per capita,

esperanza de vida). Son datos apareados.

Datos 2013 40 45 50 55 60 65 70 75 80 85 90 0 20000 40000 60000 80000 100000 120000 140000 160000

PIB per capita (PPP en U$S 2011)

E sp e ra n za d e v id a a l n a ce r (e n a ñ o s) Qatar Guinea Bostwana 15

(16)

Datos numéricos: diagrama de puntos (scatterplot)

• Evaluación de la relación lineal curvada negativa positiva Dirección Forma Intensidad fuerte débil lineal Outliers

(17)

• Hasta ahora vimos métodos numéricos cuyo objeto es resumir los datos de una sóla variable.

• Pero el interés puede radicar en la relación entre dos variables.

• Supongamos que tenemos 2 muestra de tamaño n. Sean

• La covarianza de la muestra o covarianza muestral se define

como

Medida de asociación entre dos variables

n n y y y x x x1, 2,..., y 1, 2,...

1

)

)(

(

=

n

y

y

x

x

s

xy i i 17

(18)

Medida de asociación entre dos variables

n n y y y x x x1, 2,..., y 1, 2,... 13 . 70 = y

1

)

)(

(

=

n

y

y

x

x

s

xy i i País 1 Afghanistan 1907 60.9 2 Albania 9489 77.4 3 Algeria 12957 71.0 4 Angola 7319 51.9 5 Antigua and Barbuda 20002 76.0 6 Argentina 17629 76.3 7 Armenia 7501 74.6 … … … … … … 183 Zambia 3070 58.1 184 Zimbabwe 1445 59.9 Esperanza de vida en años PBI per capita

PPP ($US de 2011) 3 . 16543 = x

En excel, =covarianza.m(lista de números var1, lista de números var2)

75

.

101091

=

xy

s

(19)

Medida de asociación entre dos variables

Datos 2013 40 45 50 55 60 65 70 75 80 85 90 0 20000 40000 60000 80000 100000 120000 140000 160000

PIB per capita (PPP en U$S 2011)

E s p e ra n z a d e v id a a l n a c e r (e n a ñ o s ) I II III IV 19

(20)

Una covarianza positiva (negativa) indica asociación lineal positiva (negativa).

Sin embargo nada se puede decir de la intensidad de esta

relación porque el problema con la covarianza es que depende de las unidades de medida de las variables de interés.

• El coeficiente de correlación es la solución a este problema, ya

que lo independiza de las unidades

En excel =coef.de.correl(lista de números var1, lista de

Medida de asociación entre dos variables

) 1 ( ) ( ) 1 ( ) ( 1 ) )( ( 2 2 − − − − = =

n y y n x x n y y x x s s s r i i i i y x xy xy

(21)

• El coeficiente de correlación toma valores entre -1 y 1.

• Si el coeficiente de correlación es igual a 1, se tiene una

asociación lineal positiva perfecta, intensidad máxima.

• Si el coeficiente de correlación es igual a -1, se tiene una

asociación lineal negativa perfecta, intensidad máxima.

• Si el coeficiente de correlación es igual a 0, indica que no hay

relación lineal.

• En el ejemplo de ingreso per capita y esperanza de vida el

coeficiente es

Medida de asociación entre dos variables

1

1

r

xy 594 . 0 = xy r 21

(22)
(23)

Datos numéricos: diagrama de puntos (scatterplot)

Advertencia: que se observe una estrecha relación entre las

variables no implica que exista una relación causa-efecto entre las mismas.

Ejemplo: Pensar en un scatterplot donde en el eje de las x se

representa los daños ocasionados en el siniestro y en el eje de las y la cantidad de bomberos que actuaron en determinado siniestro . A mayor daño, mayor la cantidad de bomberos que

actúan en el siniestro, pero claramente no son los bomberos los que causan el daño. Existe una tercera variable (omitida),

que es la que mantiene la relación causa-efecto. En este ejemplo es la magnitud del incendio.

• En series de tiempo, puede haber correlaciones espurias entre

variables que tienen tendencia (

(24)

Datos categóricos

• Al igual que los datos numéricos, los datos categóricos pueden

ser ordenados/tabulados y analizados.

Tabla de frecuencias o distribución de frecuencias

Rank Year Dept Divison Gender

Professor 1963 Music Fine_Arts Male

Professor 1965 Dance Fine_Arts Female

Professor 1966 PoliSci Soc_Science Male

Professor 1967 Kin Soc_Science Male

Professor 1967 Psychology Soc_Science Male

Professor 1968 Educ Soc_Science Female

Professor 1968 Theatre Fine_Arts Male

Professor 1969 Art Fine_Arts Male

Professor 1969 CS Nat_Science Male

Professor 1969 English HumanititiesMale

http://www.math.hope.edu/swanson/data/hope_prof-2.txt

Etiquetas de fila Cantidad Porcentaje Cantidad Acumulada Porcentaje Acumulado

Fine_Arts 32 14.41% 32 14.41%

Humanitities 59 26.58% 91 40.99%

Nat_Science 62 27.93% 153 68.92%

Soc_Science 69 31.08% 222 100.00%

(25)

Datos categóricos: gráfico de barras

El gráfico de barras es para datos categóricos. El orden de las

categorías es

intercambiable El histograma es para datos numéricos. El eje

de las abscisas es numérico. ¡El orden

importa! 25 58 60 62 64 66 68 70 Nat_Science Soc_Science 26% 27% 27% 28% 28% 29% 29% 30% 30% 31% 31% 32% Nat_Science Soc_Science

(26)

Datos categóricos

• Cuando se dispone de más de una variable categórica, la

tabulación se denomina Tabla de contingencia.

Tabla de contingencia

Cuenta de Gender Etiquetas de columna

Etiquetas de fila Female Male Total general

Fine_Arts 13 19 32

Humanitities 25 34 59

Nat_Science 22 40 62

Soc_Science 29 40 69

(27)

Datos categóricos y datos numéricos

Año de ingreso de los profesores en base a la división.

Año: var. Numérica División: var. categórica

27

Referencias

Documento similar

El objeto de innovación se centra en la valoración de un programa de evaluación continua mediante el sistema de participación activa (activeclassroom) en el Máster de Tratamiento

De non ser así, as facturas non poderán tramitarse para o pago, e a USC, a través do responsable de asuntos económicos do centro da USC que solicitou os seus servicios Rexeitará

A la hora de realizar el análisis de regresión mediante SPSS existen diferentes métodos para seleccionar los predictores a incluir en el modelo de regresión. Las opciones

Posteriormente se analizaron los datos a través de métodos estadísticos tales como estadística descriptiva y análisis multivariado de correspondencias múltiples,

Asegurar una calidad mínima en los datos es una de las tareas más difíciles de conseguir para los organismos públicos cuyo objetivo es publicar datos lo más rápidamente posible

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

Centrándonos en la parte de Estadística Descriptiva, mostramos cómo estas simulaciones interactivas se pueden incorporar a prácticas de análisis de datos que utilizan un software

Del cual se obtiene la siguiente información, aplicando la estadística descriptiva: Análisis de frecuencia de datos a cada uno de los indicadores que integran las variables, tanto