Estadística descriptiva: el
análisis exploratorio de los
datos
Forma del histograma: asimetría o sesgo
• Cuando los datos se mueven en una dirección se dice que la
distribución tiene cola larga/pesada. Si la distribución tiene cola larga hacia la izquierda (derecha), entonces es sesgada hacia la izquierda (derecha).
Asimetría o sesgo a la derecha
Asimetría o sesgo a la
Forma del histograma: asimetría o sesgo
• ¿Dónde se ubican la media y la mediana en estas
distribuciones? Asimetría o sesgo a la derecha
Asimetría o sesgo a la
izquierda Simétrica
MEDIA……...MEDIANA MEDIA……...MEDIANA MEDIA…..….MEDIANA
Forma de la distribución: asimetría o sesgo
Asimetría o sesgo a la derecha
Asimetría o sesgo a la
izquierda Simétrica
MEDIA < MEDIANA MEDIA~ MEDIANA MEDIA > MEDIANA
media
mediana mediana
Forma del histograma: moda
• ¿Cuantos picos (máximos locales) prominentes tiene el
histograma?
• Sólo uno → unimodal
• Dos → bimodal
• Tres o más → multimodal
• Ningún pico → uniforme
Forma del histograma: outliers
• ¿Existen observaciones anómalas o inusuales en los datos?
• ¿Por qué los outliers son importantes?
• Revelan información sobre la falta de simetría/ sesgo.
• Pueden llevar a revisar la carga de los datos (errores de tipeo)
Forma del histograma: outliers
•
Moda
•
Sesgo
unimodal bimodal multimodal uniforme
simétrica Sesgada a izquierda Sesgada a derecha
Ejercicio
•
¿Cuales de estas variables esperaría que muestren
una distribución uniforme?
• Precios de los departamentos en la Ciudad de Buenos
Aires.
• Salarios de una muestra de individuos tomada al azar
en la provincia de Santa Fe.
• La fecha de nacimiento (día y mes) de todos los
• Anatomía del box-plot
• Ejercicio: calcular el LS y el LI de los bigotes (wiskers)
Datos numéricos: diagrama de cajas (Box-Plot)
RIC Q RIC Q 3* ó outlier lejano 3* lejano outlier > 3 + < 1 − RIC Q RIC Q RIC Q RIC
Q3 +1.5* <outlier cercano< 3 +3* ó 1 −3* <outlier cercano< 1 −1.5*
Datos numéricos: diagrama de tallos y hojas (stem
and leaf)
Datos numéricos: series de tiempo
• Cuando se desea tener en cuenta el orden en que se han
tomado los datos, los histogramas no son útiles.
• En estos casos se considera un gráfico de series de tiempo.
• Cuidado con las escalas! No caer en la trampa, particularmente
Argentina- Tasa de inflación anual
-500 0 500 1000 1500 2000 2500 3000 3500 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 e n p o rc e n ta je
Argentina- Tasa de inflación anual
-5 0 5 10 15 20 25 30 1 9 9 2 1 9 9 3 1 9 9 4 1 9 9 5 1 9 9 6 1 9 9 7 1 9 9 8 1 9 9 9 2 0 0 0 2 0 0 1 2 0 0 2 2 0 0 3 2 0 0 4 2 0 0 5 2 0 0 6 2 0 0 7 2 0 0 8 2 0 0 9 2 0 1 0 2 0 1 1 2 0 1 2 e n p o rc e n ta je
Datos numéricos: diagrama de puntos (scatterplot)
• El diagrama de puntos o scatterplot es la herramienta cuando
se analiza la relación de dos variables en forma conjunta.
País
1 Afghanistan 1907 60.9 2 Albania 9489 77.4 3 Algeria 12957 71.0 4 Angola 7319 51.9 5 Antigua and Barbuda 20002 76.0 6 Argentina 17629 76.3 7 Armenia 7501 74.6 … … … … … … 183 Zambia 3070 58.1 184 Zimbabwe 1445 59.9 Esperanza de vida en años PBI per capita
PPP ($US de 2011)
Datos numéricos: diagrama de puntos (scatterplot)
• Cada punto del plano es un par ordenado (x,y)=(PIB per capita,
esperanza de vida). Son datos apareados.
Datos 2013 40 45 50 55 60 65 70 75 80 85 90 0 20000 40000 60000 80000 100000 120000 140000 160000 E s p e ra n z a d e v id a a l n a c e r (e n a ñ o s ) Outlier?
Datos numéricos: diagrama de puntos (scatterplot)
• Cada punto del plano es un par ordenado (x,y)=(PIB per capita,
esperanza de vida). Son datos apareados.
Datos 2013 40 45 50 55 60 65 70 75 80 85 90 0 20000 40000 60000 80000 100000 120000 140000 160000
PIB per capita (PPP en U$S 2011)
E sp e ra n za d e v id a a l n a ce r (e n a ñ o s) Qatar Guinea Bostwana 15
Datos numéricos: diagrama de puntos (scatterplot)
• Evaluación de la relación lineal curvada negativa positiva Dirección Forma Intensidad fuerte débil lineal Outliers• Hasta ahora vimos métodos numéricos cuyo objeto es resumir los datos de una sóla variable.
• Pero el interés puede radicar en la relación entre dos variables.
• Supongamos que tenemos 2 muestra de tamaño n. Sean
• La covarianza de la muestra o covarianza muestral se define
como
Medida de asociación entre dos variables
n n y y y x x x1, 2,..., y 1, 2,...
1
)
)(
(
−
−
−
=
∑
n
y
y
x
x
s
xy i i 17Medida de asociación entre dos variables
n n y y y x x x1, 2,..., y 1, 2,... 13 . 70 = y1
)
)(
(
−
−
−
=
∑
n
y
y
x
x
s
xy i i País 1 Afghanistan 1907 60.9 2 Albania 9489 77.4 3 Algeria 12957 71.0 4 Angola 7319 51.9 5 Antigua and Barbuda 20002 76.0 6 Argentina 17629 76.3 7 Armenia 7501 74.6 … … … … … … 183 Zambia 3070 58.1 184 Zimbabwe 1445 59.9 Esperanza de vida en años PBI per capitaPPP ($US de 2011) 3 . 16543 = x
En excel, =covarianza.m(lista de números var1, lista de números var2)
75
.
101091
=
xys
Medida de asociación entre dos variables
Datos 2013 40 45 50 55 60 65 70 75 80 85 90 0 20000 40000 60000 80000 100000 120000 140000 160000PIB per capita (PPP en U$S 2011)
E s p e ra n z a d e v id a a l n a c e r (e n a ñ o s ) I II III IV 19
• Una covarianza positiva (negativa) indica asociación lineal positiva (negativa).
• Sin embargo nada se puede decir de la intensidad de esta
relación porque el problema con la covarianza es que depende de las unidades de medida de las variables de interés.
• El coeficiente de correlación es la solución a este problema, ya
que lo independiza de las unidades
• En excel =coef.de.correl(lista de números var1, lista de
Medida de asociación entre dos variables
) 1 ( ) ( ) 1 ( ) ( 1 ) )( ( 2 2 − − − − − − − = =
∑
∑
∑
n y y n x x n y y x x s s s r i i i i y x xy xy• El coeficiente de correlación toma valores entre -1 y 1.
• Si el coeficiente de correlación es igual a 1, se tiene una
asociación lineal positiva perfecta, intensidad máxima.
• Si el coeficiente de correlación es igual a -1, se tiene una
asociación lineal negativa perfecta, intensidad máxima.
• Si el coeficiente de correlación es igual a 0, indica que no hay
relación lineal.
• En el ejemplo de ingreso per capita y esperanza de vida el
coeficiente es
Medida de asociación entre dos variables
1
1
≤
≤
−
r
xy 594 . 0 = xy r 21Datos numéricos: diagrama de puntos (scatterplot)
• Advertencia: que se observe una estrecha relación entre las
variables no implica que exista una relación causa-efecto entre las mismas.
• Ejemplo: Pensar en un scatterplot donde en el eje de las x se
representa los daños ocasionados en el siniestro y en el eje de las y la cantidad de bomberos que actuaron en determinado siniestro . A mayor daño, mayor la cantidad de bomberos que
actúan en el siniestro, pero claramente no son los bomberos los que causan el daño. Existe una tercera variable (omitida),
que es la que mantiene la relación causa-efecto. En este ejemplo es la magnitud del incendio.
• En series de tiempo, puede haber correlaciones espurias entre
variables que tienen tendencia (
Datos categóricos
• Al igual que los datos numéricos, los datos categóricos pueden
ser ordenados/tabulados y analizados.
Tabla de frecuencias o distribución de frecuencias
Rank Year Dept Divison Gender
Professor 1963 Music Fine_Arts Male
Professor 1965 Dance Fine_Arts Female
Professor 1966 PoliSci Soc_Science Male
Professor 1967 Kin Soc_Science Male
Professor 1967 Psychology Soc_Science Male
Professor 1968 Educ Soc_Science Female
Professor 1968 Theatre Fine_Arts Male
Professor 1969 Art Fine_Arts Male
Professor 1969 CS Nat_Science Male
Professor 1969 English HumanititiesMale
http://www.math.hope.edu/swanson/data/hope_prof-2.txt
Etiquetas de fila Cantidad Porcentaje Cantidad Acumulada Porcentaje Acumulado
Fine_Arts 32 14.41% 32 14.41%
Humanitities 59 26.58% 91 40.99%
Nat_Science 62 27.93% 153 68.92%
Soc_Science 69 31.08% 222 100.00%
Datos categóricos: gráfico de barras
El gráfico de barras es para datos categóricos. El orden de las
categorías es
intercambiable El histograma es para datos numéricos. El eje
de las abscisas es numérico. ¡El orden
importa! 25 58 60 62 64 66 68 70 Nat_Science Soc_Science 26% 27% 27% 28% 28% 29% 29% 30% 30% 31% 31% 32% Nat_Science Soc_Science
Datos categóricos
• Cuando se dispone de más de una variable categórica, la
tabulación se denomina Tabla de contingencia.
Tabla de contingencia
Cuenta de Gender Etiquetas de columna
Etiquetas de fila Female Male Total general
Fine_Arts 13 19 32
Humanitities 25 34 59
Nat_Science 22 40 62
Soc_Science 29 40 69
Datos categóricos y datos numéricos
Año de ingreso de los profesores en base a la división.
Año: var. Numérica División: var. categórica
27