TEMA 1:
TEMA 1:
TEMA 1:
TEMA 1:
ANALISIS EXPLORATORIO DE
ANALISIS EXPLORATORIO DE
DATOS MULTIVARIANTES
DATOS MULTIVARIANTES
Resúmenes numéricos
Resúmenes numéricos
DATOS MULTIVARIANTES
DATOS MULTIVARIANTES
Resúmenes numéricos
Resúmenes numéricos
Gráficos
Gráficos multivariantes
multivariantes
Distancias estadísticas
Distancias estadísticas
Distancias estadísticas
Distancias estadísticas
Outliers
Análisis
Análisis exploratorio de datos
exploratorio de datos multivariantes
multivariantes
Matriz de datos.
Vector de medias y matriz de covarianzas.
Representación gráfica de datos multivariantes.
Distancias estadísticas Distancias estadísticas
Univariantes
i d d
i d d
Multivariantes Bivariantes Multivariantes Tipo de datos
Tipo de datos
Dicotómicos o binarios Cualitativos o
categóricos Politómicos
Dicotómicos o binarios Nominales Ordinales o Tipo de datos
Tipo de datos
Politómicos Ordinales o
semicuantitativos
Discretos o discontinuos Cuantitativos
Resúmenes núméricos de los datos Resúmenes núméricos de los datos
Para datos categóricos o discretos: Para datos categóricos o discretos:
Resúmenes núméricos de los datos Resúmenes núméricos de los datos
Para datos categóricos o discretos: Para datos categóricos o discretos:
Tabla de frecuencias
Para datos cuantitativos Para datos cuantitativos::
Medidas de posición media, mediana, moda, media recortada
ó í
Medidas de dispersión varianza, desviación típica, rango, rango intercuartílico, MEDA
Medidas de forma Coeficiente de asimetríaCoeficiente de curtosis o apuntamiento
Resumenes gráficos de los datos. Resumenes gráficos de los datos.
Para datos
Para datos univariantesunivariantes::
Resumenes gráficos de los datos. Resumenes gráficos de los datos.
0 50 100 150 200 250
Diagrama de barras Diagrama de sectores Mapas estadísticos
Datos categóricos o discretos
Greatly A lot Something Little Nothing
p Serie temporal Histograma 120,00 130,56 g Gráficos probabilísticos Barras de error
Box-plot Datos cuantitativos 40,00 60,00 80,00 100,00 36364 538,46 1351,35
Di d b últi l
Box plot Para datos
Para datos multivariantesmultivariantes::
Datos categóricos o discretos
clorofila 0,00 20,00 110,51 126,67 363,64
Casos ponderados por nºcelulas
Diagrama de barras múltiple
Box-plot múltiple
Datos categóricos o discretos
Diagrama de dispersión
Matriz de diagramas de dispersión Gráficos de estrellas y caras
Datos cuantitativos
MATRIZ DE DATOS
MATRIZ DE DATOS
Los DATOSDATOS consisten en observaciones de nn individuos individuos en los que se miden pp características o variablescaracterísticas o variables, las mismas en todos. Los datos se disponen ordenadamente en la MATRIZ DE MATRIZ DE DATOS DATOS
X
(nxp)Variables en columnas
In
Variables en columnas
x
11
x
12
x
1
p
n dividuo s
x
x
x
p
X
2
22
21
s en fila
s
X
s
x
n
1
x
n
2
x
np
Cuestiones importantes sobre la organización de los datos: Cuestiones importantes sobre la organización de los datos:
El formato debe ser compatible con los requerimientos del
p g
p g
El formato debe ser compatible con los requerimientos del software que se vaya a usar para el análisis.
EXCEL admite casi cualquier organización posible El problema EXCEL admite casi cualquier organización posible. El problema está en cómo analizamos los datos con EXCEL!
El “Editor de Datos del SPSS” almacena los datos en una El Editor de Datos del SPSS almacena los datos en una
matriz que siempre tiene las variables en las columnas. Cada fila contiene la información completa disponible sobre un
individuo individuo.
Cuando hay datos faltantes (“missing data”): Se interpola el valor faltante.
Ejemplo:
Ejemplo: Medidas de cráneos de cocodrilos (alligator.txt)
Valores de 11 medidas físicas en un ejemplar de cada especie:
La matriz de datos es 44x11
Ejemplo:
Ejemplo: Calidad del aire en la ciudad de Madrid
Para establecer un “Ranking“Ranking dede calidadcalidad deldel aire”aire” por distritos en la ciudad de Madrid disponemos de la información registrada en 19 estaciones de medición atmosférica, que proporcionan datos de C0, SO2, NOX, P10 y O3.
12-5-09 9:00 CO
(mg/m3) SO2 (µg/m3) NOX (µg/m3) P10 (µg/m3) O3 (µg/m3)
Ejemplo:
Ejemplo: Lirios (iris.txt)
En 1936, el biólogo y estadístico Sir R.A. Fisher, recopila los datos de 150 lirios para cuantificar la variación geografica de estas flores
l P í l d G é C d en la Península de Gaspé, Canada.
La muestra contiene 50 lirios de cada una de las t es especies i is setosasetosa i is e sicoloe sicolo e las tres especies: iris setosasetosa, iris versicolorversicolor e iris virginicavirginica. Para cada flor se mire el anco y el largo del pétalo y el sépalo, en
í
centrímetros.
Análisis
Análisis exploratorio de datos
exploratorio de datos multivariantes
multivariantes
Matriz de datos.
Resumen numérico de datos
Resumen numérico de datos multivariantesmultivariantes: : PosiciónPosición
VECTOR DE MEDIAS MUESTRAL: VECTOR DE MEDIAS MUESTRAL:
x
x
x
X
2 1es la media muestral de la variable X :
j
x
px
X
de la variable Xj:
n i ij jx
n
x
11
pn
i1Es un vector de dimensión p x 1.
El vector de medias muestral es el centro de la nube de puntos en dimensión p
Media de la variable x2
dimensión p.
Resumen numérico de datos
Resumen numérico de datos multivariantesmultivariantes: : Dispersión y formaDispersión y forma
MATRIZ DE COVARIANZAS: MATRIZ DE COVARIANZAS:
ps
s
s
s
s
s
1 12 11es la varianza muestral de la variable X :
jj
s
s
s
s
pS
2 2221 de la variable Xj:
n i j ij jjj
x
x
n
s
s
1 2 2)
(
1
s
p1s
p2
s
ppes la covarianza muestral
jk
s
S contiene las varianzasvarianzas en la
es la covarianza muestral entre las variables Xj y Xk:
n ij j ik kjk
x
x
x
x
s
1
(
)(
)
jk
S contiene las varianzasvarianzas en la diagonal y todas las covarianzascovarianzas en el resto de los elementos (medidas de asociación lineal
i k ik j ij jkn
1(
)(
)
(medidas de asociación lineal entre dos variables).
Resumen numérico de datos
Resumen numérico de datos multivariantesmultivariantes: : Dispersión y formaDispersión y forma
La covarianza depende de las unidades de medida. Para medir el grado de asociación lineal entre dos variables es más habitual grado de asociación lineal entre dos variables, es más habitual usar el coeficiente de correlación de Pearson y la MATRIZ DE
CORRELACIONES
R
:
1
1
r
12
r
1p
211
2
r
pr
R
es la correlación muestral
jk
r
r
p1r
p2
1
es la correlación muestral entre las variables Xj y Xk:
jk jk
s
r
jk k j js
s
El coeficiente de correlación no depende de las unidades de medida El coeficiente de correlación no depende de las unidades de medida. Toma valores entre -1 y 1.
Resumen numérico de datos
Resumen numérico de datos multivariantesmultivariantes: : Dispersión y formaDispersión y forma
Ejemplo:
Ejemplo: Ocho conjuntos de datos con coeficiente de correlación
r = 0.70 (Chambers et al., 1983).( , )
A
A BB CC DD
E
Ejemplo
Ejemplo: : Lirios
Ejemplo:
Ejemplo: Salida de SPSS para descriptivos multivariantes Ejemplo:
Ejemplo:
Análisis
Análisis exploratorio de datos
exploratorio de datos multivariantes
multivariantes
Matriz de datos.
Vector de medias y matriz de covarianzas.
Representación gráfica de datos multivariantes.
Herramientas gráficas que nos ayudan a estudiar las
Herramientas gráficas que nos ayudan a estudiar las
relaciones entre variables (forma, fuerza, etc.), a
Resumen gráfico de DATOS UNIVARIANTES Resumen gráfico de DATOS UNIVARIANTES
Barras de error Barras de error
Resumen gráfico de DATOS UNIVARIANTES Resumen gráfico de DATOS UNIVARIANTES
Media + 2 desviaciones
Media + 2 desviaciones típicastípicas
oo
+ 2 tí i ( /√ )
+ 2 tí i ( /√ )
+ 2 errores típicos (s/√n) + 2 errores típicos (s/√n)
Media
Media
95% de los datos
95% de los datos
Media
Media -- 2 desviaciones 2 desviaciones típicastípicas
oo
-- 2 errores típicos (s/2 errores típicos (s/√√n)n)
•• La desviación típica es muy sensible a los datos atípicosLa desviación típica es muy sensible a los datos atípicos •• Siempre es un gráfico simétricoSiempre es un gráfico simétrico
Resumen gráfico de DATOS UNIVARIANTES Resumen gráfico de DATOS UNIVARIANTES
Diagrama de cajas o
Diagrama de cajas o BoxplotBoxplot
Resumen gráfico de DATOS UNIVARIANTES Resumen gráfico de DATOS UNIVARIANTES
1. Ordenar la muestra
2. Calcular la mediana, el primer y el tercer cuartil primer y el tercer cuartil
3. Calcular el rango intercuartílico
Resumen gráfico de DATOS UNIVARIANTES Resumen gráfico de DATOS UNIVARIANTES
¿ Box
¿ Box--plot o barra de error ?plot o barra de error ?
UTILIZACIÓN DEL FITOPLACTON COMO INDICADOR BIOLÓGICO PARA LA EVALUACIÓN UTILIZACIÓN DEL FITOPLACTON COMO INDICADOR BIOLÓGICO PARA LA EVALUACIÓN
Resumen gráfico de DATOS UNIVARIANTES Resumen gráfico de DATOS UNIVARIANTES
UTILIZACIÓN DEL FITOPLACTON COMO INDICADOR BIOLÓGICO PARA LA EVALUACIÓN UTILIZACIÓN DEL FITOPLACTON COMO INDICADOR BIOLÓGICO PARA LA EVALUACIÓN
DE LA EUTROFIZACIÓN EN LOS EMBALSES ESPAÑOLES DE LA EUTROFIZACIÓN EN LOS EMBALSES ESPAÑOLES
C. NUÑO, C. DE HOYOS, A. JUSTEL
12,50
Óptimos y rangos de tolerancia de especies fitoplactónicas
5,00 7,50 10,00
En la mayor parte de los casos la barra de error y el box-plot dan
el mismo resultado
clorofila 0,00 2,50
Casos ponderados por nºcelulas
100,00 120,00
1351,35 130,56
Algunas especies no son id d i di d
40,00 60,00 80,00 12667 363,64 538,46 consideradas indicadoras debido al amplio rango de tolerancia (barra de error)
Si utilizamos la mediana y el
clorofila 0,00
20,00
110,51 126,67
Casos ponderados por nºcelulas
Si utilizamos la mediana y el rango intercuartílico pasan a
Box
Box--plotplot múltiplemúltiple
Se usa para comparar:
bl d f
p
p pp
Una variable en grupos diferentes.
Varias variables solo cuando las unidades de medida son “compatibles”
Ejemplo:
Ejemplo: Impacto humano en los suelos antárticos (Tejedo et al. 2005)
son compatibles .
j p
Box
Box--plotplot múltiplepp múltiplepp
Ejemplo:
Ejemplo: Predicción
meteorológica
Predicción meteorológica: Predicción meteorológica: En cada diagrama de cajas En cada diagrama de cajas múltiple se muestra para una característica meteorológica, las predicciones con distintos las predicciones con distintos modelos (individuos) en
Box
Box--plotplot múltiplepp múltiplepp
Ejemplo:
Box
Box--plotplot múltiplemúltiple
Ejemplo:
Ejemplo: Concentración de nitratos por uso del suelo y alcantarillado.
p
Diagrama de dispersión (
Diagrama de dispersión (scatterplotscatterplot))
Ilustra sobre cómo es la relación entre dos variables (la forma y la fuerza de la relación) Los datos son pares de medidas para cada
g p (
g p ( pp ))
fuerza de la relación). Los datos son pares de medidas para cada individuo.
Relación lineal
R2 = 0.69
0.3 0.4 d R2 = 0.69 0.3 0.4 d Relación lineal
R 0.69
0.0 0.1 0.2 o n-Inf e rre d o rophyll
R 0.69
0.0 0.1 0.2 o n-Inf e rre d o rophyll -0.3 -0.2 -0.1 h ytoplan kt o Adj.Chl o -0.3 -0.2 -0.1 h ytoplan kt o Adj.Chl o -0.5 -0.4
0 0.5 1 1.5 2 2.5
P
h
-0.5 -0.4
0 0.5 1 1.5 2 2.5
P
h
Diagrama de dispersión (
Diagrama de dispersión (scatterplotscatterplot))
El interés principal se centra en analizar si la relación es lineal o curva, si los datos presentan una estructura de grupos
g p (
g p ( pp ))
, p g p
Diagrama de dispersión (scatterplot) Diagrama de dispersión (scatterplot)
Para más de dos dimensiones:
g p ( p )
g p ( p )
Matriz de diagramas de Matriz de diagramas de
dispersión dispersión Scatterplot
Scatterplot 33--dimensionaldimensional
Datos de calidad de aguas
Matriz de diagramas de dispersión Matriz de diagramas de dispersión
Se construye una cuadrícula con tantas filas y columnas como variables. En la diagonal se da información de cada una de las variables.
En el resto de casillas se construyen los gráficos de dispersión entre
Todos los gráficos de la misma FILA
En el resto de casillas se construyen los gráficos de dispersión entre todos los pares de variables.
Use level Use level
Todos los gráficos de la misma FILA
comparten la misma variable en el
EJE VERTICAL (la que se indique
en l di gon l)
Use level
X
1
X
1Resistance to compre Resistance to compre
en la diagonal)
Todos los gráficos de la misma Resistance to compre
X
2COLUMNA comparten la misma
variable en el EJE HORIZONTAL
(la
que se indique en la diagonal)
2
Apparent density Apparent density
que se indique en la diagonal)
Informa de cómo son las relaciones entre variables, pero sólo dos a dos,
Apparent density
X
3
X
3Matriz de diagramas de dispersión Matriz de diagramas de dispersión
Ejemplo:
Matriz de diagramas de dispersión Matriz de diagramas de dispersión
Ejemplo:
Gráfico de estrellas Gráfico de estrellas
Cada individuo se representa en una estrella, con tantos rayos o ejes como variables queramos representar.
Cada eje representa el valor de la variable re-escalada de manera independiente entre variables. Para re-escalar se utilizan todos los datos. En todas las estrellas se usa siempre el mismo eje para
representar la misma variable.
El eje j en la estrella del individuo El eje j en la estrella del individuo i depende de xij (en valor
absoluto o relativo)
Para facilitar la inspección l
visual que nos permita
distinguir entre individuos, se suelen representar
Composición de aguas basálticas.
p
Gráfico de estrellas Gráfico de estrellas
MEDIAS POR ESPECIES MEDIAS POR ESPECIES
Ejemplo:
Ejemplo: Medidas de cráneos de cocodrilos
Conclusión: Hay cocodrilos grandes y pequeños de todas las especies, así que el tamaño no sirve para distinguir unas especies de otras
así que el tamaño no sirve para distinguir unas especies de otras. Usando todas las medidas de los cráneos a la vez parece que
Gráfico de estrellas Gráfico de estrellas
Ejemplo:
Gráfico de estrellas Gráfico de estrellas
Ejemplo:
Gráfico de caras de
Gráfico de caras de ChernoffChernoff
Es como un gráfico de estrellas, pero cada individuo ahora se representa en una CARA y las variables en los rasgos físicos.
Variables en
Gráfico de caras de
Gráfico de caras de ChernoffChernoff
Ejemplo:
Análisis
Análisis exploratorio de datos
exploratorio de datos multivariantes
multivariantes
Matriz de datos.
Vector de medias y matriz de covarianzas.
Representación gráfica de datos multivariantes.
Distancias estadísticas Distancias estadísticas
p Distancia euclidea Distancias estadísticas Distancias estadísticas
j kj ij k iE
x
x
x
x
d
1 2)
(
)
,
(
Distancia de Manhattan (o city block)
px
x
x
x
d
(
)
Di t i d Mi k ki
j kj ij k iCB
x
x
x
x
d
1
)
,
(
Distancia de Minkowski
r p r kj ij k i
CB
x
x
x
x
d
/ 1)
,
(
Distancia de Mahalanobis
j kj ij k i CB 1
)
(
)
(
)'
(
)
,
(
i k i k 1 i kM
x
x
x
x
S
x
x
Distancias estadísticas Distancias estadísticas Distancias estadísticas Distancias estadísticas
Intuitivamente es la distancia más natural, la línea recta!.
natural, la línea recta!.
Problema de la distancia euclídea: No tiene en cuenta la variabilidad No tiene en cuenta la variabilidad No tiene en cuenta la variabilidad No tiene en cuenta la variabilidad
dE(A,0)=dE (B,0)
Distancias estadísticas Distancias estadísticas
Para resolver este problema podemos estandarizar los datos por
columnas para evitar el efecto de la escala A continuación se calcula
Distancias estadísticas Distancias estadísticas
columnas para evitar el efecto de la escala. A continuación se calcula la distancia euclídea.
p kj ijx
x
x
x
d
2)
(
j j j j k i SEs
x
x
d
1)
,
(
Problema de la distancia euclídea: No tiene en cuenta la correlación No tiene en cuenta la correlación
dE(Astnd,0)
>
>
dE(Bstnd,0)
Distancias estadísticas Distancias estadísticas
Distancia de Mahalanobis
)
(
)
(
)
(
1d
Distancias estadísticas Distancias estadísticas
)
(
)'
(
)
,
(
x
x
x
x
S
1x
x
d
M
Consiste en sustituir la matriz D que sólo tiene información de las varianzas por la matriz S de varianzas-covarianzas
dM(A,0)
>
>
dM(B,0)Geométricamente equivale a girar la nube de puntos hasta eliminar las correlaciones y luego calcular la y g
distancia para los datos estandarizados
La distancia de Mahalanobis es adimensional
Análisis
Análisis exploratorio de datos
exploratorio de datos multivariantes
multivariantes
Matriz de datos.
Vector de medias y matriz de covarianzas.
Representación gráfica de datos multivariantes.
Distancias estadísticas. Distancias estadísticas.
Outliers (datos atípicos) Outliers (datos atípicos) Outliers (datos atípicos) Outliers (datos atípicos)
Los outliers son observaciones con valores muy diferentes del resto de los datos de la muestra.
o Errores de medida o registro.
o Observaciones procedentes de una población diferente de
l d l í d l d
la de la mayoría de los datos
o Un caso raro de una población en la que se pueden dar valores alejados aunque con baja probabilidad.j q j p
Cuando aparecen outliers:
1 Verificar que no se ha cometido ningún error obvio en la 1. Verificar que no se ha cometido ningún error obvio en la
transcripción, en la posición de los decimales, etc.
2. Si es posible, procesar de nuevo la muestra en el laboratorio. 3 Tomar logaritmos o hacer alguna otra transformación que 3. Tomar logaritmos o hacer alguna otra transformación que
simetrice los datos.
4. Utilizar procedimientos resistentes a los outliers (medianas l d di t t d l d t t t t ) en lugar de medias, test de rangos en lugar de test t, etc.) Los outliers no se deben descartar por el sólo hecho de que
Los outliers no se deben descartar por el sólo hecho de que
Los
Los outliersoutliers en la historia del “agujero de la capa de ozono” en la historia del “agujero de la capa de ozono”
Los outliers no se deben descartar por el sólo hecho de que parezcan datos raros.
Los
Los outliersoutliers en la historia del agujero de la capa de ozono en la historia del agujero de la capa de ozono de la Antártida:
de la Antártida:
Durante aproximadamente 10 años antes del
descubrimiento del agujero en 1985 por Farman descubrimiento del agujero en 1985 por Farman, Gardiner y Shanklin a partir de observaciones in situ, los satélites estuvieron registrando los datos d l A tá tid ¿Có¿Có f f ibl ibl
de ozono en la Antártida. ¿Cómo fue posible que ¿Cómo fue posible que no detectaran el agujero?
no detectaran el agujero?
Las concentraciones de ozono registradas por los satélites eran tan bajas que el software los
consideraba como valores extremos “imposibles”, consideraba como valores extremos imposibles , ¡¡¡y los descartaba!!!. Así, todos estos datos
inusuales no fueron vistos ni estudiados por los científicos mientras el agujero seguía creciendo
Si se eliminan los outliers, el riesgo al que nos enfrentamos es
Detección de errores en los datos Detección de errores en los datos Detección de errores en los datos Detección de errores en los datos
Examinar los estadísticos de resumen (n, media, min, max, etc ) y comprobar que no hay nada “irregular”
etc.) y comprobar que no hay nada irregular .
¿Dónde están los datos?
¿Es un valor poco realista?
Detección de outliers Detección de outliers
En datos
En datos univariantesunivariantes: : Se asume que
Detección de outliers Detección de outliers
En datos
En datos univariantesunivariantes: : Se asume que
los datos vienen de una normal y, para comprobar si un dato es outlier se calcula su valor tipificado
se calcula su valor tipificado
eliminándolo del cálculo de la media y la desviación típica. El dato será un
d d l b -2 Dato tipificado 2
candidato a outlier si obtenemos un valor fuera del rango [-2,2].
Dato tipificado
En datos
En datos multivariantesmultivariantes: Los outliers
pueden ser por una combinación inusual de los valores de varias inusual de los valores de varias