• No se han encontrado resultados

4.5 Análisis exploratorio de datos (1)

N/A
N/A
Protected

Academic year: 2020

Share "4.5 Análisis exploratorio de datos (1)"

Copied!
48
0
0

Texto completo

(1)

TEMA 1:

TEMA 1:

TEMA 1:

TEMA 1:

ANALISIS EXPLORATORIO DE

ANALISIS EXPLORATORIO DE

DATOS MULTIVARIANTES

DATOS MULTIVARIANTES

Resúmenes numéricos

Resúmenes numéricos

DATOS MULTIVARIANTES

DATOS MULTIVARIANTES

Resúmenes numéricos

Resúmenes numéricos

Gráficos

Gráficos multivariantes

multivariantes

Distancias estadísticas

Distancias estadísticas

Distancias estadísticas

Distancias estadísticas

Outliers

(2)

Análisis

Análisis exploratorio de datos

exploratorio de datos multivariantes

multivariantes

Matriz de datos.

Vector de medias y matriz de covarianzas.

Representación gráfica de datos multivariantes.

Distancias estadísticas Distancias estadísticas

(3)

Univariantes

i d d

i d d

Multivariantes Bivariantes Multivariantes Tipo de datos

Tipo de datos

Dicotómicos o binarios Cualitativos o

categóricos Politómicos

Dicotómicos o binarios Nominales Ordinales o Tipo de datos

Tipo de datos

Politómicos Ordinales o

semicuantitativos

Discretos o discontinuos Cuantitativos

(4)

Resúmenes núméricos de los datos Resúmenes núméricos de los datos

Para datos categóricos o discretos: Para datos categóricos o discretos:

Resúmenes núméricos de los datos Resúmenes núméricos de los datos

Para datos categóricos o discretos: Para datos categóricos o discretos:

Tabla de frecuencias

Para datos cuantitativos Para datos cuantitativos::

Medidas de posición media, mediana, moda, media recortada

ó í

Medidas de dispersión varianza, desviación típica, rango, rango intercuartílico, MEDA

Medidas de forma Coeficiente de asimetríaCoeficiente de curtosis o apuntamiento

(5)

Resumenes gráficos de los datos. Resumenes gráficos de los datos.

Para datos

Para datos univariantesunivariantes::

Resumenes gráficos de los datos. Resumenes gráficos de los datos.

0 50 100 150 200 250

Diagrama de barras Diagrama de sectores Mapas estadísticos

Datos categóricos o discretos

Greatly A lot Something Little Nothing

p Serie temporal Histograma 120,00 130,56 g Gráficos probabilísticos Barras de error

Box-plot Datos cuantitativos 40,00 60,00 80,00 100,00 36364 538,46 1351,35

Di d b últi l

Box plot Para datos

Para datos multivariantesmultivariantes::

Datos categóricos o discretos

clorofila 0,00 20,00 110,51 126,67 363,64

Casos ponderados por nºcelulas

Diagrama de barras múltiple

Box-plot múltiple

Datos categóricos o discretos

Diagrama de dispersión

Matriz de diagramas de dispersión Gráficos de estrellas y caras

Datos cuantitativos

(6)

MATRIZ DE DATOS

MATRIZ DE DATOS

Los DATOSDATOS consisten en observaciones de nn individuos individuos en los que se miden pp características o variablescaracterísticas o variables, las mismas en todos. Los datos se disponen ordenadamente en la MATRIZ DE MATRIZ DE DATOS DATOS

X

(nxp)

Variables en columnas

In

Variables en columnas

x

11

x

12

x

1

p

n dividuo s

x

x

x

p

X

2

22

21

s en fila

s





X

s

x

n

1

x

n

2

x

np

(7)

Cuestiones importantes sobre la organización de los datos: Cuestiones importantes sobre la organización de los datos:

El formato debe ser compatible con los requerimientos del

p g

p g

El formato debe ser compatible con los requerimientos del software que se vaya a usar para el análisis.

EXCEL admite casi cualquier organización posible El problema EXCEL admite casi cualquier organización posible. El problema está en cómo analizamos los datos con EXCEL!

El “Editor de Datos del SPSS” almacena los datos en una El Editor de Datos del SPSS almacena los datos en una

matriz que siempre tiene las variables en las columnas. Cada fila contiene la información completa disponible sobre un

individuo individuo.

Cuando hay datos faltantes (“missing data”): Se interpola el valor faltante.

(8)

Ejemplo:

Ejemplo: Medidas de cráneos de cocodrilos (alligator.txt)

Valores de 11 medidas físicas en un ejemplar de cada especie:

La matriz de datos es 44x11

(9)

Ejemplo:

Ejemplo: Calidad del aire en la ciudad de Madrid

Para establecer un “Ranking“Ranking dede calidadcalidad deldel aire”aire” por distritos en la ciudad de Madrid disponemos de la información registrada en 19 estaciones de medición atmosférica, que proporcionan datos de C0, SO2, NOX, P10 y O3.

12-5-09 9:00 CO

(mg/m3) SO2 (µg/m3) NOX (µg/m3) P10 (µg/m3) O3 (µg/m3)

(10)

Ejemplo:

Ejemplo: Lirios (iris.txt)

En 1936, el biólogo y estadístico Sir R.A. Fisher, recopila los datos de 150 lirios para cuantificar la variación geografica de estas flores

l P í l d G é C d en la Península de Gaspé, Canada.

La muestra contiene 50 lirios de cada una de las t es especies i is setosasetosa i is e sicoloe sicolo e las tres especies: iris setosasetosa, iris versicolorversicolor e iris virginicavirginica. Para cada flor se mire el anco y el largo del pétalo y el sépalo, en

í

centrímetros.

(11)

Análisis

Análisis exploratorio de datos

exploratorio de datos multivariantes

multivariantes

Matriz de datos.

(12)

Resumen numérico de datos

Resumen numérico de datos multivariantesmultivariantes: : PosiciónPosición

VECTOR DE MEDIAS MUESTRAL: VECTOR DE MEDIAS MUESTRAL:

x

x

x

X

2 1

es la media muestral de la variable X :

j

x

p

x

X

de la variable Xj:

n i ij j

x

n

x

1

1

p

n

i1

Es un vector de dimensión p x 1.

El vector de medias muestral es el centro de la nube de puntos en dimensión p

Media de la variable x2

dimensión p.

(13)

Resumen numérico de datos

Resumen numérico de datos multivariantesmultivariantes: : Dispersión y formaDispersión y forma

MATRIZ DE COVARIANZAS: MATRIZ DE COVARIANZAS:

p

s

s

s

s

s

s

1 12 11

es la varianza muestral de la variable X :

jj

s

s

s

s

p

S

2 22

21 de la variable Xj:

n i j ij j

jj

x

x

n

s

s

1 2 2

)

(

1

s

p1

s

p2

s

pp

es la covarianza muestral

jk

s

S contiene las varianzasvarianzas en la

es la covarianza muestral entre las variables Xj y Xk:

n ij j ik k

jk

x

x

x

x

s

1

(

)(

)

jk

S contiene las varianzasvarianzas en la diagonal y todas las covarianzascovarianzas en el resto de los elementos (medidas de asociación lineal

i k ik j ij jk

n

1

(

)(

)

(medidas de asociación lineal entre dos variables).

(14)

Resumen numérico de datos

Resumen numérico de datos multivariantesmultivariantes: : Dispersión y formaDispersión y forma

La covarianza depende de las unidades de medida. Para medir el grado de asociación lineal entre dos variables es más habitual grado de asociación lineal entre dos variables, es más habitual usar el coeficiente de correlación de Pearson y la MATRIZ DE

CORRELACIONES

R

:

1

1

r

12

r

1p

21

1

2

r

p

r

R

es la correlación muestral

jk

r

r

p1

r

p2

1

es la correlación muestral entre las variables Xj y Xk:

jk jk

s

r

jk k j j

s

s

El coeficiente de correlación no depende de las unidades de medida El coeficiente de correlación no depende de las unidades de medida. Toma valores entre -1 y 1.

(15)

Resumen numérico de datos

Resumen numérico de datos multivariantesmultivariantes: : Dispersión y formaDispersión y forma

Ejemplo:

Ejemplo: Ocho conjuntos de datos con coeficiente de correlación

r = 0.70 (Chambers et al., 1983).( , )

A

A BB CC DD

E

(16)

Ejemplo

Ejemplo: : Lirios

(17)

Ejemplo:

Ejemplo: Salida de SPSS para descriptivos multivariantes Ejemplo:

(18)

Ejemplo:

(19)

Análisis

Análisis exploratorio de datos

exploratorio de datos multivariantes

multivariantes

Matriz de datos.

Vector de medias y matriz de covarianzas.

Representación gráfica de datos multivariantes.

Herramientas gráficas que nos ayudan a estudiar las

Herramientas gráficas que nos ayudan a estudiar las

relaciones entre variables (forma, fuerza, etc.), a

(20)

Resumen gráfico de DATOS UNIVARIANTES Resumen gráfico de DATOS UNIVARIANTES

Barras de error Barras de error

Resumen gráfico de DATOS UNIVARIANTES Resumen gráfico de DATOS UNIVARIANTES

Media + 2 desviaciones

Media + 2 desviaciones típicastípicas

oo

+ 2 tí i ( /√ )

+ 2 tí i ( /√ )

+ 2 errores típicos (s/√n) + 2 errores típicos (s/√n)

Media

Media

95% de los datos

95% de los datos

Media

Media -- 2 desviaciones 2 desviaciones típicastípicas

oo

-- 2 errores típicos (s/2 errores típicos (s/√√n)n)

•• La desviación típica es muy sensible a los datos atípicosLa desviación típica es muy sensible a los datos atípicos •• Siempre es un gráfico simétricoSiempre es un gráfico simétrico

(21)

Resumen gráfico de DATOS UNIVARIANTES Resumen gráfico de DATOS UNIVARIANTES

Diagrama de cajas o

Diagrama de cajas o BoxplotBoxplot

Resumen gráfico de DATOS UNIVARIANTES Resumen gráfico de DATOS UNIVARIANTES

1. Ordenar la muestra

2. Calcular la mediana, el primer y el tercer cuartil primer y el tercer cuartil

3. Calcular el rango intercuartílico

(22)

Resumen gráfico de DATOS UNIVARIANTES Resumen gráfico de DATOS UNIVARIANTES

¿ Box

¿ Box--plot o barra de error ?plot o barra de error ?

UTILIZACIÓN DEL FITOPLACTON COMO INDICADOR BIOLÓGICO PARA LA EVALUACIÓN UTILIZACIÓN DEL FITOPLACTON COMO INDICADOR BIOLÓGICO PARA LA EVALUACIÓN

Resumen gráfico de DATOS UNIVARIANTES Resumen gráfico de DATOS UNIVARIANTES

UTILIZACIÓN DEL FITOPLACTON COMO INDICADOR BIOLÓGICO PARA LA EVALUACIÓN UTILIZACIÓN DEL FITOPLACTON COMO INDICADOR BIOLÓGICO PARA LA EVALUACIÓN

DE LA EUTROFIZACIÓN EN LOS EMBALSES ESPAÑOLES DE LA EUTROFIZACIÓN EN LOS EMBALSES ESPAÑOLES

C. NUÑO, C. DE HOYOS, A. JUSTEL

12,50

Óptimos y rangos de tolerancia de especies fitoplactónicas

5,00 7,50 10,00

En la mayor parte de los casos la barra de error y el box-plot dan

el mismo resultado

clorofila 0,00 2,50

Casos ponderados por nºcelulas

100,00 120,00

1351,35 130,56

Algunas especies no son id d i di d

40,00 60,00 80,00 12667 363,64 538,46 consideradas indicadoras debido al amplio rango de tolerancia (barra de error)

Si utilizamos la mediana y el

clorofila 0,00

20,00

110,51 126,67

Casos ponderados por nºcelulas

Si utilizamos la mediana y el rango intercuartílico pasan a

(23)

Box

Box--plotplot múltiplemúltiple

Se usa para comparar:

bl d f

p

p pp

Una variable en grupos diferentes.

Varias variables solo cuando las unidades de medida son “compatibles”

Ejemplo:

Ejemplo: Impacto humano en los suelos antárticos (Tejedo et al. 2005)

son compatibles .

j p

(24)

Box

Box--plotplot múltiplepp múltiplepp

Ejemplo:

Ejemplo: Predicción

meteorológica

Predicción meteorológica: Predicción meteorológica: En cada diagrama de cajas En cada diagrama de cajas múltiple se muestra para una característica meteorológica, las predicciones con distintos las predicciones con distintos modelos (individuos) en

(25)

Box

Box--plotplot múltiplepp múltiplepp

Ejemplo:

(26)

Box

Box--plotplot múltiplemúltiple

Ejemplo:

Ejemplo: Concentración de nitratos por uso del suelo y alcantarillado.

p

(27)

Diagrama de dispersión (

Diagrama de dispersión (scatterplotscatterplot))

Ilustra sobre cómo es la relación entre dos variables (la forma y la fuerza de la relación) Los datos son pares de medidas para cada

g p (

g p ( pp ))

fuerza de la relación). Los datos son pares de medidas para cada individuo.

Relación lineal

R2 = 0.69

0.3 0.4 d R2 = 0.69 0.3 0.4 d Relación lineal

R 0.69

0.0 0.1 0.2 o n-Inf e rre d o rophyll

R 0.69

0.0 0.1 0.2 o n-Inf e rre d o rophyll -0.3 -0.2 -0.1 h ytoplan kt o Adj.Chl o -0.3 -0.2 -0.1 h ytoplan kt o Adj.Chl o -0.5 -0.4

0 0.5 1 1.5 2 2.5

P

h

-0.5 -0.4

0 0.5 1 1.5 2 2.5

P

h

(28)

Diagrama de dispersión (

Diagrama de dispersión (scatterplotscatterplot))

El interés principal se centra en analizar si la relación es lineal o curva, si los datos presentan una estructura de grupos

g p (

g p ( pp ))

, p g p

(29)

Diagrama de dispersión (scatterplot) Diagrama de dispersión (scatterplot)

Para más de dos dimensiones:

g p ( p )

g p ( p )

Matriz de diagramas de Matriz de diagramas de

dispersión dispersión Scatterplot

Scatterplot 33--dimensionaldimensional

Datos de calidad de aguas

(30)

Matriz de diagramas de dispersión Matriz de diagramas de dispersión

Se construye una cuadrícula con tantas filas y columnas como variables. En la diagonal se da información de cada una de las variables.

En el resto de casillas se construyen los gráficos de dispersión entre

Todos los gráficos de la misma FILA

En el resto de casillas se construyen los gráficos de dispersión entre todos los pares de variables.

Use level Use level

Todos los gráficos de la misma FILA

comparten la misma variable en el

EJE VERTICAL (la que se indique

en l di gon l)

Use level

X

1

X

1

Resistance to compre Resistance to compre

en la diagonal)

Todos los gráficos de la misma Resistance to compre

X

2

COLUMNA comparten la misma

variable en el EJE HORIZONTAL

(la

que se indique en la diagonal)

2

Apparent density Apparent density

que se indique en la diagonal)

Informa de cómo son las relaciones entre variables, pero sólo dos a dos,

Apparent density

X

3

X

3

(31)

Matriz de diagramas de dispersión Matriz de diagramas de dispersión

Ejemplo:

(32)

Matriz de diagramas de dispersión Matriz de diagramas de dispersión

Ejemplo:

(33)

Gráfico de estrellas Gráfico de estrellas

Cada individuo se representa en una estrella, con tantos rayos o ejes como variables queramos representar.

Cada eje representa el valor de la variable re-escalada de manera independiente entre variables. Para re-escalar se utilizan todos los datos. En todas las estrellas se usa siempre el mismo eje para

representar la misma variable.

El eje j en la estrella del individuo El eje j en la estrella del individuo i depende de xij (en valor

absoluto o relativo)

Para facilitar la inspección l

visual que nos permita

distinguir entre individuos, se suelen representar

Composición de aguas basálticas.

p

(34)

Gráfico de estrellas Gráfico de estrellas

MEDIAS POR ESPECIES MEDIAS POR ESPECIES

Ejemplo:

Ejemplo: Medidas de cráneos de cocodrilos

Conclusión: Hay cocodrilos grandes y pequeños de todas las especies, así que el tamaño no sirve para distinguir unas especies de otras

así que el tamaño no sirve para distinguir unas especies de otras. Usando todas las medidas de los cráneos a la vez parece que

(35)

Gráfico de estrellas Gráfico de estrellas

Ejemplo:

(36)

Gráfico de estrellas Gráfico de estrellas

Ejemplo:

(37)

Gráfico de caras de

Gráfico de caras de ChernoffChernoff

Es como un gráfico de estrellas, pero cada individuo ahora se representa en una CARA y las variables en los rasgos físicos.

Variables en

(38)

Gráfico de caras de

Gráfico de caras de ChernoffChernoff

Ejemplo:

(39)

Análisis

Análisis exploratorio de datos

exploratorio de datos multivariantes

multivariantes

Matriz de datos.

Vector de medias y matriz de covarianzas.

Representación gráfica de datos multivariantes.

(40)

Distancias estadísticas Distancias estadísticas

p Distancia euclidea Distancias estadísticas Distancias estadísticas

j kj ij k i

E

x

x

x

x

d

1 2

)

(

)

,

(

Distancia de Manhattan (o city block)

p

x

x

x

x

d

(

)

Di t i d Mi k ki

j kj ij k i

CB

x

x

x

x

d

1

)

,

(

Distancia de Minkowski

r p r kj ij k i

CB

x

x

x

x

d

/ 1

)

,

(





Distancia de Mahalanobis

j kj ij k i CB 1

)

(

)

(

)'

(

)

,

(

i k i k 1 i k

M

x

x

x

x

S

x

x

(41)

Distancias estadísticas Distancias estadísticas Distancias estadísticas Distancias estadísticas

Intuitivamente es la distancia más natural, la línea recta!.

natural, la línea recta!.

Problema de la distancia euclídea: No tiene en cuenta la variabilidad No tiene en cuenta la variabilidad No tiene en cuenta la variabilidad No tiene en cuenta la variabilidad

dE(A,0)=dE (B,0)

(42)

Distancias estadísticas Distancias estadísticas

Para resolver este problema podemos estandarizar los datos por

columnas para evitar el efecto de la escala A continuación se calcula

Distancias estadísticas Distancias estadísticas

columnas para evitar el efecto de la escala. A continuación se calcula la distancia euclídea.

p kj ij

x

x

x

x

d

2

)

(

j j j j k i SE

s

x

x

d

1

)

,

(

Problema de la distancia euclídea: No tiene en cuenta la correlación No tiene en cuenta la correlación

dE(Astnd,0)

>

>

d

E(Bstnd,0)

(43)

Distancias estadísticas Distancias estadísticas

Distancia de Mahalanobis

)

(

)

(

)

(

1

d

Distancias estadísticas Distancias estadísticas

)

(

)'

(

)

,

(

x

x

x

x

S

1

x

x

d

M

Consiste en sustituir la matriz D que sólo tiene información de las varianzas por la matriz S de varianzas-covarianzas

dM(A,0)

>

>

dM(B,0)

Geométricamente equivale a girar la nube de puntos hasta eliminar las correlaciones y luego calcular la y g

distancia para los datos estandarizados

La distancia de Mahalanobis es adimensional

(44)

Análisis

Análisis exploratorio de datos

exploratorio de datos multivariantes

multivariantes

Matriz de datos.

Vector de medias y matriz de covarianzas.

Representación gráfica de datos multivariantes.

Distancias estadísticas. Distancias estadísticas.

(45)

Outliers (datos atípicos) Outliers (datos atípicos) Outliers (datos atípicos) Outliers (datos atípicos)

Los outliers son observaciones con valores muy diferentes del resto de los datos de la muestra.

o Errores de medida o registro.

o Observaciones procedentes de una población diferente de

l d l í d l d

la de la mayoría de los datos

o Un caso raro de una población en la que se pueden dar valores alejados aunque con baja probabilidad.j q j p

Cuando aparecen outliers:

1 Verificar que no se ha cometido ningún error obvio en la 1. Verificar que no se ha cometido ningún error obvio en la

transcripción, en la posición de los decimales, etc.

2. Si es posible, procesar de nuevo la muestra en el laboratorio. 3 Tomar logaritmos o hacer alguna otra transformación que 3. Tomar logaritmos o hacer alguna otra transformación que

simetrice los datos.

4. Utilizar procedimientos resistentes a los outliers (medianas l d di t t d l d t t t t ) en lugar de medias, test de rangos en lugar de test t, etc.) Los outliers no se deben descartar por el sólo hecho de que

(46)

Los outliers no se deben descartar por el sólo hecho de que

Los

Los outliersoutliers en la historia del “agujero de la capa de ozono” en la historia del “agujero de la capa de ozono”

Los outliers no se deben descartar por el sólo hecho de que parezcan datos raros.

Los

Los outliersoutliers en la historia del agujero de la capa de ozono en la historia del agujero de la capa de ozono de la Antártida:

de la Antártida:

Durante aproximadamente 10 años antes del

descubrimiento del agujero en 1985 por Farman descubrimiento del agujero en 1985 por Farman, Gardiner y Shanklin a partir de observaciones in situ, los satélites estuvieron registrando los datos d l A tá tid ¿Có¿Có f f ibl ibl

de ozono en la Antártida. ¿Cómo fue posible que ¿Cómo fue posible que no detectaran el agujero?

no detectaran el agujero?

Las concentraciones de ozono registradas por los satélites eran tan bajas que el software los

consideraba como valores extremos “imposibles”, consideraba como valores extremos imposibles , ¡¡¡y los descartaba!!!. Así, todos estos datos

inusuales no fueron vistos ni estudiados por los científicos mientras el agujero seguía creciendo

Si se eliminan los outliers, el riesgo al que nos enfrentamos es

(47)

Detección de errores en los datos Detección de errores en los datos Detección de errores en los datos Detección de errores en los datos

Examinar los estadísticos de resumen (n, media, min, max, etc ) y comprobar que no hay nada “irregular”

etc.) y comprobar que no hay nada irregular .

¿Dónde están los datos?

¿Es un valor poco realista?

(48)

Detección de outliers Detección de outliers

En datos

En datos univariantesunivariantes: : Se asume que

Detección de outliers Detección de outliers

En datos

En datos univariantesunivariantes: : Se asume que

los datos vienen de una normal y, para comprobar si un dato es outlier se calcula su valor tipificado

se calcula su valor tipificado

eliminándolo del cálculo de la media y la desviación típica. El dato será un

d d l b -2 Dato tipificado 2

candidato a outlier si obtenemos un valor fuera del rango [-2,2].

Dato tipificado

En datos

En datos multivariantesmultivariantes: Los outliers

pueden ser por una combinación inusual de los valores de varias inusual de los valores de varias

Referencias

Documento similar

If certification of devices under the MDR has not been finalised before expiry of the Directive’s certificate, and where the device does not present an unacceptable risk to health

In addition to the requirements set out in Chapter VII MDR, also other MDR requirements should apply to ‘legacy devices’, provided that those requirements

The notified body that issued the AIMDD or MDD certificate may confirm in writing (after having reviewed manufacturer’s description of the (proposed) change) that the

Entre nosotros anda un escritor de cosas de filología, paisano de Costa, que no deja de tener ingenio y garbo; pero cuyas obras tienen de todo menos de ciencia, y aun

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

Package Item (Container) Type : Vial (100000073563) Quantity Operator: equal to (100000000049) Package Item (Container) Quantity : 1 Material : Glass type I (200000003204)