Análisis Estadístico de Datos Climáticos

(1)

Análisis Estadístico

de

Datos Climáticos

Análisis Estadístico

de

Datos Climáticos

Facultad de Ciencias – Facultad de Ingeniería 2011

M. Bidegain – A. Díaz

Revisión de probabilidad y aplicaciones

Análisis exploratorio de datos

(2)

Revisión de conceptos sobre

probabilidad

• Utilizamos

las

probabilidades

para

cuantificar la incertidumbre

• Eventos o sucesos, espacio muestral

Ω

_,

partición de

Ω

B

Ω

A C Diagramas de Venn

(3)

Axiomas de probabilidad

1) P(A)

≥

_{0 si A}

є Ω

2) P(

Ω

_{) = 1}

3) Si A

₁

, A

₂

,….A

_n

son disjuntos dos a dos,

(4)

Interpretaciones de la probabilidad

Ley de los grandes números

(Ley “débil”)

• Interpretación “bayesiana” (subjetiva)

Es el fundamento para

estimar

probabilidades

a partir de las frecuencias.

Frecuencia: “Casos favorables” / “Casos posibles”

• Interpretación “frecuencista”

Establece que la razón del número de ocurrencias de un evento (E) respecto al número de oportunidades de ocurrir converge a la probabilidad de Pr(E) cuando el número de oportunidades se incrementa (a es el numero de ocurrencias, n es el número de oportunidades).

(5)

Algunas propiedades:

0 ≤

_P(A)

≤

₁

P(B)

P(A)

B

A

Si

⊆

⇒

≤

P(A)

1 )

P(A

c

=

−

P(A

U

B) = P(A) + P(B) – P(A

∩

B)

c significa complemento

U significa unión

(6)

Probabilidad condicional

A ∩ B

Es la probabilidad de que ocurra un suceso A, dada la ocurrencia de otro suceso B, de probabilidad no nula.

Def: P(A | B) = P (A ∩ B) / P(B) con P(B)≠ ₀ Ω

Es un concepto especialmente importante porque en el clima hay muchas variables interaccionando.

(7)

Ejemplos

1) P(llueva mañana | hoy llovió)

3) P(ocurra un evento meteorológico | fue

pronosticado)

2) P(TSM promedio en el Pacífico ecuatorial

sea > 27,5 ºC mañana | hoy es > 28 ºC)

4) P(en Uruguay llueva por encima de “lo

normal” en noviembre

|

en setiembre

la TSM en el Pacífico ecuatorial está 1ºC

por encima del promedio)

(8)

No confundir relaciones estadísticas con

relaciones causa-efecto!!

(9)

DATOS ESTACIÓN METEOROLÓGICA CARRASCO Humedad Relativa y Precipitación

Diciembre 1997 0 65 16 0 63 31 7.11 72 15 1.02 73 30 27.94 82 14 0 81 29 8.89 97 13 0 67 28 0 98 12 29.97 77 27 2.03 89 11 5.08 94 26 3.05 91 10 0 80 25 0 81 9 0 81 24 0 65 8 84.07 88 23 23.11 85 7 13.97 89 22 0 67 6 0 74 21 0 70 5 0 86 20 0 52 4 0 92 19 23.88 61 3 0 75 18 0 54 2 0 70 17 0 71 1 PP (mm) HR (%) DIA PP (mm) HR (%) DIA

(10)

Estimar:

a) P( PP > 1 mm.)

b) P( PP > 1 mm. mañana | PP > 1 mm. hoy)

c) P(HR > 75%)

d) P( PP > 1 mm. | HR > 75 %)

e) P( PP > 1 mm. | HR <= 75 %)

(11)

Independencia

• Concepto: Dos sucesos E

₁

y E

₂

son

independientes si la ocurrencia de uno no

afecta la ocurrencia del otro.

Independencia

↔

_P(E

1

∩

E

2

) = P(E

1

).P(E

2

)

o P(E

₁

|E

₂

)=P(E

₁

), o P(E

₂

|E

₁

)=P(E

₂

)

Ej: 1) fenómenos naturales

2) pronósticos

(12)

Aplicación:

Persistencia (o “memoria”)

• Es la existencia de dependencia estadística

positiva entre valores sucesivos de una misma

variable.

• La persistencia se da en diferentes escalas,

dependiendo del fenómeno que se trate.

Ejemplo: TSM y presión atmosférica.

• Está asociada a la probabilidad condicional, y

tiene consecuencias estadísticas.

(13)

Ley de probabilidad total

Ω

A Si los eventos E_iforman una partición de Ω:

A ∩ _E

(14)

Teorema de Bayes

Ω

A

Sirve para “invertir” probabilidades condicionales. Esto es si conocemos Pr(E1/E2) el teorema de Bayes puede se usado para estimar Pr (E2/E1). Combinamos entonces información previa con información nueva.

(15)

Ejercicio:

Estimar

P(HR>75 % | PP> 1 mm),

usando Bayes y los resultados

anteriores.

(16)

Datos univariados

(17)

Datos climáticos

• Observaciones (datos medidos; datos

interpolados)

• Salidas de modelos numéricos:

Simulaciones o pronósticos

(posibilidad de variar condiciones

iniciales o de borde)

(18)

• Robustez y resistencia

• Cuantiles (percentiles)

• Medidas numéricas de resumen

• Técnicas gráficas de resumen

(19)

Robustez y resistencia

Es deseable que un método de análisis de datos sea poco

sensible a suposiciones sobre la naturaleza de los datos.

P. ej., que los resultados no dependan esencialmente de que los datos sigan una distribución normal o gaussiana.

Un método es robusto cuando sus resultados no dependen esencialmente de cuál sea la distribución de los datos.

Un método es resistente si no es influido considerablemente por unos pocos datos atípicos (“outliers”)

(20)

Ejemplo:

dados los conjuntos

{11 12 13 14 15 16 17 18 19}

y

{11 12 13 14 15 16 17 18 91}

Distintas medidas de “tendencia central”:

En ambos casos, el valor central es 15, pero

los promedios son 15 y 23 respectivamente.

(21)

Estadísticos de orden de una muestra

aleatoria

Sea

{ x

₁

, x

₂

, ..., x

_n

}

una muestra aleatoria de datos

Se ordenan en forma ascendente:

{ x₍₁₎, x₍₂₎ , ..., x_(n) } son los estadísticos de orden ( cumpliéndose que x₍₁₎≤ x₍₂₎ ≤ …≤ x_(n) )

Ej: {7 -2 1 7 -3 4 0}

(22)

Cuantiles de una muestra aleatoria

(percentiles)

Ej.: 1) Sea la muestra aleatoria {7 -2 2 7 -3 4 0} ¿Cómo podemos estimar un valor central que, en sentido amplio, deje probabilidad ½ a ambos lados?

⇒ {-3 -2 0 2 4 7 7}

Parece natural tomar un valor que deje la misma cantidad de datos a cada lado, en este caso el 2:

{-3 -2 0 2 4 7 7}. Se dice que la mediana de la muestra es 2.

(23)

Cuantiles…

Ej. 2) Sea ahora la muestra {7 1 7 -3 4 0} ¿Cuál será la mediana?

⇒ {-3 0 1 4 7 7}

Convencionalmente_{, se suele tomar el promedio entre los dos valores}

centrales, o sea (1 + 4) /2 = 2.5.

Pero, si no se tiene más información, podría elegirse cualquier valor en ese intervalo (1,4)

(24)

Generalizando, sea p tal que 0 < p < 1.

Los

p-quantiles

(q

_p

) ( o percentiles) son valores

que dejan,en cierto sentido, probabilidad p a su

izquierda, y probabilidad 1-p a su derecha.

• • •

• •

•

p

•

1- p q_p P(X ≤ q_p) = p P(X ≥ q_p) = 1 - p

(25)

Estimación de los cuantiles

En general, los percentiles no son únicos y por lo tanto, no hay una única forma de estimarlos.

Una forma posible para una muestra aleatoria de tamaño n es:

1)tomar los estadísticos de orden como los cuantiles (0.5/n), (1.5/n), ..., ([n-0.5]/n) respectivamente

2) para los cuantiles con probabilidades entre (0.5/n) y ([n-0.5]/n), se interpola linealmente.

3) los valores mínimo o máximo de la muestra se asignan a los cuantiles para probabilidades fuera de ese rango.

(26)

Principales medidas numéricas de resumen

de un conjunto de datos

1) Localización: ej. valor de “tendencia central” del conjunto

2) Dispersión: alrededor del valor central

3) Simetría: cómo están distribuidos los datos respecto del valor central

(27)

Localización

Media

Mediana

q

0.50

N

x

N 1 i i _

∑

=

La mediana “divide el conjunto de datos en

dos subconjuntos ordenados con igual

cantidad de datos” .

Importante: la mediana permite trabajar

con estimaciones de probabilidades

Ambas están comprendidas entre el mínimo y el máximo de la muestra.

(28)

Ejemplo: (con muy pocos datos!!)

2 4

9 11 14

2 4

9 11 7004

8 x

_

=

1406

x

_

=

(outlier) ??

Localización

La media no es robusta ni resistente

(29)

Los cuantiles más

usados…

• Mediana q

_0.5

• Cuartiles, q

_{0.25 ,}

q

_0.75

• Terciles, q

_0.33

, q

_0.66

• Quintiles, deciles,

• q

_0.05

q

_0.95

Localización

4444 2222 0 . 7 5 0 . 7 5 0 . 7 5 0 . 7 5 0 . 5 0 . 5 0 . 5 0 . 5 0 . 2 5 0 . 2 5 0 . 2 5 0 . 2 5 qqqq qqqq qqqq

T

r

i

m

e

d

i

a

T

r

i

m

e

d

i

a

T

r

i

m

e

d

i

a

T

r

i

m

e

d

i

a

+ +

=

(30)

Robustez vs. Eficiencia

¿Por qué se usa más la media que la mediana?

Porque en el caso (“muy frecuente”) de una

distribución gaussiana es un estimador más

eficiente

que la mediana:

es decir que tiene menos dispersión alrededor del

valor a estimar,

o de otra forma, con menos valores (una muestra

más pequeña) se obtiene la misma dispersión.

Además, la media es más fácil de tratar

matemáticamente, y es única para una muestra

dada.

(31)

Matlab

median

mediana

prctile

percentil

quantile

cuantil

mean

media

Comando

Variable

(32)

Dispersión

• Intervalo intercuartil

IQR = q

_0.75

- q

_0.25

(Robusto y resistente)

“No usa” el 25% superior e inferior de los datos

(33)

Dispersión

• Desviación estándar muestral

σ

)

x

(x

1 N

1 s

N 1 i 2 _ i

−

≈

−

=

∑

= (σ2 = varianza de la población)

(Ni robusta ni resistente)

• Desviación absoluta de la mediana

(34)

Simetría

Coeficiente de asimetría

de la muestra

Ambos son adimensionados

γ < 0 γ > 0

(35)

Técnicas gráficas de resumen

• Boxplots

• Histogramas

(36)

(37)

0 10 20 30 40 50 60 70 80 90 100 110 120 130

.

. .

.

Min = 3.20

q

_0.25

= 43.645

q

_0.50

= 60.345

q

_0.75

= 84.96

Max = 124.27

Boxplots (“barritas”)

(38)

Temperatura diaria máxima en Melbourne

(39)

Histogramas

Además

de

la

localización,

la

dispersión, y la simetría, también

muestran

si

los

datos

son

(40)

Histogramas

Precipitación Rivera agosto 1914-1997

0 50 100 150 200 250 300 0 5 10 15 20 25 mm N o . d e o c u rr e n c ia s

Precipitación Rivera agosto 1914-1997

mediana=78.5 mm media = 97.9 mm

(41)

Histogramas

Precipitación Rivera abril 1914-1997

mediana=110.5 mm media = 141.7 mm

(42)

(43)

Distribuciones empíricas de frecuencia acumulada Interesa P (X ≤ x), probabilidad de no excedencia Mediana ~ 110.5 mm P(X≤110.5) ~ 0.5 110.5 mm

P. ej. se puede estimar así: P(X ≤ x_(i) )= (i - ½) / n

(44)

(45)

Matlab

ecdf Distr. de frecuencia acumulada hist histograma mad Desv. abs. de la mediana iqr Intervalo intercuartil std var Desviación estándar, varianza Comando “Variable”