ESTADISTICA ESPACIAL. Martha Patricia Bohorquez Castañeda

(1)

Martha Patricia Bohorquez Casta˜neda

Universidad Nacional de Colombia

Departamento de Estad´ıstica

(2)

TABLA DE CONTENIDO

1 Introducci´

on a la estad´ıstica espacial

1

2 Geoestad´ıstica

9

2.1 Supuesto de Estacionariedad . . . 9

2.1.1 Estacionariedad fuerte . . . 9

2.1.2 Estacionariedad de segundo orden . . . 10

2.1.3 Estacionariedad intr´ınseca . . . 11

2.1.4 Isotrop´ıa . . . 12

2.1.5 Elementos del semivariograma . . . 12

2.2 Semivariograma . . . 15

2.3 M´etodos de estimaci´on mas usados . . . 18

2.4 Ilustraci´on m´etodo de maxima verosimilitud . . . 23

2.5 kriging . . . 25

(3)

2.6.1 Generalidades sobre el kriging . . . 27

2.6.2 Introducci´on a la teor´ıa del kriging . . . 28

2.6.3 Kriging ordinario . . . 30

2.6.4 Kriging Simple . . . 32

2.6.5 El enfoque robusto . . . 34

2.6.6 El enfoque bayesiano . . . 37

3 Modelos de regresi´

on espaciales

43 3.1 Efectos espaciales . . . 43

3.2 Matrices de Pesos Espaciales . . . 44

3.3 Contrastes de Autocorrelaci´on Espacial . . . 49

3.3.1 Estad´ısticos Globales . . . 49

3.3.2 Estad´ısticos Locales . . . 50

3.4 An´alisis de Cooordenadas Principales de Matrices de Pesos Espaciales(PCNM) 51 3.5 Modelos de Regresi´on Espacial . . . 51

3.5.1 Regresión geográficamente ponderada . . . 54

3.6 Aplicaci´on . . . 55

3.6.1 Elecci´on de la Matriz de Pesos Espaciales (PCNM) . . . 56

3.6.2 An´alisis Univariado del NBI . . . 56

3.6.3 Modelos de Regresi´on Espacial . . . 58

4 Algunos t´

opicos b´

asicos sobre procesos puntuales

61 4.1 Clases de patrones . . . 62

(4)

4.2.1 Conteo por cuadros . . . 65 4.2.2 M´etodos de distancia . . . 66 4.2.3 Funci´on de intensidad de segundo orden . . . 68

(5)

(6)

CAP´ITULO

1

Introducci´on a la estad´ıstica espacial

La rama de la estad´ıstica que analiza las variables de inter´es teniendo en cuenta su ubicaci´on espacial, es conocida como Estad´ıstica Espacial.

En muchos fenómenos de la naturaleza, los atributos de interés, se pueden ubicar temporal o espacialmente. En este caso, no es correcto estudiarlos bajo el supuesto de independencia entre observaciones, pues muy posiblemente la componente temporal, la espacial o ambas generen un efecto de correlación. Por lo tanto, es fundamental determinar la estructura de dicha correlación, y con base en ésta, encontrar predicciones de la variable de interés para determinado momento y/o determinado lugar.

Deﬁnici´on 1. Proceso Espacial

Sea 𝑍 la variable de inter´es, y sea s la ubicaci´on espacial donde existe 𝑍. El proceso espacial es el conjunto

{𝑍(𝑠) : 𝑠 ∈ 𝐷}

Donde 𝑍 se refiere a la variable de interés en la ubicación 𝑠, 𝐷 es llamado el conjunto ´ındice y está formado por todas las ubicaciones 𝑠. La ubicación espacial 𝑠 puede estar en una, dos o mas dimensiones según el estudio.

(7)

A continuación se mostrarán unos ejemplos, que ilustrarán tanto las aplicaciones de la estad´ıstica espacial, como los elementos de un proceso espacial.

1.1 Ejemplo. Existen varias formas de estimar la cantidad de madera muerta en un bosque. Una de ellas es llamada el método del transecto lineal y consiste en recolectar datos sobre troncos o ramas ca´ıdas a lo largo de un camino. Este camino se puede ver como el eje de los números reales; ver figura 1.1. En este caso,

𝑍(𝑠): Di´ametro del tronco ubicado en la coordenada 𝑠, a la altura del pecho. 𝐷 = ℝ; 𝑠 ∈ ℝ, con un punto de origen arbitrario, ﬁjado en el momento en el que se inicia el camino.

Figura 1.1. Proceso espacial en ℝ

1.2 Ejemplo. En el marco de un proyecto de conservación del medio ambiente, se requiere revisar y verificar en el terreno los informes relacionados con los cálculos de las reservas explotables y el avance del fenómeno de intrusión marina en un reservorio acu´ıfero, con el fin de establecer las recomendaciones necesarias para definir un programa de manejo.

Los datos recolectados son ubicados mediante coordenadas bidimensionales, (Este, Norte). En una notaci´on mas universal se puede pensar en un plano cartesiano en el cual dichas coordenadas se notan (x,y). Ver ﬁgura 1.2

𝑍(𝑠): Altura piezom´etrica por debajo del nivel del mar en la ubicaci´on 𝑠. 𝐷 = ℝ2_{; 𝑠 ∈ ℝ}2_{, 𝑠 = (𝑥, 𝑦) con un punto de origen arbitrario en (0, 0),}

ﬁjado en el momento en el que se dise˜na el muestreo.

As´ı, en general, 𝑠 es un elemento de un conjunto 𝐷, el cual es a su vez un subconjunto de ℝ𝑑_{. Esto es 𝑠 ∈ 𝐷 = ℝ}2

(8)

3 Este Norte 𝑍(𝑠): Altura

42,782 127,622 1464 -27,396 90,787 2553 -1,1628 84,896 2158 -18,618 76,451 2455 96,465 64,580 1756 108,562 82,923 1702 88,363 56,453 1805 90,042 39,258 1797 93,172 33,058 1714 97,610 56,278 1466

Cuadro 1.1. Proceso espacial en ℝ2

−150 −100 −50 0 50 100 0 50 100 150 200 X Coord Y Coord 1000 1500 2000 2500 3000 3500 0 50 100 150 200 data Y Coord −150 −100 −50 0 50 100 1000 1500 2000 2500 3000 3500 X Coord data −150−100 −50 0 50 100 1501000 1500 2000 2500 3000 3500 4000 0 50 100150 200 X Coord Y Coord data

Figura 1.2. Altura piezom´etrica georeferenciaci´on en ℝ2

El conjunto ´ındice D, puede ser continuo, discreto o aleatorio. La ubicación es un concepto que puede variar, una posibilidad es la ubicación geográfica; un punto puede ser indexado con respecto a cualquier sistema de referencia bien definido, por ejemplo el tiempo.

(9)

Se requiere una teor´ıa especial para este tipo de datos ya que:

Los datos espaciales no cumplen con los supuestos del análisis clásico; en particular la independencia; la primera ley de Tobler’s de las condiciones de la geograf´ıa dice que “todo esta relacionado con todo lo demás, pero cosas cercanas están mas relacionadas que cosas distantes”. Los datos espaciales, están correlacionados a menos que estén suficientemente lejanos.

𝑛 observaciones espaciales Z(si) no representan una muestra aleatoria de tamaño de n en el sentido tradicional. Representan una muestra de tamaño 1 de un proceso estocástico que se extiende en d dimensiones; esta caracter´ıstica es compartida en una serie de tiempo.

La aleatorización, la repetición, y los bloques no son posibles en muchas ciencias de tierra en las que se generan grandes cantidades de datos espaciales. El diseño experimental clásico es de poca ayuda.

Muchos problemas en estad´ıstica espacial, son únicos a este cuerpo de aplicación y no tienen similitud con ningún problema de la estad´ıstica clásica.

Una muestra de tamaño 𝑛 en la que se evidencia correlación espacial contiene menos información que una muestra del mismo tamaño pero de observaciones independientes. Por lo tanto, cuando las observaciones están correlacionadas, es necesario determinar con cuantas observaciones de los datos correlacionados será posible encontrar la misma precisión que se hubiera obtenido si las observaciones fueran independientes. La solución dependerá del patrón y de la intensidad de esta correlación.

(10)

5 Clases de datos espaciales

Datos geoestad´ısticos: Son los datos espaciales con variación continua, donde 𝐷 es un subconjunto fijo de ℝ𝑑_{; esto es, 𝐷 es continuo y fijo}

y 𝑍(𝑠) es una variable aleatoria con ubicaci´on 𝑠, (𝑠 ∈ 𝐷).

Un ejemplo de datos geoestad´ısticos es un tipo de contaminaci´on del aire llamado material particulado (MP). Un ejemplo de la distribucion continua del MP en la ciudad de Mexico se puede observar en la ﬁgura 1.3

Figura 1.3. Material particulado en la ciudad de M´exico

Datos de áreas (Lattices): Son los datos espaciales con variación discreta. 𝐷 es un subconjunto contable y fijo de ℝ𝑑_{; esto es, 𝐷 es discreto y fijo y}

𝑍(𝑠) es una variable aleatoria con ubicaci´on 𝑠, (𝑠 ∈ 𝐷).

Por ejemplo, al medir la tasa de mortalidad infantil en Colombia por departamento, se tiene una dominio discreto que consiste del conjunto formado por los 33 departamentos de Colombia. Ver ﬁgura 1.4

(11)

Figura 1.4. Tasa de mortalidad infantil (por cuantiles)

Procesos espaciales puntuales: 𝐷 es un proceso puntual en ℝ𝑑 _{o en un}

subconjunto aleatorio de ℝ𝑑_{. 𝐷 puede ser discreto o continuo, 𝑍(𝑠) es}

una variable aleatoria con ubicación 𝑠 (𝑠 ∈ 𝐷). Aqu´ı el interés no recae en el valor de un atributo 𝑍, sino en la ubicación en la cual ocurre un evento de interés.

Por ejemplo, en cuestiones de seguridad, se ubican en un plano los lugares donde han sido denunciados robos. Ver ﬁgura 1.5

Se puede observar que el interés en cada uno de los casos anteriores, es distinto. En el primer caso, se requiere la predicción de la cantidad de material particulado en forma continua en todos los lugares de la ciudad; mientras que en el segundo caso el interés en cambio radica en determinar relaciones de “vecindad”, identificar si la tasa de mortalidad infantil existente en un departamento es influenciada o influye sobre las tasas de mortalidad de los departamentos vecinos, de que factores adicionales depende este fenómeno y como se pueden modelar estas distintas relaciones. En el caso de los robos, se

(12)

7 0 20 40 60 80 20 40 60 80 cardiff$x cardiff$y

Figura 1.5. Lugares donde se han denunciado robos

quieren identificar zonas de mas alto o mas bajo riesgo, encontrar si existen patrones de ocurrencias de estos actos con el fin de establecer pol´ıticas de seguridad acordes con las caracter´ısticas por zonas. Por lo tanto, los métodos de la estad´ıstica espacial cambian de acuerdo al dominio en el que ocurre el fenómeno de interés.

(13)

(14)

CAP´ITULO

2

Geoestad´ıstica

El campo aleatorio espacial (variable regionalizada) en este caso es continuo {𝑍(𝑠) : 𝑠 ∈ 𝐷}; en general, no existen réplicas de los datos, a menos que se tomaran medidas repetidas en cada una de las ubicaciones, lo cual es muy poco frecuente en la recolección de datos espaciales. Esto hace preciso, crear un mecanismo para generar éstas réplicas y poder hacer inferencia sobre los datos. Los dos componentes estructurales del campo aleatorio que permiten incorporar réplicas son la estacionariedad y la isotrop´ıa.

2.1. Supuesto de Estacionariedad

2.1.1. Estacionariedad fuerte

Este supuesto se refiere a que la estructura probabil´ıstica del campo aleatorio es similar en diferentes partes de D, es decir que el proceso alcanza un estado de equilibrio. Esto ocurre cuando las coordenadas absolutas no muestran ninguna influencia sobre la ocurrencia de la variable. Si el campo aleatorio es estacionario y se va a estimar la covarianza, por ejemplo, se puede usar una función que dependa solamente de la distancia absoluta 𝑠𝑖− 𝑠𝑗 = ℎ,

sin importar donde est´an localizados los puntos. Para que diferentes pares de

(15)

puntos puedan contribuir a la estimación, solo se necesita que tengan la misma distancia ℎ. De manera formal, una variable regionalizada es estacionaria si su función de distribución no var´ıa con la traslación del vector ℎ, esto es, si para

𝒁(𝑠) = [𝑍(𝑠1), ..., 𝑍(𝑠𝑛)]′

y

𝒁(𝑠 + ℎ) = [𝑍(𝑠1+ ℎ), ..., 𝑍(𝑠𝑛+ ℎ)]′

se tiene que

𝐹𝒁(𝑠) = 𝐹𝒁(𝑠+ℎ)

La estacionariedad fuerte, sin embargo, es una propiedad muy restrictiva, y existen métodos que pueden modelar los fenómenos aún cuando no se cumpla esta propiedad. En particular para los algunos métodos geoestad´ısticos puede bastar con el cumplimiento de algunos supuestos que involucren los dos primeros momentos:

2.1.2. Estacionariedad de segundo orden

Si se cumple que 𝐸(𝑠) = 𝜇, ∀𝑠 ∈ 𝐷

𝐶𝑜𝑣(𝑍(𝑠), 𝑍(𝑠 + ℎ)) = 𝐶(ℎ)

para toda pareja 𝑍(𝑠), 𝑍(𝑠+ℎ), es decir, la covarianza existe y es función única del vector de separación ℎ. Entonces, se dice que es un proceso débilmente estacionario o estacionario de segundo orden. 𝐶(ℎ) es la función de covarianza o covariograma del proceso espacial.

En geoestad´ıstica es muy común usar la variable llamada incrementos 𝑍(𝑠 + ℎ) − 𝑍(𝑠), haciendo una analog´ıa con la diferenciación de una serie de tiempo cuando no se tiene estacionariedad en 𝑍(𝑠). En este caso se puede interpretar la variable incrementos como el cambio de la variable de interés después de un desplazamiento ℎ; as´ı modelar la varianza de la variable incrementos es una forma alternativa de modelar dependencia espacial. Esta clase de estacionariedad se suele llamar estacionariedad intr´ınseca.

(16)

2.1. SUPUESTO DE ESTACIONARIEDAD 11

2.1.3. Estacionariedad intr´ınseca

El proceso 𝑍(𝑠) es intr´ınsecamente estacionario si satisface:

𝐸(𝑍(𝑠 + ℎ) − 𝑍(𝑠)) = 0, ∀𝑠, ℎ ∈ 𝐷

1

2𝑉 𝑎𝑟(𝑍(𝑠 + ℎ) − 𝑍(𝑠)) = 𝛾(ℎ)

para toda pareja 𝑍(𝑠), 𝑍(𝑠+ℎ), es decir, la varianza existe y es función única del vector de separación ℎ; 𝛾(ℎ) es la función de semivarianza o el semivariograma del proceso espacial. En presencia de estacionariedad de segundo orden las funciones de covarianza y semivarianza cumplen la siguiente relación:

𝐶(ℎ) = 𝐶(0) − 𝛾(ℎ) (2.1)

Esta relación se ilustra en la figura 2.1, para el caso particular donde la función de covarianza corresponde a la función exponencial

𝐶(ℎ) = 3 exp(−ℎ/50) y por lo tanto la funci´on de semivarianza es

𝛾(ℎ) = 3(1 − exp(−ℎ/50)) 0 50 100 150 200 250 0.0 0.5 1.0 1.5 2.0 2.5 3.0

Funciones de covarianza y semivarianza exponencial

h 3 * (1 − e xp(−x/50)) Covarianza Semivarianza Figura 2.1. 𝐶(ℎ) y 𝛾(ℎ), 𝜃 = (0, 3, 50)

(17)

2.1.4. Isotrop´ıa

Si adem´as 𝐶(ℎ) y/o 𝛾(ℎ) son funciones ´unicas de la magnitud ∥ℎ∥, esto es,

𝐶𝑜𝑣(𝑍(𝑠), 𝑍(𝑠 + ℎ)) = 𝐶(∥ℎ∥) y/o

1

2𝑉 𝑎𝑟(𝑍(𝑠 + ℎ) − 𝑍(𝑠)) = 𝛾(∥ℎ∥)

El proceso posee función de covarianza y/o semivarianza isotrópica. La estacionariedad permite combinar pares de datos con la misma diferencia de coordenadas, pero si además, los vectores de diferencias pueden ser reemplazados con distancias escalares, por ejemplo una distancia euclidiana para calcular medidas como la covarianza, entonces el campo aleatorio se dice isotrópico. Esto es, la correlación entre los datos no depende de la dirección en la que esta se calcula. As´ı, un campo aleatorio que es estacionario pero no isotrópico se desarrolla de manera diferente según las diferentes direcciones del espacio; no solo basta con conocer cuanto están separados un par de puntos, sino también se necesita conocer la orientación de dicha distancia.

En términos geométricos la estacionariedad y la isotrop´ıa son propiedades de invarianza. La estacionariedad es invarianza bajo la traslación. La isotrop´ıa es invarianza bajo rotaciones y reflexiones.

2.1.5. Elementos del semivariograma

En un proceso es estacionario de segundo orden la funci´on de covarianza cumple las siguientes propiedades:

𝐶(ℎ) ≥ 0 ∣ 𝐶(ℎ) ∣≤ 𝐶(0)

(18)

2.1. SUPUESTO DE ESTACIONARIEDAD 13

Además, el semivariograma de un proceso estacionario de segundo orden tiene una as´ıntota, 𝐶(0). Esto provee una herramienta para verificar estacionariedad. Se estima el semivariograma, si tiende a una l´ınea horizontal cuando se incrementa la separación de los puntos, el proceso es estacionario de segundo orden, mientras que si el semivariograma no se estabiliza, sino por el contrario continua creciendo aún puede ser al menos intr´ınsecamente estacionario si cumple que

𝛾(ℎ) ∥ℎ∥2 → 0

cuando ℎ → ∞. Esto es, para utilizar los modelos y la metodolog´ıa clásicos, el semivariograma no debe crecer mas rápido que una ecuación de segundo grado. Los parámetros de los cuales depende un semivariograma de un proceso estacionario de segundo orden son los siguientes, ver figura 2.2:

Silla es la as´ıntota superior del semivariograma. ´Unicamente los procesos estacionarios de segundo orden tienen silla. En estos casos la silla es 𝐶(0); tambi´en es conocida como meseta.

Rango de un proceso espacial es la distancia a la cual los puntos ya no se consideran correlacionados. Los puntos separados por una distancia inferior al rango se consideran espacialmente correlacionados: Observaciones espaciadas por mas que el rango se consideran independientes. Algunos procesos alcanzan correlación cero solo asintóticamente, mientras que otros tienen un rango finito

Efecto pepita . De la definición de semivariograma, se puede ver que para ℎ = 0, deber´ıa ocurrir que 𝛾(ℎ) = 0. Sin embargo, en general se presenta el comportamiento observado en la figura 2.2, existiendo una discontinuidad en el origen, 𝛾(ℎ) → 𝑐0 cuando ℎ → 0. La primera posible

causa para esto es la presencia de un error de medida (EM); cuando no es posible repetir una medida en la ubicación 𝑠 sin error, entonces all´ı se evidencia su variabilidad. La segunda causa posible es el llamado efecto de micro-escala, el cual se genera debido a que existe un proceso espacial que opera a distancias mas pequeñas que las que fueron tenidas en cuenta para los valores de ℎ que a su vez dependen de las distancias a las que fue realizado el muestreo. Este proceso de micro-escala, tiene silla CMS. Por lo tanto, si cualquiera de las dos componentes (error de medida o micro-escala) es diferente de cero, el semivariograma presentará una discontinuidad puntual en el origen; la magnitud de esta discontinuidad

(19)

es llamada el efecto pepita y se representa 𝑐0.

𝑐0 = 𝜎𝐸𝑀2 + 𝜎𝐶𝑀 𝑆2

Silla parcial : Si un semivariograma tiene efecto pepita 𝑐0 y silla 𝐶(0), la

diferencia 𝐶(0) − 𝑐0 es llamada la silla parcial del semivariograma.

Figura 2.2. Pepita, silla y rango en presencia de estacionariedad de segundo orden

Con la existencia del efecto pepita, se altera la relaci´on entre el covariograma y el semivariograma. El semivariograma se puede expresar como

𝛾(ℎ) = 𝑐0+ 𝑐𝑠𝑓 (ℎ) y el covariograma 𝐶(ℎ) = { 𝑐𝑠(1 − 𝑓 (ℎ)), ℎ > 0 𝑐0+ 𝑐𝑠 ℎ = 0 (2.2)

2.1 Ejemplo. Con pepita 𝛾(ℎ) = 2 + 3(1 − 𝑒−3(ℎ/19)2

) la varianza esta formada por la pepita mas la silla parcial

𝐶(0) = 2 + 3, 𝐶(ℎ) = 𝐶(0) − 𝛾(ℎ) en general, entonces𝐶(ℎ) = 2 + 3 − (2 + 3(1 − 𝑒−3(ℎ/19)2)) 𝐶(ℎ) = 3 − 3(1 − 𝑒−3(ℎ/19)2)) 𝐶(ℎ) = 3(1 − (1 − 𝑒−3(ℎ/19)2 ))

(20)

2.2. SEMIVARIOGRAMA 15

Bajo estacionariedad de segundo orden, es posible estimar tanto la función de covarianza como la función de semivarianza; si no se tiene esta propiedad pero existe estacionariedad intr´ınseca aún se puede estimar la función de semivarianza. Aunque esto hace al semivariograma mas general para estimar la dependencia espacial, existen razones por las cuales es preferible cuando sea posible estimar la función de covarianza. Ver sección 2.3.

2.2. Semivariograma

El semivariograma 𝛾(ℎ) se deﬁne como la varianza de la variable incrementos 1

2𝑉 𝑎𝑟(𝑍(𝑠 + ℎ) − 𝑍(𝑠)). Por lo tanto, un estimador muy natural

es el conocido como el estimador clásico, y consiste de la estimación de esta varianza por el método de los momentos:

ˆ 𝛾(ℎ) = 1 2∣𝑁(ℎ)∣ ∑ 𝑁 (ℎ) (𝑍(𝑠 + ℎ) − 𝑍(𝑠))2

Este estimador presenta los inconvenientes ya conocidos de la varianza muestral, principalmente su sensibilidad a datos at´ıpicos. De aqu´ı que (Cressie, 1985) ha propuesto los siguientes dos estimadores robustos:

𝛾(ℎ) = 1 2(0.457 + 0.494/∣𝑁(ℎ)∣) Ã∑ 𝑁 (ℎ)∣𝑍(𝑠 + ℎ) − 𝑍(𝑠)∣1/2 ∣𝑁(ℎ)∣ )₄ (2.3) 𝛾(ℎ) = ( 𝑚𝑒∣𝑍(𝑠 + ℎ) − 𝑍(𝑠)∣1/2)4 2(0.457) (2.4)

En los denominadores se puede apreciar en cada caso la corrección por sesgo. (Cressie, 1993) muestra además que los estimadores robustos son menos dependientes entre si; los sumandos ∣𝑍(𝑠 + ℎ) − 𝑍(𝑠)∣1/2 _{están menos}

correlacionados que los (𝑍(𝑠 + ℎ) − 𝑍(𝑠))2_.

Si se opta por la estimación de la función de covarianza, se puede recurrir a la definición clásica de covarianza muestral as´ı:

ˆ 𝐶(ℎ) = 1 ∣𝑁(ℎ)∣ ∑ 𝑁 (ℎ) (𝑍(𝑠 + ℎ) − 𝑍)(𝑍(𝑠) − 𝑍)

(21)

A partir de los semivariogramas (o covariogramas) emp´ıricos ahora se debe ajustar un modelo paramétrico; en la siguiente sección se hace un recorrido por los métodos de estimación mas usados.

Modelos v´alidos de semivariogramas

La función 𝛾(ℎ; 𝜃) debe ser definida negativa para ser un modelo válido de semivariograma. Esto es, para cualquier número finito m de ubicaciones espaciales

𝒔1, 𝒔2, . . . , 𝒔𝒎

y cualquier real,𝑎1, 𝑎2, . . . , 𝑎𝑚 con 𝑚 ∈ ℤ+, 𝛾(ℎ; 𝜃) debe satisfacer 𝑚 ∑ 𝑖=1 𝑚 ∑ 𝑖=1 𝑎𝑖𝑎𝑗𝛾(𝒔𝒊− 𝒔𝒋) ≤ 0 (2.5)

El cumplimiento de esta propiedad garantiza que las varianzas de las predicciones sean positivas. A continuaci´on algunos ejemplos de modelos v´alidos de semivariograma: 0 50 100 150 200 15 20 25 Efecto pepita dist gamma 0 5 10 15 20 5 10 15 Lineal dist gamma 0 10 20 30 40 50 5 10 15 20 Esférico dist gamma 0 50 100 150 200 5 10 15 20 Matern dist gamma 0100 300 500 5 10 20 Efecto Hueco dist gamma 010 30 50 5 10 15 20 Exponencial dist gamma 010 30 50 5 10 15 20 Gaussiano dist gamma 0 50 100 150 200 0 100000 250000 Potencial dist gamma 0 50 100 150 200 70 80 90 110 logarítmico dist gamma

(22)

2.2. SEMIVARIOGRAMA 17

Modelo efecto pepita

Si el semivariograma ajustado es un efecto pepita hay evidencia de alguna de las siguientes dos situaciones;

un problema de microestructura; es decir que la variaci´on espacial ocurre a menores distancias y por lo tanto fue incorrecta la distancia de muestreo elegida.

No existe autocorrelaci´on espacial

𝛾(ℎ; 𝜃) = {

0 si ∥ℎ∥ = 0 𝑐𝑠 si ∥ℎ∥ ∕= 0

Modelo lineal

Este es un ejemplo de modelo bajo estacionariedad intr´ınseca, la semivarianza espacial no se estabiliza.

𝛾(ℎ; 𝜃) = {

0 si ∥ℎ∥ = 0

𝑐0+ 𝑏∥ℎ∥ si ∥ℎ∥ ∕= 0

Modelo esf´erico

El modelo esférico muestra un alcance finito; la función se estabiliza perfectamente en 𝑎. Se considera que este comportamiento puede ser un poco irreal, ya que la dependencia espacial va decreciendo pero es dif´ıcil que se vaya a cero exactamente en un punto.

𝛾(ℎ; 𝜃) = ⎧    ⎨    ⎩ 0 si ℎ = 0 𝑐0+ 𝑐𝑠 [ 3 2 ∥ℎ∥ 𝑎 −12 ( ∥ℎ∥ 𝑎 )₃] si 0 < ∥ℎ∥ ≤ 𝑎 𝑐0+ 𝑐𝑠 si ℎ > 𝑎

(23)

Modelo Matern

Este modelo es muy flexible según va cambiando el parámetro 𝜅 como se puede ver en la figura 2.4. El caso 𝜅 = 0.5 coincide con el modelo exponencial.

𝛾(ℎ; 𝜃) = { 0 si ℎ = 0 𝑐0+ 𝑐𝑠 ( 1 − 1 2𝜅−1_Γ(𝜅) ) ( ∥ℎ∥ 𝑎 )_𝜅 𝐾𝜅(∥ℎ∥/𝑎) si ∥ℎ∥ ≤ 0

donde 𝐾𝜅(∥ℎ∥/𝑎) es la funci´on de Bessel modiﬁcada de la tercera clase de

orden 𝜅. Este modelo es v´alido siempre que 𝑎 > 0 y 𝜅 > 0.

0 50 100 150 200 5 10 15 20 kappa=0.2 dist gamma 0 50 100 150 200 5 10 15 20 kappa=0.5 dist gamma 0 50 100 150 200 5 10 15 20 kappa=1 dist gamma 0 50 100 150 200 5 10 15 20 kappa=2 dist gamma

Figura 2.4. Modelo Matern

Como ocurre en cualquier estimación de parámetros para un modelo, es fundamental que el modelo propuesto sea el correcto, esto se logra haciendo un buen análisis del comportamiento de los semivariogramas emp´ıricos.

2.3. M´

etodos de estimaci´

on mas usados

La estimación de parámetros de la función de covarianza usando los métodos de Maxima verosimilitud (ML) y maxima verosimilitud

(24)

2.3. M ´ETODOS DE ESTIMACI ´ON MAS USADOS 19 0.0 0.2 0.4 0.6 0.8 1.0 1.2 0.0 0.2 0.4 0.6 0.8 1.0 distance semiv ar iance 0.0 0.2 0.4 0.6 0.8 1.0 1.2 0.0 0.2 0.4 0.6 0.8 1.0 distance semiv ar iance 0.0 0.2 0.4 0.6 0.8 1.0 1.2 0.0 0.2 0.4 0.6 0.8 1.0 distance semiv ar iance 0.0 0.2 0.4 0.6 0.8 1.0 1.2 0.0 0.2 0.4 0.6 0.8 1.0 distance semiv ar iance

Figura 2.5. Semivariograma emp´ırico y posibles modelos

restringida (REML), requieren la especiﬁcaci´on de la distribucion del vector 𝒁 = (𝑍(𝒔1), . . . , 𝑍(𝒔𝒏)); en general, se asume normalidad multivariada. Para

el caso ML se tiene que Z ∼ 𝑵𝑛(𝑋𝛽, Σ(𝜃)), donde Σ(𝜃) = 𝐶𝑜𝑣(Z) es una

matriz de dimensión 𝑛 × 𝑛 y 𝑋 es una matriz de dimensión 𝑛 × 𝑞 con 𝑞 < 𝑛, de variables explicativas, dentro de las cuales comúnmente se encuentran las coordenadas geográficas; el negativo de la función logveros´ımil es

𝐿(𝛽, 𝜃) = 𝑛 2𝑙𝑜𝑔(2𝜋) + 1 2𝑙𝑜𝑔∣Σ(𝜃)∣ + 1 2(Z − 𝑿𝜷) ′_Σ−1_{(𝜃)(Z − 𝑿𝜷)}

El elemento 𝑖𝑗 de la matriz Σ(𝜃)corresponde a la covarianza espacial entre las variables 𝑍(𝑠𝑖) y 𝑍(𝑠𝑗), esto es, 𝐶(𝑠𝑖 − 𝑠𝑗; 𝜃)=𝐶(ℎ; 𝜃). El estimador ˆ𝜃 es

sesgado pero asintóticamente eficiente; sin embargo, paradójicamente, tener una muestra grande genera el inconveniente de tener que realizar gran cantidad de operaciones debido al cálculo tanto del determinante como de la inversa de la matriz de covarianza en forma iterativa. Una variación del estimador ML que reduce el sesgo de las estimaciones es el estimador REML, el cual sustituye la maximización de la verosimilitud del vector Z por la del vector A′_{Z que satisface 𝐸(A}′_{Z) = 0} 1_{. La matriz A es una matriz de dimensión}

𝑛 × (𝑛 − 𝑝), de rango columna completo. Con esta modificación y dado que 1_{Se usa el modelo de función aleatoria intr´ınseca de orden 𝑘}

(25)

𝑉 𝑎𝑟(A′Z) = A′Σ(𝜃)A, el negativo de la funci´on logveros´ımil queda: 𝐿(𝜃) = 𝑛 2𝑙𝑜𝑔(2𝜋) + 1 2𝑙𝑜𝑔∣(A ′_{Σ(𝜃)A)∣ +}1 2Z ′_(A′_Σ(𝜃)A)−1_A′_Z _(2.6)

En la función 𝐿 desaparece 𝛽, ahora depende solamente de 𝜃; de tal manera que este método no usa el modelamiento de la superficie de tendencia, sino que se basa directamente en un vector de incrementos de media 0. Sin embargo, a pesar de reducir el sesgo en las estimaciones de 𝜃, aun requiere una cantidad muy grande de operaciones. (?) presenta algunas propuestas para hacer mas eficientes estos métodos computacionalmente, pero sus desarrollos se refieren al caso en el que las observaciones conforman una grilla regular.

En geoestad´ıstica es muy popular el método de m´ınimos cuadrados ponderados utilizando la matriz de ponderación 𝑊 (𝜃) propuesta en (?); aunque este método se suele expresar en términos del variograma 2𝛾(ℎ∣𝜃), para un proceso estacionario de segundo orden existe equivalencia con la covarianza debido a la relación 2.1.3. Este método se puede generalizar al caso espacio temporal de la siguiente forma: Se estima 𝜃 para un variograma minimizando

(2ˆ𝛾 − 2𝛾(𝜃))′_𝑊−1_{(𝜃)(2ˆ𝛾 − 2𝛾(𝜃))}

La matriz de ponderaci´on esta dada por

𝑊 (𝜃) = 𝐷𝑖𝑎𝑔(𝑉 𝑎𝑟(2ˆ𝛾(ℎ𝑘))) ≃ 𝐷𝑖𝑎𝑔 ( 2(2𝛾(ℎ𝑘∣𝜃))2 𝑁(ℎ𝑘) ) con 𝑁(ℎ𝑘) = {(𝑖, 𝑗) : 𝑠𝑖 − 𝑠𝑗 = ℎ𝑘}

Para las ubicaciones 𝑖, 𝑗 = 1, . . . , 𝑛, que generan los primeros 𝑘 rezagos espaciales 𝑘 = 1, ..., 𝐾; en general se usan los rezagos espaciales hasta la mitad de la máxima distancia entre cualquier par de ubicaciones, debido a que para ubicaciones muy separadas disminuye notoriamente la cantidad de puntos incluidos en la estimación del variograma. Cuando las muestras no son tomadas en una grilla regular, es dif´ıcil encontrar suficientes pares de puntos con separación exacta 𝑠𝑖 − 𝑠𝑗 = ℎ𝑘; por lo tanto se acostumbra

definir una tolerancia tanto de longitud como de ángulo; de tal forma que ∣𝑠𝑖 − 𝑠𝑗∣ ∈ (ℎ𝑘 − 𝜉, ℎ𝑘 + 𝜉) y el ángulo entre 𝑠𝑖 y 𝑠𝑗 está entre 𝜃 − 𝜔 y

𝜃 + 𝜔. La aproximaci´on de 𝑉 𝑎𝑟(2ˆ𝛾(ℎ𝑘∣𝜃), se obtiene bajo el supuesto de que

𝑍(s) ∼ 𝑁(𝜇; 𝜎2_{) ∀s ∈ ℝ}𝑑_{, y que por lo tanto}

Z(s + h) − Z(s)2 _{= 2𝛾(h) ⋅ 𝜒}2 1

(26)

2.3. M ´ETODOS DE ESTIMACI ´ON MAS USADOS 21

Existen otras opciones de ponderación pero esta es la mas frecuentemente usada; en ocasiones funciona mejor que los métodos basados en la verosimilitud de Z. La desventaja que presenta el uso de los métodos de m´ınimos cuadrados, es la necesidad de definir clases de rezagos para realizar una estimación emp´ırica de la covarianza o del semivariograma; cuando no se tienen muchas observaciones, la cantidad de datos en cada una de estas clases es muy pequeña, de tal forma que para los menores rezagos se pueden tener suficientes datos para la estimación de cada ˆ𝛾(ℎ𝑘) pero no as´ı para los rezagos mayores. Estos

inconvenientes se pueden obviar usando métodos de verosimilitud compuesta. El método 𝐶𝐿 que se usa en este caso (?) para estimar 𝜃, consiste en sumar componentes individuales de logverosimilitud, correspondiendo a las marginales de las variables de interés. Por lo tanto, este método no requiere el conocimiento de la distribución multivariada de 𝒁; solo se requieren las marginales 𝑓 (𝑍(𝑠𝑖), 𝜃); se asume que existen tanto el gradiente como la matriz

Hessiana de 𝑓 .

Supongamos conocidas 𝑓 (𝑍(𝑠𝑖), 𝜃), excepto por el par´ametro 𝜃; entonces

𝑙(𝑍(𝑠𝑖), 𝜃) = 𝑙𝑛(𝑓 (𝑍(𝑠𝑖), 𝜃)) es una funci´on logveros´ımil y la funci´on de

verosimilitud compuesta es 𝐶𝐿(𝜃) = 𝑛 ∑ 𝑖=1 𝑙(𝑍(𝑠𝑖), 𝜃)

A su gradiente ∇𝐶𝐿(𝜃) = 𝐶𝑆(𝜃) se le llama la funci´on score compuesta. As´ı, para encontrar el estimador ˆ𝜃 se resuelve el sistema de ecuaciones

𝐶𝑆(𝜃) =

𝑛

∑

𝑖=1

∇𝑙(𝑍(𝑠𝑖), 𝜃) = 0

Una implementación de este método para la estimación del semivariograma es la siguiente:

1. El objetivo es estimar los par´ametros del semivariograma, y por lo tanto es muy natural la construcci´on de la variable incrementos, la cual se va a notar 𝑈:

𝑈(𝑖, 𝑗) = 𝑍(𝑠𝑖) − 𝑍(𝑠𝑗)

La variable 𝑈 se logra efectuando todas las combinaciones posibles. La variable 𝑈 tiene entonces 𝑛(𝑛−1)₂ realizaciones, lo cual representa una

(27)

inmensa cantidad de datos; por tanto, es lógico ingresar a la estimación solo aquellos datos que involucran información sobre la dependencia espacio-tiempo, as´ı que pueden omitirse aquellos pares de observaciones que se encuentren muy alejados en ambos, según un criterio definido tal como el alcance espacial observado en el semivariograma experimental y/o en el covariograma, respectivamente.

2. Se requieren las funciones de verosimilitud marginales de las variables de inter´es. Asumiendo normalidad para las distribuciones marginales de 𝒁; esto es,

𝑍(𝒔) ∼ 𝑁(𝜇; 𝜎2_{), ∀(𝒔) ∈ 𝐷}

se tiene que

𝑈(𝑖, 𝑗) ∼ 𝑁(0, 2𝛾(𝑠𝑖− 𝑠𝑗, 𝜃))

As´ı que el negativo de la funci´on logveros´ımil es 𝑙(𝑈(𝑖, 𝑗), 𝜃) = 𝑙𝑛2 + 1 2𝑙𝑛𝜋 + 1 2𝑙𝑛𝛾(𝑠𝑖− 𝑠𝑗, 𝜃) + 𝑈2_{(𝑖, 𝑗)} 4𝛾(𝑠𝑖− 𝑠𝑗, 𝜃)

3. Determinar la funci´on de verosimilitud compuesta, sumando todas las funciones logveros´ımil marginales de la variable 𝑈;

𝑛−1 ∑ 𝑖=1 𝑛 ∑ 𝑗>𝑖 𝑙(𝑈𝑖,𝑗, 𝜃)

4. Para un modelo v´alido de semivarianza 2𝛾(𝑠𝑖 − 𝑠𝑗, 𝜃) se determina la

funci´on score compuesta

𝑛−1 ∑ 𝑖=1 𝑛 ∑ 𝑗>𝑖 ∂𝑙(𝑈𝑖,𝑗, 𝜃) ∂(𝜃) la cual bajo el supuesto de normalidad queda

𝑛−1 ∑ 𝑖=1 𝑛 ∑ 𝑗>𝑖 ∂𝛾(𝑠𝑖− 𝑠𝑗, 𝜃) ∂(𝜃) 1 4𝛾2_(𝑠 𝑖− 𝑠𝑗, 𝜃) (𝑈2 𝑖𝑗 − 2𝛾(𝑠𝑖− 𝑠𝑗, 𝜃))

La cual realmente es una estimaci´on por m´ınimos cuadrados ponderados del modelo 𝑈2

(28)

2.4. ILUSTRACI ´ON M ´ETODO DE MAXIMA VEROSIMILITUD 23

2.4. Ilustraci´

on

m´

etodo

de

maxima

verosimilitud

“La capacidad de aprender esta hecha de muchas preguntas y

de algunas respuestas; de b´usquedas personales y no de hallazgos

institucionalmente decretados; de critica y puesta en cuesti´on en

lugar de obediencia satisfecha con lo com´unmente establecido.

En una palabra, de actividad permanente del alumno y nunca de

aceptaci´on pasiva de los conocimientos”

Fernando Savater

Relaci´

on entre covariograma y semivariograma

Sea 𝒁(𝒔) = (𝒁(𝒔1), . . . , 𝒁(𝒔𝒏)) un proceso estacionario de segundo

orden, del cual se tiene un vector de n observaciones (𝑧(𝑠1), . . . , 𝑧(𝑠𝑛)); entonces

existe 𝐶(𝑍(𝑠𝑖), 𝑍(𝑠𝑗)) la cual es funci´on de 𝑠𝑖−𝑠𝑗, representa la relaci´on entre la

variable 𝑍(𝑠𝑖) y la variable 𝑍(𝑠𝑗); esta funci´on es fundamental para determinar

la dependencia espacial existente en el proceso. Por otro lado, se deﬁne una nueva variable llamada incrementos 𝑈𝑖𝑗 = 𝑍(𝑠𝑖) − 𝑍(𝑠𝑗), que representa el

cambio en la variable cuando se realiza un desplazamiento del lugar 𝑠𝑖 al lugar

𝑠𝑗 (o viceversa). Por lo tanto, la varianza de la variable 𝑈𝑖𝑗 tambi´en es una

medida de dependencia espacial; aunque son dos formas distintas de medir dependencia espacial, básicamente ofrecen la misma información, como se ve a continuación:

𝑉 𝑎𝑟[𝑍(𝑠𝑖) − 𝑍(𝑠𝑗)] = 𝑉 𝑎𝑟[𝑍(𝑠𝑖)] + 𝑉 𝑎𝑟[𝑍(𝑠𝑗)] − 2𝑐𝑜𝑣[𝑍(𝑠𝑖), 𝑍(𝑠𝑗)]

Si 𝑉 𝑎𝑟[𝑍(𝑠𝑖)] = 𝑉 𝑎𝑟[𝑍(𝑠𝑗)] = 𝑉 𝑎𝑟[𝑍(𝑠)], ∀𝑠 ∈ 𝐷, y 𝑉 𝑎𝑟[𝑍(𝑠𝑖) − 𝑍(𝑠𝑗)] es

tambi´en una funci´on de 𝑠𝑖− 𝑠𝑗, se tiene

2𝑐𝑜𝑣[𝑍(𝑠𝑖), 𝑍(𝑠𝑗)] = 2𝑉 𝑎𝑟[𝑍(𝑠)] − 𝑉 𝑎𝑟[𝑍(𝑠𝑖) − 𝑍(𝑠𝑗)]

(29)

2𝛾(𝑠𝑖− 𝑠𝑗) = 2𝜎2− 2𝐶(𝑠𝑖− 𝑠𝑗) ⇐⇒ 𝐶(𝑠𝑖− 𝑠𝑗) = 𝜎2 − 𝛾(𝑠𝑖− 𝑠𝑗)

Nota 1. Se ha adoptado la notaci´on 𝑉 𝑎𝑟[𝑍(𝑠𝑖)−𝑍(𝑠𝑗)] = 2𝛾(𝑠𝑖−𝑠𝑗), por

simplicidad de escritura y dado que la multiplicaci´on por una constante no afecta el comportamiento de la funci´on.

Si 𝑠𝑖− 𝑠𝑗 = ℎ , entonces se puede escribir 𝐶(ℎ) = 𝐶(0) − 𝛾(ℎ)

𝛾(𝑠𝑖− 𝑠𝑗) = 𝜎2− 𝐶(𝑠𝑖− 𝑠𝑗) 𝛾(ℎ) = { 0 si ∥ℎ∥ = 0 𝑐0+ 𝑐𝑠[1 − exp(−3ℎ/𝑎)] si ∥ℎ∥ > 0 𝐶(0) = { 𝑐0+ 𝑐𝑠 si ∥ℎ∥ = 0 𝑐𝑠[1 − exp(−3ℎ/𝑎)] si ∥ℎ∥ > 0 Si 𝑛 = 2, 𝑍 = (𝑧(𝑠1), 𝑧(𝑠2)) Σ(𝜃) = ( 𝐶(0, 𝜃) 𝐶(𝑠1− 𝑠2; 𝜃) 𝐶(𝑠2− 𝑠1; 𝜃) 𝐶(0, 𝜃) ) 𝑙(𝜃, 𝜇; 𝑧(𝑠)) = 2 2𝑙𝑛(2𝜋) + 1 2𝑙𝑛∣Σ(𝜃)∣ + 1 2(𝑧(𝑠) − 𝝁)′Σ −1_{(𝜃)(𝑧(𝑠) − 𝝁)} ∣Σ(𝜃)∣ = 𝐶2_{(0, 𝜃) − 𝐶(𝑠} 2− 𝑠1; 𝜃)𝐶(𝑠1− 𝑠2; 𝜃) = 𝐶2(0, 𝜃) − 𝐶2(𝑠1− 𝑠2; 𝜃) Σ−1_{(𝜃) =} 1 𝐶2_{(0, 𝜃) − 𝐶}2_(𝑠 1− 𝑠2; 𝜃) ( 𝐶(0, 𝜃) −𝐶(𝑠2 − 𝑠1; 𝜃) −𝐶(𝑠1− 𝑠2; 𝜃) 𝐶(0, 𝜃) ) z(𝑠) − 𝝁 = ( 𝑧(𝑠1) − 𝜇 𝑧(𝑠2) − 𝜇 )

(30)

2.5. KRIGING 25 (𝑧(𝑠) − 𝜇)′Σ−1(𝜃)(𝑧(𝑠) − 𝜇) = 1 𝐶2_{(0, 𝜃) − 𝐶}2_(𝑠 1− 𝑠2; 𝜃) ((𝑧(𝑠1)−𝜇)2𝐶(0, 𝜃)+(𝑧(𝑠2)−𝜇)(𝑧(𝑠1)−𝜇)(−𝐶(𝑠1−𝑠2; 𝜃)) + (𝑧(𝑠1) − 𝜇)(𝑧(𝑠2) − 𝜇)(−𝐶(𝑠1− 𝑠2; 𝜃) + (𝑧(𝑠2) − 𝜇)2𝐶(0, 𝜃)) (2.7) Si el modelo de covarianza propuesto es el exponencial

𝐶(𝑠𝑖−𝑠𝑗; 𝜃) = 𝑐𝑠𝑒𝑥𝑝(−3∗ℎ/𝑎), 𝑛 = 2, 𝑍 = (𝑧(𝑠1), 𝑧(𝑠2)) = (3, 4), 𝜇 = 3.5, ∣𝑠1−𝑠2∣ = 5 𝑙(𝜃, 𝜇; 𝑧(𝑠)) = 𝑙𝑛(2𝜋) + 1 2𝑙𝑛(𝑐 2 𝑠− 𝑐𝑠𝑒𝑥𝑝(−15/𝑎))+ 1 2(0.25𝑐𝑠+ 2 ∗ 0.25 ∗ 𝑒𝑥𝑝((−15)/𝑎) + 0.25𝑐𝑠) = 𝑙(𝜃, 𝜇; 𝑧(𝑠)) = 𝑙𝑛(2𝜋)+1 2𝑙𝑛(𝑐 2 𝑠−𝑐𝑠𝑒𝑥𝑝(−15/𝑎))+ 1 2(0.5𝑐𝑠+0.5∗𝑒𝑥𝑝((−15))/𝑎))

2.5. kriging

Uno de los objetivos principales del análisis espacial es la predicción o interpolación, esto consiste en obtener valores de la variable de interés en sitios no muestreados. Dicho de otro modo, sea el campo aleatorio {

𝑍 (𝑠) : 𝑠 ∈ 𝐷 ⊂ ℝ𝑑} _{donde se ha observado el atributo 𝑍 en las ubicaciones}

𝑠1, 𝑠2, . . . , 𝑠𝑘 y se desea predecir dicho atributo en una ubicaci´on no observada

𝑠0, es decir, 𝑍 (𝑠0) bas´andose en los valores obtenidos en las muestras hechas.

Son muchos los m´etodos que en la actualidad se emplean para realizar interpolaci´on espacial, ellos pueden dividirse en:

1. Métodos estad´ısticos. En estas técnicas se emplean las propiedades estad´ısticas de los datos para generar las predicciones. Los métodos estad´ısticos de interpolación son modalidades de una familia de métodos llamada kriging, en los cuales se cuentan el ordinario, el simple, el

(31)

universal, el probabil´ıstico, el indicador y el disyuntivo, entre otros. El nombre se debe al Ingeniero minero D.G. Krige, quien desarrolló en la década de los 50, métodos emp´ıricos para predecir caracter´ısticas de una mina en alguna ubicación de interés donde no se conoc´ıan datos, usando las caracter´ısticas conocidas en lugares cercanos donde si hab´ıan sido tomados. El kriging aparece en muchas formas de acuerdo a si se conocen la media, la distribución de probabilidad de 𝑍 (𝑠), si las predicciones son hechas para puntos o áreas y as´ı sucesivamente. El kriging no es el único método de predicción espacial, pero tiene la ventaja que al usar propiedades estad´ısticas de los datos, es posible obtener estimaciones de la varianza del error de predicción, lo cual permite además estimar intervalos de confianza para dicha predicción y por tanto, evaluar la calidad de las estimaciones. El kriging se realiza en dos partes: la cuatificación de la estructura espacial de los datos y la elaboración de la predicción. La cuantificación de la estructura de dependencia espacial se realiza por alguno de los métodos presentados en la sección anterior para ajustar el semivariograma. Para la predicción en un punto no muestreado se utiliza el modelo ajustado y los puntos muestreados en torno al sitio de la predicción.

2. Métodos determin´ısticos. En estos no se le asigna ningún comportamiento aleatorio o estocástico a la variable de interés. Las predicciones son obtenidas por el grado de similitud o por suavizamiento entre los puntos. Los métodos determin´ısticos de interpolación pueden clasificarse en dos grupos: globales y locales. Las técnicas globales usan todo el conjunto de puntos para realizar las predicciones, mientras que las técnicas locales usan los puntos dentro de un entorno más pequeño de la área de estudio.

2.6. M´

etodos estad´ısticos de interpolaci´

on

La predicción espacial estad´ıstica también llamada kriging es sinónimo de predicción óptima y consiste en hacer inferencias sobre los valores no observados de un proceso aleatorio. El kriging encierra un conjunto de métodos que se fundamentan en la minimización del error cuadrático medio de predicción. En el cuadro 2.1 se mencionan algunos tipos de kriging y sus propiedades.

(32)

2.6. M ÉTODOS ESTADÍSTICOS DE INTERPOLACI ÓN 27

Cuadro 2.1. Algunos tipos de Kriging.

Tipo de predictor Nombre Propiedades

Simple Son ´optimos si hay normalidad multivariada Lineal Ordinario Independiente de la distribuci´on son MELI

Universal

Indicador Son predictores ´optimos No Probabil´ıstico

Lineal Transgaussiano Disyuntivo

2.6.1. Generalidades sobre el kriging

La toma de muestras da la información de lo que ocurre en cada punto. Sin embargo, no da información acerca de la relación que pueda existir entre dichos puntos. Se requiere de una forma precisa de estimar valores en puntos intermedios o en el caso de bloques, por ejemplo, estimar el promedio sobre el bloque. La precisión del estimador usado depende de varios factores:

El n´umero de muestras tomadas

La calidad de la medici´on en cada punto

Las ubicaciones de las muestras en la zona; si las muestras son igualmente espaciadas se alcanza una mejor cobertura, dando mayor informaci´on acerca de la zona que aquella que se obtendr´ıa de muestras muy agrupadas en unos sectores y separadas en otros. Sin embargo, en la pr´actica, debido a las caracter´ısticas de las regiones de estudio, muchas veces es preciso tomar muestras irregularmente espaciadas.

Las distancias entre las muestras; para la predicción es mas conveniente usar muestras vecinas que muestras distantes, esto es, la precisión mejora cuando la cercan´ıa de las muestras aumenta, y se deteriora cuando esta disminuye. La extrapolación no es aconsejable.

La continuidad espacial de la variable o atributo en estudio; es más fácil estimar el valor de una variable bastante regular en una región que una que presenta grandes fluctuaciones.

(33)

2.6.2. Introducci´

on a la teor´ıa del kriging

2.2 Ejemplo. Supongamos que se tienen las mediciones 𝑍 (𝑠1), 𝑍 (𝑠2), 𝑍 (𝑠3)

y 𝑍 (𝑠4), en los puntos 𝑠1, 𝑠2, 𝑠3 y 𝑠4 respectivamente (ve´ase Figura 2.6), y se

requiere predecir el valor 𝑍 (𝑠0). El valor a predecir se ubica mas cerca de 𝑠2

que de cualquier otra ubicación donde se tenga medición; por lo tanto, es lógico pensar que 𝑍 (𝑠0) es más parecido a 𝑍 (𝑠2) que a cualquiera de los otros tres

valores medidos. De acuerdo a lo anterior, se puede optar para la predicci´on, por una media ponderada de las cuatro mediciones, en la cual 𝑍 (𝑠2) tiene

mayor peso que cualquier otra, seguida en su orden por 𝑍 (𝑠4), 𝑍 (𝑠3) y por

´ultimo 𝑍 (𝑠1). Asi,

Figura 2.6. Ilustraci´on kriging

ˆ

𝑍 (𝑠0) = 𝜆1𝑍 (𝑠1) + 𝜆2𝑍 (𝑠2) + 𝜆3𝑍 (𝑠3) + 𝜆4𝑍 (𝑠4)

Donde los 𝜆𝑖, 𝑖 = 1, 2, 3, 4 son los factores de ponderaci´on o pesos tales que

𝜆2 > 𝜆4 > 𝜆3 > 𝜆1 y

∑₄

𝑖=1𝜆𝑖 = 1

Para obtener una estimaci´on de 𝑍 (𝑠0), el estimador debe cumplir con las

siguientes condiciones:

Lineal. El estimador es una combinaci´on lineal de los valores de las variables en los puntos muestreados

ˆ

𝑍 (𝑠0) = Z𝑇𝝀 (2.8)

Donde Z = (𝑍 (𝑠1) , 𝑍 (𝑠2) , . . . , 𝑍 (𝑠𝑘))𝑇 y 𝝀 = (𝜆1, 𝜆2, . . . , 𝜆𝑘)𝑇 es el

vector de factores o coeﬁcientes de ponderaci´on y son calculados de acuerdo a las dos condiciones siguientes.

(34)

Insesgamiento. El valor esperado del estimador es igual al valor esperado de la variable en el punto de medici´on2_.

𝐸 [ ˆ 𝑍 (𝑠0) ] = 𝐸 [𝑍 (𝑠0)] (2.9)

Varianza m´ınima. El estimador satisface que 𝑉 𝑎𝑟 ( ˆ 𝑍 (𝑠0) − 𝑍 (𝑠0) ) es m´ınima.

Nótese que la varianza puede ser escrita de la siguiente manera por la condición de insesgamiento 𝑉 𝑎𝑟 ( ˆ 𝑍 (𝑠0) − 𝑍 (𝑠0) ) = 𝐸 ( ˆ 𝑍 (𝑠0) − 𝑍 (𝑠0) )₂ − [ 𝐸 ( ˆ 𝑍 (𝑠0) − 𝑍 (𝑠0) )]₂ = 𝐸 ( ˆ 𝑍 (𝑠0) − 𝑍 (𝑠0) )₂ = 𝐸[(Z𝑇𝝀 − 𝑍 (𝑠0) )_𝑇 ( Z𝑇𝝀 − 𝑍 (𝑠0) )] = 𝐸[(𝝀𝑇_{Z − 𝑍 (𝑠} 0) ) ( Z𝑇_{𝝀 − 𝑍 (𝑠} 0) )] = 𝐸[𝝀𝑇ZZ𝑇_{𝝀 − 𝑍 (𝑠} 0) 𝝀𝑇Z − 𝑍 (𝑠0) Z𝑇𝝀 + (𝑍 (𝑠0))2 ] = 𝐸[𝝀𝑇ZZ𝑇_{𝝀 − 2𝑍 (𝑠} 0) Z𝑇𝝀 + (𝑍 (𝑠0))2 ] = 𝐸[𝝀𝑇ZZ𝑇_𝝀]_{− 𝐸}[_{2𝑍 (𝑠} 0) Z𝑇𝝀 ] + 𝐸[(𝑍 (𝑠0))2 ] = 𝝀𝑇𝐸[ZZ𝑇]𝝀 − 2𝐸[𝑍 (𝑠0) Z𝑇 ] 𝝀 + 𝐸[(𝑍 (𝑠0))2 ] (2.10) Si ha estimado el semivariograma o bien se conoce la función de covarianza, también se tendrán los valores

𝐸[ZZ𝑇]_{, 𝐸}[_{𝑍 (𝑠}

0) Z𝑇

]

, 𝐸[(𝑍 (𝑠0))2

]

Por lo tanto, se encontrará 𝝀 minimizando esta varianza. Del respectivo proceso de minimización se obtendrá un sistema de ecuaciones, que cambiará de acuerdo a las hipótesis que se tengan sobre la media y la covarianza del proceso, y la distribución de la variable en estudio. En la próxima sección se mencionarán algunos de estos casos.

2_{Obs´ervese que en este caso no se habla del insesgamiento como la igualdad con respecto}

(35)

2.6.3. Kriging ordinario

El kriging ordinario se usa cuando la variable es estacionaria con covarianza conocida y media desconocida, es decir, se asume que el proceso espacial asume la descomposici´on siguiente:

𝑍 (𝑠) = 𝜇 + 𝑒 (𝑠) 𝑠 ∈ 𝐷, 𝜇 ∈ ℝ, y 𝜇 desconocida (2.11) Al no conocer la media es necesario garantizar la propiedad de insesgamiento, es decir, 𝐸 [ ˆ 𝑍 (𝑠0) ] = 𝐸 [𝑍 (𝑠0)] = 𝜇

Donde 𝜇 es la media del proceso. Entonces 𝐸[Z𝑇_𝝀] _{= 𝐸}[_Z𝑇]_𝝀

= 𝜇1𝑇𝝀 = 𝜇 ⇒ 1𝑇𝝀 = 𝝀𝑇1 = 1 (2.12) Por tanto, es indispensable que se cumpla la condici´on 2.12 para obtener un estimador insesgado. Para la segunda condici´on de varianza m´ınima, se tiene lo siguiente: 𝐸[ZZ𝑇]= Σ + 𝝁𝝁𝑇 = Σ + 𝜇211𝑇 (2.13) 𝐸[𝑍 (𝑠0) Z𝑇 ] = Σ𝑇 0 + 𝜇21𝑇 (2.14) 𝐸[(𝑍 (𝑠0)2 )] = 𝐶 (0) + 𝜇2 _(2.15)

Donde Σ es la matriz de varianzas y covarianzas de Z, Σ0 = (𝐶 (𝑠1− 𝑠0) , 𝐶 (𝑠2− 𝑠0) , . . . , 𝐶 (𝑠𝑘− 𝑠0))𝑇, es decir, un vector en el cual

cada una de sus componentes es la covarianza entre cada punto observado y el punto donde se va a realizar la predicci´on y 1 = (1, 1, . . . , 1)𝑇. Sustituyendo 2.13, 2.14, 2.15 en 2.10 y empleando la condici´on de insesgamiento 2.12 se tiene: 𝑉 𝑎𝑟 ( ˆ 𝑍 (𝑠0) − 𝑍 (𝑠0) ) = 𝝀𝑇 [_{Σ + 𝜇}2₁₁𝑇]_{𝝀 − 2}[_Σ𝑇 0 + 𝜇21𝑇 ] 𝝀 + 𝐶 (0) + 𝜇2 = 𝝀𝑇Σ𝝀 − 2Σ𝑇₀𝝀 + 𝐶 (0) + 𝜇2[𝝀𝑇11𝑇𝝀 − 2(1𝑇𝝀)+ 1] = 𝝀𝑇Σ𝝀 − 2Σ𝑇 0𝝀 + 𝐶 (0) + 𝜇2[(1)(1) − 2(1) + 1] = 𝝀𝑇_{Σ𝝀 − 2Σ}𝑇 0𝝀 + 𝐶 (0) (2.16)

Luego, se debe minimizar 2.16 bajo la resticci´on 2.12, para lo cual se emplea el m´etodo de los multiplicadores de Lagrange que consiste en minimizar el

(36)

2.6. M ÉTODOS ESTADÍSTICOS DE INTERPOLACI ÓN 31 lagrangiano ℒ (𝝀, 𝛿): ℒ (𝝀, 𝛿) = 1 2𝑉 𝑎𝑟 ( ˆ 𝑍 (𝑠0) − 𝑍 (𝑠0) ) − 𝛿(1𝑇𝝀 − 1) = 1 2𝝀 𝑇_{Σ𝝀 − Σ}𝑇 0𝝀 + 1 2𝐶 (0) − 𝛿 ( 1𝑇𝝀 − 1) (2.17) respecto a 𝝀 y al multiplicador de Lagrange 𝛿. Para llevar a cabo la minimización de ℒ (𝝀, 𝛿) se deriva respecto a los parámetros 𝝀 y 𝛿 obteniendo:

∂ℒ (𝝀, 𝛿)

𝝀 = Σ𝝀 − Σ0− 𝛿1 ∂ℒ (𝝀, 𝛿)

𝛿 = 1

𝑇_{𝝀 − 1} _(2.18)

Luego, se igualan a cero las ecuaciones 2.18, lo cual conduce a:

Σ𝝀 − 𝛿1 = Σ0 (2.19)

1𝑇_{𝝀 = 1} _(2.20)

sistema lineal de 𝑘 + 1 ecuaciones llamadas ecuaciones del kriging ordinario, a partir de las cuales se encuentran los valores de los factores de ponderaci´on para llevar a cabo la predicci´on. Multiplicando 2.19 por 1𝑇_Σ−1 _{se tiene que}

1𝑇_{𝝀 − 𝛿1}𝑇_Σ−1_{1 = 1}𝑇_Σ−1_Σ 0 ∴ 1 − 𝛿1𝑇Σ−11 = 1𝑇Σ−1Σ0 𝛿 = 1 − 1 𝑇_Σ−1_Σ 0 1𝑇_Σ−1₁ (2.21)

Ahora, multiplicando por Σ−1 a 2.19 y reemplazando 2.21

𝝀 − 𝛿Σ−11 = Σ−1Σ0 ∴ 𝝀 − ( 1 − 1𝑇_Σ−1_Σ 0 1𝑇_Σ−1₁ ) Σ−11 = Σ−1Σ0 𝝀 = Σ−1 ( Σ0+ 1 − 1𝑇_Σ−1_Σ 0 1𝑇_Σ−1₁ 1 ) (2.22) El vector 𝝀 de ponderaciones del kriging también pueden ser obtenido por medio de la función de semivarianza del proceso espacial usando la relación con la función de covarianza, entonces se tiene que

(37)

Ahora, sustituyendo 2.23 en 2.16 y usando la restricci´on de insesgamiento 2.12 se llega a 𝑉 𝑎𝑟 ( ˆ 𝑍 (𝑠0) − 𝑍 (𝑠0) ) = 𝝀𝑇 (𝐶 (0) 11𝑇 _{− Γ})_{𝝀 − 2 (𝐶 (0) 1 − Γ} 0)𝑇 𝝀 + 𝐶 (0) = 𝐶 (0) 𝝀𝑇₁₁𝑇_{𝝀 − 𝝀}𝑇_{Γ𝝀 − 2𝐶 (0) 1}𝑇_{𝝀 + 2Γ}𝑇 0𝝀 + 𝐶 (0) = 𝐶 (0) (1)(1) − 𝝀𝑇Γ𝝀 − 2𝐶 (0) (1) + 2Γ𝑇₀𝝀 + 𝐶 (0) = −𝝀𝑇_{Γ𝝀 + 2Γ}𝑇 0𝝀 (2.24)

Al igual que en el caso de la covarianza se debe minimizar 2.24 usando el m´etodo de los multiplicadores de Lagrange, de lo cual se tiene que

ℒ (𝝀, 𝛿) = 1 2𝑉 𝑎𝑟 ( ˆ 𝑍 (𝑠0) − 𝑍 (𝑠0) ) − 𝛿(1𝑇_{𝝀 − 1}) = −1 2𝝀 𝑇_{Γ𝝀 + Γ}𝑇 0𝝀 − 𝛿 ( 1𝑇_{𝝀 − 1}) _(2.25)

derivando con respecto a 𝝀 y 𝛿 e igualando a cero se tiene que ∂ℒ (𝝀, 𝛿)

𝝀 = −Γ𝝀 + Γ0− 𝛿1 ⇒ Γ𝝀 + 𝛿1 = Γ0 ∂ℒ (𝝀, 𝛿)

𝛿 = 1

𝑇_{𝝀 − 1} _⇒ ₁𝑇_{𝝀 = 1} _(2.26)

que es el sistema de ecuaciones normales para el kriging ordinario, pero a través de la función de semivarianza. La solución de 2.26 es

𝝀 = Γ−1 ( Γ0− 11 𝑇_Γ−1_Γ 0− 1 1𝑇_Γ−1₁ ) (2.27) 𝛿 = 1𝑇Γ −1_Γ 0− 1 1𝑇_Γ−1₁ (2.28)

2.6.4. Kriging Simple

El kriging simple se puede considerar como un caso particular del kriging ordinario en el cual la media es conocida. Se asume que el proceso espacial se puede expresar de la siguiente manera

(38)

Se tiene que 𝐸 (𝑍 (𝑠)) = 𝜇 o lo que es lo mismo 𝐸 (𝑒 (𝑠)) = 0. De otro lado, la predicci´on en un punto particular 𝑠0 se puede expresar de la siguiente manera

como

ˆ

𝑍 (𝑠0) = 𝜇 + ˆ𝑒 (𝑠0) (2.30)

donde ˆ𝑒(𝑠0) es la predicci´on del error aleatorio en el punto 𝑠0. Luego, se debe

tener un predictor lineal del error que se deﬁne como ˆ

𝑒 (𝑠0) = e𝑇𝝀 (2.31)

donde e = (𝑒1, 𝑒2, . . . , 𝑒𝑘)𝑇 y 𝜆 como en 2.8 con lo cual el predictor de la

variable en el punto 𝑠0 es

ˆ

𝑍 (𝑠0) = 𝜇 + e𝑇𝝀 (2.32)

Bajo este escenario la condici´on de insesgamiento se expresa como 𝐸 ( ˆ 𝑍 (𝑠0) ) = 𝐸 (𝑍 (𝑠0)) = 𝜇 ⇒ 𝐸 ( 𝜇 + e𝑇𝝀)= 𝜇 + 𝐸(e𝑇𝝀) = 𝜇 ⇒ 𝐸(e𝑇_𝝀)_{= 0} ⇒ 𝐸(e𝑇)_{𝝀 = 0} ⇒ 0𝑇_{𝝀 = 0}

indicando que no es necesario realizar ninguna restricci´on sobre el vector de ponderaciones. Finalmente, la estimaci´on debe ser de varianza m´ınima, para ello tenemos lo siguiente:

𝐸(ee𝑇)_{= Σ} e (2.33) 𝐸(𝑒 (𝑠0) e𝑇 ) = Σ𝑇 0e (2.34) 𝐸((𝑒 (𝑠0))2 ) = 𝐶 (0) (2.35)

reemplazando 2.33, 2.34 y 2.35 en 2.10 tenemos que

𝑉 𝑎𝑟 (ˆ𝑒(𝑠0) − 𝑒 (𝑠0)) = 𝝀𝑇Σe𝝀 − 2Σ𝑇0e𝝀 + 𝐶 (0) (2.36)

derivando respecto a 𝝀 e igualando a cero ∂

∂𝝀 [𝑉 𝑎𝑟 (ˆ𝑒 (𝑠0) − 𝑒 (𝑠0))] = 2Σe𝝀 − 2Σ

𝑇

0e

(39)

que es el sistema de ecuaciones normales para el kriging simple. El vector de ponderaciones es

𝝀 = Σ−1

e Σ0e (2.38)

Los mapas de predicción generados con kriging se acompañan, de los respectivos mapas de residuos para poder determinar cuales zonas tienen predicciones mas precisas. Además, se usan las medidas generales para calidad de predicción, tales como los estad´ısticos de los residuos, el MAPE, el CME, el coeficiente de correlación lineal entre los valores observados y sus respectivas predicciones.

Mapas de predicci´on y residuos

[4.78,5.308] (5.308,5.837] (5.837,6.365] (6.365,6.893] (6.893,7.421] [0.09692,0.1746] (0.1746,0.2523] (0.2523,0.33] (0.33,0.4077] (0.4077,0.4854]

2.6.5. El enfoque robusto

Kriging con Pulimiento de Medianas

Es una metodolog´ıa a aplicar cuando 𝜇(𝑢) no es conocida y se asume que se puede descomponer aditivamente en componentes direccionales. Fue planteada originalmente para datos en grilla regular 𝑝 × 𝑞 (igualmente espaciados en el terreno) as´ı:

𝜇(𝑢𝑘𝑙) = 𝑎 + 𝑟𝑘+ 𝑐𝑙+ 𝑒𝑘𝑙 3 (2.39)

donde 𝑢𝑘𝑙 es un punto ubicado en la 𝑘 − ´𝑒𝑠𝑖𝑚𝑎 columna y la 𝑙 − ´𝑒𝑠𝑖𝑚𝑎 ﬁla de la

grilla, 𝑎 es el efecto global, 𝑟𝑘 denota el efecto de la 𝑘 − ´𝑒𝑠𝑖𝑚𝑎 ﬁla 𝑘 = 1, . . . , 𝑝,

3_{Si existe interacción entre fila y columna, en este modelo también se puede incluir la}

(40)

𝑐𝑙 el efecto de la 𝑙 − ´𝑒𝑠𝑖𝑚𝑎 columna 𝑘 = 1, . . . , 𝑞 y 𝑒𝑘𝑙 denota el residuo en

𝑢𝑘𝑙. Las estimaciones de 𝑟𝑘 y 𝑐𝑙 se obtienen mediante un proceso iterativo de

sustracción de las medianas de fila y luego de medianas de columnas hasta que las medianas de filas y columnas converjan a cero, usualmente de 2 a 4 iteraciones son suficientes para que esto ocurra, sin embargo en algunas situaciones el algoritmo puede no converger por la naturaleza de los datos. El modelo en la i-ésima iteración está dado por:

modelo 𝑖: 𝑦𝑘𝑙 = 𝑎(𝑖)+ 𝑟_𝑘(𝑖)+ 𝑐(𝑖)_𝑙 + 𝑒(𝑖)_𝑘𝑙 (2.40)

A continuación se presenta el algoritmo para obtener la estimación de los efectos en la 𝑖 − ´𝑒𝑠𝑖𝑚𝑎 iteración:

En la primera iteraci´on es necesario tener en cuenta 𝑎(0) _{= 0, 𝑟}(0) 𝑘 = 0, 𝑐 (0) 𝑗 = 0 y 𝑒 (0) 𝑘𝑙 = 𝑦𝑘𝑙

En primer lugar se realizan las operaciones ﬁla Δ𝑟_𝑘(𝑖) = 𝑚𝑒𝑑(𝑒(𝑖−1)_𝑘𝑙 ; 𝑙 = 1, .., 𝑞); 𝑘 = 1, . . . , 𝑝 Δ𝑚(𝑖)𝑟 = 𝑚𝑒𝑑(Δ𝑟_𝑘(𝑖); 𝑘 = 1, ..., 𝑝)

𝑑(𝑖)_𝑘𝑙 = 𝑒(𝑖−1)_𝑘𝑙 − Δ𝑟_𝑘(𝑖); 𝑘 = 1, .., 𝑝; 𝑙 = 1, ..., 𝑞

En segundo lugar se realizan las operaciones columna Δ𝑐(𝑖)_𝑙 = 𝑚𝑒𝑑(𝑑(𝑖)_𝑘𝑙; 𝑘 = 1, .., 𝑝); 𝑙 = 1, .., 𝑞)

Δ𝑚(𝑖)𝑐 = 𝑚𝑒𝑑(Δ𝑐(𝑖)_𝑙 ; 𝑙 = 1, ..., 𝑞)

𝑒(𝑖)_𝑘𝑙 = 𝑑(𝑖)_𝑘𝑙 − Δ𝑐(𝑖)_𝑙 ; 𝑘 = 1, .., 𝑝; 𝑙 = 1, ..., 𝑞

Finalmente se obtienen los efectos estimados para el modelo dado en (2.40):

𝑎(𝑖) _{= 𝑎}(𝑖−1)_{+ Δ𝑚}(𝑖)

𝑟 + Δ𝑚(𝑖)𝑐

𝑟(𝑖)_𝑘 = 𝑟_𝑘(𝑖−1)+ Δ𝑟_𝑘(𝑖)− Δ𝑚𝑟(𝑖)_𝑘 ; 𝑘 = 1, . . . , 𝑝 𝑐(𝑖)_𝑙 = 𝑐(𝑖−1)_𝑙 + Δ𝑐(𝑖)_𝑙 − Δ𝑚𝑏(𝑖)_𝑙

(41)

Las predicciones de 𝜇(𝑢) son realizadas con la siguiente ecuaci´on: ˆ 𝜇(𝑢 = (𝑥, 𝑦)) = ˆ𝑎 + ˆ𝑟𝑘+ 𝑦 − 𝑦𝑘 𝑦𝑘+1− 𝑦𝑘 (ˆ𝑟𝑘+1− ˆ𝑟𝑘) + ˆ𝑐𝑘+ 𝑥 − 𝑥𝑙 𝑥𝑙+1− 𝑥𝑙 (ˆ𝑐𝑙+1− ˆ𝑐𝑙) (2.41)

con 𝑘 = 1, . . . , 𝑝 − 1; 𝑙 = 1, . . . , 𝑞 − 1, los puntos (𝑥𝑙, 𝑦𝑘), .(𝑥𝑙+1, 𝑦𝑘), (𝑥𝑙, 𝑦𝑘+1)

y (𝑥𝑙+1, 𝑦𝑘+1) son los nodos m´as cercanos al punto 𝑢.

Los residuales del modelo pueden ser tomados como un nuevo conjunto de observaciones espaciales a los que se les aplica kriging ordinario. Este procedimiento es llamado kriging con pulimiento de medianas, y la varianza de las predicciones corresponde a la varianza de kriging ordinario.

Kriging Robusto

A continuaci´on se presenta en forma resumida el algoritmo propuesto por Cressie y Hawkins en dos de sus art´ıculos ((?), (?)), para realizar predicciones robustas en presencia de datos at´ıpicos. Se asume en este caso que 𝑍(.) es intr´ınsecamente estacionario, pero no necesariamente gaussiano:

1. Estimación robusta del semivariograma experimental: para corregir el sesgo generado por los datos at´ıpicos se define en la ecuación (2.42) un estimador resistente a datos at´ıpicos y se estiman los parámetros de dependencia espacial (𝜃) por 𝑊 𝐿𝑆.

˜ 𝛾(ℎ) = ⎧ ⎨ ⎩ 1 𝑁(ℎ) ∑ 𝑁 (ℎ) ∣𝑍(𝑢) − 𝑍(𝑢 + ℎ)∣12 ⎫ ⎬ ⎭ 4_/ 2(0.457 + 0.494) 𝑁(ℎ) (2.42)

2. Con base en los par´ametros estimados en 1, se obtienen las ponderaciones 𝜆𝑖𝑗 asociadas la predicci´on de cada punto muestral ˆ𝑍−𝑗(𝑢𝑗), teniendo

en cuenta que las ponderaciones se calculan extrayendo la 𝑗 − ´𝑒𝑠𝑖𝑚𝑎 observación (2.43), en este paso también se calcula la varianza asociada a dicha predicción 𝑠−𝑗(𝑢𝑗). ˆ 𝑍−𝑗(𝑢𝑗) = 𝑛 ∑ 𝑖=1;𝑖∕=𝑗 𝜆𝑖𝑗𝑍(𝑢𝑖) (2.43)

(42)

3. Usando las ponderaciones 𝜆𝑖𝑗 obtenidas en 2, se calcula una versi´on

robusta de 𝑍(𝑢𝑖) con su mediana ponderada4:

˜

𝑍−𝑗(𝑢𝑗) = 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 𝑝𝑜𝑛𝑑𝑒𝑟𝑎𝑑𝑎(𝜆𝑖𝑗; 𝑍(𝑢𝑗); 𝑖 ∕= 𝑗) (2.44)

4. Se editan las observaciones reemplaz´andolas por su media Winsorizada:

˘ 𝑍(𝑢𝑗) = ⎧ ⎨ ⎩ 𝑍−𝑗(𝑢𝑗) + 𝑐𝑠−𝑗(𝑢𝑗) si 𝑍(𝑢𝑗) − ˜𝑍(𝑢𝑗) > 𝑐𝑠−𝑗(𝑢𝑗) 𝑍(𝑢𝑗) si ∣𝑍(𝑢𝑗) − ˜𝑍(𝑢𝑗)∣ ≤ 𝑐𝑠−𝑗(𝑢𝑗) 𝑍−𝑗(𝑢𝑗) − 𝑐𝑠−𝑗(𝑢𝑗) si 𝑍(𝑢𝑗) − ˜𝑍(𝑢𝑗) < −𝑐𝑠−𝑗(𝑢𝑗) (2.45) la constante 𝑐 controla la intensidad del suavizamiento aplicado. As´ı, si 𝑐 toma valores muy pequeños se perderá mucha variabilidad y por el contrario si toma un valor muy grande, algunos at´ıpicos no quedarán suavizados. Lo ideal es encontrar un punto intermedio; al respecto se aconseja usar valores entre 1.5 y 2.5 (según el teorema de Chebyshev se recortar´ıa aproximadamente entre 22 % y el 8 % de la variabilidad original, a cada extremo de la distribución)(?).

5. Usando los par´ametros estimados en el paso 1 (ˆ𝜃) y las observaciones originales, con kriging ordinario, se obtienen las ponderaciones {𝜆𝑖0); 𝑖 = 1, . . . , 𝑛} asociadas a cada punto de predicci´on 𝑢0. Finalmente

la predicci´on robusta est´a dada por: ˆ

𝑍(𝑟)(𝑢0) = 𝑠𝑢𝑚𝑛𝑖=1𝜆𝑖𝑍(𝑢˘ 𝑖) (2.46)

2.6.6. El enfoque bayesiano

La diferencia fundamental entre la teor´ıa clásica y la bayesiana, es que en la segunda, el parámetro de interés (𝜃) es tratado como una variable aleatoria; as´ı, la inferencia bayesiana se basa en la distribución del parámetro implementando tanto información previa como muestral. ésta es denominada distribución a posteriori 𝑝(𝜃 ∣ 𝑧). Para su obtención, es necesario especificar una distribución a priori 𝑝(𝜃), la cual representa el conocimiento que se tiene sobre (𝜃), previo a la obtención de los datos. La información suministrada por los datos muestrales 𝑝(𝑧 ∣ 𝜃) es denominada verosimilitud del parámetro dado 𝑧 y se denota 𝑙(𝜃 ∣ 𝑧).

(43)

El teorema de Bayes es utilizado para combinar esta informaci´on mediante la siguiente relaci´on:

𝑝(𝜃 ∣ 𝑧) ∝ 𝑝(𝜃)𝑙(𝜃 ∣ 𝑧) (2.47)

La distribuci´on a posteriori para 𝜃 en el modelo (??) con 𝑍(.) gaussiano: 𝑝(𝜃 ∣ 𝑧) ∝ 𝑝(𝜃) ∣𝐺(𝜃)∣−12 exp{(𝑍 − 𝑋𝛽)𝑇𝐺−1(𝜃)(𝑍 − 𝑋𝛽)} (2.48)

La base para la predicci´on bayesiana es la distribuci´on predictiva a posteriori: 𝑝(𝑧0 ∣ 𝑧) =

∫ ∫

𝑝(𝑧0 ∣ 𝑧, 𝜃)𝑝(𝜃 ∣ 𝑧)𝑑𝜃 (2.49)

La distribución predictiva toma en cuenta la verosimilitud de todo el modelo en general, en lugar de enfocarse sólo en la verosimilitud de los parámetros de covarianza(?). De esta forma el método bayesiano requiere los siguientes pasos:

1. Especiﬁcar la forma de la distribuci´on a priori 2. Encontrar la verosimilitud de los datos observados

3. Combinar la distribuci´on a priori con la verosimilitud para obtener la distribuci´on a posteriori

4. Obtener estimaciones de la distribuci´on a posteriori 5. Obtener la distribuci´on predictiva a posteriori.

La elección de la distribución a priori es muy importante, existen dos casos extremos, el primero de ellos es cuando los parámetros son perfectamente conocidos, las distribuciones a priori pueden ser consideradas como distribuciones degeneradas en los valores de los parámetros, y el segundo, es cuando el conocimiento previo acerca de los parámetros es muy vago, entonces son llamadas distribuciones a priori no informativas.

En el presente trabajo no se tiene información a priori y se utilizan distribuciones a priori no informativas de tipo 𝑝(𝜃) ∝ 𝑘 para 𝜃 variando en un conjunto de los reales, este tipo de distribuciones indican que no hay un valores particulares de 𝜃 preferidos para el parámetro(?). Tomando como referencia Diggle y Ribeiro 2000(?, Cap´ıtulo 5), a continuación se presentan las distribuciones a priori elegidas para los parámetros de interés 𝜃 = (𝛽, 𝜎2_{, 𝜙)}