10 Evaluación de diversos modelos de interpolación espacial para la
10.2 Área de estudio
La cuenca alta del río Toro está ubicada en la provincia de Alajuela, Costa Rica y tiene un área aproximada de 43.31 km2 (Figura 1). La condición de la cuenca es montañosa de alta pendiente, con elevaciones que varían entre los 2593 y los 1334 msnm y una pendiente media del 23%. Además, su régimen de precipitación promedio supera los 4000 mm/año. El uso del suelo está dominado por bosque (62%) y pastos (35%) con contribuciones bajas de otros usos como urbano y agrícola.
156
Figura 44. Area de estudio. Cuenca alta del río Toro. Zonas climáticas definidas por polígonos de Thiessen.
10.2.1 Materiales y métodos
En el análisis espacial de la cuenca, se contó con un Modelo de Elevación Digital (DEM por sus siglas en inglés) con resolución espacial de 100x100m suministrado por ICE. Por otro lado, se contó con registros históricos de precipitación diaria de 8 estaciones meteorológicas que abarcan un periodo de tiempo comprendido entre 1990 y 2010 (Figura 1). En cuanto a los resultados derivados del proceso de interpolación, los productos derivados más importantes se resumen a series temporales de precipitación promedio diaria sobre la cuenca (mm/d) para un periodo de 20 años. Dichas series, preparadas en formato ASCII, serán eventualmente utilizadas en modelos hidrológicos seleccionados. Igualmente, se analizó el comportamiento de la precipitación promedio diario mensual (mm/d/mes), la precipitación promedio mensual (mm/mes) y la precipitación promedio anual (mm/año).
En relación a los recursos de software y automatización de los procesos, se utilizó principalmente el lenguaje de programación R (www.r-project.org). Las bibliotecas de R más relevantes fueron: automap, doParallel, foreach, ggplot2, gstat, maptools, raster, rgeos y sp. También se utilizó el Sistema de Información Geográfica ILWIS (ITC 2001) para ciertas tareas. Es importante resaltar, que de acuerdo a varios experimentos numéricos iniciales, se optó por seleccionar una resolución espacial raster de 100x100m en la generación de todos los productos.
157
Lo anterior, en vista del alto costo computacional de trabajar con una resolución espacial más alta. También debe mencionarse que se utilizó la proyección cartográfica CRTM05.
En cuanto a los recursos de hardware, se utilizó un procesador Intel® Core™ i7- 930, 2.80 GHz multi-core con 24 Gb de RAM.
Finalmente, el proceso de evaluación de los diversos modelos de interpolación, se realizó mediante validación cruzada, en la cual, dos de las ocho estaciones fueron excluidas del proceso de interpolación. Posteriormente, las observaciones de esas dos estaciones, fueron comparadas contra los valores obtenidos por los diferentes modelos de interpolación. Las funciones objetivo utilizadas fueron:
El Error Medio Absoluto (Mean Absolute Error o MAE en inglés):
n P P MAE n 1 i mod i obs i
(ec.1) El Error Cuadrático Medio (Root Mean Square Error o (RMSE) en inglés):
n P P RMSE n 1 i 2 mod i obs i
(ec.2)Donde: i representa la resolución temporal, n es el número total de observaciones, P se refiere a la precipitación, obs y mod representan los valores observados y modelados respectivamente.
10.2.2 Modelos de interpolación espacial
Independientemente del grupo al que pertenezcan, todos los modelos de interpolación se basan en la misma ecuación base de pesos relativos, a saber:
n 1 i i i oλ
Z(x
)
x
Zˆ
(ec.3)Donde: Z(Xo) representa el valor estimado en el punto de interés, Z(Xi) representa el valor observado en el punto de muestreo, λi es el peso relativo asignado al punto de muestreo y η es el número de puntos de muestreo considerados.
Los siguientes fueron los modelos de interpolación seleccionados:
Modelos determinísticos:
Polígonos de Thiessen (o Nearest Neighbor NN en inglés): El modelo del vecino más cercano estima el valor del punto de interés basado en el valor del punto de muestreo más cercano; mediante el trazado de bisectores perpendiculares entre los puntos de muestreo, formando así lo que se conoce como un polígono de Thiessen.
Todos los puntos que se localicen dentro de tal polígono, tomarán el valor de consigna asignado de acuerdo a la siguiente regla de peso:
158
otherwise
0
V
x
if
1
λ
i i i (ec.4)Inverso del Peso de la Distancia (o Inverse Distance Weighting IDW en inglés): En este modelo, se estima el valor del punto de interés utilizando una combinación lineal de pesos relativos, pesados de acuerdo a una función inversa de distancia que toma en consideración el valor de consigna de los puntos de muestreo. La asunción detrás de éste supuesto, es que los puntos de muestreo que están más cercanos al punto estimado tienen mayor influencia que aquellos que se encuentran más alejados. La expresión de peso dicta lo siguiente:
n 1 i p i p i i1/d
1/d
λ
(ec.5)Donde: λi es peso relativo asignado al punto de muestreo, di representa la distancia entre el punto de interés y el punto de muestreo, p es el parámetro de potencia de la función y η es el número de puntos de muestreo considerados.
En el caso de la cuenca alta del río Toro se consideraron parámetros de potencias desde el 2 hasta el 5.
Tendencias de superficie (o Trend Surface TS en inglés): los modelos de tendencias de superficie son esencialmente métodos de regresión lineal (LM) que asumen que los datos son entre sí independientes, normalmente distribuidos y homogéneos en varianza. Bajo estas asunciones, cada valor esperado es calculado mediante el ajuste de una función polinomial, sobre todos y cada uno de los puntos de muestreo.
El ajuste se hace a través de alguna variación de regresión lineal (LM). El orden de las ecuaciones de ajuste puede variar desde orden 1 hasta orden 6. Para la cuenca alta del río Toro se utilizaron las siguientes variantes:
Trend Surface de segundo grado (TS):
i i i i 2 i 2 i oex
dy
cx
y
bx
ay
x
Zˆ
(ec.6) Trend Surface de segundo grado parabólico (TS-para):
i i i i 2 i 2 i oex
dy
c
y
bx
a
x
Zˆ
(ec.7)159
Trend Surface de segundo grado lineal (TS-lineal):
x
odx
iy
ic
iy
ibx
ia
iZˆ
(ec.8)Donde: xi y yi representan la posición cartesiana de las observaciones, a,b,c,d, y e representan los coeficientes de regresión respectivos.
Modelos Geoestadísticos:
Kriging Ordinario (o Ordinary Kriging OK en inglés): El modelo Kriging asume que existe cierto grado de correlación espacial entre los valores observados de un set de datos espacialmente distribuido. Consecuentemente, Kriging asigna los pesos relativos de la función, basado en la teoría de regionalización de variables y el análisis del modelo de Semivariograma, el cual determinará finalmente la función de interpolación. Al asumir un cierto grado de correlación espacial, para que Kriging sea válido, los puntos de muestreo deben ser densos y distribuidos en un patrón relativamente uniforme. Si por otro lado los puntos de muestreo se localizan de manera aleatoria en el espacio, Kriging arrojará estimaciones poco confiables al no poder con las asunciones originales del modelo. Antes de poder utilizar el modelo de Kriging, es necesario construir un modelo experimental de semivariograma, el cual a su vez será enfrentado a uno de los diversos modelos de semivariogramas determinísticos; lo cual finalmente determinará la función de interpolación.
La semivarianza experimental de un set de datos observados es definida como:
2 n 1 i i i)- Z(x h) Z(x 2n 1 (h) γˆ
(ec.9)Donde: ŷ(h) representa el peso relativo del punto de muestreo en relación al valor de la semivarianza en el punto de interés, h es la distancia que separa los puntos de muestreo considerados, Z(xi) representa el valor observado en el punto de muestreo y η es el número de puntos de muestreo considerados.
Un gráfico de semivarianza contra distancia es lo que comúnmente se conoce como un Semivariograma Experimental. La Figura 2 muestra un semivariograma típico en el cual se distinguen tres parámetros importantes: el Nugget, el Range y el Sill. El semivariograma experimental, debe ser enfrentado a diversos modelos de semivariogramas determinísticos. Esto permitirá que los valores experimentales de carácter discreto, se ajusten a una función de carácter continuo. Dentro de los modelos destacan: esférico, exponencial, gaussian, esférico y potencial.
Kriging Universal (o Universal Kriging UK en inglés): el Kriging Universal es una extensión del Kriging Ordinario con la diferencia de que se incorpora una tendencia de superficie local dentro del dominio de la distancia limitante (ventana de búsqueda), lo que se supone, fomenta una tendencia superficial más suave
160
que el Kriging Ordinario. Igualmente, el ajuste de las tendencias de superficie puede variar desde orden 1 hasta orden 6.
Figura 2. Ejemplo del ajuste de un semivariograma experimental contra un modelo teórico. Se distinguen los parámetros Nugget, Range y Sill.