III. AJUSTE A SENTIMIENTO
2.3.3 Métodos de estimación.
En geoestadística, los métodos de estimación que se emplean están basados en combinaciones lineales ponderadas:
∑
= ω = n 1 i i i est S S Ecuación 2.3. 5siendo S1, S2, ..., Sn, los n datos disponibles,
ω
1,ω
2,...,ω
n, los pesos asignadosa los datos Si, y Sest el valor estimado.
En base a la expresión 2.3.5, para conocer el valor estimado, Sest, es necesario
determinar tanto los valores observados a utilizar, Si, como los pesos que se
asignan a cada punto,
ω
i. La geoestadística es capaz de encontrar los valoresóptimos que se asignan a cada peso; una buena comprensión del fenómeno objeto de estudio, así como de la geología del área experimental, permitirán determinar cuáles y cuántos son los datos que deben emplearse.
Generalmente, aunque no se requiera en todos los métodos de estimación, los pesos están estandarizados para que su suma sea la unidad.
Las diferentes metodologías de estimación se establecen en función de la forma utilizada para asignar los pesos a los datos observados. Los métodos se basan tanto en criterios estadísticos como en consideraciones racionales, los cuales no tienen que ser incompatibles, sino todo lo contrario, con frecuencia lo que dicta el sentido común es lo mejor desde un punto de vista estadístico.
2.3.3.1 ¿Estimación local o global?
Constituye la primera cuestión a resolver antes de iniciar la selección de uno de los métodos de estimación.
Estimación global es aquella que se realiza en una amplia zona, dentro de la cual conocemos diversos puntos.
Estimación local es la realizada en un área reducida, con pocos puntos (o ninguno), lo cual obliga a seleccionar datos situados fuera de dicha área.
El objetivo de una estimación global suele ser la determinación de algunas características de los datos sobre la totalidad del área de interés, por lo que se realiza en las primeras fases de los trabajos. Un valor global único no satisface cualquier estudio, requiriéndose de forma adicional una serie de estimaciones locales. Por ejemplo, en un trabajo en el cual se investigue la contaminación del suelo, por cualquier compuesto, la estimación de la concentración global no es suficiente para decidir las localizaciones particulares en las cuales las concentraciones están sobre un límite.
Conviene también considerar la situación de los datos cuando se realiza una estimación global. Si los datos se tomaron en una red regular o de forma aleatoria, la estimación es fácil. Si existen datos agrupados en regiones concretas, la estimación debe considerar este hecho, asignándole pesos reducidos a esos datos.
Cuando las estimaciones son locales, además del agrupamiento de los datos se debe considerar la distancia al punto a estimar. Las muestras más próximas al punto estimado tendrán unos pesos mayores que las más alejadas.
2.3.3.2 ¿Estimación puntual o en bloque?
Dependiendo del tamaño de la región del área experimental a la cual se asocia la estimación realizada, se distingue entre estimación puntual, cuando la región es un punto, y estimación en bloque, cuando el tamaño es mayor.
El método de estimación que se use dependerá en gran medida del tamaño de lo que se desee estimar.
En los trabajos relacionados con las ciencias de la tierra, el tamaño de las muestras es un factor de gran importancia, ya que existe una relación entre dicho tamaño y la distribución de sus valores. Considérese el siguiente ejemplo: si se determina la riqueza en oro en muestras de roca muy pequeñas, de 1kg, la variabilidad entre datos es mucho mayor que si las muestras son rocas de 500 kg.
Cuando el tamaño de las muestras es mayor, la cantidad de datos dentro de las clases mayores tiende a disminuir; lo mismo ocurre con los datos pertenecientes a las clases menores.
En muchos trabajos, el tamaño de las muestras no coincide con el de las estimaciones que se pretenden realizar. Por ejemplo, cuando se trata de estimar la resistencia a la penetración en un suelo, los ensayos se realizan sobre un tamaño de muestra muy reducido. A partir de esas medidas puntuales se deben realizar estimaciones para superficies de terreno más amplias.
Aunque existen diversos procedimientos matemáticos para ajustar una distribución, de tal forma que se reduzca su varianza mientras la media se mantiene inalterada, sin embargo, dependen de suposiciones no verificables.
2.3.4 La Interpolación
Se define la interpolación como el procedimiento para predecir el valor de los atributos en lugares no muestreados, a partir de medidas realizadas en localizaciones puntuales existentes dentro de la misma área o región.
Si la predicción se realiza en un lugar exterior al área abarcada por las observaciones, se tiene una extrapolación.
El objeto de la interpolación es pasar de datos puntuales a dominios continuos, con el fin de realizar comparaciones y observaciones de los patrones espaciales resultantes.
Los casos, en los cuales se necesita interpolar, pueden clasificarse en 3 grupos:
1. Cuando se tienen datos observados no abarcan todo el dominio de interés.
Se puede partir de una situación inicial con muchos o pocos datos observados. Un conjunto de datos densos, son habituales cuando se desea crear un modelo de elevación digital (DEM en siglas inglesas), a partir de fotografías aéreas o imágenes de satélite, donde los datos son baratos de conseguir y los atributos se observan directamente. Sin embargo, cuando el costo de adquisición de datos es alto, tanto por los análisis en laboratorio como por los ensayos de campo, la variación espacial de los atributos investigados tienen que ser derivados de forma indirecta.
2. Si se requiere una superficie con un nivel de resolución, un tamaño de celda o una orientación, distinta a la que se posee.
Un ejemplo lo constituye el caso de conversión de imágenes escaneadas, con un tamaño u orientación determinada.
3. Si se desea una superficie representada por un modelo diferente al original.
Por ejemplo, transformación de una superficie matricial (raster) a una vectorial, o viceversa.
2.3.5 Fases en la interpolación.
Cuando se desea conocer los valores de los atributos en los puntos no observados, se procede a la interpolación sobre la zona experimental a través de una serie de etapas. Éstas son:
1. Sobre el área experimental debe definirse una retícula, generalmente rectangular, con un espaciamiento concreto entre nodos y con un origen conocido.
2. En la red se estima el valor de cada nodo por selección de los puntos próximos con valores conocidos.
3. Se realiza un filtrado de los valores de los nodos, con el fin de suavizar las líneas de contornos resultantes y permitir un mejor ajuste con los valores originales.
4. El resultado constituirá un mapa y un sistema de información georreferenciado. Los mapas constan de imágenes y/o líneas. Las imágenes son retículas, regulares o irregulares, en las cuales la variación del valor representado se indica por zonas de diferentes colores o gradientes de colores. Las líneas constituyen isolíneas, uniendo valores iguales, perfiles verticales y otros tipos de líneas, como cursos de aguas, carreteras, etc. Las imágenes y líneas suelen combinarse para mejorar las representaciones.
2.3.6 Métodos de interpolación
Aunque son muchos los métodos existentes, pueden encuadrarse en dos grupos:
a) Métodos globales. Consideran todos los datos observados del área; permite interpolar un valor en cualquier punto dentro del dominio de los datos originales. La eliminación de un dato tiene como consecuencia una alteración del dominio de definición de la función empleada.
b) Métodos locales. Emplean funciones determinadas para ciertas regiones o parcelas del área experimental. Tiene la ventaja, con respecto a los globales, de que la eliminación de un dato sólo afecta a los puntos próximos al mismo. Ejemplos de estos métodos son la triangulación, el inverso de la distancia y el Krige.
2.3.7 ¿Cuántos datos observados se necesitan para estimar
localmente?
La respuesta más habitual a la pregunta planteada sería la definición de un área de influencia y emplear todos los puntos que se encuentren en ella. Esa área de influencia es normalmente una elipse centrada en el punto a estimar, con sus ejes principales orientados en las direcciones de máxima y mínima continuidad espacial.
Elegida el área de influencia, elíptica o circular, a continuación se debe seleccionar su tamaño. Éste será función del número mínimo de muestras que se desee englobar. Si los datos se distribuyen regularmente, el área de influencia debe contener como poco una decena de muestras. Si los datos no están regularmente distribuidos, el área debe ser algo mayor que el espaciamiento medio entre muestras.
También se debe limitar el número máximo de muestras a considerar, ya que el uso de muchas muestras incrementa notablemente los cálculos y, a medida que aumenta la distancia al punto a estimar, las asunciones de estacionariedad son más dudosas. Los cálculos a realizar disminuyen si se combinan varias muestras, de las que están muy alejadas, en un solo valor (figura 2.6).
Aunque suele recomendarse que el área de influencia tenga un radio inferior al rango del variograma, la experiencia demuestra que si hay pocos puntos observados dentro de ese radio, las estimaciones mejoran sustancialmente cuando se consideran algunas muestras situadas a una distancia mayor que el rango.
Otro problema que suele encontrarse es la presencia de muestras muy cercanas, por lo tanto redundantes. Existen diversas técnicas para reducir esas posibles redundancias, siendo la más habitual la selección por cuadrantes. Consiste en dividir la zona de influencia alrededor del punto donde se realiza la estimación en cuatro cuadrados, todos ellos con un vértice común (coincidente con el propio punto). Definidos los cuadrantes, se decide el número de muestras que debe contener cada uno. Las muestras escogidas serán las más próximas al punto a estimar (figura 2.7).
P
Figura 2. 6 Para la estimación de un atributo en el punto indicado, P, se agrupan los datos observados (circunferencias) situados fuera del cuadrado rojo. Los pesos que se asignen a las agrupaciones de puntos se dividirán en partes iguales
Figura 2. 7 Uso del método de selección por cuadrantes para evitar las redundancias producidas por las muestras próximas entre sí. Se indica en azul los puntos observados seleccionados cuando se escogen los tres datos más próximos al
punto a estimar (cuadrado negro)
Finalmente, conviene decidir si las muestras seleccionadas para estimar en un punto, después de aplicar todo lo anterior cuando se precise, son o no relevantes. Es una buena práctica revisar la configuración de las muestras a emplear y decidir finalmente, de una forma subjetiva pero con una base racional, cuales se usarán para la estimación. Aunque habitualmente se define una estrategia común para toda la zona experimental, esto no es siempre positivo. Lo que produce buenos resultados en ciertas áreas, con unos datos concretos, puede que no actúe bien en otras, con diferentes datos.
La decisión acerca de la selección de datos relevantes para la estimación en un punto es más importante que la elección de un método concreto (figura 2.8). 12 15 10 9 20 16 18 23 1579 14 21 12 P
Figura 2. 8 Puntos observados que se emplearán para estimar en P. En función del objetivo final del trabajo, convendrá o no considerar el punto indicado en rojo, con un valor anormal.