Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos

Texto completo

(1)Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos. Raúl Alejandro Murillo Castañeda. Universidad Distrital Francisco José de Caldas Facultad de ingeniería, Maestría en Ciencias de la Información y las Comunicaciones Bogotá, Colombia 2018.

(2)

(3) Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos Raúl Alejandro Murillo Castañeda. Tesis presentada como requisito parcial para optar al título de: Magister en Ciencias de la Información y las Comunicaciones. Director: Álvaro Enrique Ortiz Dávila. Msc. Línea de Investigación: Geomática Grupo de Investigación: Núcleo de Investigación en Datos Espaciales (NIDE). Universidad Distrital Francisco José de Caldas Facultad de ingeniería, Maestría en Ciencias de la Información y las Comunicaciones Bogotá, Colombia 2018.

(4)

(5) La preocupación por el hombre y su destino siempre debe ser el interés primordial de todo esfuerzo técnico. Nunca olvides esto entre tus diagramas y ecuaciones.. Albert Einstein.

(6)

(7) Resumen y Abstract. VII. Resumen El presente proyecto está orientado a la implementación de un método de clasificación supervisada sobre imágenes provenientes sensores remotos ya sean activos o pasivos almacenadas en una base de datos espacial de tipo relacional que permita contribuir a la clasificación de imágenes, según parámetros de normalidad y anormalidad donde se consiga además almacenar estos resultados dentro del mismo sistema manejador de bases de datos. Dado que el algoritmo de clasificación supervisada Máquinas de Soporte Vectorial (MSV) es ampliamente aceptado por la comunidad científica como una de las mejores técnicas de clasificación, ya que permite tener una muy buena exactitud en el diagnóstico de las diferentes coberturas presentes en el suelo, puesto que busca no solo encontrar una disociación entre estas, sino lograr una separación entre los elementos a clasificar, se implementará como técnica de clasificación para el proyecto. La aplicación está diseñada para el usuario final, que permita no sólo obtener un apoyo y sustento al momento de tomar decisiones, sino que facilite la actualización de la base de datos, la inclusión o la eliminación de información de la misma, así como la posibilidad de elegir las características principales que se deban tener en cuenta durante el proceso de clasificación. Esta utilidad es de gran valor, ya que al trabajar con imágenes de características similares, la posibilidad de establecer rangos de disociación o pesos a las diferentes coberturas afecta directamente el resultado que se espera obtener. Finalmente se presentará un caso de estudio relacionado con la deforestación de la amazonia colombiana donde se demostrará la utilidad de la aplicación por medio de una clasificación supervisada la cual será comparada con el módulo de clasificación de algunos software que la implementan en la actualidad.. Palabras clave: Máquinas de soporte vectorial, coberturas, imágenes raster, clasificación, base de datos espacial..

(8) VII I. Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos. Abstract The present project is oriented to the implementation of a supervised classification method on images from remote sensors stored in a spatial database that allows contributing to the diagnosis of image classification, according to parameters of normality and abnormality where it is also possible to store these results within the same database manager system. Given that the supervised classification algorithm Vector Support Machines (MSV) is widely accepted as one of the best classification techniques because it allows to have a very good accuracy in the diagnosis of the different coverages present in the ground, since it seeks not only to find a dissociation between these, but to achieve a separation between the elements to be classified, will be implemented as a classification technique for the pilot project to be carried out. The application will be designed for the end user, which allows not only to obtain support and sustenance when making decisions, but also to facilitate the updating of the database, the inclusion or elimination of information from it, as well as the possibility to choose the main characteristics that must be taken into account during the classification process. This utility is of great value, since when working with images of similar characteristics, the possibility of establishing dissociation ranges or weights to the different coverages directly affects the expected result. Finally, a case study related to the deforestation of the Colombian Amazon will be presented, where the usefulness of the application will be demonstrated through a supervised classification which will be compared with the classification module of some software that implements it at present.. Keywords: Vector support machines, coverages, raster images, classification, spatial database..

(9) Contenido. IX. NOTA DE ACEPTACIÓN. Nota de aceptación. _________________________________________ _________________________________________ _________________________________________ _________________________________________ _________________________________________ _________________________________________ _________________________________________ _________________________________________ _________________________________________ _________________________________________. _________________________________________ Director _________________________________________ Jurado _________________________________________ Jurado.

(10)

(11) Contenido. XI. Contenido Pág. Resumen ........................................................................................................................ VII Lista de figuras ............................................................................................................ XIV Lista de tablas ............................................................................................................. XVI Introducción .................................................................................................................... 1 Justificación .................................................................................................................... 3 Objetivos .......................................................................................................................... 5 Objetivo General. ....................................................................................................... 5 Objetivos específicos ................................................................................................. 5 Problema de investigación ............................................................................................. 6 1.. Teledetección ........................................................................................................... 9 1.1 Definición de teledetección .............................................................................. 9 1.2 Historia de la teledetección ............................................................................ 10 1.3 Elementos Básicos de la Teledetección ......................................................... 14 1.4 Características de las imágenes obtenidas por sensores remotos ................. 15 1.4.1 Imágenes de sensores remotos .......................................................... 15 1.4.2 Resolución de las imágenes de sensores remotos .............................. 17 1.4.3 Errores en la captación de las imágenes de sensores remotos ........... 19 1.4.4 Satélites Landsat................................................................................. 20 1.4.5 Combinación de imágenes verdadero color ........................................ 22 1.4.6 Combinación de imágenes falso color ................................................. 23 1.4.7 Índice de Factor Optimo OIF ............................................................... 24 1.5 Clasificación de imágenes ............................................................................. 25 1.5.1 Clasificación supervisada y no supervisada de imágenes ................... 25 1.5.2 Algoritmos de clasificación supervisada de imágenes ......................... 28 1.5.3 Algoritmos de clasificación no supervisada de imágenes .................... 28 1.6 Máquinas de Soporte Vectorial (MSV) ........................................................... 29 1.6.1 Funciones de decisión dentro de las MSV........................................... 30 1.6.2 Clasificación linealmente separable .................................................... 31 1.6.3 Clasificación linealmente no separable ............................................... 34 1.6.4 Kernels ................................................................................................ 35 1.7 Indicadores de calidad de los clasificadores .................................................. 37 1.8 Bases de Datos Espaciales ........................................................................... 38.

(12) XII. Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos 1.8.1 Características .....................................................................................38 1.8.2 Sistema de Gestión de Base de Datos SGBD......................................39 1.8.3 Información vectorial ............................................................................41 1.8.4 Información Raster ..............................................................................42 1.8.5 Aplicaciones ........................................................................................45 1.8.6 Modelo de datos orientado a objetos ...................................................46 1.9 Ingeniería de software ....................................................................................47 1.9.1 Modelo Lineal Secuencial ....................................................................48. 2.. Metodología y diseño .............................................................................................51 2.1 Etapa de desarrollo: análisis, diseño y generación de código .........................52 2.1.1 Algoritmo MSV .....................................................................................53 2.1.2 Calculo de calidad en la clasificación ...................................................54 2.2 Etapa de Pre - procesamiento ........................................................................55 2.2.1 Recorte ................................................................................................55 2.2.2 Reescalar ............................................................................................57 2.2.3 Combinación de imágenes ..................................................................57 2.2.4 Almacenamiento de la imagen en la base de datos .............................61 2.3 Etapa de extracción de características ...........................................................63 2.4 Clasificación (Maquinas de soporte vectorial) .................................................71 2.4.1 Entrenamiento .....................................................................................71 2.4.2 Clasificación ........................................................................................72 2.4.3 Validación de la clasificación de imágenes ..........................................73 2.5 Herramientas utilizadas para la investigación .................................................73 2.5.1 Erdas Imagine......................................................................................73 2.5.2 ENVI ....................................................................................................74 2.5.3 Orfeo Toolbox ......................................................................................76 2.5.4 PostgreSQL .........................................................................................77 2.5.5 PostGIS ...............................................................................................78 2.5.6 Python .................................................................................................79. 3.. Resultados Obtenidos ............................................................................................82 3.1 Objetivo # 1: Desarrollar e implementar el algoritmo de clasificación supervisada sobre una base de datos espacial. ........................................................82 3.2 Objetivo # 2: Preparación de las imágenes de acuerdo a la zona de estudio .83 3.3 Objetivo # 3: Comprobar la aplicabilidad de la extensión mediante un caso de estudio ......................................................................................................................84 3.3.1 Clasificación MSV con ENVI. ...............................................................84 3.3.2 Clasificación MSV con ORFEO Toolbox ..............................................85 3.3.3 Clasificación MSV con el aplicativo desarrollado .................................86 3.4 Objetivo # 4: Comparar los resultados obtenidos con otros softwares especializados en clasificación supervisada .............................................................88 3.4.1 Matriz de confusión ENVI ....................................................................89 3.4.2 Matriz de confusión MONTEVERDI (ORFEO) .....................................90 3.4.3 Matriz de confusión con el aplicativo desarrollado ...............................91. 4.. Conclusiones y recomendaciones ........................................................................93 4.1 Conclusiones ..................................................................................................93 4.2 Recomendaciones..........................................................................................94.

(13) Contenido. XIII. Bibliografía .................................................................................................................... 96.

(14) Contenido. XIV. Lista de figuras Pág. Figura 1-1 Elementos básicos de un sistema de teledetección ....................................... 15 Figura 1-2 Imagen Landsat de Santa fe de Bogotá (bandas 2, 5 y 7) .............................. 16 Figura 1-3 Imagen Landsat de Santa Fe de Bogotá (bandas 4, 3 y 2: color verdadero) .. 17 Figura 1-4 Esquema general del satélite Landsat 8 ........................................................ 21 Figura 1-5 Combinación 4,3,2, Verdadero color, Santa fe de Bogotá .............................. 23 Figura 1-6 Combinación Intensidad, Matiz, Saturación, Falso color, Santa fe de Bogotá 24 Figura 1-7 Esquema del proceso de clasificación de imágenes ...................................... 26 Figura 1-8 Funciones de decisión ................................................................................... 31 Figura 1-9 Clasificador convencional .............................................................................. 32 Figura 1-10 Clasificador Óptimo ...................................................................................... 34 Figura 1-11 Clasificador No-lineal. .................................................................................. 35 Figura 2-1 Metodología propuesta .................................................................................. 51 Figura 2-2 Arquitectura del Algoritmo MSV ..................................................................... 52 Figura 2-3 Arquitectura Etapa de Pre - Procesamiento ................................................... 55 Figura 2-4 Imagen en verdadero color (4,3,2) zona de estudio La Macarena .................. 57 Figura 2-5 Imagen Pseudocolor a partir del OIF 356 ....................................................... 61 Figura 2-6 Creación de la base de datos con Postgis ..................................................... 62 Figura 2-7 Imagen cargada en Qgis almacenada desde Postgis .................................... 63 Figura 2-8 Estratos de intervención por deforestación en la zona de estudio .................. 64 Figura 2-9 Selección de pixeles ...................................................................................... 69 Figura 2-10 Polígonos de entrenamiento ........................................................................ 72 Figura 2-11 Interfaz gráfica de Erdas Imagine 2014 ....................................................... 74 Figura 2-12 Interfaz gráfica de ENVI. Imagen de satélite: Amazonas 2017. .................... 76 Figura 2-13 Interfaz gráfica de Monteverdi (extensión ORFEO Toolbox) . ...................... 77 Figura 2-14 Interfaz gráfica de PostgreSQL + Extensión PostGIS. ................................. 79 Figura 2-15 Ambiente de programación con python. ....................................................... 81 Figura 3-1 Mapa resultante de la clasificación supervisada MSV utilizando el software comercial ENVI ............................................................................................................... 85 Figura 3-2 Mapa resultante de la clasificación supervisada MSV utilizando el software libre Monteverdi (Orfeo) .................................................................................................. 86 Figura 3-3 Mapa resultante de la clasificación supervisada MSV utilizando el aplicativo desarrollado .................................................................................................................... 87 Figura 3-4 Mapa resultante de la clasificación supervisada MSV utilizando el aplicativo desarrollado versus la estratificación de la deforestación en la zona de estudio ............. 88.

(15) Contenido. XV.

(16) XVI. Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos. Lista de tablas Pág. Tabla 1 Periodo de actividad de los satélites Landsat ..................................................... 20 Tabla 2 Desviación estándar de cada una de las bandas de la imagen .......................... 58 Tabla 3 Matriz de Correlación de las bandas de la imagen ............................................. 59 Tabla 4 Calculo del OIF a partir de cada combinación de bandas posible....................... 59 Tabla 5 Variables ecológicas de vegetación zona la Macarena Meta .............................. 65 Tabla 6 Características principales de las 7 clases presentes en la imagen satelital ...... 67 Tabla 7 Características de la imagen procesada............................................................. 83 Tabla 8 Matriz de confusión clasificación supervisada MSV utilizando el software comercial ENVI ............................................................................................................... 89 Tabla 9 Matriz de confusión clasificación supervisada MSV utilizando el software libre Monteverdi (Orfeo) .......................................................................................................... 90 Tabla 10 Matriz de confusión clasificación supervisada MSV utilizando el software desarrollado .................................................................................................................... 91 Tabla 11 Comparación de los resultados obtenidos ........................................................ 92.

(17) Introducción. El presente trabajo de investigación desarrolla una herramienta sobre un sistema manejador de bases de datos espaciales PostGis que toma imágenes de sensores remotos como fuentes de datos y el algoritmo de máquinas de soporte vectorial (MSV) como método de clasificación, a través de los cuales; se logró una simbolización temática y lógica por clases de las diferentes coberturas del suelo presentes en la imagen. La información presente en una imagen se puede clasificar como cobertura de suelo, agua, vegetación, entre otras. Con el fin de dar un entendimiento más profundo a esta fuente de información, se empieza presentando el estado del arte en donde se dará los conceptos básicos y usos de las imágenes; además se expone la utilidad y el significado de cada una de las bandas y la filosofía de la solución donde se expone el algoritmo y la teoría que sustenta las MSV dentro del proceso de clasificación supervisada. Gracias a esta clasificación es posible generar mapas de usos y coberturas, tomando como referencia las imágenes raster, de aquí radica la importancia de utilizar un algoritmo basado en MSV estructurado sobre un sistema manejador de bases de datos espaciales de libre licenciamiento que permita el fácil acceso a la herramienta, ya que en la actualidad este módulo existe dentro de los paquetes de software licenciado y en muy pocos paquetes de software de libre licenciamiento, lo cual hace que sea de difícil acceso. Se realizó una comprobación del funcionamiento de la aplicación con una sustentación práctica sobre la zona de estudio en la amazonia colombiana a partir de una imagen obtenida por el sensor Landsat 8 OLI, donde se hizo un análisis de la deforestación y se explicó el funcionamiento del algoritmo de clasificación supervisada por medio de las.

(18) 2. Introducción. MSV, donde se analizaron los resultados sometiéndolos a una comparación con los resultados obtenidos a partir de clasificar la misma imagen en otros paquetes de procesamiento digital de imágenes que implementan el algoritmo de clasificación supervisada MSV. Por último, se exponen las conclusiones y recomendaciones de los efectos de aplicar la clasificación supervisada a partir del algoritmo MSV en imágenes de sensores remotos almacenadas en bases de datos espaciales..

(19) Introducción. 3. Justificación. Los resultados obtenidos por los algoritmos de clasificación supervisada de imágenes traídas de los diferentes sensores remotos tienen muchas aplicaciones en el ámbito cartográfico, ya que pueden ser estas medioambientales, sociales, políticas, entre otras. Estos resultados son los principales elementos que utilizan muchos sistemas de información geográficos (SIG) para ofrecer al usuario la información requerida, como por ejemplo los mapas de usos y cobertura del suelo, la prevención de desastres naturales, la evaluación del impacto en cuanto a los usos de los recursos naturales o el estudio del cambio climático. Con el acelerado crecimiento del volumen de estos datos obtenidos por imágenes de sensores remotos, se ha configurado como una necesidad almacenar esta información de forma estructurada y fácil de consultar[1], de aquí nace la importancia de almacenar esta información en bases de datos espaciales, aunque en muchos casos almacenar y procesar esta información es muy difícil y complejo ya que se requieren operaciones de recuperación y análisis de la información que sean rápidas y precisas. Las tendencias actuales para el tratamiento de la información geoespacial están enfocadas en el desarrollo de técnicas basadas en la representación y recuperación de estos datos desde un punto de vista semántico. En este sentido cuando hablamos de información de tipo raster aún falta mucho para que estos datos almacenados sobre una base de datos espacial se asemejen al nivel de abstracción que se logra con la información vectorial. El hecho de lograr que los análisis se hagan directamente en la base de datos le da una ventaja en ejecución a los procesos analíticos realizados por los sistemas manejadores de bases de datos[2], por lo que es muy importante lograr acercar los análisis de la información espacial en la base de datos a todos los niveles incluyendo.

(20) 4. Introducción. la información raster. Por lo tanto con este trabajo de investigación, se implementó una nueva herramienta que mediante la utilización del método de clasificación supervisada basado en máquinas de soporte vectorial se brinde resultados más precisos y ajustados, que además estén soportados sobre una plataforma no propietaria. La herramienta desarrollada se fundamentó en el algoritmo de máquinas de soporte vectorial, ya que a partir de diferentes estudios se ha comprobado que genera muy buenos resultados[3],[4],[5] además de su facilidad en el manejo de grandes volúmenes de información, puesto que logra altos niveles de confiablidad en los resultados[6]. Por otro lado, es importante destacar que la herramienta utiliza imágenes almacenadas directamente en una base de datos espacial de la extensión PostGis, ya que con esto se reducen costos de procesamiento, además se dio una visión más amplia en el sentido de almacenamiento de información de tipo raster y procesamiento de la misma sobre bases de datos espaciales y la caracterización de las imágenes para conseguir una óptima clasificación..

(21) Introducción. 5. Objetivos A continuación se presentan los objetivos del presente proyecto:. Objetivo General. Diseñar e implementar una extensión sobre el gestor de bases de datos espaciales PostGis que emplee el algoritmo de clasificación supervisada Máquinas de Soporte Vectorial sobre la representación de imágenes de sensores remotos.. Objetivos específicos  Desarrollar e implementar las funcionalidades y procedimientos que permiten ejecutar el algoritmo de clasificación supervisada MSV desde el gestor de base de datos espacial PostGis sobre imágenes almacenadas en una base de datos espacial.  Preparar las imágenes de acuerdo a la zona de estudio, para realizar un buen procedimiento de clasificación.  Comprobar la aplicabilidad de la extensión mediante un caso de estudio sobre la deforestación en una zona piloto de la selva amazónica colombiana utilizando imágenes satelitales Landsat 8 OLI.  Comparar los resultados obtenidos a partir de la aplicación del algoritmo desarrollado, con los resultados provenientes de aplicar la clasificación supervisada con máquinas de soporte vectorial en diferentes paquetes de procesamiento digital de imágenes como ORFEO y ENVI para determinar precisiones y calidad de resultados..

(22) 6. Introducción. Problema de investigación. La clasificación supervisada de datos, es el proceso que se lleva a cabo para encontrar propiedades comunes entre un conjunto de datos y clasificarlos dentro de diferentes rangos, de acuerdo a un modelo de clasificación[7]. El objetivo de la clasificación es primero desarrollar una descripción o modelo para cada clase usando las características disponibles en los datos[7]. Tales descripciones de las clases son entonces usadas para agrupar futuros datos de prueba en la base de datos o para desarrollar mejores descripciones (llamadas reglas de descripción) para cada clase en la base de datos[7]. Por lo general este tipo de clasificaciones tienen implicaciones relativamente elevadas, debido a los costos de las imágenes de alta resolución, y del software implementado para realizar la clasificación, ya que a través de esta investigación se comprobó que hoy en día no existe una herramienta que realice una clasificación supervisada de imágenes integrada a una base de datos espacial que sea de libre licenciamiento. Adicionalmente, se debe agregar el factor humano, ya que al clasificar las imágenes se debe incluir todo el aporte experimental para lograr un resultado lo más acercado posible a la realidad[8]. En este sentido y de forma general aún se aplican las mismas técnicas de clasificación de los años setenta[9], y si bien la investigación y el desarrollo de métodos avanzados de clasificación han rendido frutos aún no se ha identificado un método que sea aceptado por la comunidad científica y académica que compita directamente con los algoritmos tradicionales[10], [11]. Por tal motivo, en los últimos años alrededor del mundo se han venido desarrollando algoritmos de detección y clasificación supervisada de imágenes [12],[13],[14], en los cuales se desarrollan clasificadores utilizando redes neuronales, lógica difusa, redes Bayesianas entre otros. Sin embargo muchos de estos algoritmos requieren de una herramienta que brinde el soporte y la capacidad computacional para su ejecución dentro.

(23) Introducción. 7. de un ambiente de desarrollo comercial, lo cual limita su uso[15]. Por tal motivo utilizar un sistema de clasificación basado en Maquinas de Soporte Vectorial (MSV) almacenada en una base de datos espacial establecida a partir de una herramienta libre como lo es Postgres SQL es una solución novedosa de alta precisión en la clasificación y regresión de datos, siendo una herramienta poderosa para el desarrollo de sistemas multiclasificadores[16]..

(24)

(25) 1. Teledetección En la actualidad existen en funcionamiento una gran cantidad de sensores remotos, los cuales están destinados al monitorio y observación de diferentes características de la tierra, los cuales día a día proveen una gran cantidad de imágenes que tienen diferentes finalidades como por ejemplo el monitoreo del clima, evaluación de la forma de la tierra, aplicaciones medioambientales, militares entre otras. Debido al gran repositorio de imágenes relacionadas con la teledetección, es necesario la implementación de nuevos algoritmos computacionales que automaticen los procesos de análisis e interpretación de las imágenes, con el fin de optimizar y mejorar los resultados obtenidos por algoritmos ya existentes en la literatura.. 1.1 Definición de teledetección Desde un punto de vista estrictamente técnico, podemos definir la teledetección como “el conjunto de técnicas, aparatos y procedimientos que permiten obtener y analizar imágenes de la superficie de la Tierra desde sensores ubicados remotamente"[17],[18]. La palabra teledetección realmente corresponde a la traducción de la expresión inglesa remote sensing, ciencia aplicada que surgió a principio de los años 60 para definir los métodos de observación remota de la superficie de la tierra. Aunque en sus orígenes este término se aplicó principalmente a la fotografía aérea, posteriormente también se incluyó la observación a través de plataformas de observación satelitales, surgiendo así la teledetección satelital. La teledetección es una ciencia aplicada que permite la adquisición de información sobre la superficie terrestre sin necesidad de tener contacto real con la zona que está siendo observada[19]. Esta ciencia se puede utilizar en diferentes aplicaciones[20],[21],[22] dando soporte para resolver y mejorar los problemas derivados de las diferentes temáticas que se estén modelando a partir de ella, por ejemplo problemas.

(26) 10. Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos. medioambientales, climatológicos, de temperaturas, etc. En este espectro de aplicaciones, podemos encontrar algunas que incluyen tipificación del suelo, análisis de recursos hídricos, establecer zonas de protección ambiental o simplemente análisis multitemporales, entre otras.. 1.2 Historia de la teledetección Primer periodo: Inicio 1859. Bajo el seudónimo de Nadar, Gaspard Felix Tournachon utilizó un globo para realizar las primeras fotografías aéreas sobre el bosque de Boulogne y el Arco del Triunfo. Intuyó que era posible la aplicación de la fotografía aérea a los levantamientos topográficos y catastrales[23]. De forma paralela, James Wallace Black registró una de las primeras fotografías aéreas sobre el distrito de negocios de Boston desde un globo, a una altitud aproximada de 365 metros[24]. En 1903 Orville Wright se convirtió en la primera persona en volar sobre una aeronave, el Flyer, más pesada que el aire. Otros especialistas consideran a Alberto Santos Dumont el protagonista de esta hazaña, ya que voló, en septiembre de 1906, a bordo del 14-bis sin ayuda externa[23]. En cualquier caso, poco más tarde, en 1909, Wilburg Wright adquirió la primera fotografía captada desde un avión, iniciando un largo y fructífero periodo de campañas y misiones fotográficas, que se prolongan hasta la actualidad, con fines militares, civiles y aplicaciones temáticas muy variadas[23]. En 1915, J.T.C. Moore-Brabazon desarrolló la primera cámara aérea de la historia, diseñada específicamente para ser accionada desde un avión. Durante la I Guerra Mundial se registró gran número de misiones fotográficas de reconocimiento. Enseguida se comprendió la gran importancia estratégica de esta nueva información geográfica para los ejércitos contendientes. Los aviones de reconocimiento se convirtieron en objetivos prioritarios[24]..

(27) Capítulo 1. 11. En el periodo de entreguerras aparecieron nuevas emulsiones que favorecieron nuevas aplicaciones. La II Guerra Mundial fomentó definitivamente el empleo sistemático de la fotografía aérea gracias a los avances de la técnica fotográfica (óptica de las cámaras de reconocimiento y de las emulsiones utilizadas), de la aviación (plataformas más estables) y a la continua demanda de información geográfica[25]. Los fotointérpretes fueron entrenados para realizar tareas complejas de identificación directa de los objetos o mediante deducción. En esta época se comenzaron a utilizar las primeras películas en infrarrojo, desarrolladas por Kodak. Asimismo, se introdujeron nuevos sensores como el radar y se utilizaron, habitualmente, los pares estereoscópicos[23]. Segundo periodo: Inicio 1957. La desaparecida URSS lanzó el primer satélite artificial, el Sputnik, en el contexto de lo que se ha denominado “carrera espacial”. Se trata de un hito histórico de gran importancia para la teledetección, ya que esta misión y esta plataforma inauguran una nueva época para la observación de la tierra. Ha sido seguida de numerosas misiones civiles y militares. Se dice que en los últimos 60 años, la cartografía ha avanzado más que a lo largo de toda su historia, cumpliendo la intuición de Sócrates de que era necesario elevarse más allá de la atmósfera para conocer mejor nuestro planeta y disponer de un punto de vista más global[26]. En 1960, la NASA puso en órbita el primer satélite de observación de la tierra, TIROS-1, pionero de la investigación meteorológica desde el espacio. Ésta es una de las aplicaciones claramente operativas desde la década de los años 70. Desde 1979, los satélites de esta familia pasaron a denominarse NOAA (National Oceanic and Atmospheric Administration), como la agencia meteorológica responsable de sus operaciones. Una de las principales ventajas de este satélite, de órbita polar, es su buena resolución temporal, proporciona una imagen cada 6 horas, gracias a la sincronización de dos satélites[27]. En la década de los años 60, junto a los satélites artificiales, las misiones tripuladas aportaron más de 35.000 imágenes tomadas por los astronautas, conscientes del interés.

(28) 12. Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos. científico de las mismas. Las primeras fueron tomadas por Alan B. Shepard durante una de las misiones de la plataforma Mercury, en 1961[23].. Entre 1965 y 1966, se desarrolló el programa Gemini. Sus investigaciones geológicas y oceanográficas permitieron obtener 2.400 fotografías desde el espacio[24].. Los astronautas fueron adquiriendo un creciente entrenamiento en ciencias de la tierra, meteorología y oceanografía. Desarrollaron una sensibilidad especial para captar megaformas, gracias a la visión global de la superficie terrestre adquirida durante las misiones espaciales, esto unido a los avances en estudios de numerosos fenómenos naturales y humanos, en ocasiones, permitió la prevención de desastres[23].. Más tarde, las misiones Apollo ensayaron nuevos experimentos científicos. Desde Apollo-6 se obtuvieron 750 fotografías de alta resolución espacial, estereoscópicas, en color. En Apollo-9 se embarcaron cuatro cámaras Hasselblad con filtros multiespectrales y películas en blanco y negro sensibles a distintas longitudes de onda y en infrarrojo color[28].. Tercer Periodo: Inicio 1972. Los éxitos acumulados por la NASA, hicieron concebir nuevos proyectos focalizados en la cartografía y evaluación de recursos naturales. El 23 de julio de 1972 se puso en órbita el primer satélite de la serie ERTS (Earth Resources Technollogy Satellite), rebautizada LANDSAT, a partir de 1975. Esta familia de satélites ha sido la más fructífera en aplicaciones civiles de la teledetección[23]. Los estudios han crecido de forma exponencial y han incidido en temáticas muy diversas[29].. En 1981, el lanzamiento del transbordador espacial Space Shuttle supuso un nuevo hito en la carrera espacial. A lo largo de las veinte misiones que se sucedieron entre 1981 y 1994 se obtuvieron 45.000 fotografías espaciales, de dominio público. Entre todas, merece la pena destacar las fotografías estereoscópicas obtenidas desde esta plataforma tripulada por las cámaras métricas RMK (Zeiss) y de gran formato (Itek) con objeto de probar sus aptitudes para generar cartografía topográfica básica de escalas medias, a bajo coste, en los países menos desarrollados[23]. En 1986, Francia, en.

(29) Capítulo 1. 13. colaboración con Bélgica y Suecia, lanza el satélite SPOT (Système Pour l’Observation de la Terre). Este satélite, de órbita heliosíncronica, tiene una repetitividad de 26 días[24].. Se han lanzado otros cuatro satélites de la misma familia en 1990, 1993, 1998 y 2002. El sensor HRV (Haute Résolution Visible) dispone de una tecnología de exploración por empuje. Incorpora la posibilidad de captar escenas verticales y oblicuas en dos órbitas sucesivas, gracias a lo cual es posible disponer de imágenes estereoscópicas. En 1991, la Agencia Espacial Europea (ESA), lanzó su primer satélite de teledetección, el ERS-1 (European Remote Sensing Satellite)[24].. En 1995, se lanzó el segundo satélite de esta serie, el ERS-2. Su objetivo era complementar a los sensores ópticos embarcados en Landsat y SPOT. Aunque sus aplicaciones han sido muy variadas, se orientaban al estudio de los océanos y de la criosfera. Junto a los sensores activos de tipo radar, se han embarcado otros dispositivos de barrido térmico, altímetros y medidores de ozono[28]. Cuarto Periodo: Inicio 1999. En septiembre de 1999, se lanza el satélite IKONOS-2, con 1m de resolución espacial. De esta manera, Space Imaging, ahora integrada en la empresa Geoeye, inaugura el mercado de los satélites comerciales de teledetección, ocupando un segmento comercial, el de las observaciones de alta resolución espacial, hasta entonces reservado a la fotografía aérea. En octubre de 2001, la empresa Digital Globe lanza el satélite Quickbird, con dos cámaras de alta resolución espacial, 61 cm en modo pancromático y de 2,5 m en modo multiespectral[23].. En diciembre de 1999, la NASA lanza el satélite TERRA. Unos años más tarde, en mayo de 2002, se pone en órbita el satélite AQUA. Ambas plataformas forman parte del ambicioso programa EOS (Earth Observing System), un sistema de observación global de la tierra que organiza los satélites participantes en torno a una constelación. Los sensores embarcados (ASTER, MODIS, CERES, MISR, MOPPIT, entre otros) se complementan para generar variables de gran interés ambiental y estudiar procesos globales[24].. El 29 de julio de 2009, Deimos Imaging (DMI) lanza, con éxito, el primer satélite de observación de la tierra, DEIMOS-1, explotado por una empresa española privada. Se.

(30) 14. Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos. trata de una plataforma de órbita heliosíncrona, a 680 km de altitud. Dispone de 6 cámaras que captan información en las regiones espectrales del verde, rojo e infrarrojo próximo, con una resolución espacial de entre 20m y 22 m, se espera que cubra múltiples aplicaciones desde los estudios de agricultura y ocupación del suelo hasta la gestión de recursos naturales y prevención de desastres[30].. 1.3 Elementos Básicos de la Teledetección. Un sistema genérico de teledetección[31] suele incluir todos los elementos que se muestran en la Figura 1.1: Fuente de energía: produce la radiación electromagnética captada por los sensores del satélite, que puede ser pasiva (como la luz solar) o activa (emitida por el propio sensor para posteriormente captar el reflejo). Superficie terrestre: natural o artificial, y refleja la radiación electromagnética. Sistema sensor: formado por los sensores (cámaras, radar, etc…) y la plataforma de observación (satélite, avión, etc…), que recoge la radiación electromagnética emitida por la superficie terrestre y la enviada al sistema de recepción. Sistema de recepción: recibe y almacena la información del sistema sensor. Interprete: transforma los datos recibidos en información útil para el usuario. Analista experto: utiliza la información interpretada con algún objetivo..

(31) Capítulo 1. 15. Figura 1-1 Elementos básicos de un sistema de teledetección Fuente:[32]. 1.4 Características de las imágenes obtenidas por sensores remotos 1.4.1 Imágenes de sensores remotos. Una imagen es un archivo tipo raster formado por una matriz de celdas, donde cada celda se denomina pixel. A cada pixel se le asignan varios valores digitales, que corresponden a la reflectividad recogida por un sensor específico. Las imágenes son almacenadas en diversas bandas espectrales, donde cada banda almacena el valor que corresponde a cada pixel de la imagen en un intervalo concreto del espectro electromagnético. Por lo tanto, una imagen es en realidad un conjunto de imágenes, con las mismas propiedades geométricas, donde cada imagen almacena el valor de reflectancia de los pixeles en un intervalo de longitud de onda concreto del espectro electromagnético[33]..

(32) 16. Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos. Las imágenes obtenidas por sensores remotos pueden tener un número reducido de bandas, como es el caso de las imágenes multiespectrales (menos de 10 bandas) o un número muy elevado, como ocurre con las imágenes hiperespectrales (con cientos de bandas)[33]. En una imagen captada por sensores remotos también se pueden combinar distintas bandas entre sí, para conseguir diferentes resultados, dependiendo del estudio que se quiera realizar. Las Figuras 1-2 y 1-3 muestran la misma imagen de satélite, combinando distintas bandas.. Figura 1-2 Imagen Landsat de Santa fe de Bogotá (bandas 2, 5 y 7) (Fuente: Elaboración Propia).

(33) Capítulo 1. 17. Figura 1-3 Imagen Landsat de Santa Fe de Bogotá (bandas 4, 3 y 2: color verdadero) (Fuente: Elaboración Propia). 1.4.2 Resolución de las imágenes de sensores remotos Los sensores remotos captan la radiación emitida o reflejada por la superficie terrestre en cuatro dimensiones distintas: espacio, tiempo, longitud de onda y radiancia[33]. Toda esta información debe ser muestreada por los sensores para convertirla en datos digitales discretos. Este proceso de discretizacion tiene por lo tanto cuatro resoluciones posibles[33]: Resolución espacial: es la superficie terrestre que almacena cada pixel de la imagen. También se suele usar el concepto de IFOV, o campo instantáneo de visión, que se define como la sección angular en radianes observada en un momento determinado. En la ecuación 1.1 se muestra la relación entre IFOV y el tamaño de pixel:. 𝑑 = 2𝐻𝑡𝑎𝑛(. 𝐼𝐹𝑂𝑉 2. ). (1.1).

(34) 18. Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos. Donde d es el tamaño de pixel y H la distancia del sensor a la superficie terrestre. Este valor puede variar bastante dependiendo del tipo de sensor que tome la imagen y además dependiendo del tipo de fenómeno que queramos estudiar, convendría elegir un tipo de resolución u otra. Si el estudio está enfocado a grandes fenómenos meteorológicos, la resolución que ofrece el sensor Meteosat será la adecuada para poder disponer de una cobertura global de la superficie terrestre[33]. Si se desea estudiar la cobertura ecológica de una determinada zona, la resolución espacial ofrecida por el satélite Landsat puede ser adecuada, debido a que no es ni muy elevada ni demasiado reducida. En cambio, si se quiere realizar un estudio de objetos de manera individual, es necesario utilizar la resolución ofrecida por el sensor Quickbird[34]. Por lo tanto, la resolución espacial que se elija para cada estudio debe ser lo suficientemente amplia como para poder disponer de la información que necesitamos representar en la imagen y, a su vez, lo suficientemente reducida como para descartar información redundante[35]. Mantener. dicho. equilibrio. puede. ahorrarnos. no. solo. costes. computacionales. innecesarios, sino también resultados erróneos, por no disponer de la suficiente información. Resolución temporal: es el intervalo de tiempo que transcurre entre cada imagen obtenida por el sensor de la misma zona de la superficie terrestre. Esta resolución puede ser la que se requiera en el caso de los aviones, cada media hora en el caso de los satélites geo sincrónicos y variable en el caso de los satélites helio sincrónicos. Resolución espectral: es el número y anchura de las bandas electromagnéticas captadas por el sensor. A mayor número de bandas, se dispone de mayor número de variables que pueden describir cada pixel de la imagen. Por otro lado, las bandas estrechas aumentan el poder discriminante de los valores captados por el sensor sobre las bandas anchas. El número de bandas y la anchura depende del objetivo que se pretende cubrir con la información captada por el sensor[35]. Resolución radiométrica: es la sensibilidad para discriminar entre pequeñas variaciones en la radiación captada por el sensor. Esta resolución se suele expresar como el número de bits necesarios para almacenar cada pixel, lo que ofrece el número.

(35) Capítulo 1. 19. de niveles digitales (ND) del sensor. A mayor resolución radiométrica, mayor información será captada por el sensor[35].. 1.4.3 Errores en la captación de las imágenes de sensores remotos Existen diversos factores que pueden influir, negativamente, durante el proceso de captación de la radiación electromagnética de la superficie terrestre por parte de los sensores remotos, introduciendo errores no deseados en los datos recogidos. Estos errores se pueden clasificar como geométricos, radiométricos y atmosféricos. A continuación se muestran los errores más frecuentes que se pueden encontrar dentro de cada categoría: Errores geométricos: provocados por la propia plataforma sobre la cual se soporta el sensor, por los equipamientos instalados en ella o por la rotación terrestre. En primer lugar, las distorsiones provocadas por la plataforma satelital tienen su origen en oscilaciones aleatorias de su altitud, orientación y velocidad, que alteran de manera impredecible la relación que se establece entre la superficie terrestre y las posiciones de la imagen adquirida. En segundo lugar, los errores introducidos por los sensores se deben a la elevada complejidad del proceso de captación de la imagen, y puede producir que no todos los pixeles de la imagen tengan la misma resolución. En tercer lugar, el fenómeno natural de rotación de la Tierra produce que la superficie terrestre se desplace espacialmente desde el momento de inicio del proceso de la captura de la imagen hasta el final del mismo, debido a que dicho proceso puede llegar a requerir bastante tiempo. En cuarto lugar la elevación de cada píxel en el cálculo de las funciones de transformación. El motivo que justifica este proceder es que la elevación de un punto del terreno provoca un desplazamiento aparente de dicho punto en la imagen. Este desplazamiento depende de parámetros como la localización y orientación de la imagen, de la propia elevación del punto en el terreno y otros específicos del tipo de sensor[36]. Todos estos errores se pueden solucionar gracias a la corrección geométrica y ortorectificacion, mediante un proceso llamado georreferenciación de la imagen[35].. Errores radiométricos: provocados por la des-calibración de algún detector que los sensores poseen por cada una de las bandas electromagnéticas que captan, lo que puede producir efectos de bandeado en la imagen obtenida. En algunos casos pueden.

(36) 20. Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos. perderse algunos pixeles o líneas enteras. Estos errores pueden solucionarse mediante la corrección radiométrica[35].. Errores atmosféricos: provocados por la interacción que se produce entre la radiación electromagnética y la atmosfera. Estos errores pueden solucionarse mediante la corrección atmosférica[35].. 1.4.4 Satélites Landsat. El programa Landsat está formado por un grupo de satélites creados y puestos en órbita por EE.UU. con el objetivo de observar la superficie terrestre a alta resolución. Los satélites Landsat están controlados por la NASA, aunque las imágenes recibidas son procesadas y comercializadas por la Servicio Geológico de los Estados Unidos (USGS en inglés). La Tabla 1 muestra el periodo de actividad de los 8 satélites Landsat lanzados hasta la fecha[33]. Tabla 1 Periodo de actividad de los satélites Landsat Satélite Landsat 1 Landsat 2 Landsat 3 Landsat 4 Landsat 5 Landsat 6 Landsat 7 Landsat 8. Fecha de Lanzamiento Fin de Operación 23/07/1972 05/01/1978 22/01/1975 27/07/1983 05/03/1978 07/09/1993 16/06/1982 14/12/1993 01/03/1984 30/11/2011 03/10/1993 Lanzamiento fallido 15/04/1999 Activo 11/02/2013 Activo Fuente: NASA. Los experimentos llevados a cabo para desarrollar esta tesis de maestría se han realizado sobre imágenes de satélite capturadas en 2017 por parte del Landsat 8 OLI, cuyo esquema se muestra en la Figura 1-4..

(37) Capítulo 1. 21. Figura 1-4 Esquema general del satélite Landsat 8 Fuente: USGS. 2013 Los dos primeros satélites Landsat incorporaban un sistema de sensores formado por tres cámaras RBV, que registraban información en una banda espectral comprendida entre el verde y el infrarrojo cercano. Este sistema fue sustituido en el tercer satélite Landsat por el sistema Vidicon, que mejoraba la resolución espacial de las imágenes de satélite capturadas. Más adelante, el Landsat 5 utilizo un nuevo tipo de sensor denominado Thematic Mapper (TM), que mejoraba la resolución espacial, espectral y radiométrica respecto al sistema Vidicon. Posteriormente, el satélite Landsat 7 fue equipado con una versión mejorada del sensor TM, denominado ETM+ (Enhaced Thematic Mapper), que incorporaba una banda pancromática con una resolución espacial de 15 metros, y un total de 8 bandas espectrales. Para finalizar, el Landsat 8 cuenta con dos sensores: el OLI (Operational Land Imager) y el TIRS (Thermal Infrared Sensor), y con un total de 11 bandas espectrales. En el caso del satélite Landsat 8, cuyas imágenes han sido utilizadas durante la experimentación realizada en esta tesis de maestría, la resolución espacial de sus bandas es de 30 metros, lo que permite disponer de una gran cantidad de información del área de estudio, sin que a su vez sea redundante por tener exceso de resolución. La Tabla 2 muestra las características técnicas de las bandas proporcionadas por el sistema Landsat 8 OLI..

(38) 22. Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos. Tabla 2 Características técnicas del sistema Landsat 8 OLI. Landsat 8 Operationa l Land Imager (OLI) and Thermal Infrared Sensor (TIRS) February 11, 2013. Bandas. Longitud de onda (micrómetros). Resolución (metros). Banda 1 - Aerosol Costero Banda 2 - Azul Banda 3 - Verde Banda 4 - Rojo Banda 5 - Infrarrojo cercano (NIR) Banda 6 - SWIR 1 Banda 7 - SWIR 2 Banda 8 - Pancromático Banda 9 - Cirrus *Banda 10 - Infrarrojo térmico (TIRS) 1 *Banda 11 - Infrarrojo térmico (TIRS) 2. 0,43 - 0,45 0,45 - 0,51 0,53 - 0,59 0,64 - 0,67 0,85 - 0,88 1,57 - 1,65 2,11 - 2,29 0,50 - 0,68 1,36 - 1,38 10,60 - 11,19 11,50 - 12,51. 30 30 30 30 30 30 30 30 30 100 100. Fuente: USGS. 2013 * Las bandas TIRS se adquieren a una resolución de 100 metros, pero se vuelven a remuestrear a 30 metros. Estas bandas espectrales se pueden combinar entre sí para optimizar los resultados de un estudio concreto, como se muestra en las siguientes secciones.. 1.4.5 Combinación de imágenes verdadero color Constituye la combinación más próxima a la percepción de la tierra con nuestros ojos desde el espacio, de ahí el nombre de color verdadero[37]. Las bandas visibles dan respuesta a la luz que ha penetrado más profundamente, y por tanto sirven para discriminar el agua poco profunda y sirven para distinguir aguas turbias, corrientes, batimetría y zonas con sedimentos. El azul oscuro indica aguas profundas. El azul claro indica aguas de media profundidad. La vegetación se muestra en tonalidades verdes. El suelo aparece en tonos marrones y tostados. El suelo desnudo y la roca aparecen en tonos amarillentos y plateados[37]..

(39) Capítulo 1. 23. Figura 1-5 Combinación 4,3,2, Verdadero color, Santa fe de Bogotá Fuente: Elaboración Propia. 1.4.6 Combinación de imágenes falso color El ojo humano puede ver muchos más detalles en las imágenes en color que en blanco y negro. Incluso se pueden apreciar más detalles en una imagen de color falso que en otra equivalente en color natural o verdadero[38]. En el procesado de imágenes de satélite, se generan a menudo imágenes en falsos colores porque incrementan la percepción de determinados detalles de la superficie. Una imagen en falso color es una representación artificial de una imagen multiespectral[38]. En algunas aplicaciones de teledetección, puede ser útil asociar las clases de cobertura del suelo con colores familiares, por ejemplo, la hierba con el verde. En otros casos, se prefieren los colores contrastados para resaltar objetos de interés en el fondo. La.

(40) 24. Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos. codificación que se emplea en las imágenes multibanda, se basa en la numeración de las bandas que integran dicha imagen, siguiendo el orden específico de rojo, verde y azul.. Figura 1-6 Combinación Intensidad, Matiz, Saturación, Falso color, Santa fe de Bogotá Fuente: Elaboración Propia. 1.4.7 Índice de Factor Optimo OIF El índice de Factor Óptimo fue desarrollado para, estimar la combinación de bandas con mayor variabilidad para resaltar las características de estas, se basa en la varianza y en la correlación de cada banda. El índice del Factor Óptimo se obtiene con la ecuación 1.2[39].

(41) Capítulo 1. 25. 3. 3. 𝑂𝐼𝐹 = ∑ 𝑆𝑑𝐾 ∑|𝐶𝐶𝐽 | 𝐾=1. (1.2). 𝐽=1. Donde: 𝑆𝑑𝐾 = Desviación estándar de la banda. |𝐶𝐶𝐽 | = Valor absoluto de la correlación entre dos de las tres bandas Se considera que la combinación de tres bandas con los más altos valores de OIF presenta la mayor variabilidad por lo que es posible observar mejor las diferencias en las imágenes de falso color compuesto[39].. 1.5 Clasificación de imágenes 1.5.1 Clasificación supervisada y no supervisada de imágenes La clasificación de imágenes es un proceso que consiste en agrupar los pixeles de una imagen en un número finito de clases, basándose en los valores espectrales de las distintas bandas, convirtiendo de este modo la información captada por los sensores como niveles digitales a una escala categórica fácil de interpretar[40]. Los pixeles que pertenezcan a la misma clase deberán tener unas características espectrales similares[41]. Los algoritmos de clasificación de imágenes son una de las técnicas más importantes utilizadas en el ámbito de la teledetección, ya que facilitan la interpretación de una gran cantidad de información contenida en sus bandas. El objetivo de los algoritmos de clasificación de imágenes consiste en dividir los pixeles de la imagen en distintas clases, llamadas clases espectrales, teniendo en cuenta la similitud existente entre dichos pixeles. La clasificación de una imagen es una tarea que se realiza con el propósito de convertir datos cuantitativos (generalmente los niveles digitales de los píxeles en cada banda espectral) en datos cualitativos (temas o clases que son importantes en un dominio específico del conocimiento)[42]. La motivación principal de una clasificación es la de representar un fenómeno que ocurre sobre la superficie terrestre a partir de la generalización y agrupación de datos obtenidos mediante sensores remotos[43]. Una.

(42) 26. Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos. buena clasificación debe representar de manera exacta la realidad a partir de las características pictórico-morfológicas presentes en las imágenes[44]. La función que relaciona los atributos que se consideran relevantes y las clases deseadas se puede establecer de manera analítica. Si el problema es muy complejo para ser resuelto analíticamente, es posible usar aproximaciones heurísticas, como las ofrecidas por las técnicas de Inteligencia Artificial conocidas como máquinas de aprendizaje inductivo[45]. La imagen que se obtiene como resultado consiste básicamente en un mapa temático de la imagen original[41]. Posteriormente la imagen clasificada se utiliza para interpretar de manera más sencilla la información contenida en la imagen. La Figura 1-7 muestra el esquema general del proceso de clasificación de una imagen.. Figura 1-7 Esquema del proceso de clasificación de imágenes Fuente: [46] Como se puede observar en la parte izquierda de la figura 1-6, la imagen tiene 4 bandas, y se han tomado los valores espectrales de un pixel concreto como ejemplo, con el.

(43) Capítulo 1. 27. objetivo de clasificarlo en una de las cuatro clases existentes: Bosque, Pasto, Agua, Barbecho. En la parte derecha de la imagen se muestra un ejemplo de cómo quedaría el pixel original después del proceso de clasificación, en la que este ha sido etiquetado en su clase correspondiente, teniendo en cuenta sus cuatro valores espectrales. En cualquier algoritmo de clasificación de imágenes podemos encontrar las siguientes fases genéricas[33]: Definición del Problema: las clases objetivo deben ser definidas, al igual que el conjunto de atributos que se utilizarán para identificar las clases. Selección de las muestras de entrenamiento (clasificación supervisada): Para que la clasificación sea exacta, esas muestras deben ser representativas de cada clase. Es recomendable realizar algún tipo de análisis exploratorio para establecer si las clases se están caracterizando de manera correcta, al igual que entender si existen dificultades para la separación de las clases. Si se descubre algún problema de caracterización, se deben modificar las clases objetivo y/o cambiar los atributos que se utilizarán para diferenciarlas. Construcción del clasificador: usando criterios predeterminados, en Inteligencia Artificial (IA) este paso se conoce de manera indistinta como fase de entrenamiento o como aprendizaje inductivo[40]. Validación de los resultados del entrenamiento: Este paso busca evaluar el desempeño del clasificador usando datos nuevos que no se han utilizado en el entrenamiento. Si los resultados no son satisfactorios, puede ser necesario repetir el proceso de entrenamiento utilizando criterios diferentes. Es importante tener en cuenta que la selección de un clasificador específico afecta principalmente la construcción de un clasificador y que tiene un impacto menor en los demás pasos. Sin embargo, los factores limitantes más grandes en una clasificación tienen que ver con la definición del problema y la selección de muestras de entrenamiento; específicamente la capacidad de diferenciar las clases depende del cuidado que se tenga en la selección de las clases objetivo y de los atributos que se utilizan para caracterizar esas clases y realizar su discernimiento..

(44) 28. Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos. Los algoritmos de clasificación de imágenes se pueden dividir en dos grandes grupos, dependiendo del método utilizado durante la fase de entrenamiento: clasificación no supervisada y clasificación supervisada, ambos tipos de clasificadores son basados en las propiedades espectrales de los pixeles de la imagen[33]. La utilización de procedimientos no supervisados o supervisados depende fundamentalmente del conocimiento que se posee sobre la zona de estudio[47]. Si se posee conocimiento humano experto de la zona de estudio, es recomendable usar siempre una clasificación supervisada[48].. 1.5.2 Algoritmos de clasificación supervisada de imágenes En los algoritmos de clasificación supervisados, se seleccionan varias muestras de los pixeles de cada clase, formando el denominado conjunto de entrenamiento, para que el algoritmo pueda realizar una clasificación más precisa basada en el conocimiento humano. En este tipo de algoritmos, el conocimiento que se posee sobre el área de estudio determina la calidad del conjunto de entrenamiento, y por lo tanto es un factor muy influyente en el resultado final de la clasificación. Los pixeles son etiquetados en la clase a la que más se asemejan a nivel espectral, teniendo en cuenta el conjunto de entrenamiento[49]. Existen muchos algoritmos de clasificación supervisados, como paralelepípedos, mínima distancia, máxima verosimilitud, Maquinas de Soporte Vectorial, entre otros.. 1.5.3 Algoritmos de clasificación no supervisada de imágenes En los algoritmos de clasificación no supervisados, el analista experto solo debe especificar el número de clases en las que desea dividir la imagen, y el propio algoritmo se encarga de agrupar los pixeles similares basándose únicamente en la información espectral almacenada en las bandas de cada pixel. Los algoritmos clasificadores kmedias e isodata son dos de los procedimientos más utilizados para la clasificación no supervisada de imágenes[33]..

(45) Capítulo 1. 29. 1.6 Máquinas de Soporte Vectorial (MSV) Las MSV son un conjunto de algoritmos de aprendizaje supervisado desarrollados por Vapnik y Cortés (1995) y su equipo AT&T, que han surgido como métodos relacionados con problemas de clasificación y regresión. Su buen desempeño ha llevado a su uso en una gran variedad de problemas, algunos investigadores [50],[51],[3],[52],[53], han utilizado MSV para solucionar problemas de clasificación y regresión relacionados a la predicción de series de tiempo y clasificación de imágenes, mostrando tener muy buenos resultados en comparación a otras metodologías tradicionales como modelos econométricos, redes neuronales y en algunos casos a modelos de aprendizaje de máquina. La construcción de las máquinas de soporte vectorial (MSV) se basa en la idea de transformar o proyectar un conjunto de datos pertenecientes a una dimensión n dada, hacia un espacio de dimensión superior aplicando una función kernel – Kernel Trick[54]. A partir del nuevo espacio creado, se operarán los datos como si se tratase de un problema de tipo lineal, resolviendo el problema sin considerar la dimensionalidad de los datos[54]. Las MSV se empezaron a emplear para resolver problemas de clasificación y reconocimiento de patrones para luego extenderse en el estudio de predicción de series de tiempo y clasificación de imágenes de sensores remotos. Los problemas de clasificación se emplean para obtener resultados de tipo cualitativo, por ejemplo, determinar la clase de un dato de entrada o características, mientras que las de tipo regresión son más útiles en problemas cuantitativos, cuando se trata de obtener una salida numérica al dato de entrada[55]. Un punto a favor de utilizar este tipo de modelos es que el desempeño de las MSV no depende del tamaño de la muestra que se va utilizar para el problema, por lo que puede ser utilizado para una cantidad limitada de datos en contraste con otras metodologías que presentan mejor desempeño cuando el tamaño de la muestra es grande. Asimismo, el algoritmo detrás de las MSV se puede ajustar a problemas no lineales y la solución se realiza bajo programación cuadrática, lo cual hace que su solución sea única y generalizable[56]..

(46) 30. Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos. La idea detrás de las MSV es que a partir de unos inputs de entrada al modelo, se etiquetan las clases y se entrena una MSV construyendo un modelo que sea capaz de predecir la clase de los nuevos datos que se introduzcan al modelo. La MSV se representa en un eje de coordenadas los vectores de entrenamiento, separando las clases por un espacio lo más grande posible. Cuando nuevos datos son introducidos al modelo, estos se colocan sobre el mismo eje y en función de la cercanía de los grupos antes separados, los cuáles serán clasificados en una u otra clase.. 1.6.1 Funciones de decisión dentro de las MSV Se considera el problema de clasificación de un pixel cuyas características están dadas por el vector X tal que X = (X1, . . . , XP)T y este pertenece a una de dos clases posibles. Ahora se supone que se tienen las funciones F1(x) y F2(x) que definen las clases 1 y 2 y se clasifica al pixel X dentro de la clase 1 si: F1(x) > 0, F2(x) < 0, O clasificamos al pixel X dentro de la clase 2 si: F1(x) < 0, F2(x) > 0, Estas funciones se denominan funciones de decisión. Al proceso de encontrar las funciones de decisión a partir de pares de entrada-salida es llamado entrenamiento. Los métodos convencionales de entrenamiento determinan las funciones de decisión de tal forma que cada par entrada-salida sea correctamente clasificado dentro de la clase a la que pertenece. La Figura 1-8 muestra un ejemplo. Asumiendo que los cuadros pertenecen a la clase 1 y los círculos pertenecen a la clase 2, resulta claro que los datos de entrenamiento no se intersectan en ningún momento y es posible trazar una línea separando los datos de manera perfecta [4]:.

(47) Capítulo 1. 31. Figura 1-8 Funciones de decisión Fuente:[4] Sin embargo, ya sea que la función de decisión F1(x) o la función F2(x) se muevan hacia la línea punteada de su propio lado, el conjunto de datos de entrenamiento aún sigue siendo correctamente clasificado, dándonos la certeza de que es posible encontrar un conjunto. infinito. de. hiperplanos. que. correctamente. clasifiquen. los. datos. de. entrenamiento. Sin embargo, es claro que la precisión de clasificación al generalizar será directamente afectada por la posición de las funciones de decisión[4]. Las MSV a diferencia de otros métodos de clasificación consideran esta desventaja y encuentra la función de decisión de tal forma que la distancia entre los datos de entrenamiento es maximizada. Esta función de decisión es llamada función de decisión óptima o hiperplano de decisión óptima[56].. 1.6.2 Clasificación linealmente separable Se considera el problema de clasificación binaria en donde los datos de entrenamiento son dados como: (X1, Y1), (X2, Y2), . . . , (Xl, Yl), X ∈ Rn, y ∈ {+1, −1} Donde Xi es un vector de entrada el cual tiene asociada una etiqueta o clase Yi.. (1.3).

(48) 32. Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos. Figura 1-9 Clasificador convencional Fuente:[4] Los datos son linealmente separables y existen diferentes hiperplanos que pueden realizar la separación. La Figura 1-9 muestra varios hiperplanos de decisión que separan perfectamente el conjunto de datos de entrada. Es claro que existe un número infinito de hiperplanos que podrían realizar este trabajo. Sin embargo, la habilidad de generalización depende de la localización del hiperplano de separación y el hiperplano con máximo margen es llamado hiperplano de separación óptima[56]. La cota de decisión, la línea que separa el espacio de entrada es definida por la ecuación W T Xi + B = 0[4] donde W define el hiperplano de separación óptimo y b es el sesgo. Sin embargo, el problema radica en encontrar la mejor cota de decisión, la función de separación óptima. El caso más simple de MSV es el caso linealmente separable en el espacio de características. Si se optimiza el margen geométrico fijando para ello el margen funcional Ki = 1 (también llamado Hiperplano Canónico[57]), por lo tanto, el clasificador lineal: yi = ±1,.