U IVERSIDAD DE EXTREMADURA. Proyecto Fin de Carrera

111 

Loading....

Loading....

Loading....

Loading....

Loading....

Texto completo

(1)

UIVERSIDAD DE EXTREMADURA

Escuela Politécnica

Ingeniería informática

Proyecto Fin de Carrera

Estudio comparativo de diferentes

arquitecturas neuronales para tratamiento

de imágenes hiperespectrales

Cristina Barra Arias

Diciembre, 2008

(2)

UIVERSIDAD DE EXTREMADURA

Escuela Politécnica

Ingeniería informática

Proyecto Fin de Carrera

Estudio comparativo de diferentes

arquitecturas neuronales para tratamiento

de imágenes hiperespectrales

Autora:

Cristina Barra Arias

Fdo.:

Director:

Antonio Plaza Miguel.

Fdo.:

Co-director:

Javier Plaza Miguel.

Fdo.:

Tribunal Calificador

Presidente: Rosa Mª Pérez Utrero Fdo.:

Secretario: Pedro Luis Aguilar Fdo.:

Vocal: Pablo Martínez Cobo Fdo.:

CALIFICACIÓN: FECHA:

(3)

Resumen

El presente proyecto fin de carrera presenta un estudio comparativo de diferentes clasificadores para análisis de datos hiperespectrales obtenidas de forma remota. Las técnicas comparadas incluyen los clasificadores Maximum Likelihood (ML), Self-Organizing Map (SOM), Multi-layer Perceptron (MLP), y Support Vector Machine (SVM). El principal objetivo del estudio es realizar una comparativa entre dichos métodos y, particularmente, analizar la respuesta de dichos clasificadores en presencia de un conjunto muy limitado de patrones de entrenamiento, situación que suele ser habitual en aplicaciones de observación remota de la tierra debido a la dificultad de generar este tipo de información sobre el terreno. El estudio comparativo se ha realizado sobre dos de las imágenes más representativas en la literatura dedicada a clasificación de datos hiperespectrales: una imagen obtenida por el sensor Airborne Visible Infra-Red Imaging Spectrometer (AVIRIS) de NASA Jet Propulsión Laboratory sobre la región Indian Pines en Indiana, Estados Unidos, y una imagen obtenida por el sensor Reflective Optics Spectrographic Imaging System (ROSIS) de la Agencia Espacial Alemana (DLR) sobre la ciudad de Pavía, en Italia. Ambas imágenes disponen de información verdad-terreno de gran calidad y representan casos de estudio que permiten comparar una imagen de elevada resolución espectral y moderada resolución espacial (AVIRIS Indian Pines) frente a una imagen de elevada resolución espacial y moderada resolución espectral (DAIS Pavía). En ambos casos, se estudia el efecto de utilizar la imagen completa en la clasificación o de aplicar transformaciones sobre la imagen original para reducir su dimensionalidad, tales como la técnica de análisis de componentes principales (PCA) o la fracción mínima de ruido (MNF), lo cual tiene implicaciones en cuanto al número mínimo de patrones de entrenamiento necesarios para obtener una clasificación adecuada (teniendo presente el objetivo de utilizar el mínimo número de patrones de entrenamiento posible). Los resultados obtenidos ofrecen interesantes conclusiones que permiten analizar de forma detallada la precisión de los clasificadores comparados con dos imágenes de referencia en la literatura y, particularmente, la capacidad de dichos clasificadores de funcionar con un conjunto muy limitado de patrones de entrenamiento, con vistas a su utilización en aplicaciones reales. El estudio cuantitativo y comparativo presentado en el trabajo supone una novedad en la literatura dedicada a clasificación supervisada de datos hiperespectrales.

(4)
(5)

ÍNDICE DE CONTENIDOS Resumen...3 1. Motivaciones y objetivos ...11 1.1 Motivaciones...11 1.2 Objetivos ...12 2 Introducción ...13

2.1 Concepto de imagen hiperespectral ...13

2.2 El problema de la mezcla ...15

2.3 Clasificación ...16

2.4 Conceptos básicos sobre redes neuronales ...19

2.5 Clasificación de redes neuronales ...21

2.5.1 Categorización:...21

2.5.2 Computación neuronal en análisis hiperespectral...23

2.5.2.1 Arquitecturas no supervisadas:...24

2.5.2.2 Arquitecturas supervisadas:...24

2.6 Técnicas utilizadas ...26

2.6.1 Maximum Likelihood (Máxima probabilidad)...26

2.6.2 SVM (Support Vector Machine)...28

2.6.3 Perceptrón Multicapa o Multi-Layer Perceptron (MLP)...32

2.6.4 Self-Organizing Map (SOM)...35

2.7 Técnicas de preprocesado ...36

2.7.1 Transformación Principal Component Analysis (PCA)...37

2.7.2 Transformación Minimum 3oise Fraction (M3F)...40

3. Metodología ...42

3.1 Maximum likelihood (ML) ...43

3.2 Multi-Layer Perceptron (MLP)...44

3.3 Support Vector Machine (SVM)...46

3.4 Self-Organizing Map (SOM) ...48

3.5 Proceso de entrenamiento para todos los clasificadores ...50

3.5.1 Preprocesamiento...51

3.5.2 Conjunto de entrenamiento...51

3.5.3 Post clasificación...52

4 Análisis y discusión de resultados ...54

4.1 Introducción ...54

4.2 Imágenes tratadas...55

4.2.1 AVIRIS Indian Pines...55

4.2.2 DAIS 7915 sobre Pavia...57

4.3 Modificaciones sobre las imágenes ...59

(6)

4.4.1 ML...62

4.4.2 SOM...65

4.4.3 Multi-Layer Perceptron (MLP)...66

4.4.4 SVM...70

4.4.4.1 SVM con transformadas M3F y PCA...73

4.4.5 Resumen de la imagen AVIRIS Indian Pines...76

4.5 Estudio de la imagen DAIS 7915 sobre Pavia ...77

4.5.1 ML...77

4.5.2 SOM...80

4.5.3 MLP...83

4.5.4 SVM...86

4.5.5 Resumen DAIS 7915 sobre Pavia...91

4.6 Discusión de resultados y análisis comparativo...92

5 Conclusiones y líneas futuras de trabajo...102

(7)

LISTA DE FIGURAS

Fig. 2.1 Concepto de imagen hiperespectral ... 14

Fig. 2.2 . Firmas espectrales de vegetación obtenidas por el sensor multiespectral Landsat TM (7 bandas) y el sensor hiperespectral AVIRIS (224 bandas) ... 15

Fig. 2.3 Concepto de píxel puro y píxel mezcla ... 16

Fig. 2.4 Ejemplo de construcción de la matriz de confusión ... 18

Fig. 2.5 Esquema de una neurona artificial ... 21

Fig. 2.6 Esquema de funcionamiento SVM ... 29

Fig. 2.7 Perceptrón multicapa ... 33

Fig. 2.8 Esquema SOM ... 35

Fig. 2.10 Reducción dimensional... 37

Fig. 2.11 Ilustración gráfica de la transformación PCA. ... 38

Fig. 2.12 Ejemplo de aplicación de la transformada PCA sobre una imagen hiperespectral real. ... 39

Fig. 2.13. Ejemplo de aplicación de la transformada M3F sobre una imagen hiperespectral real. .... 41

Fig. 3.1 Esquema de funcionamiento ML ... 43

Fig. 3.2 Esquema general de funcionamiento de MLP... 44

Fig. 3.3 Diagrama de flujo SVM... 47

Fig. 3.4 Esquema general de SOM ... 49

Fig. 3.5 Matriz de entrenamiento SOM ... 50

Fig. 3.6 Esquema general de funcionamiento... 51

Fig. 3.7 Patrones de entrenamiento extremo, core y borde... 52

Fig. 4.1Imagen de una banda de AVIRIS Indian Pines ... 56

Fig. 4.2 Verdad terreno AVIRIS Indian Pines ... 56

Fig. 4.3 Conjuntos de entrenamiento para AVIRIS Indian Pines (a) 5%, (b) 10%, (c) 20% y (d) 50%.56 Fig. 4.4 Imagen de una banda de DAIS 7915 sobre Pavia... 58

Fig. 4.5 Verdad terreno de la imagen DAIS 7915 sobre Pavia ... 58

Fig. 4.6 Conjuntos de entrenamiento DAIS 7915 sobre Pavia (a) 5%, (b) 10%, (c) 20% y (d) 50%. ... 58

Fig. 4.7 (a) Banda 6 y (b) banda 1de la imagen de AVIRIS Indian Pines. ... 59

Fig. 4.8 (a) Imagen clasificada mediante ML con preprocesamiento PCA entrenando con un 20% de los píxeles de cada clase (86.79% de acierto). (b) Imagen clasificada mediante ML con preprocesamiento M3F entrenando con un 20% de los píxeles de cada clase (88.30% de acierto). (c) Verdad terreno para la escena de AVIRIS Indian Pines... 64

Fig. 4.9 Resumen del comportamiento global del clasificador ML al entrenarlo con conjuntos de patrones de tamaño creciente (5%, 10%, 20% y 50%)... 64

Fig. 4.10 Verdad terreno AVIRIS Indian Pines con Matlab ... 66

Fig. 4.11 Clasificación SOM imagen completa 500 iteraciones... 66

Fig. 4.12 Resultado clasificación MLP para M3F (a) 5% con un acierto del 82.50%, (b) 10% con un acierto del 83.33%, (c) 20% con un acierto del 85.54% y (d) 50% con un acierto del 86.7%... 69

Fig. 4.13 Resumen del comportamiento global del clasificador MLP utilizando diferentes kernels (funciones de base radial, lineal, polinómico y sigmoide) al entrenarlo con conjuntos de patrones de tamaño creciente (5%, 10%, 20% y 50%). ... 70

Fig. 4.14 (a) Imagen clasificada mediante SVM entrenando con un 5% de los píxeles de cada clase y utilizando el kernel lineal (74.15% de acierto). (b) Imagen clasificada mediante SVM entrenando con un 50% de los píxeles de cada clase y utilizando el kernel lineal (90.66% de acierto). (c) Verdad terreno para la escena de AVIRIS Indian Pines. ... 71

Fig. 4.15 Resumen del comportamiento global del clasificador SVM utilizando diferentes kernels (funciones de base radial, lineal, polinómico y sigmoide) al entrenarlo con conjuntos de patrones de tamaño creciente (5%, 10%, 20% y 50%). ... 73

Fig. 4.16 Comparación de resultados SVM con preprocesamiento y un conjunto de entrenamiento del 50%, (a) clasificación PCA, el acierto es del 85.66%. (b) clasificación M3F, el acierto es del 88.59% y (c) verdad terreno de AVIRIS Indian Pines. ... 74

Fig. 4.17 Resumen del comportamiento global del clasificador SVM utilizando diferentes kernels (funciones de base radial, lineal, polinómico y sigmoide) al entrenarlo con conjuntos de patrones de tamaño creciente (5%, 10%, 20% y 50%). ... 76

Fig. 4.18 (a) clasificación ML con la imagen DAIS 7915 sobre Pavia completa, con un porcentaje de acierto de 98.71% (b) clasificación ML con la imagen con preprocesamiento PCA, con un porcentaje de acierto de 97.60% y (c) clasificación ML con la imagen con preprocesamiento M3F, con un porcentaje de acierto de 97.30%. En todos los casos con el 10% de entrenamiento. (d) verdad terreno de la imagen DAIS 7915 sobre Pavia. ... 78

(8)

Fig. 4.19 (a) clasificación SVM kernel lineal con el 5% de entrenamiento. (b) clasificación ML con el

5% de entrenamiento y con tratamiento de imagen M3F. (c) verdad terreno. ... 80

Fig. 4.20 Verdad Terreno de la imagen DAIS 7915 sobre Pavia ... 81

Fig. 4.21 (a) Clasificación SOM toda imagen 100it. Acierto 71.1% (b) Clasificación SOM 50ppc 1000it. Acierto 84.7% ... 81

Fig. 4.22 (a) Imagen obtenida por el clasificador MLP utilizando un conjunto de entrenamiento del 20% con un resultado de 98.75% y (b) verdad terreno de la imagen DAIS 7915 sobre Pavia. ... 85

Fig. 4.23 (a) Clasificación de la imagen DAIS 7915 sobre Pavia con un entrenamiento 20% learning rate 0.2 y 1000 iteraciones. (b) Clasificación entrenamiento 20% learning rate 0.001 y 10000 iteraciones. (c) Verdad terreno de la imagen DAIS 7915 sobre Pavia... 85

Fig. 4.24 (a) clasificación SVM con kernel sigmoide y 5% de entrenamiento. (b) clasificación SVM con el kernel lineal y 50% de entrenamiento para la imagen DAIS 7915 sobre PAVIA. (c) Verdad terreno de la imagen DAIS 7915 sobre PAVIA. ... 86

Fig. 4.25 Clasificación SVM con un conjunto de entrenamiento del 20% y distintos kernel, (a) lineal, (b) polinómico, (c) RBF, (d) sigmoide para la imagen DAIS 7915 sobre PAVIA. ... 88

Fig. 4.26 Clasificación SVM con preprocesamiento entrenando con un conjunto del 20% del tamaño total de píxeles. (a) Con preprocesamiento PCA y (b) con preprocesamiento M3F... 89

Fig. 4.27 Clasificación ML con transformación M3F Y PFC entre la imagen AVIRIS Indian Pines y la imagen DAIS 7915 sobre Pavia... 92

Fig. 4.28 Resultados de la clasificación SOM ... 93

Fig. 4.29 Clasificación MLP con AVIRIS Indian Pines... 94

Fig. 4.30 Clasificación MLP con la imagen DAIS 7915 sobre Pavia... 94

Fig. 4.31 Clasificación MLP con la imagen AVIRIS Indian Pines y la imagen DAIS 7915 sobre Pavia ... 95

Fig. 4.32 Clasificación kernel SVM con AVIRIS Indian Pines ... 96

Fig. 4.33 Clasificación kernel SVM con la imagen DAIS 7915 sobre Pavia... 96

Fig. 4.34 Clasificación SVM (Imagen completa, PCA, M3F) con AVIRIS Indian Pines ... 97

Fig. 4.35 Clasificación SVM (Imagen completa, PCA, M3F) con la imagen DAIS 7915 sobre Pavia. 98 Fig. 4.36 Tiempo empleado por los diferentes clasificadores ... 99

Fig. 4.37 Clasificación general AVIRIS Indian Pines ... 100

(9)

LISTA DE TABLAS

Tabla 4.1 AVIRIS Indian Pines conjuntos de entrenamiento y número de total de píxeles por clase ... 57 Tabla 4.2. Conjuntos de entrenamiento y número de píxeles totales etiquetados de la imagen DAIS 7915 sobre Pavia ... 59 Tabla 4.3. Separabilidad de AVIRIS Indian Pines. A: Alfalfa. B: Grass trees. C: Corn. D: Corn min. E: Corn notill. F: Grass pasture. G: Grass pasture mov. H: Grass trees. I: Hay windrowed. J: Oats. K: Soybeans clean. L: Soybeans min. M: Soybeans notill. 3: Stone steel towers. O: Wheat. P: Woods.... 60 Tabla 4.4. Separabilidad de DAIS 7915 sobre Pavia. A: Shadows. B: Water. C: Parking Lot. D: Asphalt. E: Brick Roofs. F: Bare Soil. G: Bitumen. H: Meadows. I: Trees... 61 Tabla 4.5 Resultados de clasificación obtenidos por el clasificador ML utilizando conjuntos de entrenamiento de tamaño progresivamente creciente (5%, 10%, 20% y 50%) y aplicando previamente las técnicas de reducción de la dimensionalidad (PCA y M3F). ... 63 Tabla 4.6 Resultados de clasificación obtenidos por el clasificador MLP utilizando conjuntos de entrenamiento de tamaño progresivamente creciente (5%, 10%, 20% y 50%) y aplicando previamente las técnicas de reducción de la dimensionalidad (PCA y M3F). ... 68 Tabla 4.7 Resultados de clasificación obtenidos por el clasificador SVM utilizando los diferentes tipos de kernels disponibles (funciones de base radial, lineal, polinómico y sigmoide) y conjuntos de entrenamiento de tamaño progresivamente creciente (5%, 10%, 20% y 50%)... 72 Tabla 4.8. Resultados de clasificación obtenidos por el clasificador SVM con preprocesamiento PCA y M3F y conjuntos de entrenamiento de tamaño progresivamente creciente (5%, 10%, 20% y 50%).... 75 Tabla 4.9 Resultados de clasificación obtenidos por el clasificador ML utilizando conjuntos de entrenamiento de tamaño progresivamente creciente (5%, 10%, 20% y 50%) y aplicando previamente las técnicas de reducción de la dimensionalidad (PCA y M3F). ... 79 Tabla 4.10 Resultados de clasificación obtenidos por el clasificador SOM utilizando conjuntos de entrenamiento de tamaño progresivamente creciente (10, 50, 100 patrones por clase y la imagen completa) y realizando 50, 100, 200 y 1000 iteraciones para cada uno de los conjuntos de

entrenamiento. ... 82 Tabla 4.11 Resultados de clasificación obtenidos por el clasificador MLP utilizando conjuntos de entrenamiento de tamaño progresivamente creciente (5%, 10%, 20% y 50%) y aplicando previamente las técnicas de reducción de la dimensionalidad (PCA y M3F). ... 84 Tabla 4.12 Resultados de clasificación obtenidos por el clasificador SVM utilizando los diferentes tipos de kernels disponibles (funciones de base radial, lineal, polinómico y sigmoide) y conjuntos de entrenamiento de tamaño progresivamente creciente (5%, 10%, 20% y 50%)... 87 Tabla 4.13 Resultados de clasificación obtenidos por el clasificador SVM utilizando conjuntos de entrenamiento de tamaño progresivamente creciente (5%, 10%, 20% y 50%) y aplicando previamente las técnicas de reducción de la dimensionalidad (PCA y M3F). ... 90

(10)
(11)

1.

Motivaciones y objetivos

1.1 Motivaciones

La línea de trabajo de este Proyecto Fin de Carrera se incluye en las líneas de investigación abordadas desde el Grupo de Redes Neuronales y Procesamiento Digital de la Señal (GRNPS) ubicado en el área de Arquitectura y Tecnología de Computadores, Departamento de Tecnología de los Computadores y de las Comunicaciones de la Universidad de Extremadura.

Este grupo de investigación ha venido desarrollando diferentes técnicas de análisis hiperespectral basadas en el uso de arquitecturas de computación neuronal. Bajo ese punto de vista, y dada la gran variedad de herramientas neuronales disponibles para el tratamiento de datos multidimensionales, se hace necesario realizar estudio que evalúe la efectividad y rendimiento de las diferentes técnicas existentes para tratar de extraer conclusiones que permitan determinar que herramientas son más eficientes y en que determinados ámbitos de aplicación.

Uno de los principales problemas asociados al análisis de datos hiperespectrales es la clasificación (supervisada o no) de los mismos. Existe un amplio abanico de técnicas de clasificación basadas en arquitecturas de computación neuronal que tradicionalmente se han empleado para etiquetar cada píxel como perteneciente a una determinada clase. En este sentido, el presente documento presenta un detallado estudio comparativo entre distintos tipos de clasificadores neuronales comúnmente aplicados en el ámbito del análisis hiperespectral, evaluando su funcionamiento al procesar distintas imágenes hiperespectrales con diferentes características, tales como resolución espacial y espectral, área sobre la que se adquiere la imagen, tipo de información verdad terreno de la que se dispone sobre la escena, etc., que serán aspectos altamente determinantes sobre la calidad de los resultados.

Para concluir, es necesario aclarar que la comparación entre los diferentes clasificadores neuronales es difícil de establecer, ya que cada uno de ellos utiliza una serie de parámetros de configuración relacionados con sus mecanismos de aprendizaje, y que no tienen porque ser iguales. En este sentido, se han evaluado numerosas configuraciones posibles para cada uno de los clasificadores con el objetivo de determinar los mejores parámetros para los mismos y establecer una comparativa justa en términos de precisión de la clasificación sobre un conjunto de

(12)

imágenes hiperespectrales ampliamente utilizadas en la comunidad científica dedicada al análisis de este tipo de datos.

1.2 Objetivos

Este trabajo pretende analizar el estado del arte de los clasificadores neuronales al aplicarlos sobre datos hiperespectrales. Para ello se plantea el siguiente objetivo global: estudiar, evaluar y comparar las diferentes técnicas neuronales existentes para realizar una clasificación de datos hiperespectrales, así como extraer conclusiones relativas a la eficiencia y rapidez de dichas técnicas. Para la consecución de este objetivo global, se han llevado a cabo los siguientes objetivos específicos:

• Estudiar en profundidad las principales características de las técnicas objeto del análisis y sus parámetros de entrada. Este estudio comprende la adquisición de los conocimientos necesarios sobre todas las técnicas evaluadas, así como de otras técnicas de clasificación comúnmente utilizadas en el ámbito del análisis hiperespectral.

• Adquirir conocimientos previos sobre análisis hiperespectral, necesarios para poder llevar a cabo el estudio (imagen hiperespectral, formatos de los datos, representación de datos, presentación de resultados, etc.).

• Adquirir la soltura necesaria para trabajar eficientemente con el software ENVI y MATLAB. Codificar un conjunto de funciones externas a los clasificadores que se utilizarán para seleccionar conjuntos de patrones de entrenamiento capaces de representar equitativamente a todas las clases de datos presentes en la imagen, así como para representar de forma eficiente los resultados alcanzados por cada clasificador.

• Realizar un análisis en profundidad de las imágenes utilizadas, aplicando sobre ellas técnicas de preprocesado con el objetivo de evaluar la influencia de dicho preprocesamiento sobre los resultados finales.

• Diseñar una metodología de comparación de los resultados obtenidos por cada una de las técnicas empleadas que permita extraer conclusiones sobre la eficiencia y efectividad de cada método de clasificación testeado, extrapolando conclusiones sobre la capacidad de dichos métodos para extraer información a partir de datos hiperespectrales de gran dimensionalidad.

(13)

2 Introducción

El objetivo fundamental de este capítulo es presentar una introducción de los conceptos básicos que durante el trabajo se van a tratar. El capítulo se estructura de la siguiente forma: en primer lugar definiremos el concepto de imagen hiperespectral, comentando las características principales de este tipo de imágenes de alta dimensionalidad. Continuaremos definiendo el concepto de clasificación y algunos ideas básicas sobre redes neuronales, para terminar explicando las técnicas utilizadas.

2.1 Concepto de imagen hiperespectral

El análisis hiperespectral es una técnica de observación remota de la tierra basada en el análisis cuantitativo de las propiedades espectrales de diferentes materiales de la superficie terrestre, registradas en bandas espectrales contiguas en las diferentes longitudes de onda del espectro electromagnético. Para cada píxel es posible obtener un espectro de reflectancia completo [1]. Dicho espectro es el resultado de la reflexión, absorción y emisión de energía electromagnética con la que cada material responde ante la presencia de la luz solar [2].

Las técnicas de observación remota de la tierra han sufrido una notoria evolución desde su aparición, claramente marcada por los avances en el diseño de instrumentos avanzados de observación. Esta evolución ha permitido pasar de técnicas multiespectrales (técnicas que procesan decenas de bandas espectrales) a técnicas hiperespectrales (que son capaces de procesar la información contenida en cientos de bandas), cambio motivado principalmente por la aparición del primer sensor hiperespectral, denominado AVIRIS (Airborne Airborne Visible/Infrared Imaging Spectrometer) y desarrollado por NASA Jet Propulsión Laboratory [3]. Este hecho propició a su vez importantes avances en el diseño de técnicas de reconocimiento de patrones y procesamiento de imágenes, incorporando la tecnología hiperespectral a diferentes aplicaciones de gran relevancia social, tales como aplicaciones militares (detección de targets) [4]; detección y monitorización de fuegos y agentes contaminantes [5]; agricultura de precisión; identificación y cuantificación de especies geológicas; estudios relativos al cambio climático global; crecimiento de las urbes y su impacto medioambiental, etc.

Si representamos una imagen hiperespectral de forma gráfica obtenemos un cubo cuyas dos primeras dimensiones representarían la ubicación en el espacio de un

(14)

píxel determinado de la imagen (coordenadas espaciales) y una tercera dimensión que representaría la singularidad espectral de cada píxel según diferentes longitudes de onda [6]. De esta forma, podemos interpretar la información captada por un sensor hiperespectral como un conjunto de imágenes, cada una de las cuales representa una longitud de onda dentro del espectro electromagnético, también conocido como banda espectral. Estas imágenes se combinan y forman un cubo hiperespectral tridimensional para su posterior procesamiento y análisis. La Fig.2.1 muestra una sencilla representación gráfica del concepto real de imagen hiperespectral.

Líneas M u e st ra s Ban das 1 -4 Pixel en posición (x,y) ND en banda 1 ND en banda 2 ND en banda 3 ND en banda 4

Fig. 2.1 Concepto de imagen hiperespectral

La capacidad de observación de los sensores hiperespectrales permite la obtención de una firma espectral detallada para cada píxel de la imagen, dada por los valores de reflectancia adquiridos por el sensor en diferentes longitudes de onda. Este hecho permite una caracterización muy precisa de la superficie del planeta [7]. De forma intuitiva, cuanto mayor sea el número de bandas disponibles, mejor será la caracterización de los materiales presentes en la escena. Además, conviene que estas bandas sean estrechas, puesto que la utilización de bandas anchas introduce un promediado de valores que puede encubrir la diferenciación espectral entre cubiertas [8]. En este sentido, podemos introducir el concepto de firma espectral de un determinado material o superficie como el conjunto de valores de radiancia o reflectancia captado en los diferentes canales espectrales del sensor. Si el número de bandas espectrales del sensor es muy grande y las bandas son muy estrechas, la firma espectral puede ser considerada como un espectro casi continuo [9].

(15)

La Fig. 2.2 muestra un ejemplo de dos firmas espectrales asociadas a una cubierta vegetal. La primera de ellas (parte izquierda) fue adquirida por un sensor multiespectral, en concreto, Landsat Thematic Mapper [10], que dispone de un total de 7 bandas en el rango 0.48 – 2.21 µm. La firma espectral mostrada en la parte derecha de la Fig. 2.2 fue adquirida por el sensor hiperespectral AVIRIS [3], con 224 bandas espectrales en el rango 0.4 a 2.4 µm. Como puede apreciarse en la figura, la firma espectral obtenida mediante un sensor hiperespectral se asemeja a un espectro continuo de valores, mientras que la firma proporcionada por un sensor multiespectral es mucho menos detallada [10].

0 2000 4000 6000 8000 300 600 900 1200 1500 1800 2100 2400 Longitud de onda (nm) R ad ia n c ia 0 2000 4000 6000 8000 300 600 900 1200 1500 1800 2100 2400 Longitud de onda (nm) R ad ia n c ia

Firma espectral vegetación (Landsat TM)

Firma espectral vegetación (AVIRIS)

Fig. 2.2 . Firmas espectrales de vegetación obtenidas por el sensor multiespectral Landsat TM (7 bandas) y el sensor hiperespectral AVIRIS (224 bandas)

.

2.2 El problema de la mezcla

El principal problema del análisis hiperespectral es el fenómeno de la mezcla. Antes de abordar el tema de la clasificación de píxeles, es conveniente destacar que en una escena hiperespectral es muy común encontrar píxeles cuya respuesta espectral está compuesta por diferentes materiales a nivel subpíxel [11], por lo que es frecuente hablar de píxeles puros y píxeles mezcla. (Véase Fig. 2.3)

(16)

Pixel puro (agua) Pixel mezcla (suelo + rocas) Pixel mezcla (árboles + suelo)

Fig. 2.3 Concepto de píxel puro y píxel mezcla

Podemos definir un píxel mezcla como aquel en el que cohabitan diferentes cubiertas ([12]; [13]; [11]; [14]). Los píxeles mezcla constituyen la mayor parte de los píxeles de una imagen hiperespectral. Esto es debido a que independientemente de la escala que se considere, la mezcla se produce a nivel microscópico [15], [9]. Así pues, la forma más simple de abordar el problema de la clasificación de píxeles en una imagen hiperespectral es considerar que los píxelesde interés están compuestos por un solo material, utilizando las técnicas convencionales de clasificación de patrones [16]. En las imágenes reales la mayoría de los píxeles son mezcla, raramente estarán compuestos por un único material. La clasificación es por tanto una simplificación del problema de desmezclado espectral.

2.3 Clasificación

Tras esta breve introducción al problema de la mezcla espectral, podemos definir la clasificación espectral como un conjunto de técnicas de interpretación de una escena obtenida de forma remota en base a unos patrones, obteniéndose una etiqueta para cada píxel de la imagen.

(17)

Estas técnicas ofrecen resultados interesantes en determinadas aplicaciones, que se detallan a continuación:

Clasificación temática. Las técnicas de clasificación han sido utilizadas de forma satisfactoria en aplicaciones que tienen como objetivo la obtención de un mapa temático en el que cada píxel de la imagen hiperespectral está debidamente etiquetado como perteneciente a una clase concreta [17]. Puede existir una clase adicional denominada "fondo" o "resto" que representa a los píxeles que no han sido clasificados en ninguna de las clases anteriores. El resultado ideal se obtiene cuando todas las clases, incluyendo la clase "fondo", son mutuamente excluyentes entre sí. La tarea clave en este tipo de aplicaciones suele ser la determinación del número de clases y la caracterización de las mismas en términos de datos de entrenamiento o información de verdad-terreno. El objetivo es, en última instancia, determinar la existencia o no de cada uno de los objetos considerados en cada píxel, situación que puede expresarse como un problema de clasificación binario [18].

• Detección de targets. Las técnicas de clasificación también han sido utilizadas de forma muy extensa en aplicaciones de detección de objetivos o targets en imágenes hiperespectrales [19]. En este tipo de aplicaciones, el objetivo fundamental es la identificación de un material u objeto específico (denominado target en la bibliografía) entre todos los píxeles de la imagen.

Técnicas de evaluación de algoritmos de clasificación

La gran cantidad de técnicas existentes, así como la continua proliferación de nuevas metodologías, hace patente la necesidad de esquemas comparativos o métricas que permitan analizar de forma cualitativa el rendimiento de las nuevas metodologías planteadas, contrastando sus resultados con los proporcionados por las ya existentes [16].

La mayor parte de las técnicas de evaluación de algoritmos de análisis de imágenes digitales de teledetección se basan en el concepto de verdad terreno, ampliamente utilizado en análisis de imágenes obtenidas de forma remota [20]. Podemos definir idealmente el concepto de verdad terreno como el resultado de clasificación o interpretación óptimo al que debe llegar un algoritmo [21], [22] Asumiendo la existencia de la información de verdad terreno, existen varias metodologías que permiten comparar el resultado proporcionado por un algoritmo de

(18)

análisis de imágenes con dicha información. En este proyecto se ha utilizado ampliamente la matriz de confusión:

Matriz de confusión.

La matriz de confusión [23] es una técnica que permite evaluar la precisión de algoritmos de clasificación de imágenes digitales obtenidas de forma remota. Esta técnica presupone que la información verdad terreno viene expresada en forma de un mapa temático [24], [25], caracterizado por las siguientes propiedades:

•Cada píxel se encuentra etiquetado como perteneciente a una determinada clase, de forma que se tienen N clases o regiones de referencia

{ }

Ri Ni=1.

• Las regiones de referencia son mutuamente excluyentes entre sí, es decir, dos regiones diferentes no tienen ningún píxel en común: Ri ∩Rj =∅,∀i≠j

La Fig.2.4 muestra la apariencia de una matriz de confusión utilizada para la evaluación de la clasificación obtenida por los métodos evaluados.

Lago (R0) Carretera (R1) Árboles (R2) Suelo (R3) Mapa temático (verdad terreno) Lago (C0) Carretera (C1) Árboles (C2) Suelo (C3) Clasificación (Algoritmo) a33=|C3∩R3| a32=|C3∩R2| a31=|C3∩R1| a30=|C3∩R0| C3 a23=|C2∩R3| a22=|C2∩R2| a21=|C2∩R1| a20=|C2∩R0| C2 a13=|C1∩R3| a12=|C1∩R2| a11=|C1∩R1| a10=|C1∩R0| C1 a03=|C0∩R3| a02=|C0∩R2| a01=|C0∩R1| a00=|C0∩R0| C0 R3 R2 R1 R0 a33=|C3∩R3| a32=|C3∩R2| a31=|C3∩R1| a30=|C3∩R0| C3 a23=|C2∩R3| a22=|C2∩R2| a21=|C2∩R1| a20=|C2∩R0| C2 a13=|C1∩R3| a12=|C1∩R2| a11=|C1∩R1| a10=|C1∩R0| C1 a03=|C0∩R3| a02=|C0∩R2| a01=|C0∩R1| a00=|C0∩R0| C0 R3 R2 R1 R0 Matriz de confusión

Fig. 2.4 Ejemplo de construcción de la matriz de confusión

A partir de la matriz de confusión pueden derivarse algunas medidas de precisión genéricas [26], [27], como el porcentaje de acierto global (tanto por ciento de píxeles clasificados de forma correcta en todas las clases) y el porcentaje de fallo global (tanto por ciento de píxeles clasificados de forma incorrecta).

Las métricas más comúnmente utilizadas en la clasificación de imágenes hiperespectrales son overall (OA) y average (AVE). Dónde OA indica el acierto total,

(19)

es decir, el número de píxeles bien clasificados y AVE indica la media de acierto. Y se calculan de la siguiente forma, dado una verdad terreno, con P clases C1,…, Cp y

un espectro de datos de ni puntos de test para las clases. Clasificamos todos los puntos

de test en alguna de las clases por el método de clasificación empleado. Representando el termino aij el número de ejemplos de test que actualmente

pertenecen a la clase Ci y han sido clasificados en la clase Cj, para i, j = 1,…P. La

suma total de la fila es igual al número de ejemplos de la clase Ci, y la columna

representa el número de ejemplos clasificados en Cj. Llamando N al número total de

ejemplos. Podemos obtener la fórmula de cálculo de OA y AVE:

2.4 Conceptos básicos sobre redes neuronales

Las redes neuronales artificiales (Artificial 3eural 3etworks) son sistemas para el procesamiento de la información, inspirados en el modo en que las redes de neuronas biológicas del cerebro procesan esta. Por lo tanto las redes neuronales son un entramado o una estructura formada por muchos nodos de procesamiento simples llamados nodos o neuronas, conectados por medio de canales de comunicación o conexiones, cuya finalidad es transformar las entradas externas.

Las redes neuronales son el ejemplo artificial que más se acerca a la capacidad de poder adquirir conocimiento a partir de la experiencia. Presentan un gran número de características semejantes a las del cerebro. Son capaces de aprender de la experiencia, de generalizar de casos anteriores a nuevos casos, de extraer características esenciales a partir de entradas que representan información irrelevante.

Todo ello lo hacen gracias a las neuronas que son estimuladas a través de sus entradas, y pueden llegar a dispararse cuando lleguen a un cierto valor, denominado umbral, de forma que la señal pasa a la salida. Estas transformaciones de la señal de entrada se hacen por medio de diferentes funciones, que presentamos a continuación:

Entrada: cada neurona de entrada obtendrá un determinado valor llamado

entrada neta a partir de la ponderación de todas las conexiones de entrada xi mediante sus pesos de entrada correspondientes wi. El cálculo de dicha entrada neta en la capa de entrada se muestra en la ecuación 2.1.

(20)

) ( ... ) ( ) ( i1 1 i2 2 in n i w x w x w x 3et = + + + (2.1)

Función de activación: Tanto las neuronas artificiales cómo las neuronas

biológicas pueden tener dos estados de activación, pueden estar: activas e inactivas, también denominado: estado de activación. Aplicando la función de activación se calcula ese valor de activación a partir del valor obtenido en la entrada neta. Se pueden definir diferentes tipos de funciones de activación, definiendo así diferentes salidas sobre las neuronas en función del nivel de activación de sus entradas:

o Función de activación lineal:

i i 3et 3et

f

a= ( )= (2.2)

o Función de activación sigmoide:

) ( 1 1 ) ( i 3et i e 3et f a + = = (2.3)

o Función de activación tangente hiperbólica:

) ( ) ( 1 1 ) ( i i 3et 3et i e e 3et f a − + − = = (2.4)

También podemos encontrar redes, dónde las neuronas utilicen otra función de activación, como sucede en las redes de base radial [28].

Función de salida: una vez calculada la activación de cada neurona, se puede

determinar el valor de la salida aplicando una función f a la activación, obteniendo el estado final de la neurona.

) (a f

(21)

Fig. 2.5 Esquema de una neurona artificial

2.5 Clasificación de redes neuronales

El siguiente apartado se estructura de la siguiente manera. E primer lugar, se presentará una breve categorización de las diferentes arquitecturas neuronales atendiendo a tres aspectos fundamentales: su topología, las características de sus nodos y sus mecanismos de aprendizaje. A continuación se resumirá de forma concisa el estado del arte en lo relativo a la aplicación de técnicas de computación neuronal en el ámbito del análisis hiperespectral, tratando de justificar la elección de las técnicas utilizadas en el ámbito del presente documento.

2.5.1 Categorización:

Una arquitectura neuronal puede ser caracterizada por una serie de propiedades clave [29]:

Topología de la red: también conocido como el modelo de interconexión entre los diferentes nodos que componen la arquitectura neuronal. Lo más general es encontrar arquitecturas organizadas en capas, pudiendo así encontrar arquitecturas monocapa y arquitecturas multicapa. En cuanto a las

(22)

conexiones de las neuronas presentes en dichas capas, lo más común es que interconecten nodos de diferentes capas, de manera que la información fluya desde la capa de entrada hasta la capa de salida (arquitecturas feedforward o de alimentación hacia delante). Sin embargo, también podemos encontrar arquitecturas con conexiones laterales (conexiones entre nodos de una misma capa), dando lugar a las conocidas como arquitecturas neuronales recurrentes [30], arquitecturas con conexiones auto-recurrentes (en las que la salida de una neurona sirve como entrada de esa misma neurona) y con conexiones hacia atrás o feedback en las que la salida de una neurona de un determinado nivel se conecta con neuronas de niveles precedentes.

Características de los nodos: consistentes básicamente en la forma de calcular las entradas netas, activaciones y salidas de cada una de las neuronas de la arquitectura neuronal.

Mecanismo de aprendizaje: que es el proceso por el cual una red neuronal artificial modifica sus pesos en respuesta a una información de entrada, pudiendo distinguir entre arquitecturas neuronales supervisadas y no supervisadas [31]:

Arquitecturas supervisadas: los modelos supervisados asumen la disponibilidad de información a priori sobre un determinado conjunto de patrones de entrenamiento [32]. Así pues, al mismo tiempo que se le suministran las entradas al sistema neuronal (estímulo de entrada) se incluyen también las salidas deseadas que la red debe producir (respuesta deseada). A partir de esta información formada por pares entrada/salida deseada, la red ajustará su conjunto de pesos basándose en alguno de los algoritmos de aprendizaje disponibles, entre los cuales destacan los siguientes:

a. Aprendizaje por correccción del error, en el que el ajuste de los pesos se realiza en función de la diferencia entre la salida deseada y la salida obtenida por la red, bien atendiendo al error individual en cada nodo, o bien atendiendo al error global.

(23)

b. Aprendizaje por refuerzo, en el que se aplica una función de refuerzo en el caso de que la salida de la red se ajuste de forma adecuada a la salida deseada (i.e.: éxito = +1, fracaso = -1).

c. Aprendizaje estocástico, consistente en la realización de cambios aleatorios en los pesos y en la evaluación de su efecto a partir del objetivo deseado y de distribuciones de probabilidad (mediante el uso de funciones de energía como representantes de la estabilidad de la red).

Arquitecturas no supervisadas: los modelos neuronales no supervisados realizan la clasificación de los datos de entrada sin necesidad de incorporar información sobre la salida deseada [30]. En este tipo de arquitecturas, es la propia red la que debe encontrar por si misma la regularidad presente en los datos de entrada y agruparlos en consecuencia. La salida de la red puede representar tanto el grado de familiaridad o similitud entre la información presentada, como el establecimiento de categorías a partir de correlaciones entre los diferentes patrones de entrada. Este tipo de arquitecturas neuronales también puede utilizar diferentes tipos de aprendizajes no supervisados, entre los que destacamos los siguientes:

a. Aprendizaje hebbiano, que realiza el ajuste en base a la correlación de los valores de activación (salidas) de las neuronas interconectadas.

b. Aprendizaje competitivo, donde las neuronas compiten unas contra otras por activarse. Ante una información de entrada solo una de las neuronas de salida de la red (o un cierto grupo de éllas) se activan (o alcanzan su valor máximo).

2.5.2 Computación neuronal en análisis hiperespectral

En los últimos años, se han desarrollado diferentes técnicas que hacen uso de arquitecturas neuronales para la resolución de problemas relacionados con el análisis hiperespectral [33], [34], [35], [36]. La resolución de problemas de clasificación y regresión en espacios multidimensionales puede abordarse mediante el uso de

(24)

determinadas arquitecturas neuronales [32]. Dentro del ámbito del análisis hiperespectral, podemos categorizar las arquitecturas neuronales utilizadas hasta la fecha atendiendo al hecho de si su mecanismo de aprendizaje es supervisado o no supervisado.

2.5.2.1 Arquitecturas no supervisadas:

Dentro del grupo de arquitecturas neuronales no supervisadas aplicadas al análisis hiperespectral, podemos destacar fundamentalmente la aplicación de los modelos de red auto-organizativos o self-organizing maps (SOM’s) sobre problemas de clasificación no supervisada de imágenes hiperespectrales [37], [38]. Este tipo de arquitecturas (redes de Kohonen) se basan en un proceso de aprendizaje no supervisado, competitivo, en el que cada neurona compite con el resto por activarse [39], [40]

También podemos destacar la aplicación de arquitecturas recurrentes con conexiones recurrentes (conexiones entre neuronas de la misma capa) sobre datos hiperespectrales, como las arquitecturas basadas en el modelo de Hopfield [41] que se han aplicado con éxito a la resolución del problema lineal de mezcla, permitiendo minimizar el error cuadrático de la estimación de las abundancias para un píxel a partir de un determinado conjunto de espectros representativos o puros [30].

Dentro del conjunto de aquitecturas neuronales no supervisadas utilizadas en análisis hiperespectral también podemos incluir las arquitecturas basadas en la teoría de resonancia adaptativa o adaptive resonante theory (ART) que emplean algoritmos de aprendizaje competitivos centrados en conceptos de lógica difusa [42], [43].

2.5.2.2 Arquitecturas supervisadas:

Las primeras arquitecturas de red neuronal supervisadas aplicadas a problemas de datos obtenidos de forma remota se basaron en la arquitectura denominada perceptrón multicapa o multi-layer perceptron (MLP) [44], [45]. Este tipo de arquitecturas, que son las arquitecturas neuronales supervisadas más ampliamente

(25)

utilizadas en el ámbito del análisis hiperespectral, constan de una capa de entrada, una (o varias) capas de neuronas ocultas y una capa de salida. Cada nodo o neurona procesa la información de entrada a traves de conexiones ponderadas a los elementos de la siguiente capa, por lo que se dice que se propagan la salida hacia delante (alimentación feedforward). Este tipo de redes proporcionan un marco excepcional para mapear una serie de entradas a una serie de salidas que siguen una función no lineal [32]. Esto se consigue mediante la inclusión de funciones de activación no lineales en los nodos de la capa oculta y/o en la capa de salida. La función de activación más comúnmente utilizada sobre este tipo de arquitecturas neuronales es la función sigmoide. Como hemos comentado, son arquitecturas multicapa, feedforward, y suelen basar su aprendizaje en el algoritmo de propagación del error hacia atrás (backpropagation). Se puede resumir el algoritmo de propagación hacia atrás en la aplicación de un ciclo de propagación-adaptación de 3 fases:

1.- Propagación hacia delante. Se aplica un patrón de entrada como estímulo para la primera capa de neuronas de la red. El estímulo se propaga a través de todas las capas intermedias (ocultas) hasta generar una salida. En el siguiente paso se compara la salida obtenida en los nodos o neuronas de salida con la salida deseada (salida objetivo de la red para dicho patrón o estímulo), y se calcula un término de error para cada neurona de salida como el promedio de los cuadrados de los errores cometidos para cada uno de los patrones.

2.- Retropropagación del error. Los errores obtenidos en la etapa anterior se propagan hacia atrás, partiendo de la capa de salida, de forma que cada neurona recibe un porcentaje de error correspondiente a su contribución a la salida de la red.

3.- Adaptación de pesos. Los pesos de la red se modifican de acuerdo a los errores calculados y retropropagados.

Básicamente, este proceso de aprendizaje se basa en la búsqueda del mínimo de la función del error (promedio de los cuadrados de los errores) a mediante la técnica del descenso del gradiente [46].

(26)

Para la realización de las pruebas presentadas en esta memoria, hemos seleccionado como red neuronal no supervisada el modelo auto-organizativo de Kohonen (SOM) y como arquitectura supervisada el perceptron multi-capa (MLP). Estos dos modelos neuronales son los más ampliamente utilizados en la bibliografía revisada, han sido aplicados de forma exitosa en el ámbito del reconocimiento de patrones [32] y han sido seleccionados basándonos en trabajos previos realizados en el ámbito del Grupo de Redes Neuronales y Procesamiento de Señales (GRNPS) de la Universidad de Extremadura [30], [38], [46].

2.6 Técnicas utilizadas

En este apartado presentamos los cuatro algoritmos de clasificación utilizados durante los experimentos que se describen en la presente memoria. Dichos algoritmos son: algoritmo de máxima verosimilitud o Maximum Likelihood (ML), máquinas de vectores soporte o Support Vector Machines (SVM), mapas auto-organizativos o Self Organizing Maps (SOM) y perceptron multi-capa o Multi-Layer Perceptron (MLP). Como se puede apreciar, las técnicas seleccionadas son clasificadores ampliamente utilizados en la literatura.

2.6.1 Maximum Likelihood (Máxima probabilidad)

El algoritmo Maximum Likelihood (ML) es clasificador lineal que asume que las estadísticas para cada clase en cada banda de la imagen hiperespectral siguen una distribución normal [47].

El clasificador Maximum Likelihood (ML) es una de las técnicas supervisadas más ampliamente utilizadas en análisis de imágenes obtenidas de forma remota [48]. Es preciso destacar que ML no se trata de un clasificador neuronal, sino de un método estándar de clasificación que se ha utilizado como referencia para las comparativas realizadas dada su amplia utilización en el problema que nos ocupa. El clasificador ML es una técnica supervisada que se basa en la estimación del vector promedio y de la matriz de covarianza para cada clase a partir de los patrones de entrenamiento disponibles para la misma. La expresión empleada por este clasificador para medir la probabilidad de pertenencia de un píxel (vector), denotado como x, con respecto a

(27)

una determinada clase, denotada como C , siendo i i =1 ,2,...,M , donde M denota el número total de clases, es la siguiente [49]:

( )

(

)

T i

(

i

)

i i g x x-m x-m 2 1 ln 2 1 1

Σ

Σ

− − − = donde

Σ

i es la matriz de covarianza para la clase C y i mi es el vector promedio para dicha clase. Como puede apreciarse, el clasificador está basado en el cálculo de la probabilidad de que un determinado píxel pertenezca a una clase dada, y utiliza la matriz de covarianza,

Σ

i, y el vector promedio de la clase, mi, estimados ambos utilizando los patrones de entrenamiento seleccionados para dicha clase, para asignar el píxel x a la clase para la cual posee mayor probabilidad de pertenencia. Es importante destacar que, para poder calcular la matriz de covarianza en una

determinada clase C , es preciso disponer de suficientes patrones de entrenamiento i (el número de patrones de entrenamiento necesarios depende de la dimensionalidad o número de bandas de los mismos). En caso contrario, no será posible entrenar al clasificador si el número de patrones de entrenamiento utilizados para una determinada clase es muy reducido [50]. Este aspecto puede afectar de forma negativa al clasificador ML, y será estudiado en detalle a la hora de evaluar el rendimiento del mismo en comparación con el resto de clasificadores descritos en el presente trabajo.

Como hemos visto este clasificador asigna a cada píxel desconocido a una clase de acuerdo a un criterio Gaussiano de probabilidad. Cuando los datos son linealmente separables es sencillo obtener una fórmula de optimización de la probabilidad, pero cuando no lo son, como suele ocurrir normalmente, la estimación ML debe buscar los valores usando algoritmos de optimización no lineal. La idea básica de la optimación no lineal es encontrar rápidamente los parámetros óptimos que maximizan la función de probabilidad. Esto se hace mediante una búsqueda en subconjuntos del espacio del espacio de parámetros multidimensionales, siendo una búsqueda más exhaustiva que buscando en el espacio entero, lo cual llega a ser intratable cuando el número de parámetros aumenta [51].

Este proceso de búsqueda “inteligente” empieza con ensayo. En concreto, en cada iteración, teniendo en cuenta los resultados de la iteración anterior, se obtiene un nuevo conjunto de valores de los parámetros añadiendo pequeños cambios de forma que los nuevos parámetros pueden dar mejores resultados. Los diferentes algoritmos

(28)

de optimización difieren en como se actualizan. El proceso iterativo continúa hasta que se considera que los parámetros convergen. Algunos ejemplos de criterios de parada incluyen un número máximo de iteraciones permitido o el cambio mínimo sobre los valores de los parámetros entre dos iteraciones sucesivas.

2.6.2 SVM (Support Vector Machine)

Son un conjunto de algoritmos desarrollados recientemente por Vladimir Vapnik y su equipo en los laboratorios AT&T. Pertenecen a la familia de los clasificadores lineales puesto que inducen separadores lineales o hiperplanos en espacios de características de muy alta dimensionalidad. [52], a pesar de que se pueden adaptar de forma sencilla para actuar como clasificadores no lineales mediante la aplicación de una función o kernel no lineal sobre los datos de entrada.

Inicialmente se usaron para problemas de clasificación binaria, pero después se ha extendido su uso a problemas de regresión, agrupamiento, clasificación multiclase, regresión ordinal, y se está trabajando en la búsqueda de resolver problemas más complejos (árboles y grafos). Algunas aplicaciones de las SVM para los casos de reconocimiento de patrones han sido reconocimiento de caracteres [52], reconocimiento de objetos [53], reconocimiento de voz [54], etc.

Su principal objetivo es obtener una superficie (o hiperplano) capaz de separar las diferentes clases en las que se puede agrupar una distribución de datos en un espacio N-dimensional, utilizando para ello un proceso de optimización basado en la obtención de vectores que definen los límites de las clases. Estos vectores se denominan normalmente vectores soporte o support vectors [52].

Si vemos los datos de entrada como dos conjuntos de vectores en un espacio N-dimensional, el objetivo del algoritmo SVM simplemente es construir un hiperplano de separación en ese espacio, el cual maximice el margen de distancia a los dos conjuntos de datos [55].

(29)

Fig. 2.6 Esquema de funcionamiento SVM

En la Fig.2.6 podemos apreciar como calcular este hiperplano de separación, construyendo otros dos hiperplanos paralelos, uno a cada lado del primero. Los dos hiperplanos paralelos son empujados, para aproximarse lo más posible a los conjuntos de datos. Intuitivamente, se alcanza una buena separación cuando el hiperplano de separación se encuentra a la mayor distancia de ambas clases [52]. Cuanto mayor sea la distancia mejor será en general el error del clasificador.

En términos matemáticos, dado un conjunto de entrenamiento de la ecuación 2.15:

(2.15)

Donde ci es 1 ó −1, indicando la clase a la que el punto pertenece. Cada es un vector real p-dimensional, queremos obtener un hiperplano de distancia máxima a los conjuntos de entrenamiento y que los divida aquellos pertenecientes a ci = 1 de aquellos que tengan el valor ci = − 1. Cualquier hiperplano puede ser escrito como un conjunto de puntos que satisfaga la ecuación 2.16

(2.16)

El vector W es un vector normal perpendicular al hiperplano. El parámetro determina el desplazamiento del hiperplano sobre el origen.

(30)

Nosotros queremos elegir la W y la b que maximicen la distancia entre los dos hiperplanos paralelos, que estarán tan apartados como sea posible en función de los datos. Estos hiperplanos pueden ser descritos con las fórmulas ecuación 2.17 y ecuación 2.18.

(2.17)

y .(2.18)

Nótese que si el conjunto de entrenamiento es linealmente separable podemos elegir dos hiperplanos en el borde de los conjuntos de modo que no hay puntos entre ellos y entonces intentar maximizar su distancia. Usando la geometría, podemos

encontrar que la distancia entre ellos es , por lo que se pretende minimizar . Como tenemos que evitar que los puntos caigan en la zona límite, añadimos la restricción de la ecuación 2.7 a los pertenecientes a la primera clase y la restricción de la ecuación 2.8 a los de la segunda

(2.19)

(2.20)

Esto puede ser escrito como:

(2.21)

Podemos poner esto junto para llegar al problema de optimización: Elegir w, b para minimizar ||w||

(2.22)

El problema de optimización presentado anteriormente es difícil debido a que solo depende de un valor |w|. La razón es que es un problema de optimización no convexo, el cual se sabe que es mucho más difícil de resolver que el problema de

optimización convexo. Afortunadamente es posible sustituir ||w|| por sin cambiar la solución. Esto es un problema de optimización de programación cuadrática. Más claramente,

minimizar , sujeto a .

El factor 1/2 se usa como una conveniencia matemática. Ahora el problema que se nos presenta se puede resolver mediante programas y técnicas de programación cuadrática estándar.

(31)

Escribiendo la regla de clasificación en su forma dual extendida revela que la distancia máxima al hiperplano, y por tanto la tarea de clasificación, es solo una función de los vectores soporte, es decir, los datos que están en el límite. La segunda forma de SVM se puede ver en la fórmula (2.23):

(2.23)

Sujeto a , y (2.24)

Donde los términos α constituyen otra representación del vector de pesos en términos del conjunto de entrenamiento:

(2.25)

El algoritmo original especifica un clasificador lineal, sin embargo, puede modificarse para resolver problemas de clasificación no lineal reemplazando el producto escalar por una función kernel no lineal. Esto permite al algoritmo fijar la máxima distancia al hiperplano en un espacio de características transformado. La transformación podría ser no lineal y el espacio transformado de alta dimensionalidad; de este modo aunque el clasificador es un hiperplano en un espacio de características de alta dimensionalidad podría no ser lineal en el espacio de entrada original [56].

Si el kernel utilizado es Gaussian radial basis function, el espacio de características correspondiente es un espacio de Hilbert de dimensión infinita. La máxima distancia esta regulada, por lo que la dimensión infinita no estropeará los resultados [57]. Algunos kernels habituales incluyen,

• Polynomial (homogéneo):

• Polynomial (heterogéneo):

• Radial Basis Function: , para γ > 0

(32)

• Sigmoid: , para algunos κ > 0 y c < 0

En la literatura, podemos encontrar también ejemplos de kernels basados en métricas espectrales comúnmente utilizadas en análisis hiperespectral [58].

El procesamiento empleado por las SVM no requiere de un gran número de patrones de entrenamiento, siempre y cuando los patrones escogidos sean realmente representativos. De esta forma, el rendimiento del método no se ve muy afectado por la disponibilidad de un número limitado de patrones de entrenamiento [59].

2.6.3 Perceptrón Multicapa o Multi-Layer Perceptron (MLP)

Como hemos mencionado en apartados anteriores, este clasificador es el exponente más típico en las redes neuronales artificiales con aprendizaje supervisado. Formado por múltiples capas, como su propio nombre indica, esto le permite resolver problemas que no son linealmente separables, lo cual es la principal limitación del perceptrón simple.

Este método de aprendizaje de redes neuronales artificiales fue descrito por Paul Werbos en 1974, pero no fue hasta 1986, a través del trabajo de David E.Rumelhart, Geoffrey E. Hinton y Ronald J Williams, cuando obtuvieron el reconocimiento y dio lugar a un giro importante en el campo de investigación de redes neuronales artificiales.

El entrenamiento se basa en la presentación sucesiva y de forma reiterada, de pares de vectores en las capas de entrada y salida. La red crea un modelo a base de ajustar sus pesos en función de los vectores de entrenamiento, de forma que a medida que se pasan estos patrones, para cada vector de entrada la red producirá un valor de salida más similar al vector de salida esperado. El esquema mostrado en la Fig. 2.7 presenta una red neuronal de tipo feed-forward (propagación hacia delante).

(33)

1 2 3 1 2 L 1 2 3 ••• ••• ••• Capa de salida Capa oculta Capa de entrada M N 1 2 3 1 2 L 1 2 3 ••• ••• ••• Capa de salida Capa oculta Capa de entrada M N

Fig. 2.7 Perceptrón multicapa

La Fig. 2.7 muestra la topología de un perceptrón multicapa con 3 capas de neuronas (de entrada, oculta y de salida).

A continuación decribiremos el algoritmo de entrenamiento de retropropagación o backpropagation, que es el algoritmo de aprendizaje implementado en la versión utilizada.

Los pasos de la fase de reconocimiento para una red NxLxM (siendo N la dimensionalidad de los datos de entrada, L el número de neuronas ocultas y M el número de clases a identificar) son los siguientes:

(34)

Propagación hacia delante. Inicialmente, se presenta un patrón de entrada

[

x1,x2,...,xN

]

=

X , así como la salida deseada para dicho patrón

[

a1,a2,...,aM

]

=

A . A continuación, se calculan las salidas de las neuronas de la capa oculta teniendo en cuenta las neuronas de entrada para cada

neurona i de la capa oculta i0

N 1 j o i o

wijxj w = + = . Seguidamente, se calculan

las salidas de las neuronas ocultas mediante la función de activación considerada zi = f

( )

ooi .

Se realizan los mismos cálculos que en el paso anterior para obtener las

salidas de cada neurona k de la capa de salida k0

L 1 i i ki s k o

v z v = + = ,

( )

s k k o

y = g . Teniendo en cuenta la salida obtenida por la red, así como la salida deseada proporcionada al comienzo, se calcula un término de error para cada neurona de salida mediante la siguiente expresión δsk =

(

ak −yk

)

g'

( )

oks . A continuación, se retropropaga el error hacia atrás, calculando los términos de

error para las neuronas ocultas '

( )

oi

L 1 k ki k o i δ f o δ       =

=

v . De esta forma, el error que se produce en una neurona oculta es proporcional a la suma de los errores que se producen en las neuronas a las que está conectada la salida de esta.

Finalmente, solo queda actualizar los pesos de acuerdo con los términos de error previamente calculados. Comenzamos por los pesos de la capa de salida, que calculamos de acuerdo con la expresión vki

(

t+1

)

=vki

( )

t +αδskzpi y después hallamos los pesos de la capa oculta del siguiente modo

(

)

( )

o j

i ij

ij t+1 =w t +αδ x

w .

Este proceso se reptite hasta que el término del error (error permitido) resulta lo suficientemente pequeño para dicho patrón:

(

)

2 M 1 k k k y 2 1 E

= − = a

Una vez alcanzada la convergencia de la red (el error global está por debajo de un determinado error umbral), se aplica un procedimiento de asignación de

(35)

cada patrón a una clase siguiendo un simple proceso de winner-take-all, de forma que cada patrón se etiqueta como perteneciente a la clase con mayor porcentaje de

abundancia obtenido a la salida de la red.

2.6.4 Self-Organizing Map (SOM)

Los mapas de características autoorganizativo o Self Organizing Feature Maps (SOM o SOFM), desarrollados por Kohonen son un tipo de red neuronal no supervisada, competitiva, que buscan la transformación de un patrón de entrada en un mapa discreto multidimensional de forma adaptativa, siguiendo algún criterio de ordenación topológico.

La red utilizada consta de un conjunto de N neuronas lineales que reciben patrones N-dimensionales y un conjunto de M neuronas de salida que forman una capa unidimensional de tipo competitivo, siendo M el número total de clases existentes en la imagen. Las conexiones entre los nodos de entrada y de salida están ponderadas (wij, inicializados de forma aleatoria al principio del proceso), de forma que los

valores correspondientes a una neurona de salida i (vector de pesos wi), representarán el

prototipo o firma hiperespectral de la clase i-ésima (o endmember i-ésimo). Además existen conexiones laterales entre las M neuronas de salida, conexiones que especifican la influencia de la neurona sobre sus vecinas (función de vecindad) durante el proceso de actualización de los pesos.

La Fig. 2.8 muestra una arquitectura sencilla de la red SOM, está formada por dos capas, una capa de entrada y otra de salida, existen conexiones hacia delante de la capa de entrada a la de salida y laterales y autorrecurrentes entre las neuronas de la capa de salida. Firmas espectrales Imagen clasificada W (endmembers) 1 2 1 2 E Firmas espectrales Imagen clasificada W (endmembers) 1 2 1 2 E

(36)

El proceso de entrenamiento utilizado para la red SOM es el siguiente [38]: 1.- Inicialización aleatoria de los pesos (wi).

2.- Presentar los patrones de entrada a la red uno a uno en la capa de entrada (y(n)) determinando cual es la neurona ganadora de acuerdo con la siguiente expresión:

( )

[ ]

yn y n w

( )

t j M i j j ( ) 1,2, , min 2 2 * L = − =

3.- A continuación, actualizar los pesos de la red según la siguiente ecuación:

(

)

( )

( )

(

[

( )

]

)

(

( )

( )

)

w t

i

+

1

=

w t

i

+

η σ

t

t i i

, ,

*

x n

x n

w t

i

donde η(t)es el parámetro de aprendizaje y toma el valor 1/t, y

σ

(t,i,i*

[

x(n)

]

) es la función de vecindad circular.

Por último, presentamos cada píxel de la imagen a la capa de entrada, activándose en cada caso la neurona ganadora representante de la clase más similar al patrón introducido [37].

2.7 Técnicas de preprocesado

Algunas pruebas se han hecho después de transformar la imagen original mediante dos métodos de reducción del número de bandas. El hecho de utilizar técnicas de preprocesamiento de imágenes orientadas a la reducción de la dimensionalidad de los datos de entrada viene propiciado por el conocido como fenómeno de Hughes [60].

Fenómeno de Hughes

En un problema de clasificación típico, el objetivo es asignar una etiqueta de clase a los datos de entrada. El error mínimo esperado que se puede alcanzar al realizar la clasificación es lo que se conoce como el error de Bayes [61].

El error de Bayes es una función que decrece con la dimensionalidad de los datos. Una nueva característica añade información sobre el ejemplo y entonces, uno esperaría que la clasificación fuese tan buena como cuando esta información no se había introducido. Sin embargo, en la práctica esto no es así, cuando se añade una

Figure

Actualización...

Referencias

Actualización...

Related subjects :