1
Modelo Para Clasificación de Imágenes Multiespectrales a Partir de los Complejos de Células Abstractas (CCA)
Presentado por: Cristian David Dallos Bustos Código: 20132295006
Director: José Antonio Valero Medina Msc. Teleinformática Universidad Distrital
Co-Director: Iván Lizarazo PhD in Geography of London University
Universidad Distrital Francisco José de Caldas Facultad de Ingeniería
Maestría en Ciencia de la Información y las Comunicaciones Énfasis en Sistemas de Información
2
AGRADECIMIENTOS
Al creador de todas las cosas, Dios, a quien siempre he confiado mi vida y no ha permitido que desfallezca. Quien me brindó sabiduría e inspiración para lograr superar todos los retos planteados por el presente trabajo de investigación
A mi estimado Tutor y Asesor de tesis, José Antonio Valero, por todo el empeño en el desarrollo de la investigación, quien siempre estuvo dispuesto a resolver mis dudas, compartiendo su conocimiento, orientado cada respuesta en pro del cumplimiento de los objetivos. Quien sin importar la hora o día atendió mis inquietudes.
A mi cotutor Ivan Lizarazo, por disponer de su tiempo y conocimiento, brindando observaciones sabias y que promovieron los resultados obtenidos.
A mi amada madre y padre Ligia y Carlos, quienes siempre me apoyaron y creyeron en mí, brindándome palabras llenas de sabiduría, para con ello tomar las mejores decisiones.
A mis hermanas Liliana y Elizabeth, a mis sobrinos Nicolás, Isabella y Luciana, por llenar de alegría los momentos difíciles.
A mi amada Stefanía, por su sacrificio, apoyo y compresión, quien acepto el tiempo limitado dado mi responsabilidad con la maestría.
A mis amigos y compañeros presentes, quienes con sus palabras de apoyo me motivaron a continuar siempre con el proceso.
3
CONTENIDO
1. OBJETIVOS DEL ESTUDIO ... 8
1.1. Introducción ... 8
1.2. Planteamiento Del Problema De Investigación ... 9
1.3. Objetivos ... 9
1.3.1. Objetivo General... 9
1.3.2. Objetivos Específicos ... 9
1.4. Pregunta De Investigación E Hipótesis ... 10
1.4.1. Pregunta ... 10
1.4.2. Hipótesis ... 10
1.5. Delimitación Del Alcance ... 10
1.6. Justificación ... 10
2. MARCO DE REFERENCIA ... 11
2.1. Marco Teórico ... 11
2.1.1. Clasificación De Imagen Multiespectral ... 11
2.1.2. Complejos De Células Abstractas ... 17
2.1.3. Segmentos De Recta Digital (DSS) ... 21
2.1.4. Transformada De Cuenca ... 23
2.1.5. Evaluación De Clasificación ... 27
2.2. Estado Del Arte ... 28
3. DATOS Y MÉTODOS ... 32
3.1. Datos ... 32
3.2. Método ... 33
3.2.1. Desarrollo Del Modelo ... 34
3.2.1.1. Espacio Complejo Cartesiano ... 35
3.2.1.2. Espacio De Niveles De Gris ... 42
3.2.1.3. Espacio Filtrado... 43
3.2.1.4. Espacio De Textura ... 45
3.2.1.5. Espacio De Cuencas ... 48
3.2.1.6. Espacio De Clasificación Complejo Cartesiano... 50
3.2.2. Marco Computacional ... 52
3.2.2.1. Paquete Cartesian Complex Core ... 54
3.2.2.2. Paquete Monochromatic ... 56
4
3.2.2.4. Paquete Clustering... 59
3.2.2.5. Paquete Watershed ... 62
3.2.2.6. Paquete Clasificador ... 66
3.2.3. Evaluación Del Modelo De Clasificación ... 67
3.2.3.1. Construcción Capas De Textura Y Cuencas Para Espacio De Representación Convencional (Píxel) ... 68
3.2.3.2. Clasificación De Superpíxeles Con Rasgos Radiométricos ... 71
3.2.3.3. Clasificación Superpíxeles Con Rasgos De Textura ... 72
3.2.3.4. Clasificación De Superpíxeles Con Rasgos Radiométricos Mas Rasgos De Textura ... 73
4. PRESENTACIÓN DE RESULTADOS ... 74
4.1. Resultados De Clasificación Escenario De Superpíxeles Con Rasgos Radiométricos ... 74
4.2. Resultados De Clasificación Escenario De Su perpíxeles Con Rasgo De Textura ... 76
4.3. Resultados De Clasificación Escenario De Superpíxeles Con Rasgos Radiométricos Más Los Rasgos De Textura ... 77
5. DISCUSIÓN DE RESULTADOS... 80
5.1. Resultados De Los Experimentos ... 80
5.2. Resultados Del Trabajo De Investigación... 81
6. CONCLUSIONES ... 84
6.1. Conclusiones De Los Experimentos ... 84
6.2. Conclusiones Del Trabajo De Investigación... 84
7. TRABAJO FUTURO ... 86
BIBLIOGRAFÍA ... 87
ANEXOS ... 91
Diagramas De Clase ... 91
Cartesian Complex Cor ... 91
Cartesian Complex Structure ... 91
Monochromatic ... 91
Directionalfilter ... 91
Clustering ... 91
Watershed ... 91
5 Índice de Figuras
FIGURA 1.PROCEDIMIENTOS, MÉTODOS Y LÓGICA DEL PROCESO DE CLASIFICACIÓN DE IMAGEN. ... 12
FIGURA 2.UBICACIÓN DE HIPERPLANO CON MÁXIMO MARGEN DE SEPARACIÓN ... 14
FIGURA 3.SEPARACIÓN OPTIMA DE HIPERPLANO:𝑤𝑇𝑥 + 𝑏 = 0 ... 14
FIGURA 4.MAPEO DE MUESTRAS A UN ESPACIO DE DIMENSIÓN SUPERIOR PARA LOGRAR LA MAYOR SEPARABILIDAD ENTRE LAS CLASES ... 16
FIGURA 5.RELACIÓN DE LÍMITE O CARA... 17
FIGURA 6.REPRESENTACIÓN GRÁFICA DE UN ACC CONECTADO UNIDIMENSIONAL. ... 19
FIGURA 7.COMPLEJO CARTESIANO BIDIMENSIONAL. ... 20
FIGURA 8.ASIGNACIÓN ETIQUETA DE MAYOR VALOR. ... 20
FIGURA 9.ESCENARIO “EQU”. ... 21
FIGURA 10.EXTENSIÓN VECINDARIO ABIERTO MÁS PEQUEÑO REQUERIDO EN LA SOLUCIÓN DE LA IDENTIFICACIÓN DE CAMINO ESTRECHO. ... 21
FIGURA 11.EJEMPLO SEMIPLANO Y DSS EN COORDENADAS TOPOLÓGICA. ... 22
FIGURA 12.ORIENTACIÓN Y DIRECCIÓN DSS SEGÚN LADO POSITIVO O NEGATIVO ASIGNADO EN EL SEMIPLANO DIGITAL. ... 22
FIGURA 13.MÍNIMOS LOCALES, CUENCAS DE CAPTACIÓN Y LÍNEA DE CUENCA. ... 23
FIGURA 14.VARIACIÓN TRANSFORMADA DE CUENCA SEGÚN VECINDARIO. ... 26
FIGURA 15.COMPORTAMIENTO DE LA TRANSFORMADA DE CUENCA DE ACUERDO A LA MODIFICACIÓN DE CHRISTOPHER MEI. .... 26
FIGURA 16.COMPORTAMIENTO DE LA TRANSFORMADA DE CUENCA. ... 27
FIGURA 17.FRAMEWORK DE CLASIFICACIÓN DE IMAGEN ... 28
FIGURA 18.FASES DE UN MODELO DE CLASIFICACIÓN DE IMAGEN. ... 30
FIGURA 19.VECINDARIO 4– CONECTADO DE UN PIXEL. ... 31
FIGURA 20.VECINDARIO 8– CONECTADO DE UN PIXEL. ... 31
FIGURA 21.ESCENAS EN COMPOSICIÓN DE FALSO COLOR USADAS PARA EVALUACIÓN DEL MODELO DE CLASIFICACIÓN BASADO EN COMPLEJOS CARTESIANOS. ... 33
FIGURA 22.FLUJO DE PROCESOS DEL PROCESO DE CLASIFICACIÓN BASADO EN COMPLEJOS DE CÉLULAS ABSTRACTOS. ... 34
FIGURA 23.COORDENADAS CARTESIANAS ELEMENTOS N-DIMENSIONAL. ... 36
FIGURA 24.AMPLIACIÓN DEL VECINDARIO 0-ELEMENTO. ... 36
FIGURA 25.DETECCIÓN DE ARCOS EN CADA SEMIPLANO. ... 37
FIGURA 26.FLECHAS EN TONO NEGRO REPRESENTAN LAS DIRECCIONES DE CONECTITUD. ... 38
FIGURA 27.CUADRANTES QUE PERMITEN INTERSECTAR LOS DOS SEMIPLANOS CELULARES. ... 38
FIGURA 28.REGIONES POSIBLES PARA CADA PAREJA COMBINATORIAL... 39
FIGURA 29.ADYACENCIA ENTRE CUADRANTES. ... 40
FIGURA 30.ASIGNACIÓN DE ETIQUETA MAYOR VALOR. ... 41
FIGURA 31.SEMIPLANO DIGITAL CON 1-CÉLULA. ... 44
FIGURA 32.DIVISIÓN DEL SEMIPLANO PLANO DIGITAL. ... 44
FIGURA 33.DEFINICIÓN DE NÚCLEOS DE FILTRAJE BALANCEADO. ... 45
FIGURA 34.UBICACIÓN DE VALORES MÁXIMOS Y MÍNIMOS. ... 46
FIGURA 35.PROYECCIÓN DE CENTROS DE CLASE INICIAL A PARTIR DEL VECTOR VALORES MÁXIMO Y MÍNIMO. ... 47
FIGURA 36.MÁSCARA PARA LA IMPLEMENTACIÓN DEL FILTRO SOBEL SOBRE 1-CÉLULAS SEGÚN SU ORIENTACIÓN ... 48
FIGURA 37.DEFINICIÓN DEL CRACK-VECINDARIO. ... 49
FIGURA 38.MESETA O PLANICIE DE CUENCA. ... 49
FIGURA 39.ADELGAZAMIENTO DE PLANICIE. ... 50
FIGURA 40.MAPEO DE POLÍGONOS DEFINIDOS POR EL ESPACIO DE CUENCAS A SUPERPÍXELES EN EL ESPACIO DE REPRESENTACIÓN CONVENCIONAL. ... 51
FIGURA 41.VARIABLES DE EVALUACIÓN PARA VALORACIÓN DE RESULTADOS DE KERNELS DE CLASIFICACIÓN ... 51
FIGURA 42.DIAGRAMA DE PAQUETES MARCO COMPUTACIONAL. ... 53
FIGURA 43.MODELO LÓGICO MARCO COMPUTACIONAL. ... 53
FIGURA 44.FLUJOGRAMA DE LA CREACIÓN DE UN ESPACIO COMPLEJO CARTESIANO. ... 54
FIGURA 45.MAPEO FÍSICO POR CADA ELEMENTO CELULAR DEL ESPACIO COMPLEJO CARTESIANO. ... 55
6
FIGURA 47.FLUJOGRAMA IMPLEMENTADO EN EL PAQUETE MONOCHROMATIC PARA CONSTRUCCIÓN DE UN ESPACIO COMPLEJO
CARTESIANO DE NIVELES DE GRISES. ... 56
FIGURA 48.PARALELIZACIÓN DEL PROCESO DE CONVERSIÓN DE ESPACIO MULTIESPECTRAL A ESPACIO MONOCROMÁTICO. ... 57
FIGURA 49.ESPACIO DE NIVELES DE GRIS. ... 57
FIGURA 50.CONSTRUCCIÓN ESPACIO COMPLEJO CARTESIANO FILTRADO. ... 58
FIGURA 51.ESPACIO COMPLEJO CARTESIANO DE NIVELES DE GRISES CON SUPRESIÓN DE RUIDO. ... 58
FIGURA 52.CAPAS RESULTANTES DEL ESPACIO FILTRADO... 59
FIGURA 53.FLUJOGRAMA CONSTRUCCIÓN ESPACIO DE TEXTURA. ... 60
FIGURA 54.DISTRIBUCIÓN DE CÉLULAS ALGORITMO DEL ENCARGADO DE OBTENER EL VECTOR DE VALORES MÁXIMOS Y EL VECTOR DE VALORES MÍNIMOS. ... 60
FIGURA 55.DISTRIBUCIÓN DE CÉLULAS Y FASES DE EJECUCIÓN PARA UNA ITERACIÓN DEL ALGORITMO DE K-MEDIAS IMPLEMENTADO EN EL PAQUETE CLUSTERING. ... 61
FIGURA 56.ESPACIO DE TEXTURA. ... 61
FIGURA 57.FLUJOGRAMA PAQUETE “WATERSHED” QUE IMPLEMENTA LA CONSTRUCCIÓN DE UN ESPACIO DE CUENCAS. ... 62
FIGURA 58.EJECUCIÓN MÁSCARA DE SOBEL SOBRE EL ESPACIO COMPLEJO CARTESIANO DE NIVELES DE GRISES CON SUPRESIÓN DE RUIDO. ... 62
FIGURA 59.RESULTADO ESPACIO DE CUENCAS, FASE FILTRO DE SOBEL Y GRADIENTE DE SOBEL. ... 63
FIGURA 60.RESULTADO DE LA EJECUCIÓN DEL MARCO DE EVALUACIÓN DE FIABILIDAD DE LÍMITE. ... 64
FIGURA 61.FASES DEL ALGORITMO DE CONSTRUCCIÓN DE CUENCAS. ... 64
FIGURA 62.TRANSFORMACIÓN DE ESPACIO BIDIMENSIONAL A ESPACIO UNIDIMENSIONAL. ... 65
FIGURA 63.ESPACIO DE CUENCAS CON 16618 CUENCAS TRAZADAS. ... 65
FIGURA 64.FASES QUE COMPONEN EL PAQUETE DE CLASIFICACIÓN IMPLEMENTADO EN LA HERRAMIENTA COMPUTACIONAL MATLAB®. ... 66
FIGURA 65.TRANSFORMACIÓN DE ESPACIO BIDIMENSIONAL A ESPACIO UNIDIMENSIONAL PARA LA EJECUCIÓN DE LA FASE DE CLASIFICACIÓN. ... 66
FIGURA 66.TRANSFORMACIÓN ESPACIO UNIDIMENSIONAL CLASIFICADO A ESPACIO BIDIMENSIONAL ORIGINAL. ... 67
FIGURA 67.MÁSCARAS DE FILTRAJE DIRECCIONAL APLICADA AL ESPACIO DE REPRESENTACIÓN CONVENCIONAL PARA OBTENER EL ESPACIO FILTRADO REQUERIDO EN LA CONSTRUCCIÓN DE LA CAPA DE TEXTURA. ... 69
FIGURA 68.RESULTADO CONSTRUCCIÓN CAPAS DE TEXTURA Y CUENCA PARA EL ESPACIO CONVENCIONAL. ... 70
FIGURA 69.EJEMPLO DE ASIGNACIÓN DE ETIQUETA A LOS PÍXELES PERTENECIENTES AL LÍMITE DE CUENCA. ... 70
FIGURA 70.FLUJO DE PROCESOS DE CLASIFICACIÓN DE IMAGEN BASADO EN LOS SUPERPÍXELES ASOCIADOS A LOS RASGOS RADIOMÉTRICOS, USANDO COMO CLASIFICADOR MÁQUINAS DE SOPORTE VECTORIAL (SVM). ... 71
FIGURA 71.FLUJO DE PROCESOS DE CLASIFICACIÓN DE IMAGEN BASADO EN LOS SUPERPÍXELES ASOCIADOS A LOS RASGOS DE TEXTURA USANDO COMO CLASIFICADOR MÁQUINAS DE SOPORTE VECTORIAL (SVM). ... 72
FIGURA 72.ESCENARIO DE CLASIFICACIÓN COMPLETO;SUPERPÍXELES CON RASGOS RADIOMÉTRICOS MÁS RASGOS DE TEXTURA. . 73
FIGURA 73.RESULTADOS DE CLASIFICACIÓN PARA EL ESCENARIO DE SUPERPÍXELES ASOCIADOS A LOS RASGOS RADIOMÉTRICOS. .. 74
FIGURA 74.RESULTADOS DE CLASIFICACIÓN PARA EL ESCENARIO DE SUPERPÍXELES ASOCIADOS A LOS RASGOS DE TEXTURA. ... 76
FIGURA 75. RESULTADOS DE CLASIFICACIÓN PARA SUPERPÍXELES CON RASGOS RADIOMÉTRICOS MÁS RASGOS DE TEXTURA ... 78
FIGURA 76.DIAGRAMA DE CLASES PAQUETE CARTESIANCOMPLEXCORE. ... 92
FIGURA 77.DIAGRAMA DE CLASES PAQUETE STRUCTURE... 93
FIGURA 78,DIAGRAMA DE CLASES PAQUETE MONOCHROMATIC. ... 94
FIGURA 79.DIAGRAMA DE CLASES PAQUETE DIRECTIONALFILTER. ... 95
FIGURA 80.DIAGRAMA DE CLASES PAQUETE CLUSTERING. ... 96
FIGURA 81.DIAGRAMA DE CLASES PAQUETE WATERSHED. ... 97
FIGURA 82.ESPACIO CONVENCIONAL FILTRADO.EN LA IMAGEN SE PUEDE OBSERVAR COMO LOS BORDES DE LOS OBJETOS EN LA ESCENA SE RESALTAN. ... 98
FIGURA 83.RESULTADO GRADIENTE DE IMAGEN PARA EL ESPACIO DE REPRESENTACIÓN CONVENCIONAL. ... 98
7
TABLA 1.TÉCNICAS DE EXTRACCIÓN DE VECTORES CARACTERÍSTICOS EN FUNCIÓN DEL COLOR Y LA TEXTURA DE LA IMAGEN ... 29
TABLA 2.CLASES Y COLOR ASIGNADO EN LA CAPA DE VERDAD DE TERRENO. ... 32
TABLA 3.TABLA LÓGICA COMBINATORIAL DE ARCOS POR CUADRANTE. ... 39
TABLA 4.TABLA LÓGICA COMBINATORIAL REGIONES. ... 40
TABLA 5.CÉLULA GANADORA POR CUADRANTE ADYACENTE. ... 41
TABLA 6.RESULTADOS DE VALIDACIÓN CRUZADA DE DIFERENTES MODELOS SVM KERNEL ... 52
TABLA 7.PONDERACIÓN PARA SELECCIÓN DE KERNEL. ... 52
TABLA 8.MATRIZ DE CONFUSIÓN RESULTANTE DE LA CLASIFICACIÓN DE LOS SUPERPÍXELES OBTENIDOS A PARTIR DEL ESPACIO DE REPRESENTACIÓN CONVENCIONAL ASOCIADOS A LOS RASGOS DE RADIOMÉTRICOS. ... 75
TABLA 9.MATRIZ DE CONFUSIÓN RESULTANTE DE LA CLASIFICACIÓN DE LOS SUPERPÍXELES OBTENIDOS A PARTIR DEL ESPACIO COMPLEJO CARTESIANO ASOCIADOS A LOS RASGOS DE RADIOMÉTRICOS. ... 75
TABLA 10.EXACTITUD RESULTANTE DEL PROCESO DE CLASIFICACIÓN, CALCULADA A PARTIR DE LA MATRIZ DE CONFUSIÓN DE CADA UNO DE LOS ESPACIOS (SC Y SCCC). ... 75
TABLA 11.INTERVALOS DE CONFIANZA PRODUCTO DE LA CLASIFICACIÓN DEL ESCENARIO DE SUPERPÍXELES ASOCIADOS A LOS RASGOS RADIOMÉTRICOS. ... 75
TABLA 12.MATRIZ DE CONFUSIÓN RESULTANTE DE LA CLASIFICACIÓN DE LOS SUPERPÍXELES OBTENIDOS A PARTIR DEL ESPACIO DE REPRESENTACIÓN CONVENCIONAL ASOCIADOS A LOS RASGOS DE TEXTURA. ... 76
TABLA 13.MATRIZ DE CONFUSIÓN RESULTANTE DE LA CLASIFICACIÓN DE LOS SUPERPÍXELES OBTENIDOS A PARTIR DEL ESPACIO COMPLEJO CARTESIANO ASOCIADOS A LOS RASGOS DE TEXTURA... 77
TABLA 14.EXACTITUD RESULTANTE DEL PROCESO DE CLASIFICACIÓN, CALCULADA A PARTIR DE LA MATRIZ DE CONFUSIÓN DE CADA UNO DE LOS ESPACIOS. ... 77
TABLA 15.INTERVALOS DE CONFIANZA PRODUCTO DE LA CLASIFICACIÓN DEL ESCENARIO DE SUPERPÍXELES ASOCIADO A LOS RASGOS DE TEXTURA. ... 77
TABLA 16.MATRIZ DE CONFUSIÓN RESULTANTE DE LA CLASIFICACIÓN DE LOS SUPERPÍXELES A PARTIR DEL ESPACIO DE REPRESENTACIÓN CONVENCIONAL SUPERPÍXELES ASOCIADOS A LOS RASGOS RADIOMÉTRICOS MÁS LOS RASGOS DE TEXTURA. ... 78
TABLA 17.MATRIZ DE CONFUSIÓN RESULTANTE DE LA CLASIFICACIÓN DE LOS SUPERPÍXELES OBTENIDOS A PARTIR DEL ESPACIO COMPLEJO CARTESIANO SUPERPÍXELES ASOCIADOS A LOS RASGOS RADIOMÉTRICOS MÁS LOS RASGOS DE TEXTURA. ... 78
TABLA 18.EXACTITUD RESULTANTE DEL PROCESO DE CLASIFICACIÓN CALCULADA A PARTIR DE LA MATRIZ DE CONFUSIÓN DE CADA UNO DE LOS ESPACIOS. ... 79
8
1.
OBJETIVOS DEL ESTUDIO
El primer contenido que se presenta a continuación, corresponde a una breve introducción sobre el trabajo desarrollado, incluyes los conceptos elementales para el entendimiento del problema de investigación e hipótesis del trabajo. Seguido, se muestran los objetivos, alcance y justificación del trabajo de investigación.
1.1. Introducción
La definición de un espacio topológico finito que cumpla con los axiomas propuestos por la topología ha sido de especial interés desde finales de la década de los 80 para los científicos de las ciencias de la computación. Dicho espacio busca poder definir y detallar las características propias del terreno real, entre ellas las más relevantes, los límites de un objeto, sus curvas características y la conectividad entre ellos. Estas características son de vital importancia a la hora de definir donde comienza y donde termina un objeto (esto en un posible procesamiento y análisis de la imagen). Varios autores han tratado de resolver los problemas planteados por la topología discreta, entre ellos Kiselman [1] quien realiza una demostración de la propuesta realizada por Khalimsky [2] en la cual se propone un espacio conectado ordenado topológico, (COTS por su siglas en inglés “Connected Ordered Topological Space”), este espacio representado en un complejo cartesiano es similar al propuesto por Kovalevsky, pero marcado por la ausencia de dimensión en la representación de cada uno de los elementos del conjunto y su relación directa de este concepto en la definición de adyacencia [3]. La ausencia de dimensión en la representación de los elementos que componen el espacio localmente finito no permite la definición de vecindarios entre elementos de diferentes dimensiones [3].
Otros autores han planteado una posible solución al problema de conectividad entre los Píxeles que componen la imagen desde la teoría de los grafos. Un ejemplo de ello es la propuesta de Rosenfeld [4] el cual, sin embargo, no resuelve el problema a partir de la definición de vecindarios y sus posibles 4 - conectado y 8 - conectado, debido a las paradojas que conlleva la definición de vecindarios a partir de ellos, lo cual no permite definir de manera consistente un espacio en el cual exista una topología finita.
9
Mediante la investigación realizada, como parte del proyecto de investigación doctoral titulado “Development of an alternative method for multispectral image segmentation based on cartesian complexes and their associated oriented matroids” desarrollado por el profesor José Antonio Valero Medina, se logra desarrollar un modelo de clasificación de imagen con base en su representación como un complejo de células abstractas el cual permite definir las nociones de adyacencia, conectividad y frontera, y tener como resultado un espacio topológico finito, libre de paradojas y consistente con la definición de un espacio topológico con la propiedad de separación 𝑇0 [11].
1.2. Planteamiento Del Problema De Investigación
Los procesos actuales de clasificación de imagen se desarrollan bajo procedimientos matemáticos en los cuales las características descritas por la topología, tales como adyacencia, conectividad y frontera entre los objetos, no son cumplidas. Este problema se debe a que el modelo tradicional de cómputo, el cual está basado en la matriz bidimensional de píxeles utilizado para la representación de una imagen, presenta dificultades a la hora de definir las nociones topológicas. Para resolver este problema, científicos de la computación han planteado soluciones alternativas para la representación de la imagen, una de ella son los grafos de vecindad, propuestos por Rosenfeld [12] el cual plantea para el estudio de las propiedades topológicas de la imagen la representación como un grafo no dirigido en el cual un píxel es mapeado a un vértice, y la relación entre cada uno de estos elementos se determina por las vecindades 4 - y 8 - conectado. De acuerdo con la topología clásica [13] una curva cerrada separa en dos componentes conectados el espacio Euclidiano, esta definición se ve resuelta de manera inconsistente en el plano digital debido a las paradojas de vecindad [6].
1.3. Objetivos
1.3.1. Objetivo General
Diseñar un modelo de clasificación de Imágenes multiespectrales que incluya el componente topológico proporcionado por los complejos de células abstractas.
1.3.2. Objetivos Específicos
Implementar un marco computacional para clasificación de imágenes multiespectral usando complejos de células abstractas.
10
1.4. Pregunta De Investigación E Hipótesis
1.4.1. Pregunta
¿De qué manera las nociones definidas por la topología (adyacencia, vecindad y frontera) para cada uno de los elementos que componen la muestra espacial sensada pueden ser incluidas para mejorar el proceso de clasificación de imagen?
1.4.2. Hipótesis
El proceso de clasificación de una imagen multiespectral se mejora al representarla con base en complejos de células abstractas ya que estos últimos cumplen con los axiomas de un espacio topológico 𝑇0 libre de ambigüedades en la definición de las propiedades topológicas de frontera y conexión.
1.5. Delimitación Del Alcance
El presente trabajo se encuentra limitado a la construcción de un modelo de clasificación de imagen multiespectral basado en las máquinas de soporte vectorial (SVM por su sigla en inglés) el cual incluye como etapa de pre procesamiento una versión simplificada del marco procedimental presentado por [14] pero reformulado en términos de una representación del espacio basada en los complejos de células abstractos.
1.6. Justificación
11
2.
MARCO DE REFERENCIA
En esta sección se abordan los elementos conceptuales que componen el sustento teórico del modelo de clasificación desarrollado en el presente documento (sección 3.2.1), al igual que los estudios que se usaron como referente en diseño y construcción del modelo.
2.1. Marco Teórico
En la literatura del procesamiento digital de imagen, los procedimientos de clasificación de se han desarrollado en dos vertientes principales: clasificación supervisada y no supervisada; a continuación, se presentan los conceptos y técnicas más representativas para cada una de las vertientes, seguido se presentan las nociones teóricas de los complejos de células abstractas, que son incluidos en la presente investigación como sustento teórico que define de manera consistente, para un espacio localmente finito, las nociones topológicas entre ellas vecindario y frontera de un elemento. Esta teoría propone la definición de un espacio topológico digital basado en el axioma de separabilidad 𝑇0 el cual se incluye en el desarrollo
del modelo propuesto.
2.1.1. Clasificación De Imagen Multiespectral
El procesamiento digital de imágenes es el conjunto de técnicas que se aplican a las imágenes digitales con el objetivo de mejorar la calidad o facilitar la búsqueda de información. Una imagen puede ser definida como una función 𝑓(𝑥, 𝑦) donde 𝑥 y 𝑦 son valores o coordenadas espaciales (plano), y la amplitud de 𝑓 representa la intensidad o nivel de gris en el punto. Un conjunto de valores finitos x, y, y su respectivo nivel de intensidad f, recibe el nombre de imagen digital [15]. El procesamiento de imágenes digitales se realiza desde dos enfoques, uno desde el punto de vista del procesamiento de señales donde se considera el dominio de las frecuencias y un segundo enfoque en el dominio espacial donde se considera la imagen como una matriz [16].
12
Finalizada la fase de digitalización, inicia el procesamiento digital de la información, dentro de la cual la técnica de clasificación de imagen es muy común. La clasificación de imagen hace referencia al proceso de estereotipar la información de una imagen que se encuentra en el dominio espectral en grupos llamados clases, esto es, etiquetar cada uno de los píxeles en función de su respuesta espectral en una clase de información [20]. El proceso de clasificación es el encargado de analizar las propiedades numéricas de los datos y los organiza cada uno de ellos en categorías [21]. Para la ejecución de la clasificación espectral, se parte del supuesto que diferentes objetos tienen diferente respuesta espectral, y lo que se define como clase, es el patrón característico de respuesta espectral; este patrón característico recibe el nombre de firma espectral. La suposición anterior permite generar una segmentación de la imagen donde cada región representa una clase espectral formada por objetos de propiedades espectrales similares. La clasificación espectral puede ser realizada de manera puntual, es decir, clasificar un píxel en función únicamente de su respuesta espectral; o bien de manera contextual, donde un píxel se clasifica de acuerdo con el contexto espectral en el que se encuentra. También es posible realizar la clasificación bajo un esquema booleano en donde un píxel se representa por una clase, o aplicando el concepto de lógica difusa, con funciones de membresía que determinan la probabilidad de pertenencia a una o varias clases. Un clasificador es entonces, el procedimiento bajo el cual un píxel es asignado a una clase dentro de un conjunto de clases predefinidas. La Figura 1 muestra los procedimientos, métodos y lógicas definidos en el proceso de clasificación [22]:
Figura 1. Procedimientos, métodos y lógica del proceso de clasificación de Imagen. [22].
La clasificación no supervisada es una operación de segmentación de la imagen, basada en algoritmos de agrupamiento o clustering, cuya finalidad es agrupar los elementos en función de alguna similitud o similaridad entre ellos [23]. En este proceso, cada uno de los píxeles recibe un valor asociado a su respuesta espectral. Esta técnica de clasificación recibe el nombre de no supervisada en relación a que los algoritmos no requieren información espectral acerca de las clases en las que se desea segmentar la imagen. El objetivo principal de esta técnica es encontrar grupos formados por píxeles espectrales similares entre sí. Ya que las técnicas no supervisadas se desarrollan con algoritmos estadísticos, uno de los parámetros para la solución es la cantidad de grupos a identificar (en la mayoría de los casos es un valor aleatorio) lo que repercute de manera directa en el resultado de la imagen clasificada. El conocimiento previo de la escena real y un análisis estadístico de la imagen permite estimar un valor adecuado para el número de grupos que pueden ser producidos en la segmentación de la imagen en las clases buscadas [22].
13
especificación del número de clases a obtener y el mínimo de puntos iniciales para la creación de cada una de ellas [25].
El algoritmo ISODATA (iterative self-organizing data analysis techniques) es una variante del algoritmo K-Medias. A diferencia de su precursor, se incluyen dos parámetros adicionales en la ejecución del algoritmo: la posibilidad de especificar un clúster inicial que represente una dispersión demasiado grande, y la opción de unir o eliminar clúster demasiado pequeños [22].
La clasificación supervisada se basa en la existencia de áreas de entrenamiento en donde se parte de un conjunto de clases pre establecidas con un píxel representativo a cada una de ellas. Estas áreas servirán para generar una firma espectral característica de cada una de las clases predefinidas [19].
En la clasificación supervisada, cada uno de los píxeles resultantes de la imagen multiespectral es asignado a una de las clases espectrales predefinidas al inicio del proceso, para ello se realizan las siguientes etapas [22]:
Especificar las clases en las cuales se propone segmentar la imagen.
Escoger de forma interactiva los píxeles prototipo a cada una de las clases predefinidas.
Utilizar los datos prototipos para estimar los datos del clasificador.
Emplear el clasificador calibrado para etiquetar cada uno de los píxeles de la imagen en una de las clases definidas.
Generar un mapa temático.
14
Figura 2. Ubicación de Hiperplano con máximo margen de separación [26].
Las SVM se presentan en dos casos, un escenario en donde las clases son linealmente separables y otro, el caso contrario [26]. Supóngase que existen dos clases linealmente separables, el conjunto de datos está representado por los pares {𝑥𝑖, 𝑦𝑖}, 𝑖 = 1, … , 𝑛, 𝑦𝑖 ∈
{1, −1}, 𝑥𝑖 ∈ 𝑅𝑑, donde 𝑥𝑖 son las observaciones multiespectrales, 𝑦𝑖 la etiqueta de la clase para el 𝑖 caso. La etiqueta puede ser −1 o 1 que representa la clase 1y la clase 2. El objetivo principal del clasificador de vectores de soporte es la construcción de un hiperplano óptimo que separa las dos clases de tal manera que la distancia (margen) desde el hiperplano a los datos de entrenamiento más cercano, sea lo más grande posible. El hiperplano puede ser representado por la función de decisión [26] presentado en la ecuación 1:
𝑤𝑇𝑥 + 𝑏 = 0 ( 1 )
Donde 𝑥 es el punto situado en el hiperplano, 𝑤 es la normal al hiperplano, 𝑇 denota la trasposición de la matriz, y 𝑏 representa el sesgo. La distancia perpendicular desde el hiperplano al origen es |𝑏|/∥ 𝑤 ∥, donde ∥ 𝑤 ∥ es la norma Euclidiana de 𝑤 (ver Figura 3) [26].
Figura 3. Separación optima de hiperplano: 𝑤𝑇𝑥 + 𝑏 = 0
[26].
De acuerdo a lo mostrado en la Figura 3, se define de manera implícita una escala (𝑤 × 𝑏) y con ello generar dos hiperplanos canónicos (𝑃1 y 𝑃2), es decir, 𝑤𝑇× 𝑥𝑖 + 𝑏 = 1 para los
15
Cada conjunto de puntos de entrenamiento más cercanos al origen, son referidos como los vectores de soporte [26].
Resolviendo para 𝑦𝑖(𝑤𝑇× 𝑥
𝑖 + 𝑏) ≥ 0 aplicando los multiplicadores Lagrangianos [26], se
obtienen las ecuaciones 2 y 3 con las cuales se define 𝑤 y 𝑏 respectivamente.
𝑤 = ∑ 𝛼𝑖𝑦𝑖𝑥𝑖
𝑛𝑠𝑣
𝑖=1
( 2 )
𝑏 = −1
2 𝑤 × (𝑥𝑟+ 𝑥𝑠)
( 3 )
Donde 𝑛𝑠𝑣 es el número de vectores de soporte, 𝑥𝑟 es el vector de soporte perteneciente a la clase 𝑦𝑟 = 1, y 𝑦𝑠 = −1 para 𝑥𝑠. Es importante tener presente que el sesgo (𝑏) se calcula utilizando todos los vectores de soporte al momento de evaluar el margen de estabilidad [26]. En consecuencia, para los escenarios de clasificación de dos clases la regla de decisión presentada en la ecuación 4, se puede reescribir como:
𝑓(𝑥) = 𝑠𝑖𝑔𝑛 (∑ 𝛼𝑖𝑦𝑖(𝑥 × 𝑥𝑖) + 𝑏 𝑛𝑠𝑣
𝑖=1
) ( 4 )
Para el escenario cuyo hiperplano de separación no se logra definir de manera lineal, la SVM mapea los datos a un espacio multidimensional con el fin de mejorar la separabilidad entre las clases [26], para lo cual implementa la estrategia presentada por [27], aplicando el principio para superficies no lineales [28], obteniendo el vector de características 𝑥𝑖 ∈ 𝑅𝑑
que mapea los elementos a un espacio euclidiano de dimensión superior, o espacio de Hilbert [29].
Cada una de las muestras es proyecta al espacio 𝐻 aplicando la función Φ: 𝑅𝑑 → 𝐻, permitiendo reescribir la regla de asignación como se muestra en la ecuación 5 [26]:
𝑓(𝑥) = 𝑠𝑖𝑔𝑛 (∑ 𝛼𝑖𝑦𝑖Φ(𝑥) ∙ Φ(𝑥𝑖) + 𝑏
𝑛𝑠𝑣
𝑖=1
) ( 5 )
El coste computacional de (Φ(𝑥) × Φ(𝑥𝑖)) puede llegar a ser bastante alto para un espacio bidimensional, razón por la cual Vapnik [30] definiendo una función de núcleo (kernel) denotada como 𝐾(𝑥, 𝑦), tal que 𝐾(𝑥, 𝑦) = Φ(𝑥) × Φ(𝑦), donde 𝑥 = (𝑥1, 𝑥2) y 𝑦 = (𝑦1, 𝑦2).
Acorde a lo anterior, se tiene que [26]:
𝐾(𝑥, 𝑦) = (𝑥1𝑦1+ 𝑥2𝑦2)2
= 𝑥12𝑦12+ 2𝑥1𝑦1𝑥2𝑦2+ 𝑥22𝑦22
= (𝑥12, 𝑥
22√2𝑥1𝑥2) × (𝑦12, 𝑦22√2𝑦1𝑦2)
= Φ(𝑥) × Φ(𝑦)
16
Figura 4. Mapeo de muestras a un espacio de dimensión superior para lograr la mayor separabilidad entre las clases [26].
En la Figura 4 se muestra el concepto de separación de clase en un espacio de dimensión superior.
Con la función de kernel definida en la ecuación 6, a continuación, se exponen los 5 kernels más comunes usados como función de núcleo:
Polinómico homogéneo
𝐾(𝑥𝑖, 𝑥𝑗) = γ(𝑥𝑖 × 𝑥𝑗)𝑑 ( 7 )
Polinómico no homogéneo
𝐾(𝑥𝑖, 𝑥𝑗) = γ(𝑥𝑖 × 𝑥𝑗+ δ)𝑑, γ > 0, δ > 0 ( 8 )
Función de base radial
𝐾(𝑥𝑖, 𝑥𝑗) = exp(−γ ∥ 𝑥𝑖− 𝑥𝑗 ∥2), γ > 0 ( 9 )
Función de base radial Gaussiana
𝐾(𝑥𝑖, 𝑥𝑗) = exp (
−∥ 𝑥𝑖 − 𝑥𝑗 ∥2
2𝜎2
⁄ ) ( 10 )
Sigmoid
𝐾(𝑥𝑖, 𝑥𝑗) = tanh(γ(𝑥𝑖 × 𝑥𝑗) − δ) , γ > 0, δ > 0
( 11 )
El rendimiento y la precisión de la máquina SVM estará estrechamente relacionado al kernel seleccionado [26], sin embargo y aunque en los resultados expuestos en [26] se evidencie que un kernel es mejor que otro, la mejor elección de un núcleo para un problema dado todavía es materia de investigación. De igual forma, la selección de los parámetros (γ y δ
17
seleccionados a juicio del implementador tratando de asegurar el mejor resultado de clasificación.
2.1.2. Complejos De Células Abstract as
Los complejos de células abstractas permiten definir estructuras computacionales para la representación de nociones o rasgos topológicos en imágenes digitales. Vladimir Kovalevsky [6] muestra que su propuesta de topología definida con base en los complejos cartesianos es la única topología que puede ser definida para los espacios localmente finitos. Este espacio topológico permite contar con nociones de conexión y frontera libres de paradojas o contradicciones. El presente trabajo presenta la definición formal para los complejos de células abstractas y los diferentes algoritmos que permiten procesar una imagen en este espacio.
Un complejo de células abstractas es un conjunto 𝐸 de elementos abstractos provistos de una relación binaria antisimétrica, irreflexiva y transitiva llamada relación de límite o cara (ver ecuación 12).
C = (E, B, dim), B ⊂ E × E ( 12 )
Donde 𝐶 es un complejo de células abstractas, 𝐸 el conjunto de elementos (células abstractas) que componen el espacio y 𝐵 la relación de cara o límite. Para la definición precisa, el espacio celular cuenta con una función de dimensionalidad entre sus elementos 𝑑𝑖𝑚 la cual define para cada elemento del conjunto 𝐸 un subconjunto 𝐼 de enteros no negativos tal que
𝑑𝑖𝑚(𝑒′) < 𝑑𝑖𝑚(𝑒′′) para cada par ordenado (𝑒′, 𝑒′′) ∈ 𝐵 [6]. La relación de límite 𝐵 de
orden parcial en 𝐸 indica el orden de los pares ordenados (𝑒′, 𝑒′′) en donde se dice que 𝑒′
es parte del límite de 𝑒′′ o que 𝑒′ es cara de 𝑒′′ tal que es denotada como 𝑒′ < 𝑒′′. La Figura
5 muestra a manera ilustrativa la relación de cara o límite.
Figura 5. Relación de Límite o Cara. [6].
18
es igual o menor a 𝑘. Los elementos 2 – dimensionales serán entonces elementos de área. Para el caso del procesamiento de imagen, estarán asociados a la noción de píxel [6]. Un sub complejo celular 𝐶′ es definido como el sub conjunto de elementos del complejo 𝐶 donde cada uno de los elementos 𝐸′son un sub conjunto de elementos de 𝐸 y la relación de límite
𝐵′ es la intersección de la relación de límite 𝐵 con los pares ordenados 𝐸′× 𝐸′. En la ecuación 13 se muestra la definición para un subconjunto complejo celular 𝐶′.
C′= (E′, B′, dim′) ( 13 )
La dimensión para cada uno de los elementos 𝐸′ no resulta afectada, acorde a lo expuesto en la ecuación 14.
𝑑𝑖𝑚′(𝑒) = 𝑑𝑖𝑚(𝑒) ( 14 )
A continuación, se introducen varios conceptos relevantes de los complejos de células abstractas, usados en la definición de las nociones topológicas para los espacios finitos.
I. Abierto (𝑂𝑃 − 𝑂𝑃𝐸𝑁): un subconjunto 𝑂𝑆 de células de un sub complejo 𝐶′ de
un complejo 𝐶 es abierto en 𝐶′ si este contiene todas las células de 𝐶′ delimitadas
por las células de 𝑂𝑆 [31].
II. Vecindario más pequeño (𝑆𝑁 − 𝑆𝑚𝑎𝑙𝑙𝑒𝑠𝑡 𝑁𝑒𝑖𝑔ℎ𝑏𝑜𝑟ℎ𝑜𝑜𝑑): es un espacio localmente finito, producto de la intersección de todos los vecindarios de 𝑒 [31]. III. Vecindario abierto más pequeño (𝑆𝑂𝑁 − 𝑆𝑚𝑎𝑙𝑙𝑒𝑠𝑡 𝑂𝑝𝑒𝑛 𝑁𝑒𝑖𝑔ℎ𝑏𝑜𝑟ℎ𝑜𝑜𝑑): es el
subcomplejo 𝑆 que contiene una célula 𝑐 y es abierta en 𝑆, se denotará por
𝑆𝑂𝑁(𝑐, 𝑆) [31].
IV. Conectado (𝐶𝑁 − 𝐶𝑜𝑛𝑒𝑐𝑡𝑒𝑑): El sub conjunto 𝑆 es conectado si para cada elemento 𝑒′ 𝑦 𝑒′′ de 𝑆, existe un camino en 𝑆 de 𝑒′ 𝑎 𝑒′′. Esta definición corresponde con la noción de “Arco Conectado” en la topología general [31]. V. Frontera (𝐹𝑅 − 𝐹𝑟𝑜𝑛𝑡𝑖𝑒𝑟): Se entiende como frontera o límite topológico al
subconjunto no vacío 𝑇 del espacio 𝑆, compuesto por los 𝑒 − 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 de 𝑆
cuyo vecindario contenga elemento de 𝑇 y el complemento 𝑆 − 𝑇. La frontera se denotará como 𝐹𝑟(𝑇, 𝑆) [31].
VI. Relación de Vecindad (𝑁𝑅 − 𝑁𝑒𝑖𝑔ℎ𝑏𝑜𝑟ℎ𝑜𝑜𝑑 𝑅𝑒𝑙𝑎𝑡𝑖𝑜𝑛): La relación de vecindad 𝑁𝑅 es una relación binaria que tiene cada uno de los 𝑒 − 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠
del espacio 𝑆, en donde si (𝑎, 𝑏) tiene una 𝑁𝑅, si y solo si 𝑎 ∈ 𝑆𝑁(𝑏). Esta relación también puede ser denotada como 𝑎𝑁𝑏 para (𝑎, 𝑏) 𝑒𝑛 𝑁 [32].
VII. Opuestos (𝑂𝑇 − 𝑂𝑝𝑝𝑜𝑛𝑒𝑛𝑡𝑠): un par de elementos (𝑎, 𝑏) de la frontera 𝐹𝑟(𝑇, 𝑆)
del subconjunto 𝑇 ⊂ 𝑆 son opuestos entre sí, si 𝑎 pertenece al 𝑆𝑁(𝑏), 𝑏 pertenece a 𝑆𝑁(𝑎), y uno de ellos pertenece a 𝑇 y el otro a 𝑆 − 𝑇 [31].
VIII. Clausura (𝐶𝑙 − 𝐶𝑙𝑎𝑢𝑠𝑢𝑟𝑒): Es el subconjunto más pequeño del conjunto 𝑆 que contiene una célula 𝑐 de 𝑆 y es cerrado en 𝑆. Se denota como 𝐶𝑙(𝑐, 𝑆) [32]. IX. Incidencia (𝐼 − 𝐼𝑛𝑐𝑖𝑑𝑒𝑛𝑡): si 𝑏 ∈ 𝑆𝑁(𝑎) 𝑜 𝑎 ∈ 𝑆𝑁(𝑏), entonces se dice que
𝑎 𝑦 𝑏 son incidentes entre sí [32].
19
cada dos elementos posteriores son incidentes entre sí, se asignará el nombre de ruta incidente de 𝑎𝑖 ℎ𝑎𝑠𝑡𝑎 𝑎𝑘 [31].
Un espacio topológico es un par (𝐸, 𝑆𝑌) compuesto de elementos abstractos 𝐸 y un sistema
𝑆𝑌 = {𝑆1, 𝑆2, 𝑆3, … , 𝑆𝑖, … }. El sub conjunto 𝑆𝑖 de 𝐸 es llamado sub conjunto abierto del espacio que satisface los siguientes axiomas [3]:
A1. Un subconjunto vacío ∅ y el conjunto 𝐸 pertenecen a 𝑆𝑌.
A2. Para cada familia 𝐹 de subconjuntos 𝑆𝑖 que pertenecen a 𝑆𝑌, la unión de todos los subconjuntos pertenece también a 𝑆𝑌.
A3. Para cualquier par de sub conjuntos 𝑆1 𝑦 𝑆2 que pertenecen a 𝑆𝑌, la intersección de ambos subconjuntos también pertenece a 𝑆𝑌.
A4. Para cualquier par de elementos 𝑒1, 𝑒2 ∈ 𝐸 existe en 𝑆𝑌 un subconjunto 𝑆′
donde exactamente uno de los elementos está en 𝑆′.
El axioma A4 es realmente importante al momento de tratar de definir la existencia de dos elementos cualquiera 𝑒1, 𝑒2 ∈ 𝐸 tal que la subdivisión de todo el espacio en dos partes complementarias 𝑆′ 𝑦 𝐸 \ 𝑆′va a contener uno de los elementos, y uno será parte del conjunto
abierto. Recibe el nombre de espacio topológico localmente finito al espacio cuyo conjunto de elementos 𝐸 son de cantidad finita. Los axiomas A2 y A3 son formulados en dos direcciones dado que a pesar de que para el axioma A2 aplica tanto para espacios topológicos finitos como infinitos, el axioma A3 solo es válido en un conjunto de elementos finitos 𝑆𝑖. Lo anterior permite decir que un espacio que satisface el axioma A4 cumple con la propiedad de separación, que es bien conocida en la literatura como el espacio 𝑇0 o espacio de Kolmogórov [3].
El complejo de células abstractas 𝐶 = (𝐸, 𝐵) compuesto por el conjunto de elementos E= {𝑒0, 𝑒1, 𝑒2, … , 𝑒2𝑚} con 𝑚 ≥ 1, en el cual la relación de límite 𝐵 es tal que cada elemento 𝑒𝑖
con índice 𝑖 par limita a (es cara de) los elementos 𝑒𝑖−1 y 𝑒𝑖+1 es un complejo de células abstractas ACC (por su sigla en inglés) 1 – dimensional conectado. En este espacio cada 1-célula es abierta y cada 0 - Célula es cerrada. El índice asociado a cada célula será llamado coordenada combinatorial en el espacio unidimensional. La Figura 6 muestra a manera ilustrativa un espacio ACC unidimensional en donde los puntos en color rojo representan a los elementos 0 - células, y de manera intuitiva podemos identificar que los segmentos de línea representan a los elementos 1 - célula. Es importante tener claro que, aunque la representación de la Figura 6 es correcta, el segmento de línea puede sugerir una continuidad inexistente, esto debido a que estamos tratando de espacios topológicos finitos, por tal razón es importante no olvidar que dicha representación es conceptual y no obedece a una sucesión infinita de elementos [33].
Figura 6. Representación gráfica de un ACC conectado unidimensional.
20
Un complejo cartesiano es el resultado del producto cartesiano de dos o más ACC unidimensionales. El conjunto de células de un ACC cartesiano 𝑛 – dimensional 𝐶𝑛 es el
producto de 𝑛 conjuntos de células de los complejos ACC unidimensional. Cada uno de los complejos unidimensionales puede ser representado por los ejes coordenados de 𝐶𝑛 los cuales constituirán el espacio 𝑛 – dimensional. Dados los ACC unidimensionales 𝐴1 =
{𝑒0, 𝑒1, 𝑒2, … , 𝑒𝑛} y 𝐴2 = {𝑒0, 𝑒1, 𝑒2, … , 𝑒𝑚}, el complejo cartesiano bidimensional es igual a
[34]:
𝐶2 = 𝐴1× 𝐴2 =
{
(𝑒0, 𝑒0) (𝑒0, 𝑒1) (𝑒0, 𝑒2) … (𝑒0, 𝑒𝑛)
(𝑒1, 𝑒0) (𝑒1, 𝑒1) (𝑒1, 𝑒2) … (𝑒1, 𝑒𝑛)
(𝑒2, 𝑒0) (𝑒2, 𝑒1) (𝑒2, 𝑒2) … (𝑒2, 𝑒𝑛)
⋮ ⋮ ⋮ ⋮ ⋮
(𝑒𝑚, 𝑒0) (𝑒𝑚, 𝑒1) (𝑒𝑚, 𝑒2) … (𝑒𝑚, 𝑒𝑛)}
( 15 )
La Figura 7 muestra a manera ilustrativa una posible representación para un complejo cartesiano bidimensional. En él se puede apreciar en color rojo las 0 - Células, en color azul
1 - Células y en color gris las 2 - Células.
Figura 7. Complejo Cartesiano Bidimensional. [33].
La regla de membresía (pertenencia) para los elementos interpixel se rige por la regla
EquNaLi propuesta por Kovalevsky [10]. En esta regla cada 1 - célula 𝑐1 recibirá como valor de etiqueta el mayor valor (el valor radiométrico de la 2 - célula) de su vecindario abierto más pequeño 𝑆𝑂𝑁(𝑐1). La Figura 8 esquematiza el proceso de asignación de etiqueta para cada una 1 - célula.
Figura 8. Asignación etiqueta de mayor valor.
(a) 𝑆𝑂𝑁(𝑐1) para 1-célula vertical y horizontal. Las 1-Elementos sin en color verde son asignación de etiqueta; (b)
21
Para determinar el valor de etiqueta de una 0 - célula, es necesario evaluar tres escenarios definidos por [6] como “Equ”, “Na”, “Li”. Si el SON(𝐶0) contiene exactamente un par
diagonal, se dice que existe un “Equ” por lo cual el valor de etiqueta asignado a la 0 - célula será el de las 2 - células que componen dicha diagonal. La Figura 9b muestra el caso en el cual existe un escenario “Equ” y su respectivo resultado al evaluarlo.
Figura 9. Escenario “Equ”.
En tono verde 0-célula. (a) 𝑆𝑂𝑁(𝑐0). (b)Asignación etiqueta de acuerdo al par diagonal identificado.
Fuente: el autor.
Si se tienen dos pares diagonales se dice que existe un escenario “Na” (ver Figura 10a). Para cada par se evalúa la existencia de camino estrecho (Narrow Stripe)[3], extendiendo el vecindario abierto más pequeño de la 0 – célula, a un vecindario formado por una región de
4 × 4 2 – células, teniendo como elemento central a la 0 – célula pendiente de asignar etiqueta [3] (ver Figura 10b).
(a) (b) (c)
Figura 10. Extensión vecindario abierto más pequeño requerido en la solución de la identificación de camino estrecho. (a) dos pares diagonales. (b) Extensión vecindario. (c) asignación de etiqueta a la 0 – célula que sigue el camino
estrecho demarcado con la flecha en tono naranja y que corresponde a las 2 – células en tono negro. Fuente: el autor.
El valor de etiqueta asignado a la 0-célula será la del par diagonal que siga el camino estrecho, que de acuerdo a lo presentado en la Figura 10c corresponde a las 2 – células en tono negro.
2.1.3. Segmentos De Recta Digital (DSS)
Para hablar de segmentos de recta digital en el espacio de los complejos cartesianos es necesario entender el concepto de un semi espacio digital. Un semi espacio digital es una
22
recta digital (DSS por sus siglas en inglés) será entonces cualquier subconjunto de la frontera de un semiplano digital [31]. Un ejemplo de un semiplano es el definido por la desigualdad
6𝑥 − 4𝑦 ≥ 0. En la Figura 11 los elementos 2 – células están representados por cuadrados, los elementos 1 – células por rectángulos verticales y horizontales, y las 0 – células por puntos. En el semiplano se pueden definir dos tipos de curvas digitales: las primeras como curvas visuales en donde estas se representan como una secuencia de píxeles o como curvas de contorno representadas como una secuencia de 0 – células y 1 – células.
(a) (b)
Figura 11. Ejemplo Semiplano y DSS en coordenadas topológica.
(a) Separación de Semiplano Digital por la desigualdad 6x-4y≥0. (b) Trazo de curva de contorno o DSS para el semiplano.
Fuente: el autor.
Una de las propiedades más importantes de las curvas de contorno es la posibilidad de asignar orientación y como subsecuente a las 1 - células que la componen. Si consideramos una curva de contorno 𝐾 y para cada 1 – célula 𝐶 incidente a dos píxeles, uno de ellos se encontrará en el lado positivo y el otro en el lado negativo del par ordenado de los puntos finales de 𝐶.
En la Figura 12 se puede observar como producto de la asignación positiva o negativa de un lado del semiplano digital se puede asignar una dirección al DSS.
Figura 12. Orientación y dirección DSS según lado positivo o negativo asignado en el semiplano digital. Fuente: el autor.
23
2.1.4. Transformada De Cuenca
La transformada de cuenca puede interpretarse como un método de segmentación de región. La idea del método proviene de un fenómeno geográfico: un paisaje o relieve topográfico inundado por agua; esta inundación se propaga hasta que un punto inundado se estrelle con otro, convirtiendo a la línea divisoria entre cada una de las inundaciones en cuenca [35].
Existen muchas formas de definir la transformada de cuenca [36] [37] [38]. De manera intuitiva, la cuenca de una función (que se ve como una superficie topográfica) se compone de las ubicaciones desde las cuales una gota de agua puede fluir hacia los mínimos. El marco de grafos con ejes con pesos permite la formalización de este principio [39].
Uno de los enfoques implementados en el presente trabajo de investigación se ha fundamentado en el principio de la gota de agua [39] y el paradigma de las inundaciones (idea intuitiva que subyace en la geografía). Dado que una imagen a escala de grises puede ser vista como una superficie topográfica, la intensidad de un píxel puede ser considerada como la altitud de un punto. Ahora se procederá a sumergir la superficie por gotas de agua que fluyen desde los puntos máximos a estos mínimos locales. La Figura 13 muestra a modo ilustrativo los conceptos involucrados en la transformada de cuenca por inundación.
(a) (b)
Figura 13. Mínimos locales, cuencas de captación y línea de cuenca.
(a) Imagen a niveles de grises, el tono verde de la línea de cuenca es únicamente para resaltar. (b) Proyección geográfica de los mínimos locales, cuencas de captación y líneas de cuenca.
Fuente: el autor.
Sea 𝐴 ⊆ ℇ, con ℇ = ℝ𝑑 o ℇ = ℤ𝑑, y 𝑎, 𝑏 dos puntos en 𝐴, la distancia geodésica 𝑑𝑎(𝑎, 𝑏)
entre 𝑎 y 𝑏, es la distancia mínima para todos los caminos de en 𝐴 de 𝑎 a 𝑏. Si 𝐵 es un subconjunto de 𝐴, 𝑑𝑎(𝑎, 𝐵) = 𝑀𝐼𝑁𝑏𝜖𝐵(𝑑𝑎(𝑎, 𝐵)). Sea 𝐵 ⊆ 𝐴 particionado en 𝑘 elementos conectados 𝐵𝑖, 𝑖 = 1, … , 𝑘. La zona de influencia geodésica para el conjunto 𝐵𝑖 en 𝐴 se define de acuerdo a la ecuación 16:
24
Sea 𝐵 ⊆ 𝐴. El conjunto 𝐼𝑍𝐴(𝐵) es la unión de todas las zonas de influencia geodésica de los
componentes conectados de 𝐵 (ver ecuación 17)
𝐼𝑍𝐴(𝐵) = ⋃ 𝑖𝑧𝐴(𝐵𝑖) 𝑘
𝑖=1
( 17 )
El algoritmo de cuenca simulado por inundación de Vincent y Soille [37] define para 𝑓: 𝐷 → ℕ una imagen digital de valores de grises, con ℎ𝑚𝑖𝑛 y ℎ𝑚𝑎𝑥 el mínimo y el máximo valor de
𝑓, una recursión con el valor de gris ℎ incrementado de ℎ𝑚𝑖𝑛 a ℎ𝑚𝑎𝑥 en donde las cuencas
asociadas a los mínimos de 𝑓 se amplían sucesivamente. Sea 𝑋ℎ la unión del conjunto de cuencas calculado al nivel ℎ, un componente conectado del conjunto umbralizado 𝑇ℎ+1 al nivel ℎ + 1 puede ser bien un nuevo mínimo o la extensión de una cuenca en 𝑋ℎ (esta extensión definida por la zona de influencia geodésica de 𝑋ℎ con 𝑇ℎ+1 [36]) lo que resulta en la actualización de 𝑋ℎ+1. Sea 𝑀𝐼𝑁ℎ la unión de todos los mínimos regionales a la altura ℎ. En la ecuación 18 se presenta la función recursiva que define la función de inundación.
{ 𝑋ℎ𝑚𝑖𝑛 = {𝑝 ∈ 𝐷 | 𝑓(𝑝) = ℎ𝑚𝑖𝑛} = 𝑇ℎ𝑚𝑖𝑛
𝑋ℎ+1= 𝑀𝐼𝑁ℎ+1∪ 𝐼𝑍𝑇ℎ+1(𝑋ℎ), ℎ ∈ [ ℎ𝑚𝑖𝑛, ℎ𝑚𝑎𝑥) ( 18 )
La transformada de cuenca 𝑊𝑠ℎ𝑒𝑑(𝑓) de 𝑓 es el complemento de 𝑋ℎ𝑚𝑎𝑥 en 𝐷 (ver ecuación 19).
𝑊𝑠ℎ𝑒𝑑(𝑓) = 𝐷\𝑋ℎ𝑚𝑎𝑥 ( 19 )
La implementación de la transformada de cuenca formalizada por la ecuación 18 fue realizada por Vincent y Soille [37]; dada su relevancia en el desarrollo e implementación del presente proyecto, se mostrará a continuación el seudocódigo del algoritmo.
1: 𝑝𝑟𝑜𝑐𝑒𝑑𝑢𝑟𝑒 𝑊𝑎𝑡𝑒𝑟𝑠ℎ𝑒𝑑 − 𝑏𝑦 − 𝐼𝑚𝑚𝑒𝑟𝑠𝑖𝑜𝑛 2: Input: 𝑑𝑖𝑔𝑖𝑡𝑎𝑙 𝑔𝑟𝑒𝑦 𝑠𝑐𝑎𝑙𝑒 𝑖𝑚𝑎𝑔𝑒 𝐺 = (𝐷, 𝐸, 𝑖𝑚). 3: Output: 𝑙𝑎𝑏𝑒𝑙𝑙𝑒𝑑 𝑤𝑎𝑡𝑒𝑟𝑠ℎ𝑒𝑑 𝑖𝑚𝑎𝑔𝑒 𝑙𝑎𝑏 𝑜𝑛 𝐷.
4: #define INIT − 1 (∗ 𝑖𝑛𝑖𝑡𝑖𝑎𝑙 𝑣𝑎𝑙𝑢𝑒 𝑜𝑓 𝑙𝑎𝑏 𝑖𝑚𝑎𝑔𝑒 ∗) 5: #define MASK − 2 (∗ 𝑖𝑛𝑖𝑡𝑖𝑎𝑙 𝑣𝑎𝑙𝑢𝑒 𝑡𝑜 𝑒𝑎𝑐ℎ 𝑙𝑒𝑣𝑒𝑙 ∗) 6: #define WSHED 0 (∗ 𝑙𝑎𝑏𝑒𝑙 𝑜𝑓 𝑡ℎ𝑒 𝑤𝑎𝑡𝑒𝑟𝑠ℎ𝑒𝑑 𝑝𝑖𝑥𝑒𝑙𝑠 ∗) 7: #define FICTITIOUS (−1, −1) (∗ 𝑓𝑖𝑐𝑡𝑖𝑡𝑖𝑜𝑢𝑠 𝑝𝑖𝑥𝑒𝑙 ∉ 𝐷 ∗)
8: 𝑐𝑢𝑟𝑙𝑎𝑏 ← 0 (∗ 𝑐𝑢𝑟𝑙𝑎𝑏 𝑖𝑠 𝑡ℎ𝑒 𝑐𝑢𝑟𝑟𝑒𝑛𝑡 𝑙𝑎𝑏𝑒𝑙 ∗) 9: 𝑓𝑖𝑓𝑜_𝑖𝑛𝑖𝑡(𝑞𝑢𝑒𝑢𝑒)
10: 𝐟𝐨𝐫 𝐚𝐥𝐥 𝑝 ∈ 𝐷 𝐝𝐨
11: 𝑙𝑎𝑏[𝑝] ← 𝐼𝑁𝐼𝑇; 𝑑𝑖𝑠𝑡[𝑝] ← 0 (∗ 𝑑𝑖𝑠𝑡 𝑖𝑠 𝑎 𝑤𝑜𝑟𝑘 𝑖𝑚𝑎𝑔𝑒 𝑜𝑓 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 ∗) 12: 𝐞𝐧𝐝 𝐟𝐨𝐫
13: SORT pixels in increasing order of gray values (minimum ℎ𝑚𝑖𝑛, maximum ℎ𝑚𝑎𝑥)
14:
15: (∗ Start Flooding ∗)
16: 𝐟𝐨𝐫 ℎ = ℎ𝑚𝑖𝑛 𝑡𝑜 ℎ𝑚𝑎𝑥 𝐝𝐨 (∗ Geodesic SKIZ of level ℎ − 1 inside level ℎ ∗)
17: 𝐟𝐨𝐫 𝐚𝐥𝐥 𝑝 ∈ 𝐷 𝐰𝐢𝐭𝐡 𝑖𝑚[𝑝] = ℎ 𝐝𝐨 (∗ mask all pixels at level ℎ ∗)
18: (∗ 𝑡ℎ𝑒𝑠𝑒 𝑎𝑟𝑒 𝑑𝑖𝑟𝑒𝑐𝑡𝑙𝑦 𝑎𝑐𝑐𝑒𝑠𝑖𝑏𝑙𝑒 𝑏𝑒𝑐𝑎𝑢𝑠𝑒 𝑜𝑓 𝑡ℎ𝑒 𝑠𝑜𝑟𝑡𝑖𝑛𝑔 𝑠𝑡𝑒𝑝 ∗) 19: 𝑙𝑎𝑏[𝑝] ← MASK
25
21: (∗ Initilize queue with neighbours at level ℎ of current basins or watersheds ∗) 22: 𝑑𝑖𝑠𝑡[𝑝] ← 1; 𝑓𝑖𝑓𝑜_𝑎𝑑𝑑(𝑝, 𝑞𝑢𝑒𝑢𝑒)
23: 𝐞𝐧𝐝 𝐢𝐟 24: 𝐞𝐧𝐝 𝐟𝐨𝐫
25: 𝑐𝑢𝑟𝑑𝑖𝑠𝑡 ← 1; 𝑓𝑖𝑓𝑜_𝑎𝑑𝑑(FICTITIOUS, 𝑞𝑢𝑒𝑢𝑒) 26: 𝐥𝐨𝐨𝐩 (∗ extend basins ∗)
27: 𝑝 ← 𝑓𝑖𝑓𝑜_𝑟𝑒𝑚𝑜𝑣𝑒(𝑞𝑢𝑒𝑢𝑒) 28: 𝐢𝐟 𝑝 = FICTITIOUS 𝐭𝐡𝐞𝐧 29: 𝐢𝐟 𝑓𝑖𝑓𝑜_𝑒𝑚𝑝𝑡𝑦(𝑞𝑢𝑒𝑢𝑒) 𝐭𝐡𝐞𝐧 30: BREAK
31: 𝐞𝐥𝐬𝐞
32: 𝑓𝑖𝑓𝑜_𝑎𝑑𝑑(FICTITIOUS, 𝑞𝑢𝑒𝑢𝑒); 𝑐𝑢𝑟𝑑𝑖𝑠𝑡 ← 𝑐𝑢𝑟𝑑𝑖𝑠𝑡 + 1; 33: 𝑝 ← 𝑓𝑖𝑓𝑜_𝑟𝑒𝑚𝑜𝑣𝑒(𝑞𝑢𝑒𝑢𝑒)
34: 𝐞𝐧𝐝 𝐢𝐟
35: 𝐞𝐧𝐝 𝐢𝐟
36: 𝐟𝐨𝐫 𝐚𝐥𝐥 𝑞 ∈ 𝑁𝐺(𝑝) 𝐝𝐨 (∗ labelling 𝑝 by inspecting neighbours ∗)
37: 𝐢𝐟 𝑑𝑖𝑠𝑡[𝑞] < 𝑐𝑢𝑟𝑑𝑖𝑠𝑡 𝐚𝐧𝐝 (𝑙𝑎𝑏[𝑞] > 0 𝐨𝐫 𝑙𝑎𝑏[𝑞] = WSHED) 𝐭𝐡𝐞𝐧 38: (∗ 𝑞 belongs to an existing basin or to watersheds ∗)
39: 𝐢𝐟 𝑙𝑎𝑏[𝑞] > 0 𝐭𝐡𝐞𝐧
40: 𝐢𝐟 𝑙𝑎𝑏[𝑝] = MASK 𝐨𝐫 𝑙𝑎𝑏[𝑝] = WSHED 𝐭𝐡𝐞𝐧 41: 𝑙𝑎𝑏[𝑝] ← 𝑙𝑎𝑏[𝑞]
42: 𝐞𝐥𝐬𝐞 𝐢𝐟 𝑙𝑎𝑏[𝑝] ≠ 𝑙𝑎𝑏[𝑞] 𝐭𝐡𝐞𝐧 43: 𝑙𝑎𝑏[𝑝] ← WSHED 44: 𝐞𝐧𝐝 𝐢𝐟
45: 𝐞𝐥𝐬𝐞 𝐢𝐟 𝑙𝑎𝑏[𝑝] = MASK 𝐭𝐡𝐞𝐧 46: 𝑙𝑎𝑝[𝑝] ← WSHED 47: 𝐞𝐧𝐝 𝐢𝐟
48: 𝐞𝐥𝐬𝐞 𝐢𝐟 𝑙𝑎𝑏[𝑞] = MASK 𝐚𝐧𝐝 𝑑𝑖𝑠𝑡[𝑞] = 0 𝐭𝐡𝐞𝐧 (∗ 𝑞 is a plateau píxel ∗) 49: 𝑑𝑖𝑠𝑡[𝑞] ← 𝑐𝑢𝑟𝑑𝑖𝑠𝑡 + 1; 𝑓𝑖𝑓𝑜_𝑎𝑑𝑑(𝑞, 𝑞𝑢𝑒𝑢𝑒)
50: 𝐞𝐧𝐝 𝐢𝐟 51: 𝐞𝐧𝐝 𝐟𝐨𝐫 52: 𝐞𝐧𝐝 𝐥𝐨𝐨𝐩
53: (∗ detect and process new minima at level ℎ ∗) 54: 𝐟𝐨𝐫 𝐚𝐥𝐥 𝑝 ∈ 𝐷 𝐰𝐢𝐭𝐡 𝑖𝑚[𝑝] = ℎ 𝐝𝐨
55: 𝑑𝑖𝑠𝑡[𝑝] ← 0 (∗ reset distance to zero ∗)
56: 𝐢𝐟 𝑙𝑎𝑏[𝑝] = MASK 𝐭𝐡𝐞𝐧 (∗ 𝑝 is inside a new minimum ∗) 57: 𝑐𝑢𝑟𝑙𝑎𝑏 ← 𝑐𝑢𝑟𝑙𝑎𝑏 + 1; (∗ create a new label ∗) 58: 𝑓𝑖𝑓𝑜_𝑎𝑑𝑑(𝑝, 𝑞𝑢𝑒𝑢𝑒); 𝑙𝑎𝑝[𝑝] ← 𝑐𝑢𝑟𝑙𝑎𝑏;
59: 𝐰𝐡𝐢𝐥𝐞 𝐧𝐨𝐭 𝑓𝑖𝑓𝑜_𝑒𝑚𝑝𝑡𝑦(𝑞𝑢𝑒𝑢𝑒) 𝐝𝐨 60: 𝑞 ← 𝑓𝑖𝑓𝑜_𝑟𝑒𝑚𝑜𝑣𝑒(𝑞𝑢𝑒𝑢𝑒)
61: 𝐟𝐨𝐫 𝐚𝐥𝐥 𝑟 ∈ 𝑁𝐺(𝑞) 𝐝𝐨 (∗ inspect neighbours of q ∗)
62: 𝐢𝐟 𝑙𝑎𝑏[𝑟] = MASK 𝐭𝐡𝐞𝐧
63: 𝑓𝑖𝑓𝑜_𝑎𝑑𝑑(𝑟, 𝑞𝑢𝑒𝑢𝑒); 𝑙𝑎𝑏[𝑟] ← 𝑐𝑢𝑟𝑙𝑎𝑏; 64: 𝐞𝐧𝐝 𝐢𝐟
65: 𝐞𝐧𝐝 𝐟𝐨𝐫 66: 𝐞𝐧𝐝 𝐰𝐡𝐢𝐥𝐞 67: 𝐞𝐧𝐝 𝐢𝐟 68: 𝐞𝐧𝐝 𝐟𝐨𝐫 69: 𝐞𝐧𝐝 𝐟𝐨𝐫
70: (∗ End Flooding ∗)
Algoritmo 1. Transformada de cuenca Vincent-Soille.
26
se evidencia que no dio lugar a ninguna cuenca, lo cual resalta las paradojas de conectitud expuestas en la sección 1.2.
Figura 14. Variación transformada de cuenca según vecindario.
(a) Imagen D a procesar. (b) Resultado de transformación con 4-Conectado. (c) Resultado transformación con 8-Conectado.
Fuente: el autor.
Christopher Mei en su implementación publicada del algoritmo de transformada de cuenca [40] encuentra que para la sección (línea 37 del Algoritmo 1) en la cual se verifica la existencia de cuenca o una cuenca de captación, la verificación de la distancia de uno de los
𝑞 vecinos del píxel 𝑝 versus la distancia actual debe ser modificada a una comparación lógica de 𝑑𝑖𝑠𝑡[𝑞] < 𝑐𝑢𝑟𝑑𝑖𝑠𝑡 a 𝑑𝑖𝑠𝑡[𝑞] ≤ 𝑐𝑢𝑟𝑑𝑖𝑠𝑡 ; este cambio se debe a que un 𝑞 vecino puede ser compartido por diferentes 𝑝 píxeles, y debido al aumento del parámetro 𝑐𝑢𝑟𝑑𝑖𝑠𝑡 en la línea 32 Algoritmo 1 (causado por el ingreso del píxel 𝑞 a la cola en la línea 49), impediría que el píxel 𝑝 actual sea evaluado como cuenca o cuenca de captación, causando que sea marcado en una fase posterior del algoritmo como un nuevo mínimo local. La Figura 15 muestra a modo de ilustración lo explicado anteriormente.
Figura 15. Comportamiento de la transformada de cuenca de acuerdo a la modificación de Christopher Mei. Se incluye la distancia actual del q vecino en la evaluación de p píxel actual.
Fuente: el autor.
27
40 del Algoritmo 1 todo píxel 𝑝 marcado como cuenca en una iteración anterior. En la Figura 16 se evidencia el resultado de la inclusión y exclusión del 𝑝 píxel al momento de ser evaluado.
Figura 16. Comportamiento de la transformada de cuenca.
(a) Rompimiento de cuenca dada la inclusión del p Píxel en la línea 40 del algoritmo original. (b) Preservación de la cuenca gracias a la exclusión del p Píxel en la línea 40 del algoritmo original.
Fuente: el autor.
2.1.5. Evaluación De Clasificación
Los procedimientos de clasificación de imagen requieren mecanismos de evaluación para medir el nivel de exactitud. Este nivel de exactitud puede ser interpretado como el nivel de concordancia entre las clases asignadas por el clasificador y sus correspondientes ubicaciones en terreno. El mecanismo más usual para realizar esta actividad se conoce como matriz de confusión [26]; la matriz de confusión contiene la información obtenida por el algoritmo de clasificación versus la clase a la que las muestras de la escena realmente pertenecen. El resultado final de la matriz de confusión es un índice P determinado por la proporción total de predicciones correctas respecto al total tabulado en la matriz.
Otra herramienta matemática que permite valorar el nivel de precisión de un proceso de clasificación es el índice Kappa [26], con lo cual se mide el porcentaje de acierto entre los píxeles clasificados y el total de píxeles de la clase de muestra. El cálculo del índice Kappa se presenta en la ecuación 20:
𝑘̂ =𝑁 ∑ 𝑥𝑖𝑖
𝑟
𝑖=1 − ∑ (𝑥𝑟𝑖 𝑖+× 𝑥+𝑖)
𝑁2− ∑ (𝑥
𝑖+× 𝑥+𝑖)
𝑟 𝑖
( 20 )
Donde 𝑘̂ es el índice Kappa, 𝑟 es el número de columnas en la matriz de confusión (y filas),
𝑥𝑖𝑖 es la entrada (𝑖, 𝑖) de la matriz de confusión, 𝑥𝑖+ y 𝑥+𝑖 son los totales marginales de la
fila 𝑖 y la columna 𝑗respectivamente, y 𝑁 es el número total de observaciones.
28
obtenida con el índice Kappa. La ecuación 21 muestra cómo calcular el intervalo de confianza [42].
𝐼𝐶 =
2𝑁(𝑘̂)𝑍2± 𝑍√𝑍2+ 4𝑁(𝑘̂) − 4𝑁(𝑘̂)2
2𝑁𝑍2
( 21 )
Donde 𝑁 es el número de observaciones, 𝑘̂ es el índice Kappa obtenido con la ecuación 20 y
𝑍 corresponde a 1.96 para un nivel de confidencialidad de 95%.
2.2. Estado Del Arte
Hanan, Hongbo y Sellahewa [43] desarrollan en su trabajo de investigación la comparación, con base en métodos de clasificación no supervisados, de tres algoritmos utilizados en la segmentación de imagen en el proceso de clasificación con el objetivo de evaluar cuál de estos algoritmos provee mayor nivel de confianza y desempeño. Los algoritmos evaluados son de tres enfoques: basado en partición, basado en modelos y basado en la densidad, el resultado obtenido de manera experimental muestra que el algoritmo CLUST basado en modelos de maximización del valor esperado y mezcla de gaussianas (EM/GMM por sus siglas en inglés), en el cual a través de un proceso iterativo y refinamiento de la matriz de distribución Gaussiana calcula el número óptimo de grupos. Lo anterior permite a los investigadores concluir que el algoritmo CLUST es más eficaz en la segmentación de imagen que el algoritmo K-Means y el algoritmo de desviación estándar. La segmentación de imagen basada en sus características tuvo un avance importante en su proceso al separar los atributos relacionados a la textura y a los del color de la imagen, unos de los autores exponen una técnica de separación de estas características son Hossein y Saeid [44], en este trabajo se presenta una técnica nueva y eficaz de indexación de imagen que extraer las características directamente del dominio del color y la textura aplicando la DCT (Transformada Discreta del Coseno) para cada uno de los canales YCbCr [45] en bloques de 8*8 píxeles. Este proceso tiene como resultado un vector con los coeficientes de transformación aplicada a cada uno de los bloques. Para finalizar, el algoritmo utiliza el vector de coeficientes como criterio de agrupamiento en el proceso de segmentación de imagen. Este trabajo expone la relevancia de la información de textura asociada a los elementos de la imagen y el aporte positivo en fases posteriores de clasificación, sin embargo, la información de textura que se pretende caracterizar en el presente trabajo se orienta a los elementos interpixel, los complejos cartesianos. En la Figura 17 se puede ver el ciclo implementado por el framework para la clasificación de imagen.
Figura 17. Framework de Clasificación de Imagen [43].
RGB into YCbCr Conversion
Feature Extraction
(DCT)
29
Otra técnica se basa en el contenido de la imagen explorando sus características de textura y color. El contenido de la imagen basado en la combinación de rasgos [46] hace referencia a técnicas de extracción de componentes vectoriales en función del color de la imagen y su textura, la Tabla 1 muestra cada una de estas técnicas y los vectores resultantes.
Características Visuales Componentes del Vector en función de
características del Color
Momentos del Color
Media y
Varianza del Color en función de
características de Textura
Transformada Wavelet
Medida de
Entropía y Energía Matriz de
Co-Ocurrencias
Contraste,
Energía y
Correlación en la imagen Características
Gabor
Media y
desviación de los
coeficientes de la imagen
Tabla 1. Técnicas de Extracción de vectores característicos en función del Color y la Textura de la imagen [46].
Como se ha evidenciado hasta esta parte del documento, el proceso de clasificación de imagen está compuesto por cuatro fases generales: identificación de características de la imagen, análisis y comparación, segmentación y clasificación; cada una de estas fases han sido abordadas desde diferentes técnicas por cada uno de los autores, pero todas conservan un concepto en común para las características de la imagen: agrupamiento en función de sus atributos (desde el dominio del color o textura).
30
Procesamiento para resaltar
contornos o límites de los objetos Agrupamiento de elementos
Caracterización de Rasgos de Textura
Clasificación de Imagen Multiespectral Entrenamiento Técnica de
Clasificación Lectura
imagen multiespectral
Figura 18. Fases de un modelo de clasificación de imagen. Fuente: el autor.
En [14] se define un modelo de segmentación de imagen basado en la detección de contornos. En él se introduce una fase para la segmentación de los elementos basada en la transformada de cuenca [47]; El resultado de aplicar la transformada de cuenca sobre la imagen es la agrupación de los píxeles en función de su valor radiométrico, según se expone en [47]; Para efectos del presente trabajo de investigación, las regiones que se obtienen con la transformada equivalen a superpíxeles. En el modelo de segmentación se incluye una rama sobre la cual se construye una capa orientada a la textura de la imagen. Esa capa de textura se construye a partir de un banco de filtros [48] gaussianos derivativos orientados en el cual se definen escalas para la detección de bordes de diferente grosor. Finalmente, el modelo de segmentación define la función 𝑃𝑏(𝑥, 𝑦, 𝜃) que predice la probabilidad de un límite con orientación 𝜃 para cada píxel de la escena mediante la medición de la diferencia de brillo teniendo como criterio el color y el canal de textura.
El modelo presentado en la Figura 18 se completa con las fases sugeridas por el trabajo [14], incluyendo la transformada de cuenca como mecanismo para construcción de superpíxeles pero usando una versión simplificada basada en filtros direccionales para la construcción de la capa de textura.
En los trabajos anteriores, en los pre procesos aplicados a la imagen antes de la fase de clasificación subyacen vecindarios de conexión que no se encuentran alineados con las nociones topológicas. A continuación, se abordan estos conceptos y la propuesta para lograr una representación computacional que respete de manera consistente las nociones topológicas definidas para los espacios localmente finitos.
31
En la Figura 19 se puede apreciar como un vecindario 4 - conectado contradice lo expuesto por el teorema de Jordan, pues los puntos negros están totalmente desconectados, pero, aun así, separan el conjunto de puntos blancos en dos componentes (el píxel blanco del resto de píxeles blancos).
(a) (b)
Figura 19. Vecindario 4 – conectado de un pixel.
(a) Píxel y su vecindario 4 – Conectado. (b) Paradoja 4 – Conectado. Fuente: el autor.
Esto mismo ocurre con la 8 - conectividad, pues los puntos negros forman un camino análogo a la curva de Jordan, sin embargo, el píxel blanco no queda aislado del resto de píxeles blancos del conjunto. La Figura 20 muestra un ejemplo de la paradoja 8 - conectado.
(a) (b)
Figura 20. Vecindario 8 – conectado de un pixel.
(a) Píxel y su vecindario 8 – Conectado. (b) Ejemplo de paradoja 8 – Conectado. Fuente: el autor.
Al ser identificadas estas paradojas, una representación alternativa fue propuesta por Pavlidis, en donde propone la noción de frontera extendida [52]. En esta nueva definición de frontera se sugiere considerar una vecindad mixta 4/8 - conectado. Esto es, considerar conectividades diferentes para los objetos y su complemento. Sin embargo, esta definición va en contravía con el concepto de simetría expuesto por la topología. Todos estos intentos resultaron ser soluciones imperfectas en la definición de una teoría consistente con la topología [6]. A pesar de que existen diferentes algoritmos basados en la información topológica de la imagen [53] [54] el uso de vecindarios basados en los vecindarios 4 - conectado u 8 - conectado, causa perdida de coherencia al procesar el primer plano como el fondo de la imagen [55]. Una teoría diferente desarrollada desde la topología discreta ha buscado resolver estos problemas en la representación de la imagen, para ello ha basado su teoría en la definición de un espacio geométrico Euclidiano, el cual permite especificar las relaciones de adyacencia entre los píxeles. Estas relaciones buscan determinar características como (como lo es en la teoría de la Topología) curvas de los objetos [56], y conectividad de los objetos en el espacio discreto [57]. Esta teoría es la propuesta por Vladimir Kovalevsky [6], en la cual propone un espacio abstracto compuesto por elementos que él define como