Segmentación de imágenes provenientes de satélites usando un algoritmo Fuzzy Probabilístico

Texto completo

(1)UNIVERSIDAD NACIONAL DE SAN AGUSTÍN ESCUELA DE POSTGRADO UNIDAD DE POSTGRADO DE LA FACULTAD DE INGENIERIA DE PRODUCCION Y SERVICIOS. SEGMENTACIÓN DE IMÁGENES PROVENIENTES DE SATÉLITES USANDO UN ALGORITMO FUZZY-PROBABILÍSTICO. Tesis presentada por el bachiller: MANTILLA SANTA CRUZ LUIS JOSE Para optar el Grado Académico de Maestro en Ciencias Informática Con mención en Tecnologı́a de Información ASESOR: Mg. Yari Ramos Yessenia Deysi. AREQUIPA - PERÚ. 2018.

(2) Agradecimientos Este trabajo de tesis realizado en la Universidad Nacional de San Agustı́n es un esfuerzo en el cual participaron directa o indirectamente algunas personas e instituciones a las cuales les expreso mi gratitud, debido a que su participación tiene gran relevancia, teniendo como consecuencia el finalizar satisfactoriamente este trabajo y personalmente brindandome la posibilidad de ampliar mis perspectivas. En primer lugar, agradezco a CONCYTEC y FONDECYT por brindarme la oportunidad de crecer como persona y profesional. A, mis padres Luz Angélica Santa Cruz Cortijo y José Luis Mantilla Carranza y hermanas, por siempre estar presentes en los momentos que mas los necesito, apoyarme en las decisiones que tomo y ser fuente de inspiración a lo largo de mi vida. A mi asesora, Mg. Yessenia Daysi Yari Ramos, quien desde el primer momento no dudó en trabajar con mi persona, brindándome su confianza y conocimientos sin escatimar en tiempo ni esfuerzo, demostrando en el camino ser una persona de grandes cualidades y carisma. Al Dr. Jesus Aguilar Ruiz, a quien siempre estaré agradecido por darme la oportunidad de ampliar mis fronteras tanto como persona y profesional, por permitirme aprender de su persona y de su amplia experiencia, a quien estaré siempre agradecido. Al Dr. José Herrera Quispe, por ser una persona a la que siempre estaré agradecido por el apoyo que me brindó. A Susana Cusihuaman Noa, por estar siempre apoyándome emocionalmente, dándome ánimos en mis momentos de flaqueza. Finalmente a mis profesores que me brindaron sus conocimientos sin escatimar en tiempo y a todas las personas que me apoyaron. Finalmente, reitero my eterna gratitud a todas las personas y entidades ya mencionadas..

(3) Resumen La segmentación de imágenes satelitales es una tarea que se investiga ampliamente, ya que podemos extraer y analizar información de una imagen. En la imagen de satélite, se debe considerar la información de cada una de las bandas. Proponemos un nuevo método basado en el New Fuzzy Centroid Cluster e incluye información espacial. Además, usamos la ocurrencia de cada valor de intensidad en una banda particular y la función gaussiana para calcular el grado de contribución de los pı́xeles en el vecindario. Al incorporar información espacial (global y local), mejoramos el proceso de agrupación y, en consecuencia, se obtiene una mejor segmentación. Este documento informa resultados preliminares de experimentos que muestran que el algoritmo propuesto funciona con precisión en un conjunto de datos real. Para la evaluación del algoritmo, se emplean diferentes ı́ndices de validez de clúster. Palabras clave: Imágenes de satélite, segmentación ,fuzzy clustering.

(4) Abstract The segmentation of satellite images is a widely researched task, since we can extract and analyze information from an image. In the satellite image, the information of each of the bands must be considered. We propose a new method based on the New Fuzzy Cluster Centroids and includes spatial information. In addition, we use the occurrence of each intensity value in a particular band and the Gaussian function to calculate the degree of contribution of the pixels in the neighborhood. By incorporating spatial information (global and local), we improve the grouping process and, as a result, a better segmentation is obtained. This document reports preliminary results of experiments that show that the proposed algorithm works accurately in a real data set. For the evaluation of the algorithm, different cluster validity indexes are used. keywords: Satellite images, segmentation, fuzzy clustering.

(5) Índice general 1. Introducción 1.1. Definición del problema . . . . . . . . 1.2. Objetivos . . . . . . . . . . . . . . . 1.2.1. Objetivo general . . . . . . . 1.2.2. Objetivos especı́ficos . . . . . 1.3. Justificación . . . . . . . . . . . . . . 1.4. Organización del documento de tesis. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. 2. Estado del arte 2.1. Estudios comparativos de los algoritmos de fuzzy clustering 2.2. Algoritmos de fuzzy clustering aplicados a teledetección . . 2.3. Modelos basados en Fuzzy C Means . . . . . . . . . . . . . 2.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Teledetección y segmentación de imágenes 3.1. Teledetección . . . . . . . . . . . . . . . . 3.1.1. Resolución de datos . . . . . . . . . 3.1.2. Combinación de bandas e ı́ndices . 3.2. Segmentación de imágenes . . . . . . . . . 3.2.1. Clasificación . . . . . . . . . . . . . 3.3. Conclusión . . . . . . . . . . . . . . . . . . 4. Fuzzy clustering 4.1. Álgebra de conjuntos . . . . . . 4.2. Partición Fuzzy del Espacio . . 4.3. Fuzzy C-Means (FCM) . . . . . 4.4. Propuesta de Genitha, C Heltin 4.5. Conclusiones . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . y Vani, K . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . . . . . . . . (2013) . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . .. . . . . . .. . . . . .. . . . . . .. . . . .. . . . . . .. . . . . .. . . . . . .. . . . .. . . . . . .. . . . . .. . . . . . .. 14 14 15 15 15 15 15. . . . .. 17 17 20 21 25. . . . . . .. 26 26 26 28 28 29 32. . . . . .. 33 33 34 34 36 37. 5. Propuestas 38 5.1. New Fuzzy Cluster Centroid Modified (NFCCM) . . . . . . . . . 38 5.1.1. Obtención de la probabilidad del pixel en cada banda . . . 39 5.1.2. Obtención de probabilidad del pixel . . . . . . . . . . . . . 40 5.1.3. Integración de la probabilidad en el modelo NFCC . . . . 40 5.2. Fuzzy Probabilistic Local Cluster (FPLC) . . . . . . . . . . . . . 41 5.2.1. Integración de la homogeneidad de pı́xeles . . . . . . . . . 42 5.2.2. Calculó del parámetro σ . . . . . . . . . . . . . . . . . . . 42 5.2.3. Integración de la distribución Gaussiana en el modelo NFCCM 43 5.2.4. Paralelismo aplicado a los modelos de clustering . . . . . . 44 4.

(6) 6. Resultados 6.1. Diseño global de los experimentos . . . . . . . . . . . . . . 6.1.1. Imágenes multiespectrales . . . . . . . . . . . . . . 6.1.2. Generación del conjunto de imágenes para pruebas 6.2. Equipo usado . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.1. Preparación del entorno . . . . . . . . . . . . . . . 6.3. Validación interna de clustering . . . . . . . . . . . . . . . 6.3.1. Diseño del experimento . . . . . . . . . . . . . . . . 6.3.2. Ejecución del experimento (validación interna) . . . 6.4. Validación externa . . . . . . . . . . . . . . . . . . . . . . 6.4.1. Diseño del experimento . . . . . . . . . . . . . . . . 6.4.2. Ejecución de experimentos (validación externa) . . 6.4.3. Generación de matriz . . . . . . . . . . . . . . . . . 6.4.4. Discusión de resultados . . . . . . . . . . . . . . . . 6.4.5. Análisis resultados obtenidos . . . . . . . . . . . . .. . . . . . . . . . . . . . .. 47 48 48 49 50 51 51 52 52 58 58 59 62 64 65. 7. Conclusiones y trabajos futuros 7.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2. Contribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . .. 66 66 66 66. A. Cluster validity A.1. Partition Coefficient (PC) . . . . . . . A.2. Partition Coefficient Modified (MPC) . A.3. Partition Entropy (PE) . . . . . . . . . A.4. Fuzzy Hypervolume (FHV) . . . . . . . A.5. Fukuyama and Sugeno (FS) . . . . . . A.6. Xie-Beni (XB) . . . . . . . . . . . . . . A.7. Criterios de selección aplicando indices. . . . . . . .. 67 67 67 67 68 68 68 69. B. Experimento estadı́stico B.1. Espacio muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . B.2. Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.3. Probabilidad de eventos . . . . . . . . . . . . . . . . . . . . . . .. 70 70 70 70. C. Distribución normal o Gaussiana. 72. 5. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . . . . . . . . .. . . . . . . .. . . . . . . . . . . . . . .. . . . . . . .. . . . . . . . . . . . . . .. . . . . . . ..

(7) Lista de acrónimos ABC Artificial Bee Colony FCM Fuzzy C Means Clustering Algoritihm ANN Artificial Neural Network FWCM Fuzzy Weighted C Means Classification Ncut Minimum cut SMF Spectral Matched Filter MRI Magnetic Resonance Imaging PCM Possibilistic C Means PFCM Possibilistic Fuzzy C Means RFPCM Robust Fuzzy Possibilistic C-Means FCM-GK Fuzzy C-Means with Gustafson-Kessel OMP Orthogonal Matching Pursuit HSV o HSI Hue, Saturation, Intensity – Matiz, Saturación, Intensidad PFCM Possiblistic Fuzzy C-Means NDVI Índice de vegetación de diferencia normalizada SR Simple Ratio SAVI Soil-Adjusted Vegetation Index TVI Transformed Vegetation Index TNDVI Transformed Normalized Difference Vegetation index NDWI Normalized difference water index OPF Optimum-Path Forest Otsu Otsu’s thresholding method LDA Loss Distribution Approach FC Fuzzy Connectedness.

(8) FOM Fuzzy object model MRF Markov Random Field ANA Autoridad Nacional del Agua ETM+ Enhanced Thematic Mapper Plus SAR Synthetic-aperture radar NIR Near Infrared CIELab CIELAB color space RGB Red Green blue ILKFCM fuzzy C-means with pixel intensity and location information NLEP-FCM FCM algorithm with edge preservation BUA Built Urban Area. 7.

(9) Índice de figuras 3.1. Flujo de la señal en teledetección [1]. . . . . . . . . . . . . . . . . 3.2. Muestreo del espectro electromagnético según los diferentes formatos de imágenes multiespectrales [1]. . . . . . . . . . . . . . . . . 3.3. Niveles de brillo en imágenes provenientes de satélite. [1] . . . . . 3.4. Técnicas de segmentación de imágenes [2]. . . . . . . . . . . . . . 3.5. a) Modelo de clustering supervisado [3]. b) Modelo de clustering no supervisado [3]. . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1. Matriz multiespectral de 5x5 pixeles y 5 valores de profundidad, ordenados en una única matriz. . . . . . . . . . . . . . . . . . . . 5.2. Probabilidad de ocurrencia de cada nivel de gris para cada banda en una imagen multiespectral. . . . . . . . . . . . . . . . . . . . . 5.3. Probabilidad de la ocurrencia de un pixel multiespectral. . . . . . 5.4. Dispersión Gaussiana con el centro en el pixel analizado y σ = max(kxk − xj k), donde xj es un pixxel y xk ∈ vecindario. . . . . 5.5. Calculo de valor asignado a σ, donde di , i ∈ vecindario representa la distancia entre el pixel analizado y el pixel perteneciente al vecindario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6. Esquema general de funcionamiento de los algoritmos de fuzzy clustering. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7. Esquema general de funcionamiento de los algoritmos de fuzzy clustering. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.8. Esquema general de paralelismo aplicado a operaciones. . . . . . . 6.1. modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2. Metodologı́a para experimentación. a) Conjunto de imágenes multiespectrales. b) Generación del conjunto de imágenes para realizar pruebas. c) Preparar el entorno necesario para los experimentos. d) Ejecución de pruebas de validación interna. e) Análisis de los resultados de validación interna. f) Ejecución de pruebas de validación externa. g) Análisis de los resultados de validación externa. . . . . 6.3. Dispersión de la data en una imagen multiespectral de prueba. a) Imagen estudiada. b) Histograma banda R. c) Histograma banda G. d) Histograma banda B. e) Histograma de la banda NR. f) Histograma de la banda IR. . . . . . . . . . . . . . . . . . . . . . 6.4. Diagrama que muestra las estructuras compartidas por los algoritmos(FCM, NFCC, NFCCCM, FPLC). . . . . . . . . . . . . . . . 6.5. Metodologı́a para la evaluación de la estructura interna generada por los algoritmos de fuzzy clustering. . . . . . . . . . . . . . . . .. 8. 27 27 28 29 30 39 40 40 43. 43 45 45 46 47. 48. 50 51 52.

(10) 6.6. Imagen seleccionada para prueba de validación interna. . . . . . . 6.7. Esta gráfica recopila el comportamiento obtenido para el indice Partition Coefficient (PC), referente a los 4 algoritmos analizados en la Tabla 6.2. Es considerado un buen comportamiento mientras mayor sea el valor para el indice [4], en este caso el mayor de los valores es presentado por el algoritmo propuesto FPLC. . . . . . 6.8. Gráfica de los datos obtenidos para los 4 algoritmos analizados en la Tabla 6.3 con respecto al ı́ndice Partition Coefficient Modified. Es considerado un buen comportamiento mientras mayor sea el valor obtenido para el indice. Este ı́ndice muestra que el mejor comportamiento es presentado por el algoritmo FPLC, seguido del algoritmo FCM que no integra información espacial y presenta influencia de los valores atı́picos. . . . . . . . . . . . . . . . . . . . 6.9. Gráfica de los datos obtenidos para los 4 algoritmos analizados en la Tabla 6.4 con respecto al ı́ndice Fukuyama and Sugeno. Se considera bueno mientras mas pequeño sea el valor obtenido. Para el experimento realizado se puede observar que los valores obtenidos para el algoritmo FPLC son los mas adecuados en comparación con los demás algoritmos. Puede observarse que el algoritmo FCM presenta un comportamiento adecuado para la segmentación, sin embargo este presenta alta influencia de inhomogeneidad. . . . . . 6.10. Gráfica de los datos obtenidos para los 4 algoritmos analizados en la Tabla 6.5 con respecto al ı́ndice Partition Entropy (PE). Este indice revela la el desorden que posee un conjunto de datos, se considera adecuado un valor bajo. En la gráfica se puede observar que el algoritmo propuesto FPLC presenta menor entropia, lo cual lo hace una opción buena para la segmentación de imágenes multiespectrales. . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.11. Gráfica de los datos obtenidos para los 4 algoritmos analizados en la Tabla 6.6 con referencia al ı́ndice Fuzzy Hypervolume (FHV). Se puede esperar que una partición fuzzy tenga un valor de FHV bajo si los clusters generados son densos. Los experimentos muestran que el algoritmo propuesto FPLC presenta clusters distribuidos y no muy densos en comparación con los comparados. . . . . . . . . 6.12. Gráficas de los datos obtenidos para los 4 algoritmos analizados en la Tabla 6.7 referente al ı́ndice Xie-Beni. Este indice mide la compacidad y separación de la estructura interna generada por cada algoritmo, un valor bajo para el indice es considerado bueno. a) Muestra los resultados obtenidos referentes al indice Xie-Beni, sin embargo, existe demasiado solapamiento de las curvas y no permite observar el comportamiento de algunos algoritmos (FCM, FPLC). b) Se muestra el comportamiento obtenido para los algoritmos (FCM, NFCCM y FPLC) y se puede observar de mejor manera el comportamiento de estos. Las gráficas indican que existe una mejor división de los datos cuando se usa el algoritmo FPLC. 6.13. Metodologı́a para la validacion externa de los algoritmos de fuzzy clustering. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.14. Imagen seleccionada para prueba de validación de clusters. . . . . 9. 53. 54. 54. 55. 56. 56. 57 59 60.

(11) 6.15. Matrices de pertenencia al promedio de centroides. a) Matriz de similitud relativa a construcciones. b) Matriz de similitud a campos de cultivo. c) Matriz de similitud relativa a terreno yermo. d) Matriz de similaridad a Hierba. . . . . . . . . . . . . . . . . . . . 63 6.16. Segmentación de las matrices de pertenecı́a usando el algoritmo FPLC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 6.17. Resultados de segmentación de la imagen de prueba. a) Segmentación usando FCM. b) Segmentación usando NFCC. c) Segmentación usando NFCCM. d) Segmentación usando el algoritmo FPLC. 65 A.1. Criterio de seleccion del mejor valor para los indices. a) Para (PC), buscamos el valor mı́nimo. b) Para (PE), buscamos el valor mı́nimo que representa la entropı́a en un cluster. c) Para (MPC), buscamos el valor máximo. d) Para (FS), buscamos el valor mı́nimo. e) Para (FHV), el óptimo es el valor mı́nimo. f) Para (XB), buscamos el valor mı́nimo para este ı́ndice. . . . . . . . . . . . . . . . . . . . .. 69. C.1. Ecuación de distribución Gaussiana, representación como superficie en x y y. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 72. 10.

(12) Índice de tablas 2.1. Caracterización de cada uno de los algoritmos presentes en el estado del arte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 25. 3.1. Capacidades y aplicaciones de ETM + bandas espectrales. . . . .. 29. 6.1. Investigaciones y las respectivas dimensiones usadas para los experimentos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2. Resultados del ı́ndice Partition Coefficient aplicado a los algoritmos (FPLC, NFCCM, NFCC y FCM) en el rango de [2, 7] clusters. 6.3. Resultados del ı́ndice Partition Coefficient Modified aplicado a los algoritmos (FPLC, NFCCM, NFCC y FCM), en el rango de [2, 7] clusters. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4. Resultados calculados para el ı́ndice Fukuyama and Sugeno (FS) aplicado a los algoritmos (FPLC, NFCCM, NFCC y FCM), en el rango de [2, 7] clusters. . . . . . . . . . . . . . . . . . . . . . . . . 6.5. Resultados calculados para el ı́ndice Partition Entropy (PE) aplicado a los algoritmos (FPLC, NFCCM, NFCC y FCM) en el rango de [2, 7] clusters. . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6. Resultados calculados para el ı́ndice Fuzzy Hypervolume aplicado a los algoritmos (FPLC, NFCCM, NFCC y FCM) en el rango de [2, 7] clusters. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.7. Resultados calculados para el ı́ndice Xie-Beni aplicado a los algoritmos (FPLC, NFCCM, NFCC y FCM) en el rango de [2, 7] clusters. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.8. Resultados calculados para los ı́ndices aplicados a la estructura interna generada algoritmo FPLC en cada una de las iteraciones [2, 9]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.9. Resultados calculados para los ı́ndices aplicados a la estructura interna generada algoritmo NFCCM en cada una de las iteraciones [2, 9]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.10. Resultados calculados para los ı́ndices aplicados a la estructura interna generada algoritmo NFCC en cada una de las iteraciones [2, 9]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.11. Resultados calculados para los ı́ndices aplicados a la estructura interna generada algoritmo FCM en cada una de las iteraciones [2, 9]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.12. Recopilación de los valores indicados como número de óptimo clusters según los indices analizados (PC, PCM, PE, FS, FHV, Xie-Beni).. 11. 49 53. 54. 55. 55. 56. 57. 60. 60. 61. 61 61.

(13) 6.13. Etiquetas asignadas mediante segmentación de la matriz de semejanza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.14. Resultados de la comparación de algoritmos de fuzzy clustering . .. 12. 64 65.

(14) Lista de Algoritmos 1. 2. 3. 4. 5.. C-Means Clustering . . . . . . . . . . . . . . . . Fuzzy C-Means (FCM) . . . . . . . . . . . . . . . New Fuzzy Cluster Centroid (NFCC) . . . . . . . New Fuzzy Cluster Centroid Modified (NFCCM) Fuzzy Probabilistic Local Cluster (FPLC) . . . .. 13. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. 31 36 37 41 44.

(15) Capı́tulo 1 Introducción La resolución del problema de clustering u organización de objetos en grupos usualmente se aborda mediante mecanismos matemáticos, estos usan perspectivas que están reflejadas en las funciones objetivo y las restricciones necesarias para la convergencia de estas. Los algoritmos de clustering usualmente buscan minimizar la entropia dentro del cluster y maximizar la diferencia entre los clusters, para esto usan modelos matemáticos (funciones objetivo) con los cuales enfatizar las pequeñas diferencias entre los datos con el fin de separarlos en grupos. Múltiples técnicas surgieron a lo largo del tiempo con el fin de separar los datos contenidos en las imágenes multiespectrales, estas usualmente están basadas en la diferenciación de los valores representativos en cada banda de una imagen multiespectral. Una de las primeras perspectivas hace uso de operaciones entre bandas, tales son los casos de los ı́ndices (Differential Vegetation Index (DVI), Ratio Vegetation Index (RVI), Normalized Difference Vegetation Index (NDVI), Transformed Vegetation Index (TVI), Perpendicular Vegetation Index (PVI), Weighted Difference Vegetation Index (WDVI), entre otros) que cumplen la función de realzar ciertas caracterı́sticas del terreno, haciendo más fácil la identificación de objetos. Sin embargo, con el tiempo fue necesario desarrollar técnicas mas complejas con el fin de separar los datos contenidos en las imágenes multiespectrales, como son: threshold (Otsu, Graph based ) [5], clustering (K-means, Possibilistic CMeans, Fuzzy Possibilistic C-Means, Robust Fuzzy Possibilistic C-Means y Fuzzy C-Means with Gustafson-Kessel ) [6], clasificación (Neural Network Classifier) [7], entre otras. Una de las técnicas mas populares es el clustering, usualmente divididas en supervisadas y las no supervisadas. Las primeras dividen los datos en grupos (entrenamiento y prueba) y otras usan modelos matemáticos con el fin de encontrar una separación optima de los datos.. 1.1.. Definición del problema. La segmentación de imágenes multiespectrales presenta una múltiples retos, uno de los principales es que los datos contenidos poseen gran resolución espacial, por consecuencia provoca una alta variabilidad espectral en los datos, lo cual disminuye la posibilidad de separar estadı́sticamente los datos en diferentes clases. Además, es necesario saber que la baja separación estadı́stica de los datos afecta 14.

(16) a los algoritmos debido a que muchos presentan influencia de imhomogeneidad y no integran información espacial, por consecuencia se obtendrá una segmentación de baja precisión.. 1.2. 1.2.1.. Objetivos Objetivo general. Proponer una modelo para la segmentación fuzzy de imágenes multiespectrales, que integre información espacial usando el concepto de probabilidad.. 1.2.2.. Objetivos especı́ficos. Investigar los diferentes algoritmos de clustering aplicados a segmentación de imágenes provenientes de satélites. Estudiar del funcionamiento de las diferentes estructuras matemáticas utilizadas en clustering . Integrar información espacial en el algoritmo seleccionado usando el concepto de probabilidad.. 1.3.. Justificación. Esta investigación es cientı́ficamente necesaria, debido a que persigue por finalidad aportar una nueva perspectiva para la integración de información espacial dentro en los algoritmos de clustering, con esto se busca mejorar la segmentación brindando mayor precisión al método seleccionado. Esta investigación es socialmente viable, debido a la necesidad de incrementar la precisión de los algoritmos que son usados en aplicaciones con fines prácticos como: el monitoreo de cultivos, detección de daños en ciudades, vigilancia, teledetección de puentes, cartografı́a de territorio, seguimiento de objetivos, entre otros. Esta investigación es tecnológicamente necesaria, debido a que se dispone de imágenes multiespectrales, que actualmente brindadas de forma libre por Comisión Nacional de Investigación y Desarrollo Aeroespacial (CONIDA), gracias a la compra del satélite Peruano PeruSat-1. Además, este satélite presenta una vida útil de 10 años, por lo cual es necesario y urgente desarrollar este tipo de tecnologı́a.. 1.4.. Organización del documento de tesis. El resto del documento esta organizado según se indica: Capı́tulo 2, estado del arte. Se presenta la base desde la cual partió la investigación. Para esto se tomó en cuenta las revisiones bibliográficas publicadas en los últimos 5 años, las modificaciones realizadas a los algoritmos y las aplicaciones que fueron presentados en artı́culos cientı́ficos. 15.

(17) Capı́tulo 3, teledetección y segmentación de imágenes. Estudia los conceptos relacionados a la captura de datos y organización de los datos en las imágenes multiespectrales. Asimismo, se realiza un estudio de la segmentación de imágenes y sus aplicaciones. Capı́tulo 4, fuzzy clustering. Se realiza un estudio detallado del fuzzy clustering, iniciando con la teorı́a de conjuntos, seguido del concepto de partición fuzzy y posteriormente se estudia los algoritmos que usaremos como base para nuestras propuestas. Capı́tulo 5, algoritmos propuestos. Se describe la manera como se integró de la información espacial tanto local como global dentro del algoritmo seleccionado y finalmente son mostrados los algoritmos propuestos. Capı́tulo 6, resultados y discusión. Es dedicado a la metodologı́a que se propuso para la realización de los experimentos, el análisis de los resultados obtenidos para cada algoritmo (estructura interna y externa) y la discusión de los resultados. Capı́tulo 7, conclusiones y trabajos futuros. Son presentadas las conclusiones a las que se llego luego de la experimentación y se brindan ideas que pueden ser estudiadas en trabajos futuros.. 16.

(18) Capı́tulo 2 Estado del arte En este capı́tulo se elabora la revisión bibliográfica acerca de como fueron cambiando los diferentes algoritmos de clustering aplicados a la segmentación de imágenes miltiespectrales. Además, se incluye nuevas perspectivas que mejoran la precisión de los métodos y las aplicaciones que hacen uso de estos.. 2.1.. Estudios comparativos de los algoritmos de fuzzy clustering. Una de las técnicas mas usadas para la segmentación de imágenes multiespectrales es el clustering, encargado de crear grupos partiendo de un conjunto de datos y restricciones. Correa et al. [6] realizan una comparación de algoritmos de agrupamiento (Possibilistic C-Means, Fuzzy Possibilistic C-Means, Robust Fuzzy Possibilistic C-Means y Fuzzy C-Means with Gustafson-Kessel ) aplicados a la extracción de caracterı́sticas en imágenes de viñedos. Las imágenes segmentadas fueron evaluadas utilizando parámetros de calidad, tales como la tasa de área clasificada correctamente y tiempo de ejecución. Para realizar experimentos los algoritmos fueron aplicados sobre dos imágenes con dos resoluciones ( 640 x 480 y 320 x 240 pixeles), originalmente estas fueron capturadas en una resolución de (3504x2336 pixeles). Los resultados obtenidos de los algoritmos no muestran una diferencia significativa cuando la resolución se reduce a (320 x 240 pixeles). Sin embargo, el mejor rendimiento se obtuvo para RFPCM, a expensas de una clasificación pobre. FCM sigue siendo el algoritmo más rápido después de RFPCM, que a su vez considera pequeños clusters como ruido, es decir, es demasiado robusto contra el ruido. Koonsanit, Jaruskulchai y Eiumnoh [8] presentan una visión simple acerca de la segmentación de imágenes multiespectrales, mediante el estudio de dos algoritmos (K-means y K-means libre de parámetros), para determinar el número de inicialización de los clusters se usa la técnica de la matriz de co-ocurrencia. Además, se propone una técnica de maximizancion para el conteo automático de un número de picos en la matriz de co-ocurrencia, con el fin de determinar el número óptimo de clusters. Para las pruebas respectivas fueron usadas imágenes multiespectrales que presentan 7 - 10 bandas, que cubren desde el espectro visible hasta infrarrojo de onda larga. Los resultados muestran que el clustering libre de. 17.

(19) parámetros es una idea viable, que presenta buenos resultados en la segmentación de los datos. Kar y Kelkar [9] presentan uno de los principales problemas del procesamiento de imágenes multiespectrales “resolución más alta causa una mayor variabilidad espectral dentro de una clase y disminuye la separabilidad estadı́stica entre diferentes clases en una clasificación tradicional basada en pı́xeles”. Asimismo, se presenta un estudio detallado de los diferentes clasificadores basados en redes neuronales. Los resultados del análisis de los diferentes métodos de clasificación aplicados a imágenes multiespectrales dejan ver que se necesitan más estudios para mejorar el uso de clasificadores para aumentar la aplicabilidad de tales métodos. Además, hay una necesidad de desarrollar nuevos algoritmos para clasificar más número de clases, más cobertura de tierra y uso de la tierra. Ganesan, Sathish y Sajiv [10] proponen un enfoque modificado del algoritmo FCM, para la identificación y extracción regiones que presentan incendios forestales. Para los experimentos se usaron imágenes adquiridas a partir de satélites Landsat, sin embargo no se especifican las dimensiones de dichas imágenes. Adicionalmente, los experimentos se centran en la comparación del algoritmos propuesto y el algoritmo K-means, usando diferentes espacios de color (RGB, CIELab). Los resultados muestran que la mayorı́a de los parámetros de calidad fueron soportados por MFCM (CIELab), esto es seguido por K-Means (CIELab), MFCM (RGB) y K-Means (RGB). Gómez-chova et al. [11] realizan una revisión de los métodos y direcciones que se sigue en teledeteción u observación de la tierra a través de imágenes, permitiendo la caracterización e identificación precisa de los materiales en la superficie desde el espacio utilizando satélites y las plataformas aéreas. Asimismo, se destaca los avances más recientes, que explotan sinergias con el aprendizaje de máquinas y el procesamiento de señales: métodos sparza, fusión basada en kernel, modelado de Markov y alineación de colectores. Finalmente, se presentaron los diferentes enfoques en siete desafiantes aplicaciones de teledetección, 1) fusión en multirresolución para la clasificación de imágenes multiespectrales, 2) la reducción de la imagen como una forma de fusión de imágenes multitemporal e interpolación multidimensional entre sensores de diferentes resoluciones espaciales, espectrales y temporales, 3) clasificación de imagen multiangular, 4) fusión de imágenes multisensor que explora la extracción de caracterı́sticas fı́sicas, 5) clasificación multitemporal de la imágenes terrestres en fuentes incompletas, inconsistentes y vagas, 6) fusión multiesensor espacial de imágenes ópticas y de radar para la detección de cambios y 7) adaptación de sensores clasificadores cruzados. Banerjee et al [5] proponen un nuevo método para generar un esquema de etiquetado consistente, partiendo de algoritmos de clustering (K-means, FCM, Graph based, K-Medoid ) y llegando a un consenso de las etiquetas asignadas, en este método se presupone un número de clases adecuadas para un conjunto de datos. Para los experimentos se usó imágenes de resolución media obtenidas de la ciudad de Sardina y QuickBird - Italia, a la vez se usó tres algoritmos de clustering y la técnica de mapeo propuesta, que es la que impone consistencia a las etiquetas asignadas. Los resultados mostraron que la técnica propuesta es escalable, debido a que los métodos de clustering no presentan dependencia. Deepika y Vishnu [2] evalúan diferentes técnicas (K-means Clustering, Thresholding y Active Contours) para segmentación de imágenes multiespectrales 18.

(20) y evalúan cual de ellas es la mejor, para esto utiliza parámetros de rendimiento (precisión de la segmentación y el ratio de correlación). Para los experimentos se usó 30 imágenes, pero se muestran los resultados de dos. Además, se propone la forma de evaluación de la precisión para cada método. Finalmente las pruebas dan a conocer que la técnica Active Contours, presenta ventaja sobre sus competidoras. Ganesan et al. [12] realizan un estudio comparativo de las diferentes técnicas de segmentación fuzzy aplicadas a imágenes multiespectrales, debido a que los enfoques fuzzy son más populares y ampliamente usados. Los experimentos se realizaron haciendo uso de tres técnicas en especı́fico; Fuzzy-C-Means (FCM) , Possibilistic C Means (PCM) y Possibilistic Fuzzy C Means (PFCM). Además, se usaron imágenes multiespectrales de diferentes satélites (GeoEye, LandSat y IKONOS) que fueron normalizadas y divididas en imágenes de dimensiones (100 x 100 pixeles), con el fin de disminuir el costo de computacional. Los resultados mostraron que para el mismo número de clústers, el algoritmo PCM es más rápido en comparación con otros dos métodos. Poojary et al. [13] presentan una visión general de la teorı́a y los problemas presentes en la detección de objetivos en imágenes hiperespectrales. Primero se describen los desafı́os implicados en la exploración de los datos hyperspectrales. Además, los estados del arte para las siete perspectivas actuales (Los enfoques basados en la teorı́a fuzzy, búsqueda de Proyección, entropia máxima, filtro Gaussiano, Kernel y métodos para la detección y clasificación), llegando a la conclusión que muchas técnicas han sido probadas por los investigadores, pero todavı́a no hay buenos algoritmos de detección de objetivos que se pueden utilizar para aplicaciones prácticas. Por lo tanto, hay margen para la mejora y la investigación. Además, la reducción de la dimensión es un desafı́o importante para la investigación futura debido a las enormes cantidades de datos, este debe realizarse en el modelado espectral. Asimismo, nuevos enfoques para la mezcla espectral necesitan ser descubiertos. Zou y Liu [14] examinan las técnicas de segmentación partiendo de la idea que el clustering fuzzy juega un papel importante. Los algoritmos basados en FCM implican una gran cantidad de temas, las matemáticas difusas son base teórica y la construcción del modelo. La función apropiada del núcleo se elige como medida usando la teorı́a del aprendizaje estadı́stico. Aunque el establecimiento del algoritmo de clustering fuzzy tiene un marco matemático común (la selección de la caracterı́stica de datos, la determinación de la medida de la distancia y la optimización de la solución se desarrollan con el desarrollo de la minerı́a de datos). Krishna y Babu [15] proponen tres fases esenciales para el procesamiento de imágenes multiespectrales: en la primera fase la imagen es dividida dentro de bloques espaciales mediante la aplicación de filtros, en la segunda fase el ruido es identificado y eliminado usando un método estático de threshold, por ultimo se propone un método de segmentación basado en áreas, para reducir el número de regiones segmentadas. Para las pruebas realizadas se hace uso de imágenes proporcionadas por QuickBird, no se especifica las dimensiones con que se trabajaron las pruebas. El resultado experimental muestra que el enfoque propuesto tiene un mejor desempeño comparado con las técnicas tradicionales de segmentación en términos de tiempo, ruido y sobre segmentación. En el futuro, este trabajo se 19.

(21) puede extender a diferentes rasgos geográficos. Nasibov y Atilgan [16] buscan probar la existencia del valor apropiado de parámetros dentro del algoritmo Fuzzy Joint Points (FJP) y hacer que el método dependiente de parámetros y el original presenten el mismo rendimiento. El método FJP es una técnica de agrupación fuzzy basada en la densidad de los grupos, que originalmente es libre de parámetros, pero lento. Un trabajo reciente presentó un tiempo óptimo, es decir, O(n2 ), para el método FJP y un nuevo algoritmo heurı́stico dependiente de parámetros que mejora la velocidad del algoritmo de tiempo óptimo por un factor constante. En conclusión la eficiencia del agrupamiento de este último no se analizó. Se proporciona un lı́mite teórico de tal manera que el método dependiente de parámetros logra la misma eficiencia de agrupamiento con los métodos libres de parámetros.. 2.2.. Algoritmos de fuzzy clustering aplicados a teledetección. Existen numerosos modelos de segmentación, los cuales han sido desarrollados para hacer uso de los datos presentes en las imágenes multiespectrales, usualmente estos algoritmos son usados con fines especı́ficos (monitoreo de cultivos, estimación de daños causados por desastres naturales, aplicaciones militares, entre otros). Xu et al. [17] presenta un eficiente método de clasificación semántica no supervisada para imágenes multiespectrales de alta resolución. Añade un coste de etiquetado, lo que puede penalizar la solución basada en un conjunto de etiquetas que aparecen por optimización de energı́a, ademas, se propone un algoritmo iterativo para hacer que el número de clases finalmente converja a un nivel adecuado. Las pruebas fueron realizadas con imágenes multiespectrales, las cuales son obtenidas de Google Earth, cada imagen se trata como un corpus de tamaño de (800 x 800 pixeles). Además, se compara el algoritmo propuesto con los algoritmos LDA–MRF, k-means e ISODATA. La evaluación y análisis demuestran que el método propuesto alcanza mejores resultados en comparación con sus contra partes. Mustafa, Yaacob y Latif [18] proponen un método de clustering llamado Possiblistic Fuzzy C-Means (PFCM), que permite el aprendizaje supervisado con el fin de clasifcar cultivos de algodón. esta investigación es necesaria debido a que los indices de vegetación (Simple Ratio, Normalized Difference Vegetation Index, Soil Adjusted Vegetation Index, Triangular Vegetation Index y Transformed Normalized Difference Vegetation Index ) presentan poca precisión y la clasificación usando indices tiene un efecto negativo, debido a inliers y outliers en la imagen. Finalmente se puede apreciar en los resultados, que la precisión de la clasificación es confiable debido a la solución de los inconvenientes de la clasificación no supervisada. Además se observó que el ı́ndice de SR supera a otros ı́ndices de vegetación para mejorar la precisión de clasificación. Wei et al. [19] presentan un método automático de detección de puentes en imágenes multiespectrales, usando el (NDWI) para la detección de cuerpos de agua y el algoritmo Otsu aplicado a la segmentación. Para los experimentos se usaron imágenes multiespectrales de las ciudades de New York City - United Sta20.

(22) tes, Shanghai - China y Calcutta - India, haciendo uso de diferentes dimensiones (400 x 300, 450 x 200 y 600 x 500 pixeles). Los resultados experimentales en conjuntos de datos reales muestran la eficacia del método propuesto. Trabajo futuro se propone investigar cómo mejorar aún más la precisión de detección de la región del agua. Khurshid y Khan [20] aplica el uso de la segmentación de datos para extraer el área construida (BUA) presente en las imágenes de satélite y se realizó detección de cambio para encontrar el área dañada en caso de desastres naturales. Para la ejecución de los experimentos se utilizo dos imágenes SPOT 5 que presentan la misma área antes y después de una inundación. Además la imagen de banda espectral registrada se dividió en subimágenes de tamaño (512 x 512 pixeles), para un procesamiento eficaz. Los resultados de los daños calculados se encontraron consistentes con los hechos del terreno y por lo tanto dan una ventaja para el uso de imágenes SPOT 5 para la evaluación de daños.. 2.3.. Modelos basados en Fuzzy C Means. Cheng y Giger [21] presentan una modificación del algoritmo FCM que estima el efecto de sombreado mientras se segmenta la imagen. Un término de campo multiplicador modela la variación de intensidad es incorporado en la función objetivo FCM, el cual se minimiza iterativamente. Para los respectivos experimentos se hizo uso de imágenes que se obtuvieron utilizando un escáner de resonancia magnética de signa 1,5-Tesla de General Electric. Las pruebas realizadas con el algoritmo propuesto mostraron que es un método bueno para la corrección de la inhomogeneidad de intensidad y la segmentación difusa de las imágenes de RM. Ngo, Mai y Nguyen [22] presentan un método para mejorar la eficiencia computacional del FCM de tipo-2 (IT2-FCM) basado en la plataforma de GPU y aplicado a la clasificación de la superficie terrestre a partir de imágenes de satélites. Para los experimentos se utiliza imágenes LANDSAT-7 con tamaño 4096 x 4096 de cuatro canales, pertenecientes a el área de Hanoi. Los resultados de las pruebas muestran que IT2-FCM implementado para GPU, presenta mayor nivel de escalabilidad en comparación a los algoritmos que son ejecutados enteramente en CPU. kobashi y Udupa [23] proponen un nuevo método de segmentación, que combina el objeto de forma difusa (FSOM) y el objeto de intensidad difusa (FIOM) dentro de un método basado en Fuzzy Connected (FC). Los modelos de objetos difusos representan efectivamente un conocimiento previo del objeto. FSOM codifica conocimiento sobre geografı́a y forma, por otro lado, FIOM encapsula conocimiento sobre intensidad. El reconocimiento eficaz del objeto conduce a una delineación efectiva. Los resultados de los experimentos muestran que el uso de FSOM y FIOM ayuda a reconocer el objeto con respecto a la ubicación, la forma y la intensidad. La segmentación basada en el modelo de objetos difusos brinda buenos resultados para la segmentación de imágenes de RM del cerebro. Zaixin, Lizhi y Guangquan [24] formulan una modificación del algoritmo FCM utilizando la información contextual local y estructural. Primero se establece un nuevo modelo de medida de similitud basado en parches de imagen y estadı́sticas locales, luego se define la distancia ponderada por vecindario para reemplazar la distancia euclidiana en la función objetivo de FCM. Para realizar los experi21.

(23) mentos se usó imágenes sintéticas y reales, especialmente imágenes de resonancia magnética (RM), para demostrar que el rendimiento del algoritmo NWFCM propuesto es mejor comparado con los algoritmos FCM, F CMS , EnFCM, FGFCM y regFCM. Los experimentos muestran que el método propuesto puede resultar en un rendimiento excepcional y es robusto al ruido. Además, la eficiencia computacional es perfectamente aceptable en la aplicación práctica. Ganesan y Rajini [25] presentan un nuevo método para la segmentación de imágenes multiespectrales ruidosas, utilizando una modificación del algoritmo FCM que toma en cuenta la información espacial de la imagen. Para los experimentos fueron añadidas a la imagen original diferentes tipos de ruidos (Gaussiano, poisson, “sal y pimienta” y ruido moteado). A continuación, se aplicó la Transformada de Wavelet Discreta (DWT) y el umbral suave de Bayes Shrink soft para la eliminación de pı́xeles ruidosos y suavizar la imagen. Finalmente, se aplicó una modificación del algoritmo FCM con el fin de quitar ruido y segmentar la imagen. Los resultados de los experimentos dejan ver que el algoritmo FCM estándar es muy sensible al ruido, por este motivo, un pı́xel ruidoso siempre se clasifica erróneamente debido a su caracterı́stica anormal. Ganesan y Rajini [26] proponen un eficiente y preciso algoritmo de segmentación derivado de FCM, que incorpora el espacio de color HSV dentro de la función objetivo. Para los experimentos fueron usadas 25 imágenes GeoEye1 que presenta una resolución en color de 1.65m y pancromática de 0.5m. Además, no se precisa las dimensiones de imágenes de prueba. Los resultados de los experimentos realizados muestran que haciendo el cambio de espacio de color RBG a HSV, se obtuvo una mejor separación de los datos. Sin embargo, es necesario realizar la respectiva ecualización del histograma. Genitha y Vani [27] formulan una nueva función objetivo añadiendo un nuevo término entre la distancia de los pı́xeles y los centros de agrupación. Este nuevo término se formula multiplicando el multiplicador de Lagrange por los valores de pertenencia del pixel para una clase particular. El algoritmo propuesto es probado con imágenes obtenidas de IKONOS y QuickBird pertenecientes al área de Chennai - India. Finalmente los resultados globales confirman que la precisión de la propuesta New Fuzzy Cluster Centroid (NFCC) presenta mejores resultados en comparación con FCM y FWCM. Xiang et al. [28] presentan una modificación del algoritmo FCM que integra información de intensidad de pı́xeles y ubicación, también, incorpora un factor fuzzy ponderado en la función objetivo, que considera las distancias espaciales e intensidad de todos los pixeles vecinos simultáneamente. Para los experimentos son utilizadas datos sintéticos (244 x 244 pixeles) y datos reales obtenidos de TerraSAR X-band (1578 x 1126 pixels). Además, fueron probados algoritmos basados en FCM, (KWFLICM, FCM no local, NLEP-FCM) y Kernel Graph Cuts. En los resultados muestran que el algoritmo propuesto es computacionalmente costoso, principalmente porque el factor difuso se calcula en cada iteración y el cálculo de la distancia del kernel de caracterı́sticas wavelet aumenta la complejidad. Sin embargo, este inconveniente puede compensarse por su muy buen rendimiento en la segmentación de imágenes SAR. Agarwal et al. [29] presenta el algoritmo FCM corregido por el campo de polarización, para la segmentación de la imágenes MRI. Las pruebas fueron realizadas utilizando 60 imágenes de resonancia magnética, las cuales cuentan con nume22.

(24) rosos muestreos de diferentes zonas del cerebro. Por otro lado, las imágenes de MRI del cerebro se segmentaron en materia gris y materia blanca. En los resultados se observó que el método es capaz de segmentar imágenes MRI del cerebro, además, las segmentación obtenida fue bastante buena en comparación con otros algoritmos. Praveena y Singh [7] plantean un algoritmo hı́brido de clustering y clasificador de red neuronal feed-forward, para la cartografı́a de cobertura de árboles, sombra, construcciones y carreteras. Comienza con el preprocesamiento para hacer que la imagen sea adecuada para la segmentación, seguidamente se segmenta utilizando el algoritmo genético hı́brido Artificial Bee Colony (ABC) que se desarrolla mediante la hibridación de la ABC y FCM, para obtener la segmentación efectiva en la imagen de satélite y clasificar utilizando la red neuronal. Para el análisis de los resultados, se analiza tanto la estructura interna (Davies-Bouldin (DB) index, Xie-Beni (XB) validity index y Mean Square Error (MSE)) como la externa de los clusters obtenidos. Demostrando que la combinación de de los métodos de clustering y las redes neuronales es una opción viable para la segmentación de imágenes multiespectrales. Zhao, Chang y Jiang [30] presentan un método basado en la agrupación fuzzy para segmentar imágenes que presentan inhomogeneidad de intensidad. En primer lugar, se deriva una nueva expresión de la función objetivo de FCM a través de la alteración del prototipo para cada agrupación. Entonces, es añadido un peso local, definido en forma de ventana que se introduce en la función objetivo. Las pruebas fueron realizadas usando imágenes sintéticas y reales, incluyendo imágenes de rayos X del cerebro, tomadas mediante resonancia magnética (MRI) de dimensiones (256 x 256, 103 x 131 pixeles). Los resultados experimentales ilustran mayor aplicabilidad del modelo FLM para la segmentación de imágenes con presencia de inhomogeneidad de intensidad, esto es debido a que se integra información local espacial en el modelo. Neelima y Reddy [31] proponen un sistema de recuperación de imágenes basado múltiples formas y caracterı́sticas de textura. Se utiliza el algoritmo FCM para la segmentación de imágenes, los momentos (Hu, momentos radiales de Chebyshev) se utilizan en este trabajo para la comparación de similaridad de bloques de ciudad. Para las pruebas se utiliza una base de datos que consta de 100 clases diferentes de imágenes, cada clase tiene de 72 imágenes de un objeto con varias orientaciones. Los resultados experimentales demuestran que el sistema propuesto tiene una mejor eficiencia de recuperación. El desempeño promedio general también se ha mejorado de 85 % a 88 % para el sistema propuesto. Baumgartner et al. [32] plantean un algoritmo de segmentación de imágenes multiespectrales efectivo y robusto, que hace uso de MRF, para optimizar los clusters y mejorar el proceso de segmentación de imágenes. Los experimentos fueron realizados con imágenes multiespectrales Landsat 8TM de una región montañosa en la Pampa Húmeda - Argentina y AVIRIS muestra la Alameda Runway, ambas con un tamaño de pixel de 16.40m. Los resultados mostraron que la función de probabilidad puede tener gran influencia en los resultados de la segmentación. Kaur y Kaur [33] proponen una técnica de clustering derivada de FCM para obtener resultados efectivos para imágenes de fondo complejas. Las comparaciones han mostrado claramente la eficacia de la técnica propuesta. Las imágenes usadas para realizar pruebas contaron de diferentes formatos .jpg, .png, .tiff, .giff. Las 23.

(25) comparaciones realizadas, que consisten en tablas y gráficos han demostrado la efectividad del método propuesto al segmentar imágenes con fondos complejos. Mantilla y Yari [34] proponen una modificación del algoritmo New Fuzzy Cluster Centroid (NFCC), haciendo uso del concepto de probabilidad para integrar información espacial, esto reemplaza el término existente por uno nuevo que representa la probabilidad del pixel. Para los experimentos se utilizó un conjunto de 100 imágenes (500 x 500 pixeles), sin embargo solo se muestran los resultados obtenidos para dos imágenes. Los resultados muestran que el algoritmo propuesto presenta una superposición menor en comparación con FCM para cada segmentación, es decir, la integración de la probabilidad en el modelo es eficaz para integrar información espacial sin recurrir al vecindario de los pixeles. Mantilla y Yari [35] proponen la integración de la ecuación de dispersión Gaussiana en el algoritmos New Fuzzy Cluster Centroid Modified (NFCCM) para calcular la contribución de cada pixels a la muestra analizada, con esto se intenta integrar información local para complementar la información global integrada el modelo. Para los experimentos se utilizó un conjunto de datos de 100 imágenes de tamaño (500 x 500 pixeles). Los resultados de las pruebas muestran que el algoritmo propuesto presenta una entropı́a menor en los clusters generados, debido a que el peso local disminuye la influencia de la inhomogeneidad presente en imágenes multiespectrales. Los resultados visuales muestran áreas regulares y sin ruido. En la Tabla 2.1, se presenta un resumen de las caracterı́sticas de los algoritmos presentes en el estado del arte (Detección de similaridad, Aplicación que se le fue dada, Métrica, Aporte). La información presente en la tabla brinda un panorama general de las investigaciones (nuevas incorporaciones y avances), se observa que la tendencia general de mejora de los algoritmos es la integración de información espacial, la cual es usada para evaluar de una mejor manera cada pixel, teniendo en cuenta el contexto.. 24.

(26) Algoritmo. Aplicación. Métrica Distancia Euclidiana. Fuzzy C Means (Tipo 2) [22]. Segmentación imágenes MRI Segmentación imágenes Multiespectrales (4096 x 4096 pixeles). Neighbourhood weighted FCM [24]. Segmentación imágenes. Fuzzy C Means para intensidad variable [21]. Distancia Euclidiana. Aporte Incorpora variación de intensidad. Distancia Euclidiana. Diseñado para GPU Información espacial y estructural Transformada discreta Wavelet. Distancia Euclidiana. Información espacial global. Probabilidad. Modelo hı́brido. Distancia Euclidiana. Factor peso fuzzy. Segmentación imágenes Multiespectrales. Distancia Euclidiana. Integración de probabilidad. Segmentación imágenes MRI Propósito general (256 x 256 y 103 x 131 pixeles). Distancia Euclidiana. Corrección usando bias-field. Optimized FCM [31] Successive Band Merging (SBM) [32]. Propósito general Segmentación imágenes Multiespectrales (LANDSAT 8 TM). Distancia Euclidiana. Improving the Color Fuzzy-C-Means [33] New Fuzzy Cluster Centroid Modified (NFCCM) [34] Fuzzy Probabilistic Local Cluster (FPLC) [35]. Propósito general Propósito general (500 x 500 pixeles) Propósito general (500 x 500 pixeles). Distancia Euclidiana. Uso de MRF Segmentacion fondos complejos. Distancia Euclidiana. Información espacial global. Distancia Euclidiana. Información espacial global y local. Modified Fuzzy C Means [25] New Fuzzy Cluster Centroid (NFCC) [27] LDA–MRF Model [17] Kernel Fuzzy C Means (ILKFCM) [28] Possiblistic Fuzzy C Means (PFCM) [18] Bias-field Corrected Fuzzy C means (BCFCM) [29] Robust Fuzzy C-means Algorithm (RFCM) [30]. Segmentación imágenes Multiespectrales Propósito general (IKONOS y QuickBird) Segmentación imágenes Multiespectrales (Google Earth 800 x 800 pixeles) Segmentación imágenes SAR (Datos sintéticos 244 x 244 pixeles y reales 1578 x 1126 pixeles ). Distancia Euclidiana. Distancia Euclidiana. Distancia Euclidiana. Información espacial Momentos Hu y Chebyshev. Tabla 2.1: Caracterización de cada uno de los algoritmos presentes en el estado del arte.. 2.4.. Conclusiones. Una de las formas usuales de mejorar la segmentación de imágenes multiespectrales es la integración de información local mediante el estudio del vecindario de cada pixel, sin embargo, usualmente no se analiza el contexto global de los datos, este aporta información relevante que debe ser tomada en cuenta. Esta idea está tomando importancia en la ultimas investigaciones realizadas por múltiples investigadores.. 25.

(27) Capı́tulo 3 Teledetección y segmentación de imágenes 3.1.. Teledetección. La energı́a emanada de la superficie terrestre es medida usando satélites o plataformas espaciales, estas mediciones son usadas para construir una imagen del paisaje bajo la plataforma, de modo que la imagen grabada es en muchos aspectos la imagen que verı́amos, si estuviéramos en una plataforma espacial, aunque, usualmente las longitudes de onda usadas en teledetección están fuera del rango de la visión humana, el proceso de captura de datos es esquematizado en la Figura 3.1 [1]. En principio, los sistemas de teledetección pueden medir la energı́a que emana la tierra en muchos rangos sensibles de longitud de ondas. Sin embargo, las consideraciones tecnológicas, la opacidad selectiva de la atmósfera terrestre, la dispersión de partı́culas atmosféricas y la importancia de los datos proporcionados excluyen ciertas longitudes de onda. Los mejores rangos utilizados para la recolección de recursos están entre 0.4 - 12 µm (visible e infrarrojo) y entre 30 - 300 mm (rango de microondas). En las longitudes de onda de microondas a menudo es más común utilizar frecuencia en lugar de longitud para describir rangos de importancia. Ası́, el rango de microondas de 30 a 300 mm corresponde a frecuencias entre 1 GHz y 10 GHz. Para la detección remota atmosférica, se encuentran frecuencias en el rango de 20 GHz a 60 GHz. La importancia de estos diferentes rangos radica en el mecanismo de interacción entre la radiación electromagnética y los materiales que se están examinando. En el intervalo visible / infrarrojo la energı́a medida por un sensor depende de propiedades tales como la pigmentación, el contenido de humedad y la estructura celular de la vegetación, los contenidos minerales, de humedad de los suelos y el nivel de sedimentación del agua, en la Figura 3.2 se muestran tres materiales en la superficie terrestre y sus determinadas firmas espectrales [1].. 3.1.1.. Resolución de datos. Cuando hablamos de detección remota usualmente nos referimos a imágenes digitales capturadas por los satélites o plataformas espaciales. Los datos son principalmente descritos por 4 tipos de resolución: espacial, espectral, temporal 26.

(28) Figura 3.1: Flujo de la señal en teledetección [1].. Figura 3.2: Muestreo del espectro electromagnético según los diferentes formatos de imágenes multiespectrales [1].. 27.

(29) y radioeléctrica. Resolución espacial, es la medida de finura del detalle de la imagen. Resolución espectral, representada por la anchura del intervalo de longitud de onda y/o el número de canales espectrales (o bandas) capturados por un sensor. Resolución temporal, cantidad de tiempo que tarda un sensor en volver a visitar la misma zona geográfica. Resolución radiométrica, sensibilidad de un sensor a los valores de brillo [36]. En la Figura 3.3 se muestra los niveles de grises presentes en imágenes multiespectrales: 8 bits (0-255), 10 bits (0-1,023), 11 bits (0-2,047), 12 bits (0-4,095 ) Y 16 bits (0-65.535).. Figura 3.3: Niveles de brillo en imágenes provenientes de satélite. [1]. 3.1.2.. Combinación de bandas e ı́ndices. Para aplicaciones simples tales como delinear los lı́mites del agua superficial, un proceso simple tal como la exhibición de una banda infrarroja cercana o media puede ser suficiente. Las combinaciones algebraicas de ciertas bandas por división, adición, sustracción o multiplicación pueden conducir a una mejor interpretación de la información. Las diferencias en varias bandas se utilizan principalmente para la detección de cambios y estudios de mejora espectral. Las operaciones entre bandas mas habituales incluyen tı́picamente lo siguiente: banda infrarroja sobre roja para distribución de vegetación, banda verde sobre roja para mapear cuerpos de agua de superficie y delineación de humedales, banda roja sobre banda de infrarrojos para el mapeo de aguas turbias y banda roja sobre azul o banda roja sobre verde para cartografı́a mineral [36]. El programa Landsat ha proporcionado el mayor, continuo y completo registro de imágenes multiespectrales. Las bandas del sensor ETM+ tiene utilidad para ciertas aplicaciones ambientales Tabla 3.1.. 3.2.. Segmentación de imágenes. La segmentación es un proceso fundamental en el procesamiento digital de la imágenes, ha encontrado amplias aplicaciones en áreas tales la medicina [29], la compresión, el análisis automático de texto escrito a mano, agricultura [37], desastres naturales [38], entre otros. 28.

(30) Bandas Banda 1 (Azul) Banda 2 (Verde) Banda 3 (Rojo) Banda 4 (Infrarrojo cercano) Banda 5 (Infrarrojo medio) Banda 6 (Infrarrojo térmico) Banda 7 (Infrarrojo medio). Capacidades / Aplicaciones Cuerpos de agua penetrantes; Análisis del uso de la tierra, el suelo y la vegetación Reflectancia verde de la vegetación sana Discriminación vegetal; Delineación del suelo y lı́mites geológicos Identificación de cultivos; Destaca los contrastes suelo-cultivo y agua-tierra Estudios de sequı́a; Discriminación entre las nubes, la nieve y el hielo Localización de la actividad geotérmica; Análisis del estrés de la vegetación; Estudios de humedad del suelo; Detección de islas térmicas urbanas Discriminación de las formaciones geológicas. Tabla 3.1: Capacidades y aplicaciones de ETM + bandas espectrales. Se han propuesto numerosos algoritmos que utilizan diferentes enfoques para la segmentación de imágenes, algunos incluyen la detección de bordes locales, curvas deformables, regiones morfológicas, optimización global de las funciones de energı́a, los métodos basados en modelos estocásticos, entre otros. Algunos métodos basados en la intensidad como el de umbrales y de histograma basado en modelos de mezcla finita son fáciles de formular. Sin embargo a menudo logran objetos con poco contraste o imágenes con ruido de diferentes antecedentes [3]. Las técnicas de segmentación de imágenes, son clasificadas de la forma en que abordan el problema [2], esto se muestra en la Figura 3.4 .. Figura 3.4: Técnicas de segmentación de imágenes [2].. 3.2.1.. Clasificación. El principio de clasificación se puede describir como sigue: cualquier pı́xel individual o agrupados especialmente en conjuntos que representan alguna clase o material, se caracteriza por una serie (generalmente pequeña) de números digitales para cada banda monitorizada por el sensor remoto, estos se analizan estadı́sticamente para determinar su grado de singularidad en el espacio espectral y una función matemática es elegida para discriminar las agrupaciones resultantes [3]. 29.

(31) En la clasificación no supervisada, el objetivo es agrupar patrones en grupos que son estadı́sticamente separables, siendo más estudiados los métodos de partición (clustering), entre ellos se encuentra el fuzzy clustering que tienen como objeto agrupar regiones de cobertura terrestre [39, 3], por ejemplo tres bandas, se puede establecer un clúster que está separado de una combinación en un rango especificado para otro grupo (y ası́ sucesivamente), ver la Figura 3.5b. Por otro lado, los métodos de clasificación supervisada utilizan datos de entrenamiento, como es esquematizado en Figura 3.5a [3]. Data Clasificada . Selección de muestras para entrenamiento por cada clase. División de los datos usando técnicas de clustering k. k. . Cálculo de descriptores estáticos. . Ordenar la data dentro de subgrupos No. . . No. Asignación de nombres a los grupos. Satisfactorio. . Si . Satisfactorio. Clasificación dentro de las clases definidas. . . Si. (b). (a). Figura 3.5: a) Modelo de clustering supervisado [3]. b) Modelo de clustering no supervisado [3]. Terminologı́a Un conjunto de objetos es denotado por X = {x1 , x2 , ..., xn }, donde x1 , x2 , ..., xn son vectores reales p-dimensionales en el espacio Rp , que representa un objeto [40]. Disimilitud, esta cualidad es simétrica con respecto a dos argumentos, como se muestra en Ecuación (3.1) 0. 0. D(x, x ) = D(x , x),. 0. ∀x, x ∈ X. (3.1). Con una medida de similitud podemos decir que un objeto es cercano, si el 0 valor de D(x, x ) es pequeño, por otro lado diremos que es distante, si el valor 0 de D(x, x ) es grande, asumiremos que x es el mas cercano a si mismo Ecuación (3.2): 0. D(x, x) = minx0 ∈X D(x, x ),. (3.2). El clustering implicará un conjunto de pı́xeles pertenecientes a un grupo en concreto, que serán similares. Para cuantificar su proximidad espectral es necesario idear una medida de similitud, muchas han sido propuestas pero las que se utilizan comúnmente en los procedimientos de agrupamiento son generalmente medidas de distancia en el espacio Rp (Distancia Euclidiana y Manhattan) [1]. El concepto de métrica, que es un estándar en mucha de la literatura matemática, m(x, y) es definida en el espacio Rp y satisface: 30.

(32) m(x, y) ≥ 0 y m(x, y) = 0 ⇔ x = y m(x, y) = m(x, y) m(x, y) ≤ m(x, z) + m(z, y) [desigualdad triangular] Distancia Minkowski Tanto la distancia de Manhattan y Euclidiana son casos especiales de la distancia de Minkowski, es señalada en la Ecuación (3.3). dLp (x1 , x2 ) = {. N X. |x1n − x2n |}1/p. (3.3). n=1. Distancia Euclidiana La distancia ordinaria entre dos vectores en el espacio Rp . Es denotada por la Ecuación (3.4). DLp (x1 , x2 ) = {. N X. 1. |x1 − x2 |2 } 2. (3.4). n=1. Un centroide o prototipo de cluster es un vector en el espacio Rp , que esta calculado en función de sus elementos. C-Means Clustering La razón por la que el método de clustering C-Means se ha citado y empleado con tanta frecuencia es su utilidad. Es decir, la idea del clustering C-Means tiene la potencialidad de producir varios otros métodos con el mismo o similar propósito de clasificar el conjunto de datos sin un criterio externo, que se denomina clasificación no supervisada o más simplemente agrupación de datos. Ası́, el clustering es una técnica para generar grupos de datos en los que un grupo denominado cluster, es denso en el sentido de que las diferencias de los objetos dentro del cluster es mı́nima, mientras que una distancia entre los clusters es máxima [40]. La Ecuación (3.5) define función objetivo que se debe minimizar para C-means, esto es reflejado en el Algoritmo 1. J(X, v) =. n X. min1≤i≤c {kxk − vi k2 }. (3.5). k=1. Algoritmo: 1 C-Means Clustering Entrada: xk , k = 1, 2, 3, ..., N representa la data de entrada, vi i = 1, 2, 3, ..., c, representa los centroides. 1: Procedimiento: C-Means 2: Mientras: vj∗ = vj , i = 1, 2, 3, ..., c hacer; 3: kxj − vi kandkxj − vp k, p ∈ 1, 2, 3, ..., c 4: Si: kxj − vi k ≤ kxj − vp k, p ∈ 1, 2, 3, ..., c hacer 5: xj ∈ Gi P 6: vi = G1i xk ∈Gi xk. 31.

(33) 3.3.. Conclusión. La segmentación de imágenes es un paso primordial en cualquier aplicación en teledeteccion, sin embargo, es necesario saber que aun existen múltiples problemas (influencia de inhomogeneidad, volumen de datos, separación estadı́stica, entro otros) que hacen de la segmentación un tema abierto a la investigación.. 32.

(34) Capı́tulo 4 Fuzzy clustering El enfoque fuzzy aplicado al clustering es capaz de producir muchos métodos y algoritmos, aunque el sistema difuso no tiene una estructura matemática compleja, la razón por la que el enfoque difuso tiene esta capacidad es su caracterı́stica inherente de vincular diferentes metodologı́as, incluidos modelos estadı́sticos, aprendizaje automático y varias otras heurı́sticas. En este capitulo se estudian las caracterı́sticas básicas del fuzzy clustering.. 4.1.. Álgebra de conjuntos. Dado un conjunto de datos X, que contiene x elementos, podemos escribir x ∈ X. Las conectivas lógicas “implica”, “es implicado” y “si y solo si” son denotadas respectivamente por ⇒, ⇐ y ⇔. El álgebra de conjuntos del conjunto potencia P (X) de X, es decir del conjunto de subconjuntos (duros) de X, se formula en términos de algunas operaciones y relaciones familiares: dado A, B ∈ P (X) [41]. inclusion :. A⊂B⇔x∈A⇒x∈B. (4.1). igualdad :. A=B⇔A⊂B yB⊂A. (4.2). complemento : interseccion : union :. A = {x ∈ X|x ∈ / A} = X − A A ∩ B = {x ∈ X|X ∈ A y x ∈ B}. A ∪ B = {x ∈ X|X ∈ A o x ∈ B o en ambos }. (4.3) (4.4) (4.5). La quintuplica de operaciones primarias son exhibidas en las Ecuaciones (4.1) a (4.5), se pueden erigir diferentes estructuras algebraicas exigiendo un comportamiento estipulado para diversas combinaciones de estas operaciones aplicadas a elementos de P (X), o más generalmente, a elementos de cualquier familia F (X) de subconjuntos de X, subsecuentemente, asumiremos que la cardinalidad de X es finita, dada por el numero de elementos en X, indicada por |X| = n. La familia de P (X) satisface tres propiedades [41]: ∅ ⊂ P (X) 33. (4.6).

(35) A ∈ P (X) → A ∈ P (X). (4.7). A, B ∈ P (X) → A ∪ B ∈ P (X). (4.8). Las leyes de Morgan son derivadas de las Ecuaciones (4.14) y (4.15). e∩B e Ag ∪B =A. (4.9). e∪B e Ag ∩B =A. (4.10). Para todo elemento A, B ∈ P (X). se presenta una generalización de las Ecuaciones (4.9) y (4.10).. 4.2.. gAi = ∩n A f ∪ni=1 i=1 i. (4.11). gAi = ∪ni=1 A fi ∩ni=1. (4.12). Partición Fuzzy del Espacio. Si X es u conjunto finito, decimos X = {x1 , x2 , ..., xn } la generalización de las ecuaciones de unión e intersección para todo los c “subconjuntos duros” de X Ecuación (4.13), donde c es un entero, 2 ≤ c ≤ n. Ası́ una familia {Ai : 1 ≤ i ≤ c} ⊂ P (X) es una partición dura de X [41]. ∪ci=1 Ai = X Ai ∩ Aj = ∅,. 1 ≤ i 6= j ≤ c. (4.14). 1≤i≤c. (4.15). ∅ ⊂ Ai ⊂ X,. 4.3.. (4.13). Fuzzy C-Means (FCM). El algoritmo Dunn y Bezdek ha sido llamado el método estándar de clustering fuzzy, en esta sección se describe su funcionamiento y las estructuras que son necesarias, esto está regido por la Ecuación (4.16) [41]. Jf cm (U, V ) =. c X n X. (uji )m kxj , vi k,. i=1 j=1. donde: m es el valor fuzzificador, usualmente 2, c es el número de clusters, xj es el pixel ∈ Xkn , 34. (m > 1).. (4.16).

(36) Xkn , k = |bandas| y espectrales,. n = |pixeles|, Xjk son los datos de imagen multi-. kxj − vi k Es generalmente la distancia euclı́dea entre el centroide vi = (vi1 , vi2 , ..., vic ) y xj = (xj1 , xj2 , ..., xjk ), j = 1, 2, 3, ..., n ∈ Xnk , P uji ∈ [0, 1], 1 ≤ j ≤ n, P 1 ≤ i ≤ c, es el grado de pertenencia ci=1 uji = 1, j = 1, 2, 3, ..., n , 0< nj=1 uji <n, i = 1, 2, 3, ..., c. Con el fin de medir la convergencia de los resultados, se puede usar uno de los siguientes criterios. Un muy pequeño numero positivo ε, para juzgar que la solución U es convergente, para esto se usa la Ecuación (4.17). maxk,i |uki − ûki | < ε. (4.17). donde: • U es la nueva solución. • Û es la anterior solución. Un pequeño valor positivo ε, que juzgue si la solución es convergente para los centroides V , con este fin usamos la Ecuación (4.17). max1≤i≤c kv i − v̂i k < ε. (4.18). donde: • V es la nueva solución. • V̂ es la anterior solución. El Algoritmo 2, integra tanto la minimización de la ecuación objetivo como la evaluación de la convergencia de resultados, en este caso se optó por el análisis del factor fuzzy relacionado a cada pixel.. 35.

(37) Algoritmo: 2 Fuzzy C-Means (FCM) Entrada: c > 1 numero de clusters, xpj ∈ X, j = 1, 2, 3, ..., N donde X es imagen multidimensional, xpj = (x1j , x2j , x3j , ..., xpj ) ∈ Rp , ε < 0 representa el error. Garantizar: U = [uij ] 1 ≤ i ≤ c, 1 ≤ j ≤ n c X. uij = 1,. j = 1, 2, 3, ..., n.. i=1. 1: 2: 3:. Procedimiento: FCM Mientras: |max(Uijlast ) − max(Uijnew )| < ε hacer; [Buscar U optimo] Calcular. U = argU ∈ Uf minJf cm (U, V ) 1. uij = Pc. . j=1. 4:. kxk −vi k kxk −vj k. 1 ≤ i ≤ c, 1 ≤ k ≤ N. , 2 (m−1). [Buscar V optimo] Calcular V = argV minJf cm (U , V ) PN m j=1 (uij ) xj vi = PN , 1≤i≤c m (u ) ij j=1. 4.4.. Propuesta de Genitha, C Heltin y Vani, K (2013). El modelo que es propuesto en [27] tiene en cuenta los pasos abasicos propuestos en FCM, ademas integra un nuevo termino que busca incrementar la estabilidad del algoritmo. el objetivo es minimizar la distancia intracluster y maximizar la extracluster, la Ecuacion (4.19) presenta la función objetivo a minimizar. JN ew =. c X n X. um ij kxij. 2. − ci k +. i=1 j=1. n X j=1. εj. c X. (uij − 1). (4.19). i=1. El Algoritmo 3 presenta el conjunto de pasos destinados a minimizar la función objetivo, propuesta para el algoritmo NFCC.. 36.

(38) Algoritmo: 3 New Fuzzy Cluster Centroid (NFCC) Entrada: c > 1 numero de clusters, xpj ∈ X, j = 1, 2, 3, ..., n donde X es imagen multidimensional, xpj = (x1j , x2j , x3j , ..., xpj ) ∈ Rp , ε < 0 representa el error. Garantizar: U = [uij ] 1 ≤ i ≤ c, 1 ≤ j ≤ n c X uij = 1, j = 1, 2, 3, ..., n. i=1. 1: 2: 3:. Procedimiento: NFCC Mientras: |max(Uijanterior ) − max(Uijnuevo )| < ε hacer; Calcular centroides. ci =. c X. u Pn ij k=1. j=1. 4:. xj ,. j = 1, 2, 3, ..., n.. Actualizamos el multiplicador de Lagrange.  εj = . c X. kxj − ci k2 m. i=1. 5:. um ik. c X. !1/(1−m) (1−m) um−1 ij. . i=1. Actualizamos el grado de pertenencia. uij =. 1/(1−m) εj. kxj − ci k2 m. c X. !1/(1−m) um−1 ij. i=1. 4.5.. Conclusiones. El fuzzy clustering es la generalización del hard clustering, presenta como principal ventaja la aplicacion de la teoria de pertenencia fuzzy de objetos, lo cual nos brinda la posibilidad de realizar una caracterización variable de los objetos. Es necesario tener en cuenta que el fuzzy clustering presenta desventajas como la influencia de valores atı́picos dentro de los datos, esto hacer que la convergencia de los algoritmos sea errónea, esto es debido principalmente a que la teorı́a fuzzy no considera la información espacial.. 37.

(39) Capı́tulo 5 Propuestas En esta sección se describe los algoritmos propuestos son variantes del algoritmo NFCC, que presenta una mejora significativa con relación a otros algoritmos presentes en el estado del arte, estas propuestas son estudiadas en las Secciones 5.1 y 5.2 respectivamente.. 5.1.. New Fuzzy Cluster Centroid Modified (NFCCM). Este modelo está basado en el NFCC (New Fuzzy Cluster Centroid) propuesto por C. Genin y Dr.K.Vani [27], que añade un término entre el pı́xel y el centroide, la modificación incorpora información espacial, para esto utilizamos la probabilidad de los pixeles en cada banda de la imagen multiespectral. La función objetivo a minimizar se muestra en la Ecuación (5.1). JN F CCM =. c X n X. um ij kxj. 2. − vi k +. i=1 j=1. n X. P (xj ). j=1. c X. (uij − 1),. (5.1). i=1. donde: m es el valor fuzzificador, xj es el pixel ∈ X, kxj − vi k Es generalmente la distancia euclı́dea entre el centroide vi = (vi1 , vi2 , ..., vic ) y xj = (xj1 , xj2 , ..., xjk ), j = 1, 2, 3, ..., n ∈ Xnk Xkn , k = |bandas| y espectrales,. n = |pixeles|, Xjk son los datos de imagen multi-. P (xj ) es la probabilidad para el pixel xjk ∈ Xjk , uji ∈ [0, 1], 1 ≤ j ≤ n, P 1 ≤ i ≤ c, es el grado de pertenencia 1, j = 1, 2, 3, ..., n , 0< nj=1 uji <n, i = 1, 2, 3, ..., c.. Pc. i=1. uji =. Una imagen multiespectral tiene múltiples matrices, cada matriz contiene información sobre el área de estudio. Sin embargo, es necesario concatenar toda la información en una sola matriz que contenga todos los pixeles y estos los valores que presentan en cada banda, una representación para una imagen hipotética de dimensiones (5 x 5 pixeles y 5 bandas) es mostrada en forma de superficie 3D, 38.

(40) de modo que en el eje x se encuentran representados los 25 pixeles, en el eje z se representa los valores de profundidad (bandas) y en el eje y se encuentran los valores respectivos para el nivel de gris del pixel, ver Figura 5.1.. 6 4 2 4 10. 2. 20. Figura 5.1: Matriz multiespectral de 5x5 pixeles y 5 valores de profundidad, ordenados en una única matriz.. 5.1.1.. Obtención de la probabilidad del pixel en cada banda. En esta modificación integramos la probabilidad de cada pixel, con el objetivo de introducir información espacial en el modelo, para esto calculamos p(xja , Xna ), donde, xja representa el valor del pixel j en la banda a y Xna contiene los valores de la imagen multiespectral para la capa a, para esto usamos la Ecuación (5.2). P|xja ∈Xja | p(xja , Xna ) =. i=1. P|Xna | i=1. 1. 1. .. (5.2). La probabilidad es calculada para cada valor del pixel con referencia a cada una de las bandas, es esquematizado en el eje y en la Figura 5.2.. 39.