• No se han encontrado resultados

Reconocimiento de patrones en imagenes no dermatoscopicas para la detección de enfermedades malignas en la piel, utilizando Redes Neuronales Convolutivas y Autocodificadores

N/A
N/A
Protected

Academic year: 2020

Share "Reconocimiento de patrones en imagenes no dermatoscopicas para la detección de enfermedades malignas en la piel, utilizando Redes Neuronales Convolutivas y Autocodificadores"

Copied!
107
0
0

Texto completo

(1)UNIVERSIDAD NACIONAL DE SAN AGUSTÍN ESCUELA DE POSGRADO UNIDAD DE POSGRADO DE LA FACULTAD DE INGENIERÍA DE PRODUCCIÓN Y SERVICIOS. «RECONOCIMIENTO DE PATRONES EN IMAGENES NO DERMATOSCOPICAS PARA LA DETECCIÓN DE ENFERMEDADES MALIGNAS EN LA PIEL, UTILIZANDO REDES NEURONALES CONVOLUTIVAS Y AUTOCODIFICADORES» Tesis presentada por el Bachiller Ricardo Rildo Coronado Pérez, Para la obtención del grado de Maestro en Ciencias: Informática con mención en Tecnologías de Información Asesor: Mg. Alexander Victor Ocsa Mamani. A REQUIPA - P ERÚ 2018.

(2)

(3) A GRADECIMIENTOS. En primer lugar, agradezco a mi asesor el Mg. Alexander Victor Ocsa Mamani por su orientación, dedicación y motivación para profundizar en el área de aprendizaje de máquina y reconocimiento de patrones. Al Dr. Cristian Lopez del Alamo y Dr. Cesar Beltran Castañon por sus consejos y a todos mis compañeros por su apoyo incondicional y amistad. A mi familia y amigos que son mi motivación. A mis padres que gracias a su apoyo, consejos, comprensión y ayuda en los momentos más difíciles de mi vida, han inculcado en mí valores, principios y enseñanzas para ser perseverante y empeñoso hasta conseguir mis metas. Al Consejo Nacional de Ciencia, Tecnología e Innovación Tecnológica (CONCYTEC) y CIENCIACTIVA por el apoyo y financiamiento del presente trabajo. A todos mis profesores de la Universidad Nacional de San Agustín, al Centro de investigación, Transferencia de tecnologías y Desarrollo de Software (CiTeSoft) y finalmente a todas las personas que directa o indirectamente proporcionaron los conocimientos necesarios y contribuyeron en finalizar este trabajo de investigación.. II.

(4) R ESUMEN. ño tras año, el número de personas que padecen algún tipo de enfermedad en la piel se incrementa debido a factores climatológicos y sociales. Del total de estos, algunos llegan a ser diagnosticados como cáncer y en otros casos las personas llegan a convivir por años con la enfermedad sin recibir una diagnosis apropiada. En la actualidad, el cáncer de piel puede ser detectada con precisión mediante el análisis clínico y procesos invasivos como la biopsia de piel. Sin embargo, el diagnóstico de esta enfermedad no asegura la supervivencia del paciente, ya que muchas veces es detectada en fases terminales. Solo el diagnóstico oportuno, puede incrementar la esperanza de vida de un paciente. Esta investigación, busca desarrollar y proponer un método para el reconocimiento de lesiones en la piel y así lograr identificar lesiones malignas en imágenes nodermatoscópicas. Para el método propuesto, se utilizó Redes Neuronales Convolutivas y se puso a prueba la eficiencia de los autocodificadores como método de clasificación. En los experimentos realizados, se logró replicar los resultados obtenidos con procedimientos convencionales, y se demuestra que el método propuesto cumple su función como método alternativo de clasificación, además de alcanzar un alto desempeño en el reconocimiento de enfermedades malignas con clases desbalanceadas. Adicionalmente, se recolectaron imágenes de enfermedades en la piel debidamente etiquetadas y se desarrolló un nuevo conjunto de datos para demostrar las ventajas del método propuesto.. A. Palabras Clave: Cáncer de Piel, Redes Neuronales Convolutivas, Autocodificadores, Reconocimiento de Patrones, Clasificación de Imágenes.. III.

(5) A BSTRACT. very year, the number of people affected by skin diseases increases and many of these cases are diagnosed as Cancer. Currently, this can only be detected accurately through clinical analysis and invasive processes such as skin biopsy. However, the diagnosis of this malignant disease does not ensure the survival of the patient, since many clinical cases are detected in the terminal phases. Only timely diagnosis can increase the life expectancy of a patient. This research seeks to develop and propose a method for the recognition of skin lesions and thus to identify malignant lesions in non-dermatoscopic images. For the proposed method, we use Convergence Neural Networks and we test the efficiency of auto-encoders as a classification method. In the experiments carried out, the results obtained with conventional methods were replicated and it is shown that the proposed method fulfills its function as an alternative method of classification, in addition to having a high performance in the recognition of malignant diseases with unbalanced classes. Additionally, images of skin diseases properly labeled were collected and a new data set was developed to demonstrate the advantages of the proposed method.. E. Keywords: Skin Cancer, Convolutional Neural Networks, Autoencoders, Pattern Recognition, Image Classification.. IV.

(6)

(7) Í NDICE G ENERAL. Página Índice de tablas. IX. Índice de figuras. X. 1. Introducción. 1. 1.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. Definición del Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.3. Relevancia del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 1.4. Objetivos de la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 1.4.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 1.4.2. Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 1.5. Principales Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 1.6. Organización del trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 2. Conceptos Previos. 9. 2.1. 9. 2.2. Aprendizaje de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1. Máquinas Inteligentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10. 2.1.2. Mecanismos del aprendizaje de máquina . . . . . . . . . . . . . . . . . 10. Redes Neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2.1. Neurona y Red de Neuronas . . . . . . . . . . . . . . . . . . . . . . . . 14. 2.2.2. Funciones de activación - Sigmoidales, Tanh y ReLU . . . . . . . . . 15. 2.2.3. Capa de salida Softmax . . . . . . . . . . . . . . . . . . . . . . . . . . . 17. VI.

(8) 2.2.4 2.3. 2.4. 3. Redes Neuronales Convolutivas (CNN) . . . . . . . . . . . . . . . . . . . . . . 19 2.3.1. Convoluciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20. 2.3.2. Agrupación Máxima o Max Pooling . . . . . . . . . . . . . . . . . . . . 25. Autocodificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.4.1. Compresión de data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27. 2.4.2. Autocodificador para inicializar métodos . . . . . . . . . . . . . . . . . 29. Trabajos Relacionados 3.1. 3.2. 4. Sobre aprendizaje y Bajo aprendizaje . . . . . . . . . . . . . . . . . . . 18. 31. Extracción de características . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.1.1. Métodos basado en análisis clínico . . . . . . . . . . . . . . . . . . . . . 32. 3.1.2. Métodos basados en pre-procesamiento de la data . . . . . . . . . . . 33. 3.1.3. Método basado en Agrupamiento Espacial Circular (SCP) . . . . . . 37. 3.1.4. Método basado en Redes Neuronales Convolutivas (CNN) . . . . . . 39. Clasificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.2.1. Algoritmo basado en Maquinas de Soporte Vectorial (SVM) . . . . . . 41. 3.2.2. Método basado en Redes Neuronales . . . . . . . . . . . . . . . . . . . 42. 3.2.3. Método basado en Autocodificadores . . . . . . . . . . . . . . . . . . . 43. Propuesta 4.1. 4.2. 46. Conjuntos de base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.1.1. Conjuntos de datos para validación . . . . . . . . . . . . . . . . . . . . 47. 4.1.2. Conjuntos de datos ISIC . . . . . . . . . . . . . . . . . . . . . . . . . . . 47. 4.1.3. Elaboración de nuestro conjunto de datos . . . . . . . . . . . . . . . . 49. Método Propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.2.1. Diagrama del Método Propuesto . . . . . . . . . . . . . . . . . . . . . . 53. 4.2.2. Selección de la arquitectura de la red . . . . . . . . . . . . . . . . . . . 53. 4.2.3. Pre-entrenamiento de la Red Convolutiva . . . . . . . . . . . . . . . . 55. 4.2.4. Extractor de características . . . . . . . . . . . . . . . . . . . . . . . . . 57. VII.

(9) 4.2.5 4.3 5. 6. 7. Clasificación con autocodificadores . . . . . . . . . . . . . . . . . . . . 59. Criterios de Evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62. Experimentos. 65. 5.1. Aspectos preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65. 5.2. Validación del Método Propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . 66. 5.3. Experimento Final . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68. 5.4. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71. Conclusiones Finales. 75. 6.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75. 6.2. Principales Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77. 6.3. Trabajos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77. Anexos 7.1. 79. Publicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79. VIII.

(10) Í NDICE DE TABLAS. TABLAS. Página. 4.1. Base de datos modificada ISIC-ISBI . . . . . . . . . . . . . . . . . . . . . . . . . . 49. 4.2. Conjunto de datos de enfermedades de la piel . . . . . . . . . . . . . . . . . . . . 50. 5.1. Comparación de resultados de clasificación para CNN y CNN-AE . . . . . . . . 67. 5.2. Métodos Propuestos (CNN, CNN-AE) vs ganador del concurso ISBI . . . . . . . 67. 5.3. Resultados de la evaluación de nuestro conjunto de datos . . . . . . . . . . . . . 71. IX.

(11) Í NDICE DE FIGURAS. F IGURAS. Página. 2.1. Línea de tiempo de la inteligencia artificial . . . . . . . . . . . . . . . . . . . . . . 11. 2.2. Vectorización de una imagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11. 2.3. Clasificador lineal de dos clases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13. 2.4. Comportamiento de la función sigmoidal . . . . . . . . . . . . . . . . . . . . . . . 16. 2.5. Comportamiento de la función tanh . . . . . . . . . . . . . . . . . . . . . . . . . . 16. 2.6. Comportamiento de la función ReLU . . . . . . . . . . . . . . . . . . . . . . . . . . 17. 2.7. Recorrido de un filtro en una CNN, la densidad de conexiones se incrementa según el tamaño de la imagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20. 2.8. Capas de una red convolutiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20. 2.9. Proceso de Convolución de una imagen . . . . . . . . . . . . . . . . . . . . . . . . 21. 2.10 Matriz de filtros para detectar lineas horizontales y verticales . . . . . . . . . . 22 2.11 Representación de un filtro y su mapa de características resultante . . . . . . . 23 2.12 Proceso de Convolución de una imagen a color RGB . . . . . . . . . . . . . . . . . 24 2.13 Visualización en 3D del proceso de convolución . . . . . . . . . . . . . . . . . . . . 24 2.14 Reducción de parámetros utilizando agrupación máxima . . . . . . . . . . . . . . 25 2.15 Muestras de datos representadas en un plano 2D . . . . . . . . . . . . . . . . . . 27 2.16 Arquitectura de autocodificador no lineal . . . . . . . . . . . . . . . . . . . . . . . 29 3.1. Variables analizadas para el método ABCD; observamos tres muestras de lesiones por cada variable. Las A con puntuación baja, B con media y C con alta. Esta puntuación mide la probabilidad de que la muestra presente cáncer.. X. 33.

(12) Índice de figuras. 3.2. Pre-procesamiento tradicional de una imagen - (a) Imagen Original. (b) Contraste mejorado. (c) Imagen filtrada . . . . . . . . . . . . . . . . . . . . . . . . . . 34. 3.3. Segmentación de una Imagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35. 3.4. Segmentación una imagen, mediante el análisis de texturas . . . . . . . . . . . . 35. 3.5. Análisis de Texturas con Aprendizaje Profundo . . . . . . . . . . . . . . . . . . . 36. 3.6. Aproximacion Spatial Pyramid Matching (SPM) . . . . . . . . . . . . . . . . . . . 38. 3.7. Spacial Circular Pooling (SCP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38. 3.8. Red Neuronal Convolutiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40. 3.9. Diagrama de inicialización de pesos con Autocodificadores . . . . . . . . . . . . . 44. 3.10 Aprendizaje de características no supervisado . . . . . . . . . . . . . . . . . . . . 44 3.11 Clasificación con Autocodificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.1. Bases de datos secundarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48. 4.2. Muestras de Base de datos ISIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48. 4.3. Muestra del conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51. 4.4. Muestra del conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52. 4.5. Diagrama del método propuesto para la detección del cáncer de piel . . . . . . . 53. 4.6. Arquitectura de la Red Convolutiva, VGG19 . . . . . . . . . . . . . . . . . . . . . 55. 4.7. Extractor de características de la red convolutiva . . . . . . . . . . . . . . . . . . 59. 4.8. Arquitectura del Auto-codificador base . . . . . . . . . . . . . . . . . . . . . . . . . 60. 4.9. Se construye un Autocodificador por clase para la fase de clasificación . . . . . . 62. 4.10 Sensibilidad y Especificidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 5.1. Matriz de confusión de CNN-3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69. 5.2. Matriz de confusión CNN-AE-11 y CNN-AE-11/3 . . . . . . . . . . . . . . . . . . 70. 5.3. Clasificación con auto-codificadores, dispersión de los datos . . . . . . . . . . . . 73. XI.

(13) CAPÍTULO. 1. I NTRODUCCIÓN. En este capitulo introductorio, se habla de la motivación que da lugar al desarrollo de esta investigación, se detallan los problemas a tratar, se expone la relevancia e importancia del problema y finalmente se definen los objetivos de la investigación.. 1.1. Motivación. El avance tecnológico en el área de computación gráfica ha presentado un crecimiento exponencial en los últimos años, realidad que ha motivado a investigadores de diferentes áreas del conocimiento a desarrollar publicaciones, proyectos e investigaciones aplicadas que utilizan computadores de alto desempeño, a la vez se ha implementado software especializado en realizar tareas de aprendizaje de máquina y algoritmos optimizados que trabajan con múltiples procesos en paralelo, propiciando el desarrollo de servicios multiplataforma para resolver problemas cotidianos, como se puede observar en la página. 1.

(14) CAPÍTULO 1. INTRODUCCIÓN. oficial de investigaciones de Corporate Social Responsibility - NVIDEA1 . A su vez, las necesidades del consumidor o usuarios final se vuelven cada vez mas exigentes, solicitando directa o indirectamente servicios para optimizar el desarrollo de sus actividades diarias y mejorar su calidad vida. La mejora tecnológica ha propiciado que problemas de distinta índole puedan resolverse de manera efectiva, precisa y rápida. Sin embargo aun existen problemas que son un reto para los investigadores, entre los mas controversiales se encuentran los relacionados con las afecciones en el cuerpo humano. Es así, que en esta investigación abordaremos el estudio de algunos tipos de lesiones benignas y malignas en la piel con alta probabilidad de convertirse en Cáncer. Esta enfermedad es considerada de alto riesgo, debido al desgaste del tejido por la sobre-exposición a los rayos ultravioleta, razón que incrementa el número de casos en todo el mundo. Específicamente en el Perú, algunas épocas del año han registrado mediciones alarmantes de el Índice de Radiación Ultravioleta (IRUV), alcanzando entre 15 a 20 puntos sobre una escala que tiene como media 10 puntos, que ya es considerada de riesgo, así lo indica el diario La República2 , sumado a esto cada cierto tiempo el Perú es propenso a la presencia del fenómeno del Niño, que eleva la temperatura del mar en la costa y produce sequías en las zonas altas, ocasionando la falta de lluvias y la ausencia de nubes que son responsables de reducir el IRUV. En un ámbito regional, uno de las departamentos del Perú más afectadas por estos cambios climáticos es Arequipa, que según la red de EsSalud y Liga de Lucha Contra el Cáncer, el cáncer de piel ocupa el primer lugar entre las enfermedades neoplásicas, representando el 55.36 %, y el tercer puesto a nivel nacional, 1 2. https://www.nvidia.com/en-us/research/ https://goo.gl/p7SoTZ. 2.

(15) CAPÍTULO 1. INTRODUCCIÓN. según el jefe del servicio de dermatología del hospital nacional Carlos Alberto Seguín Escobedo3 . En la actualidad, la detección y diagnóstico del cáncer de piel solo se realiza mediante el análisis clínico, siendo el mejor método utilizado, el ABCD Nachbar et al. (1994); JD and JM (1998). Dicho procedimiento analiza la morfología de la lesión y su evolución. Sin embargo, este requiere de un procedimiento manual y un alto nivel de competencia y experiencia. Es decir que una precisa diagnosis está directamente relacionada con la práctica y habilidad del especialista. Para garantizar la precisión de este diagnóstico, algunos investigadores en el área de reconocimiento de patrones, proponen métodos asistidos por computador basados en estadísticas, identificación de patrones, aprendizaje de máquina, entre otros, Jafari et al. (2016); Barata et al. (2013); Kawahara et al. (2016); Fornaciali et al. (2014). Según el estado del arte, algunas investigaciones alcanzan buenos resultados detectando y clasificando lesiones benignas y malignas, como se detalla en el Capitulo 3. Sin embargo, estos resultados podrían ser inconclusos en escenarios reales debido a la correlación existente entre enfermedades de distintos tipos, es común hallar casos de lesiones benignas que con el tiempo evolucionan a malignas. Consideramos, que conocer el tipo de la enfermedad y no solo su clase, proveería mayor información a un especialista para que pueda realizar un diagnóstico preciso. Adicionalmente, en la mayoría de las investigaciones los conjuntos de datos analizados son construidos de imágenes dermatoscópicas, este tipo de muestras son inaccesibles para personas que no tienen al alcance dermatoscopios. Es de gran importancia incrementar la accesibilidad de este tipo de tecnologías a la población afectada. Es así que para esta investigación se ha construido un conjunto de datos con 3. https://goo.gl/FbGgcu. 3.

(16) CAPÍTULO 1. INTRODUCCIÓN. imágenes no-dermatoscópicas, etiquetados en 3 clases y 11 sub-clases para realizar los experimentos necesarios. Muchos métodos y modelos matemáticos fueron utilizados para resolver este problema, pero actualmente los mejores resultados se han obtenido con Redes Neuronales Convolutivas (CNN), como se demuestra en Fornaciali et al. (2016); Nasr-Esfahani et al. (2016). En esta investigación, se utiliza una CNN con la arquitectura VGG-19 como en Menegola et al. (2017), pero adicionalmente se propuso el uso de autocodificadores (AEs) como método de clasificación, en lugar de utilizar redes neuronales totalmente conectadas (MLP). Se validó el método propuesto con conjuntos de datos conocidos como MNIST, CIFAR-10, SVHN, ISBI y finalmente se utilizó el conjunto de datos objetivo. La principal contribución de este trabajo es el uso de autocodificadores como método de clasificación, para identificar el tipo de la enfermedad a la que pertenece una muestra. Los resultados obtenidos clasifican las muestras en enfermedades benignas, pre-malignas y malignas.. 1.2. Definición del Problema. El desbalance y la escasez de los datos: Cuando las muestras de una clase de un conjunto de datos es significativamente menor en comparación con las demás clases se produce un desbalance, esta puede presentarse por dos situaciones: 1) Cuando el desequilibrio de la clase es un problema intrínseco, una clase naturalmente desbalanceada puede estar presente en conjuntos de datos de enfermedades raras. 2) Otras dificultades en la adquisición de muestras para el aprendizaje de la clase minoritaria son el costo, la confidencialidad de los datos y el tremendo esfuerzo por encontrar conjuntos de datos confiables. Normalmente procesar datos desbalancea-. 4.

(17) CAPÍTULO 1. INTRODUCCIÓN. dos implica una serie de dificultades en el aprendizaje, como el tamaño de la muestra de entrenamiento y la superposición de clases, Ali et al. (2013).. El tratamiento de los datos (pre-procesamiento): El diagnóstico del cáncer de piel, por si solo es un reto. Agregar una etapa de pre-procesamiento o manipulación de las muestras puede ser considerado de riesgo para el resultado final. Aunque el tratamiento de imágenes ha propiciado el desarrollo de modelos computacionales capaces de diagnosticar casos de enfermedades malignas con una precisión mejor que la obtenida por el análisis clínico, se cometen algunos fallos en la manipulación de los datos. Por esta razón, se prefiere evitar las segmentaciones de la lesión y el pre-procesamiento complejo, ya que estas son las etapas donde los errores pueden presentarse (por ejemplo, segmentaciones mal realizadas, dan como producto características pobres) siendo necesaria la intervención subjetiva del experto, Kawahara et al. (2016).. La naturaleza confusa de los datos: El diagnóstico preciso de las enfermedades malignas en la piel presentan sus propias dificultades, por la naturaleza de la enfermedad y por las características o propiedades de las muestras. Es decir que, la existencia de distintas enfermedades en la piel dificultan un diagnostico preciso; algunas veces lesiones benignas son confundidas con malignas, y a su vez algunas lesiones malignas que comparten ciertas características morfológicas con otras enfermedades que son consideradas comunes, son confundidas con lesiones benignas, poniendo en riesgo la vida del paciente. Por esta razón, una variedad de pistas visuales son utilizadas para su diagnóstico, como se muestra en la investigación de Nachbar et al. (1994).. 5.

(18) CAPÍTULO 1. INTRODUCCIÓN. 1.3. Relevancia del problema. El análisis clínico y la biopsia, son las únicas pruebas concluyentes que pueden diagnosticar el cáncer de piel, sin embargo se desarrollan métodos asistidos por computador para incrementar la precisión del diagnóstico. Organizaciones como "The International Society for Digital Imaging of the Skin" (ISDIS 4 ) conformada por dermatólogos y científicos de los Estados Unidos, impulsan la investigación y el desarrollo de nuevas tecnologías enfocadas a la Telemedicina. La mayor parte de tecnologías y métodos desarrollados para lidiar con esta enfermedad, están orientadas a un publico muy reducido, como lo son investigadores, académicos y especialistas. Si bien es cierto, estos aportan conocimiento para la mejora de estas herramientas, algunos investigadores descuidan al paciente y solo se enfocan en la enfermedad. Esta demostrado que el diagnóstico precoz de esta enfermedad incrementa la probabilidad de supervivencia de los pacientes afectados, Zaballos et al. (2004). solo desarrollar técnicas orientadas a la detección no garantizan el bienestar de los pacientes, es necesario el desarrollo de métodos orientados a la prevención, al alcance de personas de distintos estratos sociales y académicos. Es por eso que, el desarrollo de un método de reconocimiento de patrones en imágenes no dermatoscópicas que están al alcance del público en general es de importancia, para lograr reducir el número de casos de cáncer de piel en etapas terminales, y así incentivar a las personas en tomar medidas preventivas. 4. https://isic-archive.com/. 6.

(19) CAPÍTULO 1. INTRODUCCIÓN. 1.4. Objetivos de la investigación. 1.4.1. Objetivo general. Desarrollar un método de procesamiento de imágenes no dermatoscópicas, basado en redes convolutivas y autocodificadores, para la detección del cáncer de piel.. 1.4.2. Objetivos específicos. • Construir un repositorio de imágenes con casos de enfermedades de piel, categorizadas en benignas pre-malignas y malignas, a partir de fuentes de datos públicos, con la supervisión de un especialista.. • Desarrollar un método para la extracción de características basado en redes neuronales convolutivas y un método de clasificación de imágenes basado en autocodificadores.. • Evaluar y comparar el método de clasificación propuesto con el mejor método de clasificación de imágenes encontrado en el estado del arte y validar el método con otros conjuntos de datos públicos.. 1.5. Principales Contribuciones. Las principales contribuciones del presente trabajo son las siguientes:. • Se construyó y publicó un repositorio de imágenes no dermatoscópicas. Se implementaron técnicas de aprendizaje profundo y métodos de clasificación como los descritos en el Capitulo 3.. 7.

(20) CAPÍTULO 1. INTRODUCCIÓN. • Se realizó la integración de Redes Neuronales Convolutivas con auto-codificadores, aplicando principios de trasferencia de aprendizaje (transfer learning) y afinamiento de una red (fine tunning), esta integración es descrita en el Capítulo 4.. • Se hicieron publicaciones en revistas indexadas relacionadas al área de reconocimiento de patrones y deep learning.. • Finalmente se propone un nuevo método para la detección del cáncer de piel en imágenes no dermatoscópicas basado en algoritmos de aprendizaje profundo. Método que podría dar lugar al desarrollo de un aplicativo al alcance del publico en general, y ayudar en la prevención de esta enfermedad.. 1.6. Organización del trabajo. El presente trabajo está organizado de la siguiente manera:. • En el Capítulo 2 se describe la terminología básica y los conceptos preliminares necesarios para la compresión de este trabajo.. • En el Capítulo 3 se describen los principales trabajos relacionados al problema de investigación.. • En el Capítulo 4 se describe la propuesta de trabajo, las técnicas y métodos utilizados.. • En el Capítulo 5, se describen los experimentos y resultados obtenidos.. • Y finalmente en el Capítulo 6, se enumeran las conclusiones de la investigación.. 8.

(21) CAPÍTULO. 2. C ONCEPTOS P REVIOS. En este capítulo se abordan los conceptos necesarios para el desarrollo de la investigación, conceptos como aprendizaje de máquina, redes neuronales, funciones de activación, redes convolutivas y finalmente autocodificadores.. 2.1. Aprendizaje de Máquina. Es un campo interdisciplinario, relacionado con el desarrollo de programas de computo que mejoran su desempeño a través del entrenamiento. Durante los últimas años el aprendizaje de maquina se ha convertido en uno de los pilares de la tecnología de la información, llegando a formar parte importante de nuestras vidas. Con la cantidad de datos que se generan a cada minuto, el análisis inteligente de estos será cada vez más generalizado como parte clave y necesario para el progreso tecnológico, Smola and Vishwanathan (2008). El Aprendizaje de máquina según (Han, 2011), es cómo pueden las computadoras aprender (o mejorar su rendimiento) en base a datos conocidos.. 9.

(22) CAPÍTULO 2. CONCEPTOS PREVIOS. 2.1.1. Máquinas Inteligentes. El cerebro es el órgano del cuerpo humano mas increíble. Este determina la forma en la que percibimos el mundo con nuestros sentidos. Desde niño el ser humanos es capas de resolver problemas que incluso los supercomputadores más potentes no pueden resolver. Por décadas el ser humano a soñado por construir maquinas inteligentes con una conciencia como la nuestra, asistentes robóticas para limpieza de nuestros hogares, autos que se manejan por si solos, microscopios que automáticamente detectan enfermedades. Pero la construcción de estas máquinas de inteligencia artificial nos obliga a resolver algunos de los problemas más complejos de la ciencia con los que hemos tenido que lidiar, comprender el funcionamiento de nuestros cerebros. Buduma (2016a).. 2.1.2. Mecanismos del aprendizaje de máquina. Muchas de las cosas que se aprenden en la escuela tienen mucho en común con los programas informáticos tradicionales. Se aprende a multiplicar números, resolver ecuaciones, y hacer derivadas mediante la guía de un conjunto de instrucciones. Pero las cosas que se aprenden a una edad muy temprana, las cosas que nos parecen naturales, se aprenden con el ejemplo, no por fórmulas Buduma (2016a). Por otro lado como se puede observar en la Fig. 2.1 1 el aprendizaje profundo o Deep Learning es un subconjunto de un campo más amplio de la inteligencia artificial llamado aprendizaje de máquina o Machine Learning, basado en el aprendizaje mediante ejemplos. En lugar de enseñar a una computadora las reglas para resolver un problema, se le proporciona un modelo para que puede evaluar ejemplos y un pequeño conjunto de instrucciones 1. https://goo.gl/qJuzYq. 10.

(23) CAPÍTULO 2. CONCEPTOS PREVIOS. para modificar y ajustar el modelo cuando se cometa un error, hasta que con el tiempo el modelo sea capaz de resolver un problema con gran precisión, Buduma (2016a).. Figura 2.1: Línea de tiempo de la inteligencia artificial Nvidea Blog. A continuación se formaliza esta idea matemáticamente, se define una acción como una función h( X , θ ), la entrada X es un ejemplo expresado en forma de vector. Por ejemplo, si. X fuera una imagen en escala de grises, los componentes del vector serían las intensidades de los píxeles en cada posición, como se muestra en la Fig. 2.2.. Figura 2.2: Vectorización de una imagen Fundamentals of Deep Learning, Buduma (2016a). La entrada θ es un vector de parámetros que utiliza la función h, este intenta perfeccionar los valores de estos parámetros, ya que procesa más y más ejemplos. Para comprender 11.

(24) CAPÍTULO 2. CONCEPTOS PREVIOS. mejor los modelos de aprendizaje de maquina se plantea el siguiente caso, si se pretende determinar cómo predecir el rendimiento en un examen, basándose en el número de horas de sueño y el número de horas de estudio del día anterior. Primero se recolectan datos y para cada punto de los datos se tiene que X = [ x1 x2 ]T , se registran las horas de sueño en. x1 , las horas de estudio en x2 y nuestro desempeño ya sea sobre o por debajo del promedio de la clase. Entonces, nuestro objetivo seria entrenar un modelo h( X , θ ) con un vector θ = [θ1 θ2 θ3 ] tal que:. (2.1). h( X , θ ).           −1                  1     . . . θ2     i f x .   + θ1 < 0   θ3   T. θ2     i f x .   + θ1 ≥ 0   θ3 T. En otras palabras, se puede suponer que el esquema para este modelo h( X , θ ) es como se describió anteriormente (geométricamente este esquema describe un clasificador lineal que divide el plano de coordenadas en dos mitades). Entonces, ahora se desea entrenar el vector θ de modo que el modelo haga predicciones correctas (-1 para valores por debajo de la media, y 1 en caso contrario) dado un ejemplo de entrada X . Este modelo es llamado perceptron lineal, se puede asumir que los datos están distribuidos como se muestra en la Fig. 2.3. Si se seleccionan θ = [−24 3 4], el modelo de aprendizaje hace una predicción correcta según el siguiente modelo:. 12.

(25) CAPÍTULO 2. CONCEPTOS PREVIOS. (2.2). h( X , θ ).      −1. 3 x1 + 4 x2 − 24 < 0.     1. 3 x1 + 4 x2 − 24 ≥ 0. Un vector de parámetros θ posiciona correctamente el clasificador por lo que se pueden realizar predicciones correctas. En la mayoría de los casos, hay muchos (o incluso un número infinito) posibles opciones para θ que son óptimas. Afortunadamente para nosotros, la mayoría de las veces estas alternativas están tan cerca una del otra que la diferencia en su rendimiento es insignificante. Si este no fuera el caso, podemos utilizar más datos para la elección de θ , Buduma (2016a).. Figura 2.3: Clasificador lineal de dos clases Fundamentals of Deep Learning, Buduma (2016a). 2.2. Redes Neuronales. Los clasificadores polinómicos pueden modelar superficies de decisión, sin embargo su utilidad en la práctica es limitada, debido a la facilidad con la que se sobre entrenan con datos que presentan ruido o características muy específicas. Mejores resultados podrían obtenerse con redes neuronales artificiales, donde muchas unidades simples, llamadas neuronas están interconectadas por enlaces denominados pesos, estos forman parte de estructuras mas grandes de alto rendimiento, Kubat (2015). 13.

(26) CAPÍTULO 2. CONCEPTOS PREVIOS. Una red neuronal puede presentar distintas arquitecturas o topologías, la topología óptima dependerá del problema en cuestión. A menudo el conocimiento del ámbito de un problema puede incorporarse fácilmente en la arquitectura de redes a través de parámetros, como el número de capas ocultas, la cantidad de unidades de neuronas en una capa, las conexiones o pesos de retroalimentación, las funciones de activación utilizadas, etc. Por lo tanto la definición de la arquitectura de una red, es la selección del modelo heurístico que resolverá un problema, Duda et al. (2001). 2.2.1. Neurona y Red de Neuronas. La unidad fundamental del cerebro es la neurona, cada una de las cuales forma una media de 6.000 conexiones con otras neuronas, que nos permiten experimentar el mundo que nos rodea. De esta manera podemos trasladar este concepto funcional en un modelo artificial que podemos representar en nuestro computador. Aunque las neuronas artificiales pueden ser muy poderosas, es imposible que una sola neurona pueda realizar tareas complejas. Así que para hacer frente a esto, las neuronas deben organizarse por capas al igual que las neuronas del cerebro humano. De hecho, la corteza cerebral humana está conformada por capas, los flujos de información pasan de una capa a otra hasta que la entrada sensorial se convierte en la comprensión conceptual. Por ejemplo, la parte más baja de la corteza visual recibe datos visuales de los ojos, esta información es procesada por cada capa hasta la ultima capa encargada de definir lo que se esta observando, Buduma (2016a). Según Llano et al. (2007) nos dice que una de las redes neuronales mas conocidas son las perceptron multicapa o MLP, que han sido ampliamente utilizadas debido a su simplicidad y buenos resultados, aunque en ocasiones fallan en proveer la mejor solución;. 14.

(27) CAPÍTULO 2. CONCEPTOS PREVIOS. debido a una mala arquitectura, un numero insuficiente de neuronas o simplemente un número insuficientes de ciclos de entrenamiento. Las actividades de entrenamiento y generalización, también conocidas como de aprendizaje y de prueba (o validación), respectivamente, son fundamentales en la definición de una red neuronal. En la fase de entrenamiento, el algoritmo de aprendizaje aplica un procedimiento definido que modifica los pesos o ponderaciones de interconexión de la red, ajustándolos de tal forma que cada vez se obtenga un mejor resultado de la red con respecto a los datos de prueba, la red se encarga de auto ajustar sus pesos hasta alcanzar el fin deseado.. 2.2.2. Funciones de activación - Sigmoidales, Tanh y ReLU. La función de activación cumple con el objetivo de limitar el rango de salida de la neurona y puede ser lineal o no lineal. Se selecciona de acuerdo con el problema y a criterio del investigador, en ocasiones por ensayo y error, también depende de la precisión, la velocidad requerida y del algoritmo de aprendizaje escogido. De acuerdo con el rango de las funciones de activación utilizadas es conveniente escalar o transformar los datos de entrada para ajustarlos a dichos rangos. Comúnmente se utilizan: la función sigmoidal, tanh o ReLU Llano et al. (2007). En redes neuronales las funciones de activación están fuertemente relacionadas a las neuronas, la primera de ellos es la función sigmoide, que utiliza la función:. (2.3). f ( z) =. 1 1 + e− z. Intuitivamente, esto significa que cuando la salida es muy pequeña, la activación de la neurona tiende a 0. Cuando la salida es muy grande, la activación de la neurona está cerca 15.

(28) CAPÍTULO 2. CONCEPTOS PREVIOS. de 1 y entre estos dos extremos, la distribución de los datos asumen una forma distintiva, como se muestra en la Fig. 2.4. Figura 2.4: Comportamiento de la función sigmoidal Fundamentals of Deep Learning, Buduma (2016a). La función de activación Tanh utiliza la misma distribución como se observa en la Fig. 2.5, pero en lugar de un rango de 0 a 1, la salida de las neuronas Tanh van desde -1 a 1. Como era de esperar, este utiliza la función f ( z) = tanh( z). La función de activación Tanh en algunos casos es preferida sobre la activación sigmoide ya que esta mantiene el cero como centro Buduma (2016a).. Figura 2.5: Comportamiento de la función tanh Fundamentals of Deep Learning, Buduma (2016a). La función de activación Restricted Linear Unit (ReLU), es una nueva clase de no linealidad, esta usa la función f ( z) = max(0, z), que da como resultado la Fig. 2.6. En otras 16.

(29) CAPÍTULO 2. CONCEPTOS PREVIOS. palabras, la activación es simplemente una función que aplica un umbral en cero.. Figura 2.6: Comportamiento de la función ReLU Fundamentals of Deep Learning, Buduma (2016a). 2.2.3. Capa de salida Softmax. Este tipo de capa es utilizada cuando se desea que un vector de salida sea una distribución de probabilidad sobre un conjunto de etiquetas que se excluyen mutuamente. Por ejemplo, si se construye una red neuronal para reconocer los dígitos escritos a mano a partir del conjunto de datos MNIST. Cada una de las etiquetas (0 a 9) se excluyen mutuamente, pero aun así es poco probable poder reconocer el 100 % de los dígitos. El uso de una distribución de probabilidad proporciona una mejor idea respecto a las predicciones obtenidas. Como resultado, el vector de salida deseado es de la siguiente forma. P9. i =0. p i = 1,. donde p i = [ p 1 p 2 ... p 9 ]. Esto se logra mediante el uso de una capa de salida especial llamado softmax. A diferencia de otros tipos de capas, la salida de una neurona en una capa softmax depende de las salidas de todas las otras neuronas en su capa. Esto se debe a que se requiere que la suma de todas las salidas sea igual a 1. Podemos lograr esta normalización ajustando su salida con la siguiente función:. 17.

(30) CAPÍTULO 2. CONCEPTOS PREVIOS. (2.4). yi = P. e xi x ke k. Una predicción de alta precisión tendría una única salida del vector cercano a 1, mientras que las salidas restantes estarían cerca a 0. Una predicción débil tendría varias etiquetas más o menos con la misma probabilidad Buduma (2016a).. 2.2.4. Sobre aprendizaje y Bajo aprendizaje. El rendimiento de un modelo tiende a alcanzar un punto máximo y después de algunas épocas o iteraciones la precisión decae, es decir que un modelo comienza rápidamente a sobre ajustarse a los datos de entrenamiento. El sobre ajuste ocurre en todos las tareas de aprendizaje y el problema fundamental en el aprendizaje automático es la tensión que existe entre la optimización y la generalización. La optimización se refiere al proceso de ajuste de un modelo para obtener el mejor rendimiento posible con los datos de entrenamiento, mientras que la generalización se refiere a qué tan buen comportamiento tiene el modelo entrenando con datos nuevos. El objetivo del aprendizaje es obtener una buena generalización, pero al no poder controlarla; solo puede ajustarse el modelo con los datos de entrenamiento, Chollet (2017). Al iniciar con el entrenamiento de un modelo, la optimización y la generalización dan a lugar algunas correlacionadas: a menor pérdida en los datos de entrenamiento, menor será su pérdida en los datos de prueba. Mientras esto sucede, el modelo se va ajustando, detectando todos los patrones relevantes en los datos de entrenamiento. Pero después de un cierto número de iteraciones con los datos de entrenamiento, la generalización deja de mejorar, la métrica de validación se detiene y comienza a degradarse: el modelo comienza 18.

(31) CAPÍTULO 2. CONCEPTOS PREVIOS. a sobre ajustarse, es decir que, el modelo empieza a aprender patrones que son específicos de los datos de entrenamiento, pero que son irrelevante cuando se procesan nuevos datos, Chollet (2017). Para evitar que un modelo aprenda patrones irrelevantes que se encuentran en los datos de entrenamiento, la mejor solución es, obtener más datos de entrenamiento. Un modelo entrenado en más datos naturalmente logra una mejor generalización, pero cuando eso no es posible, la siguiente mejor solución es modular la cantidad de información que un modelo puede aprender, agregando restricciones a la información que tiene permitido recordar. Si una red solo puede permitirse memorizar una pequeña cantidad de patrones, el proceso de optimización lo obligará a centrarse en los patrones más destacados.. 2.3. Redes Neuronales Convolutivas (CNN). La CNN es un método que se ha aplicado con éxito en muchas tareas de reconocimiento de objetos. Utilizando filtros para procesar imágenes se puede reducir significativamente el numero de parámetros que tiene que procesar una red. Según Buduma (2016b), una CNN se encuentra fuertemente asociado al concepto de aprendizaje profundo, siendo su principal objetivo eliminar el engorroso y limitante proceso de extracción de características, cada capa de una red neuronal convolutiva es responsable del aprendizaje y la construcción de características que mejor representen a los datos de entrada. Ya que estas redes están diseñadas para procesar un gran volumen de características, seria poco recomendable utilizar redes neuronales tradicionales, como las vistas en la sección 2.2. Adicionalmente, para la clasificación de imágenes, utilizando redes neuronales tradicionales se puede distinguir con rapidez un desafió, como se puede ver en la Fig. 2.7. Para datos de entrada. 19.

(32) CAPÍTULO 2. CONCEPTOS PREVIOS. de poca dimensión una red neuronal puede tener un comportamiento óptimo, pero para imágenes de mayor dimensión y de mayor complejidad contar con una red totalmente conectada no produce los resultados esperados. Es recomendable utilizar una CNN que basa su funcionamiento en el proceso de convolución para la tarea de extracción de características.. Figura 2.7: Recorrido de un filtro en una CNN, la densidad de conexiones se incrementa según el tamaño de la imagen Fundamentals of Deep Learning, Buduma (2016a). 2.3.1. Convoluciones. Tomando como base el funcionamiento de la visión humana, las capas de una red de convolución tienen neuronas dispuestas en tres dimensiones, por lo que las capas tienen una anchura, altura y profundidad, como se muestra en la Fig. 2.8.. Figura 2.8: Capas de una red convolutiva Fundamentals of Deep Learning, Buduma (2016a) 20.

(33) CAPÍTULO 2. CONCEPTOS PREVIOS. Las neuronas de una capa única de convolución solo conectan a una región pequeña de la capa precedente, por lo que evitan el derroche de las neuronas totalmente conectadas, Fig. 2.9. El proceso de una convolución puede expresarse fácilmente como la transformación que se realiza en un volumen de información de 3 dimensiones para producir un nuevo volumen de 3 dimensiones, que presenta variaciones respecto al volumen original, Buduma (2016a).. Figura 2.9: Proceso de Convolución de una imagen Elaboración Propia. Para entender el proceso de convolución debemos conocer el termino filtro, que es esencialmente un detector de característica. Para entender su funcionamiento consideraremos el ejemplo de la Fig. 2.10, a la izquierda de esta figura vemos la representación de una imagen conformada por una distribución binaria (blanco o negro), al medio encontramos dos matrices que serán los filtros especializados que se encargaran de realizar el proceso de convolución, en el caso de querer detectar las líneas verticales se puede utilizar el detector de característica de la parte superior, y para detectar las lineas horizontales utilizaremos el de la parte inferior, estos filtros se deslizan a través de la totalidad de la imagen para verificar si existe alguna coincidencia, en las matrices del lado derecha de la Fig. 2.10 se pueden verificar los resultados, si hay una coincidencia se sombrea la casilla. 21.

(34) CAPÍTULO 2. CONCEPTOS PREVIOS. de negro y si no lo hay se deja en blanco, para entender a detalle el proceso de convolución podemos revisar Dumoulin and Visin (2016). Este resultado es el mapa de características, que indica el lugar donde se han encontrado las singularidades que se buscaban en la imagen original, Ngiam et al. (2010); Buduma (2016a).. Figura 2.10: Matriz de filtros para detectar lineas horizontales y verticales Fundamentals of Deep Learning, Buduma (2016a). Esta operación es llamada convolución, se toma un filtro para realizar la multiplicación de matrices con el segmento de área que cubre en la imagen de entrada. Los filtros representan distintas combinaciones de conexiones (se resalta una de estas combinaciones en la Fig. 2.11), en esta figura las conexiones con las mismas tonalidades mantienen sus mismos pesos a través de todas las neuronas de entrada. Podemos lograr esto mediante la inicialización de todas las conexiones en un grupo con pesos idénticos, corrigiendo las pequeños variaciones de peso, Buduma (2016a).. 22.

(35) CAPÍTULO 2. CONCEPTOS PREVIOS. Figura 2.11: Representación de un filtro y su mapa de características resultante Fundamentals of Deep Learning, Buduma (2016a). Matemáticamente podemos definir a los k th mapas de características en la capa m como m k , por otra parte, se define un filtro correspondiente conformado por los valores de los pesos W , y se asume que las neuronas en el mapa de características tiene un bias. b k (el bias se mantiene idéntico para todas las neuronas de un mapa de características). Entonces se puede expresar el mapa de características de la siguiente manera:. (2.5). m kij = f ((W ∗ x) i j + b k ). En concreto, los filtros no sólo operan en un único mapa de características, operan en todo el volumen de mapas que se han generado en una capa anterior. En un caso especifico, si se desea detectar e identificar un rostro en una imagen, y se han acumulado tres mapas de características, uno para los ojos, uno para la nariz y uno para la boca, se deben combinar estos para tomar una decisión sobre la existencia de la cara. En el caso de imágenes de color con tres canales (RGB) se requieren tres secciones en el volumen de entrada, así mismo se requerirá un filtro de tres secciones para que pueda operar sobre el mapa de características de tres dimensiones (ancho, alto y profundidad), como se muestra en la Fig. 2.12, cada célula en el volumen de entrada es una neurona, Buduma (2016a).. 23.

(36) CAPÍTULO 2. CONCEPTOS PREVIOS. Figura 2.12: Proceso de Convolución de una imagen a color RGB Fundamentals of Deep Learning, Buduma (2016a). Como se ha observado anteriormente, una capa de convolución es conformada por filtros y transforma un volumen de valores de entrada. La profundidad de estos filtros corresponde a la profundidad del volumen de entrada, esto ocurre para que el filtro pueda combinar la información de todas las características que se han aprendido. La profundidad del volumen de salida de una capa convolucional es equivalente al número de filtros en esa capa, debido a que cada filtro produce una porción del volumen de datos, como se muestra en la Fig. 2.13.. Figura 2.13: Visualización en 3D del proceso de convolución Fundamentals of Deep Learning, Buduma (2016a). 24.

(37) CAPÍTULO 2. CONCEPTOS PREVIOS. 2.3.2. Agrupación Máxima o Max Pooling. Para reducir la dimensionalidad de los mapas de características y afinar las características localizadas, algunas veces es necesario insertar una capa de agrupación máxima después de una capa de convolución. La idea esencial detrás de la agrupación máxima es dividir cada mapa de características en porciones de igual tamaño, creando un mapa de características condensado. En concreto una celda o unidad representa a toda una porción del mapa de características, calculando el valor máximo de la porción que será propagada a la celda correspondiente del mapa resultante, este proceso se ilustra en la Fig. 2.14, Buduma (2016a).. Figura 2.14: Reducción de parámetros utilizando agrupación máxima Fundamentals of Deep Learning, Buduma (2016a). Podemos describir la capa de agrupación máxima con dos parámetros, la dimensión de la ventana e y el salto s. Es importante tener en cuenta que sólo se utilizan dos principales variaciones de la capa de agrupación. La primera es la capa que no existe solapamiento con e = 2, s = 2. La segunda es la capa con solapamiento, e = 3, s = 2. Las dimensiones resultantes de cada mapa de características son las siguientes:. 25.

(38) CAPÍTULO 2. CONCEPTOS PREVIOS. • Ancho, w out = • Alto, h out =. h. £ w in − e ¤ s. h in − e s. i. + 1.. + 1.. Una propiedad interesante de la agrupación máxima, es que es invariante a nivel local. Esto significa que incluso si las entradas cambian un poco, la salida de esta capa se mantiene constante. Esto tiene importantes implicaciones para los algoritmos visuales, la invarianza local es una propiedad útil para las características que están siempre presentes en un mismo lugar. Sin embargo, obtener grandes cantidades de invarianza locales puede destruir la capacidad de la red para almacenar información importante. Por eso es recomendable mantener pequeña la dimensión de la ventana de agrupación e, Buduma (2016a).. 2.4. Autocodificadores. Los auto-codificadores pertenecen a una clase de algoritmos de aprendizaje conocidos como aprendizaje no supervisado. A diferencia de los algoritmos supervisadas, los algoritmos de aprendizaje sin supervisión no necesitan información de la etiqueta o clase a la que pertenecen los datos. En otras palabras, nuestros datos sólo tienen los x( i ), pero no los. y( i ), que vendrían a ser la etiquetas de los datos Le et al. (2015); Ng et al. (2016). Un auto-codificador es una técnica muy utilizada en el aprendizaje no supervisado, aunque también haya sido utilizada de distintas maneras y con distintos objetivos.. 26.

(39) CAPÍTULO 2. CONCEPTOS PREVIOS. 2.4.1. Compresión de data. En Le et al. (2015), se considera el siguiente ejemplo, para desarrollar un programa que envía datos del teléfono móvil a la nube, limitando el uso de la red; se debe optimizar cada bit de datos que se va a enviar. Los datos son una colección de puntos, cada uno tiene dos dimensiones, como se ve en la Fig. 2.15. Figura 2.15: Muestras de datos representadas en un plano 2D Le et al. (2015). En la Fig. 2.15, las cruces rojas son los puntos de datos, el eje horizontal es el valor de la primera dimensión y el eje vertical es el valor de la segunda dimensión. Tras la visualización, notamos que el valor de la segunda dimensión es aproximadamente el doble que de la primera dimensión. Teniendo en cuenta esta observación, se puede enviar sólo la primera dimensión de cada punto de datos a la nube. Luego, en la nube, solo se necesita calcular el valor de la segunda dimensión, duplicando el valor de la primera dimensión. La compresión es con perdida, pero reduce el tráfico de red en un 50 %. Ya que el tráfico de red es lo que tratamos de optimizar, esta idea es valida, Le et al. (2015). El objetivo de los auto-codificadores es poder resolver el ejemplo anterior de manera sistemática. Formalmente, suponemos que tenemos un conjunto de puntos de datos. 27.

(40) CAPÍTULO 2. CONCEPTOS PREVIOS. { x(1), x(2), ..., x( m)}, donde cada punto de datos tiene varias dimensiones. La pregunta es. si hay una manera general de asignarlos a algún conjuntos de datos { z(1), z(2), ..., z( m)}, donde z tiene una dimensión menor a x y los z( i ) pueden fielmente reconstruir las x( i ). Para responder a esto, se nota que en el ejemplo anterior, para enviar datos desde el teléfono celular a la nube existen tres pasos:. • Codificación: Desde el celular. se asigna la data x( i ) comprimida a z( i ).. • Envío: Se envía z( i ) a la nube.. • Decodificación: En la nube, se asigna desde la data comprimida z( i ) a x̃( i ), que es una aproximación de x( i ).. Para asignar los datos de un lado a otro de manera sistemática, definimos que z y x̃ son funciones de entrada, de la siguiente manera:. (2.6). z( i ) = W1 x( i ) + b 1. (2.7). x̃( i ) = W1 z( i ) + b 1. Si x( i ) es un vector de dos dimensiones, puede ser posible visualizar los datos para encontrar W 1,W 2, b 1 , b 2 analíticamente, donde W 1,W 2 son matrices bidimensionales de pesos y b 1 , b 2 son el componente bias. En casos prácticos, es difícil encontrar esas matrices usando la visualización, por lo que es necesario utilizar el gradiente descendente Bottou (2012). La meta es tener un x̃( i ) aproximado a x( i ), para esto se establece la siguiente función objetivo, que es la suma de diferencia de cuadrados entre x̃( i ) y x( i ):. 28.

(41) CAPÍTULO 2. CONCEPTOS PREVIOS. J (W1 , b 1 ,W2 , b 2 ) =. m X. ( x̃( i ) − x( i ) ) 2. i =1. (2.8). =. m X. ( W2 z( i ) + b 2 − x( i ) ) 2. i =1. =. m X. ( W2 (W1 x( i ) + b 1 ) + b 2 − x( i ) ) 2. i =1. En la Fig. 2.16, Se observa como se trata de comprimir datos de 4 dimensiones a 2 dimensiones utilizando una red neuronal con una capa oculta. La función de activación de la capa oculta es no lineal. Si los datos fueran altamente no lineales, se podría añadir más capas ocultas a la red para tener un auto-codificador profundo.. Figura 2.16: Arquitectura de autocodificador no lineal Le et al. (2015). 2.4.2. Autocodificador para inicializar métodos. Los autocodificadores tienen muchas aplicaciones interesantes, como la compresión de datos, visualización, reducción de dimensionalidad, entre otros. Pero aproximadamente entre el 2006 al 2007 investigadores como Bengio et al. (2007), observaron que los autocodificadores podrían ser utilizados como una técnica de pre-entrenamiento no supervisado de redes neuronales, ayudando en la inicialización de redes muy profundas.. 29.

(42) CAPÍTULO 2. CONCEPTOS PREVIOS. Para realizar el proceso de pre-entrenamiento de una red profunda, se requiere realizar la siguiente secuencia de pasos:. • Pre-entrenamiento: Entrenar una secuencia de auto-codificadores poco profundas, una capa a la vez, a partir de datos no supervisados.. • Afinar 1: Entrenar la última capa a partir de datos supervisados.. • Afinar 2: Utilizar propagación hacia atrás para afinar toda la red a partir de datos supervisados.. Este proceso de pre-entrenamiento se basa en la codificación y decodificación de los datos para ajustar mejor los pesos de una red. Algunos investigadores han demostrado que esta idea de pre-entrenamiento mejora las redes neuronales profundas y debido a que se realiza una capa a la vez, la red no sufre de las dificultades de un aprendizaje supervisado completo. Este enfoque se vuelve mucho mas atractivo en los casos donde no se cuenta con un gran conjunto de datos debidamente etiquetado, Le et al. (2015).. 30.

(43) CAPÍTULO. 3. T RABAJOS R ELACIONADOS. En el este capítulo se describe el estado del arte y trabajos que dieron origen al desarrollo de métodos de detección del cáncer de piel; se divide en investigaciones dedicadas al proceso de extracción de características y clasificadores.. 3.1. Extracción de características. La etapa de extracción de características consiste en eliminar la redundancia de los datos. Para entender el proceso de extracción de rasgos distintivos o características, se toman en cuenta dos puntos importantes, la extracción y la selección de características. La extracción de la característica se relaciona con las técnicas encargadas de extraer las particularidades representativas de una imagen. Por otro lado, la selección de características, busca las singularidades más relevantes que mejoren la precisión en la fase de clasificación Muhammad ’Arif Mohamad and Haron (2015). La extracción de características puede definirse como la extracción de la información. 31.

(44) CAPÍTULO 3. TRABAJOS RELACIONADOS. más representativa a partir de datos brutos, esto minimiza la variabilidad de los patrones en una misma clase, al mismo tiempo, mejora la variabilidad de los patrones entre las clases o grupos de un mismo conjunto de datos Trier et al. (1996).. 3.1.1. Métodos basado en análisis clínico. Inicialmente algunas investigaciones hacen uso del diagnostico clínico para la detección del cáncer de piel, mediante el análisis de imágenes dermatoscópicas. Una de las técnicas mas reconocidas es la regla ABCD, basado en la análisis multivariado de cuatro criterios (la asimetría, el borde, variación del color y las diferencias estructurales Fig. 3.1) con un sistema de puntuación semi-cuantitativo. La forma de evaluación que se realiza con la regla ABCD, se detalla en la siguiente investigación Nachbar et al. (1994). Este método ha propiciado el desarrollo de investigaciones que con el uso de técnicas computacionales de procesamiento de imágenes, proponen automatizar el diagnostico de esta enfermedad Abbas et al. (2013); Fornaciali et al. (2014); Mete and Sirakov (2012). Este método ha demostrado ser fiable hasta la actualidad, por generar resultados objetivos y reproducibles. Sin embargo la precisión de este método esta sujeto a la interpretación, es decir, que los resultados obtenidos pueden estar errados por la inexperiencia del observador. El mal uso de una técnica o método implica directamente en la precisión de los resultados obtenidos. Para el área de reconocimiento de patrones, la regla ABCD puede ser considerada como un método manual de extracción de características, fácil de aprender y aplicar. El resultado obtenido de este procedimiento transforma la imagen o muestra evaluada a datos que proporcionan mayor información.. 32.

(45) CAPÍTULO 3. TRABAJOS RELACIONADOS. Figura 3.1: Variables analizadas para el método ABCD; observamos tres muestras de lesiones por cada variable. Las A con puntuación baja, B con media y C con alta. Esta puntuación mide la probabilidad de que la muestra presente cáncer. Nachbar et al. (1994). 3.1.2. Métodos basados en pre-procesamiento de la data. Existen investigaciones que proponen una fase de pre-procesamiento de datos, cuya finalidad es la limpieza de información irrelevante para el diagnostico, también conocida como ruido. Por ejemplo, en la investigación de Premaladha and Ravichandran (2016), se han utilizado algoritmos de aprendizaje automático para detectar el cáncer de tipo melanoma, mediante un modelo que fue entrenado con características obtenidas de imágenes pre-procesadas; algunas de las técnicas utilizadas por este autor son: el filtro de la mediana Messadi M. and A. (2009), encargado de remover el ruido de la imagen y el método de Contrast Limited Adaptive Histogram Equalization (CLAHE) Bandyopadhyay. 33.

(46) CAPÍTULO 3. TRABAJOS RELACIONADOS. (2010), técnica especialmente diseñado para procesar previamente imágenes médicas para incrementar el contraste y ayudar a obtener características más relevantes, como se puede observar en la Fig. 3.2).. Figura 3.2: Pre-procesamiento tradicional de una imagen - (a) Imagen Original. (b) Contraste mejorado. (c) Imagen filtrada Premaladha and Ravichandran (2016). También existen técnicas denominas de segmentación, que se encargan de dividir una imagen, separando las secciones mas relevantes de las irrelevantes, en el procesamiento de imágenes las secciones irrelevantes son también conocidas como background. En la segmentación de imágenes dermatoscópicas, el área de la lesión afectada debe ser extraída de la piel normal, a su vez, desde la región segmentada las características mas representativas deben ser extraídas para distinguir una lesión maligna de una benigna. En la investigación de Premaladha and Ravichandran (2016) se propone la técnica NOS, método especialmente utilizado para separar el primer plano del fondo de una imagen. Los datos de entrada para este proceso de segmentación es la imagen filtrada o pre-procesada, el resultado se muestra en la Fig. 3.3, lo que observamos en esta figura es la representación binaria de una muestra, el color negro delimita la frontera o contorno de la lesión y la separa de la piel sana.. 34.

(47) CAPÍTULO 3. TRABAJOS RELACIONADOS. Figura 3.3: Segmentación de una Imagen Premaladha and Ravichandran (2016). Entre otros métodos novedosos de segmentación tenemos a Glaister et al. (2014); Wong et al. (2016), que a través del análisis y aprendizaje de texturas propone un eficiente método de segmentación que no solo realiza el análisis de píxel, si no que también analiza el vecindario de píxeles y su relación del píxel con su entorno, el flujo-grama de este método lo vemos en la Fig. 3.4.. Figura 3.4: Segmentación una imagen, mediante el análisis de texturas Glaister et al. (2014). Para finalizar con los métodos de segmentación citaremos a Jafari et al. (2016), una investigación reciente que propone el uso del aprendizaje profundo para el análisis de texturas y la selección automática de las características mas representativas de un píxel y su vecindario de píxeles, estas características ayudaran a decidir si el píxel central es parte de la lesión o la piel sana, otro punto interesante de este trabajo es que utiliza dos redes convolutivas simultaneas con la finalidad de procesar versiones distintas de 35.

(48) CAPÍTULO 3. TRABAJOS RELACIONADOS. un misma sección de la imagen o muestra, para obtener una mayor cantidad de datos representativos o características que se concatenan en un único vector característico que ingresara al método de clasificación, que tiene como objetivo clasificar la muestra en lesión o piel, el flujograma podemos observarlo en la Fig. 3.5.. Figura 3.5: Análisis de Texturas con Aprendizaje Profundo Jafari et al. (2016). Algunos de los métodos mencionados en esta sección resultan ser de utilidad para ciertos escenarios, pero de manera general muchas veces estos no trabajan de manera óptima en casos muy específicos debido a que solo se basan en la manipulación y análisis del píxel, incluso puede existir incertidumbre en los resultados obtenidos, debido a que algunos procedimientos manuales pueden afectar negativamente la calidad de los datos, ante este problema métodos como Jafari et al. (2016), delegan la tarea de la selección de características, a técnicas de aprendizaje profundo.. 36.

(49) CAPÍTULO 3. TRABAJOS RELACIONADOS. 3.1.3. Método basado en Agrupamiento Espacial Circular (SCP). La investigación de Fornaciali et al. (2014), propone una solución al error cometido por interpretación y dice que el análisis automatizado o semi-automatizado de imágenes dermatoscópicas se ha convertido en un área importante de innovación. Esta investigación basa su propuesta en el uso de Bag of visual words (Bovw) Barata et al. (2013), una técnica exitosa para describir el contenido visual de imágenes, esta se enfoca en las características de color y textura de una imagen. Sin embargo este método presenta algunos problemas de perdida de información, que son superados por la técnica Spatial Pyramid Matching (SPM) Lazebnik et al. (2006), que divide una imagen en regiones jerárquicas, generando vectores de características independientes que se concatenan en un vector de características global. En base a los métodos descritos anteriormente en esta sección, Fornaciali et al. (2014) propone un enfoque de aprendizaje estadístico para la detección del cáncer, específicamente de tipo melanoma. La solución que propone se basa en la representación de imágenes utilizando Bossanova Avila et al. (2013), una reciente extensión del enfoque BoVW; este método estadístico sustituye los tradicionales descriptores globales de color y textura, caracterizado por ser un método tan robusto que no requiere de métodos de pre-procesamiento; no requiere segmentar la imagen, detectar el borde de la lesión, ni eliminar vellosidad. Normalmente se utiliza la técnica SPM, como se muestra en la Fig. 3.6, (a) representa toda la imagen y de (b) a (e) son 4 recuadros espaciales. En esta técnica, la imagen se divide en rejillas regulares creando una pirámide de características agrupadas. Los descriptores están organizados en vectores, uno para cada celda de la cuadrícula, Fornaciali et al. (2014).. 37.

(50) CAPÍTULO 3. TRABAJOS RELACIONADOS. Figura 3.6: Aproximacion Spatial Pyramid Matching (SPM) Fornaciali et al. (2014). Pero el autor introduce en su investigación el uso de Spacial Circular Pooling (SCP) en lugar de SPM, este es un tipo de agrupamiento espacial dirigido especialmente para el problema de clasificación de lesiones en la piel, como se puede ver en la Fig. 3.7.. Figura 3.7: Spacial Circular Pooling (SCP) Fornaciali et al. (2014). La forma en la que trabaja SCP es dibujando una región circular con un radio definido, para capturar 50 % del área de la imagen. Considera cinco vectores de muestreo compuestas por (a) toda la imagen, (b) el exterior, (c) las regiones interiores, (d) la izquierda y (e) el lado derecho de la lesión. Los esquemas (a)-(c) tratan de evaluar el impacto de la segmentación de la lesión con la clasificación y los esquemas (d)-(e) tratan de identificar las fronteras asimétricas, que es un criterio relevante de acuerdo con la regla del ABCD de la dermatoscopía. Uno de los objetivos de esta autor es realizar una comparación entre SPM y SCP para poder identificar el poder informativo de cada estrategia de pooling spatial. Finalmente 38.

(51) CAPÍTULO 3. TRABAJOS RELACIONADOS. aunque se demuestra que ambos métodos producen resultados muy parecidos, es importante destacar la intención de utilizar otros métodos de extracción de características, que pueden prescindir del uso de técnicas de pre-procesamiento.. 3.1.4. Método basado en Redes Neuronales Convolutivas (CNN). En el estado del arte, existen investigaciones muy recientes como Fonseca et al. (2017); Bobadilla and Pedrini (2017); Nasr-Esfahani et al. (2016), que aplican CNN para resolver problemas relacionados a la detección de ciertas enfermedades que pueden ser diagnosticadas mediante el análisis clínico de imágenes. Específicamente en nuestro caso de estudio, investigaciones como Nasr-Esfahani et al. (2016); Menegola et al. (2017); Liao (2015) aplican estas redes para aprovechar los beneficios proporcionados por el extractor de características de este método. La clave para un diagnostico acertado es la capacidad que tiene el método para reconocer la mayor cantidad de características e incluso la relación que existe entre estas. Como describimos en secciones anteriores, para un especialista realizar este trabajo es un reto. Una manera de resolver este problema es utilizar técnicas de aprendizaje de características Bengio et al. (2012), que permiten que un computador decida que características debe utilizar. Este tipo de red tiene la capacidad de generar una gran cantidad de capas intermedias, como se puede ver en la Fig. 3.8, estas capas se encargan de transformar una imagen de entrada en versiones distintas de la misma a través de filtros, es tanta la cantidad de datos generados en estas capas, que a través de convoluciones de una imagen pueden descubrirse características y patrones que a simple vista son imperceptibles. Además también podemos observar la condensación de los datos, cada capa re-dimensiona los. 39.

(52) CAPÍTULO 3. TRABAJOS RELACIONADOS. datos, generando finalmente un vector característico representativo.. Figura 3.8: Red Neuronal Convolutiva Bobadilla and Pedrini (2017). En la investigación de Nasr-Esfahani et al. (2016), el autor utiliza una CNN para la clasificación de dos clases (melanoma y lesiones benignas), para poder utilizar efectivamente técnicas de aprendizaje profundo como una CNN, se tiene q tener en cuenta la necesidad de contar con muchas muestras para realizar la fase de entrenamiento del modelo, como esta investigación tan solo cuenta 170 muestras de imágenes no dermatoscópicas, utiliza la técnica de transferencia de conocimiento o transfer learning para el pre-entrenamiento del modelo. Aunque esta técnica mejora el proceso de entrenamiento, en un escenario real una red entrenada con pocos datos disminuye la generalización, reproduciendo resultados inconsistentes. En otra investigación, Kawahara et al. (2016) utiliza técnicas de normalización, preprocesamiento de los datos y para proporcionar mayor invarianza a las diferencias en iluminación y tono del piel, resta los valores medios del píxel RGB calculados sobre cada imagen individual (media por imagen), con la finalidad de mejorar los valores discriminantes del vector de características resultante, además de la re-dimensión de las imágenes, estos son los únicos métodos de pre-procesamiento utilizados, en comparación 40.

Figure

Figura 2.1: Línea de tiempo de la inteligencia artificial Nvidea Blog
Figura 2.5: Comportamiento de la función tanh Fundamentals of Deep Learning, Buduma (2016a)
Figura 2.8: Capas de una red convolutiva Fundamentals of Deep Learning, Buduma (2016a)
Figura 2.10: Matriz de filtros para detectar lineas horizontales y verticales Fundamentals of Deep Learning, Buduma (2016a)
+7

Referencias

Documento similar

Entre nosotros anda un escritor de cosas de filología, paisano de Costa, que no deja de tener ingenio y garbo; pero cuyas obras tienen de todo menos de ciencia, y aun

6 Para la pervivencia de la tradición clásica y la mitología en la poesía machadiana, véase: Lasso de la Vega, José, “El mito clásico en la literatura española

diabetes, chronic respiratory disease and cancer) targeted in the Global Action Plan on NCDs as well as other noncommunicable conditions of particular concern in the European

 Para recibir todos los números de referencia en un solo correo electrónico, es necesario que las solicitudes estén cumplimentadas y sean todos los datos válidos, incluido el

d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que

La siguiente y última ampliación en la Sala de Millones fue a finales de los años sesenta cuando Carlos III habilitó la sexta plaza para las ciudades con voto en Cortes de

Ciaurriz quien, durante su primer arlo de estancia en Loyola 40 , catalogó sus fondos siguiendo la división previa a la que nos hemos referido; y si esta labor fue de

Las manifestaciones musicales y su organización institucional a lo largo de los siglos XVI al XVIII son aspectos poco conocidos de la cultura alicantina. Analizar el alcance y