Detección de melanomas a partir de imágenes dermatoscópicas

Texto completo

(1)Detección de melanomas a partir de imágenes dermatoscópicas. Marı́a Fernanda Vargas Martı́nez Marı́a Fernanda Cruz Mahecha. Universidad Distrital Francisco José de Caldas Facultad de ingenierı́a Bogotá, Colombia 2018.

(2)

(3) Detección de melanomas a partir de imágenes dermatoscópicas. Marı́a Fernanda Vargas Martı́nez Marı́a Fernanda Cruz Mahecha. Tesis o trabajo de grado presentada(o) como requisito parcial para optar al tı́tulo de: Ingeniero electrónico. Director(a): MsC, Luz Helena Camargo Casallas. Lı́nea de Investigación: Bioingenierı́a Grupo de Investigación: INVID. Universidad Distrital Francisco José de Caldas Facultad de ingenierı́a Bogotá, Colombia 2018.

(4)

(5) A nuestras familias.. A nuestros universidad.. amigos. y. compañeros. en. la.

(6)

(7) Agradecimientos A nuestras familias por el apoyo, la comprensión y colaboración que nos brindaron a través de todo este proceso A nuestra tutora Luz Helena Camargo Casallas, quién nos orientó pacientemente en cada etapa, además de proporcionarnos los recursos para desarrollar este proyecto. A David Carmona y a Sebastián Romero por apoyarnos y confiar en nosotras. A todas las personas que contribuyeron directa o indirectamente con el desarrollo y culminación de este proyecto..

(8)

(9) Resumen La posibilidad de sobrevivir al cáncer de piel tipo melanoma es mayor si se detecta y diágnostica en etapas tempranas. Por ello, este proyecto presenta la elaboración de una herramienta basada en el procesamiento de imágenes, capaz de clasificar las lesiones a partir de imágenes dermatoscópicas. El proyecto se dividió en tres etapas: segmentación, obtención de caracterı́sticas y clasificación. Para la segmentación se implementaron el método de Otsu, la segmentación semántica y operadores morfológicos para determinar el área correspondiente a la lesión. A partir de las imágenes segmentadas, se obtuvo un histograma de 250 palabras visuales de las imágenes más representativas de cada clase utilizando descriptores de color y forma; por último, se entrenó un clasificador SVM con el cual se obtuvo una precisión máxima del 78 %, siendo los mejores resultados correspondientes al uso del espacio de color HSV e implementando un clasificador con kernel Gaussiano. Palabras clave: Dermatoscopı́a, Cáncer de piel, Aprendizaje profundo, Vocabulario visual, SVM.. Abstract The possibility of surviving melanoma skin cancer is greater if it is detected and diagnosed early. Therefore, this project presents the development of a tool based on image processing, capable of classifying lesions from dermoscopic images. The project was divided into three stages: segmentation, feature extraction and classification. At segmentation stage the Otsu and semantic segmentation methods were implemented with morphological operators as a post-processing stage to enhance the results. From the segmented images, a histogram of 250 visual words was obtained from the most representative images of each class using descriptors of color and shape. Finally, an SVM classifier with a maximum precision of 78 % was obtained using the HSV color space and a Gaussian kernel. Key Words: Dermoscopy, Skin cancer, Deep learning, Bag of words, SVM ..

(10) Contenido Resumen. IX. Contenido. XIII. Lista de Figuras. 1. Lista de Tablas. 1. 1 Introducción 1.1 Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2 3. 2 Objetivos 2.1 Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Objetivos especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4 4 4. 3 Marco teórico 3.1 Cáncer de piel . . . . . . . . . . . . . . . . . . . 3.2 Dermatoscopia . . . . . . . . . . . . . . . . . . 3.3 Algoritmos de diagnóstico dermatoscópico . . . 3.3.1 Análisis de patrones . . . . . . . . . . . 3.3.2 Regla de ABCD . . . . . . . . . . . . . . 3.3.3 Lista de verifición de los 3 puntos . . . . 3.3.4 Lista de verificación de los 7 puntos . . . 3.3.5 Método de Menzies . . . . . . . . . . . . 3.4 Técnicas de procesamiento de imagen . . . . . . 3.4.1 Representación del color . . . . . . . . . 3.4.2 Operaciones morfológicas . . . . . . . . . 3.5 Segmentación . . . . . . . . . . . . . . . . . . . 3.5.1 Segmentación basada en discontinuidades 3.5.2 Segmentación basada en similitud . . . . 3.6 Clasificación . . . . . . . . . . . . . . . . . . . . 3.6.1 Extracción de Caracterı́sticas . . . . . . 3.6.2 Clasificación . . . . . . . . . . . . . . . . 3.6.3 Medidas de desempeño . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. 5 5 5 6 7 8 10 10 11 12 13 14 16 16 17 17 18 21 24.

(11) Contenido 4 Metodologı́a 4.1 Segmentación . . . . . . . . . . 4.1.1 Método de Otsu . . . . . 4.1.2 Segmentación semántica 4.2 Extracción de caracterı́sticas . . 4.3 Clasificación . . . . . . . . . . .. xi. . . . . .. 25 25 25 30 36 39. . . . . . .. 41 41 43 43 48 50 51. 6 Conclusiones y recomendaciones 6.1 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 59 59 59. 5 Resultados 5.1 Segmentación . . . . . . . . . . 5.1.1 Método de Otsu . . . . . 5.1.2 Segmentación semántica 5.1.3 Comparación . . . . . . 5.2 Extracción de caracterı́sticas . . 5.3 Clasificación . . . . . . . . . . .. Bibliografı́a. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. 61.

(12)

(13) Lista de Figuras 3-1 3-2 3-3 3-4 3-5 3-6 3-7 3-8 3-9. Dermatoscopia . . . . . . . . . . . . . . . . Red Pigmentada . . . . . . . . . . . . . . . Puntos . . . . . . . . . . . . . . . . . . . . . Glóbulos . . . . . . . . . . . . . . . . . . . . Canales RGB . . . . . . . . . . . . . . . . . Representación espacial del modelo CIELAB Mascara general 3x3 . . . . . . . . . . . . . Pirámide de imágenes . . . . . . . . . . . . . Comparación entre pı́xeles . . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. 6 9 9 10 13 14 16 19 20. 4-1 4-2 4-3 4-4 4-5 4-6 4-7 4-8 4-9. Diagrama de Bloques . . . . . . . . . . . . . . . . . Diagrama de Bloques para el método de Otsu . . . Matriz de intensidades . . . . . . . . . . . . . . . . Diagrama de Bloques para el Deep Learning . . . . Arquitectura de una red de segmentación semántica RGB vs L*a*b . . . . . . . . . . . . . . . . . . . . Bag of Words . . . . . . . . . . . . . . . . . . . . . k-means . . . . . . . . . . . . . . . . . . . . . . . . SVM . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. 26 28 29 30 31 37 38 38 39. . . . . . . de pesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. 42 45 46 46 48 48 49 49 50 51 51 54 55 55. 5-1 Operaciones morfológicas . . . . . . . . 5-2 Entrenamiento segmentación semántica 5-3 Sistema desbalanceado . . . . . . . . . 5-4 Entrenamiento segmentación semántica 5-5 Entrenamiento segmentación semántica 5-6 Segmentación carcinoma . . . . . . . . 5-7 Segmentación melanoma . . . . . . . . 5-8 Segmentación Nevus melanocı́tico . . . 5-9 BoW Carcinoma . . . . . . . . . . . . 5-10 BoW Melanoma . . . . . . . . . . . . . 5-11 BoW Nevus Melanocı́tico . . . . . . . . 5-12 Visualización de los resultados . . . . . 5-13 Matriz de confusión HSV . . . . . . . . 5-14 Matriz de confusión Lab . . . . . . . .. . . sin . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . balanceo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..

(14) Lista de Figuras. xiv 5-15 Matriz 5-16 Matriz 5-17 Matriz 5-18 Matriz 5-19 Matriz. de de de de de. confusión confusión confusión confusión confusión. NTSC . . . . . . para XYZ . . . . YCBCR . . . . . RGB . . . . . . Opponent Space. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. 56 56 57 57 58.

(15) Lista de Tablas 3-1 3-2 3-3 3-4 3-5 3-6. Análisis de patrones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Regla del ABCD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Criterios para la lista de verificación de los tres puntos[31] . . . . . . . . . . Lista de verificación de los 7 puntos, criterios mayores y menores[31] . . . . . Interpretación método de Menzies.[31] . . . . . . . . . . . . . . . . . . . . . Comparación de los métodos de diagnóstico según su sensibilidad y Especifidad. 7 10 10 11 12 12. 4-1 4-2 4-3 4-4 4-5. DownSampling . . . . . . . . . . . . . . UpSampling . . . . . . . . . . . . . . . . Red de segmentación semánticas . . . . . Opciones de entrenamiento . . . . . . . . Recuento de pı́xeles para la segmentación. . . . . .. 32 33 34 35 36. 5-1 Umbral óptimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5-2 Entrenamiento segmentación semántica . . . . . . . . . . . . . . . . . . . . . 5-3 Resultados Clasificador SVM . . . . . . . . . . . . . . . . . . . . . . . . . . .. 44 47 52. . . . . . . . . . . . . . . . . . . . . . . . . semántica. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . ..

(16) 1 Introducción El daño en la piel es acumulativo y las enfermedades de la dermis afectan con mayor frecuencia a los adultos mayores, quienes han estado expuestos a diferentes factores como la radiación solar. La exposición a la radiación utravioleta (UV) es uno de los agentes de riesgo principales del cáncer de piel, cuando este daño afecta el ADN de los genes que controlan el crecimiento de las células de la piel, aparece el cáncer. En Colombia, cada año mil personas podrı́an desarrollar esta enfermedad, de las cuales el 25 % podrı́a morir por esta causa[4]. El cáncer de piel es un problema de salud pública y existen varios tipos, pero el tipo Melanoma tiene la mayor tasa de mortalidad. En 2015, la incidencia global de melanomas fue estimada sobre 350 mil casos, con casi 60 mil muertes. A pesar de que la mortalidad es significativa, cuando es detectado en una etapa temprana, la tasa de supervivencia del melanoma aumenta considerablemente superando el 95 % de los casos [15]. La dermatoscopia es una técnica de fotografı́a reciente que amplifica la imagen de la piel y elimina la reflexión de la superficie, las investigaciones demuestran que con el entrenamiento apropiado, la precisión del diagnóstico puede variar entre un 75 % a 84 %. Existen diversos algoritmos para analizar imágenes dermatoscópicas como la lista de los 3 puntos, la regla del ABCD, el método de Menzies y la lista de los 7 puntos; estos algoritmos sirven como punto de partida para evaluar una lesión y clasificarla de acuerdo a caracterı́sticas puntuales, sin embargo, muchos médicos ignoran estos métodos y se basan en su experiencia personal para diagnosticar la enfermedad[6]. La dermatoscopia permite implementar herramientas de detección automática basada en el análisis y procesamiento de imágenes; hoy en dı́a, con el acceso a cámaras de alta resolución, los algoritmos pueden mejorar de forma significativa nuestra habilidad para ver y detectar lesiones problemáticas. Por esta razón, muchas instituciones están invirtiendo en investigación sobre análisis automático[15]. The International Skin Imaging Collaboration 1 , ISIC, por sus siglas en inglés, ha puesto a disposición una gran base de datos de imágenes dermatóscópicas, con más de 20mil imágenes provenientes de los principales centros clı́nicos a nivel internacional. ISIC promueve la investigación colaborativa a través de retos para desarrolladores y su objetivo es brindar a los participantes una base de datos confiable para desarrollar una herramienta de clasificación de enfermedades de la piel[3]. Existen cientos de aplicaciones para dispositivos móviles que se comercializan como dispositivos educativos o de asistencia para la detección temprana de melanomas, sin embargo, 1. Colaboración internacional de imágenes de la piel.

(17) 1.1 Justificación. 3. aún falta encontrar modelos precisos que brinden seguridad y que sean aceptados por la comunidad médica[3].. 1.1.. Justificación. En Colombia, como en el resto del mundo, el cáncer de piel se ha convertido en una preocupación habitual, se estima que en el paı́s se detectan 1213 casos nuevos cada año, de los cuales 226 resultan en la muerte [22]; aunque las lesiones cutáneas son visibles a simple vista, es difı́cil distinguir entre una lesión benigna y un melanoma en su etapa inicial, dando lugar a biopsias innecesarias para hacer el diagnóstico[8]. La detección temprana juega un papel clave en el tratamiento del cáncer de piel, por esta razón, este proyecto tiene como objetivo aportar una herramienta de análisis no invasivo, que a partir de imágenes dermatoscópicas sea capaz de detectar, extraer caracterı́sticas y clasificar lesiones pigmentadas, para apoyar el diagnóstico médico. Con esta herramienta se busca dar un paso en el análisis de imágenes dermatoscópicas, con el fin de apoyar a estudiantes y médicos especialistas en dermatologı́a. A partir de la base de datos, se segmentaron las imágenes para aislar la lesión pigmentada de la piel, se utilizó el método de Otsu y la segmentación semántica complementados con operaciones morfológicas. A continuación, se realizó la extracción de caracterı́sticas locales de la imagen segmentada a través de bag of words; para ésto, se tuvieron en cuenta los descriptores de color y forma, ya que se consideraron caracterı́sticas relevantes para el vocabulario del bag of words. Finalmente, se obtuvo el histograma de caracterı́sticas para cada imagen y se entrenó el clasificador por medio de SVM (Support Vector Machine 2 ).. 2. Máquinas de vectores de soporte.

(18) 2 Objetivos 2.1.. Objetivo general. Identificar lesiones pigmentadas en la piel tipo melanoma usando imágenes dermatoscópicas, a través de técnicas de inteligencia artificial y procesamiento de imágenes para apoyar el diagnóstico médico.. 2.2.. Objetivos especı́ficos. Segmentar las imágenes dermatoscópicas con el fin de generar una mascara binaria que indique las partes de la imagen que corresponden a la lesión pigmentada. Extraer las caracterı́sticas principales de la lesión usando procesamiento digital de imágenes. Clasificar las lesiones a través de una red neuronal entrenada con aprendizaje supervisado..

(19) 3 Marco teórico 3.1.. Cáncer de piel. La piel es el órgano más extenso del cuerpo humano, lo protege y es por ello que puede ser afectada por un gran número de patologı́as, entre ellas el cáncer; éste puede definirse como la multiplicación rápida, desordenada y agresiva de células anormales, principalmente de la capa más superficial de la piel, la dermis. El cáncer de piel se revela generalmente con la generación de un tumor y según sea su crecimiento, hacia el interior o el exterior de la dermis, representa un grado diferente de amenaza. El melanoma, el más letal de todos los cánceres de piel, se origina en los melanocitos, las células que dan el color a la piel. Al igual que todos los tipos de cáncer de piel, se caracteriza por ser una enfermedad silenciosa, usualmente indolora que puede originarse en piel sana o a partir de un lunar u otra lesión ya existente que va cambiando su forma, tamaño, color o textura[20]. La incidencia del cáncer de piel ha aumentado a nivel mundial desde 1979, sobre todo el de tipo melanoma. La exposición prolongada a la radiación solar y a su componente ultravioleta sin ninguna precaución es un factor de gran influencia en la mayorı́a de los casos[13], incluso se ha visto un incremento de incidencias en personas jóvenes debido al uso de dispositivos de bronceado artificial y a la falta de protección al exponerse al sol. El melanoma puede ser diagnosticado tempranamente a través de una simple inspección visual, sı́ se detecta mientras aún está confinado a las capas externas de la piel es curable y la tasa de supervivencia relativa a 5 años es aproximadamente del 98 %. Desafortunadamente, muchos pacientes continúan siendo diagnosticados con una enfermedad más avanzada. Como resultado, de los más de 13 millones de casos diagnosticados de cáncer de piel a nivel mundial, más de 65,000 personas mueren de melanoma cada año. En Colombia, según reportes de la Secretarı́a Distrital de Salud, se diagnostican alrededor de 6.500 casos al dı́a y aproximadamente 250 personas mueren al año por causa de la enfermedad[13].. 3.2.. Dermatoscopia. A pesar de que las lesiones en la piel son visibles directamente, existen muchas estructuras de la misma que no lo son. Con el avance de la tecnologı́a y su aplicación en la medicina, hoy en dı́a se hace uso del dermatoscopio para observar con más detalle la lesión pigmentada. La dermatoscopia o Microscopı́a de Epiluminiscencia (ELM), es una técnica que mediante.

(20) 6. 3 Marco teórico. Figura 3-1: La dermatoscopia digital detecta tumores de piel, como el melanoma, en sus etapas iniciales, tomando imágenes de los lunares con una cámara digital, que aumenta su tamaño para que el dermatólogo los estudie[7]. un sistema de amplificación e iluminación permite eliminar el reflejo y la reflexión de la superficie de la piel, permitiendo una mejor visualización en vivo de la estructura y subestructura de las lesiones pigmentadas, cuando se usa por dermatólogos expertos, permite reconocer caracterı́sticas morfológicas que no son visibles a simple vista. Estudios indican que la dermatoscopia logra una mejorı́a del 20-25 % en la precisión diagnóstica del melanoma, implicando ası́, una reducción de biopsias innecesarias y una mejor oportunidad para el seguimiento y documentación de las lesiones existentes[31]. Los instrumentos actualmente usados para la realización de una exploración dermatoscópica son el dermatoscopio manual, el estereomicroscopio quirúrgico binocular y portátil, el videodermatoscopio y los equipos de dermatoscopia digital. El dermatoscopio usualmente utilizado tiene un aumento de 10x que es suficiente para una evaluación de las lesiones pigmentadas de la piel en la rutina diaria.. 3.3.. Algoritmos de diagnóstico dermatoscópico. El diagnóstico por dermatoscopia se divide en dos etapas: la primera, consiste en determinar si la lesión es de tipo melanocı́tica o no, para posteriormente distinguir la naturaleza benigna o maligna de la lesión. Para discernir la naturaleza de la lesión, se debe ser capaz de reconocer una serie de estructuras dermatoscópicas asociados al melanoma; ahora bien, desde un punto de vista clı́nico, el médico puede usar distintos criterios o parámetros dermatoscópicos para evaluar si la lesión es de tipo melanoma (maligna)..

(21) 3.3 Algoritmos de diagnóstico dermatoscópico. 7. Patrones globales. Caracterı́sticas locales especı́ficas. Caracterı́sticas locales adicionales. Caracterı́sticas Confusión. de. Múltiples componentes, reticular, globular, cresta paralela, inespecı́fico. Red de pigmentos atı́picos, puntos / glóbulos irregulares, vetas irregulares, velo azul-blanquecino, pigmentación irregular, estructuras de regresión, vasos irregulares punteados o lineales. Áreas hipopigmentadas, vasos en horquilla, glóbulos rojos. Patrón homogéneo o estrellado; red tı́pica de pigmentos, puntos / glóbulos regulares, vetas regulares, quistes tipo milia.. Tabla 3-1: Caracterı́sticas presentes en una lesión tipo melanoma[14]. Uno de los métodos ampliamente utilizados para el diagnóstico de melanoma es el análisis de patrones. Este método se basa en una evaluación crı́tica y simultánea de criterios dermatoscópicos individuales, lo cual requiere de un gran conocimiento y experticia del examinador para lograr un diagnóstico con suficiente seguridad; este método presenta graves desventajas en cuanto a que es difı́cil reproducirlo ya que depende, en gran medida, del examinador. Por ello se han introducido métodos semicuantitativos de diagnóstico adicionales con el objetivo de aumentar la sensibilidad en la detección del melanoma y evitar al máximo la influencia del conocimiento y experiencia del examinador, facilitando ası́, el diagnóstico a los dermatólogos menos experimentados en la técnica, además, las técnicas semicuantitativas permiten una posible implementación a través de algoritmos computacionales. Algunos de los métodos para distinguir los parámetros y patrones asociados al melanoma son la regla ABCD, la lista de control de 7 puntos y el método de Menzies. A continuación se dará una breve explicación de los métodos mencionados [14].. 3.3.1.. Análisis de patrones. Ésta es la técnica más usada por los médicos con más experiencia y conocimiento, también es la que brinda mejores resultados para el diagnóstico. Las lesiones melanocı́ticas se caracterizan por tener unos pocos patrones globales que cubren la mayor parte de la lesión, permitiendo una categorización preliminar rápida, y unos patrones locales, estructuras individuales presentes en distintas regiones de la lesión; sin embargo, se pueden observar caracterı́sticas locales adicionales que representan pistas de diagnóstico útiles. Además, se pueden presentar caracterı́sticas de confusión, es decir, criterios dermoscópicos que con poca frecuencia están presentes dentro de una categorı́a de diagnóstico dando lugar a una clasificación equivocada[14]. En la tabla 3-1 se listan los criterios que clasificarı́an una lesión..

(22) 8. 3.3.2.. 3 Marco teórico. Regla de ABCD. Este es un método semicuantitativo alternativo al análisis de patrones y para usarlo es necesario que la lesión pigmentada sea melanocı́tica; la nemotecnia surge de los cinco criterios en los que se basa: Asimetrı́a: Se divide la lesión pigmentada en dos ejes de 90 %, de manera que se consiga la mayor simetrı́a posible, y se valora la asimetrı́a con respecto el color, la forma y estructuras en ambos lados del eje. Se otorga una puntuación de 0 si no existe asimetrı́a en ningún eje; de 1, si existe asimetrı́a en un eje y de 2, si la presenta en ambos ejes. De esta manera se tiene una puntuación de 0 a 2. Borde: La lesión es dividida en 8 segmentos y se puntúa con 1 cada porción que presente una finalización abrupta o brusca del borde. Por el contrario, un corte gradual e indistinto de la porción obtendrá un puntaje de 0. De tal manera que la puntuación mı́nima que se puede obtener es 0 y la máxima 8. Color: Se valora la presencia de 6 colores: blanco, marrón claro, marrón oscuro, azulgris, rojo y negro. El blanco tan sólo puntuará si es más claro que la piel adyacente, por lo que la puntuación máxima será de 6 y la mı́nima de 1. Estructuras dermatoscópicas: Se consideran 5 estructuras cada una de las cuales puntúa con un punto, por lo que la puntuación máxima será de 5 y la mı́nima de 1. Las estructuras dermatoscópicas son: • Red pigmentada(Figura 3-2), Consiste en una conexión de lı́neas entrecruzadas que provocan la generación de huecos, regulares o irregulares. Las lı́neas indican mayor cantidad de melanina en esa región. • Áreas desestructuradas, que deben comprender más del 10 % de la superficie de la lesión. • Puntos(Figura 3-3), que deben ser más de dos. • Glóbulos(Figura 3-4), que deben ser al menos dos. • Ramificaciones lineales, que al igual que los puntos deben ser más de dos. Cada uno de los puntajes alcanzados por los criterios anteriores, deben ser multiplicados por un peso ponderado para calcular el valor del ı́ndice dermatoscópico total (TDS):. T DS = 1, 3A + 0, 1B + 0, 5C + 0, 5D El significado del valor del TDS se interpreta según la tabla 3-2. (3-1).

(23) 3.3 Algoritmos de diagnóstico dermatoscópico. 9. (a) Red pigmentada tı́pica. (b) Red pigmentada atı́pica. Figura 3-2: La red pigmentada consiste en una rejilla de ”lı́neas”pigmentadas que se cruzan formando un patrón de panal[23].. Figura 3-3: Puntos Los puntos son pequeñas y redondas estructuras de menos de 0.1mm en diámetro que tienen un color rojo correspondiente a los vasos sanguı́neos; sin embargo, cuando interactuan con melanina, su rango de colores varı́a desde negro, café, hasta azul grisáceo dependiendo de la profundidad y la concentración de la melanina en la piel[23]..

(24) 10. 3 Marco teórico. Figura 3-4: Glóbulos Los glóbulos son estructuras simétricas, circulares o ovales, bien demarcadas con un diámetro mayor que 0.1mm[23]. Tabla 3-2: Interpretación del indice dermatoscópico total para la regla del ABCD[31] TDS Diagnóstico Menor a 4.75 Benigno . Entre 4.75 y 5.45 Sospechoso Mayor a 5.45 Maligno. 3.3.3.. Lista de verifición de los 3 puntos. Este es uno de los algoritmos visuales más sencillos, depende de la distinción de tres patrones como lo son: la asimetrı́a, el patrón reticular atı́pico y las estructuras blanco-azuladas, estos patrones son relevantes en el diagnóstico del melanoma y la presencia de al menos dos de ellos, indica una alta probabilidad de melanoma (Tabla 3-3). Tabla 3-3: Criterios para la lista de verificación de los tres puntos[31] . Criterio Definición Asimetria Asimetrı́a del color y/o estructura en uno o dos ejes perpendiculares Patrón reticular atı́pico Retı́culo pigmentado con distribución irregular y lı́neas gruesas Estructuras blanco-azuladas Cualquier tipo de coloración azulada, blanquecina o ambas en la lesión. 3.3.4.. Lista de verificación de los 7 puntos. Este es un método de diagnóstico ideado para ayudar a la clasificación de melanomas por examinadores menos experimentados, requiere la identificación de siete criterios dermatológicos jerarquizados. A las caracterı́sticas más frecuentemente relacionadas con el melanoma, llamadas criterios mayores, se les asigna un puntaje de 2, por otro lado, a las caracterı́sticas menos asociadas al melanoma, llamadas criterios menores, se les asigna un puntaje de 1. Mediante la simple adición de las puntuaciones individuales, una puntuación total de 3 o.

(25) 3.3 Algoritmos de diagnóstico dermatoscópico. 11. más permite la clasificación de melanoma con una sensibilidad del 95 % y una especificidad del 75 %.. Tabla 3-4: Lista de verificación de los 7 puntos, criterios mayores y menores[31] Criterio dermatoscópico Puntuación Máxima CRITERIOS MAYORES Retı́culo pigmentado atı́pico 2 Velo azul-Blanquecino 2 Patrón vascular atı́pico 2 CRITERIOS MENORES . Proyecciones irregulares 1 Puntos/Glóbulos irregulares 1 Manchas de pigmento irregulares 1 Estructuras asociadas a la regresión 1 PUNTUACIÓN TOTAL Menor a 3 Benigna Mayor o igual a 3 Maligna. 3.3.5.. Método de Menzies. Se basa en la valoración de 11 criterios dermatoscópicos divididos en criterios negativos, que no deben estar presentes para el diagnóstico de melanoma, y criterios positivos, alguno de ellos debe cumplirse para considerar maligna la lesión pigmentada. Para diagnosticar el melanoma, no se deben presentar ninguno de los dos criterios negativos y se debe tener al menos, uno de los nueve criterios positivos (Tabla 3-5). El estudio hecho por la CNMD 1 , en el que se evaluaron los diferentes métodos de diagnóstico según su reproducibilidad2 , comparando la sensibilidad3 y la especifidad4 de cada uno, se puede observar en la tabla3-6.. 1. Consenso de Netmeeting en Dermoscopia Capacidad del test para ofrecer los mismos resultados cuando se repite su aplicación en circunstancias similares. La variabilidad biológica del hecho observado, la introducida por el propio observador y la derivada del propio test, determinan su reproductividad[9]. 3 Es la probabilidad de clasificar correctamente a un individuo enfermo, es decir, la probabilidad de que para un sujeto enfermo se obtenga en la prueba un resultado positivo. La sensibilidad es, por lo tanto, la capacidad del test para detectar la enfermedad[9]. 4 Es la probabilidad de clasificar correctamente a un individuo sano, es decir, la probabilidad de que para un sujeto sano se obtenga un resultado negativo[9]. 2.

(26) 12. 3 Marco teórico. Tabla 3-5: Interpretación método de Menzies.[31] CRITERIOS Negativos Simetria No estan presentes en un melanoma Monocromı́a Velo azul-Blanquecino Despigmentación tipo cicatriz Múltiples colores Retı́culo pigmentado prominente Positivos Pseudópodos Al menos uno debe estar presente Proyecciones radiales Múltiples puntos marrones Puntos/Glóbulos negros periféricos Múltiples puntos azul-gris Tabla 3-6: Comparación de los métodos de diagnóstico según su sensibilidad y Especifidad Desempeño Algoritmo de Diagnóstico Sensibilidad % Especifidad % Análisis de patrones 83.7 83.4 Regla de ABCD 82.6 70 Lista de los 7 puntos 83.6 71.1 Método de Menzies 85.7 71.1 Lista de los 3 puntos 91 71.9. 3.4.. Técnicas de procesamiento de imagen. Para el desarrollo de este proyecto se hizo uso de varios conceptos y herramientas del procesamiento digital de imágenes. Con la intención de contextualizar al lector, a continuación se describen algunos de ellos. Nos referimos por imagen a una función de intensidad de luz bidimensional f (x, y), donde x e y indican las coordenadas espaciales y el valor de f en cualquier punto (x, y) es proporcional a la luminosidad (o nivel de gris) de la imagen en dicho punto. Una imagen digital es una imagen (función) f (x, y) que ha sido discretizada tanto en coordenadas espaciales como en luminosidad. En otras palabras, una imagen digital tiene un número finito de elementos, cada uno de los cuales tiene una ubicación y un valor particular. Los elementos de estos arreglos digitales son llamados elementos de imagen o pı́xeles[12]. Teniendo en cuenta lo anterior, un pı́xel tiene vecinos tanto verticales como horizontales a una unidad de distancia, cuyas coordenadas estarı́an dadas por: (x + 1, y), (x − 1, y), (x, y + 1), (x, y − 1). (3-2).

(27) 3.4 Técnicas de procesamiento de imagen. (a) Canal Rojo. (b) Canal Verde. 13. (c) Canal Azul. Figura 3-5: Canales RGB En la Figura(a). se puede visualizar el canal rojo, en la Figura(b). se puede visualizar el canal Verde y en la Figura(c). se puede visualizar el canal Azul del Modelo RGB. Y los cuatro vecinos diagonales están dados por (x + 1, y + 1), (x + 1, y − 1), (x − 1, y + 1), (x − 1, y − 1). 3.4.1.. (3-3). Representación del color. Para representar el color de una imagen existen diferentes modelos que proporcionan métodos para la manipulación de estos, ordenándolos y especificándolos, ofreciendo distintas caracterı́sticas y ventajas. En la actualidad existen varias de estas representaciones como RGB, HSV, CIELAB, Opponent Space. RGB El espacio RGB representa el color como la mezcla aditiva de las matrices que describen y comprenden los tres colores primarios rojo (R), verde (G) y azul (B), con diferentes valores de luminosidad (ver Figura 3-5). Este es el espacio de color más utilizado y extendido ya que proporciona información sobre cada color primario por separado, aunque su representación depende de cómo esté definido cada color primario en el dispositivo de visualización[25]. El uso del espacio RGB permite evitar la alteración de las propiedades del color durante el proceso de segmentación y conseguir una mayor velocidad de segmentación al evadir operaciones de conversión y redondeo. HSV El modelo HSV representa el color como una combinación de tonalidad (H), saturación (S) e intensidad (V). Este modelo tiene algunas ventajas como independizar la información de tonalidad y la del brillo, pudiendo modificaras de forma independiente..

(28) 14. 3 Marco teórico. Figura 3-6: Representación espacial del modelo CIELAB CIELAB El espacio CIELAB es un espacio estandarizado que pretende lograr una representación del color perceptualmente uniforme. Este modelo se basa en la teorı́a de los colores opuestos, la variable L representa luminancia, A magenta-verde y B amarillo-cyan. Un valor negativo de A define un color más verde que magenta, mientras que un valor positivo de B define un color más amarillo que cyan, ver imagen 3-6. Opponent Space Este modelo está basado en el sistema de visualización humano y el modelo de colores opuestos. Tiene dos componentes cromáticos y uno monocromático: O1 representa el canal verde-rojo (GR) O1 = G − R. (3-4). O1 representa el canal azul-amarillo (BY) O2 = B − Y = B − (R + G). (3-5). O3 es la componente de luminancia Para esta aplicación y considerando la naturaleza de las imágenes se realizan diferentes pruebas para definir cual de los anteriores ofrece mayor cantidad de información.. 3.4.2.. Operaciones morfológicas. La morfologı́a matemática es una técnica de procesamiento de imagen cuyo propósito es analizar la forma de los objetos. Las dos principales operaciones de la morfologı́a son la dilatación y erosión, la combinación de las anteriores da como resultado las operaciones de.

(29) 3.4 Técnicas de procesamiento de imagen. 15. apertura y cierre. Las operaciones morfológicas se realizan utilizando elementos estructurales, que son matrices de unos y ceros cuya forma y tamaño se adaptan a las propiedades geométricas de la imagen a procesar[26][2]. Si se tiene que Ay B son conjuntos en R2 y Ø el conjunto vacı́o, entonces: La traslación de A por x = (x1 + x2 ) (A)x = [c|c = a + x, paraa ∈ A]. (3-6). La reflexión de A Â = [x|x = −a, paraa ∈ A]. (3-7). Complemento de A Ac = [x|x ∈ / A]. (3-8). Erosión: la erosión es el resultado de comprobar si el elemento estructural B está completamente incluido dentro del conjunto A. En la práctica, el resultado de la erosión es el conjunto de posiciones x para los cuales el elemento estructural B reflejado y desplazado está contenido en A. A. B = [x|Bx ⊆ X]. (3-9). Dilatación: el resultado de la dilatación es el conjunto de elementos tal que al menos algún elemento estructural B está contenido en el conjunto A, cuando B se desplaza sobre el conjunto A. En la práctica, se refleja y traslada el elemento estructural B por la imagen y se ponen a 1 los pı́xeles de A en aquellas posiciones x en las que la intersección de A y B reflejada y desplazada no es nula. A ⊕ B = [x|(B̂)x ∩ A 6= Ø]. (3-10). Apertura: elimina todos los objetos que no están completamente contenidos en el elemento estructural sin disminuir el tamaño a los objetos que superen la erosión. Consiste en erosionar A por B, y a continuación dilatar el resultado por B. Se consigue un efecto de suavizado del contorno de los objetos, eliminando ruido. A ◦ B = (A. B) ⊕ B. (3-11). Cierre: al contrario que la apertura, realiza en primer lugar una dilatación y a continuación una erosión. Esto permite fusionar objetos muy cercanos o eliminar pequeñas fisuras. A · B = (A ⊕ B). B. (3-12). A partir de estas cuatro operaciones se desarrollan algoritmos morfológicos que desempeñan otro tipo de funciones..

(30) 16. 3 Marco teórico. Figura 3-7: Mascara general 3x3 [12].. 3.5.. Segmentación. Para el diagnóstico automático del cáncer de piel es necesario discernir que sección de la piel es de interés, por esta razón, es de vital importancia realizar un proceso de segmentación que permita aislar la lesión del resto de la piel. En el campo de procesamiento de imágenes se tiene que la segmentación es el proceso que divide una imagen en regiones con el fin de facilitar su procesamiento. El nivel al cual la división es llevada a cabo depende en el problema que se desea solucionar, es decir, se deberı́a detener un proceso de segmentación una vez se tenga el objeto de interés aislado[12]. En la práctica, el resultado de la segmentación es la asignación de etiquetas a pı́xeles que por sus caracterı́sticas se consideran parte de un objeto determinado. Los algoritmos de segmentación usualmente están basados en dos de las propiedades básicas de la matiz de intensidades: discontinuidad y similitud. El primero de ellos se basa en los cambios abruptos de intensidad como lo son los bordes en una imagen. Por otro lado la segunda se basa en la detección de regiones que son similares de acuerdo con un conjunto de criterios predefinidos. La detección de bordes ha sido uno de los algoritmos más utilizados y estudiados[11].. 3.5.1.. Segmentación basada en discontinuidades. Los algoritmos basados en discontinuidades detectan los cambios bruscos en la intensidad de una imagen. La forma más común de hacer esto es pasar una máscara a través de esta, con la forma general mostrada en la fig 3-7), para después compararlo con un umbral y seleccionar ası́ los cambios más bruscos. Este procedimiento envuelve conocer la respuesta de la máscara en cualquier punto de la imagen, la cual está dada por: R=. 9 X. Wi Zi = W1 Z1 + W2 Z2 + ... + W9 Z9. (3-13). i=1. Donde Zi es el nivel de gris del pı́xel asociado con el coeficiente de la máscara Wi . R (valor asignado al pı́xel central) es básicamente las diferencias de intensidad ponderadas entre el punto central y sus vecinos. La idea es que un punto aislado cuyo nivel de gris es significativamente diferente al del fondo, será fácilmente detectado por este tipo de mascara. Para.

(31) 3.6 Clasificación. 17. determinar si el nivel de gris es significativo o no, el método sugerido es utilizar un umbral. Ahora bien si se define T como un valor umbral no negativo tendrı́amos que: 1 si |R| > T f (x) = (3-14) 0 si |R| ≤ T Utilizando esta misma técnica, es posible diseñar máscaras para detectar todo tipo de discontinuidades como lı́neas, puntos y bordes.. 3.5.2.. Segmentación basada en similitud. Este método de segmentación se basa en la agrupación de regiones de la imagen cuyos pı́xeles compartan un conjunto de caracterı́sticas semejantes, como el color o la intensidad. Dentro de estos métodos, cabe destacar la umbralización. Umbralización Debido a sus propiedades intuitivas y la simplicidad de implementación la umbralización es uno de los métodos más empleados e importantes en la segmentación de imágenes [24]. Consiste en asignar un valor o etiqueta a cada pı́xel en función de un umbral no negativo T, generalmente basado en la información suministrada por el histograma de escala de grises. Entonces, cualquier punto(x, y) en la máscara g(x, y) que supere el umbral será un punto de objeto (valor de 1), de otro modo será un punto de fondo (valor 0). g(x, y) =. 1 si f (x, y) > T 0 si f (x, y) ≤ T. (3-15). En imágenes donde los niveles predominantes de intensidad estén bien definidos, es posible aplicar una umbralización multinivel. Esto es, a partir de varios umbrales, clasificar un punto(x, y) como perteneciente a uno de dos o más objetos diferentes. En general, la dificultad para seleccionar dichos umbrales hace que, en muchas ocasiones, un umbral único proporcione segmentaciones más precisas[11].. 3.6.. Clasificación. El proceso de clasificación por parte de sistemas automáticos consiste en asignar a cada elemento de un conjunto una clase determinada. Las clases identifican elementos que comparten una serie de caracterı́sticas similares. Ahora bien, se define caracterı́stica como todas aquellas propiedades de un elemento que pueden ser de alguna forma cuantificadas. Pese a que un objeto puede poseer un número infinito de caracterı́sticas, es necesario resaltar que no todas son relevantes a la hora de distinguirlo de otro objeto. Algunas caracterı́sticas.

(32) 18. 3 Marco teórico. pueden estar relacionadas entre sı́, tener un carácter aleatorio o no relacionarse con el resto de propiedades del objeto. Por esto es necesario identificar y seleccionar las caracterı́sticas según la aplicación, ya que la eficiencia de un sistema automático de clasificación recae fuertemente en la precisión y relevancia de las caracterı́sticas cuantificadas.. 3.6.1.. Extracción de Caracterı́sticas. Es necesario representar y describir los pı́xeles resultantes de la segmentación de forma que sea posible su procesamiento; la descripción de una región se realiza con base en sus caracterı́sticas internas, externas o ambas. La extracción de caracterı́sticas consiste básicamente en la tarea de localizar puntos de interés en una imagen dada, los cuales, contienen una alta cantidad de información relevante sobre su entorno y son invariables ante las perturbaciones que puede sufrir una imagen, es decir, son reproducibles. Para lograr clasificar correctamente las imágenes dermatoscópicas se debe asegurar que la representación de las imágenes de una misma clase sea lo más similar posible. En otras palabras, en la representación por puntos de interés se debe lograr que en imágenes diferentes de la misma clase se detecten los mismos puntos de interés, en las mismas zonas y que estas zonas sean las más representativas de la imagen. SIFT Muchos algoritmos son invariantes ante las rotaciones pero esto no necesariamente aplica cuando la imagen presenta un escalamiento. Scale Invariant Feature Transform, SIFT, es un algoritmo de detección de puntos de interés que es invariante ante rotaciones y escalamientos. SIFT consiste en aplicar sobre la imagen una secuencia de diferencias gaussianas centradas en cada uno de los pı́xeles de la imagen en una escala σ determinada (de la pirámide de imágenes5 ) 3-8, esto produce un efecto de suavizado y pérdida del detalle de la imagen original a medida que los pixeles vecinos van perdiendo influencia una vez se van alejando del pı́xel principal. La diferencia de gaussianas actúa como detector de contornos o áreas con intensidad homogénea (BLOBS) rodeadas de zonas oscuras o claras. Con lo anterior, podemos encontrar los máximos locales a través de la escala y el espacio, lo que nos da una lista de valores (x, y, σ) indicando que hay un punto de interés potencial en (x, y) a escala σ. En otras palabras, un pı́xel es comparado con sus 8 vecinos más cercanos en la misma escala, como también se compara con los 9 puntos vecinos en las escala anterior y posterior3-9. Esto significa que un punto de interés está mejor representado en esa escala. Una vez localizados todos los puntos de interés, estos deben refinarse para obtener resultados más precisos. Se eliminan todos los puntos con contraste bajo (bajo valor en la diferencia de 5. Conjunto de imágenes con tamaño decreciente o creciente, usada para detectar caracterı́sticas de diferentes tamaños.

(33) 3.6 Clasificación. 19. Figura 3-8: Pirámide de imágenes [18]. gaussianas) además de puntos localizados en los bordes ya que pueden introducir ruido en la imagen. Ahora una orientación es asignada a cada punto de interés, ya que la descripción de estos se representará a través de un vector numérico que representa la información que se tiene de la imagen en una zona que se define alrededor del punto de interés. El descriptor se basa en el concepto de gradiente y se define como el cambio de intensidad de la imagen en una dirección determinada. La diferencia de intensidad se mide en las coordenadas x e y, éstas se pueden ubicar en un plano describiendo un vector con su respectiva magnitud y ángulo de dirección. Se crea un histograma de orientación dividiendo los 360 grados en 36 intervalos, que provee información sobre la distribución de las orientaciones del gradiente en una determinada región además de, la orientación dominante en la región. Los pı́xeles centrales deben tener una mayor importancia y por ello se pondera la magnitud del gradiente con una función gaussiana de σ igual a 1,5 veces la escala del punto de interés. Para calcular la orientación se toma el pico más alto en el histograma y picos superiores al 80 %, creando puntos de interés con la misma ubicación y escala, pero con diferentes direcciones, contribuyendo a la estabilidad de la coincidencia. A continuación se crea el descriptor del punto de interés. Se toma un área de 16x16 alrededor del punto de interés y se divide en 16 subbloques de tamaño 4x4. Para cada subbloque, se crea un histograma de orientación de 8 divisiones, de modo que hay un total de 128 valores de división disponibles. Además de esto, se toman varias medidas para lograr robustez contra.

(34) 20. 3 Marco teórico. Figura 3-9: Comparación entre pı́xeles [18]. cambios de iluminación (normalizar el descriptor), rotación, etc. SURF Speeded-Up Robust Features, SURF, es la versión mejorada de SIFT. Este algoritmo aproxima el Laplaciano de Gaussianas(LoG) mediante filtros cuadrados, lo cual implica mayor rapidez debido a que su convolución puede ser calculada mediante el uso de imágenes integrales. SURF también usa el determinante de la matriz Hessiana para hallar BLOBS en lugares donde este es máximo y seleccionar la escala. Para la asignación de orientación al igual que para la descripción de los puntos de interés, SURF usa respuestas wavelet en dirección horizontal y vertical para un vecindario de tamaño determinado. En el primer caso, se toma un vecindario circular de radio 6s, siendo s la escala del punto de interés, y al igual que en SIFT se ponderan con pesos Guassianos adecuados. La orientación dominante se estima sumando todas las respuestas dentro de una ventana de orientación deslizante con ángulo de 60 grados. La respuesta wavelet se puede encontrar usando de nuevo imágenes integrales en cualquier escala. En la descripción de los puntos de interés, se toma un vecindario cuadrado de tamaño 20sx20s alrededor del punto central, el cual se divide en 4x4 subregiones. Para cada subregión, se toman las respuestas wavelets horizontales y verticales, suavizando los resultados mediante un filtro Gaussiano (ofrece mayor robustez ante el ruido, errores y deformaciones geométricas o fotométricas) y obteniendo ası́ dx y dy. A continuación se suman los resultados dx, dy y el valor absoluto |dx|, |dy|. De esta manera, cada subregión proporciona un vector v, que estará compuesto por: X X X X v=( dx, dy, |dx|, |dy|) (3-16) El descriptor del SURF se obtiene mediante la unión de los vectores de las subregiones[18]..

(35) 3.6 Clasificación. 3.6.2.. 21. Clasificación. Una vez se obtienen las caracterı́sticas de los objetos a clasificar, hay dos criterios que se pueden aplicar para la determinación de las clases en un algoritmo de clasificación, la clasificación supervisada y no supervisada. La clasificación supervisada parte de un conjunto de clases conocido a priori (datos de entrenamiento), que servirán para generar una signatura caracterı́stica para cada clase a través de la extracción de caracterı́sticas[1]. Existen numerosos algoritmos de este tipo, como son las redes neuronales artificiales, SVM, árboles de decisión, Naı̈ve Bayes, Random Forests, etc. En la clasificación no supervisada es necesario establec er el número de clases en las cuales se quiere clasificar los objetos, ya que se emplea para procesar datos de los cuales no se tenı́a conocimiento a priori. Aquı́ los elementos más similares se van agrupando formando clases hasta llegar al número definido inicialmente. Dentro de esta categorı́a se incluyen las técnicas de clustering o agrupamiento y el algoritmo k-means. Con cualquiera de los dos criterios se puede diseñar un sistema que será capaz de asignarle a muestras futuras una clase determinada. Redes Neuronales Las redes neuronales artificiales son modelos matemáticos inspirados en nuestra comprensión de los sistemas nerviosos biológicos. Por tanto una red neuronal es una colección de neuronas artificiales, las cuales son unidades elementales para el procesamiento de la información. El modelo matemático de una neurona artificial se basa en las siguiente proposiciones: Las neuronas son las unidades elementales en un sistema nervioso en el que se produce el procesamiento de la información. Las entradas están dadas en forma de señales que se transmiten entre las neuronas a través conexiones. Cada conexión tiene un peso que multiplica la señal transmitida. Cada neurona tiene una acción interna, según el umbral de disparo, lo que resulta en una función de activación aplicada a la suma ponderada de las señales de entrada para producir una señal de salida. SMV Las máquinas de vectores soporte (SVM, del inglés Support Vector Machines) pertenecen a la categorı́a de los clasificadores lineales, puesto que inducen separadores lineales N-dimensionales o hiperplanos en la dimensión correspondiente para lograr una separación óptima. Para la introducción de dichos hiperplanos en problemas no lineales, se transforma el problema original en su forma dual equivalente (plano de caracterı́sticas) y se resuelve este.

(36) 22. 3 Marco teórico. último mediante el uso de funciones kernel. La idea principal es obtener el margen máximo equidistante entre el hiperplano y aquellas muestras de cada clase que se encuentran más cercanas a la frontera entre clases (vectores soporte), En SVM existen kernels lineales y no lineales, los primeros dan peores resultados ya que muchos problemas no son linealmente separables, sin embargo el costo computacional y de entrenamiento es muy bajo. La ecuación de predicción para una nueva entrada está dada por el producto punto entre la entrada (X) y cada vector soporte Xi . Los kernels no lineales tienen un costo computacional mayor (tiempo y memoria) en las etapas de aprendizaje y clasificación (es necesario guardar todos los vectores de soporte). Es necesario validar el parámetro C que es el factor de regularización de impacto del compromiso entre el grado de sobreajuste del clasificador final y la proporción del número de ejemplos mal clasificados; en la actualidad no existe una forma teórica de encontrar el valor del parámetro, sin embargo, se utiliza un valor tendiente al infinito. K-MEANS El parámetro de entrada en este tipo de algoritmos es el número final de conjuntos (k), utilizado para obtener un representante para cada cluster. Los clusters son definidos por la distancia al representante más cercano, el algoritmo es iterativo y su objetivo es encontrar la agrupación que minimice la distancia de las muestras al representante de cada cluster. El funcionamiento del algoritmo serı́a el siguiente: Inicializar los representantes de cada cluster de forma aleatoria con una muestra cualquiera del conjunto de entrenamiento. Se calcula la distancia de las muestras a los diferentes clusters inicializados aleatoriamente y se asigna al cluster que muestre la distancia más pequeña. Se modifica el representante de cada clase recalculando la media de todas las muestras asignadas al cluster. Se modifican las fronteras de los clusters y se repiten los pasos 2 y 3 hasta que no hayan cambios en la asignación. El resultado depende de la inicialización, a veces es necesario repetir el proceso con diferentes inicializaciones y escoger la solución que tenga la menor suma total de cada una de las distancias de las muestras a los representantes de cada cluster.. Ĉ = argmin. k X X j=1 xi ∈Cj. d(xi , Cj ). (3-17).

(37) 3.6 Clasificación. 23. Bag of Words. El método de bag of words (BOW) considera la imagen como un conjunto de caracterı́sticas locales, comunes y relevantes que son utilizadas para reconocer y clasificar las imágenes por métodos estadı́sticos. A estas caracterı́sticas se les llamará palabras visuales. La estructura general del algoritmo consiste en primer lugar agrupar las caracterı́sticas mediante el uso del algoritmo de agrupamiento K-means y de allı́ obtener el vocabulario visual. Los centros de agrupamiento son considerados como palabras visuales que componen el vocabulario visual. Luego se hace uso del histograma descrito por la frecuencia de aparición de las palabras visuales para representar el contenido de la imagen; como resultado, una imagen se ve como una bolsa llena de palabras visuales. Como último paso, se toma el histograma formado por palabras visuales de cada imagen como caracterı́sticas, luego se obtiene el modelo de clasificación por entrenamiento SVM. En este método no se tiene en cuenta la localización de las caracterı́sticas locales de la imagen, lo cual puede ayudar a clasificar una imagen independientemente de donde se encuentre el objeto[10]. Como ya se ha mencionado anteriormente, K-Means permite construir el vocabulario a través de un conjunto de imágenes suficientemente caracterı́sticas de cada clase, el resultado será un conjunto de puntos de interés los cuales son agrupados mediante clustering. La idea básica para representar una imagen a través de BOW se basa en asignar cada caracterı́stica local a la palabra visual más cercana, se selecciona la palabra visual que tenga la menor distancia al punto de referencia. La representación final corresponde a un histograma de palabras donde cada componente indica cuantas caracterı́sticas han quedado asociadas a una palabra. Existe la necesidad de comparar cada caracterı́stica con todas las palabras, lo que puede generar un costo computacional elevado por ello, se definen diferentes pesos para las caracterı́sticas. Las palabras que sean comunes y aparezcan frecuentemente en las imágenes brindan en su mayorı́a poca información y se le asigna un peso menor, en cambio, una caracterı́stica poco común puede brindar más información en la representación de la imagen. El valor asociado a cada palabra va dado por el term frecuency, el primer termino en la formula 3-17, éste cuenta la frecuencia de cada palabra en la imagen, normalizado por el número total de caracterı́sticas o de palabras que se tienen en la imagen. El valor anterior se pondera con otro factor que tiene en cuenta la relevancia o capacidad de discriminación de la palabra (IDF), este se obtiene dividiendo el número total de imágenes que hemos utilizado para construir el vocabulario, por el número de imágenes donde aparece una determinada palabra. De esta forma, si una palabra aparece en todas las imágenes, este cociente va a ser igual a 1 y al tomar el logaritmo, su peso va a ser de 0. Por lo contrario, si una palabra aparece en muy pocas imágenes, el valor de este cociente va a ser elevado y, por lo tanto, su ponderación va a ser elevada. En este método es importante normalizar para evitar dependencia del número total de palabras en la imagen..

(38) 24. 3.6.3.. 3 Marco teórico. Medidas de desempeño. A la hora de evaluar un clasificador, se emplean los siguientes parámetros: Sensibilidad: se define como la probabilidad de clasificar como enfermos los casos realmente enfermos. La sensibilidad es del 100 % cuando no se ha producido ningún falso negativo. Sensibilidad =. TP TP + FN. (3-18). Especificidad: probabilidad de clasificar como sanos los casos realmente sanos. La especificidad es del 100 % cuando no se ha producido ningún falso positivo. Especif icidad =. TN TN + FP. (3-19). Precisión: es el porcentaje global de acierto de éste. Evidentemente, la precisión es del 100 % cuando no se producen ni falsos positivos ni falsos negativos. P recision =. TN + TP TN + TP + FN + FP. (3-20). Donde: TP: Verdadero positivo, porcentaje de muestras positivas clasificadas correctamente como positivas. TN: Verdadero negativo, porcentaje de muestras negativas clasificadas correctamente como negativas. FP: Falso positivo, porcentaje de muestras negativas clasificadas incorrectamente como positivas. FN: Falso negativo, porcentaje de muestras positivas clasificadas incorrectamente como negativas. Resulta evidente que un buen clasificador deberá presentar elevadas tasas de TP y TN frente a FP y FN..

(39) 4 Metodologı́a El proyecto fue dividido en tres secciones, como lo son: segmentación, extracción de caracterı́sticas y clasificación. Cada etapa fue desarrolla por separado utilizando diferentes técnicas para comparar resultados (ver Figura. 4-1, pág. 26). El sistema fue entrenado con imágenes dermatoscópicas de lesiones pigmentadas en formato JPEG, las cuáles poseen un tamaño normalizado de 450x600px y fueron adquiridas con diferentes tipos de dermatoscopia, en diversos lugares del cuerpo (excluyendo mucosas y uñas), además, fueron proveı́das por diferentes instituciones especializadas en el estudio de la piel. Cada imagen contiene una lesión primaria y algunas pueden contener rayas con marcador, pequeñas lesiones secundarias y otras regiones pigmentadas que deben ser ignoradas.[21, 28] El conjunto de imágenes está compuesto en su mayorı́a por lesiones benignas, esta serı́a una representación del ”mundo real”, donde por falta de certeza en el diagnóstico visual, se realizan biopsias innecesarias a individuos sanos.. 4.1.. Segmentación. Para el diagnóstico de lesiones pigmentadas de la piel es necesario discernir que sección de la imagen es de interés, por esta razón, se considera de gran importancia realizar un proceso de segmentación que permita aislar las lesiones pigmentadas de la piel del resto de objetos (pelos, burbujas, etc). El problema de la segmentación fue abordado utilizando dos procedimientos, el método de otsu y la segmentación semántica a partir de aprendizaje profundo, éstos fueron evaluados y comparados según sus similitud con respecto a las imágenes de entrenamiento segmentadas manualmente por especialistas en el tema. A continuación se describen los métodos utilizados para abordar ésta etapa del proyecto:. 4.1.1.. Método de Otsu. Para aplicar el método de Otsu, se comienza por la obtención de la matriz de intensidades y la binarización de la imagen. El método de Otsu (Figura. 4-2, pág 28) se emplea cuando hay una gran diferencia entre el objeto de análisis, en este caso la lesión pigmentada, y el fondo de la imagen evaluando la intensidad de los pı́xeles para establecer un umbral óptimo que permita una mayor separación entre el objeto de análisis y el fondo. Para obtener la.

(40) 26. 4 Metodologı́a. Figura 4-1: Diagrama de bloques para la clasificación de lesiones pigmentadas de la piel.

(41) 4.1 Segmentación. 27. máscara binaria, se comparan las intensidades de los pı́xeles con el umbral seleccionado, si la intensidad del pı́xel es menor que la del umbral, se asigna un ’uno’, de lo contrario, se asigna un ’cero’. En la selección del umbral para una imagen dermatoscópica pueden presentarse problemas como: sombras generadas por el dermatoscopio, ruido en la imagen (bordes negros, vellos, burbujas de aire) y eliminación de áreas por zonas de baja iluminación. Todos estos problemas pueden generar cambios en el área de interes o ROI1 , que afecten la extracción de caracterı́sticas y por ende, decrementen la precisión del sistema de clasificación final. El método de segmentación de Otsu, utiliza técnicas estadı́sticas sobre los niveles de gris. Su objetivo es calcular el valor umbral de forma que la dispersión dentro de cada clase sea lo más pequeña, pero que al mismo tiempo la dispersión entre clases diferentes sea lo más alta posible[17]. En este caso, los pı́xeles en la imagen dermatoscópica se dividen en dos clases, la clase ’Lesión’ y ’Fondo’, a partir del histograma de intensidades, el método busca encontrar el umbral que separe de manera más efectiva las 2 clases de pı́xeles tomando como caracterı́stica principal su intensidad. Obtención de la matriz de intensidades Para calcular el umbral de Otsu es necesario obtener la matriz de intensidades de la imagen RGB, que corresponde a la luminancia de cada pı́xel[16]; ésta se calculó utilizando la formula de la Ecuación.4-1. Luminancia = 0,299 · R + 0,587 · G + 0,114 · B. (4-1). Al aplicar la ecuación 4-1 sobre una imagen de 3 canales RGB, se obtiene una nueva imagen de sólo 2 dimensiones, alto y ancho, que corresponde al equivalente en blanco y negro de la imagen original, como se muestra en la figura 4-3 Detección automática de umbrales mediante el método Otsu El algoritmo está basado en la agrupación de pı́xeles, busca automáticamente un umbral global, recorriendo todo el rango de niveles de gris y seleccionando el umbral que genere la menor varianza ponderada.[5] En una imagen de escala de grises, donde el nivel de gris de los N pı́xeles se encuentra entre 1 y L, el número de pı́xeles con nivel de gris i se denota como fi (Frecuencia de pı́xeles con nivel de gris i) y la probabilidad de ocurrencia del nivel de gris i en la imagen, está dada por 1. Region Of Interest.

(42) 28. 4 Metodologı́a. Figura 4-2: Procedimiento para la segmentación de lesiones pigmentadas de la piel.

(43) 4.1 Segmentación. 29. Figura 4-3: Matriz de intensidades para una imagen dermatoscópica la ecuación. 4-2 Pi =. fi N. (4-2). En el caso de la binarización, los pı́xeles son divididos en dos clases: C1 con niveles de gris [1, ..., t] y C2 con niveles de gris [t + 1, ..., L], cuyas distribuciones de probabilidad se describen en la Ecuación. 4-3 P1 Pt , ..., ω1 (t) ω1 (t) Pt+1 Pt+2 PL , , ..., ω2 (t) ω2 (t) ω2 (t). C1 : C2 :. (4-3). Donde el momento acumulado, la probabilidad de que el pı́xel se encuentre dentro de cualquiera de las dos clases, se encuentra determinada por la Ecuación.4-4 ω1 (t) =. t X. Pi. ω2 (t) =. i=1. L X. Pi. (4-4). i=t+1. La intensidad media para la clase C1 , la clase C2 y la intensidad media total µT ,están definidas en la siguiente Ecuación. 4-5 t X i · Pi µ1 = ω1 (t) i=1. µT = ω1 · µ1 + ω2 · µ2. L X i · Pi µ2 = ω (t) i=t+1 2. (4-5). ω1 + ω2 = 1. Usando el análisis discriminante, Otsu define la varianza entre clases de una imagen umbralizada como sigue en la Ecuación.4-6[27] σB2 = ω1 · (µ1 − µT )2 + ω2 · (µ2 − µT )2. (4-6).

(44) 30. 4 Metodologı́a. Para una umbralización de dos niveles, el umbral óptimo t∗ se elige de asegurando una varianza máxima. Ecuación. 4-7 t∗ = t → M axt σB2 (t). 1≤t≤L. (4-7). Al aplicar un umbral, t, la imagen en escala de grises, f(x,y), quedará binarizada; etiquetando con ‘1’ los pı́xeles correspondientes al objeto y con ‘0’ aquellos que son del fondo. En la ecuación.4-8, g(x, y) es una imagen binaria, f (x, y) es una imagen en escala de grises, t es el umbral de segmentación y (x, y) son las coordenadas de los pı́xeles que componen la imagen.[27] ( g(x,y)=. 0 ⇔ f (x, y) > t. 1 ⇔ f (x, y) ≤ t. (4-8). El umbral puede depender de la imagen, f (x, y) de alguna propiedad local del pı́xel, p(x, y), y hasta de su propia posición.[27] Ecuación.4-9 t = t(f (x, y), p(x, y), x, y). 4.1.2.. (4-9). Segmentación semántica. El Deep Learning (Figura. 4-4) es una técnica de Machine Learning en la que el modelo aprende a realizar tareas de clasificación directamente de las imágenes. El Deep Learning implementa una arquitectura de redes neuronales, donde el termino ”Deep”se refiere a el número de capas en la red (entre más capas, más profunda la red). La cantidad de datos que se necesitan para entrenar una red de este tipo es muy grande, desde mil imágenes en adelante, y el entrenamiento puede tardar desde dı́as e incluso semanas, si se empieza desde cero.[19]. Figura 4-4: Diagrama de bloques para el Deep Learning La segmentación semántica es el proceso por el que se etiquetan las imágenes a nivel de pı́xel, no sólo se detectan los objetos de interés en una imagen, si no que define qué pı́xeles corresponden al objeto..

(45) 4.1 Segmentación. 31. Para entrenar la red de segmentación semántica se utilizó una colección de imágenes y su correspondiente imagen etiquetada, donde el valor de cada pı́xel representaba la categorı́a del pı́xel. En la red de de segmentación semántica (Figura. 4-5) se baja la resolución de la imagen a través de las capas de convolución y relu, para luego recuperar su dimensión inicial a través de las siguientes capas y ası́ hacer coincidir el tamaño de la salida con el tamaño de la imagen de entrada. La imagen pasa a través de diferentes filtros no lineales distribuidos a través de las capas, cuyos pesos se van configurando a medida que se va entrenando la red.. Figura 4-5: Arquitectura de una red de segmentación semántica. Configuración de las capas de la red Capa de entrada Para crear la red de segmentación semántica, se estableció una capa de entrada, donde se definió el tamaño de imagen que la red debe procesar. Aquı́, un tamaño de [192 192 3] fue usado para procesar imágenes RGB de 192x192 pı́xeles. Downsampling Para la red de Downsampling, o reducción de resolución, se usaron capas de convolución, ReLU y Pooling. Los parámetros de la capa de convolución se definieron de tal manera que la imagen de salida tuviera el mismo tamaño de la imagen de entrada. Los tamaños de las imágenes de salida en una capa de convolución se definen en la ecuación 4-10. Outputsize =. Inputsize − F + 2 · P +1 S. Donde: F corresponde al tamaño del filtro.. (4-10).

(46) 32. 4 Metodologı́a. P corresponde al ”Zero Padding”, el cual sirve para agregar columnas o filas de ceros adicionales a los bordes de la imagen. S corresponde al Stride, este parámetro define el tamaño del paso del filtro al moverse a través de la imagen. Isize Tamaño de entrada o Input Size. Osize Tamaño de salida o Output Size. Para las capas de convolución se estableció un tamaño de filtro de 21, un Zero Padding de 10 y un Stride de 1, teniendo en cuenta que la entrada tiene un tamaño de 192, se obtuvo una salida de tamaño 192. Como las imágenes son cuadradas, el cálculo del tamaño de salida es el mismo para las 2 dimensiones. Outputsize =. 192 − 21 + 2 · 10 + 1 = 192 1. Para las capas de Pooling se configuraron los parámetros de tal manera que el tamaño de salida fuera la mitad del tamaño de entrada y se eligió el operador máximo. Se eligió un tamaño de filtro de 2, un Zero Padding de 0 y un Stride de 2. 192 − 2 + 2 · 0 + 1 = 96 1 96 − 2 + 2 · 0 = + 1 = 48 1. Outputsize = Outputsize. El tamaño de salida para la capa de Pooling se calcula de la misma forma que para la capa de convolución, hay que recordar que las capas ReLU no añaden complejidad a la red y no cambian el tamaño de la imagen. Al final la red de DownSampling fue configurada de la siguiente forma (tabla.4-1) Tabla 4-1: DownSampling Configuración de parámetros Capa F Convolución 21 ReLU MaxPooling 2 Convolución 21 ReLU MaxPolling 2. para la P S 10 1 0 2 10 1 0 2. capa de DownSampling Isize Osize 192 192 192 192 192 96 96 96 96 96 96 48.

(47) 4.1 Segmentación. 33 Tabla 4-2: Red de UpSampling. Capa Convolución transpuesta ReLU Convolución transpuesta ReLU. S 2 2 -. F 4 4 -. Cropping 1 1 -. Isize 48 96 96 192. Osize 96 96 192 192. UpSampling Para el UpSampling se usó una capa de convolución transpuesta, la cuál hace la tarea de aumento de resolución y filtro al mismo tiempo; el tamaño de la salida de la capa de convolución compuesta se calcula como se muestra en la ecuación 4-11. Osize = S · (Isize − 1) + F − 2 · Cropping. (4-11). Los parámetros de la capa de convolución transpuesta se establecieron para que el tamaño de salida fuera del doble del de entrada. El Crooping permite reducir el tamaño de la salida, según sea necesario, recortando los bordes de la imagen. El Stride para esta capa se configuró de 2, se usó un tamaño de filtro de 4 y un Crooping de 1. Outputsize = 2 · (48 − 1) + 4 − 2 · 1 = 96 Outputsize = 2 · (96 − 1) + 4 − 2 · 1 = 192 Intercaladas con las capas de convolución transpuesta, se colocaron capas ReLU, al pasar la imagen de 48x48px a través de la red de UpSampling, ésta vuelve a recuperar su dimensión original de 192x192px. La red de UpSampling se configuró como se muestra en la tabla 4-2 Capas Finales Las capas finales son las responsables de hacer la clasificación de pı́xeles. Éstas capas procesan una entrada que tiene las mismas dimensiones espaciales (altura y ancho) que la imagen de entrada. Sin embargo, el número de canales es más grande que el número de clases a clasificar y es igual al número de filtros de la capa de convolución tránspueta. Ésta tercera dimensión necesita ser reducida al número de clases que deseamos segmentar, en este caso sólo 2, cómo el tamaño de la tercera dimensión equivale al número de filtros una capa de convolución, se colocó una capa de convolución 1x1 en la cual el número de filtros es igual a 2. La capa de convolución usada para reducir el número de canales se configuró con un filtro de tamaño 1, un Stride de 1 y un Zero Padding de 0, ésta combinación de parámetros da una salida de dimención [192x192x3]. Outputsize =. 192 − 1 + 2 · 0 + 1 = 192 1.

(48) 34. 4 Metodologı́a. Tabla 4-3: El sistema está compuesto por 14 capas. Sección Capa Obsevación Entrada Input Recibe una imagen de 192x192x3 DownSampling Convolución Mantiene la resolución en 192 DownSampling ReLU No aplica complejidad a la red y elimina las componentes negativas DownSampling Pooling Reduce la resolución de 192 a 96 DownSampling Convolución Mantiene la resolución en 96 DownSampling ReLU No aplica complejidad a la red y elimina las componentes negativas. DownSampling Pooling Reduce la resolución de 96 a 48 UpSampling Convolución transpuesta Aumenta la resolución de 48 a 96 UpSampling ReLU No aplica complejidad a la red y elimina las componentes negativas. UpSampling Convolución transpuesta Aumenta la resulución de 96 a 192 UpSampling ReLU No aplica complejidad a la red y elimina las componentes negativas. Capas Finales Convolución 1x1 Iguala la tercera dimensión de la imagen al número de clases Capas Finales Softmax Asigna al pı́xel una probabilidad de pertenecer a una clase Capas Finales Clasificación de pı́xel Asigna una categorı́a al pı́xel. Seguida a esta capa de convolución está la capa de Softmax y la capa de clasificación de pı́xeles. Éstas dos capas combinadas permiten predecir a que clase pertenece cada uno de los pı́xeles de la imagen. La capa Softmax convierte los valores sin procesar para las n clases en probabilidades normalizadas, es decir le asigna a los pı́xeles una probabilidad de pertenecer a una clase u otra. La capa de clasificación final se encarga de interpretar estas probabilidades y asignar una categorı́a a cada pı́xel de la imagen. Finalmente se obtienen 14 capas para la red de segmentación semántica (tabla 4-3), el sistema recibe una imagen RGB de [192x192] y como salida se obtiene una imagen de iguales dimensiones donde el valor de cada pı́xel describe a que clase pertenece, en este caso ’Lesion’ y ’BackGround’..

(49) 4.1 Segmentación. 35. Tabla 4-4: Parámetros usados para establecer las opciones de entrenamiento Solver SGDM Momentum 0.9 Tasa de aprendizaje inicial 10e-3 Factor de caı́da 0.7 Periodo de caı́da 5 MiniBatchSize 32 Data Augmentation Reflexión en x Reflexión en y Entrenamiento de la red El ISIC, International Skin Imaging Colaboration, puso a disposición del público una base de datos de imágenes dermatoscópicas con más de 2.000 imágenes provenientes de reconocidos centros clı́nicos[21, 28]. Para entrenar la red se usaron 2.594 imágenes adquiridas con diferentes tipos de dermatoscopı́a, las cuales fueron revisadas y aprobadas por dermatologos expertos. Se usó el Gradiente Estocástico Descendiente con Momento, SGDM por sus siglas en inglés, este método ayuda a direccionar al gradiente en la dirección correcta y encontrar la solución más rápidamente y es uno de los algoritmos de optimización más populares. El momento ayuda al algoritmo a a acelerar las gradientes en dirección correcta evitando mı́nimos locales que no permitan llegar a la solución más optima. [30] Para el entrenamiento se usó el algorito SGDM con un Momentum de 0.9, la tasa inicial de aprendizaje se fijó en 0.01, una taza grande que permitió acelerar la búsqueda de la solución en las primeras etapas del entrenamiento, la taza de aprendizaje se veı́a disminuı́da en un 30 % cada 5 épocas con el fin de aumentar la estabilidad al algoritmo. Se estableció un MiniBatchSize de 32, este parámetro establece cuantas imágenes son cargadas al mismo tiempo, entre más grande sea su valor, menos tiempo toma el entrenamiento pero se requiere de más memoria. Además se usaron técnicas de Data Augmentation para aplicar cambios sobre las imágenes ya existentes (Reflexión sobre el eje x e y) y generar nuevas imágenes para la fase de entrenamiento. Los sistemas entrenados con Deep Learning no sufren de Overfitting, al contrario, entre más imágenes de muestra se tengan para el entrenamiento, mejores serán los resultados del clasificador final. Como el número de pı́xeles correspondientes a la clase ’Lesion’ es diferente al número de pı́xeles de la clase ’BackGround’, el sistema se encuentra desbalanceado y el el clasificador tenderá a clasificar los pı́xeles en favor de la clase dominante. Para mejorar los resultados se cambiaron los pesos de las clases y ası́ balancear el sistema. En las imágenes, la cantidad de pı́xeles correspondientes a las diferentes clases, se ve re-.