Departamento de Telecomunicaciones y Electrónica
Título: Diagnóstico del glaucoma en imágenes digitales de fondo de ojo
Autor: Alejandro Puerto Hernández Tutora: MSc. Yainet García García
, Diciembre 2021
Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas, y se encuentra depositado en los fondos de la Biblioteca Universitaria “Chiqui Gómez Lubian” subordinada a la Dirección de Información Científico Técnica de la mencionada casa de altos estudios.
Se autoriza su utilización bajo la licencia siguiente:
Atribución- No Comercial- Compartir Igual
Para cualquier información contacte con:
Dirección de Información Científico Técnica. Universidad Central “Marta Abreu” de Las Villas. Carretera a Camajuaní. Km 5½. Santa Clara. Villa Clara. Cuba. CP. 54 830
Teléfonos.: +53 01 42281503-1419
PENSAMIENTO
“A thinker sees his own actions as experiments and questions—as attempts to find out something. Success and failure are for him answers above all”
(Friedich Nietzsche)
DEDICATORIA
A mi abuela que falleció tras luchar más de cuarenta días contra la COVID-19
A mis padres porque todo lo que soy y todo lo que podría ser, se lo debo a ellos
Al resto de mi familia por contar con su apoyo
AGRADECIMIENTOS
A mi tutora Yainet García García, por su paciencia y asertividad
A todas las personas que me ayudaron a superar los desafíos de la carrera
A todos los creadores que me han inspirado
TAREA TÉCNICA
Para el logro de los objetivos propuestos, la investigación sigue una línea de trabajo definida por las siguientes tareas:
1. Descripción de las estructuras presentes en imágenes digitales de fondo de ojo.
2. Revisión bibliográfica de los métodos desarrollados para la detección del disco óptico, la segmentación de la copa óptica y el diagnóstico de glaucoma en imágenes digitales de fondo de ojo.
3. Implementación de un método computacionalmente eficiente para el diagnóstico del glaucoma en imágenes digitales de fondo de ojo.
4. Evaluación del desempeño del método propuesto para el diagnóstico del glaucoma en imágenes digitales de fondo de ojo.
5. Confección del informe final del trabajo de diploma.
Firma del Autor Firma del Tutor
RESUMEN
El glaucoma es una enfermedad causada por la neurodegeneración del nervio óptico que conduce a la ceguera. Debido a que la revitalización de las fibras nerviosas degeneradas del nervio óptico es imposible, la detección temprana de la enfermedad es esencial para limitar su progresión. El análisis manual de imágenes oftalmológicas requiere mucho tiempo y la precisión depende de la experiencia de los profesionales. De esta forma el análisis automático de imágenes digitales de fondo de ojo se está convirtiendo en una herramienta importante en la actualidad. La relación entre el tamaño de la copa óptica y el disco óptico, también conocida como relación copa / disco (CDR), es uno de los indicadores clínicos importantes del glaucoma, y actualmente se determina manualmente por oftalmólogos capacitados, lo que limita su potencial en el cribado masivo para la detección temprana. El presente trabajo surge con la motivación de desarrollar un método computacionalmente eficiente para detectar el glaucoma calculando el CDR haciendo uso del procesamiento digital de imágenes. Como resultado se obtiene un 69, 64% de exactitud para el diagnóstico del glaucoma en un subconjunto de 56 imágenes escogidas de la base de datos original. El método propuesto presenta un desempeño superior en imágenes de pacientes enfermos, con un 82,5% de acierto, mientras que en imágenes de pacientes sanos obtiene una tasa de éxito discreta de solo un 37,5%.
TABLA DE CONTENIDOS
PENSAMIENTO ... i
DEDICATORIA ... ii
AGRADECIMIENTOS ... iii
TAREA TÉCNICA ... iv
RESUMEN ... v
INTRODUCCIÓN ... 1
CAPÍTULO 1. INTRODUCCIÓN AL DIAGNÓSTICO DEL GLAUCOMA EN IMÁGENES DIGITALES DE FONDO DE OJO ... 4
1.1 Introducción a las imágenes digitales de fondo de ojo ... 5
1.1.1 Anatomía del ojo humano ... 5
1.1.2 Adquisición de las imágenes de fondo de ojo ... 6
1.1.3 Estructuras presentes en imágenes de fondo de ojo ... 7
1.2 Diagnóstico del glaucoma en imágenes digitales de fondo de ojo ... 11
1.2.1 Algoritmos para la detección automática del disco óptico ... 11
1.2.1.1 Algoritmo de Viola-Jones ... 14
1.2.2 Algoritmo para la segmentación de la copa óptica ... 17
1.2.3 Metodología para el diagnóstico del glaucoma ... 19
1.3 Métricas para validar el desempeño del diagnóstico del glaucoma en imágenes digitales de fondo de ojo ... 23
1.4 Conclusiones parciales del capítulo ... 24
CAPÍTULO 2. MATERIALES Y MÉTODOS ... 25
2.1 Materiales empleados ... 25
2.1.1 Herramientas de software y hardware ... 25
2.1.2 Base de datos de imágenes digitales de fondo de ojo ... 26
2.2 Metodología para el diagnóstico del glaucoma ... 27
2.2.1 Segmentación del disco óptico en imágenes digitales de fondo de ojo ... 27
2.2.2 Segmentación de la copa óptica en imágenes digitales de fondo de ojo ... 31
2.2.3 Algoritmo para el diagnóstico del glaucoma en imágenes digitales de fondo de ojo………….. ... 33
2.3 Métricas seleccionadas para validar el desempeño del método propuesto ... 34
2.4 Conclusiones parciales del capítulo ... 35
CAPÍTULO 3. RESULTADOS Y DISCUSIÓN ... 36
3.1 Resultados de la detección del DO y la copa óptica ... 36
3.1.1 Segmentación del disco óptico en imágenes digitales de fondo de ojo ... 36
3.1.2 Segmentación de la copa óptica ... 37
3.2 Resultados del diagnóstico del glaucoma mediante el método propuesto ... 40
3.3 Evaluación de los resultados obtenidos... 41
3.4 Conclusiones del capítulo ... 44
CONCLUSIONES Y RECOMENDACIONES ... 46
Conclusiones ... 46
Recomendaciones ... 47
REFERENCIAS BIBLIOGRÁFICAS ... 48
INTRODUCCIÓN
Con el crecimiento simultáneo de la tecnología y la medicina, aumentó el interés de combinar ambos campos, uno al servicio del otro, dando como resultado el diagnóstico asistido por computadora (CAD). El CAD constituye una colección de procedimientos médicos diseñados para contribuir a un mejor diagnóstico en aquellos exámenes que proporcionan información en formato digital, ya sea como películas o fotografías médicas. Como resultado, estos procedimientos concentran sus esfuerzos en interpretar todos estos datos utilizando aplicaciones interactivas o automatizadas. Para ser útil en este contexto, un programa o aplicación debe tener propiedades tales como velocidad, bajo costo de computación, precisión y exactitud de sus resultados [1].
El glaucoma, la hipertensión arterial, la arteriosclerosis y la retinopatía diabética son solo algunas de las enfermedades que se pueden descubrir mediante un examen de fondo de ojo.
Cada uno de estos problemas se manifiesta en el cuerpo dañando numerosas estructuras anatómicas de la retina u ocasionan la aparición de estructuras aberrantes en ella. El disco óptico (DO) o nervio óptico, es una de las estructuras más importantes del fondo de ojo. Sus propiedades, como dimensión, forma y color, pueden usarse para diagnosticar enfermedades, mientras que su ubicación facilita el conocimiento de la posición del resto de las estructuras oculares. Todos estos factores son considerados no solo por especialistas, sino también por desarrolladores de programas. De ahí que, una de las primeras tareas al analizar la retina es localizar el DO, lo cual motiva a la optimización de la metodología para su detección. En este sentido, y en contradicción a lo sencillo que resulta su identificación para la vista humana, la afectación de esta estructura como consecuencia de enfermedades como las expuestas anteriormente, limita su identificación para programas automatizados.
El glaucoma es la segunda causa más importante de ceguera en la actualidad, con un estimado de 80 millones de personas afectadas por la enfermedad en 2020 [2]. Por lo que su temprana detección y tratamiento constituye la estrategia más eficaz para que los pacientes retrasen la progresión de la pérdida visual, sobre todo considerando que las capacidades de las fibras del DO perdidas no se recuperan. El diagnóstico del glaucoma puede realizarse directamente por especialistas o a través del CAD. En el primer caso, los oftalmólogos pueden emplear imágenes del fondo de ojo de la retina para evaluar el estado del DO. No obstante, este es un proceso subjetivo, lento y costoso. Como resultado, el cribado automático del glaucoma resulta de gran utilidad.
En el diagnóstico automático se consideran varias alternativas para evaluar el estado del DO, en correspondencia con sus propiedades. El uso de las características de la imagen resulta una de las formas más efectivas. Aparte del enfoque de extracción de características mencionado anteriormente, otra estrategia para evaluar el DO es utilizar marcadores clínicos como la relación entre la copa óptica y el DO (CDR) y la regla ISNT. A pesar de que estos marcadores clínicos difieren, se requiere información exacta de los límites del disco óptico y de la copa óptica para lo cual se hace necesaria una adecuada segmentación de ambas estructuras.
Hasta la fecha, se han establecido varios métodos para segmentar el DO y la copa óptica. Sin embargo, la falta de homogeneidad de la intensidad de la imagen, ocasionada frecuentemente por imperfecciones del equipo de adquisición o cambios de iluminación, suele afectar la extracción del contorno del DO. Todas estas limitaciones hacen que el estudio de estas estructuras oculares, su segmentación y, por consiguiente, el diagnóstico del glaucoma resulte un desafío. Por tal motivo, se realizan numerosas investigaciones y esfuerzos para conseguir el diagnóstico rápido y efectivo de dicha enfermedad, siendo precisamente esta la motivación para realizar el siguiente trabajo de diploma.
Teniendo en cuenta todo lo antes expuesto, se enuncia como problema científico el siguiente: ¿Cómo realizar de manera computacionalmente eficiente el diagnóstico del glaucoma en imágenes digitales de fondo de ojo?
Esta investigación tiene como objeto de estudio las imágenes de fondo de ojo y el campo de acción lo constituye el diagnóstico del glaucoma. Por tanto, el estudio tiene como objetivo
general: Diagnosticar el glaucoma de forma computacionalmente eficiente en imágenes digitales de fondo de ojo.
Para resolver el problema de investigación y dar cumplimiento al objetivo general, se plantean los siguientes objetivos específicos:
1. Analizar métodos desarrollados para el diagnóstico del glaucoma en imágenes digitales de fondo de ojo.
2. Implementar un método computacionalmente eficiente para el diagnóstico del glaucoma en imágenes digitales de fondo de ojo.
3. Evaluar el desempeño del método propuesto para el diagnóstico del glaucoma en imágenes digitales de fondo de ojo.
Organización del informe
El siguiente trabajo está estructurado de la siguiente forma: resumen, introducción, tres capítulos, conclusiones, recomendaciones y referencias bibliográficas. En el primer capítulo se realiza una breve descripción de las estructuras presentes en las imágenes de fondo de ojo y la importancia de su estudio para el diagnóstico médico. Se abordan aspectos teóricos sobre la forma de adquirir las imágenes de fondo de ojo y la relevancia de automatizar el proceso de análisis de las mismas. Por último, se describen algoritmos creados para la detección del DO, la copa óptica y el diagnóstico del glaucoma de manera general.
En el segundo capítulo se describe la metodología seguida para diagnosticar el glaucoma en imágenes digitales de fondo de ojo. También se abordan las adecuaciones realizadas al algoritmo de Viola-Jones para la detección del DO, así como el procedimiento para detectar la copa óptica. Por último, se definen las métricas seleccionadas para la evaluación de los resultados obtenidos.
En el tercer capítulo se exponen los resultados obtenidos mediante el algoritmo propuesto para el diagnóstico del glaucoma en imágenes digitales de fondo de ojo. Se realizan valoraciones críticas de los resultados mostrados, enfatizando en los aportes de la investigación. Se evalúa el desempeño del algoritmo propuesto y se compara con métodos actuales reportados en la literatura.
CAPÍTULO 1. INTRODUCCIÓN AL DIAGNÓSTICO DEL GLAUCOMA EN IMÁGENES DIGITALES DE FONDO DE OJO
El glaucoma es la segunda causa principal de ceguera en todo el mundo, con aproximadamente 60 millones de casos reportados en 2010. Si esta enfermedad no se diagnostica a tiempo, causa un daño irreversible al nervio óptico que conduce a la ceguera.
El examen de la cabeza del nervio óptico, que implica la medición de la relación copa / disco (CDR), se considera uno de los métodos más valiosos de diagnóstico estructural de la enfermedad. La estimación de la relación CDR requiere la segmentación del disco óptico (DO) y la copa óptica en las imágenes del fondo de ojo y puede realizarse mediante algoritmos modernos de visión por computadora.
A continuación, se describen algunas estructuras que conforman la anatomía del ojo humano.
Se abordan brevemente las características asociadas a las imágenes de fondo de ojo de acuerdo a la forma en que se adquieren las mismas y la importancia de su estudio para el diagnóstico oftalmológico. Se describen aspectos teóricos relacionados con la detección del DO en las imágenes de fondo de ojo, con peculiar hincapié en los algoritmos para la detección automática del mismo. Tras hacer referencia a la tendencia de varios de estos algoritmos se realiza un enfoque particular en el algoritmo de Viola-Jones, enfatizando en los aspectos teóricos de su funcionamiento. Luego se describen aspectos relativos al diagnóstico del glaucoma en imágenes digitales de fondo de ojo. Finalmente se abordan algunas de las métricas que frecuentemente se emplean para validar el desempeño de los métodos para el diagnóstico de dicha enfermedad.
1.1 Introducción a las imágenes digitales de fondo de ojo
La introducción del primer oftalmoscopio clínico directo por Von Helmholtz en 1850 anunció el comienzo de la oftalmología moderna [3]. La obtención de imágenes del fondo de ojo humano fue posible mediante oftalmoscopia directa y más tarde el desarrollo del oftalmoscopio indirecto binocular, la lámpara de hendidura y una gama de lentes esféricas de alta potencia, allanando el camino para el estudio sistemático de estructuras intraoculares y enfermedades por vía directa. La mayoría de los oftalmólogos utilizan oftalmoscopios binoculares indirectos modernos en todo el mundo. Se han convertido en una herramienta imprescindible para los oftalmólogos que identifican y tratan enfermedades vitreorretinianas como la degeneración reticular, los desprendimientos de retina, la retinopatía del prematuro, entre otras afecciones [4].
1.1.1 Anatomía del ojo humano
El ojo humano es un órgano detector de luz que envía mensajes al cerebro a través del nervio óptico y funciona de manera similar a una cámara fotográfica. La cantidad de luz requerida para exponer la película en la parte posterior de la cámara determina si el obturador se cierra o se abre. El ojo, como el obturador de una cámara, funciona de la misma manera. El iris y la pupila regulan la cantidad de luz que entra por la parte posterior del ojo. Cuando está muy oscuro, las pupilas se dilatan, permitiendo que entre más luz [5].
Figura 1.1. Estructura del ojo humano [6].
Las capas fibrosas, vasculares pigmentadas y nerviosas forman el globo ocular (retina). La retina, que recibe información visual externa, es la capa más esencial en términos de función.
El DO transmite información desde la retina al cerebro y está vinculado al polo posterior del globo ocular. Los estímulos visuales se convierten en información visual durante el procesamiento en la corteza cerebral. El contorno redondo del globo ocular se compone de estas tres capas. El cristalino y el cuerpo vítreo son las dos estructuras refractivas del ojo que se encuentran en el interior del ojo. El cuerpo vítreo y el cristalino forman parte del medio refractivo del globo ocular, junto con la córnea y el líquido acuoso. La función de las estructuras refractivas es desviar la dirección de la luz que incide en el ojo y enfocarla en la retina [5].
1.1.2 Adquisición de las imágenes de fondo de ojo
La oftalmoscopia, es uno de los exámenes más valiosos, debido a que puede detectar las etapas y efectos iniciales de muchas enfermedades graves. Además de las enfermedades oculares específicas, la oftalmoscopia puede detectar enfermedades cardiovasculares (especialmente hipertensión arterial), enfermedad cerebral y diabetes [7].
El fondo de ojo comprende las estructuras en la parte interior del globo que se examinan durante todo el procedimiento: retina, vasos sanguíneos de la retina, cabeza del DO y, en menor medida, coroides subyacentes. La fotografía del fondo de ojo captura la retina, el tejido neurosensorial de los ojos que convierte lo que se observa en impulsos eléctricos que el cerebro puede comprender. La retina es iluminada por el oftalmoscopio a través de la pupila, la cual sirve como entrada y salida para los rayos de luz que iluminan y captan la imagen de la cámara del fondo de ojo, así la retina se puede fotografiar directamente. La imagen de la retina está formada por rayos de luz que vuelven a emerger a través de la pupila. La apertura de visión del oftalmoscopio (ventana) incorpora una lente que altera los rayos de luz para ayudar al usuario. La pupila suele dilatarse farmacológicamente para facilitar la inspección de la retina y la evaluación de la mácula [8], [9].
La fotografía del fondo de ojo se utiliza para analizar anomalías en el fondo de ojo, rastrear la progresión de una enfermedad, planificar el tratamiento y evaluar el beneficio terapéutico de una cirugía reciente (p. Ej., Fotocoagulación). Las fotografías, por otro lado, pueden ser médicamente necesarias para establecer una línea de base para determinar si una condición
está progresando más adelante. El ángulo de visión (el ángulo óptico de aceptación de la lente) se utiliza para definir las cámaras de fondo de ojo. La imagen de una película es 2,5 veces más grande que la real cuando se ve desde un ángulo de 30 °, que se considera el ángulo de visión estándar. Las cámaras de fondo de ojo de gran angular capturan imágenes de 45 ° a 140 ° y, como resultado, proporcionan menos aumento de la retina. Una cámara de fondo de ojo con un ángulo de visión limitado tiene un campo de visión de 20 ° o menos [10].
La mayoría de las investigaciones sobre el fondo de ojo se basan en el uso de tecnología costosa que, por lo general, solo está disponible en centros de atención médica especializados. Las cámaras de fondo de ojo portátiles de mano son cada vez más asequibles, gracias a varios avances tecnológicos en los últimos años, y las fotos obtenidas con esta tecnología están mejorando en calidad. Además, el uso de una cámara de fondo de ojo portátil ofrece una serie de ventajas, especialmente cuando se utiliza en atención primaria. Son, por ejemplo, ligeros, no requieren una formación extensa y son fáciles de usar en cualquier contexto, especialmente en personas con movilidad limitada. Para obtener una imagen digital de alta calidad del fondo de ojo, estas cámaras no requieren la dilatación de la pupila. Por otro lado, también se incentiva el desarrollo de la telemedicina, pues esta técnica permite que los exámenes de retina se puedan realizar en el consultorio de un médico de atención primaria o en un lugar más conveniente para el paciente. Otros beneficios potenciales incluyen una mayor eficiencia, menores gastos para el paciente y la sociedad, y una detección más sencilla en lugares donde los expertos en atención oftalmológica son pocos.
1.1.3 Estructuras presentes en imágenes de fondo de ojo
Conocer las características de las estructuras presentes en la retina para el diagnóstico de diversos trastornos, así como distinguir un fondo de ojo normal de uno enfermo, es fundamental para el diagnóstico médico. Los vasos sanguíneos (VS), el disco óptico (DO), la mácula y la fóvea son todas estructuras anatómicas. Puede haber hemorragias, microaneurismas y exudados, así como estructuras aberrantes que indican que constituyen estructuras anómalas y alertan de la presencia de enfermedades.
Figura 1.2. Imagen de fondo de ojo [11].
Estructuras anatómicas en imágenes de fondo de ojo
La mácula es una región de forma ovalada cerca del centro de la retina, con una dimensión de aproximadamente 5 mm de diámetro. La función principal de la mácula es brindar una visión nítida, clara y recta. Está a cargo de toda nuestra visión central, así como de la mayor parte de nuestra visión del color. La mácula es responsable del pequeño detalle que vemos.
Las enfermedades de la mácula, como la degeneración macular, provocan la pérdida de la visión central porque es la responsable de nuestra visión central. La fóvea, ubicada en el centro de la mácula, es el componente más importante del ojo. La fóvea es la región de la retina encargada de la agudeza visual. Tiene un número importante de conos, que son fotorreceptores de gran agudeza [12].
En el lado nasal de la retina se encuentra el disco óptico, también conocido como cabeza del nervio óptico, forma un área ligeramente elevada. Debido a que no hay fotorreceptores en esta área, también es conocida como el punto ciego del ojo. El nervio óptico transporta los impulsos relacionados con la visión desde la retina del ojo al cerebro. Está formado por millones de fibras nerviosas de la retina que se agrupan y escapan a través del disco óptico en la parte posterior del ojo para llegar al cerebro. La "copa óptica ", en el medio del DO, suele ser bastante pequeña en comparación con este [13].
Disco óptico Mácula
Figura 1.3. Estructuras del fondo de ojo [14].
El área comprendida al DO puede variar de una persona a otra, pudiendo estar determinada por la raza, entre muchos otros factores. En comparación con los ojos con un error de refracción normal, el tamaño del DO es mucho mayor en ojos con miopía extrema y significativamente más pequeño en ojos con hipermetropía considerable (superior a +5 D).
En personas con glaucoma y a consecuencia del aumento de la presión ocular y / o la falta de suministro de sangre al DO, las fibras nerviosas comienzan a morir. Por su parte, debido a que falta la estructura de soporte, la copa aumenta de tamaño en contraste con el DO. A medida que la copa se hace más grande en relación con el DO, procede el ahuecamiento del nervio óptico.
Estructuras anómalas en imágenes de fondo de ojo
Los microaneurismas son pequeñas efusiones con forma de sacos que afectan los capilares en una variedad de distritos vasculares, incluidos el corazón, los riñones y los ojos. Aunque pueden surgir en una variedad de circunstancias patológicas como hipertensión, oclusión venosa y trastornos hemorreológicos como metahemoglobinemia y anemia de células falciformes, son el sello distintivo de la retinopatía diabética, según los oftalmólogos. Dado que los microaneurismas son el primer síntoma clínicamente evidente de la enfermedad ocular diabética no proliferativa, reconocerlos puede ser el primer paso en la prevención secundaria de la retinopatía diabética [9].
Un vaso sanguíneo dañado debajo de la superficie externa del ojo a veces se denomina
"sangrado ocular". Es posible que toda la parte blanca de su ojo esté roja o inyectada en sangre, o existan manchas o áreas rojas en el ojo. Otro tipo de sangrado ocular, conocido como hemorragia, puede ocurrir en el área coloreada del ojo. El enrojecimiento puede ocurrir cuando el sangrado ocular es más profundo o en la parte posterior del ojo. Con la progresión de la retinopatía diabética, las hemorragias se vuelven más visibles [15].
Por otra parte, cuando se interrumpe la barrera sangre-retina dentro de la circulación retiniana y / o coroidea, se forman exudados en la región intra o subretiniana. Los pequeños depósitos de color blanco o blanco amarillento con bordes afilados se conocen como exudados duros.
A menudo tienen un aspecto ceroso, brillante o reluciente. Se encuentran en las profundidades de las capas externas de la retina, cerca de las arterias retinianas. Pueden disponerse como puntos aislados, parches confluentes, láminas, anillos o semilunas que rodean zonas de edema de retina o grupos de microaneurismas, o como anillos o semilunas que rodean zonas de edema de retina o grupos de microaneurismas [16].
Figura 1.4. Exudados rodeando un grupo de hemorragias y microaneurismas [17].
Los exudados y las drusas (depósitos de grasa amarillos que crecen debajo de la retina) parecen similares a primera vista. Las distinciones en términos de consecuencias de diagnóstico y tratamiento son fácilmente obvias para el observador experimentado. Las drusas se forman debajo de la retina y, a menudo, pero no siempre, son una indicación de degeneración macular relacionada con la edad (ruptura de los tejidos en la parte posterior del ojo). Los exudados generalmente se encuentran dentro o directamente debajo de la retina y están relacionados con anomalías en los vasos sanguíneos de la retina. Los estudios de
imágenes como las ofrecidas por las imágenes del fondo de ojo y la Tomografía de Coherencia óptica pueden indicar la diferencia entre los dos [18].
1.2 Diagnóstico del glaucoma en imágenes digitales de fondo de ojo
El glaucoma es la segunda causa de ceguera en todo el mundo a pesar de que su diagnóstico temprano puede evitar la pérdida de la visión [19], esta tarea resulta una de las mayores limitaciones que se presenta en la práctica clínica, por lo que resulta esencial disponer de buenas técnicas de detección temprana. Se considera que el 50 % de los casos de glaucoma se encuentran sin diagnosticar [20]. Esta enfermedad es inicialmente asintomática [19] y consiste en un conjunto de enfermedades oculares caracterizadas por el aumento de la presión intraocular dentro de la cámara anterior del ojo, ocasionándose una pérdida de células ganglionares de la retina y daños en el nervio óptico, por lo que se trata de una neuropatía óptica degenerativa crónica e irreversible [20].
Su causa más frecuente es el incremento de la presión intraocular [19], aunque otros factores de riesgo pueden ser la edad, el sexo e incluso la raza para determinados tipos de glaucoma, si el paciente en cuestión presenta hipermetropía, miopía o diabetes, así como antecedentes familiares [20]. De manera general, el proceso de diagnosticar esta enfermedad resulta complejo y muy costoso, debido a que no existe concretamente una causa que la origine.
Actualmente, las técnicas empleadas se centran en el estudio del DO y de la presión intraocular, así como del campo visual del paciente, entre otros exámenes de interés [20]. En el caso de las imágenes digitales de fondo de ojo, la metodología se centra en buscar y evaluar la interrelación existente entre el DO y la copa óptica.
1.2.1 Algoritmos para la detección automática del disco óptico
El glaucoma se puede diagnosticar analizando cambios en el DO y la copa óptica, de ahí la importancia de poder detectar y segmentar estas estructuras de manera automatizada. El correcto funcionamiento de una aplicación automática para la detección del DO se puede comprobar empleando un ground truth, que constituye imágenes de referencia con la previa segmentación del DO por oftalmólogos. La localización del DO consiste en encontrar su punto central, mientras que su segmentación comprende la detección de su límite o contorno [21].
La localización del DO, resulta un paso crucial para simplificar y facilitar la segmentación de dicha estructura teniendo en cuenta su forma aproximadamente circular. Para la localización se han propuesto varios enfoques, en los cuales se hace uso de algunas cualidades del DO como su tono amarillo, mayor brillo, así como la convergencia de los VS que ocurre en su centro. Para poder aplicar estas técnicas basadas en valores de intensidad, es importante realizar preprocesamientos en la imagen, con el objetivo de mejorar la detección y localización de la región de interés (ROI) de dicha estructura. Se han hecho un gran número de publicaciones relacionadas con la detección y segmentación de DO. Algunos estudios se centran únicamente en la detección de DO, mientras que otros incluyen tanto la detección como la segmentación [1]. Ambas organizaciones se analizan brevemente aquí.
En [22] se describe un método automatizado para localizar el nervio óptico en imágenes del fondo de ojo. Con este objetivo se utiliza un algoritmo nombrado convergencia difusa para determinar el origen de la red de VS. Se evalúa el método utilizando 31 imágenes de retinas sanas y 50 imágenes de retinas enfermas, que contienen síntomas tan diversos como vasos tortuosos, neovascularización coroidea y hemorragias. El método logró un 89% de detección correcta. En [23] se analizan tres importantes metodologías de preprocesamiento descritas en la literatura (generación de máscara, ecualización del histograma y normalización del color), y su efecto en la detección de la anatomía de la retina. Por su parte, en [24] se propone un nuevo método adaptativo para la segmentación automática del disco óptico en imágenes digitales de fondo de ojo en color, utilizando morfología matemática. El método propuesto se diseñó con el objetivo de ser robusto en diferentes condiciones de iluminación y adquisición de imágenes. El método desarrollado consiguió una tasa de éxito del 100% para la ubicación correcta del DO en la base de datos DRIVE, con un 41,47% de superposición media. En la base de datos DIARETDB1, se detectó el DO correctamente ubicado en un 97,75% de las imágenes, con una superposición media del 43,65%.
El método exhibido en [25] se usa con 500 imágenes para las que se conocen las ubicaciones del DO y la fóvea. Se utiliza un regresor kNN para predecir la distancia en píxeles en la imagen al objeto de interés en cualquier ubicación dada en la imagen basándose en un conjunto de características medidas en esa ubicación. El método combina señales medidas directamente en la imagen con señales derivadas de una segmentación de la vasculatura
retiniana. El método encontró el disco óptico en el 99,4% y la fóvea en el 96,8% de las imágenes de cribado regular y para las imágenes con anomalías estos números fueron del 93,0% y el 89,0% respectivamente. En el artículo [26] se presenta un nuevo método morfológico adaptativo para la detección automática del centro y el borde del DO, consiguiendo un 100% y 97,75% de precisión en la detección del DO en las bases de datos DRIVE y DIARETDB1 respectivamente. En [27] se enfocan en determinar la rama de los VS con mayor confluencia de los mismos para la detección automática del DO. Para delimitar el contorno de la estructura se busca un espacio de color que permita visualizar de manera homogénea la región del DO, luego se estiman sus límites usando un contorno activo geométrico con una nueva formulación variable. Las tasas de éxito de la localización del disco y la detección de límites de disco son del 99,7% y el 96,95%, respectivamente.
El método propuesto en [28] comienza normalizando la luminosidad y el contraste en toda la imagen utilizando ecualización de histograma adaptativo. El algoritmo de detección de DO se basa en hacer coincidir el patrón direccional esperado de los VS de la retina. Por lo tanto, se propone un filtro adaptado simple para que coincida aproximadamente con la dirección de los VS en la vecindad del DO. El centro del DO se detectó correctamente en 80 de las 81 imágenes (98,77%) de la base de datos STARE. Por su parte, el centro del DO se detectó correctamente en las 40 imágenes (100%) en DRIVE. El algoritmo propuesto en [29] emplea principalmente operaciones morfológicas para determinar el contorno del DO, conjuntamente con el análisis de componentes principales (PCA).
En [30] se presenta un enfoque automático para la segmentación de DO utilizando un filtro de banda deslizante multirresolución (SBF). Después de la fase de preprocesamiento, se aplica un SBF de baja resolución en una imagen retiniana con muestreo reducido y las ubicaciones de la respuesta máxima del filtro se utilizan para enfocar el análisis en una ROI reducida. Los resultados se comparan con límites extraídos manualmente de bases de datos públicas ONHSD, MESSIDOR e INSPIRE-AVR, obteniendo muy buenos resultados. Para la ONHSD, el 44% de los resultados se clasifican como Excelente, mientras que las imágenes restantes se distribuyen entre las categorías Bueno (47%) y Regular (9%). Se logra un área de superposición promedio de 83%, 89% y 85% para las imágenes en los conjuntos de datos
ONHSD, MESSIDOR e INSPIR-AVR, respectivamente, cuando se comparan con las regiones OD delineadas manualmente.
En los últimos años existe la tendencia de emplear técnicas de visión computacional para resolver muchos problemas relacionados con imágenes médicas. Estos métodos se basan en la comprensión y búsqueda de ciertos patrones en las imágenes, ya sea empleando métodos de aprendizaje supervisado o no supervisado. Las ventajas que ofrecen estos métodos también se han aplicadas en función de la detección del DO. Así se observa el uso de métodos como template-matching [31-33] y las diferentes arquitecturas de aprendizaje profundo (Deep Learning) [34-37] . Entre los métodos de visión computacional ampliamente difundida se encuentra el algoritmo de Viola-Jones.
El algoritmo de Viola-Jones ha sido el punto de partida para muchas aplicaciones, de hecho, a pesar de los avances computacionales y novedosos métodos propuestos en el campo de la visión computacional, dicho algoritmo se mantiene vigente. El algoritmo de Viola-Jones se ha perfeccionado e implementado en lenguajes de programación como Python y Java, favoreciendo el desarrollo de aplicaciones para la detección y reconocimiento de rostros en computadoras y dispositivos móviles. En el caso de [1] se utilizó para detectar el DO, en correspondencia con las particularidades de esta estructura, obteniendo resultados satisfactorios. Por tal motivo, en este trabajo de diploma se aplicará para detectar la estructura y así restringir el área de trabajo, facilitando el trabajo de estudio y segmentación, dotando al método de diagnóstico de glaucoma gran exactitud y bajo costo computacional.
1.2.1.1 Algoritmo de Viola-Jones
El algoritmo de Viola-Jones fue presentado en 2001 por Paul Viola y Michael Jones como un acercamiento al aprendizaje automático, para detectar objetos rápidamente y con altas tasas de detección. El uso la imagen integral, el aprendizaje automático mediante AdaBoost [38] y el empleo de una cascada atencional [39], [40] constituyen sus tres contribuciones fundamentales en las que basa su excelente desempeño. A continuación, se describe de manera general las etapas de dicho algoritmo.
Imagen Integral
La imagen integral es una representación de la imagen que no trabaja directamente con sus valores de intensidad [41], si no con una imagen acumulativa a partir de operaciones básicas.
Puede obtenerse mediante un pequeño número de operaciones por píxel, y se emplea para extraer rasgos Haar (Haar-like features) de forma rápida y a diferentes escalas (figura 1.5).
Teniendo una imagen original 𝑖(𝑥, 𝑦),el cálculo de la imagen integral 𝑖𝑖(𝑥, 𝑦), en un punto (𝑥, 𝑦), consiste en la suma de todos los píxeles que están arriba y hacia la izquierda de este punto, como se relaciona en la ecuación (1.1).
𝑖𝑖 = ∑ 𝑖(𝑥′, 𝑦′)
𝑥′≤𝑥,𝑦′≤𝑦
(1.1)
Figura 1.5. Rasgos tipo Haar en la ventana de búsqueda: A y B rasgos de dos rectángulos, C y D rasgos de tres y cuatro rectángulos respectivamente. La suma de los píxeles de los rectángulos blancos es restada con la suma de los píxeles de los rectángulos grises [40].
La imagen integral puede calcularse en un solo barrido a la imagen original mediante las ecuaciones 1.2 y 1.3, 𝑠(𝑥, 𝑦) representa la suma acumulativa de la fila 𝑥 , con 𝑠(𝑥, −1) = 0 y 𝑖𝑖(−1, 𝑦) = 0 .
𝑠(𝑥, 𝑦) = 𝑠(𝑥, 𝑦 − 1) + 𝑖(𝑥, 𝑦) (1.2)
𝑖𝑖(𝑥, 𝑦) = 𝑖𝑖(𝑥 − 1, 𝑦) + 𝑠(𝑥, 𝑦) (1.3)
Aprendizaje Supervisado
El algoritmo de aprendizaje supervisado que comprende este método se basa en AdaBoost.
Su funcionamiento consiste en extraer un pequeño número de rasgos críticos de un amplio conjunto, lo que permite entrenar un clasificador eficiente. Un clasificador débil ℎ𝑗(𝑥), consiste en un rasgo 𝑓𝑗, un umbral 𝜃𝑗 y un coeficiente 𝑝𝑗 que indica la dirección del signo de desigualdad, 𝑥 es una sub-ventana de 24 x 24 píxeles.
ℎ𝑗(𝑥) = {1,
0, 𝑠𝑖 𝑝𝑗𝑓𝑗(𝑥) < 𝑝𝑗𝜃𝑗
𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 (1.4)
Se parte de un conjunto de imágenes (𝑥1, 𝑦1), … , (𝑥𝑛, 𝑦𝑛), donde 𝑦𝑖 = 0,1 refiere ejemplos negativos y positivos respectivamente. En cada ronda queda seleccionado un clasificador débil y por tanto un rasgo. Los pesos se inicializan 𝑤1,𝑖= 1
2𝑚,1
2𝑙 para𝑦𝑖 = 0,1; donde 𝑚 y 𝑙 representan el número de negativos y positivos respectivamente. Los siguientes procedimientos se realizan para cada ronda 𝑡 = 1, … , 𝑇:
1. Normalizar los pesos
𝑊𝑡,𝑖 =← 𝑊𝑡,𝑖
∑𝑛𝑗=1𝑤𝑡,𝑖
(1.5)
2. Para cada rasgo 𝑗, se entrena un clasificador ℎ𝑗 restringido a usar un solo rasgo.
El error se evalúa según 𝑤𝑡 , mediante la ecuación 1.6.
∈𝑗= ∑ 𝑤𝑖|ℎ𝑗(𝑥𝑖) − 𝑦𝑖|
𝑖
(1.6)
3. Se escoge el clasificador ℎ𝑡, con menor error 𝜖𝑡.
4. Se actualizan los pesos mediante (1.7), donde 𝑒𝑖 = 0 si el ejemplo 𝑥𝑖 se clasifica de forma correcta y 1 en el caso contrario y 𝛽𝑡 = 𝜖𝑡
1−𝜖𝑡
𝑤𝑡+1,𝑗 = 𝑤𝑡,𝑖𝛽𝑡1−ℯ𝑖 (1.7)
5. El clasificador fuerte final es:
ℎ(𝑥) = { 1,
0, 𝑠𝑖 ∑ 𝛼𝑡ℎ𝑡 (𝑥) ≥ 1
2∑𝑇𝑡=1𝛼𝑡
𝑇𝑡=1
𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
(1.8)
donde 𝛼𝑡= 1
𝛽𝑡
Cascada Atencional
Como resultado del proceso de aprendizaje supervisado quedan constituidos clasificadores capaces de rechazar gran cantidad de ventanas negativas y mantener la mayoría de las positivas. Se obtiene así una cascada de clasificadores débiles, cada uno entrenado con AdaBoost y sus valores umbrales son ajustados para minimizar los falsos negativos. Este proceso garantiza descartar de forma rápida aquellas regiones con baja probabilidad de contener el objeto de interés, permitiendo prestar más atención a regiones de mayor posibilidad [40], [39].
1.2.2 Algoritmo para la segmentación de la copa óptica
Debido a la gran densidad de VS en la copa óptica, la segmentación es más difícil que en el DO. Además, el cambio progresivo de intensidad entre la copa óptica y el borde neurorretiniano complica la segmentación de la copa. Algunas de las metodologías empleadas para su segmentación se describen a continuación:
En [42] discuten la segmentación de la copa basada en el método de gradiente. Las imágenes en gradiente se obtuvieron a partir de una imagen original convolucionada con un filtro. Se utilizaron dos métodos para encontrar el gradiente: (1) gradiente lineal, (2) gradiente radial.
Las intensidades se calcularon y se transformaron linealmente al rango de (0-1). Los elementos estructurales circulares se utilizaron para llenar la región de los VS con el fin de obtener una región continua. El algoritmo se evaluó en función de la precisión de la copa y el área del DO en todas las direcciones, así como la CDR, en lugar de depender de la precisión solo en una dirección. El algoritmo se puede ampliar para distinguir entre las imágenes glaucomatosas y normales.
En [43] se propone un método para determinar el límite de la copa utilizando imágenes retinianas no estereográficas mediante la detección automática de una característica morfológica dentro del DO conocida como torceduras. Para detectar torceduras, primero se generan parches localizados a partir de un límite de copa preliminar obtenido a través del conjunto de niveles. A partir de los experimentos, cuando se utilizaron torceduras, el error en la CDR se redujo a menos de 0,1 unidades de CDR en relación con la CDR clínica, que está dentro de la variabilidad intraobservador de 0,2 unidades. En [44] también se hace uso de las torceduras. Los parches se extraen dentro del DO, a partir del cual se generan características de onda, borde y color basadas en segmentos para los candidatos a VS. Posteriormente se utiliza una técnica de máquina de soporte vectorial (SVM), para clasificar a estos candidatos.
En [45] se presenta un método basado en un modelo estadístico para la segmentación del DO, en el cual se combina la transformada circular Hough. El sistema se probó en un conjunto de 325 imágenes. El método propuesto tiene un error CDR absoluto medio de 0,10, que supera a los métodos existentes. En [46] se propone la segmentación del DO y la copa óptica utilizando la clasificación de superpíxeles. Para la segmentación de la copa óptica, además de los histogramas y las estadísticas del entorno central, la información de ubicación también se incluye en el espacio de funciones para mejorar el rendimiento. Este método, al evaluarse en una base de datos de 650 imágenes con los límites de DO y la copa óptica marcados manualmente por profesionales capacitados, presenta un error de superposición promedio de 9.5% y 24.1% en la segmentación del disco óptico y la copa óptica, respectivamente.
En [47] se propone una arquitectura de aprendizaje profundo, denominada M-Net, que resuelve la segmentación del DO y copa óptica de forma conjunta en un sistema de etiquetas múltiples de una etapa. El M-Net propuesto consiste principalmente en una capa de entrada de múltiples escalas, una red convolucional en forma de U, una capa de salida lateral y una función de pérdida de múltiples etiquetas. El trabajo de [48] presenta un enfoque universal para la segmentación automática del DO y la copa óptica, que se basa en el deep learning, específicamente, la modificación de la red neuronal convolucional U-Net. El desempeño del método propuesto en las bases de datos DRIONS-DB, RIM-ONE v.3, DRISHTI-GS, son comparablemente buenos en comparación con otros métodos actuales reportados.
En [49] se presenta un enfoque no supervisado para segmentar la copa óptica en imágenes de fondo de ojo, con un enfoque que sigue el marco de superpíxeles, en donde la tarea de clasificación de superpíxeles se formula como un problema de representación de bajo rango (LRR) con una solución eficiente de forma cerrada. Además, también se desarrolla una estrategia adaptativa para elegir automáticamente el único parámetro en LRR y obtener el resultado final de cada imagen. En [50], se propone un enfoque basado en conjuntos de niveles, adaptativamente regularizados, basados en núcleos difusos para la segmentación del disco óptico y la copa óptica en imágenes de fondo de ojo de la retina con un rendimiento mejorado para un diagnóstico preciso.
1.2.3 Metodología para el diagnóstico del glaucoma
Los síntomas más evidentes de glaucoma en las imágenes de fondo de ojo son los cambios morfológicos que se producen en el DO y la copa óptica, por lo que para su diagnóstico se analiza la interrelación de ambas estructuras en cuanto a sus tamaños y formas [19]. El glaucoma se identifica entonces evaluando la proporción entre la copa óptica y el DO, proporción de diámetro de copa a disco (cup-to-disc ratio, CDR) y la proporción de área de copa a disco (CAR). La CDR puede calcular como en la ecuación (1.9), siendo Aco (área de la copa óptica) y Ado (área del DO).
CDR=Aoc /Ado (1.9)
Si el CDR ≥ 0.5 se dice que existe glaucoma, de lo contrario el paciente se diagnostica sin la enfermedad. Por otra parte, la regla ISNT es otro tipo de análisis para determinar el glaucoma.
Debido a que algunas personas tienen el DO grande, el resultado en cuanto a la relación entre la copa óptica y el DO se podría ver alterado. Por lo que es necesario aplicar la regla ISNT que se enfoca en el grosor del anillo neurorretiniano, la región entre el DO y la copa óptica.
Para la regla ISNT se divide el DO en cuatro regiones [51], como se muestra en la figura 1.6.
Figura 1.6. División del DO en cuatro regiones para aplicar la regla ISTN [52].
El glaucoma también afecta la curvatura de la región de la copa óptica. En este sentido, el DO y la copa óptica deben segmentarse al mismo tiempo para calcular la CDR y el ISNT. El glaucoma provoca un aumento en el tamaño de la copa debido al aumento de la presión intraocular. Como resultado, los cambios en el tamaño de la copa y la CDR se consideran indicadores cruciales de glaucoma. Cuando el DO y la copa se reconocen con precisión, el borde neurorretiniano es un factor eficaz en la evaluación del glaucoma de acuerdo con la regla ISNT. La regla ISNT, determina el estado que tiene el anillo neurorretiniano: parte inferior (I) más ancha o igual que la superior (S), que es más ancha o igual que la nasal (N), que a su vez es más ancha o igual que la temporal (T). Luego se mide cada región del DO y se aplica la siguiente condición (I+S > N+T). Si no se cumple esta regla, el paciente es diagnosticado con riesgo de glaucoma [53].
En [54], se utiliza el método de contorno activo para encontrar la CDR a partir de las imágenes en color del fondo de ojo para determinar el proceso patológico del glaucoma. El método se aplica en 25 imágenes obtenidas de la organización del disco óptico del Reino Unido que tienen imágenes normales y patológicas. En [55], se propone un método automático de determinación de CDR utilizando un enfoque de nivel variable para segmentar el DO y la copa de las imágenes del fondo de ojo. El método es un componente central de ARGALI, un sistema para la evaluación automatizada del riesgo de glaucoma. El análisis de umbral se utiliza en el preprocesamiento para estimar el contorno inicial. Debido a la presencia de vasculatura retiniana que atraviesa los límites del disco y la copa, lo que puede causar inexactitudes en los contornos detectados, también se introduce un paso de
posprocesamiento de ajuste de elipse. El método fue probado en 104 imágenes del Singapore Malay Eye Study, y se encontró que los resultados produjeron una variación clínicamente aceptable de hasta 0.2 unidades CDR de las muestras clasificadas manualmente, con un uso potencial en la detección masiva.
En [56] se desarrolla un sistema de detección automática que contiene dos fases principales:
la primera fase realiza una serie de módulos de análisis de imágenes retinianas del fondo de ojo digital que incluyen detección de vasos, cálculo de la relación copa / disco y borde neurorretiniano, la segunda fase determina el estado anormal de los VS de la retina desde diferentes aspectos de la vista. Por otra parte, los autores de [57] introducen un nuevo sistema para la detección de glaucoma basado en una técnica de agrupamiento medio para extraer el DO y la copa óptica y también una técnica de ajuste elíptico para calcular la CDR. Además, se aplicó un enfoque de umbral de entropía local para detectar los vasos sanguíneos. El sistema consta de tres fases. La primera fase fue la extracción de ROI considerando el plano verde. La segunda fase fue la extracción de características mediante el agrupamiento medio.
Se utilizaron tres bases de datos: KNN, BAYES y SVM, para probar 15 imágenes normales y 21 glaucomatosas. KNN logró tasas de éxito del 93,3% y 80,9%; BAYES logró tasas de éxito del 86,6% y 95,23%; y SVM lograron tasas de éxito del 100%, 95.23% para imágenes normales y anómalas, respectivamente.
En [58] se exhibe un sistema que podría ser utilizado por no expertos para filtrar casos de pacientes no afectados por la enfermedad. Se propone la clasificación de imágenes glaucomatosas utilizando características de textura dentro de las imágenes y glaucoma eficiente con clasificación basada en Probabilistic Neural Network (PNN). El estudio propuesto en [59] consiste en un método semiautomático para la detección de glaucoma utilizando la relación CDR e ISNT de una imagen de fondo de ojo. ISNT es un parámetro utilizado para el diagnóstico de glaucoma que se determina a través de la relación del área de los vasos sanguíneos en el lado inferior superior al temporal nasal. Los vasos sanguíneos se desplazarán hacia el lado nasal para los pacientes con glaucoma, por lo que el valor será menor para el paciente con glaucoma que la imagen normal del fondo de ojo. Se aplica un filtro combinado y un umbral de entropía local para extraer los vasos sanguíneos. Se utiliza
una base de datos de 50 imágenes de retina (25 series normales y 25 series anormales) obtenidas del Aravind Eye Hospital para evaluar el rendimiento del sistema propuesto.
En [60], se desarrolla una arquitectura de deep learning (DL) con una red neuronal convolucional para el diagnóstico automatizado del glaucoma. Los sistemas de aprendizaje profundo, como las redes neuronales convolucionales (CNN), pueden inferir una representación jerárquica de imágenes para discriminar entre patrones de glaucoma y no glaucoma para las decisiones de diagnóstico. La arquitectura DL propuesta contiene seis capas aprendidas: cuatro capas convolucionales y dos capas completamente conectadas.
En [61] se propone un sistema automatizado de detección de glaucoma que funciona con imágenes de fondo de ojo digitales en color, de fácil adquisición y muy utilizadas. Después de un preprocesamiento específico de glaucoma, se comprimen diferentes tipos de características genéricas mediante una técnica de reducción de dimensiones basada en la apariencia. Posteriormente, un esquema de clasificación probabilística de dos etapas combina estos tipos de características para extraer el nuevo Índice de Riesgo de Glaucoma (GRI) que muestra un rendimiento de detección de glaucoma razonable. En un conjunto de muestra de 575 imágenes de fondo de ojo, se logró una precisión de clasificación del 80% [61].
En [62] se propone una CNN basada en la atención para la detección de glaucoma (AG- CNN). Específicamente, primero se una base de datos de glaucoma basada en la atención (LAG) a gran escala, que incluye 5,824 imágenes de fondo de ojo etiquetadas con glaucoma positivo (2,392) o glaucoma negativo (3,432). Los mapas de atención de los oftalmólogos también se recopilan en la base de datos de LAG a través de un experimento de seguimiento ocular simulado. Luego, se diseña una nueva estructura de AG-CNN, que incluye una subred de predicción de atención, una subred de localización de áreas patológicas y una subred de clasificación de glaucoma. Los resultados de la investigación muestran que el enfoque propuesto de AG-CNN es efectivo en la detección de glaucoma.
El estudio de [63] investigó si el uso de clasificadores de aprendizaje automático mejora la detección de glaucoma por tomografía de coherencia óptica (OCT). En este estudio transversal se incluyeron 47 pacientes con glaucoma (47 ojos) y 42 sujetos sanos (42 ojos).
De los pacientes con glaucoma, 27 tenían enfermedad temprana (desviación media del campo visual [DM] ≥ -6 dB) y 20 tenían glaucoma avanzado (DM <-6 dB). Los clasificadores de
aprendizaje automático se entrenaron para diferenciar entre ojos glaucomatosos y sanos utilizando parámetros derivados de la salida de OCT. La clasificación entre glaucoma temprano y glaucoma avanzado se obtuvo con el modelo aditivo generalizado utilizando solo tres parámetros.
En [64] se presenta un aprendizaje automático de funciones para la detección de glaucoma basado en deep learning (ALADDIN), con una red neuronal convolucional profunda (CNN) para el aprendizaje de funciones. A diferencia de la capa convolucional tradicional que utiliza filtros lineales seguidos de una función de activación no lineal para escanear la entrada, la red adoptada incorpora microredes neuronales (perceptrón multicapa) con estructuras más complejas para abstraer los datos dentro del campo receptivo. Además, se propone una estructura contextualizadora de deep learning con el fin de obtener una representación jerárquica de las imágenes del fondo de ojo para discriminar entre patrón de glaucoma y no glaucoma, donde la red toma los resultados de otras CNN como información de contexto para mejorar el rendimiento. Se realiza la evaluación del algoritmo en las bases de datos ORIGA y SCES. Los resultados muestran una efectividad del 83,8% y 89,8%
respectivamente.
1.3 Métricas para validar el desempeño del diagnóstico del glaucoma en imágenes digitales de fondo de ojo
La evaluación de los algoritmos diseñados para el procesamiento de imágenes médicas generalmente requiere el uso de una ground truth (gold standard) y la selección de medidas apropiadas para evaluar la similitud de la salida lograda con los datos de referencia. El ground truth de la estructura a analizar se anota o segmenta manualmente, y lo determina un grupo de especialistas humanos [65]. Se relaciona con los píxeles que componen el contorno del DO o las coordenadas (x, y) que permiten localizarlo en las imágenes de fondo de ojo. Dentro de las medidas de similitud se evidencia el uso frecuente de las medidas de superposición espacial donde el ground truth es una imagen binaria siendo 1 el área de la estructura y 0 representa el resto de la imagen [1].
La terminología empleada habitualmente para cuantificar los resultados obtenidos en un proceso de segmentación y/o localización del DO es la siguiente: verdaderos positivos (VP),
falsos positivos (FP), falsos negativos (FN) y verdaderos negativos (VN) [1]. Por ejemplo, en el caso del diagnóstico del glaucoma se puede emplear la siguiente terminología:
Verdaderos Positivos (a): imagen con rasgos de glaucoma diagnosticada correctamente como “con glaucoma” (glaucoma correctamente diagnosticado).
Falsos Positivos (b): se diagnostica “con glaucoma”, aquella imagen que no presenta evidencia de la enfermedad (diagnóstico de glaucoma cuando no está presente la enfermedad).
Falsos Negativos (c): se diagnostica “sin glaucoma”, aquella imagen que posee signos de la enfermedad (glaucoma no diagnosticado cuando sí está presente la enfermedad).
Verdaderos Negativos (d): se diagnostica sin glaucoma a una imagen que no posee signos de la enfermedad (no diagnostica glaucoma porque no existe la enfermedad).
1.4 Conclusiones parciales del capítulo
El diagnóstico temprano del glaucoma es fundamental para prevenir daños estructurales permanentes y pérdida irreversible de la visión. La detección del glaucoma generalmente se basa en el examen del daño estructural del nervio óptico combinado con mediciones de la función visual. Como apoyo para los especialistas de la oftalmología, existe la disposición de realizar y mejorar el CAD, para lo cual se precisa de la detección automática de las estructuras del fondo de ojo, y en particular del DO y de la copa óptica, los cuales, constituyen el punto de referencia primordial en el diagnóstico temprano de dicha enfermedad. A pesar de la gran variedad de procedimientos desarrollados para su detección, permanece la indagación de algoritmos sólidos que satisfagan los requerimientos de velocidad, precisión y bajo costo computacional que permitan la realización de aplicaciones automatizadas. En este sentido para favorecer la búsqueda de las estructuras se parte del empleo de un método de aprendizaje supervisado el cual le da robustez al algoritmo propuesto.
CAPÍTULO 2. MATERIALES Y MÉTODOS
La localización precisa de la copa óptica en las imágenes de la retina es importante para evaluar la relación copa / disco (CDR) para la detección y el tratamiento del glaucoma. Como el glaucoma se evalúa fisiológicamente por el aumento del tamaño de la copa óptica comprendida dentro del DO. Por tanto, el CDR es un indicador importante del riesgo y la gravedad del glaucoma.
El siguiente capítulo, se enfoca en el cálculo de la razón copa / disco (CDR) para la detección del glaucoma en imágenes digitales de fondo de ojo. En primer lugar, se especifica el software seleccionado, así como la base de datos utilizada para el desarrollo del estudio.
Luego, se explican los pasos necesarios para realizar el diagnóstico, y por último se enuncian las métricas seleccionadas para evaluar el desempeño del método propuesto.
2.1 Materiales empleados
A continuación, se enuncian las herramientas de software y hardware empleadas en la detección del glaucoma en imágenes digitales de fondo de ojo. La evaluación comparativa de estos algoritmos en una variedad de conjuntos de datos es esencial para establecer su solidez y efectividad. De igual forma se describe la base de datos empleada para el análisis posterior de los resultados.
2.1.1 Herramientas de software y hardware
Se trabajó con el software MatLab, al contar con la implementación de funciones asociadas al algoritmo de Viola-Jones en el toolbox de visión computacional (Computer Vision Toolbox) y al procesamiento digital de imágenes en el toolbox respectivo (Image Processing
Toolbox). Se usó la versión 8.5.0.197613 (R2015a) de 64 bits en específico. Todos los procedimientos se realizaron en una Laptop Dell, Intel(R) Core (TM) i3-5015U con dos núcleos a 2.10GHz, con 4GB de RAM y Sistema Operativo Windows 10 de 64 bits.
2.1.2 Base de datos de imágenes digitales de fondo de ojo
Para el desarrollo del estudio se empleó las imágenes de la base de datos Drishti-GS [66], disponible públicamente en internet, con las siguientes características:
La base de datos cuenta con 101 imágenes, en ella aparecen delimitadas dos conjuntos de imágenes: 50 son de entrenamiento y 51 imágenes de prueba. Cuatro expertos en ojos con diversa experiencia clínica marcaron todas las fotografías. Fueron tomadas con la cooperación de los visitantes del Aravind Eye Hospital en Madurai. Los investigadores clínicos eligieron a los pacientes con glaucoma basándose en los datos clínicos durante la visita. Los pacientes tenían edades comprendidas entre los 40 y los 80 años, con un número aproximadamente igual de hombres y mujeres [67]. El siguiente fue el procedimiento de recolección de datos:
- Todas las fotos fueron capturadas con un campo de visión (FOV) de 30 grados con dimensiones de 2896 X 1944 píxeles en formato de imagen PNG sin comprimir, centrado en OD.
- El ground truth se obtuvo de especialistas en datos con 3, 5, 9 y 20 años de experiencia clínica, respectivamente.
- Se diseñó una herramienta de marcado específica para la recopilación del ground truth a fin de permitir el marcado exacto de los límites.
La siguiente información constituye el groud truth.
- Segmentation Soft Map: se creó combinando las marcas de los cuatro especialistas médicos.
- El DO y los bordes de la copa óptica promedio se determinan promediando los datos de las muestras en un gran número de sectores angulares.
- Los valores de CDR: debido a que CDR es un criterio clave para el diagnóstico de glaucoma, también se proporcionan los valores de CDR para cuatro marcas de expertos.
- Decisiones a nivel de imagen: La opinión mayoritaria (3 de 4) de los expertos se utiliza para llegar a una conclusión binaria a nivel de imagen sobre si cada imagen es normal o glaucomatosa, considerando la opinión de un quinto experto en caso de ser necesario.
- Notching: Un solo experto toma una decisión sobre si se producen o no notches en los sectores superior, inferior, nasal y temporal.
Para las 50 fotografías de entrenamiento, se proporciona el ground truth previo a las pruebas realizadas.
2.2 Metodología para el diagnóstico del glaucoma
Como muestra la figura 2.1, el estudio realizado sigue una estructura progresiva en donde en primer lugar se determina la imagen de entrada de fondo de ojo que será analizada por el algoritmo. Luego se detecta el disco óptico utilizando el algoritmo de Viola-Jones.
Posteriormente se segmenta la copa óptica aplicando el método de Otsu. Finalmente se calcula el CDR para realizar el diagnóstico del glaucoma.
Figura 2.1. Diagrama del procedimiento realizado para el diagnóstico del glaucoma.
2.2.1 Segmentación del disco óptico en imágenes digitales de fondo de ojo
Para la detección del disco óptico en imágenes digitales de fondo de ojo se usó el algoritmo desarrollado en [1] donde se utilizaron 12 000 imágenes para el entrenamiento de un detector para la ROI del DO. Para comprobar el desempeño del detector, el mismo fue probado en un conjunto de 1841 imágenes de bases de datos públicas, en las cuales reportó una tasa de acierto un 99,95 % en un tiempo promedio de 213 ms.
Imágenes de entrada Detección del disco óptico
Segmentación de
la copa óptica Diagnóstico glaucoma
Para realizar el entrenamiento de este detector fue necesario tomar muestras positivas y negativas de las imágenes de entrenamiento. Las imágenes positivas comprenden la ROI, donde se encuentra contenido el DO por completo, para lo que se marcaron las ROI en forma cuadrada para que la detección final facilitara a su vez la localización del DO. Para el etiquetado de la ROI, se empleó la App de MatLab, Image Labeler, que permite etiquetar mediante una caja contenedora (bounding box) o BBOX, la ROI en un conjunto de imágenes para ser usadas en aplicaciones de visión computacional. Considerando que el algoritmo genera automáticamente las imágenes negativas, se tomaron con este fin, las mismas imágenes positivas, pero sin contener la ROI del DO. Para responder a las necesidades del algoritmo en cuanto a cantidad de muestras negativas, el conjunto inicial se aumentó hasta 250 000 imágenes negativas realizando rotaciones en diferentes ángulos.
Las funciones necesarias para realizar el entrenamiento fueron las siguientes:
trainCascadeObjectDetector: permite realizar el entrenamiento del detector en cascada. Los datos de entrada de esta función son:
positiveInstances: estructura con la ubicación de las imágenes positivas y una matriz con sus coordenadas.
negativeImages: especifica la ubicación de las imágenes negativas.
FeatureType: define el tipo de rasgo a usar para entrenar el modelo de clasificación.
NegativeSamplesFactor: multiplicado por el número de muestras positivas en cada etapa define el número de muestras negativas a tomar.
TruePositiveRate: es la fracción de muestras de entrenamiento positivas clasificadas correctamente como positivas.
FalseAlarmRate: es la fracción de muestras negativas de entrenamiento incorrectamente clasificadas como positivas.
NumCascadeStages: número de etapas en cascadas a emplear.
vision.CascadeObjectDetector: a esta función se le introduce el archivo XML que constituye el detector entrenado. Una vez se tiene el detector, mediante la función step se realiza la detección automática. A la misma, se le introduce el detector y la imagen a detectar.
El detector se entrenó en 10 etapas con un FalseAlarmRate de 0,01, y demás parámetros predeterminados.
El detector de objetos en cascada implementado en el Computer Vision System Toolbox de MatLab puede detectar objetos cuya proporción dimensional no varíe significativamente como es el caso de las señales de stop, carros o rostros. El mismo, detecta objetos en toda la imagen deslizando una ventana de búsqueda a diferentes escalas. Para decidir que ventana contiene el objeto de interés, el detector usa un clasificador en cascada.
El clasificador en cascada está compuesto por varias etapas, cada una conformada por un conjunto de clasificadores débiles. Cada etapa es entrenada usando una técnica llamada boosting que ofrece un clasificador de alta exactitud. Cada etapa del clasificador etiqueta la región definida por la posición actual de la ventana deslizante como positiva o negativa, positivo indica que el objeto fue encontrado y negativo indica lo contario. Si la etiqueta es negativa, la clasificación de esta región es completa, y el detector desliza la ventana para la siguiente posición. Si la etiqueta es positiva, el clasificador pasa la región a la siguiente etapa.
El detector reporta un objeto encontrado en la posición actual de la ventana cuando la fase final clasifica la región como positiva. Cada etapa está diseñada para rechazar lo más rápido posible las muestras negativas. Para un mejor desempeño, cada etapa debe tener una tasa baja de falsos negativos, ya que, si en una etapa se etiqueta un objeto como negativo, el error no será posible corregirlo, por lo que se detiene la clasificación. Sin embargo, cada etapa puede tener una tasa alta de falsos positivos, ya que, si se etiqueta incorrectamente un objeto como positivo, el error puede ser corregido en la etapa siguiente. Cada nueva etapa de la cascada es entrenada para corregir el error de las etapas anteriores.
Para el entrenamiento del clasificador es necesario introducir un conjunto de imágenes positivas y de imágenes negativas. Las imágenes positivas deben tener especificada la ROI usada como muestra positiva, mientras las imágenes negativas son generadas automáticamente, solo hay que proveer para el entrenamiento un conjunto de imágenes que no contenga la ROI. El conjunto de imágenes puede ser aumentado agregándole ruido, variando la intensidad, el contraste, el tamaño o realizando rotaciones. Mientras mayor cantidad de etapas se añadan, la tasa global de falsos positivos disminuye, haciendo cada vez más difícil generar muestras negativas, por lo que se sugiere habilitar la mayor cantidad de