Sistema de inteligencia artificial para la detección de nódulos pulmonares

(1)

Departamento de Control Automático

Título: Sistema de inteligencia artificial para la detección de nódulos pulmonares.

Autor: Pedro Pablo Camellón Quintero

Tutores: Dr.C. Marlén Pérez Díaz

Dr.C. José Daniel López Cabrera

2021

(2)

Universidad Central “Marta Abreu” de Las Villas

Facultad de Ingeniería Eléctrica

Departamento de Control Automático

TRABAJO DE DIPLOMA

Sistema de inteligencia artificial para la detección de nódulos pulmonares

Autor: Pedro Pablo Camellón Quintero

Tutores: Dr.C. Marlén Pérez Díaz

[email protected]

https://orcid.org/0000-0002-3706-9154

Dr.C. José Daniel López Cabrera

[email protected]

https://orcid.org/0000-0003-2137-0361

Santa Clara 2021

"Año 63 de la Revolución"

(3)

Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas, y se encuentra depositado en los fondos de la Biblioteca Universitaria “Chiqui Gómez Lubian” subordinada a la Dirección de Información Científico Técnica de la mencionada casa de altos estudios.

Se autoriza su utilización bajo la licencia siguiente:

Atribución- No Comercial- Compartir Igual

Para cualquier información contacte con:

Dirección de Información Científico Técnica. Universidad Central “Marta Abreu” de Las Villas. Carretera a Camajuaní. Km 5½. Santa Clara. Villa Clara. Cuba. CP. 54 830 Teléfonos.: +53 01 42281503-1419

(4)

PENSAMIENTO

“No necesito saberlo todo, tan solo saber dónde encontrar aquello que me haga falta cuando lo necesite”.

Albert Einstein

(5)

DEDICATORIA

A mi familia, en especial mis padres, a Meli y a mis amigos por su poyo infinito.

A todos los que me ayudaron a lo largo de mi carrera estudiantil.

(6)

AGRADECIMIENTOS

Quiero agradecer a todas aquellas personas que en diferentes formas me apoyaron y acompañaron a lo largo de este proceso:

 A mis padres por inculcarme desde pequeño el amor a las ciencias

 A mis tutores, Marlén y José Daniel, por su guía y apoyo inmenso

 A Jorge Armando por sus consejos

 A todas aquellas personas que dedican su vida al desarrollo de la ciencia, en especial, de la Inteligencia Artificial

(7)

RESUMEN

El cáncer de pulmón es el causante del mayor número de muertes por cáncer en el mundo.

La radiografía de tórax es el método más extendido para la identificación de los nódulos pulmonares, sin embargo, estas son difíciles de interpretar debido a su bajo contraste y al conjunto de estructuras anatómicas que se superponen. Los sistemas de detección asistidos por ordenador incrementan la efectividad de los diagnósticos y reducen la carga laboral de los especialistas. En el presente trabajo se propone un sistema de este tipo basado en inteligencia artificial para la detección de nódulos pulmonares a partir de radiografías de tórax. El mismo emplea redes neuronales de convolución. Para la detección de nódulos se utilizó la red SqueezeNet con tres estrategias de entrenamiento (imagen completa, segmentación de pulmón y regiones de interés). Se aplicaron técnicas de transferencia de aprendizaje y aumento de datos. Se crearon conjuntos de imágenes a partir de tres bases de datos internacionales. Se entrenó y validó la red, y para el mejor modelo obtenido se realizó una prueba externa a partir de una cuarta base de datos. El mejor modelo se obtuvo con SqueezeNet e imágenes consistentes en pequeños parches. Este alcanzó una exactitud balanceada de 93 %, aún sin poder de generalización.

Palabras clave: radiografía de tórax; nódulo pulmonar; inteligencia artificial; aprendizaje profundo.

(8)

ABSTRACT

Lung cancer is the cause of the highest number of cancer deaths in the world. The chest X- ray is the most widespread method for the identification of pulmonary nodules; however, these are difficult to interpret due to their low contrast and the set of overlapping anatomical structures. Computer-aided detection systems increase the effectiveness of diagnoses and reduce the workload of specialists. In the present work, a system of this type based on artificial intelligence is proposed for the detection of pulmonary nodules from chest X-rays.

It uses convolutional neural networks. For the detection of nodules, the SqueezeNet network was used with three training strategies (complete image, lung segmentation and interest regions). Learning transfer techniques and data augmentation were applied. Image sets were created from three international databases. The network was trained and validated, and for the best model obtained, an external test was carried out from a fourth database. The best model was obtained with SqueezeNet and images consisting of small patches. This reached a balanced accuracy of 93%, even without power of generalization.

Key words: chest x-ray; lung nodule; artificial intelligence; deep learning.

(9)

GLOSARIO DE SIGLAS Y TÉRMINOS

BD: Base de datos

CAD: (del inglés Computer Aided Diagnosis). Sistema de diagnóstico asistido por computadora.

CNN: (del inglés Convolutional Neural Network). Red neuronal de convolución DL: (del inglés Deep Learning). Aprendizaje profundo

FN: Falso negativo FP: Falso positivo IA: Inteligencia artificial

ML: (del inglés Machine Learning). Aprendizaje automático RNA: Red neuronal artificial

VN: Verdadero negativo VP: Verdadero positivo

(10)

TABLA DE CONTENIDOS

INTRODUCCIÓN ... 2

CAPÍTULO 1. MARCO TEÓRICO ... 6

1.1 Imágenes de rayos x ... 6

1.2 Radiografía de tórax ... 7

1.3 Cáncer de pulmón ... 8

1.3.1 El nódulo pulmonar ... 9

1.4 Sistemas CAD ... 11

1.4.1 Sistemas CAD basados en RNA ... 12

1.4.2 Interpretación de los resultados de los sistemas que emplean RNA ... 15

1.5 Etapas de los sistemas CAD para la detección de nódulos pulmonares ... 16

1.6 Particularidades de los sistemas CAD basados en aprendizaje profundo ... 19

1.7 Conclusiones del capítulo ... 22

CAPÍTULO 2. MATERIALES Y MÉTODOS ... 23

2.1 Descripción de los conjuntos de imágenes utilizados ... 23

2.2 Software y hardware empleados ... 24

2.3 Prepocesamiento de las imágenes para el entrenamiento ... 24

2.3.1 Imagen completa ... 24

2.3.2 Segmentación de la región pulmonar ... 25

2.3.3 Extracción de la región correspondiente al cuadro delimitador de cada lesión ... 26

2.4 Entrenamiento, validación y prueba de los modelos ... 27

2.4.1 SqueezeNet ... 31

CAPÍTULO 3. RESULTADOS Y DISCUSIÓN ... 33

3.1 Resultados de cada estrategia para el entrenamiento y validación de los modelos ... 33

3.1.1 Imagen completa ... 33

3.1.2 Imagen segmentada ... 37

3.1.3 Regiones de interés ... 39

3.2 Prueba externa... 45

3.3 Discusión general ... 46

3.4 Análisis económico ... 48

3.5 Conclusiones del capítulo ... 49

CONCLUSIONES Y RECOMENDACIONES ... 50

REFERENCIAS BIBLIOGRÁFICAS ... 51

(11)

ANEXOS ... 56 Anexo 1. Código en Python para cargar y preprocesar las imágenes ...

Anexo 2. Código en Python para definir la red empleada y entrenarla ...

Anexo 3. Código en Python para emplear el buscador de tasa de aprendizaje ...

Anexo 4. Código en Python para realizar un ajuste fino de la red ...

(12)

INTRODUCCIÓN

El cáncer es el mayor impedimento para incrementar la esperanza de vida en los países del mundo con infraestructura adecuada para la salud. Específicamente, el cáncer de pulmón sobresale como el que mayor número de muertes provoca. Aproximadamente 1 796 144 personas fallecieron debido a esta enfermedad en 2020, según la Agencia Internacional para la Investigación del Cáncer [1]. Estas estadísticas, sumadas a las pesquisas médicas masivas impulsadas en varios países, han aumentado la carga laboral de los radiólogos [2], [3]. En Cuba, el cáncer es la segunda causa de muerte con una taza de 223 por cada 100 000 habitantes. Las estadísticas de los últimos 20 años indican que 66.7 de cada 100 000 hombres y 38.6 de cada 100 000 mujeres sufren cáncer de pulmón [4].

El cáncer de pulmón es el resultado de un crecimiento incontrolado de células del tejido pulmonar. En su fase inicial se aprecia como pequeñas masas de tejido aproximadamente esféricas, de entre 5 a 30 mm de tamaño. Estas son conocidas como nódulos pulmonares [5].

El desarrollo de las técnicas de obtención de imágenes médicas como la radiografía, la tomografía computarizada (TC), la ultrasonografía y la resonancia magnética, ha permitido un diagnóstico temprano en muchas enfermedades. En el cáncer, esto aumenta las probabilidades de éxito de la intervención quirúrgica y evita costos superiores en tratamientos durante etapas más avanzadas. Los métodos que involucran radiaciones ionizantes más empleados en la obtención de imágenes médicas son la tomografía computarizada y la radiografía. Estas se emplean cotidianamente para diagnosticar el cáncer de pulmón.

La TC ofrece información volumétrica en 3D con alta resolución, alto contraste y en un corto período de tiempo. El número de imágenes por cada sesión depende del área a observar, que es grande para la región del tórax; y de la resolución del equipo, comúnmente de 200 a 400 imágenes. Esta alta resolución ofrece una gran ventaja en la detección de nódulos pulmonares en comparación con las radiografías [6], [7]. Sin embargo, su empleo tiene varios inconvenientes como son: el gran número de imágenes que requiere aumenta el tiempo de inspección por el especialista, en muchos hospitales no se cuenta con el equipamiento necesario, ni se cuenta con recursos para adquirirlo y la alta dosis de radiación efectiva (5.5 mSv), cincuenta veces mayor en promedio que la de una sesión de radiografía (0.1 mSv) [8].

(13)

Debido a los inconvenientes de la TC, la radiografía es el método más utilizado, contando además con una rápida y fácil obtención e interpretación, una baja exposición del paciente a radiaciones ionizantes y la disponibilidad en la mayoría de hospitales y clínicas, debido al menor costo de adquisición de los equipos y de cada sesión. Existe una versión portátil que expone al paciente a una menor dosis de radiación [9]. En este sentido, las radiografías de tórax son las más empleadas para identificar radio-opacidades o masas anómalas en los pulmones, que pudieran constituir tumores. Esta prueba se realiza generalmente en dos proyecciones, una frontal y otra lateral.

Debido al solapamiento de las estructuras anatómicas, las radiografías podrían ser solo adecuadas para la detección de nódulos de gran tamaño en comparación con las tomografías, teniendo una efectividad limitada en el diagnóstico temprano [10]. Su incorrecta interpretación es la mayor causa de diagnósticos errados [11], por lo que se recomienda una doble lectura. Esto depende mucho de la experiencia del especialista, las condiciones de visualización, la presencia de artefactos en las imágenes y las características de las lesiones [12]. Los nódulos pueden presentar densidades variadas, lo que afecta su visibilidad en la radiografía. Estos pueden surgir en cualquier parte del área pulmonar, pudiendo quedar ocultos por las costillas, el mediastino o las estructuras debajo del diafragma.

Cada vez es mayor el interés a nivel mundial en desarrollar sistemas de diagnóstico asistido por ordenador (CAD del inglés Computer Aided Diagnosis) para reducir la carga laboral de los especialistas y para mejorar su índice de aciertos [13]. Algunos se basan en tomografías [14], [15], y otros en radiografías [16], [17], resaltando regiones con alta probabilidad de constituir un tumor en el área pulmonar, facilitando una segunda opinión al radiólogo [18].También, la mayor utilidad puede ser su implementación en pesquizajes masivos para detección temprana de cáncer de pulmón. Esto significa pasar por el sistema todas las radiografías disponibles en un hospital o región que se hayan realizado por cualquier causa.

En este sentido, lo que sería una tarea ardua para especialistas, es una tarea sencilla para una máquina con un algoritmo entrenado.

Los primeros sistemas se basaban en reglas definidas por expertos [19], [20]. Luego, con la aplicación de técnicas de aprendizaje automático (ML del inglés machine learning) como las redes neuronales artificiales (RNA), se han complejizado y mejorado sus resultados considerablemente [21]. Recientemente se han incorporado avances en el aprendizaje

(14)

profundo (DL del inglés deep learning), logrando buenos diagnósticos [16]. Una de las arquitecturas de DL más usadas en la clasificación de imágenes es la red neuronal de convolución (CNN del inglés Convolutional Neural Networks) [22], la cual imita el comportamiento de la corteza visual humana [23].

El rendimiento de los sistemas depende del correcto ajuste de cada una de sus etapas, generalmente cuatro: preprocesamiento de las imágenes, segmentación de la región de interés, extracción de características y clasificación [24], aunque se pudiera añadir, en el caso concreto de lesiones pulmonares, la detección de candidatos a nódulos, su segmentación, extracción de características, clasificación y determinación de su posible malignidad [25].

Los sistemas CAD actuales no alcanzan una sensibilidad del 100 %, al no detectar la totalidad de las lesiones [26]. Algunos estudios apuntan que la sensibilidad de un humano varía entre un 49 % y un 65 % sin uso del CAD, y entre un 68 % y un 93 % con su asistencia [27].

Como se aprecia, la detección y clasificación de los nódulos pulmonares aún constituye un desafío, a pesar del rendimiento que ofrecen los novedosos métodos de aprendizaje profundo y de la disponibilidad de conjuntos anotados de imágenes. El tema a desarrollar en la presente tesis consiste en aplicar técnicas de DL a la identificación de nódulos pulmonares con vistas a su implementación en hospitales oncológicos cubanos.

En este sentido, el objeto de estudio son las radiografías pulmonares y el campo de investigación es la detección de nódulos pulmonares en las radiografías de tórax a partir de técnicas de inteligencia artificial.

A tono con lo anterior, se define como problema científico de investigación el hecho de que los especialistas presentan dificultades para detectar los nódulos pulmonares a partir de imágenes radiológicas digitales, debido al bajo contraste de las lesiones de pulmón respecto al tejido sano y la presencia de múltiples estructuras anatómicas y ruido. Se necesita implementar un sistema automatizado basado en una CNN que ayude a resolver este inconveniente.

La hipótesis de investigación que se formula es: La detección de nódulos pulmonares puede ser eficaz con la ayuda de un sistema automatizado basado en inteligencia artificial, como puede ser una CNN.

El objetivo general de la tesis es: Desarrollar un sistema automatizado en Python, basado en una CNN, que sea capaz de detectar nódulos pulmonares.

(15)

Para acometer lo anterior se definen los siguientes objetivos específicos:

1. Seleccionar una arquitectura de red neuronal eficaz y eficiente computacionalmente para la detección de nódulos pulmonares.

2. Entrenar y ajustar la red neuronal con la arquitectura previamente seleccionada para el 80 % y el 20 % respectivamente, de un conjunto de imágenes anotado.

3. Evaluar el modelo a partir de una prueba con datos anotados, pero de diferente origen al del conjunto de imágenes originalmente utilizado para entrenamiento y validación.

La presente tesis está organizada de la siguiente manera: Introducción, tres capítulos, Conclusiones, Recomendaciones, 107 referencias bibliográficas y 4 anexos, contando con 67 páginas, donde se incluyen 32 figuras y 2 tablas.

(16)

CAPÍTULO 1. MARCO TEÓRICO

En el presente capítulo se abordan varios elementos conceptuales, tecnológicos y de revisión bibliográfica sobre los CAD con inteligencia artificial (IA), tales como: el concepto de imagen médica, obtención de las radiografías de tórax y los parámetros que determinan su calidad, características de los nódulos pulmonares y problemas asociados a su detección en Radiología, aportes de los sistemas CAD para la detección de lesiones pulmonares, su evolución y sus principales etapas. Finalmente se explica el papel que juegan los métodos de aprendizaje profundo en los nuevos sistemas de diagnóstico durante la segmentación del área de interés y en la detección de las lesiones. Se presenta un enfoque crítico de los principales sistemas de IA publicados hasta la actualidad para la detección y clasificación de nódulos pulmonares.

1.1 Imágenes de rayos x

El interés por el estudio de la anatomía del cuerpo humano ha potenciado el desarrollo de las técnicas de obtención de imágenes médicas para diversos fines clínicos. Estas son representaciones gráficas bidimensionales de una estructura, región, órgano o tejido del cuerpo humano. En el caso de las imágenes digitales, consisten en una matriz de M x N celdas denominadas píxeles, de características variables. En las imágenes monocromáticas, como las radiografías, cada píxel posee un valor de luminancia en niveles de gris [28]. Las imágenes digitales pueden ser manipuladas, permitiendo mejorar diferentes parámetros de la misma a través de técnicas de procesamiento digital.

Las radiografías son un tipo de imagen médica obtenida mediante la exposición del cuerpo humano a rayos x. Se realizan con una fuente de rayos x en un lado del paciente y un detector en el otro. Las propiedades de atenuación de cada tejido ante los rayos x que lo atraviesan son diferentes. Esto resulta en una distribución heterogénea de grises sobre la imagen radiográfica [29].

En los equipos de rayos x, un alto voltaje acelera un gran número de electrones emitidos por un cátodo hacia un objeto metálico (ánodo), los que al impactar con el mismo lo calientan y emiten pequeñas dosis de radiación x [30]. La Figura 1.1 ofrece una descripción del proceso de emisión en un tubo de rayos x. Tras atravesar al paciente, la radiación es detectada por

(17)

una placa con fotodetectores, que registra el patrón previo de atenuación en el tejido, conformando una distribución de grises que constituye la imagen radiográfica [30].

Figura 1.1 Descripción del proceso de emisión de rayos x. Extraído de [31].

La calidad de las imágenes está determinada por el método de obtención, las características del equipo y su configuración. Es necesario que estas cumplan con ciertos parámetros para que sean útiles para el especialista. Dentro de los parámetros que determinan la calidad de las radiografías están el ruido que contienen, la presencia de artefactos, la resolución espacial, la distorsión y el contraste [12].

1.2 Radiografía de tórax

Las radiografías de tórax se emplean comúnmente para identificar lesiones en el área pulmonar. El tórax es la región del cuerpo humano localizada entre el cuello y el abdomen.

En las radiografías de esta región destacan, por su mayor visibilidad, ciertos huesos y el mediastino, y con menor nitidez que estos, los pulmones, las vías respiratorias y el diafragma.

Los huesos son densos, por lo que son más brillantes, algunos de los que se aprecian son las costillas, parte de la médula espinal, del húmero, la clavícula y la escápula. Generalmente las imágenes son obtenidas luego de que el paciente inhale aire. Los pulmones y las vías respiratorias, al contener aire, son menos densos que los tejidos blandos a su alrededor y se muestran más oscuros. El mediastino es un espacio virtual que contiene el corazón, los vasos sanguíneos mayores, la tráquea, los bronquios, el esófago, el timus y el corazón. La mayoría de estas estructuras, a excepción del corazón, no son visibles en las radiografías; es la superposición en la radiografía frontal la que lo provoca [32]. La Figura 1.2 muestra la

(18)

complejidad anatómica de este tipo de imagen, así como la localización de las principales estructuras presentes.

Figura 1.2 Imagen radiográfica de tórax

En la radiografía de tórax se incluye la región pulmonar, como se aprecia en la Figura 1.2.

Los pulmones son dos órganos blandos, esponjosos y elásticos que están situados dentro de la cavidad torácica, por encima del diafragma y separados por la región cardiomediastinal.

Poseen forma de semicono irregular con una base dirigida hacia abajo y un ápice redondeado.

Están cubiertos con pleura visceral y se ubican libremente en la cavidad pleural correspondiente. La función principal de los pulmones es el intercambio de gases, (oxigenación de la sangre y eliminación del anhídrido carbónico de la misma).

Existen opiniones diversas sobre cuánto abarca el área pulmonar en situaciones anormales.

Algunos especialistas solo consideran las cavidades que contienen aire, mientras otros incluyen el área oscurecida por el fluido pleural. La mayoría de los sistemas CAD sigue el primer criterio [32].

1.3 Cáncer de pulmón

El cáncer de pulmón es una neoplasia maligna originada como resultado de un crecimiento descontrolado de células del tejido pulmonar o del recubrimiento de las vías respiratorias [33]. Se divide en dos tipos fundamentalmente: de células pequeñas y de células no pequeñas [34]. Inicialmente desarrolla pequeñas masas de tejido aproximadamente esféricas, de entre 5 a 30 mm, que reciben el nombre de nódulos pulmonares [5].

(19)

El cáncer puede diseminarse por otras partes del cuerpo antes de ser detectado en los pulmones [34]. El diagnóstico temprano facilita el tratamiento, conlleva menores riesgos y aumenta la esperanza de vida del paciente. Su baja tasa de supervivencia (inferior al 16 % en 5 años) [35] suele deberse a que es identificado cuando se encuentra en una etapa avanzada.

1.3.1 El nódulo pulmonar

El nódulo pulmonar es la primera etapa en el desarrollo del cáncer de pulmón. Se aprecia en las radiografías como una opacidad redondeada cuyo diámetro es inferior a 3 cm. Presenta generalmente bordes definidos, los que pueden ser irregulares, espiculados o lobulados [36].

La Figura 1.3 muestra algunos ejemplos de nódulos.

Figura 1.3 Se aprecia en la radiografía un nódulo claramente visible en el pulmón derecho (izquierda). Nódulos pulmonares sobre regiones de interés en una radiografía (derecha). Tomado de

[31], [37].

La detección de nódulos se ve afectada, a menudo, por errores durante la observación, las características de la lesión y defectos técnicos; situación que ha persistido sin mucha variación desde mediados del siglo pasado, a pesar de los grandes avances tecnológicos. Se han descubierto anomalías en la revisión de imágenes radiográficas clasificadas como normales, en personas diagnosticadas con neoplasia maligna pulmonar [11].

Los errores cometidos por el observador son la principal causa de diagnósticos erróneos. Se subdividen, en el estudio de [38], en tres categorías: errores de escaneo, de reconocimiento y de toma de decisiones, donde cada uno representa el 30 %, el 25 % y el 45 % respectivamente.

El error de escaneo se debe a que la opacidad no se percibe en la parte central de la retina humana durante el análisis de la imagen. Se requiere un promedio de 300 fijaciones oculares

(20)

para cubrir un área de 14 × 17 cm, mientras que en la práctica médica solo se utilizan 80-120 fijaciones oculares en un promedio de 20-30 segundos dedicados a cada imagen por un radiólogo. Esto significa que grandes partes no se observan con la suficiente atención. La experiencia del especialista también juega un papel muy importante. Los más experimentados desarrollan una ruta de exploración eficaz al conocer la apariencia típica de los hallazgos normales y patológicos [39]. La identificación de una anomalía puede interferir con el proceso de búsqueda de otras, debido a la “satisfacción de búsqueda” que experimenta el especialista, quien puede cesar la búsqueda o concentrarse en la parte incorrecta de la imagen [40].

El error de reconocimiento consiste en la pérdida de lesiones, aún tras un escaneo adecuado.

Se debe, en gran parte, a los modelos mentales creados por el observador. La búsqueda activa se ve afectada por las condiciones de trabajo, la fatiga, el índice de sospecha, la edad del paciente, la presencia de otras anomalías y la historia clínica [11]. La disponibilidad de datos clínicos permite identificar pacientes de alto riesgo en los que se realiza una búsqueda más exhaustiva. La interpretación inexacta de una anomalía identificada como normal corresponde a un error en la toma de decisiones.

La dimensión, visibilidad y ubicación son las características más importantes para la identificación del tumor. En [41] se aprecia una tasa de detección del 29 % en tumores con un diámetro menor o igual a 10 mm y del 28 % para diámetros entre 10 a 30 mm. Las lesiones mayores de 40 mm no se pasaron por alto [41]. Sin embargo, en la literatura, el tamaño medio de los carcinomas omitidos es bastante variable. En la mayoría de los casos supera los 10 mm [42],[43], lo que demuestra que otros factores también influyen en la identificación.

La visibilidad de los nódulos se ve muy afectada por la nitidez de los márgenes y su densidad.

Los resultados de [43] indican que los especialistas califican primero el nivel de opacidad en la radiografía y posteriormente emplean la sesión tomográfica para describir los bordes y la densidad de las lesiones. Varios autores apuntan que la mayoría de las lesiones pasadas por alto no tenían bordes nítidos y poseían baja densidad [41], [42].

Sobre la influencia de la ubicación, varios autores apuntan una prevalencia marcada para los lóbulos superiores, entre el 45 % y el 66 % [41], [44], [45]. Se reseñó en [42] que el 81 % de los casos de no detección, correspondían a los lóbulos superiores, particularmente en el

(21)

derecho (56 %). Sin embargo, otros estudios sugirieron que se deben tener más en cuenta las regiones con gran superposición de estructuras [46]. Se resaltó en [41], que los tumores de localización central perdidos, eran más grandes que los periféricos, lo que significa que las estructuras superpuestas son la principal causa de lesiones no descubiertas.

Es menos probable que se perciba una lesión en algunas áreas ciegas del tórax como los ápices, las regiones hiliares y el espacio retrocardíaco. Se ha demostrado que el 65% de las lesiones pulmonares que se originan en los hilios se pasaron por alto, solo detectándose lesiones mayores de 3 cm [47]. Las estructuras cardíacas pueden ocultar los nódulos localizados en los lóbulos inferiores, tal y como se señala en [43], donde se detectó una tasa del 92% de tumores en los lóbulos inferiores no detectados.

El empleo de sistemas CAD en los últimos años ha ayudado a contrarrestar las dificultades que enfrentan los especialistas al analizar radiografías de tórax en busca de las lesiones mencionadas. Estos han favorecido diagnósticos más certeros, al aportar una segunda opinión sobre posibles nódulos y han aportado hipótesis plausibles respecto al diagnóstico. También son muy útiles en los pesquizajes masivos para detección temprana de cáncer de pulmón.

1.4 Sistemas CAD

Los sistemas CAD desarrollados para la detección de nódulos pulmonares a partir de radiografías de tórax, resaltan regiones con alta probabilidad de constituir un tumor en el área pulmonar. Se clasifican fundamentalmente en: sistemas basados en reglas, basados en aprendizaje automático y basados en aprendizaje profundo. Los primeros utilizaban ecuaciones para describir la apariencia de las lesiones en las radiografías [19]. Un intérprete analizaba dicha apariencia y, aplicando reglas definidas por expertos, seleccionaba estructuras que podían constituir nódulos. Definir las reglas era una tarea compleja en la que diferían la mayoría de los estudios sobre estos sistemas. El exceso en su número hacía al sistema más robusto, pero más demandante de recursos computacionales. El estudio [48] propuso como número óptimo de características 210, que clasifica entre geométricas, de contraste, estadísticas de primer orden y estadísticas de segundo orden. Por ejemplo en [49] se utilizaron 109 características (96 bancos de filtros, 2 de posición y 11 detectores).

(22)

El aumento en los últimos años de las capacidades de almacenamiento y de cómputo de información han permitido el surgimiento de una rama de la inteligencia artificial conocida como aprendizaje automático. Esta persigue desarrollar en las máquinas la habilidad de aprender. Los sistemas CAD basados en estos novedosos algoritmos han alcanzado mejores resultados [24]. Comparten con los sistemas basados en reglas las etapas de preprocesamiento y segmentación de la región pulmonar y el empleo de ecuaciones para describir las lesiones. Sin embargo, se diferencian en que son capaces de aprender por sí mismos las reglas de clasificación a partir de las características detectadas. Para ello se emplea un grupo de imágenes anotadas, algunas con presencia de nódulos y otras no. Esto genera modelos capaces de identificar las lesiones a partir de nuevas imágenes. Estos sistemas requieren generalmente la introducción de un vector de características para realizar el aprendizaje en las fases de entrenamiento, validación y prueba. Ejemplos de algoritmos de clasificación empleados en estos sistemas son las máquinas de vectores de soporte (SVM del inglés Support Vector Machines) [50], k vecinos más cercanos (kNN del inglés k-nearest neighbours), los bosques aleatorios (RF del inglés random forest) y las RNA.

1.4.1 Sistemas CAD basados en RNA

Las RNA son modelos matemáticos inspirados en las redes neuronales biológicas del cerebro humano, con las que comparten algunas características como aprender de la experiencia, generalizar ejemplos previos a nuevos y abstraer las principales características de un conjunto de datos [51]. Las redes de varias capas son capaces de resolver problemas no separables linealmente, limitación fundamental de las que poseen solo una. El número de capas ocultas, aquellas ubicadas entre la de entrada y la de salida, diferencia las redes superficiales de las profundas. Las primeras poseen solo una capa oculta, mientras que las redes profundas cuentan con dos o más [23]. Además, las RNA superficiales necesitan que les sea proporcionado un vector de características a su entrada para realizar la etapa de entrenamiento y luego para clasificar; sin embargo, las redes profundas son capaces de autogenerar dicho vector.

La unidad básica de las RNA son las neuronas. Estas poseen una función de activación 𝑎 y un grupo de parámetros, compuesto por un conjunto de pesos 𝑤 y otro de sesgos 𝑏. La función de activación se define como:

(23)

𝑎 = 𝜎(𝑤 𝑥 + 𝑏) (1.1) donde σ es una no linealidad denominada función de transferencia (comúnmente se emplea la función sigmoidal, ReLU (del inglés Rectified Linear Unit) o la tangente hiperbólica).

Durante el entrenamiento se ajustan los parámetros para satisfacer ciertos criterios, redefiniendo las relaciones entre las neuronas de la red [22]. La Figura 1.4 muestra un ejemplo de neurona artificial.

Figura 1.4 Principales elementos de una neurona artificial. Extraído de [24].

Generalmente en la última capa de estas redes las activaciones se distribuyen en una, dos o más clases. La función más empleada actualmente es softmax (del inglés máximo suave) [22].

La salida puede ser única, binaria o separada en tres o más clases y responde a las características en las cuales el sistema se entrenó. Estas son seleccionadas por la propia red a partir de los datos de entrada en el caso de las redes profundas, como ya se ha expresado, para dar una salida de clasificación. La Figura 1.5 muestra la arquitectura de una red neuronal simple.

Figura 1.5 Arquitectura básica de una RNA multicapa. Adaptado de [23].

(24)

La función de pérdidas es característica de los algoritmos de entrenamiento supervisados.

Esta indica el error entre la predicción realizada por el modelo y el valor real en la imagen anotada para cada elemento. El objetivo del entrenamiento es minimizar este error y la función de pérdidas. La función de costo generaliza la función de pérdidas a todo el conjunto.

Uno de los métodos más empleados para reducir el error de las predicciones es el descenso del gradiente, el cuál ajusta los parámetros de las neuronas que componen la red.

La función de propagación es propia de la neurona, comúnmente se usa la suma ponderada de todas sus entradas [23]. La tasa de aprendizaje, el número de iteraciones, el costo umbral, entre otros, son los hiperparámetros. Estos no dependen de un entrenamiento y se definen en función de cada aplicación.

El conjunto de datos en estos sistemas es comúnmente dividido en dos o tres partes: datos de entrenamiento, validación y prueba. En las etapas de entrenamiento y validación se suele usar un conjunto de igual origen, particionado para el 80 % y el 20 % del total de datos, respectivamente.

El grupo de prueba, procedente de una fuente diferente, permite comprobar cómo los modelos obtenidos extrapolan lo aprendido a nuevos grupos de casos. Se persigue que el modelo obtenido funcione perfectamente con los datos limitados de entrenamiento y con los nuevos en la aplicación real. Cuando esto no sucede, y se obtiene un rendimiento excelente durante el entrenamiento, y otro muy inferior con nuevos datos, se plantea que existe sobreajuste en el modelo desarrollado. Este inconveniente impide al modelo generalizar adecuadamente lo aprendido a ejemplos nuevos. Esto no significa que se deba sacrificar exactitud en el entrenamiento a propósito, violando una de las principales estrategias del aprendizaje automático, sino lograr un balance adecuado entre el sobreajuste y la capacidad de generalización [23]. El conjunto de prueba permite detectar el sobreajuste [23] al aplicar el modelo a datos nuevos. También, la validación cruzada se emplea con este fin, en esta se dividen los datos en varios grupos alternando su función entre datos de entrenamiento y validación.

El principal impedimento para comparar adecuadamente los diversos sistemas CAD propuestos para el diagnóstico de nódulos pulmonares es el uso de datos de diferente calidad y complejidad. Se emplean conjuntos de datos personalizados privados [32]. Muchos estudios

(25)

refieren la falta de datos públicos debidamente anotados, aunque se realizan grandes esfuerzos por remediar esto [52]. Los conjuntos de imágenes JSRT [53], LIDC-IDRI y LUNA16 [54] son ejemplos de este empeño.

1.4.2 Interpretación de los resultados de los sistemas que emplean RNA

Se han propuesto varios métodos de visualización con el fin de comprender lo que les permite a las redes neuronales llegar a sus resultados. Esto también contribuye a identificar posibles sesgos en los datos de entrenamiento. En [55] por ejemplo, se visualizaron directamente los filtros de la primera capa. Dado que los filtros en capas altas reciben entradas de sus capas anteriores en lugar de píxeles, no hay una forma directa de visualizarlas. Se propuso entonces la red neuronal Deconvnet [56], donde se modificó el paso hacia atrás de la ReLU para solo permitir los gradientes positivos de las capas superiores. Tomando en cuenta la anterior, en [57] se propuso una técnica llamada Class Activation Mapping (CAM). Sin embargo, esta no puede ser a aplicada a estructuras con capas completamente conectadas y requiere que los mapas de características precedan directamente de las capas finales.

El método CAM se empleó en [58] para determinar qué región de la red se consideraba con alta probabilidad de presentar nódulos pulmonares en cada radiografía. En la Figura 1.6 se puede apreciar una radiografía con nódulo antes y después de aplicarle el método CAM, donde las regiones con mayor probabilidad de presentar nódulos se destacan con colores más cálidos. La posición del nódulo señalada en la BD (base de datos) está encerrada por el área que el modelo tiene en cuenta para la clasificación. El área que se destaca es reducida, por lo que el modelo que ofreció este desempeño fue el seleccionado en el estudio original.

Figura 1.6 Radiografía con presencia de nódulo pulmonar antes (izquierda) y después (derecha) de aplicarle CAM para evaluar la clasificación de la red. Extraído de [58].

(26)

Los inconvenientes mostrados por CAM fueron mejorados con la introducción del mapeo de activación de clases ponderado por gradientes (del inglés Gradient-weighted Class Activation Mapping Grad-CAM) en [59], dándole al método anterior mayor alcance. Este utiliza el comportamiento de los gradientes en las capas finales para resaltar aproximadamente las regiones de la imagen tenidas en cuenta para la clasificación dada.

Se ha afirmado que las representaciones más profundas en una CNN capturan construcciones visuales de alto nivel. Además, las características convolucionales retienen naturalmente la información espacial que se pierde en las capas completamente conectadas, por lo que podemos esperar que las últimas capas convolucionales tengan el mejor compromiso entre la semántica de alto nivel y la información espacial detallada [60].

1.5 Etapas de los sistemas CAD para la detección de nódulos pulmonares

Las imágenes radiográficas de pulmón son comúnmente preprocesadas para mejorar su calidad antes de entrar a la red neuronal durante el entrenamiento y en la explotación del sistema. Esto aumenta la probabilidad de que la salida de la red sea la correcta. Así por ejemplo, se mejora el contraste entre las anomalías y el tejido sano [31] y se reduce el ruido [61] y los artefactos existentes sobre la imagen [62], aumentándose la efectividad de las etapas siguientes. En la Figura 1.7 se muestra un ejemplo de una imagen antes y después de pasar por esta fase. Obsérvese cómo mejora su contraste y la definición de estructuras, logrando que las posibles lesiones se perciban con mayor facilidad.

Figura 1.7 Imagen original (izquierda). Imagen pre-procesada (derecha). Extraído de [31].

La siguiente etapa, luego del preprocesamiento, es la segmentación de la región pulmonar.

Esta facilita la detección al reducir el área a examinar y elimina artefactos y otras estructuras (tráquea, bronquios, músculos, grasa) fuera del área de interés. Es un procedimiento difícil,

(27)

ya que las costillas y la clavícula poseen bordes fuertes, el área pulmonar puede variar entre pacientes, algunos órganos se superponen y pueden coexistir varias patologías [63].

El método manual de segmentación consume mucho tiempo, por lo que se emplean algoritmos que lo hacen automáticamente, entre ellos: los basados en reglas [64], en formas activas [65], de aprendizaje automático, y recientemente, de aprendizaje profundo.

Usualmente se combinan algunos, obteniéndose sistemas híbridos que presentan mejores resultados [66]. En la Figura 1.8 se muestra una imagen a modo de ejemplo, del resultado de esta etapa.

Figura 1.8 Ejemplo de máscara de segmentación (izquierda). Región pulmonar delimitada (derecha).

En [31] se utilizó la segmentación mediante el método de umbral de niveles múltiples, obteniendo una sensibilidad media del 93 %. Por otro lado, en [67], el empleo de un clasificador kNN permitió alcanzar una exactitud del 96.9 %; y en [68], al utilizar un clasificador de agrupamiento C-media difuso, se obtuvo una exactitud del 97.8 %. En algunos estudios además de segmentar el área pulmonar, eliminan las costillas para mejorar la visibilidad de los nódulos [17].

En la imagen segmentada, las radio-opacidades son marcadas como candidatos a nódulos.

Las lesiones pueden ser pequeñas y presentar variadas formas y texturas. También el valor de intensidad de los píxeles puede ser similar a la de sus alrededores, por lo que su detección se considera una tarea difícil. En [69] se propuso la imagen diferencia, como uno de los primeros métodos para detectar las radio-opacidades. Se han propuesto también técnicas basadas en detectores de manchas que utilizan el Laplaciano de Gauss [70], detectores de gradiente radial promedio [71], índice de convergencia multiescala ponderado [72], filtros de índice de convergencia [72], lógica difusa [73] y aprendizaje profundo [16], [27], [74].

(28)

Otros ejemplos concretos de los resultados mencionados son los siguientes: la utilización de un filtro de convergencia de banda deslizante (SBF del inglés Sliding Band Filter) permitió lograr una especificidad de aproximadamente 120 detecciones por imagen y una de sensibilidad del 100 % en [31]. La Figura 1.9 muestra un ejemplo de esta etapa.

Figura 1.9 Candidatos a nódulos señalados. Extraído de [31].

Los candidatos detectados son segmentados antes de proceder a la extracción de sus características. En los trabajos [31] y [72] se emplea para la segmentación de las lesiones un algoritmo de umbral basado en la distancia adaptativa. Definir las características puede ser muy complicado, debido a la gran variabilidad que puede darse tanto en el tejido sano como en el tejido normal. Por esta razón, la mayoría de los estudios difieren en cuáles son las más adecuadas. Se aprecian principalmente: información de histogramas [69], salidas de filtros [75], características geométricas, de textura, de morfología, de intensidad [49] y características de degradado [72].

La reducción de falsos positivos, por último, pretende eliminar la mayoría de los no-nódulos de la serie de candidatos surgidos durante la etapa de detección. Para esto se analizan las características de cada uno utilizando generalmente un clasificador basado en reglas, como el discriminante lineal de Fisher [72], filtros gaussianos o métodos de aprendizaje automático.

Entre los métodos de aprendizaje automático más utilizados están: SVM [50, 76], [77], kNN, RF, k-media, RNA [75] o combinaciones de estos [78]. A pesar de los buenos resultados obtenidos, estos no son suficientes para su uso habitual en la práctica médica. Los sistemas basados en aprendizaje profundo superan en muchos casos los resultados de los métodos tradicionales de visión por computadora y reciben cada vez mayor atención de la comunidad científica.

(29)

1.6 Particularidades de los sistemas CAD basados en aprendizaje profundo

Los sistemas basados en aprendizaje profundo determinan por sí mismos las ecuaciones que describen las lesiones, lo que les otorga gran ventaja frente a los sistemas tradicionales. Esta es una rama del aprendizaje automático que data de la década de 1940. Ha recibido varios nombres y ganado y perdido popularidad a lo largo de la historia [51]. Su auge durante los últimos años se debe a la superación de los principales obstáculos que evitaban que las arquitecturas profundas fueran empleadas. Entre estos se pueden mencionar: el desvanecimiento del gradiente, el sobreajuste y la gran carga computacional. El primero fue resuelto con la introducción de la función de activación ReLU, la regla de aprendizaje de entropía cruzada y el descenso del gradiente. El segundo fue superado con el uso de la regularización o dropout y el tercero, aún presente, ha sido enfrentado con el desarrollo de nuevo hardware, como las tarjetas de procesamiento gráfico (GPU del inglés Graphics Processing Units), y software para aprovecharlo al máximo [23]. También han sido favorecidos por la creciente digitalización, que ha aumentado la disponibilidad de datos requeridos por estos modernos algoritmos [79].

Generalmente los estudios convergen en un número de capas muy superior al empleado por las técnicas tradicionales de aprendizaje automático. Los algoritmos de aprendizaje profundo emplean una cascada de capas con unidades de procesamiento no lineal para extraer y transformar variables. Cada capa posee un mayor nivel de abstracción que la anterior, formándose una jerarquía de conceptos [51]. Las arquitecturas profundas superan en rendimiento a los algoritmos tradicionales y permiten el empleo de RNA para resolver adecuadamente problemas no separables de manera lineal.

La CNN es una de las arquitecturas de aprendizaje profundo más usadas en la clasificación de imágenes [22]. Esta imita el procesamiento de las imágenes en el cerebro, lo cual constituye la principal diferencia en concepto y operación respecto a las redes neuronales anteriores [23]. Los pesos en la red son compartidos para realizar operaciones de convolución en las imágenes [22]. Las capas de convolución generan los mapas de características X al aplicar un grupo de núcleos 𝑊 = {W , W , … , W , } y añadir sesgos 𝐵 = {𝑏 , … 𝑏 } a cada imagen de entrada en la forma:

X = 𝜎(W ∗ X + 𝑏 ) (1.2)

(30)

donde σ es una transformación no lineal aplicada a cada característica.

Los valores de los píxeles vecinos se combinan dejando el mayor valor o el medio (operaciones invariantes a las permutaciones) en las capas de agrupación. El agrupamiento es una técnica de submuestreo utilizada a menudo para mitigar el sobreajuste, con lo que se vuelve a incrementar la robustez de la red y se reducen aún más los parámetros necesarios y las dimensiones de las imágenes [79]. Al final se agregan capas totalmente conectadas y de normalización. En las capas totalmente conectadas, sin pesos compartidos, se le aplica por lo general, la función softmax a las activaciones de la última capa, para asignarle una clase a cada una.

Debido a su principio de funcionamiento, las CNN realizan automáticamente el preprocesamiento, ya que generan sus propios filtros. Sin embargo, muchos sistemas aún emplean un preprocesamiento antes de entregar las imágenes a la red. La segmentación, por ejemplo, es un paso fundamental para esto, pues disminuye los requerimientos de cálculo [32] y evita que sean captadas estructuras ajenas al área de interés [80] que pueden constituir sesgos para la clasificación [81]. Un ejemplo de estas estructuras son las etiquetas textuales presentes comúnmente en las radiografías, como se demostró en [82].

Los sesgos se evidencian cuando las características aprendidas por la red neuronal no son relevantes al emplearlas en escenarios del mundo real. Esto demuestra que los modelos pueden clasificar correctamente ciertas imágenes, pero carecen de capacidad de generalización a nuevos ejemplos [83]. El aprendizaje por atajos, como se identifica esta problemática, constituye uno de los principales obstáculos para lograr sistemas más confiables. En este caso los sistemas aprenden otras características que no son las de interés, para realizar la clasificación. Se recomienda, por tanto, determinar la validez de los modelos e interpretar cuidadosamente los resultados utilizando conjuntos de datos externos [80].

Un aspecto algo desventajoso de las CNN es la inmensa cantidad de datos que requieren, por lo general varios cientos de miles para que trabajen de forma óptima [51]. Sin embargo, generalmente las imágenes médicas disponibles para el entrenamiento de las redes son insuficientes. Las técnicas de aumento de datos [84] pretenden resolver esto. Estas comprenden la aplicación de transformaciones geométricas y de calidad a las imágenes como la ampliación, rotación en diversas direcciones [85], variación del brillo y del contraste,

(31)

mezcla de imágenes y borrado de ciertas partes de las mismas. Estos métodos permiten mejorar la sensibilidad de los modelos y disminuyen el riesgo de sobreajuste del sistema.

Otro método empleado para afrontar esta dificultad es la transferencia de aprendizaje.

La transferencia de aprendizaje parte de un modelo preentrenado con conjuntos de imágenes mucho mayores que los disponibles para la aplicación de interés. A este se le ajustan algunos pesos de las capas finales al entrenarlo nuevamente, pero empleando el conjunto de datos de interés [24].

Las técnicas de aprendizaje automático se aplican desde hace unos años en la segmentación de la región pulmonar y de las lesiones. Más recientemente, se han empleado para esta tarea las de aprendizaje profundo también [32]. Las redes neuronales convolucionales asignan una clase a cada píxel para analizar la imagen; pero esto tiene un costo computacional muy grande. La mayoría de los estudios han optado por el empleo de una variante conocida como Fully ConvNet para resolver este inconveniente, las que son capaces de procesar imágenes de cualquier resolución a diferencia de las ordinarias. La arquitectura U-Net [86] se basa en este tipo de CNN y es una de las más empleadas para la segmentación [87]. Posee un canal de codificación y otro de decodificación que presentan cierta simetría, lo que les otorga la apariencia de U.

Han surgido muchas arquitecturas de CNN para la segmentación y clasificación de imágenes.

Las redes más profundas incluyen pequeños bloques para hacer el procesamiento más eficiente. Estos bloques presentan convoluciones de ramificación con capas de agrupación y normalización en lotes. Algunos ejemplos de estas redes son: LeNet [88] (1998), AlexNet (2012) [89], GoogLeNet (Inception v1) (2014) [90], VGG16/19 (2014), U-Net (2015) [86], ResNet (2015) [91], SqueezeNet (2016) [92] y DenseNet (2016) [93]. Las características de estas redes son combinadas para obtener las ventajas que cada una ofrece [94].

Se han presentado varios métodos durante las últimas cuatro décadas para segmentar la región pulmonar, detectar y segmentar candidatos a nódulos y clasificarlos. A pesar de las limitaciones para realizar una correcta comparación, se puede afirmar para la segmentación, que los métodos basados en reglas son frágiles y deficientes cuando las estructuras anatómicas están muy deformadas. En general su rendimiento es menor que los de las otras dos categorías, aunque por su rapidez aún se aprovechan en sistemas híbridos. Las técnicas

(32)

de aprendizaje automático han dado resultados intermedios hasta la fecha; presentando como principal dificultad la determinación del grupo apropiado de características [32]. Las de aprendizaje profundo han resuelto el problema de la forma más eficaz hasta el momento. No obstante, es importante resaltar que no se ha obtenido un algoritmo único que pueda aplicarse a todas las etapas, ya que se tiende a la especialización [95].

1.7 Conclusiones del capítulo

Se puede plantear que mucho ha evolucionado el proceso de adquisición de las radiografías de tórax. Sin embargo, el bajo contraste y el pequeño tamaño que presentan las lesiones pulmonares provoca en muchos casos que su detección sea muy compleja. Estas dificultades se presentan también en los sistemas automatizados de diagnóstico. Se han empleado históricamente en estos, métodos de aprendizaje automático que utilizan características extraídas manualmente. Sin embargo, recientemente se han introducido métodos de aprendizaje profundo que permiten prescindir del preprocesamiento, la segmentación y de la extracción de características necesarios en los métodos tradicionales, posibilitando una mayor robustez y menores tiempos de ejecución. Por lo tanto, se justifica el desarrollo de sistemas automatizados, basado en redes neuronales convolucionales de aprendizaje profundo, capaces de detectar las principales lesiones pulmonares para ayudar a los especialistas en sus diagnósticos.

(33)

CAPÍTULO 2. MATERIALES Y MÉTODOS

En el presente capítulo se describen los conjuntos de imágenes y el software utilizado en la presente tesis. Se analizan los métodos empleados para aumentar el conjunto de imágenes y las arquitecturas de redes neuronales convolucionales seleccionadas para segmentar y para detectar nódulos. También se expone el proceso de entrenamiento, validación y prueba de la red de detección y se caracteriza el hardware con el que se procesó toda la información.

2.1 Descripción de los conjuntos de imágenes utilizados

En esta investigación se utilizaron dos conjuntos anotados de radiografías, una para entrenar los modelos, y otro de diferente origen, para evaluar su capacidad de generalización. El primero fue un conjunto de radiografías frontales de tórax, creado a partir de la combinación de las BD ChestX-ray14 [96], PadChest [97] y Openi [98], en las cuáles, de las imágenes con nódulos, se cuenta con la ubicación de cada lesión. Cada una de estas radiografías presenta una única lesión. Este conjunto se utilizó para entrenamiento y validación de la red de detección. Se utilizó la BD JSRT (Japón) [53] para realizar la prueba externa. Las características generales de estas BD se recogen en la Tabla 2.1.

Tabla 2.1 Bases de datos utilizadas en la investigación

Nombre de la BD

Total de imágenes sin lesiones

Total de imágenes con nódulos

ChestX-ray14 2348 617

PadChest 1196 314

Openi 205 54

Total 3749 985

JSRT 93 153

(34)

2.2 Software y hardware empleados

Se utilizó el lenguaje de programación Python y el marco de trabajo de aprendizaje automático Fastai para implementar el sistema de IA.

Se utilizó una computadora de escritorio con las siguientes prestaciones:

 Procesador (CPU): Intel® Core™ i7-8700 3.2 GHz

 Tarjeta Gráfica: NVIDIA GeForce® RTX 3070 8 GB GDDR6

 RAM: 32 GB (2 x 16 GB) DDR4 3200MHz

 Placa Base: MSI B365M PRO-VH

 Almacenamiento: SSD 128GB M.2 SATA + HDD 1TB (7200RPM) 2.3 Preprocesamiento de las imágenes para el entrenamiento

Se probaron tres estrategias. La primera fue el empleo de las imágenes completas extraídas directamente de las BD. En la segunda, estas mismas imágenes fueron segmentadas, extrayendo la región pulmonar, antes de ser analizadas por la red neuronal. Para la tercera estrategia, se utilizaron regiones de interés de dos tamaños diferentes de parches.

Se aplicaron técnicas de aumento de datos para generar más imágenes de las presentes en el conjunto mostrado en la Tabla 2.1, empleando las funcionalidades que incluye Fastai. Estas variaron en dependencia de las características de las imágenes a analizar con las redes neuronales y se describen más adelante para cada estrategia.

2.3.1 Imagen completa

En esta estrategia se emplearon las imágenes completas extraídas directamente de las BD.

Estas fueron redimensionadas a 224 x 224 píxeles, que es el tamaño usual que acepta la CNN utilizada. En este caso el aumento de datos se hizo sobre la base de rotar hasta 15 grados cada imagen a derecha e izquierda. Otra técnica implementada fue ampliar hasta un 110 % el tamaño original de cada imagen, y en otros, reducirlo hasta el 80 %. Además, se disminuyó el brillo de las imágenes originales hasta el 80 % y se voltearon horizontalmente.

(35)

2.3.2 Segmentación de la región pulmonar

En la segunda estrategia se segmentó la región pulmonar de cada radiografía utilizando una CNN preentrenada¹ basada en la arquitectura U-Net [86]. Esta red fue entrenada con imágenes radiográficas y máscaras segmentadas a mano por especialistas humanos, pertenecientes a los conjuntos Montgomery [99]. La aplicación de esta etapa pretendió disminuir la probabilidad de aprendizaje por atajos o características fuera de la región pulmonar. Las máscaras obtenidas también se emplearon en la obtención de los cuadros delimitadores de ambos pulmones.

Las imágenes de entrada a la red tuvieron una resolución de 256 x 256 píxeles. La arquitectura de segmentación presenta dos secciones fundamentales: un canal de codificación y otro de decodificación, en las cuales se aprecia una simetría que le otorga la apariencia de U. En total, la red contó con 23 capas convolucionales y aplicó transformaciones automáticamente para aumentar el número de imágenes de entrenamiento, obteniendo una mayor robustez [86]. La Figura 2.1 muestra el esquema de la arquitectura implementada.

Figura 2.1 Esquema de arquitectura U-Net. Cada bloque azul corresponde a un mapa de características de varios canales. El número de canales se indica encima de cada rectángulo y la resolución a la izquierda. Las flechas señalan las operaciones ejecutadas. A la entrada se introduce

una radiografía y la red devuelve una máscara de segmentación. Adaptado de [86].

1 https://github. com/imlab-uiip/lung-segmentation-2d

(36)

El canal de codificación consistió en la aplicación repetida de dos convoluciones de 3x3 píxeles (convoluciones sin relleno), cada una seguida de una capa con función ReLU y una operación de agrupación máxima de 2x2 píxeles con stride de 2, para reducir la resolución.

En cada paso de reducción se duplicaron los canales de características. En el canal de decodificación se incrementó la resolución de la imagen a la salida, para compensar las pérdidas del paso anterior. Se incrementó el muestreo del mapa de características seguido de una convolución 2x2 píxeles (convolución ascendente) que dividió a la mitad el número de canales de funciones. Para la localización de lesiones, las características de alta resolución de la ruta de contracción fueron concatenadas con las de expansión. En la capa final se utilizó una convolución de 1x1 píxel para asignar cada característica extraída al número deseado de clases.

La imagen devuelta por esta red fue sometida a una etapa de postprocesamiento para mejorarla. Los agujeros encontrados fueron rellenados en las regiones conectadas a partir de la operación de apertura morfológica. Se realizó una dilatación de la máscara de segmentación, utilizando un elemento estructurante en forma de disco de dimensiones proporcionales a la imagen. Se utilizó el 2 % de la imagen como radio del elemento estructurante. Esta operación persiguió aumentar la máscara de segmentación obtenida y proporcionarle a la red más información sobre los pulmones. El aumento de datos en esta estrategia fue semejante al descrito en el acápite anterior.

2.3.3 Extracción de la región correspondiente al cuadro delimitador de cada lesión Una de las deficiencias que presentan los métodos basados en DL para identificar nódulos pulmonares a partir de CXR, es la baja resolución de las imágenes utilizadas para entrenar las redes. En la mayoría de los trabajos al emplear redes preentrenadas se utilizan imágenes de 224 x 224 píxeles. Este proceso de redimensionamiento puede hacer que se pierdan características importantes en las imágenes. Debido a esto, en esta investigación la tercera estrategia estuvo enfocada a paliar este inconveniente. De ahí que, en lugar de imágenes completas o segmentaciones de pulmones completos, se utilizara la división en regiones de interés (son cuadros delimitadores de lesiones o regiones sanas, también denominados parches).

(37)

Esta estrategia consistió en extraer un parche correspondiente al cuadro delimitador de cada nódulo y otro, de igual tamaño, de una región sin esta anomalía, de cada radiografía con presencia de lesiones. Se probó una variante adicional de mayor tamaño de región, correspondiente a un 96 % superior a la de la primera variante. La Figura 2.2 presenta los dos ejemplos de regiones seleccionadas de diferentes tamaños, correspondientes al mismo nódulo y de dos regiones normales.

Figura 2.2 Parches de diferente tamaño correspondientes a la misma lesión y a tejido normal. Área correspondiente al cuadro delimitador de la lesión (izquierda arriba); área superior en un 96 % a la del

cuadro delimitador (derecha arriba), región sana en dos tamaños diferente (debajo).

Para el aumento de datos en ambas estrategias, se aplicaron las transformaciones aplicadas en las estrategias anteriores y, además, se realizaron rotaciones de hasta 180 grados en ambas direcciones y se voltearon verticalmente. El Anexo 1 muestra el código de su implementación.

A partir de estas divisiones se obtienen nuevos conjuntos de imágenes. Las sub-imágenes con presencia de las características de interés (nódulos) se ubicaron en una carpeta y las restantes en otra. Con esto se logró un etiquetado correcto, lo cual es imprescindible para el entrenamiento de las CNN [100].

2.4 Entrenamiento, validación y prueba de los modelos

Se realizaron varios ensayos de prueba y error para obtener el mejor modelo. En todos los casos las BD se dividieron en dos grupos, el 80 % para entrenar los modelos y el 20 % para validarlos. En cada carpeta de las representadas en la Figura 2.3 se dividieron las imágenes

(38)

en cuatro: sin nódulos para entrenamiento, con nódulos para entrenamiento, sin nódulos para validación y con nódulos para validación.

Se probó como arquitectura de red neuronal SqueezeNet 1.1 (en lo adelante solo SqueezeNet), que es una red no tan costosa computacionalmente (buscando eficiencia), con las tres estrategias de obtención de imágenes para entrenamiento y validación. La selección de esta red se justifica con su actual aceptación por la comunidad científica internacional [101]. El Anexo 2 muestra el código utilizado para cargarla.

Figura 2.3 Estrategias de entrenamiento de los modelos de detección

Utilizando las herramientas de Fastai se implementó la arquitectura mencionada. Se podría hacer un entrenamiento desde cero, pero se aprovecharon modelos preentranados en el conjunto Image-Net que Fastai incorpora. Así, dado el limitado conjunto de datos de esta investigación, las CNN aprenderían solamente las características de alto nivel (correspondientes a estructuras anatómicas) en tanto se aprovecha del modelo preentrenado el aprendizaje de estructuras más sencillas como líneas, bordes, entre otras.

El modelo preentrenado correspondiente a la arquitectura empleada requiere que las imágenes suministradas sean RGB con resolución 224 x 224 píxeles, por lo que estas fueron

Train CNN

(39)

redimensionadas y se les triplicó el único canal que presentan para convertirlas de escala de grises a RGB. Posteriormente cada una fue normalizada según la media y la desviación estándar del conjunto Image-Net.

Se aplicó además transferencia de aprendizaje. Esta consistió en que durante las dos primeras épocas de cada entrenamiento se conservaron los pesos de los modelos preentrenados cargados, excepto los de la última capa, que son los que se ajustan para aprender las características de alto nivel antes mencionadas. La aplicación de la transferencia de aprendizaje, unida a las técnicas de aumento de datos, permitieron satisfacer en parte, la gran cantidad de datos requerida por la CNN utilizada.

Posteriormente todos los pesos de los modelos fueron recalculados al realizar un ajuste fino de la red durante 30 épocas. En este punto se comparó la evolución de las funciones de pérdidas durante el entrenamiento y la validación y se examinó el valor final de la tasa de aprendizaje. En el caso que dichas funciones convergieran en el gráfico, se determinaba una nueva tasa de aprendizaje óptima, utilizando la herramienta denominada “buscador de tasa de aprendizaje” (lr_finder) incluida en Fastai, la cual lo hace automáticamente. Se continuaba el entrenamiento por otras 30 épocas, empleando este nuevo valor como el inicial y actualizando los pesos de toda la red. Este proceso se repitió hasta apreciar que las pérdidas durante la validación se tornaran superiores a las apreciadas en el entrenamiento.

Se debe aclarar que las diferentes estrategias ejecutadas compartieron la mayor parte de los ajustes descritos. La selección correcta de la tasa de aprendizaje fue fundamental para mejorar la velocidad del entrenamiento y el desempeño de los modelos. Un valor inicial muy elevado de la misma puede provocar que las pérdidas durante la validación se incrementen inmediatamente. El Anexo 3 muestra el código para utilizar la herramienta de búsqueda de tasa de aprendizaje de Fastai.

Otras especificaciones utilizadas en la implementación de la red fueron: el empleo del optimizador Adam por su adaptabilidad y robustez con parámetros β1 = 0.9 y β2 = 0.999 y la selección como función de pérdidas la de entropía cruzada (CrossEntropyLoss).

El método de entrenamiento empleado fue el expuesto en [102] denominado 1cycle policy.

Es el método recomendado por Fastai y el que emplea en sus funciones fine_tune y

(40)

fit_one_cycle, las que fueron utilizadas para entrenar los modelos como se describe en los Anexos 3 y 4. El mismo consiste en incrementar progresivamente la tasa de aprendizaje hasta un máximo definido y luego reducirla hasta un valor mucho menor que el inicial a menor velocidad, permitiendo usar tasas mucho mayores que en otros tipos de entrenamiento. El incremento inicial acelera el entrenamiento y evita el sobreajuste, mientras que la reducción disminuye el error en las predicciones de los modelos.

Como no se puede entrenar con todas las imágenes a la vez, se entrenó progresivamente con pequeños grupos de imágenes, denominados lotes. Por tanto, el tamaño de cada lote fue otro factor muy importante a tener en cuenta. El mayor tamaño de los lotes beneficia la estabilidad de los entrenamientos, pero al decrementar el número de lotes por época, los pesos en las redes tienen menos oportunidades de actualizarse. El número más adecuado se seleccionó mediante prueba y error. En todos los entrenamientos se empleó un tamaño de lote de 32.

Se empleó el método Grad-CAM para visualizar las regiones de las radiografías en las que los modelos pusieron su atención para detectar los nódulos pulmonares [59]. El principal objetivo de este método fue determinar si los modelos se fijaban en zonas válidas o si se introducían sesgos debido al aprendizaje por atajos [80]. Se implementó este método usando las facilidades que otorga Fastai.

Al finalizar cada época se validó el modelo. Para esto se emplearon como métricas la sensibilidad, precisión, exactitud, exactitud balanceada y el valor F1, definidas a continuación:

Sensibilid = (2.1)

Precisión = (2.2) Exactitud = (2.3) Exactitud Balanceada = ∗ ( + ) (2.4) Valor F1 = (2.5)