UNIVERSIDAD NACIONAL DE TRUJILLO

(1)

UNIVERSIDAD NACIONAL DE TRUJILLO

FACULTAD DE INGENIERÍA

ESCUELA PROFESIONAL DE INGENIERÍA MECATRÓNICA

“Diseño de un sistema de adquisición y procesamiento de señales electrocardiograficas para la ayuda en el diagnóstico de arritmias mediante

redes neuronales convolucionales”

INGENIERO MECATRÓNICO

AUTOR:

Br. Rodríguez Bermúdez, Fernando Javier

ASESOR:

Ms. Ing. Asto Rodríguez, Emerson Maximo

TRUJILLO – PERÚ

2021

Tesis para obtener el título profesional de:

(2)

ii Dedicatoria:

A Dios, por las fuerzas y las capacidades que me brinda, a mis padres por su apoyo incondicional, a mi esposa por su empuje y su fortaleza.

(3)

iii

AGRADECIMIENTOS

Agradezco a mis padres, especialmente a mi madre por su esfuerzo realizado y el apoyo que me ha dado para seguir adelante y concluir mis estudios profesionales, sin su ayuda no hubiese sido posible este logro. Le agradezco también a mi esposa por la alegría y la fortaleza para seguir adelante que me ha brindado en el tiempo de elaboración del presente trabajo.

(4)

iv

RESUMEN

Rodríguez Bermúdez, Fernando Javier; Asto Rodriguez, Emerson Maximo.

“Diseño de un sistema de adquisición y procesamiento de señales electrocardiográficas para la ayuda en el diagnóstico de arritmias mediante redes neuronales convolucionales”. Trujillo, 2020, 133 páginas. Tesis para optar el título de Ingeniero Mecatrónico, Facultad de Ingeniería, Universidad Nacional de Trujillo.

La detección inoportuna de arritmias puede degenerar la calidad de vida de las personas e incluso puede provocar la muerte. Estas anomalías cardiacas son detectadas principalmente mediante el análisis de un electrocardiograma (ECG) por un médico especialista. Sin embargo, las condiciones socio económicas del Perú hacen que sea difícil realizar un diagnóstico oportuno debido a que las personas no acuden con frecuencia a realizarse chequeos médicos, y por lo general el costo de estos chequeos es restrictivo para muchos. Por ello en esta investigación se desarrolla un sistema que permita el diagnóstico de arritmias, el cual solo requiere una computadora personal, y un módulo electrocardiográfico de bajo costo.

El sistema de detección de arritmias propuesto por esta tesis, hace uso de la base de datos ECG Heartbeat Categorization Dataset, la cual es utilizada para realizar el entrenamiento de la red neuronal convolucional (CNN). Con el modelo neuronal creado, se procede a implementar un sistema de adquisición y procesamiento de señales ECG de bajo costo, permitiendo que las nuevas señales adquiridas sean clasificadas en una de las 5 categorías de arritmias consideradas (N, S, V, F y Q). Después de realizar las pruebas adecuadas y verificar que el sistema funciona correctamente se procede a elaborar una interfaz gráfica que permite una evaluar de una forma eficiente e imprimir un reporte pdf del diagnóstico realizado.

La capacidad de detección del sistema elaborado mostró resultados positivos, teniendo una exactitud general por encima del 93%, por lo que este sistema se puede utilizar para obtener un primer diagnóstico, el cual con un alto nivel de certeza puede alertar de una anomalía en el ritmo cardiaco, permitiendo a la persona asistir con un especialista para confirmar el resultado, lo cual evita gastos innecesarios.

PALABRAS CLAVES:

Redes Neuronales Convolucionales; Detección de Arritmias, Procesamiento de señales.

(5)

v

ABSTRACT

Rodríguez Bermúdez, Fernando Javier; Asto Rodriguez, Emerson Maximo.

“Design of an electrocardiographic signal acquisition and processing system to aid in the diagnosis of arrhythmias using convolutional neural networks”.

Trujillo, 2020, p.p. 133. Thesis for the degree of Mechatronic Engineer, Faculty of Engineering. National University of Trujillo

The untimely detection of arrhythmias can degenerate people's quality of life and can even lead to death. These cardiac abnormalities are mainly detected by analysis of an electrocardiogram (ECG) by a specialist doctor. However, Peru's socio-economic conditions make it difficult to make a timely diagnosis because people do not frequently go for medical check-ups, and the cost of these check-ups is generally restrictive for many. For this reason, this research develops a system that allows the diagnosis of arrhythmias, which only requires a personal computer, and a low-cost electrocardiographic module.

The arrhythmia detection system proposed by this thesis makes use of the ECG Heartbeat Categorization Dataset database, which is used to train the convolutional neural network (CNN). With the neural model created, a low-cost ECG signal acquisition and processing system is implemented, allowing new acquired signals to be classified into one of the 5 arrhythmia categories considered (N, S, V, F and Q ). After carrying out the appropriate tests and verifying that the system works correctly, a graphic interface is developed that allows an efficient evaluation and the printing of a pdf report of the diagnosis made.

The detection capacity of the elaborated system showed positive results, having an overall accuracy above 93%, so this system can be used to obtain a first diagnosis, which with a high level of certainty can alert of an anomaly in the heart rate, allowing the person to assist a specialist to confirm the result, which avoids unnecessary expenses.

KEYWORDS:

Convolutional Neural Networks; Arrhythmia Detection, Signal Processing.

(6)

vi

INDICE

Agradecimientos ... iii

Resumen ... iv

Abstract ... v

Lista figuras ... ix

Lista de tablas ... xiii

Capitulo 1: Introduccion ... 1

1.1. Realidad problemática ... 1

1.2. Formulacion del problema ... 2

Capitulo 2: Material y metodos ... 4

2.1. Antecedentes ... 4

2.2. Marco teorico ... 10

2.2.1. Sistema cardiovascular ... 10

2.2.2. Procesamiento digital de señales ... 13

2.2.3. Aprendizaje automático ... 18

2.3. Marco conceptual ... 30

2.3.1. Sistema de adquisición de datos ... 30

2.3.2. Procesamiento de señales ... 31

2.3.3. Pulso ... 32

2.3.4. Diagnóstico ... 32

2.3.5. Arritmias ... 33

2.3.6. Redes neuronales convolucionales ... 33

2.4. Metodologia ... 34

2.4.1. Recursos ... 34

2.4.2. Materiales y equipos ... 34

2.4.3. Diseño de la información ... 34

2.4.4. Procedimientos ... 35

Capitulo 3: Resultados ... 38

3.1. Análisis de las bases de datos de arritmias cardiacas ... 38

3.1.1. La base de datos mit-bih ... 38

3.1.2. La base de datos ecg heartbeat categorization ... 39

3.1.3. Consideraciones finales sobre la base de datos a utilizar ... 40

3.2. Creación y entrenamiento de la cnn ... 42

(7)

vii

3.2.1. Selección de la arquitectura de la red ... 42

3.2.2. Software utilizado ... 43

3.2.3. Algoritmo de preprocesamiento ... 46

3.2.4. Creación de la arquitectura de la red ... 49

3.2.5. Entrenamiento de la red ... 52

3.2.6. Selección y evaluación del modelo final ... 58

3.3. Adquisición de las señales de ecg. ... 62

3.3.1. Selección del sensor... 62

3.3.2. Lectura del sensor ... 64

3.3.3. Recepción de la señal ecg en la computadora ... 69

3.4. Procesamiento de las señales ecg ... 70

3.4.1. Consideraciones sobre la señal ecg adquirida ... 70

3.4.2. Filtrado y submuestreo de la señal de la señal ecg ... ... 71

3.4.3. Segmentación y normalización de la señal ecg ... 75

3.5. Pruebas de clasificación y analisis de los resultados ... 78

Capitulo 4: Discusion ... 85

4.1. Sobre los resultados obtenidos en relacion a los objetivos ... 85

4.2. Sobre las semejanzas y diferencias con los antecedentes ... 86

4.3. Sobre los aportes y limitaciones de la investigacion ... 88

Capitulo 5: Conclusiones y recomendaciones ... 89

5.1. Conclusiones ... 89

5.2. Recomendaciones ... 90

Bibliografia ... 91

Anexos ... 99

Anexo a ... 99

a.1. Preprocesamiento de la base de datos ... 99

a.3. Creacion y entrenamiento de la red neuronal ... 100

Anexo b ... 100

b.1. Codigo arduino para adquisicion y envio de la señal ecg... 101

b.2. Recepcion del ecg en la computadora ... 101

Anexo c ... 101

Anexo d ... 104

(8)

viii

d.1. Clasificación de los latidos usando el modelo entrenado ... 104

d.2. Calculo de la performance del modelo ... 104

Anexo e ... 105

e.1. Codigo de principal de la gui ... 105

e.2. Modulo <arduino> ... 113

e.3. Modulo <procesamientosenal> ... 114

e.4. Modulo <predicción> ... 116

e.5. Modulo <preparar_data> ... 116

e.5. Modulo <reportesmod> ... 117

e.6. Modulo <test_report> ... 119

e.7. Modulo <datos_paciente> ... 121

(9)

ix

LISTA FIGURAS

Figura 2.1- Interfaz gráfica del sistema de detección de arritmias realizado en LabView

(Cervantes & Gómez, 2017). ... 4

Figura 2.2- Interfaz gráfica del sistema de detección de arritmias realizado en LabView (Velázquez & Villagrán, 2016). ... 5

Figura 2.3- Comparativa de señales ECG y PPG (Acero et al., 2017). ... 6

Figura 2.4- Comparativa de señales ECG y PPG (Magne, 2009). ... 7

Figura 2.5- Matriz de confusión obtenida por (Kachuee et al., 2018). ... 10

Figura 2.6- Ondas e intervalos de un electrocardiograma (nursingmanthra.com, 2018). ... 12

Figura 2.7- Estructura general de un procesador de señales digitales (Tan & Jiang, 2005). ... 14

Figura 2.8- Representación del efecto de una selección equivocada de la tasa de muestreo (Tan & Jiang, 2005). ... 14

Figura 2.9- Representación gráfica de un filtro FIR de tercer orden (Walker, 2016). ... 16

Figura 2.10- Representación gráfica de un filtro IIR (M Martínez, Gómez, Serrano, Vila, & Gómez, 2009). ... 16

Figura 2.11- Forma de filtro pasabajos en el dominio de la frecuencia (Tan & Jiang, 2005) ... 17

Figura 2.12- Comparación de filtros pasabajos analógicos utilizados para elaborar filtros IIR (M Martínez et al., 2009). ... 17

Figura 2.13- Forma de filtro pasa-altos en el dominio de la frecuencia (Tan & Jiang, 2005). ... 18

Figura 2.14- Forma de filtro pasabanda en el dominio de la frecuencia (Tan & Jiang, 2005). ... 18

Figura 2.15- Estructura de una red neuronal (towardsdatascience.com, 2017). ... 19

Figura 2.16- Estructura de una neurona artificial en comparación de una biológica (Lopez, 2017). ... 20

Figura 2.17- Efecto de la elección de la tasa de aprendizaje (towardsdatascience.com, 2019). ... 23

Figura 2.18- Problema con la elección de una tasa de aprendizaje fija (Shen, 2018). ... 23

Figura 2.19- Resultados de una tasa de aprendizaje adaptativa (Bhardwaj, Curtin, Edel, Mentekidis, & Sanderson, 2018). ... 24

Figura 2.20- Underfitting y overfiting (geeksforgeeks.org, 2019). ... 25

Figura 2.21- Truncado del número de épocas de entrenamiento (Saxena, 2020). ... 25

Figura 2.22- Matriz de confusión para medir la performance de un modelo de clasificación(Liu & Mukhopadhyay, 2018)... 26

Figura 2.23- Estructura general de una CNN. Adaptada de (Shuler, 2018). ... 27

Figura 2.24- Proceso de la capa convolucional de una CNN (Durán Suárez, Del, Torres, & Suárez, 2017). ... 28

Figura 2.25- Proceso de la operación de Maxpooling (Llodrà-Bisellach, 2018). ... 29

Figura 2.26- Estructura de una capa Fully connected (missinglink.ai, 2019). ... 29

(10)

x Figura 2.27- Función Softmax (Medium.com, 2020). ... 30 Figura 2.28 Definición de Sistema de Adquisición de datos (National Instruments, 2017).

... 31 Figura 2.29 Definición de Procesamiento digital de señales (Zañartu, 2010). ... 32 Figura 4.1- Archivos de la Base de datos MIT-BIH disponible en (Physiobank Archieve, 2015). ... 39 Figura 4.2- Forma de onda y aparición de una arritmia para el paciente 1 de la base de datos MIT-BIH. (Physiobank Archieve, 2015). ... 39 Figura 4.3- Muestras de la categoría N presentes la base de datos a utilizar. (Elaboración propia) ... 41 Figura 4.4- Muestras de la categoría S presentes la base de datos a utilizar. (Elaboración propia) ... 41 Figura 4.5- Muestras de la categoría V presentes la base de datos a utilizar. (Elaboración propia) ... 41 Figura 4.6- Muestras de la categoría Q presentes la base de datos a utilizar. (Elaboración propia) ... 42 Figura 4.7- Muestras de la categoría Q presentes la base de datos a utilizar. (Elaboración propia) ... 42 Figura 4.8- Arquitectura base para el desarrollo del presente proyecto. (Kachuee et al., 2018) ... 44 Figura 4.9- Problemas en las capas convolucionales 1D en la red construida en Matlab.

(Elaboración propia en Matlab) ... 44 Figura 4.10- Arquitectura de la red construida en Matlab. (Elaboración propia en Matlab) ... 45 Figura 4.11- Resultados del entrenamiento de la CNN residual (Elaboración propia en Matlab) ... 45 Figura 4.12- Preprocesamiento aplicado al dataset (Elaboración propia) ... 48 Figura 4.13- Figura 4.14. Arquitectura CNN. Modificada de (Han et al., 2018) ... 50 Figura 4.14- Arquitectura final de la red convolucional residual creada. (Elaboración Propia) ... 51 Figura 4.15- Comparación de Adam con otras funciones de optimización existentes (Kingma & Ba, 2015). ... 53 Figura 4.16- Función de perdidas inicial (Elaboración Propia). ... 54 Figura 4.17- Función de exactitud inicial (Elaboración Propia). ... 54 Figura 4.18- Resultados del primer entrenamiento para las ultimas 10 épocas (Elaboración propia). ... 55 Figura 4.19- Exactitud con épocas = 20 y tamaño de batch= 500 (Elaboración propia).55 Figura 4.20- Perdidas con épocas = 20 y tamaño de batch= 500 (Elaboración propia). 55 Figura 4.21- Perdidas con épocas = 20 y tamaño de batch= 1000 (Elaboración propia).

... 56 Figura 4.22- Perdidas con épocas = 20 y tamaño de batch= 1000 (Elaboración propia).

... 56

(11)

xi Figura 4.23- Perdidas con épocas = 20 y tamaño de batch= 1000 (Elaboración propia).

... 56

Figura 4.24- Perdidas con épocas = 20 y tamaño de batch= 1000 (Elaboración propia). ... 57

Figura 4.25- Perdidas con épocas = 20 y tamaño de batch= 100 (Elaboración propia). 57 Figura 4.26- Perdidas con épocas = 20 y tamaño de batch= 100 (Elaboración propia). 57 Figura 4.27- Modelos guardados durante el entrenamiento de la CNN (Elaboración propia). ... 58

Figura 4.28- Pruebas de exactitud y matrices de confusión obtenidas en Spyder (Elaboración propia). ... 59

Figura 4.29- Matriz de confusión y métricas de clasificación del modelo CNN (Elaboración propia). ... 60

Figura 4.30- Configuración de electrodos para Lead I, Lead II y Lead III (hrwproject.com, 2015). ... 63

Figura 4.31- Modulo ECG basado en CI AD8232 adquirido (Elaboración Propia) ... 64

Figura 4.32- Conexión modulo AD8232 a la tarjeta Arduino (cdmxelectronica.com) .. 65

Figura 4.33- Algoritmo de lectura de la señal ECG. (Elaboración Propia) ... 66

Figura 4.34- Señal ECG presente en la librería NeuroKit (Elaboración Propia). ... 66

Figura 4.35- Señal ECG presente en la librería NeuroKit normalizada. (Elaboración Propia) ... 67

Figura 4.36- Señal ECG presente en la librería NeuroKit normalizada (Elaboración Propia). ... 67

Figura 4.37- Algoritmo de lectura de la señal ECG a 250 Hz. (Elaboración Propia) .... 68

Figura 4.38- Ubicación de los electrodos en la adquisición de la señal ECG. (Elaboración Propia) ... 69

Figura 4.39- Señal ECG adquirida. (Elaboración Propia) ... 69

Figura 4.40- Señal ECG adquirida. (Elaboración Propia) ... 70

Figura 4.41- Señal ECG adquirida. Adaptado de (Vera et al., 2006) ... 71

Figura 4.42- Diagrama de flujo del proceso de filtrado y submuestreo de la señal ECG recibida (Elaboración Propia). ... 73

Figura 4.43- Señal Adquirida y Señal filtrada de la persona 1. (Elaboración Propia) ... 73

Figura 4.44- Señal Adquirida y Señal filtrada superpuestas de la persona 1 (Elaboración Propia) ... 73

Figura 4.45- Acercamiento de la señal adquirida y la señal filtrada de la persona 1. (Elaboración Propia) ... 73

Figura 4.46- Submuestreo de la señal filtrada de 250Hz a 125Hz de la persona 1 (Elaboración Propia) ... 74

Figura 4.47- Señal Adquirida y Señal filtrada de la persona 2 (Elaboración Propia). ... 74

Figura 4.48- Señal Adquirida y Señal filtrada superpuestas de la persona 2 (Elaboración Propia). ... 74

Figura 4.49- Acercamiento de la señal adquirida y la señal filtrada de la persona 2 (Elaboración Propia). ... 75

(12)

xii Figura 4.50- Submuestreo de la señal filtrada de 250Hz a 125Hz de la persona 1 (Elaboración Propia). ... 75 Figura 4.51- Longitud aproximada para cada latido. Adaptada de (Cerebromedico.com) ... 76 Figura 4.52- Umbralización de los picos R de la ECG de la persona 1 (Elaboración Propia). ... 76 Figura 4.53- Umbralización de los picos R de la ECG de la persona 2 (Elaboración Propia). ... 76 Figura 4.54- Señales segmentadas del ECG de la persona 1. (Elaboración Propia) ... 77 Figura 4.55- Señales segmentadas del ECG de la persona 2. (Elaboración Propia) ... 77 Figura 4.56- Comparación de señales de la base de datos utilizada con las señales segmentadas del ECG de la persona 1. (Elaboración Propia) ... 78 Figura 4.57- Figura 4.57. Diagrama de flujo de la Segmentación y normalización de las ECG adquiridas. (Elaboración Propia) ... 79 Figura 4.58- Vector predicción de la categoría de los latidos para la persona 1.

(elaboración propia) ... 80 Figura 4.59- Diagnóstico categórico realizado para la persona 1. (elaboración propia) 80 Figura 4.60- Interfaz gráfica elaborada (Elaboración propia) ... 81 Figura 4.61- Proceso de análisis y detección de arritmias en el ECG ... 82 Figura 4.62- Reporte generado para la persona 1 por medio de la GUI elaborada (Elaboración propia) ... 83 Figura 4.63- Reporte generado para la persona 2 mediante la GUI elaborada (Elaboración propia). ... 83 Figura 4.64- Visualización de un latido dudoso numerado en el informe de la GUI (Elaboración Propia) ... 83 Figura 5.1- Diferencias con el trabajo de Magne. Adaptado de (Magne, 2009) ... 87

(13)

xiii

LISTA DE TABLAS

Tabla 2.1- Comparativa de los indicies temporales y espectrales para las señales HRV y PRV en los tres estados de estudio (Acero et al., 2017), ... 6 Tabla 2.2- Exactitud en la detección de arritmias (Magne, 2009). ... 7 Tabla 2.3- comparación de F1 score para el modelo entrenado como para Cardiólogos en el diagnóstico de diferentes tipos de arritmias (Rajpurkar et al., 2017). ... 8 Tabla 2.4- Resultados de clasificación de 4 modelos de redes neuronales con parámetros diferentes (Llodrà-Bisellach, 2018). ... 9 Tabla 2.5- Categorías en la clasificación de arritmias consideradas por la AAMI.

Modificada de (Luz & Menotti, 2011). ... 13 Tabla 2.6- Funciones de activación comunes (simplilearn.com, 2020). ... 21 Tabla 2.7- Funciones de perdidas usadas usualmente (Udell, 2018)... 22 Tabla 2.8- Funciones de pérdidas de acuerdo al problema solucionado (mc.ai, 2019) .. 22 Tabla 3.1 Variables e indicadores de la investigación (Elaboración Propia). ... 35 Tabla 4.1- Clases de arritmias contenidas en la base de datos ECG Heartbeat Categorization(Kachuee et al., 2018). ... 40 Tabla 4.2- Exactitud de diferentes estudios en la base de datos ECG Heartbeat Categorization (Kachuee et al., 2018) ... 42 Tabla 4.3- Proporción en el número de registros en la base de datos. (Elaboración Propia) ... 46 Tabla 4.4- Arquitectura creada a través de la función residual CNN ... 50 Tabla 4.5- Resumen de la arquitectura de red elaborada. (Elaboración Propia) ... 52 Tabla 4.6- Métricas para análisis de resultados obtenidos del modelo CNN. (Elaboración propia) ... 60 Tabla 4.7- Recálculo de F score con un β =2 (Elaboración propia). ... 61 Tabla 4.8- Comparación de los posibles sensores para el proyecto. (Elaboración propia) ... 64 Tabla 5.1- Sensibilidad del modelo entrenado para las diferentes categorías. (Elaboración Propia). ... 86

(14)

1

CAPITULO 1: INTRODUCCION

1.1. REALIDAD PROBLEMÁTICA

Según cifras de la (OMS, 2019), las enfermedades cardiovasculares (ECV) son un conjunto de anomalías del corazón y de los vasos sanguíneos que constituyen la principal causa de muerte en todo el mundo. Afectando principalmente en países de ingresos medios y bajos, con una ocurrencia de 80% en ellos.

Una arritmia cardiaca es una ECV debida a anomalías en el sistema eléctrico del corazón y que produce una alteración en la frecuencia de los latidos. Esta alteración puede significar que la persona tiene latidos acelerados (taquicardia), latidos muy lentos (bradicardia) o porque el corazón late irregularmente (saltándose un latido o agregando un latido adicional). Según (Vázquez Ruiz de Castroviejo et al., 2005), aproximadamente el 40% de los pacientes que acuden a una consulta de cardiología general y 25% de los que consultan por primera vez, presentan arritmias cardíacas o trastornos de conducción.

En (nisainforma, 2010), se manifiesta que un 60% de las personas tienen algún tipo de arritmia cardiaca, existiendo algunas arritmias que pueden producir muerte súbita, como la que puede suceder en las personas con el síndrome de Wolff-Parkinson-White (con probabilidad de ocurrencia de 1 / 1000). Algunos casos de arritmias letales son futbolistas que, durante un partido, se desmayan y fallecen repentinamente (secretaria de la salud-Mexico, 2018). En el artículo del diario (La República, 2011), se afirma que 20%

de las personas mayores a 80 años pueden tener una fibrilación muscular, la cual es una arritmia que causa una desorganización total en los latidos y es potencialmente mortal.

Según el artículo de la (La República, 2011), las arritmias se presentaban solo en personas mayores de 50 años, sin embargo, ahora también aqueja a jóvenes mayores de 18 años. El articulo informa que, según el experto Enrique Ruíz Mori, ex presidente de la Sociedad Peruana de Cardiología, este hecho se debe al estrés y el consumo, por parte de los jóvenes, de bebidas energizantes, alcohol y tabaco. El experto también manifiesta que, los síntomas de las arritmias pueden ser mareos, inestabilidad al caminar, desmayos, dolor en el tórax, sin embargo, muchas arritmias son asintomáticas. Ruiz Mori, recomienda una detección y tratamiento a tiempo de las arritmias ya que pueden llegar a causar la muerte en contados minutos.

(15)

2 De acuerdo a los datos brindados por un artículo del (El Correo, 2019), en el Perú las ECV son la segunda causa de muerte, además, según la Sociedad Peruana de Cardiología, el 27.3% de adultos mayores de 20 años padecen hipertensión, lo que puede llevar a desarrollar arritmias y otras ECV. Se menciona también que, los métodos de diagnóstico de ECV pueden llegar a costar S/ 500, lo cual es restrictivo en el contexto económico nacional, así mismo, se informa que un estudio de Deloitte afirma que las perdidas por ECV suman en el país S/ 2900 millones por año.

La información presentada en párrafos anteriores y sumado al déficit de especialistas médicos en el Perú, nos lleva a deducir que se necesita formas asequibles para diagnosticar arritmias cardiacas, ya que su oportuna detección y tratamiento puede salvar la vida a muchas personas. Siendo el objetivo de esta investigación presentar una alternativa de solución a esta necesidad.

1.2. FORMULACION DEL PROBLEMA

¿Como adquirir, procesar y clasificar señales ECG para ayudar en el dignóstico de arritmias?

1.3. HIPOTESIS

Un sistema de adquisición y procesamiento de señales ECG que hace uso de redes neuronales convolucionales puede ayudar en el diagnóstico de arritmias.

1.4. OBJETIVOS 1.4.1. GENERAL

Diseñar un sistema de adquisición y procesamiento de señales ECG basado en redes neuronales convolucionales para la ayuda en el diagnóstico de arritmias cardiacas.

1.4.2. ESPECÍFICOS

 Realizar el análisis de la base de datos de arritmias cardiacas: ECG Heartbeat Categorization Dataset.

 Crear y entrenar la red neuronal convolucional para la detección de arritmias.

 Realizar el diseño e implementación del sistema de la adquisición de las señales ECG.

(16)

3

 Realizar el procesamiento de las señales de ECG adquiridas para adaptarlas a las señales de la base de datos.

 Realizar las pruebas de clasificación del sistema desarrollado y analizar los resultados.

1.5. JUSTIFICACION

Los resultados de la presente investigación, pueden ayudar a realizar un diagnóstico oportuno de anomalías en el ritmo cardiaco, que podrían afectar el estilo de vida de las personas o incluso causar la muerte de no ser tratadas a tiempo. Como se mencionó anteriormente, según la (OMS, 2019) las ECV son la principal causa de muerte en el mundo, teniendo mayor ocurrencia en países como Perú, donde los ingresos per cápita están en el nivel medio-bajo. Esta realidad económica, sumado a lo que se mencionó sobre lo costoso que puede ser diagnosticar una arritmia (El Correo, 2019), genera que el habitante peruano no acuda a realizarse revisiones médicas periódicas, por lo cual la detección se hace tardíamente, cuando el tratamiento ya no es posible o es demasiado costoso.

Dentro del contexto explicado en el párrafo anterior, se puede afirmar que se requiere formas accesibles que permita disminuir los costos y ayudar en el diagnóstico de las arritmias cardiacas. Lo cual es el objetivo de la presente investigación.

El aporte que se pretende realizar, es una metodología para el uso de CNN en la búsqueda de patrones, que indiquen la presencia de anomalías en el ritmo cardiaco, además de su generalización para la detección en contextos diferentes (lugares alejados que carecen de especialistas) usando datos tomados con instrumentos de bajo coste.

(17)

4

CAPITULO 2: MATERIAL Y METODOS

2.1. ANTECEDENTES

(Cervantes & Gómez, 2017), en su tesis titulada “Detección de Arritmias Cardiacas mediante un Sistema de Amplificación y Digitalización de Señales Electrocardiográficas”, diseñó un sistema electrónico de amplificación y filtrado, el cual junto con la tarjeta de Adquisición de Datos NI USB-6008, de National Intruments, y una interfaz gráfica que diseñó en LabView, logró digitalizar y obtener todos los parámetros de una señal electrocardiográfica (Ondas P,Q,R,S y T), y las cuales deberían servir para la detección de 3 tipos de arritmias cardiacas: taquicardias, bradicardias y latido ectópico.

El método de detección especifico que proponen es la comparación de los diversos parámetros de la señal, utilizando como muestras a personas que padecen arritmia cardiaca, a partir de las cuales pretenden hacer una generalización. La interfaz gráfica que diseñó se muestra en la figura 2.1, en la cual se muestra todos los parámetros de señal electrocardiográfica que su sistema diseñado fue capaz de obtener. Cabe resaltar que su sistema es capaz de generar un reporte para enviarlo a un médico especialista.

Figura 2.1- Interfaz gráfica del sistema de detección de arritmias realizado en LabView (Cervantes & Gómez, 2017).

El trabajo de (Cervantes & Gómez, 2017), si bien muestra una forma eficaz de cómo digitalizar y obtener los parámetros de una señal electrocardiográfica, no muestra una forma feahaciente sobre el proceso de diagnóstico de las arritmias cardiacas, ya que prueba su sistema con señales artificiales (rampas) a diferentes frecuencias y no con datos reales, sin embargo, la relevancia de su trabajo está en que se puede utilizar los reportes que produce su sistema, para ayudar en el diagnóstico por parte de un especialista.

(18)

5 Ademas demuestra que es factible la realización de un sistema para el análisis de frecuencias cardiacas a bajo costo.

(Velázquez & Villagrán, 2016), en su tesis titulada “Monitor de ritmo cardiaco para dispositivos Android mediante un enlace Bluetooth”, utiliza un único sensor fotopletismógrafo SEN-11574 para el sensado de la frecuencia cardiaca, la cual mediante un acondicionador de señal convierte la señal en forma cuadrada, esta es recibida por un microcontrolador PIC18F4550, el cual se encarga de enviarlo vía bluetooth a una aplicación móvil elaborada con el software MIT App Inventor. El diagrama de bloques del proceso se puede apreciar en la figura 2.2.

Figura 2.2- Interfaz gráfica del sistema de detección de arritmias realizado en LabView (Velázquez &

Villagrán, 2016).

El trabajo de (Velázquez & Villagrán, 2016), aunque no aporta información en cuanto a la detección de arritmias, brinda referencias relevantes sobre el acondicionamiento de señal y las características de los sensores que pueden utilizarse en esta tesis.

En la investigación de (Acero, Acero, & Reyes, 2017), titulada “Análisis de Variabilidad de la Frecuencia Cardiaca durante Estrés y Relajación empleando Señales Adquiridas con un Smartphone”, hacen uso de la cámara de un smartphone a modo de fotopletismógrafo de imágenes (iPPG), adquiriendo y procesando las imágenes para obtener una señal de pulso cardiaco. Así mismo, se utiliza un sistema BIOPAC MP150 para la adquisición de la señal electrocardiograma (ECG). Se realiza una comparación entre los parámetros PRV (pulse rate variability), que es obtenida del smartphone, y el HRV (Heart rate variability), que es obtenido de la señal ECG, para el estado de control(normal), estado de relajación y estado de estrés. Los resultados que obtuvieron se pueden apreciar en la tabla 2.1., donde se aprecia la comparación de los índices meanHR (frecuencia cardiaca promedio en bpm), LFn (potencia normalizada a baja frecuencia de

(19)

6 0.04-0.15 Hz), HFn (potencia normalizada en la banda baja frecuencia de 0.15-0.4 Hz) y TPR (turning point ratio) respeto a las señales ECG y iPPG en los tres estados de estudio.

Tabla 2.1- Comparativa de los indicies temporales y espectrales para las señales HRV y PRV en los tres estados de estudio (Acero et al., 2017),

La investigación de (Acero et al., 2017), muestra una metodología acertada para la obtención de los índices cardiacos, mencionados en el párrafo anterior, utilizando algoritmos de procesamiento de señales. Además, sus resultados muestran que los índices obtenidos de pulso cardiaco y los índices obtenidos de la señal de ECG, son levemente diferentes lo cual se puede apreciar en la figura 2.3. Esto constituye una limitación del sensor a elegir en esta tesis, ya que para la detección de arritmias se requiere una señal ECG y no una PPG.

Figura 2.3- Comparativa de señales ECG y PPG (Acero et al., 2017).

En la tesis de (Magne, 2009), titulada “Detección De Arritmias Cardiacas Con Redes Neuronales Artificiales”, hace uso del software MatLab, para crear una red neuronal densa, con 4 capas ocultas, la cual la entrena durante 1000 épocas, para que esta sea capaz de detectar 3 tipos específicos de arritmias, siendo estas: Bloqueo de rama derecha (LBBB), Contracción ventricular prematura (PVC) y Fibrilación ventricular (VF). La base de datos que usó fue la MIT-BIH Arrhythmia Database, y logró obtener una exactitud mayor al 80% en la detección. Los resultados se muestran en la tabla 2.2.

(20)

7

Tabla 2.2- Exactitud en la detección de arritmias (Magne, 2009).

El diagrama de bloques general del proceso de la detección se muestra en la figura 2.4. En la cual se puede apreciar cómo es construido el modelo usando solamente los la base de datos MIT-BIH, la cual pasa previamente por un proceso de normalización y extracción de características. Un proceso análogo se debe utilizar para la señal que se quiere clasificar. Finalmente, como se aprecia, el resultado debe ser corroborado por un especialista.

Figura 2.4- Comparativa de señales ECG y PPG (Magne, 2009).

El trabajo de (Magne, 2009), tiene 2 aspectos que se pueden mejorar, en primer lugar la base de datos que utiliza, solo contiene 48 registros, por lo que la clasificación no será lo suficientemente generalizada. En segundo lugar, el proceso de extracción de características se puede hacer automáticamente usando redes neuronales convolucionales.

La metodología de la figura 2.4., que Magne propone para abordar el problema, posee una estructura coherente con sus objetivos, por lo cual se la tomará como marco de trabajo para el desarrollo de la presente investigación.

En el artículo de (Rajpurkar, Hannun, Haghpanahi, Bourn, & Ng, 2017), titulado

“Cardiologist-Level Arrhythmia Detection with Convolutional Neural Networks” hacen uso de una red convolucional residual de 34 capas para realizar la detección de 12 tipos de arritmias, ritmo sinusal y ruido, teniendo la arquitectura de la red un total 16 bloques residuales. Hacen uso de un dataset de grabaciones de señales ECG de una sola derivación, de 30 segundos muestreadas a 200 Hz de un total de 29163 pacientes,

(21)

8 constituyendo en total 64121 muestras. Cada registro es evaluado por un grupo de cardiólogos expertos en la detección de arritmias, anotando en el registro la clase de arritmia presente. Después de entrenado el modelo se compara la precisión individual en el diagnóstico de arritmias de otros 6 cardiólogos, los cuales no participaron en las anotaciones de los registros del dataset, versus la precisión en el diagnóstico del modelo, resultando los valores de recall (sensibilidad) y precisión (verdadero positivo) mayor para el modelo. Las métricas de evaluación usadas es F1 score tanto para la precisión en la secuencia (Seq) de diagnóstico para cada latido dentro del registro, como para precisión de arritmias únicas dentro del registro (Set). Estos resultados se muestran en la tabla 2.3.

Tabla 2.3- comparación de F1 score para el modelo entrenado como para Cardiólogos en el diagnóstico de diferentes tipos de arritmias (Rajpurkar et al., 2017).

El trabajo de (Rajpurkar et al., 2017) da información valiosa acerca de la arquitectura que se puede usar para la creación de la red neuronal en esta tesis, así como demuestra que un modelo de deeplearning puede ser mejor que un experto cardiólogo en la detección de arritmias, por supuesto, el cardiólogo puede hacer uso de otros medios para elevar su precisión, pero en el diagnostico por observación del ECG, el modelo demuestra ser mejor. Este trabajo también brinda una forma de comparar el rendimiento del modelo, el cual es a través del F score.

En el trabajo de (Llodrà-Bisellach, 2018), titulado “Aprendizaje automático para la clasificación de arritmias cardíacas” explora el uso de redes neuronales (NN) y redes

(22)

9 neuronales convolucionales (CNN) de forma comparativa para la detección de arritmias en la base de datos MIT-BIH, tratando de clasificar segmentos de 5 segundos de los ECG en latidos normales(clase 0) y latidos arrítmicos(clase 1). Su base de datos la divide en 3 secciones, una sección para entrenamiento (28080 segmentos), otra para validación (7964 segmentos) y la última para testeo (7964 segmentos). Para el entrenamiento realiza una variación de los hiperparámetros tanto para la NN como para la CNN, sus resultados se pueden observar en la tabla 2.4, donde se puede observar que su valor predictivo positivo (PPV) o precisión para su conjunto de testeo es de 58.73% para la NN y 70.39% para la CNN.

Tabla 2.4- Resultados de clasificación de 4 modelos de redes neuronales con parámetros diferentes (Llodrà- Bisellach, 2018).

El trabajo de (Llodrà-Bisellach, 2018) brinda una visión general de como la variación de los hiperparámetros influyen en los resultados de la clasificación tanto en la NN como en la CNN, además brinda una referencia de cómo evitar el overfiting durante el entrenamiento.

En el artículo de (Kachuee, Fazeli, & Sarrafzadeh, 2018) titulado “ECG Heartbeat Classification: A Deep Transferable Representation” usan redes convolucionales residuales para la clasificación de latidos en categorías de arritmias de acuerdo al estándar AAMI EC57, y proponen un método para la transferencia de conocimiento a la clasificación de infartos del miocardio. Logran una exactitud de 93.4% en la clasificación de arritmias y 95.9% en la detección de infartos al miocardio. Hacen uso de las bases de datos MIT BIH y PTB diagnostics, las cuales segmentan la señal ECG en latidos individuales. Los resultados de clasificación para la detección de arritmias, se aprecia en la matriz de confusión de la figura 2.5, en la que es posible ver la alta sensibilidad (recall) de obtuvieron en cada clase (recuadros negros).

(23)

10

Figura 2.5- Matriz de confusión obtenida por (Kachuee et al., 2018).

El trabajo de (Kachuee et al., 2018) muestra una arquitectura de la red neuronal semejante al trabajo de (Rajpurkar et al., 2017), siendo la de (Kachuee et al., 2018) más sintética al usar solo 5 bloques residuales, a diferencia de los 16 usados por (Rajpurkar et al., 2017). Ambos trabajos se toman como referencia para la creación de la arquitectura en la presente tesis. Así mismo, la base de datos procesada por (Kachuee et al., 2018) disponible en Kaggle será la base de datos utilizada en este proyecto.

2.2. MARCO TEORICO 2.2.1. SISTEMA CARDIOVASCULAR

Un latido cardíaco se genera debido a la actividad eléctrica inherente y rítmica de las fibras autorrítmicas o de conducción del miocardio (Tortosa, 2010), las cuales actúan como marcapasos coordinando la contracción y relajación de las diferentes cámaras (aurículas y ventrículos) del corazón, y constituyen el sistema de conducción cardíaco, el cual garantiza la contracción coordinada de las cavidades cardíacas creando así una acción de bombeo en forma de onda que mueve la sangre por todo nuestro cuerpo de manera eficiente (PHRI, 2015).

Las fibras de conducción representan el 1% del total de fibras del miocardio. Su función es la generación y propagación rápida de los potenciales de acción sobre el miocardio. La llegada de un impulso eléctrico a una fibra miocárdica normal genera un potencial de acción (cambio en la permeabilidad de la membrana celular a determinados iones), el cual provoca la contracción de la fibra muscular del miocardio. El potencial de acción abarca tres fases: despolarización, meseta y repolarización. Un ciclo cardiaco incluye todos los fenómenos eléctricos (potencial de acción y su propagación) y

(24)

11 mecánicos (sístole: contracción; diástole: relajación). Cada ciclo cardíaco consta de una sístole y una diástole auricular, y una sístole y una diástole ventricular. (Tortosa, 2010) 2.2.1.1. ELECTROCARDIOGRAMA

El electrocardiograma (ECG) es una de las principales herramientas para la detección de problemas cardiovasculares como las arritmias, (Llodrà-Bisellach, 2018).

Este se obtiene a partir de la pequeña corriente eléctrica en la superficie corporal propagada desde el corazón (Tortosa, 2010).

El ECG registra las fuerzas electromotrices instantáneas (vectores) originadas en el corazón en los procesos de despolarización y repolarización, mediante la utilización de electrodos situados en la superficie del cuerpo. El ECG suele representar solo el vector resultante promedio del cual se grafica únicamente su magnitud escalar (voltaje) (Pozas, 2012). El ECG estándar consiste en un total de 10 electrodos, 6 en el tórax y 4 en las extremidades, de los cuales se obtienen 12 derivaciones, las cuales representan diferentes vistas de la actividad eléctrica del corazón, teniendo 6 derivaciones precordiales que observa el corazón desde un plano horizontal y 6 derivaciones de miembros que observan el corazón desde un plano frontal (Llodrà-Bisellach, 2018).

Cada latido cardíaco genera 3 ondas en el ECG (Tortosa, 2010):

1. La onda P, que representa la despolarización de las aurículas y la transmisión del impulso del nódulo sinusal a las fibras musculares auriculares.

2. El complejo QRS, que representa la despolarización ventricular y oculta la repolarización auricular.

3. La onda T, que representa la repolarización ventricular.

En el análisis de un ECG se suelen considerar la medición de las duraciones de los siguientes intervalos (Tortosa, 2010):

1. El intervalo P-R, que se mide desde el inicio de la onda P hasta el comienzo del complejo QRS.

2. El segmento S-T, que representa el intervalo entre el final del complejo QRS y el inicio de la onda T.

3. El intervalo Q-T, que incluye el complejo QRS, el segmento ST.

(25)

12 La figura 2.6 mostrada a continuación muestra las diferentes ondas e intervalos representados en un ECG, en la cual adicionalmente se aprecia la onda U (que no aparece siempre) y el intervalo R-R que muestra un ciclo completo del corazón medido a partir del pico R. Así mismo se muestra valores promedios de la duración de cada intervalo.

Figura 2.6- Ondas e intervalos de un electrocardiograma (nursingmanthra.com, 2018).

Debido a que la magnitud eléctrica del corazón es pequeña, la medición de esta en la superficie del cuerpo es aún menor, estando en el orden de los milivoltios (mV), esto lo hace susceptible a la contaminación por diferentes fuentes de ruido, siendo la reducción del ruido uno de los principales problemas del ECG (Llodrà-Bisellach, 2018).

2.2.1.2. ARRITMIAS CARDIACAS

El corazón puede latir a diferentes ritmos debido a diversos factores, como la actividad física, un estado de relajación o estrés, incluso algunas personas pueden ocasionalmente experimentar variaciones inofensivas en el ritmo cardiaco, conocidas como palpitaciones, sin embargo, si estas anomalías en el ritmo cardiaco aparecen consistentemente se les conocen como arritmias pudiendo el corazón latir demasiado rápido, demasiado despacio, o con un patrón irregular y son causadas por irregularidades en la transmisión de los impulsos eléctricos que hacen que los músculos del corazón se contraigan. Algunas arritmias pueden ser inofensivas, sin embargo, otras pueden llegar a provocar problemas de salud serios (PHRI, 2015).

Una arritmia peligrosa bastante común es la fibrilación arterial, producida por impulsos eléctricos anormales en las aurículas, que se caracteriza por un latido cardiaco rápido e irregular que hace que el corazón no bombee sangre eficientemente. Esta arritmia

(26)

13 aumenta el riesgo de ataque al corazón, derrame cerebral, y enfermedad cardiaca de una persona (PHRI, 2015).

Generalmente el diagnóstico de arritmias se hace mediante el análisis de un ECG, pudiéndose detectar la arritmia debido a la presencia de una forma inusual o su aparición a destiempo de una onda, por ejemplo, algunas arritmias se pueden detectar a partir de la duración, amplitud y morfología del complejo QRS. La clasificación de la tabla 2.5 es dada por la Association for the Advancement of Medical Instrumentation (AAMI), agrupa las diferentes arritmias en (Llodrà-Bisellach, 2018):

 Supraventriculares (S): las cuales tienen un origen supraventricular y que tienen una diferencia temporal con los latidos normales (N).

 Ventriculares (V): las cuales tienen un origen ventricular y que presentan diferencias morfológicas con a los latidos N.

 Fusión (F): son latidos resultados de la fusión entre latidos ventriculares y normales.

Tabla 2.5- Categorías en la clasificación de arritmias consideradas por la AAMI. Modificada de (Luz &

Menotti, 2011).

Uno de los principales problemas en la detección de arritmias es producto de que las anormalidades pueden ocurrir en lapsos de tiempo bastante largos, siendo la mayoría de latidos normales, esto genera que se tenga que registrar la actividad cardiaca durante largos periodos, lo que dificulta que un cardiólogo analice manualmente la gran cantidad de datos generados (latidos individuales). Debido a esto se vienen desarrollando sistemas automáticos que analicen los datos sirvan como apoyo para el diagnóstico (Llodrà- Bisellach, 2018), lo cual también es objetivo de este proyecto.

2.2.2. PROCESAMIENTO DIGITAL DE SEÑALES

Se puede definir al procesamiento de señales como el conjunto de técnicas para la manipulación o modificación matemática de una señal con el fin de adaptarla o mejorarla según los objetivos que se requiera. El termino digital se refiere al uso de técnicas en el dominio del tiempo discreto, frecuencia discreta u otro dominio discreto de señales, siendo las señales analógicas convertidas a digitales mediante un conversor

(27)

14 análogo/digital (ADC). El diagrama de bloques general de un procesador de señales digitales (DSP) este compuesto por un filtro analógico, el ADC, el DSP, el conversor digital análogo (DAC) y un filtro de reconstrucción (Tan & Jiang, 2005), este se muestra en la figura 2.7 a continuación.

Figura 2.7- Estructura general de un procesador de señales digitales (Tan & Jiang, 2005).

Entre algunos de las aplicaciones del procesamiento digital de señales esta la compresión y codificación de audio y video como es el caso de los CD, sistemas de reducción de ruido, cifrado de datos, síntesis y reconocimiento de voz, telecomunicaciones digitales, controladores digitales, instrumentación industrial, etc.

(Tan & Jiang, 2005). En la presente tesis se utiliza el procesamiento digital de señales específicamente para filtrar y adaptar las señales ECG que se adquirirán a través de un sensor, de tal forma que la señal adquirida sea adecuada para un proceso de reconocimiento de arritmias.

2.2.2.1. FRECUENCIA DE MUESTREO

Cuando una señal analógica es muestreada por un ADC se debe de elegir una frecuencia de muestreo que asegure que la señal analógica original pueda ser reconstruida o recuperada más tarde. La elección equivocada de la frecuencia de muestreo produce aliasing, que causa que la señal recuperada no sea la correcta tal como se muestra en la figura 2.8, donde una señal de 90 Hz es muestreada a una tasa de 10 Hz, obteniéndose el alias de la línea punteada (Tan & Jiang, 2005).

Figura 2.8- Representación del efecto de una selección equivocada de la tasa de muestreo (Tan & Jiang, 2005).

Para evitar el aliasing se hace uso del teorema de muestreo, el cual garantiza que, en teoría, una señal analógica se pueda recuperar perfectamente, lo cual ocurre cuando la

(28)

15 frecuencia de muestreo es al menos dos veces de la frecuencia de la señal analógica que se va a muestrear.

2.2.2.2. FILTROS DIGITALES

Un filtro digital es un sistema que modifica de acuerdo a sus parámetros, una señal de entrada en una señal de salida. La señal de salida resultante tiene características diferentes a la original ya sea en amplitud, frecuencia o fase. El filtrado digital es una de las aplicaciones más relevantes del procesamiento digital de señales siendo el objetivo más común la atenuación o amplificación de ciertas frecuencias.

Se pueden considerar 2 tipos generales de filtros digitales, los filtros no recursivos y recursivos, los cuales tienen fase lineal y no lineal respectivamente, estos se diseñan y analizan en el dominio de la transformada Z. A partir de las ecuaciones de los filtros digitales, se pueden implementar algoritmos en cualquier lenguaje de programación, sin embargo existen algunos lenguajes de programación con muchos de los filtros y algoritmos de procesamiento de señales más habituales ya implementados (Alva, Coras Carlos, 2012).

Los filtros no recursivos también llamados como filtros de respuesta finita al impulso (FIR), conservan una fase lineal en todo el dominio de la frecuencia y son por lo general de un orden elevado (Alva, Coras Carlos, 2012), la ecuación 1 muestra la representación general de un filtro de este tipo (Tan & Jiang, 2005). La figura 2.9 es una representación gráfica (grafo) de un filtro FIR de tercer orden, el cual es en sí un algoritmo, que puede ser programado en una computadora o microcontrolador (Walker, 2016).

𝑦(𝑛) = ∑ 𝑏_𝑖𝑥(𝑛 − 𝑘)

𝑁

𝐾=0

( 1)

Los filtros recursivos, también llamados como filtros de respuesta infinita al impulso (IIR), cuentan con una retroalimentación de la salida, poseen una característica de fase no lineal, pero son más cortos respecto a los filtros FIR, lo que constituye una ventaja en cuanto a ahorro computacional (Alva, Coras Carlos, 2012). La ecuación 2 es la representación general de estos filtros. La figura 2.10 muestra un grafo de un filtro IIR de t 3° grado que puede ser implementado en software, se puede notar que la salida del

(29)

16 filtro depende de las entradas y de las salidas anteriores, a diferencia del filtro FIR, en el que la salida depende solo de las entradas.

𝑌(𝑛) = ∑ 𝑏_𝐾𝑥(𝑛 − 𝐾) + ∑ 𝑎_𝑘𝑌(𝑛 − 𝐾)

𝑁

𝐾=1 𝑁

𝐾=0

( 2)

Figura 2.9- Representación gráfica de un filtro FIR de tercer orden (Walker, 2016).

Figura 2.10- Representación gráfica de un filtro IIR (M Martínez, Gómez, Serrano, Vila, & Gómez, 2009).

Existen diferentes métodos para realizar el diseño de filtros FIR por ejemplo el método de ventanas, mínimos cuadrados, etc. Para el caso de filtros IIR los métodos de diseño son aproximación de su prototipo analógico, y aproximación por mínimos cuadrados. En ambos casos se tiene que especificar la frecuencia o frecuencias de corte que se desea.

2.2.2.2.1. FILTROS PASA BAJOS

Los filtros pasa-bajos son aquellos que solo dejan pasar la señal hasta una frecuencia de corte determinada, luego la atenúan o eliminan. La figura 2.11 muestra la forma del filtro (magnitud) en el dominio de la frecuencia. La banda de paso corresponde a las frecuencias que se desea dejar pasar, la banda de transición es donde el filtro empieza a atenuar la frecuencia y la banda de rechazo es donde el filtro atenúa casi por completo las frecuencias.

(30)

17

Figura 2.11- Forma de filtro pasabajos en el dominio de la frecuencia (Tan & Jiang, 2005)

Como se puede apreciar en la figura 2.11, el filtro puede agregar ciertas distorsiones a la señal dependiendo del diseño, en la figura 2.12 es posible ver una comparación entre varios filtros analógicos que pueden usarse como prototipos de filtros digitales IIR, se debe notar las diferencias que estos tienen en cuanto a rizado en las bandas de paso y de rechazo.

Figura 2.12- Comparación de filtros pasabajos analógicos utilizados para elaborar filtros IIR (M Martínez et al., 2009).

2.2.2.2.2. FILTROS PASA ALTOS

Los filtros pasa-altos atenúan una señal hasta una frecuencia determinada, y luego la dejan pasar libremente, la forma general de estos se aprecia en la figura 2.13. Las mismas consideraciones anteriores se pueden aplicar a estos filtros en cuanto al rizado ya que también pueden ser inferidos a partir de su prototipo pasa-alto analógico.

(31)

18

Figura 2.13- Forma de filtro pasa-altos en el dominio de la frecuencia (Tan & Jiang, 2005).

2.2.2.2.3. FILTROS PASA BANDA

Los filtros pasa-banda se les puede considerar como una unión de un filtro pasa- altos y un filtro pasabajos en secuencia. La forma general de este tipo de filtros se aprecia en la figura 2.14. En estos filtros se requiere especificar 2 frecuencias de corte, las que determinan el ancho de banda del filtro.

Figura 2.14- Forma de filtro pasabanda en el dominio de la frecuencia (Tan & Jiang, 2005).

2.2.3. APRENDIZAJE AUTOMÁTICO

El aprendizaje automático (machine learning) es una tecnología que desarrolla algoritmos informáticos capaces de emular la inteligencia humana, incorpora ideas de diferentes campos como la neurociencia, probabilidad y estadística, psicología, teoría de control, entre otras. Esta tecnología ha sido aplicada con éxito en áreas como la visión por computadora, robótica, entretenimiento, ecología, biología y medicina. Se puede decir que el aprendizaje automático permite a las computadoras aprender de su entorno y de las experiencias anteriores, con o sin un maestro (El Naqa, Murphy, & Li, 2015).

En la primera generación de sistemas inteligentes, las maquinas ejecutaban algoritmos escritos por humanos de forma secuencial para la solución de problemas, es

(32)

19 decir, solo se limitaban a seguir instrucciones sin cambios. En la actualidad, los modelos de aprendizaje automático pueden ser entrenados utilizando grandes cantidades de datos para discriminar diferentes clases, encontrando una función matemática adecuada que establece una relación robusta entre los datos de entrenamiento y las salidas buscadas (Gad, 2018).

El aprendizaje automático se divide en diferentes tipos como el aprendizaje supervisado, en el que los datos usados para el entrenamiento del modelo están etiquetados, pudiéndose determinar la exactitud del sistema. Otro tipo es el aprendizaje no supervisado, en el que los datos no están etiquetados y el objetivo es descubrir relaciones existentes a partir de las características intrínsecas de los datos, y donde el ser humano tiene que interpretar que es lo que ha aprendido el modelo. Otro tipo de mucho énfasis es el aprendizaje por refuerzo, en el que el modelo (agente) aprende de acuerdo a la experiencia de su interacción con los datos (entorno), y donde entran en juego el refuerzo positivo y negativo que consiguen que a través de prueba y error el modelo quede optimizado en una tarea específica (Llodrà-Bisellach, 2018).

2.2.3.1. REDES NEURONALES ARTIFICIALES

Las redes neuronales son modelos computacionales inspirados en los sistemas nerviosos biológicos, las cuales están conformadas por un conjunto de unidades llamadas neuronas interconectadas entre si (Llodrà-Bisellach, 2018; Lopez, 2017). Las Redes Neuronales artificiales son utilizadas para la elaboración de modelos descriptivos y predictivos, y son técnicas importantes dentro de la minería de datos, el reconocimiento de patrones, los sistemas de control adaptativo, la inteligencia artificial, entre otros (Mateo Sotos, 2012).

Figura 2.15- Estructura de una red neuronal (towardsdatascience.com, 2017).

(33)

20 Existen una variedad de arquitecturas de redes neuronales, siendo quizás la más conocida la arquitectura llamada perceptrón multicapa la que se muestra en la figura 2.15.

El esquema habitual de este tipo de red neuronal está formado por una capa de entrada (amarillo), una capa salida (rojo) y capas ocultas intermedias (verde). La figura 2.16 muestra un modelo simplificado de un perceptrón comparado con una neurona biológica y donde cada entrada de la neurona (𝑥_𝑖) se multiplica peso (𝑤_𝑖) y se suman, aplicándose al final una función de activación (𝑓) que corresponde a la salida de la neurona (Llodrà- Bisellach, 2018). Esto se muestra formalmente en la ecuación 3.

𝑦 = 𝑓(∑ 𝑤_𝑖𝑥_𝑖

𝑛

𝑖=1

)

( 3)

Figura 2.16- Estructura de una neurona artificial en comparación de una biológica (Lopez, 2017).

Las redes neuronales fueron los primeros métodos computacionales con la capacidad de tolerancia a fallos (ruido en los datos de entrada), lo cual se debe a que pueden aprender a reconocer patrones con ruido, distorsiones o datos incompletos y pueden seguir realizando su función, aunque con una leve degradación, esto constituye una de sus principales ventajas (Mateo Sotos, 2012).

2.2.3.1.1. FUNCION DE ACTIVACION

Se puede considerar que una neurona biológica tiene un estado de activación ya que puede estar excitada o no, análogamente las neuronas artificiales también cuentan con diferentes estados de activación, algunas de ellas pueden tomar un estado digital (solo dos estados) o analógico dentro de rango determinado. La función activación transforma la entrada en un valor de activación, cuyo rango puede ir de 0 a 1 o de –1 a 1 (Mateo Sotos, 2012).

(34)

21 Sin la función de activación, las capacidades del perceptrón se limitan solo a estimar funciones lineales, para lograr que estas sirvan también para funciones no lineales es necesario agregar la función de activación. Existen varias funciones de activación que se usan en las redes neuronales, estas se muestran en la tabla a continuación. La función de activación ReLU es la que más se suele usar en los algoritmos de aprendizaje profundo (Llodrà-Bisellach, 2018).

Tabla 2.6- Funciones de activación comunes (simplilearn.com, 2020).

2.2.3.1.2. FUNCIÓN DE PERDIDAS

Cuando una red neuronal se entrena es necesario definir una función de pérdidas que mida cuan cercana es la salida de la red neuronal con el valor o valores reales. Durante el proceso de entrenamiento los valores de los pesos son asignados inicialmente de forma aleatoria, por lo que la función de perdidas arroja valores grandes, siendo el objetivo del entrenamiento reducir los valores de esta función (Gad, 2018). La tabla 2.7 muestra algunas de las funciones de perdidas usadas de acuerdo al tipo de datos que maneja la última capa de la red neuronal.

(35)

22

Tabla 2.7- Funciones de perdidas usadas usualmente (Udell, 2018).

La tabla 2.8 muestra las distintas funciones de perdidas usadas de acuerdo al tipo de problema que se esté solucionando, así como la última capa de activación requerida para su uso.

Tabla 2.8- Funciones de pérdidas de acuerdo al problema solucionado (mc.ai, 2019)

2.2.3.1.3. LEARNING RATE

La tasa de aprendizaje (learning rate), es un parámetro que controla la velocidad con la que los pesos de la red neuronal se actualizan a valores más óptimos (disminuye la función de perdida). Para elegir el valor de la tasa de aprendizaje se debe tener en cuenta que, si la tasa de aprendizaje es muy grande, se puede llegar a omitir la solución óptima y si su valor es demasiado pequeño, necesitaremos demasiadas iteraciones para converger a los mejores valores. Por lo tanto, usar una buena tasa de aprendizaje es crucial, ya que podría ser la diferencia entre un modelo incapaz de aprender y un modelo con alto rendimiento. La figura 2.17 muestra los diferentes resultados que se puede obtener por

(36)

23 la elección de diferentes valores de la tasa de aprendizaje (towardsdatascience.com, 2019).

Figura 2.17- Efecto de la elección de la tasa de aprendizaje (towardsdatascience.com, 2019).

Tener una tasa de aprendizaje fija puede conllevar a ciertos problemas para converger a la solución óptima, por ello la mejor elección es tener una tasa de aprendizaje adaptativa, tal como la que se muestra en la figura 2.18, en la que la línea roja corresponde a una tasa de aprendizaje fija, nótese que esta tiene problemas para converger a diferencia de una tasa de aprendizaje adaptativa (Shen, 2018).

Figura 2.18- Problema con la elección de una tasa de aprendizaje fija (Shen, 2018).

2.2.3.1.4. FUNCION DE OPTIMIZACION

La función de optimización es la que se encarga de actualizar los pesos de la red neuronal con el fin de reducir la función de perdidas. Están basadas en el algoritmo de backpropagation, el cual calcula la gradiente de la función de perdida respecto a cada uno de los pesos de la red, y luego mediante el algoritmo de descenso de la gradiente (SGD) actualiza los pesos de la red neuronal (Goodfellow, Bengio, & Courville, 2016).

La función de activación clásica del descenso de la gradiente (SGD) usa una tasa de aprendizaje fija, lo cual como ya se explicó presenta problemas en la convergencia al modelo más óptimo, por ello se han desarrollado diferentes funciones de activación que

(37)

24 ahora usan una tasa de aprendizaje adaptativa, como es el caso del optimizador Adam, que es uno de los más populares actualmente, ya que los resultados empíricos demuestran que Adam funciona bien y se compara favorablemente con otros métodos de optimización estocástica (machinelearningmastery.com, 2017). La figura 2.19 muestra una comparación de la convergencia de diversas funciones de optimización.

Figura 2.19- Resultados de una tasa de aprendizaje adaptativa (Bhardwaj, Curtin, Edel, Mentekidis, &

Sanderson, 2018).

2.2.3.1.5. OVERFITING – UNDERFITING

El overfiting ocurre cuando un modelo se entrena con información redundante, lo que suele pasar al entrenar durante muchas épocas, lo que origina que el modelo comience a aprender del ruido y características demasiado del conjunto de datos. El overfiting genera que el modelo clasifique muy bien los datos de entrenamiento, pero no sea capaz de clasificar con la misma exactitud información nueva, por lo tanto, es un estado que se debe evitar. Algunos métodos para evitar el overfiting es reducir la complejidad del modelo, activar o desactivar neuronas (dropout) o agregar más información diferente (Llodrà-Bisellach, 2018).

Por otro lado, un modelo presenta underfitting cuando no se ajusta lo suficientemente bien a los datos, lo que suele ocurrir cuando no hay datos suficientes o cuando no se usa un sistema lo suficientemente complejo. La solución es agregar más

(38)

25 data, aumentar la complejidad del modelo por ejemplo más neuronas o más capas (Llodrà- Bisellach, 2018).

Figura 2.20- Underfitting y overfiting (geeksforgeeks.org, 2019).

La figura 2.20 muestra de manera gráfica los conceptos de underfitting y overfiting, mientras que la figura 2.21 muestra cómo se debe truncar el entrenamiento del modelo para evitar ambos problemas.

Figura 2.21- Truncado del número de épocas de entrenamiento (Saxena, 2020).

2.2.3.1.6. MÉTRICAS DE EVALUACION

Una vez entrenada una red neuronal es necesario evaluar los resultados obtenidos para determinar si estos se ajustan a lo deseado, un método comúnmente utilizado son las matrices de confusión, que permiten visualizar que tan bien el sistema ha clasificado los datos. Una matriz de confusión tiene como ejes a las etiquetas reales y a las etiquetas predichas por el modelo, estas pueden servir para manejar 2 o más etiquetas. En la figura 2.22 se muestra un ejemplo de matriz de confusión multiclase, en la que se aprecia que los elementos clasificados correctamente (verdaderos positivos) se encuentran en la diagonal. El total de elementos de cada clase se puede obtener sumando horizontalmente, y el total de todos los elementos considerados se obtiene sumando cada recuadro de la matriz (Roiger, 2013).

(39)

26

Figura 2.22- Matriz de confusión para medir la performance de un modelo de clasificación(Liu &

Mukhopadhyay, 2018).

Como se puede notar la matriz de confusión proporciona un medio de evaluación bastante eficiente para hacernos una idea de cuan bien está clasificando nuestro modelo (Llodrà-Bisellach, 2018). Sin embargo, a partir de la matriz de confusión es posible obtener diferentes métricas como lo son la precisión, el recall y F score.

2.2.3.1.6.1. PRECISIÓN

La precisión indica que tantos de los datos clasificados en una clase determinada son correctos. La precisión se puede obtener de la matriz de confusión dividiendo los verdaderos positivos de la clase (valor que se encuentra en la diagonal) entre el total de elementos clasificados en esa clase. Tomado como referencia la matriz de confusión de la figura anterior, para la clase airplane sería 828 entre la suma total de la columna, que en este caso 977, por lo que la precisión para la clase airplane será 0.8475 o lo que es lo mismo un 84.79%. El proceso para las demás clases es idéntico.

2.2.3.1.6.2. RECALL

El recall (recuerdo) también llamado sensibilidad, indica que tantos de los elementos pertenecientes a una clase fueron clasificados correctamente, y se puede calcular dividiendo el valor de verdaderos positivos (valor en la diagonal) entre la suma total de la fila. Para la matriz de confusión mostrada el recall de la clase airplane sería 828/1000 lo que es igual a 0.828 o 82.8%.

(40)

27 2.2.3.1.6.3. F SCORE

Dependiendo de los objetivos de un determinado problema, la precisión o el recall puede ser más o menos importante que el otro, por ello la métrica F score realiza una ponderación de la calidad del modelo tomando en cuenta esta consideración. La ecuación 4 es la expresión general de la métrica, donde 𝛽 indica la cantidad de veces mas importante que es el recall en comparación de la precisión (Aoullay Amine, 2018).

Valores típicos de 𝛽 es 1 (F1), que indica igual importancia entre precisión y recall, y 2 (F2) que da el doble de importancia al recall que a la precisión.

𝐹_β= (1 + β²) 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑅𝑒𝑐𝑎𝑙𝑙 (β²∗ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛) + 𝑅𝑒𝑐𝑎𝑙𝑙

( 4)

2.2.3.2. REDES NEURONALES CONVOLUCIONALES

Las redes neuronales convolucionales (CNN) es una estructura de red neuronal artificial recientemente emergente. Aunque originalmente se diseñaron para procesar imágenes, se han aplicado exitosamente en el reconocimiento de series temporales, obteniendo resultados superiores a las redes neuronales convencionales. A diferencia de las redes convencionales, las CNN pueden aprender automáticamente las características de un conjunto de datos (Li et al., 2017). Las CNN están formadas por diversas capas, las capas de convolución (de ahí deriva su nombre), las capas de pooling (agrupación), las capas fully connected (es una red neuronal convencional) y una capa de salida SOFTMAX (Vasishta, 2019). La figura 2.23 muestra una representación intuitiva del funcionamiento general de las CNN.

Figura 2.23- Estructura general de una CNN. Adaptada de (Shuler, 2018).

(41)

28 2.2.3.2.1. CAPA CONVOLUCIONAL

Esta capa es el núcleo de las CNN. Consisten en un grupo de filtros que recorren la imagen produciendo un mapa de características (Lopez, 2017). En cada capa de convolución cada imagen se procesa por convolución con un conjunto de filtros, y el ancho y la longitud de la imagen se comprimen para obtener información de imagen más profunda. (Li et al., 2017). Cada capa convolucional adicional es capaz de reconocer formas mas complejas, así la primera capa puede que solamente reconozca líneas, mientras que las siguientes sean capaces de reconocer formas cada vez más complejas como ojos, ruedas, etc. lo que se muestra también en la figura 2.23.

Figura 2.24- Proceso de la capa convolucional de una CNN (Durán Suárez, Del, Torres, & Suárez, 2017).

La convolución es una operación de productos y sumas entre la imagen de entrada y un filtro. La figura 2.24 muestra un ejemplo de esta operación, en la que se puede observar como como las dimensiones de salida se reducen. Nótese también que el filtro (mostrado de amarillo) avanza en 1 posición cada vez, esto corresponde a un parámetro configurable de una capa convolucional denominado stride (Durán Suárez et al., 2017).

2.2.3.2.2. CAPA DE POOLING

Después del proceso de convolución la matriz resultante muestra valores altos y bajos, son los valores altos los que indican una correlación alta del filtro aplicado con una sección especifica de la imagen, por lo tanto, se puede realizar una operación de agrupación de estos valores máximos tomando pequeñas ventanas (Gad, 2018). Se pueden plantear otras operaciones de pooling como el average pooling (toma el promedio de la ventana), sin embargo, el max pooling es la más usada por el motivo mencionado.

Se puede deducir que el pooling reduce significativamente las dimensiones de las