Análisis de señales cerebrales para la clasificación de actividades visuales

Texto completo

(1)Escuela Técnica Superior de Ingenieros Informáticos Universidad Politécnica de Madrid. Análisis de señales cerebrales para la clasificación de actividades visuales. Trabajo Fin de Máster Máster Universitario en Inteligencia Artificial. AUTOR: Edgar Segundo Quezada Patiño TUTOR: Javier de Lope Asiaín. 2019.

(2) ii.

(3) Agradecimientos Primeramente agradezco a Dios por brindarme salud y permitirme alcanzar las metas que me he propuesto, así como brindarme una gran familia y personas que con su amor, apoyo y afecto me han permitido seguir adelante cada día. A mi director de tesis por guiarme en el desarrollo de este trabajo, al brindarme su valioso tiempo y conocimiento. A la Secretaria de Educación Superior, Ciencia, Tecnología e Innovación (SENESCYT), Ecuador, por su apoyo financiero que me permitió crecer profesionalmente. Al Banco Santander y la Universidad Politécnica de Madrid por adjudicarme dentro del programa de becas UPM-SANTADER 2019.. iii.

(4) iv. AGRADECIMIENTOS.

(5) Resumen La captura de señales producidas por la actividad que ocurre en el cerebro se ha convertido en un tema de valiosa importancia en la actualidad, no solo en la medicina sino también en otras aplicaciones, al mejorar el estilo de vida de las personas, además de, el ocio y productividad orientado a realidad virtual y videojuegos, razón por la que en el presente trabajo, se pretende crear un modelo para la clasificación de actividades cerebrales orientadas a acciones cognitivas como: leer, ver un vídeo y escribir. Para esto, se realiza un proceso en donde, se captan estas señales a través de un dispositivo denominado EMOTIV EPOC +, que luego serán procesadas utilizando ventanas de tiempo continuas y superpuestas, en conjunto con la Transformada Continua de Wavelet (CWT) para suavizar y reducir el ruido en las señales, y así, finalmente, utilizar varios clasificadores para determinar cuál modelo brinda los mejores resultados.. v.

(6) vi. RESUMEN.

(7) Abstract The capture of signals produced by activity occurring in the brain has become a valuable issue today, not only in medicine but also in other applications, by improving people’s lifestyles, as well as, leisure and productivity oriented to virtual reality and video games, which is why in the present work, it is intended to create a model for the classification of brain activities oriented to cognitive actions such as: reading, watching a video and writing. For this, a process is carried out where, these signals are captured through a device called EMOTIV EPOC +, which will then be processed using continuous and overlapping time windows, in conjunction with Wavelet Continuous Transform (CWT) for smooth and reduce noise in signals, and thus, finally, use various classifiers to determine which model provides the best results.. vii.

(8) viii. ABSTRACT.

(9) Índice general iii. Agradecimientos Resumen. v. Abstract. vii. 1. Introducción 1.1. Objetivos . . . . . . . . . . 1.1.1. Objetivo general . . 1.1.2. Objetivos específicos 1.2. Plan de trabajo . . . . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 2. Estado del arte 2.1. Precedente . . . . . . . . . . . . . . . . . . . . 2.2. Interfaz cerebro-ordenador (BCI) . . . . . . . 2.2.1. Definición de un sistema BCI . . . . . 2.2.2. Bioseñales . . . . . . . . . . . . . . . . 2.2.3. Electroencefalografía (EEG) . . . . . . 2.3. Sistemas aplicados al procesamiento de señales 2.4. Otras aplicaciones de los EEG . . . . . . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 1 1 1 2 2. . . . . . . . . . . . . . . . EEG . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. 3 3 4 4 5 6 7 9. . . . .. . . . .. 3. Evaluación de Riesgos. 11. 4. Desarrollo 4.1. Adquisición de la señal . . . . . . . 4.2. Procesamiento de la señal . . . . . 4.2.1. Cancelación de artefactos . 4.2.2. Extracción de características 4.2.3. Traductor de características 4.3. Aplicación . . . . . . . . . . . . . .. 13 13 14 15 18 19 20. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. 5. Resultados 21 5.1. Pruebas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 5.2. Análisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 6. Conclusiones. 27 ix.

(10) x 7. Líneas Futuras. ÍNDICE GENERAL 29. A. Anexos 31 A.1. Pruebas sin PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 A.2. Pruebas con PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Bibliografía. 41.

(11) Índice de figuras 2.1. Fase de calibración para detección de puntos de interés en la mirada [13] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Procesamiento de bioseñales [8] . . . . . . . . . . . . . . . . . . . . . 2.3. Representación de las ondas EEG y su comportamiento [18] . . . . . 4.1. 4.2. 4.3. 4.4.. Arquitectura de un sistema BCI. [10] . . . . . . . . . . . . . . . . . . Canales de lectura en el dispositivo EMOTIV EPOC+. [5] . . . . . . Tipos de señales wavelets madre [6] . . . . . . . . . . . . . . . . . . . Suavizado y reducción de ruido en canal (AF 3) en la frecuencia Alfa, perteneciente a datos del experimento 2 . . . . . . . . . . . . . . . . . 4.5. Ventana para extracción de actividades asociadas a un lapso de tiempo. 4.6. Reducción de atributos con PCA . . . . . . . . . . . . . . . . . . . .. 4 6 7 13 14 16 17 17 18. 5.1. Resultados de algoritmos en base a tipo de ventana, segundos por ventana y tipo de prueba . . . . . . . . . . . . . . . . . . . . . . . . . 22 5.2. Resultados de algoritmos en base a tipo de ventana, segundos por ventana y tipo de prueba . . . . . . . . . . . . . . . . . . . . . . . . . 23 5.3. Resultados de algoritmos aplicando técnica de Análisis de Componentes Principales (PCA) . . . . . . . . . . . . . . . . . . . . . . . . . 24. xi.

(12) xii. ÍNDICE DE FIGURAS.

(13) Índice de tablas 4.1. Primer segundo de captación de datos del experimento 1, en la frecuencia Alfa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 5.1. Muestra de pruebas realizadas. . . . . . . . . . . . . . . . . . . . . . . 22 5.2. Matriz de confusión del test Leave one out en mejor resultado obtenido con KNN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23. xiii.

(14) xiv. ÍNDICE DE TABLAS.

(15) Capítulo 1 Introducción El registro de señales eléctricas provenientes del cuerpo humano es usado en una amplia variedad de aplicaciones, especialmente en la medicina, donde precisamente esta técnica vio su origen gracias al psiquiatra Hans Berger [2], quien fue el primero en grabar las señales generadas por un campo eléctrico en el cuerpo humano. Es por esto, que este trabajo se centra en el análisis de estas señales con especial atención a los Electroencefalogramas (EEG), ya que se trabaja con un conjunto de datos asociados a tres actividades relacionadas al movimiento ocular, como son: Leer Ver vídeo Escribir Para acceder a las características asociadas a estas actividades, es necesario realizar un procesamiento de la señal que permita suavizar cambios bruscos producidos por ruido que puede ser generado al guardar la actividad cerebral de la persona, utilizar cálculos matemáticos como la Transformada Rápida de Fourier (FFT), o la Transformada Continua de Wavelet (CWV), técnicas que permiten realizar filtros a señales y así destacar las frecuencias altas y bajas, necesarias para procesar la señal de manera correcta.. 1.1. 1.1.1.. Objetivos Objetivo general. Determinar las actividades cognitivas que se desarrollan a partir del análisis de señales provenientes del cerebro, con el uso de herramientas para la limpieza y extracción de características en señales EEG. 1.

(16) CAPÍTULO 1. INTRODUCCIÓN. 2. 1.1.2.. Objetivos específicos. Encontrar un conjunto de herramientas y técnicas para el análisis de señalas EGG que proporcionen un clasificador fiable para las actividades visuales contendidas en los datos de las ondas cerebrales. Determinar el procesamiento necesario que se debe tomar sobre señales cerebrales, para su posterior uso en el entrenamiento de un modelo.. 1.2.. Plan de trabajo. Este trabajo cuenta con un apartado de estado del arte cuyo propósito es fundamentar todos los procesos que se van a desarrollar, aquí también se tratan temas relacionados a la captura del movimiento ocular (Eye Tracking), que proporcionan un antecedente para el uso de nuevas técnicas como los dispositivos de captura señales cerebrales y las frecuencias que se captan en el cerebro, además de técnicas para el procesado de señales. El capítulo de desarrollo está basado en la estructura que tienen los sistemas humano-computador (BCI), en donde, se establecen un conjunto de procesos que inicia desde la captura de las señales desde dispositivos EGG, para posteriormente utilizar herramientas de filtrado, eliminación de ruido y de extracción de características, que permitan construir un clasificador capaz de identificar la actividad que se desarrolla, finalmente estos datos se pasan a una aplicación para que realice una acción determinada en base a todo el análisis previamente realizado. Posterior al desarrollo del proyecto se describen los resultados obtenidos y se realiza un análisis de los mismos para determinar cuál es el mejor modelo y que características están asociadas al mismo..

(17) Capítulo 2 Estado del arte Para dar sustento al trabajo se abordarán temas que conllevan una relación directa con el desarrollo del mismo, razón por la cual, en este apartado primeramente se describirán herramientas que marcan un precedente para este trabajo, como lo es la captura de movimientos oculares (Eye Tracking), y así, poder brindar una idea de los resultados que se busca replicar, basados en captura de señales cerebrales y sus posibles aplicaciones en otras áreas, no solo orientadas a la visión.. 2.1.. Precedente. El cuerpo humano es una colección de estructuras que trabajan de manera armónica, esto ocurre de igual manera en los aspectos relacionados con la visión y la captura de información por medio de los ojos, de esto se pueden identificar tres tipos de movimientos, que pueden ser de carácter automático, voluntario o micro movimientos [7]. Movimientos voluntarios: Aquellos movimientos que se realizan ante una situación de la que se es consciente, como trasladar la mirada de un lado a otro y seguir algún objeto mientras este se desplaza. Movimientos automáticos: Incluye reflejos ‘vestíbulo-oculares’ que permiten equilibrar la mirada al mover la cabeza y reflejos ‘optocinéticos’ relacionados con la capacidad del ojo para mantener la fijación del mismo sobre un punto. Micro movimientos: Estos se realizan de forma involuntaria, son movimientos minúsculos que ocurren con gran rapidez, en estudios recientes a estos se los ha vinculado con la sensibilidad que tiene el ser humano para distinguir contrastes [4]. En la actualidad se han abierto un gran mundo de posibilidades y aplicaciones que hacen uso de la captura y estudio del movimiento de la retina para descubrir patrones y con esto etiquetar los mismos en una determinada actividad que realiza el usuario. El producto de estas aplicaciones puede ser usado en sistemas que realicen 3.

(18) 4. CAPÍTULO 2. ESTADO DEL ARTE. acciones por medio de un movimiento determinado de la mirada, así como también, descifrar el nivel de interés que tiene el usuario sobre determinados temas, e incluso saber qué actividades está desarrollando. En estas prácticas solo es necesario el uso de una cámara que se encarga de capturar por medio de secuencias de imágenes los desplazamientos de la mirada, para posteriormente introducir los datos recopilados en un algoritmo basado en inteligencia artificial y así predecir las actividades que realiza una persona frente al ordenador.. Figura 2.1: Fase de calibración para detección de puntos de interés en la mirada [13] [13] Aquí se utiliza como referencia un plano de 9 puntos en donde cada uno de estos es un punto de interés en la pantalla que el usuario puede visualizar, tal como se muestra en la figura 2.1, el objetivo de esto es detectar a que puntos la persona mira con más frecuencia mientras realiza una determinada actividad como: leer, ver un vídeo o escribir, para posteriormente mediante el algoritmo KNN crear un modelo capaz de predecir qué actividad realiza respecto al comportamiento de su mirada frente al ordenador, cabe destacar que los mejores resultados de este trabajo se obtuvieron en condiciones de buena calidad de luz y con ojos de tonalidad clara.. 2.2.. Interfaz cerebro-ordenador (BCI). Actualmente existe una alta demanda sobre aplicaciones que aprovechen la robótica, inteligencia artificial, realidad virtual, etc. Partiendo de esto un área en la que todas estas tecnologías novedosas han estado involucradas de primera mano, son las interfaces cerebro ordenador, que consisten en sistemas capaces de detectar las señales que emite el organismo humano, y realizar acciones por medio del tratamiento de estos estímulos y su posterior compresión.. 2.2.1.. Definición de un sistema BCI. Los sistemas BCI intentan obtener ciertas características de la actividad cerebral y traducirlas en señales de control de dispositivos [16], considerándose herramientas de gran potencial de ayuda para la comunicación y rehabilitación de personas con discapacidad neuro-motora..

(19) 2.2. INTERFAZ CEREBRO-ORDENADOR (BCI). 5. En [12] definen tres partes principales de un BCI: Sensor: Dispositivo que se encarga de obtener la actividad cerebral. La ubicación de estos sensores con respecto al cuerpo humano, dan lugar a su clasificación como sistemas BCI invasivos y no invasivos. Es así que, si el sensor es colocado sobre el cuero cabelludo sin necesidad de realizar procesos o cirugías al paciente, se denominan técnicas no invasivas, por el contrario si el sensor es colocado a nivel del cráneo o del cerebro, requiriendo una cirugía para la inserción de los sensores, se conocen como técnicas invasivas. Motor de Procesamiento de Señal: Corresponde a la fase de recoger la señal EEG, producto de aplicar filtros que permitan decodificar el proceso neuro-fisiológico. Este proceso es crucial para los sistemas BCI, considerando la existencia de artefactos que son actividades eléctricas que no pertenecen a la naturaleza de la señal EEG, como el movimiento muscular, ocular, señales generadas por dispositivos eléctricos, los que ocasionan ‘ruido’ a la señal EEG. Por lo tanto, en esta fase se requiere implementar procesos o técnicas que minimicen los artefactos de las señales cerebrales. Aplicación: Fase de cara al entorno o usuario final, dando forma a la intención de la aplicación de la BCI. Dicho de otro modo, la ejecución de actividades o tareas en función de las señales EEG recibidas. Algunos prototipos comerciales de sistemas BCI, son NeuroSky, Emotiv, entre otros.. 2.2.2.. Bioseñales. Las señales representan el envío de datos que provienen de las diferentes partes del organismo, estas permiten generar información y por ende tomar decisiones o realizar acciones a partir del análisis de estímulos biológicos del cuerpo. La captura e interpretación de bioseñales es todo un proceso, el cual, se puede observar en la Figura 2.2, este puede describirse en 5 pasos que van desde la recuperación de los datos emitidos por las señales hasta la interpretación de las mismas por parte de un computador. Sensores: Por medio de estos dispositivos se realiza la captura de las señales, el tipo de sensor a usar dependerá del aspecto fisiológico que se desea capturar. Traductor: En esta etapa es necesario limpiar la señal capturada, pues es común que exista el denominado ruido que puede provenir de estímulos involuntarios del cuerpo o fuentes externas que causen fluctuación en los datos tomados. Acondicionamiento: Etapa en la que se filtra los datos obtenidos para centrarse en aquellos que nos aporten valor, lo que permite amplificar la señal en un objetivo concreto. Convertidor: Ya que esta señal por sí sola no es entendible por el computador para poder inferir con la misma, es necesario que tenga un procesamiento previo de los datos..

(20) CAPÍTULO 2. ESTADO DEL ARTE. 6. Figura 2.2: Procesamiento de bioseñales [8] Computador: Una vez los datos estén listos podrán ser utilizados para crear modelos basados en inteligencia artificial y así tomar decisiones o realizar acciones [8].. 2.2.3.. Electroencefalografía (EEG). Esta es un área que se encarga de estudiar la actividad eléctrica del cerebro por medio de un grupo de electrodos, éste puede realizarse de dos maneras, la primera de estas consiste en colocar electrodos directamente sobre la superficie del cerebro, sin embargo, es una práctica demasiado invasiva y por ende de alto riesgo, a ésta se le denomina electrocoorticograma (ECoG). Por otra parte, existe el electroencefalograma denominado (EEG), cuya forma de uso es menos invasiva ya que se colocan los electrodos sobre el cuero cabelludo [9]. Como puede observarse en la Figura 2.3a, existen diferentes rangos de frecuencias y las señales resultantes de estas, son recuperadas por el EEG, a continuación se describen estos canales: Alfa: captura señales provenientes de la parte frontal y parietal del cerebro, estando ligada con el nivel de concentración y resolución de problemas, su frecuencia se encuentra entre los 13 hasta los 30Hz. Beta: la frecuencia de su señal se encuentra entre los 8 y 13 Hz, sin embargo, se ha notado que esta puede descender en niños, esta zona está ligada con el nivel de relajación en donde sus ondas se amplían y cuando se abren los ojos y se realiza algún esfuerzo mental, entonces se atenúa. Theta: este tipo de señal se encuentra comúnmente en niños o jóvenes ya que su frecuencia está entre los 4 a 8Hz, sin embargo, se pueden registrar señales de este tipo en adultos que se encuentran en estado de meditación..

(21) 2.3. SISTEMAS APLICADOS AL PROCESAMIENTO DE SEÑALES EEG. 7. (a) Tipo de ondas EEG.. (b) Cambios en el ritmo de las ondas cuando la persona abre los ojos.. Figura 2.3: Representación de las ondas EEG y su comportamiento [18] Delta: representa la frecuencia más baja producida por el cuerpo humano, ya que su rango varía entre 0.5 a 4Hz, lo que hace casi imperceptible cuando se manifiesta, es posible obtener señales más claras de esta bajo un estado de sueño profundo, aunque puede existir ruido en las señales producto de movimiento de mandíbula o cuello [11]. Para el estudio de bioseñales es necesario estudiar los patrones que se reflejan en cada una de estas frecuencias, tal como se manifiesta en la Figura 2.3b, en donde frente a una determinada actividad (abrir o cerrar los ojos), la frecuencia empieza a fluctuar.. 2.3.. Sistemas aplicados al procesamiento de señales EEG. Cabe destacar la diferencia entre los dispositivos enfocados en el seguimiento ocular, que están basados en detectar los desplazamientos del ojo, para los cuales generalmente es necesario el uso de electrodos que rodean al ojo y otros métodos invasivos, por otro lado, se encuentran los sistemas de seguimiento de la mirada como el trabajo antes expuesto, los cuales usan como referencia la pupila para así detectar el ángulo que generan los ojos al mirar hacia un punto fijo, este tipo de.

(22) 8. CAPÍTULO 2. ESTADO DEL ARTE. aplicaciones están enfocadas a técnicas de registro visual también conocidas como (Eye tracking), sin embargo, en los últimos años han ido tomando importancia los dispositivos que se basan en el análisis de las señales que produce el cerebro frente a determinadas actividades, el método más popular y menos invasivo de realizar estas captura de datos es mediante un Electroencefalograma también conocido como (EEG por sus siglas en inglés) que se basa en el uso de electrodos en el cuero cabelludo como medio de captura de señales. Las aplicaciones que se ha encontrado a estas técnicas no tienen límites, ya que no solo se enfocan a estudiar un comportamiento específico del cerebro como la actividad motora o actividad cognitiva, sino que son ampliamente utilizados en varias áreas, razón por la cual a continuación se describe algunos trabajos que se han enfocado en el estudio, análisis y uso de información relacionada a la actividad cerebral. Como se ha dicho anteriormente, las aplicaciones de este tipo de señales abren la puerta a un mundo de posibilidades, de las cuales su uso más frecuente se relaciona a la medicina y la manera de identificar desórdenes en la actividad cerebral de la persona producidos por una enfermedad, este enfoque adquiere el trabajo de Al-Salman [1], cuyo propósito se establece en analizar la actividad de sueño en 19 personas cuya edad varía entre los 30 a 55 años, quienes presentaban diversas patologías (dysania, síndrome de piernas inquietas, insomnio, apnea). En su trabajo recopilan los datos de 3 canales captados con un electroencefalograma (EEG), dos canales extra pertenecientes a un examen de electrooculografía (EOG) y un último canal extraído de una electromiografía (EMG). Como parte del desarrollo de este trabajo se utiliza una técnica de ventana deslizante para dividir los datos de las señales en lapsos de tiempo (5 segundos), para posteriormente por medio de la Transformada de Wavelet Discreta (DWT) descomponer en diferentes niveles de suavidad cada ventana y así generar segmentos, finalmente con el uso de la Transformada Rápida de Fourier (FFT), se identifican las frecuencias deseadas, una vez terminado el proceso de extracción de características de las señales utilizan estos datos para entrenar modelos con la aplicación de algoritmos para clasificación (Maquina de vectores de soporte, vecinos más cercanos y árboles de decisión), cuyos resultados brindan un accuracy de: 97.9 %, 98.5 % y 97.8 % respectivamente por cada modelo generado. Siguiendo la idea anterior del uso de las señales cerebrales en la medicina, el trabajo de San-Segundo R [14], habla sobre el estudio de síntomas asociados a pacientes epilépticos y la detección de la presencia de la enfermedad por medio de los datos obtenidos de Berna-Barcelona EEG y el conjunto de datos de reconocimiento de ataques epilépticos. Como parte del desarrollo de este proyecto se establecen dos objetivos: Poder diferenciar las señales EGG al registrar y reconocer los datos pertenecientes a áreas que se asocian a la enfermedad (zonas focales) y otras que no suelen registrar actividad cuando se desata un problema epiléptico (zonas no focales), esto permite determinar las causas de que se desate este padecimiento como: disfunciones cerebrales, hemorragias y tumores. El otro punto de importancia a determinar es la presencia o ausencia de la.

(23) 2.4. OTRAS APLICACIONES DE LOS EEG. 9. enfermedad, por medio de factores asociados a la misma, de aquí se busca establecer patrones que ayuden a los médicos a tomar el mejor tratamiento según lo necesite el paciente. Para realizar el procesamiento de la señal usaron un enfoque empírico por medio del algoritmo ‘Modo Empírico de Descomposición (EMD)’ y por medio de la Transformada Rápida de Wavelet (FWT), cuyos coeficientes resultantes se usaron en una red neuronal convolucional (CNN) configurada con dos capas convolucionales para extracción de características y tres capas totalmente conectadas para la clasificación de las señales. Como resultado de todo el proceso obtuvieron un incremento en el accuracy de 92.2 % a 98.9 % cuando se estableció la diferencia de las señales focales de las que no lo son, de donde concluyen como mejores resultados a los obtenidos por el EMD con respecto al FWT. Entre otras aplicaciones de estos sistemas podemos encontrar aquellas que se orientan en mejorar el estilo de vida de las personas, ofrecer nuevas funciones u opciones de manipulación de objetos por medio de los denominados sistemas interfazcomputador, también llamados sistemas BCI, estos consisten en todo un conjunto de procesos que van desde la adquisición de la señal, el procesamiento de la misma, hasta finalmente usarlas para enviar comandos a dispositivos hardware. Seco, G [17] plantea mejorar estos sistemas por medio de un análisis de las señales EEG de una sola frecuencia como lo es el canal Alfa, aquí describen la importancia del mismo en actividades cognitivas y relacionadas a movimientos oculares o acciones como abrir y cerrar los ojos para ser usadas como botones binarios para el control de dispositivos, entre el alcance de este trabajo se encuentra la utilización de un algoritmo denominado (MP) frente a otras técnicas para la extracción de características y su posterior comparación para ver cuál presenta los mejores resultados, además, buscan establecer qué zona del cerebro brinda los mejores datos y proporcione mayor importancia cuando se trabaja con esta frecuencia. La implementación del algoritmo MP consiste en descomponer una señal en una serie de funciones basadas en frecuencia y tiempo, la ventaja que ofrece es la de trabajar con señales no estacionarias y se adapta mejor a la variación de las señales producidas por varios sujetos, en sus resultados describen que la nueva propuesta alcanza el potencial que proporciona otra técnica ampliamente utilizada como lo es la Transformada Rápida de Fourier (FFT), esto se dio al trabajar con la zona occipital que es en donde se detecta mejor las señales producidas por la onda Alfa, sin embargo, el algoritmo MP fue eficiente aún cuando los datos captados provenían de zonas extra-occipitales, la resolución a la que llegó este trabajo permite trabajar mejor con señales EEG cuando los canales que se escuchan son limitados y es necesario utilizar datos provenientes de otras áreas del cerebro.. 2.4.. Otras aplicaciones de los EEG. Ya que este tipo de sistemas nos brindan la capacidad de captar las señales eléctricas emitidas por el cerebro, y; una vez que las mismas han sido procesadas, es el.

(24) 10. CAPÍTULO 2. ESTADO DEL ARTE. momento en que se hace uso de los resultados que pueden ser usados en una gran variedad de aplicaciones, lo que reafirma la importancia de las investigaciones que se realizan sobre este campo [5]. Rendimiento y bienestar La monitorización del cerebro puede convertirse en una técnica común de cada día, así como en la actualidad lo hacen los relojes inteligentes al capturar y analizar la frecuencia cardíaca. El conocer el constante estado de nuestra actividad cerebral permitirá encontrar anomalías en nuestro cuerpo frente a una tarea que realizamos, para detectar síntomas como: déficit de atención, estrés, depresión, entre otros, y por ende tomar acciones que permitan mejorar nuestro nivel de concentración y meditación. Investigación del consumidor Existe un área especializada en el estudio de las emociones, nivel de atención y memoria relacionados al ámbito de la mercadotécnica, a éste se le conoce como neuromarketing, este conjunto de técnicas aprovecha las prestaciones que dan los EEG en conjunto con otras herramientas como sistemas de seguimiento ocular, análisis de expresiones faciales, entre otros. Salud Posiblemente la salud es el campo en donde mas relevancia tienen los sistemas EEG, ya que la primera grabación de un campo eléctrico se produjo gracias al psiquiatra de origen alemán Hans Berger en el año de 1924 [2]. Los beneficios que aportan los EEG a la salud están relacionados con la detección de anomalías en las ondas cerebrales, que permiten la detección de enfermedades como traumatismos craneales, trastornos del sueño, amnesia, demencia, trastornos convulsivos, etc. Investigación académica Existen variedad de investigaciones referentes a nuevas maneras de aprovechar las ondas captadas con los EEG, sin embargo, la atención de los investigadores también se centra en la onda Gamma cuya frecuencia se encuentra entre los 25 a 50Hz, está muy por encima las ondas más comunes que se abordaron en la sección 2.2.3, esta tiene su origen en el tálamo y se mueve con gran rapidez hasta la parte delantera del cerebro, esto ocurre ya que se encuentra fuertemente ligada con la capacidad de aprendizaje, retención de información, además, de tener una fuerte relación con los sentidos y percepciones..

(25) Capítulo 3 Evaluación de Riesgos En el desarrollo de todo proyecto existen riesgos que pueden afectar la viabilidad del proyecto y este caso no es la excepción, cosas como el tiempo, alcance e imprevistos influyen directamente en las metas establecidas, razón por la cual es necesario realizar un análisis previo de riesgos y las respectivas acciones a tonar para cada uno de estos, con el objetivo de cumplir todas las metas propuestas y desarrollar el trabajo de la manera correcta. El número limitado de datos establece un riesgo para el desarrollo del proyecto ya que este podría no proporcionar los datos necesarios para cumplir los objetivos planteados. Al trabajar directamente con los datos y no estar involucrado en el proceso de adquisición de los mismos, se desconocen características importantes de cómo fueron capturadas las señales EGG, además, de no tener datos sobre el sujeto o sujetos de los que se obtuvieron sus señales cerebrales, aspecto importante ya que estas señales varían en torno a la edad de la persona. No contar con el hardware necesario para el respectivo análisis y posterior clasificación de las señales, ya que al utilizar algoritmos de clasificación estos requieren de altas prestaciones computacionales. Errores en la descripción del conjunto de datos, estos se han proporcionado con un pequeño detalle sobre las actividades incluidas en lapsos de tiempo, el no tener certeza de que esto sea correcto puede afectar a la clasificación de las acciones que realiza el usuario al mover sus ojos. Toda señal puede contener alguna especie de ruido que es generado por el cuerpo, al no tener un umbral para diferenciar el ruido de los datos relevantes, es alto el riesgo de generar un mal modelo.. 11.

(26) 12. CAPÍTULO 3. EVALUACIÓN DE RIESGOS.

(27) Capítulo 4 Desarrollo El desarrollo de este trabajo estará guiado por el proceso para la implementación de un sistema BCI el cual esta guiado por tres fases, iniciando por la adquisición de la señal, siguiendo por el procesamiento de las mismas y finalmente con la aplicación de lo aprendido en una aplicación,. Figura 4.1: Arquitectura de un sistema BCI. [10] A continuación, se describirán estas etapas en contraste con las acciones desarrolladas por cada fase de este proyecto.. 4.1.. Adquisición de la señal. Para la adquisición de la señal como se explicó con anterioridad, se realiza por medio de un conjunto de electrodos conectados en la superficie del cuerpo cabelludo, en este caso se hace uso del casco ‘EMOTIV EPOC+ 14 Channel Mobile EEG’ que es desarrollado por la empresa EMOTIV. La compañía EMOTIV se dedica a la bio-informática específicamente a la construcción de dispositivos para la realización de electroencefalogramas, en su catálogo actual cuentan con tres productos, cada uno de ellos difiere del otro en el número de canales que son capaces de leer, 13.

(28) CAPÍTULO 4. DESARROLLO. 14. además han desarrollado su propio software que permite trabajar en conjunto con sus productos, brindado información de las zonas que se están monitorizando del cerebro, incluyendo también aplicaciones para la productividad como el control de dispositivos electrónicos.. Figura 4.2: Canales de lectura en el dispositivo EMOTIV EPOC+. [5] La Figura 4.2 nos muestra la distribución de todos los canales a los que se puede acceder por medio de la actividad eléctrica en el cerebro, el dispositivo EMOTIV EPOC+ es capaz de registrar la actividad de 14 de estos canales los cuales se representan con el color verde. El conjunto de datos para este proyecto está comprendido en la lectura de estos 14 canales por 4 frecuencias, Alfa, Beta, Gamma y Theta, cabe destacar que la señal de Beta está dividida en frecuencia alta y baja, para cada canal.. 4.2.. Procesamiento de la señal. Para la etapa de procesamiento se cuenta con 50 archivos en formato ‘csv’ que conforman todos los datos que se han obtenido con el EEG, se realizó un total de 10 experimentos, cada uno de estos dio como resultado un archivo por cada frecuencia y los 14 canales que han sido monitorizados. La tabla 4.1 provee una muestra de la distribución de datos provenientes de la frecuencia Alfa en el primer experimento, de manera individual estos 50 archivos.

(29) 4.2. PROCESAMIENTO DE LA SEÑAL. 15. Tabla 4.1: Primer segundo de captación de datos del experimento 1, en la frecuencia Alfa. Time. AF3. F7. F3. FC5. .... FC6. F4. F8. AF4. 0.00 0.12 0.25 0.34 0.37 0.50 0.62 0.75 0.87 1.01. 1.004778 1.392809 1.605481 1.715563 1.715563 1.858426 1.903790 1.958252 1.940899 1.870397. 1.042635 2.032031 3.554490 4.844367 4.844367 7.628452 10.934333 14.281979 16.449656 16.237229. 0.765040 0.768585 0.802596 0.811601 0.811601 0.810385 0.737954 0.674409 0.631984 0.632788. 0.872192 0.890855 0.895069 0.860683 0.860683 0.788119 0.649520 0.508877 0.408975 0.360389. ... ... ... ... ... ... ... ... ... .... 1.868920 1.868158 1.877605 1.861262 1.861262 1.875320 1.820977 1.814526 1.827512 1.821617. 1.234526 1.315149 1.399341 1.409354 1.409354 1.369931 1.220375 1.093038 1.018734 1.014404. 2.548309 2.709446 2.807237 2.831509 2.831509 2.832775 2.713989 2.605872 2.476999 2.310823. 1.459233 1.670321 1.850593 2.016898 2.016898 2.223842 2.388529 2.534861 2.579282 2.521494. constan de 15 columnas y aproximadamente 1500 registros, en donde la primera columna contiene los segundos en que se capturan los datos de dicha fila, dato que servirá de referencia para posteriormente determinar las actividades que está desarrollando el usuario en un determinado lapso de tiempo, mientras que las 14 restantes conforman los canales que brindarán aquellas características necesarias para poder crear un modelo capaz de clasificar las actividades visuales que realiza el usuario, el foco de este trabajo se establece sobre 3 determinadas acciones: leer, ver un vídeo y escribir. Los datos de estos archivos se unificaron en un solo dataset de dimensiones 72 x 16412, en donde las primeras 3 columnas están compuestas por: el número de experimento realizado, el tiempo en que se registró la señal y las restantes 70 conforman los canales que han sido capturados.. 4.2.1.. Cancelación de artefactos. Cuando se capturan bioseñales es común que existan interferencias que puedan posteriormente afectar la clasificación de actividades, para contrarrestar este ruido y fluctuaciones en los datos, es necesario tomar acciones como la transformada continua de Wavelet, cuyos fundamentos teóricos se detallan a continuación. La transformada de Wavelet es un conjunto de herramientas que se utilizan para procesar todo tipo de señales, ya sean sonoras, biológicas o imágenes médicas. A diferencia de las técnicas que ofrece la Transformada de Fourier en donde convierte la señal en pequeñas ondas senoidales, que son regulares e infinitas, las wavelets u ondas pequeñas descompone la señal en trozos escalados por medio de una señal wavelet madre [15]. La Figura 4.3 permite hacerse una idea del potencial de la Transformada de Wavelet, pues en esta imagen se observan 8 diferentes tipos de wavelets madre, las cuales se usan en partes de la señal que se desea filtrar y en base al nivel de filtro adquiere la forma de la wavelet que se le aplica, esto permite determinar las frecuencias altas y bajas, cabe señalar que la elección de los mismo depende del tipo de señal que se desea tratar y el resultado que se busca obtener. Entre otras diferencias la transformada de wavelet permite conservar la señal en el dominio del tiempo, esto es una gran ventaja frente a la Transformada de Fourier,.

(30) 16. CAPÍTULO 4. DESARROLLO. Figura 4.3: Tipos de señales wavelets madre [6] ya que esta al transformar a frecuencia pierde la noción de en que determinado tiempo se presenta una señal alta o baja. Al igual que Fourier se han implementado variantes de este algoritmo, como lo es la transformada de Wavelet Continua (CWT) cuyo funcionamiento consiste en aplicar una wavelet madre a una señal y conseguir diferentes niveles o escalas, en donde conforme aumenta la escala la señal adopta más la forma de la wavelet, suavizando la señal original. La transformada de Wavelet Discreta (DWT) que se encarga de descomponer una señal en varios componentes que representan distintas bandas de frecuencia, generalmente se obtienen dos vectores que contienen las señales de alto y bajo nivel. Por medio del uso de la Transformada Continua de Wavelet, se tiene como resultado un conjunto de señales contenidas en una lista cuya longitud se establece como entrada, en cada posición de esta lista se encuentra una copia de la señal a la cual fue aplicada un nivel de suavidad el que se incrementa conforme se desplaza al último elemento, cabe destacar que el seleccionar un nivel de suavizado es de vital importancia ya que uno bajo, no nos proporcionará mayor valor, mientras que uno alto podría reducir elementos de la señal necesarios para su posterior utilización en la extracción de características. Para realizar este proceso se implementó un método, que también se encarga de realizar un filtrado paso bajo al reducir picos en la señal que producen ruido y por consecuencia alteraciones en los datos. Teniendo en cuenta que los datos recopilados por el dispositivo EEG son registros del comportamiento de la actividad cerebral por cada canal y frecuencia en un momento exacto de tiempo, siguiendo este razonamiento podemos deducir que un.

(31) 4.2. PROCESAMIENTO DE LA SEÑAL. 17. Figura 4.4: Suavizado y reducción de ruido en canal (AF 3) en la frecuencia Alfa, perteneciente a datos del experimento 2 registro por sí solo no nos aporta información sobre una actividad cerebral concreta que está sucediendo, para esto es necesario considerar los registros cerebrales captados en un lapso determinado de tiempo cuyo actividad en conjunto puede contener la respuesta del cerebro cuando realiza una acción. Como parte del procesamiento de datos se considerará trabajar con ventanas de tiempo, para posteriormente realizar cálculos sobre las mismas como la media, desviación típica o varianza, de tal forma que logremos convertir por ejemplo 5 segundos de registro de señales que puede contener (n) instancias, en una sola instancia que representa alguna actividad sucediendo en ese momento.. (a) Ventana continua.. (b) Ventana superpuesta.. Figura 4.5: Ventana para extracción de actividades asociadas a un lapso de tiempo. La Figura 4.5a nos muestra un primer método para la conversión de varios registros en un solo vector, con las características necesarias para representar una.

(32) CAPÍTULO 4. DESARROLLO. 18. determinada actividad, sin embargo, por el limitado número de datos que se cuentan para posteriormente entrenar un modelo, con el uso de este proceso los datos se reducen notablemente, además de que podría ser más frecuente la perdida de características al realizar un corte de tiempo de una actividad al crear la ventana en un momento exacto de tiempo, para esto es que se analiza otra forma de crear estas ventanas como puede verse en la Figura 4.5b, aquí se adopta un estilo tipo pila en donde al crear una ventana de por ejemplo 5 segundos en lugar de pasado este tiempo descartar los 5 segundos anteriores y tomar los próximos, se movería la ventana un segundo en el tiempo, la enorme ventaja que ofrece esta orientación es la de proporcionar más datos para el entrenamiento y evitar la pérdida de información que puede darse con las ventanas continuas.. 4.2.2.. Extracción de características. Este proceso forma parte fundamental en la construcción de un modelo cuyo objetivo es tener la capacidad de discernir una actividad de otra por medio del aprendizaje de sus características, una práctica común es el uso del Análisis de Componentes Principales o PCA que permite comprimir las características en componentes esenciales cuando existe una gran variedad de estos, para realizar este proceso hace uso de una matriz de covarianza que permite obtener las varianzas ordenadas por importancia y de esta manera reducir la dimensión de los atributos en un conjunto de datos, un ejemplo de la reducción de dimensiones usando esta técnica puede verse en la Figura 4.6.. Figura 4.6: Reducción de atributos con PCA La reducción de características brinda facilidad para trabajar con datos que contenga gran cantidad de atributos, sin embargo, mientras más se reducen los componentes mayor es la posible pérdida de información relevante contenida en los datos originales, para analizar y encontrar el mejor resultado se prevé utilizar dos configuraciones en donde se reducirán los componentes en 10 y 25 componentes, además de realizar pruebas sin el uso de esta técnica de modo que posteriormente se pueda encontrar el mejor modelo..

(33) 4.2. PROCESAMIENTO DE LA SEÑAL. 19. Con el objetivo de generar una nueva característica que brinde información relevante y de importancia, se ha añadido al conjunto de datos el atributo ‘Compromiso’ que describe Luis Cabeño en su trabajo [3], este componente proporciona un valor relacionado al nivel de atención del usuario en un determinado momento y que puede estar asociado a una actividad concreta, para obtener este valor es necesario calcular la media de los canales relacionados a las frecuencias Alfa, Beta y Theta, en donde el nivel de compromiso es el resultado de Beta partido por la sumatoria de Alfa y Theta, tal como puede verse en la ecuación 4.2.2. Compromiso =. 4.2.3.. beta alf a + theta. Traductor de características. Como paso final solo queda entrenar modelos capaces de reconocer los patrones relacionados a las señales previamente procesadas, para este proceso se hace uso de la librería sklearn que recopila una variedad de algoritmos para clasificación, a continuación, se describen los 5 modelos que serán creados para analizar cual se adapta y aprende de mejor manera las características relacionadas a los datos. KNN: Este tipo de algoritmo está basado en el cálculo de la distancia entre dos puntos en un plano que representan cada instancia en el conjunto de datos, el número de vecinos cercanos que se establezca es la configuración más importante, ya que, de este valor dependerá como se clasifiquen los datos, debido a que no es posible determinar un número de vecinos de uso general es necesario realizar varias pruebas, de modo que se encuentre la configuración óptima para la aplicación de este clasificador. SVC: Máquinas de vectores de soporte son un conjunto de técnicas que generalmente se usan en problemas de clasificación y regresión, este consiste en ubicar los datos en un hiper-plano en donde, son separados por vectores que definen el límite entre una clase y otra, este algoritmo es capaz de trabajar con varios núcleos, más conocidos como kernel, el más simple de estos es el de tipo linear que se traza en el plano dividiendo unos datos de otros, pero debido a su poca flexibilidad también se usa el núcleo de tipo RBF que gracias a sus diversos parámetros como el valor de gamma este es capaz crear contenedores para las distintas clases en el hiper-plano, aun cuando estas no están cercanas una de otra. NB: También conocido como el clasificador ingenuo, el algoritmo Naive Bayes es una técnica basada en el teorema de Bayes cuyo funcionamiento es sencillo y de gran rapidez aun frente a grandes cantidades de datos, el modo en que trabaja este algoritmo es buscando relaciones de independencia condicional entre las características de los datos, de este modo es capaz de calcular las probabilidades asociadas a las variables que conforman el modelo, es decir predice si un suceso puede darse a partir de uno previo..

(34) CAPÍTULO 4. DESARROLLO. 20. Perceptron: Este tipo de algoritmo representa a una red neuronal básica compuesta por dos capas, una de entrada y otra de salida, su funcionamiento se basa en la determinación de los pesos sinápticos de forma automática por medio de un conjunto de datos etiquetados. Para todos y cada uno de estos clasificadores se usarán dos tipos de entrenamiento ‘Validación cruzada (Cross Validation)’ y ‘Dejar uno fuera (Leave one out)’, para el primero de estos se establecerá un porcentaje de 30 % para datos de prueba y el restante para entrenamiento, mientras que, para el segundo método se procede a entrenar los modelos con 9 de los 10 experimentos antes mencionados, de tal manera que el restante son datos que el modelo no conoce por lo que nos daría mayor fiabilidad sobre la eficiencia de cada algoritmo implementado.. 4.3.. Aplicación. Los sistemas BCI se componen de un módulo de aplicación, en este se crean comandos por computador para que, posteriormente puedan ser interpretados y ejecutados por una máquina. En alcance de este trabajo no incluye una aplicación como tal, sin embargo, se pretende encontrar el procesamiento de datos y posterior modelo para la clasificación idónea de actividades cerebrales relacionadas al movimiento ocular, cuyo resultado puede ser utilizado en variedad de aplicaciones. El siguiente capítulo muestra los resultados obtenidos y el potencial que puede ser alcanzado con el análisis de este tipo de bioseñales..

(35) Capítulo 5 Resultados Para elegir qué herramientas y métodos se adaptan mejor al análisis y procesamiento de señales EEG, se han realizado numerosas pruebas con variedad de configuraciones, a continuación, se detallan los resultados obtenidos y posteriormente se realizará un análisis de los mismos para determinar el modelo óptimo alcanzado en el desarrollo de este trabajo. Debido a la existencia de una gran cantidad de configuraciones realizadas para determinar cuál funciona mejor, se categorizarán los resultados en base a 3 aspectos: tipo de ventana utilizada (continua, superpuesta), características utilizadas (todos los canales, PCA, nivel de compromiso), para posteriormente realizar un análisis de los mejores resultados en base a los algoritmos de clasificación y los parámetros establecidos previamente en la limpieza y suavizado de la señal.. 5.1.. Pruebas. Se han realizado un total de 36 pruebas, las cuales han sido divididas en dos grupos, con y sin análisis de componentes principales, además, en cada una de ellas se han variado parámetros con el objetivo de encontrar aquella configuración que permita obtener el mejor modelo con un porcentaje de clasificación alto, para esto se ha creado un documento con la descripción de todas las pruebas y sus resultados, un ejemplo de esto es la tabla 5.1 cuyo contenido muestra los mejores tres modelos que han sido obtenidos. Cabe destacar que, para conseguir el mejor resultado fue necesario realizar varias pruebas aumentando el suavizado de la señal y la ventana superpuesta a 10 segundos, de esta manera el algoritmo KNN fue capaz de discernir de mejor manera entre las actividades contenidas en los datos, brindando un accuracy de 0.957, este resultado se obtuvo sin aplicar PCA, cuando se hizo uso del mismo se consiguió un resultado muy parecido pero menor, siendo de 0.948, en cuanto a eficiencia siendo la diferencia mínima el reducir las características de los datos a 25, permite trabajar con un modelo más ligero y ágil para obtener resultados más rápidos, sin embargo, también es notorio que el accuracy en el modelo con reducción de características decae en otros algoritmos de clasificación. La tabla 5.1 también permite observar los dos tipos 21.

(36) CAPÍTULO 5. RESULTADOS. 22. Tabla 5.1: Muestra de pruebas realizadas. PROCESAMIENTO DE DATOS Ventana #Filas s Tipo Oper. Total 10. 10. 10. Superpuesta. Superpuesta. Superpuesta. media. media. media. ENTRENAMIENTO Modelo Caract. Nombre. 1474. 71. KNN. 1324. 71. KNN. 1474. 71. SVM. 1324. 71. SVM. 1474. 25. KNN. 1324. 25. KNN. Tipo Cross validation Leave one out Cross validation Leave one out Cross validation Leave one out. TEST Parámetros % #Filas 30. 443. 0.957. -. 300. 0.91. 30. 443. 0.95. -. 300. 0.84. 30. 443. 0.948. -. 300. 0.816. de pruebas que se han hecho a los modelos generados (Cross Validaton, Leave One Out), esto con el objetivo de brindar mayor fidelidad a los resultados obtenidos, ya que en el segundo tipo de test, se evalúa con datos que ninguno de los algoritmos ha tenido la oportunidad de conocer para ser entrenado.. 5.2.. Resultado Accuracy. Análisis de resultados. Con el análisis de los resultados se pretende demostrar cuál es el mejor algoritmo y cómo ha respondido frente a los diversos parámetros que se han establecido, a continuación, se muestra gráficas que permiten apreciar el rendimiento de cada modelo creado para clasificar las actividades contenidas en las señales EEG.. (a) Resultados media con ventana conti- (b) Resultados media con ventana supernua. puesta.. Figura 5.1: Resultados de algoritmos en base a tipo de ventana, segundos por ventana y tipo de prueba.

(37) 5.2. ANÁLISIS DE RESULTADOS. 23. Como podemos ver en la Figura 5.1, se realiza una comparativa entre los dos tipos de ventana que se crearon para extraer las actividades contenidas en los datos y el cálculo que se realizó para reducir estas ventanas como lo es la media. En este gráfico es visible los diferentes tipos de pruebas Cross Validation y Leave one out, asociados a una ventana de tiempo de 3, 5 y 10 segundos. Aunque las ventanas continuas nos brindan buenos resultados, la aplicación de las superpuestas nos permitan llegar a un accuracy de 0.957 aplicando Cross Validation en una ventana deslizante de 10 segundos, frente a este resultado prometedor también se aplicó el test Lave one out que contiene datos de un experimento que se ha dejado separado y el modelo no conoce en lo absoluto, al realizar la prueba se logró un accuracy de 0.91, cuya matriz de confusión puede verse en la Tabla 5.2. Tabla 5.2: Matriz de confusión del test Leave one out en mejor resultado obtenido con KNN. LEER. VER VÍDEO. ESCRIBIR. LEER. 88. 12. 0. VER VÍDEO. 10. 90. 0. ESCRIBIR. 0. 5. 95. Para cada actividad se han dado 100 registros a clasificar, de los cuales la actividad escribir presenta el menor número de errores con tan solo 5 elementos clasificadas como Ver vídeo, mientras el mayor número de desaciertos es de 12 para la actividad de Leer. Con el fin de encontrar alternativas viables para obtener una mejor clasificación se utilizó la varianza como método para reducir las ventanas a un solo registro, en donde los resultados obtenidos son similares al uso de la media, esto puede ser observado en la Figura 5.2. (a) Resultados varianza con ventana con- (b) Resultados varianza con ventana sutinua. perpuesta.. Figura 5.2: Resultados de algoritmos en base a tipo de ventana, segundos por ventana y tipo de prueba.

(38) 24. CAPÍTULO 5. RESULTADOS. Nuevamente se realiza una comparación entre los dos tipos de ventana usando la métrica de varianza para reducir los datos, tal como pasó en el caso anterior los mejores resultados los brinda la ventana superpuesta. Finalmente se aplican técnicas para extracción de características la Figura 5.3 contiene 4 gráficas en donde se visualiza el desempeño de los algoritmos frente a una reducción de características de 71 a 10 para las Figuras 5.3a y 5.3b, así cómo también una reducción a 25 características que se muestra en las Figuras 5.3c y 5.3d.. (a) Resultados con PCA de 10 caracterís- (b) Resultados con PCA de 10 características en ventana superpuesta. ticas en ventana continua.. (c) Resultados con PCA de 25 caracterís- (d) Resultados con PCA de 25 características en ventana superpuesta. ticas en ventana continua.. Figura 5.3: Resultados de algoritmos aplicando técnica de Análisis de Componentes Principales (PCA) Aunque la aplicación de PCA está destinada a reducir el tamaño de la fuente de datos para que sea más manejable tratando de evitar la pérdida de información en mayor medida, mediante el análisis de los resultados se puede concluir lo siguiente: Mientras más pequeño es el número de características los resultados en los clasificadores tienden a decaer. Se observa una ligera variación entre los resultados obtenidos por los modelos que usan PCA frente a los que no, esto es notorio en los algoritmos por cómo va decayendo su precisión, excepto en el algoritmo Naive Bayes en donde aparentemente con la reducción de características cada vez mejora la detección de.

(39) 5.2. ANÁLISIS DE RESULTADOS. 25. independencias condicionales entre las mismas, sin embargo, nunca llega a ser un buen modelo a elegir. Cuando el modelo es probado con el mismo conjunto de datos que fue entrenado, los resultados experimentan una gran diferencia con respecto a cuando se evalúa con datos que el modelo no ha conocido, lo que plantea que el modelo resultante no aprendió de manera correcta las características de las actividades para poder diferenciarlas claramente..

(40) 26. CAPÍTULO 5. RESULTADOS.

(41) Capítulo 6 Conclusiones La actividad cerebral genera señales distintas y constantes cuando realiza una determinada actividad, en el desarrollo de este trabajo se logró destacar la diferencia entre esas señales para poder determinar con una tasa máxima de 0.957 en el modelo generado por el algoritmo KNN como el más capaz clasificar las actividades en torno a sus características. De manera general los mejores resultados se obtienen cuando se aplica una ventana superpuesta sobre la señal, ya que se reduce la perdida de datos y de información a diferencia de la técnica de ventana continua, en donde se consiguen pocos datos para entrenamiento y existe una alta posibilidad de perder la continuidad de la señal al realizar cortes abruptos en la misma. El análisis de la señal y por ende su procesamiento son bases fundamentales antes de generar un modelo para clasificación, ya que esto permite suavizar aquellas zonas de la señal en donde ésta fluctúa, además, de reducir el ruido que comúnmente se captura en este tipo de datos.. 27.

(42) 28. CAPÍTULO 6. CONCLUSIONES.

(43) Capítulo 7 Líneas Futuras Este trabajo se limitó a entrenar un modelo capaz de clasificar tres actividades relacionadas al movimiento ocular, sin embargo, existe una gran variedad de acciones que pueden ser detectadas siguiendo el mismo procedimiento, para esto se propone trabajar con una cantidad mayor de datos, además de variedad de sujetos de los que provengan las señales, ya que, como se ha explicado anteriormente algunas de las ondas emitidas por el cerebro varían en torno a la edad de la persona. Al trabajar en el procesamiento de los datos capturados se aplicaron herramientas para disminuir el ruido generado por otras áreas del cuerpo, a partir de esto se encontró una dificultad como es discernir de lo que representa ruido, la aplicación de filtros de paso bajo y alto, ayudan a este objetivo de manera limitada, por esta razón el entrenamiento de una red dedicada exclusivamente a la detección de ruido dependiendo de las señales sobre las cuales se pretende trabajar, proporcionaría gran ayuda en el proceso de limpieza en una señal.. 29.

(44) 30. CAPÍTULO 7. LÍNEAS FUTURAS.

(45) Apéndice A Anexos. 31.

(46) APÉNDICE A. ANEXOS. 32. A.1.. Pruebas sin PCA.

(47) PRE PROCESAMIENTO DE DATOS Ventana # Filas. # seg. 1. 3. Tipo. Continua. Oper.. media. R. 177. V. 189. W. 189. TEST Modelo Total. 555. Caracteristicas Nombr e. 71. Detalle. KNN. n_neighbors=8. SVM. kernel='linear'. SVM. kernel='rbf'. NB. -. Tipo. Cross validation. Parámetros Porcen # Filas taje. 30%. 167. Resultados Compo nentes. r: 52 v: 58 w: 57. max_iter=1000. Percep n_iter_no_change=50 r tron andom_state=1. 2. 5. Continua. media. 104. 110. 110. 324. 71. KNN. n_neighbors=3. SVM. kernel='linear'. SVM. kernel='rbf'. NB. -. Cross validation. 30%. 98. r: 29 v: 33 w: 36. max_iter=1000. Percep n_iter_no_change=50 r tron andom_state=1. 3. 3. Continua. media. 158. 170. 170. 498. 71. KNN. n_neighbors=1. SVM. kernel='linear'. SVM. kernel='rbf'. NB. -. Leave one out. -. 114. r: 38 v: 38 w: 38. max_iter=1000. Percep n_iter_no_change=50 r tron andom_state=1. 4. 5. Continua. media. 93. 99. 99. 291. 71. KNN. n_neighbors=1. SVM. kernel='linear'. SVM. kernel='rbf'. NB. -. Leave one out. -. 66. r: 22 v: 22 w: 22. max_iter=1000. Percep n_iter_no_change=50 r tron andom_state=1. 5. 3. Superpues ta. media. 530. 568. 566. 1664. 71. KNN. n_neighbors=8. SVM. kernel='linear'. SVM. kernel='rbf'. NB. -. Cross validation. 30%. 500. r: 158 v: 183 w: 159. max_iter=1000. Percep n_iter_no_change=50 r tron andom_state=1. 6. 5. Superpues ta. media. 514. 550. 548. 1612. 71. KNN. n_neighbors=3. SVM. kernel='linear'. SVM. kernel='rbf'. NB. -. max_iter=1000 Percep n_iter_no_change=50 r tron andom_state=1. Cross validation. 30%. 484. r: 154 v: 177 w: 153. Matriz C. [[32 18 2] [15 42 1] [ 5 4 48]] [[27 22 3] [11 47 0] [ 4 3 50]] [[12 38 2] [ 5 53 0] [ 4 11 42]] [[ 0 8 44] [ 2 16 40] [ 1 2 54]] [[27 14 11] [10 44 4] [ 1 0 56]] [[22 7 0] [ 6 27 0] [ 1 5 30]] [[18 11 0] [ 5 28 0] [ 2 5 29]] [[ 0 29 0] [ 1 32 0] [ 0 11 25]] [[ 0 1 28] [ 1 3 29] [ 0 1 35]] [[21 5 3] [ 7 26 0] [ 1 5 30]] [[30 6 2] [ 3 34 1] [ 2 3 33]] [[30 8 0] [ 1 37 0] [ 0 7 31]] [[28 10 0] [ 4 34 0] [ 0 5 33]] [ 0 7 31] [ 1 7 30] [ 0 1 37]] [[32 6 0] [ 8 30 0] [ 3 6 29]] [[19 3 0] [ 3 19 0] [ 3 1 18]] [[14 8 0] [ 3 19 0] [ 0 3 19]] [[14 8 0] [ 3 19 0] [ 0 4 18]] [[ 0 0 22] [ 0 1 21] [ 0 1 21]] [[14 8 0] [ 4 18 0] [ 0 1 21]] [[140 12 6] [ 14 168 1] [ 6 8 145]] [[138 16 4] [ 18 157 8] [ 4 6 149]] [[133 18 7] [ 22 156 5] [ 3 7 149]] [[ 3 16 139] [ 0 48 135] [ 0 6 153]] [[146 9 3] [ 25 139 19] [ 1 3 155]] [[136 15 3] [ 12 164 1] [ 2 7 144]] [[140 13 1] [ 18 153 6] [ 4 6 143]] [[127 22 5] [ 23 147 7] [ 3 13 137]] [[ 11 6 137] [ 0 38 139] [ 0 1 152]] [[140 11 3] [ 28 139 10] [ 13 6 134]]. Accuracy 0,73. 0,74. 0,64. 0,42. 0,76. 0,80. 0,77. 0,58. 0,39. 0,79. 0,85. 0,86. 0,83. 0,39. 0,80. 0,85. 0,79. 0,77. 0,33. 0,80. 0,91. 0,89. 0,88. 0,41. 0,88. 0,91. 0,90. 0,85. 0,42. 0,85.

(48) PRE PROCESAMIENTO DE DATOS Ventana # Filas. # seg. 7. 3. Tipo. Superpues ta. Oper.. media. R. 473. V. 511. W. 509. TEST Modelo Total. 1493. Caracteristicas Nombr e. 71. Detalle. KNN. n_neighbors=8. SVM. kernel='linear'. SVM. kernel='rbf'. NB. -. Tipo. Leave one out. Parámetros Porcen # Filas taje. -. 342. Resultados Compo nentes. r: 114 v: 114 w: 114. max_iter=1000. Percep n_iter_no_change=50 r tron andom_state=1. 8. 5. Superpues ta. media. 459. 495. 548. 1447. 71. KNN. n_neighbors=3. SVM. kernel='linear'. SVM. kernel='rbf'. NB. -. Leave one out. -. 330. r: 110 v: 110 w: 110. max_iter=1000 Percep n_iter_no_change=50 r tron andom_state=1. 9. 3. Continua. varianza. 177. 189. 189. 555. 71. KNN. n_neighbors=13. SVM. kernel='linear'. SVM. kernel='rbf'. NB. -. Cross validation. 30%. 167. r: 53 v: 56 w: 58. max_iter=1000. Percep n_iter_no_change=50 r tron andom_state=1. 10. 5. Continua. varianza. 104. 110. 110. 324. 71. KNN. n_neighbors=4. SVM. kernel='linear'. SVM. kernel='rbf'. NB. -. Cross validation. 30%. 98. r: 32 v: 29 w: 37. max_iter=1000. Percep n_iter_no_change=50 r tron andom_state=1. 11. 3. Continua. varianza. 158. 170. 170. 498. 71. KNN. n_neighbors=10. SVM. kernel='linear'. SVM. kernel='rbf'. NB. -. Leave one out. -. 114. r: 38 v: 38 w: 38. max_iter=1000. Percep n_iter_no_change=50 r tron andom_state=1. 12. 5. Continua. varianza. 93. 99. 99. 291. 71. KNN. n_neighbors=4. SVM. kernel='linear'. SVM. kernel='rbf'. NB. -. max_iter=1000 Percep n_iter_no_change=50 r tron andom_state=1. Leave one out. -. 66. r: 22 v: 22 w: 22. Matriz C. [[ 91 17 6] [ 11 102 1] [ 10 7 97]] [[ 87 27 0] [ 6 108 0] [ 3 29 82]] [[ 89 25 0] [ 6 108 0] [ 4 15 95]] [[ 0 17 97] [ 0 25 89] [ 0 3 111]] [[ 69 45 0] [ 2 112 0] [ 2 30 82]] [[100 10 0] [ 15 95 0] [ 6 4 100]] [[ 73 37 0] [ 15 95 0] [ 0 4 106]] [[ 72 35 3] [ 13 97 0] [ 1 4 105]] [[ 0 4 106] [ 0 7 103] [ 0 0 110]] [[ 75 35 0] [ 19 91 0] [ 2 5 103]] [[35 13 5] [ 8 47 1] [ 1 9 48]] [[39 11 3] [ 9 45 2] [ 2 8 48]] [[28 12 13] [ 4 42 10] [ 0 7 51]] [[ 4 1 48] [ 1 3 52] [ 0 0 58]] [[27 21 5] [ 9 41 6] [ 0 13 45]] [[25 6 1] [ 7 22 0] [ 0 5 32]] [[29 3 0] [ 6 21 2] [ 7 3 27]] [[20 6 6] [ 5 20 4] [ 0 6 31]] [[ 0 0 32] [ 1 2 26] [ 0 0 37]] [[26 4 2] [10 14 5] [ 2 9 26]] [[31 5 2] [ 5 31 2] [ 0 3 35]] [[30 7 1] [12 26 0] [ 3 1 34]] [[29 6 3] [ 5 28 5] [ 0 3 35]] [[ 0 0 38] [ 0 0 38] [ 0 0 38]] [[23 13 2] [ 7 26 5] [ 0 4 34]] [[19 3 0] [ 3 19 0] [ 0 0 22]] [[19 2 1] [ 6 16 0] [ 0 1 21]] [[17 4 1] [ 1 18 3] [ 0 0 22]] [[ 0 0 22] [ 0 0 22] [ 0 0 22]] [[14 8 0] [10 7 5] [ 2 0 20]]. Accuracy 0,85. 0,80. 0,85. 0,40. 0,77. 0,89. 0,83. 0,83. 0,35. 0,82. 0,78. 0,79. 0,72. 0,39. 0,68. 0,80. 0,79. 0,72. 0,40. 0,67. 0,85. 0,79. 0,80. 0,33. 0,73. 0,90. 0,85. 0,86. 0,33. 0,62.

(49) PRE PROCESAMIENTO DE DATOS Ventana # Filas. # seg. 13. 3. Tipo. Superpues ta. Oper.. varianza. R. 530. V. 568. W. 566. TEST Modelo Total. 1664. Caracteristicas Nombr e. 71. Detalle. KNN. n_neighbors=8. SVM. kernel='linear'. SVM. kernel='rbf'. NB. -. Tipo. Cross validation. Parámetros Porcen # Filas taje. 30%. 500. Resultados Compo nentes. r: 158 v: 183 w: 159. max_iter=1000. Percep n_iter_no_change=50 r tron andom_state=1. 14. 5. Superpues ta. varianza. 514. 550. 548. 1612. 71. KNN. n_neighbors=3. SVM. kernel='linear'. SVM. kernel='rbf'. NB. -. Cross validation. 30%. 484. r: 154 v: 177 w: 153. max_iter=1000 Percep n_iter_no_change=50 r tron andom_state=1. 15. 3. Superpues ta. varianza. 473. 511. 509. 1493. 71. KNN. n_neighbors=8. SVM. kernel='linear'. SVM. kernel='rbf'. NB. -. Leave one out. -. 342. r: 114 v: 114 w: 114. max_iter=1000. Percep n_iter_no_change=50 r tron andom_state=1. 16. 5. Superpues ta. varianza. 459. 495. 548. 1447. 71. KNN. n_neighbors=3. SVM. kernel='linear'. SVM. kernel='rbf'. NB. -. Leave one out. -. 330. r: 110 v: 110 w: 110. max_iter=1000. Percep n_iter_no_change=50 r tron andom_state=1. 17. 10. Superpues ta. media. 474. 500. 500. 1474. 71. KNN. n_neighbors=1. SVM. kernel='linear'. SVM. kernel='rbf'. NB. -. Cross validation. 30%. 443. r: 147 v: 150 w: 146. max_iter=1000. Percep n_iter_no_change=50 r tron andom_state=1. 18. 10. Superpues ta. media. 424. 450. 450. 1324. 71. KNN. n_neighbors=3. SVM. kernel='linear'. SVM. kernel='rbf'. NB. -. max_iter=1000 Percep n_iter_no_change=50 r tron andom_state=1. Leave one out. -. 300. r: 100 v: 100 w: 100. Matriz C. [[140 12 6] [ 14 168 1] [ 6 8 145]] [[138 16 4] [ 18 157 8] [ 4 6 149]] [[133 18 7] [ 22 156 5] [ 3 7 149]] [[ 3 16 139] [ 0 48 135] [ 0 6 153]] [[146 9 3] [ 25 139 19] [ 1 3 155]] [[136 15 3] [ 12 164 1] [ 2 7 144]] [[140 13 1] [ 18 153 6] [ 4 6 143]] [[127 22 5] [ 23 147 7] [ 3 13 137]] [[ 11 6 137] [ 0 38 139] [ 0 1 152]] [[140 11 3] [ 28 139 10] [ 13 6 134]] [[ 91 17 6] [ 11 102 1] [ 10 7 97]] [[ 87 27 0] [ 6 108 0] [ 3 29 82]] [[ 89 25 0] [ 6 108 0] [ 4 15 95]] [[ 0 17 97] [ 0 25 89] [ 0 3 111]] [[ 69 45 0] [ 2 112 0] [ 2 30 82]] [[100 10 0] [ 15 95 0] [ 6 4 100]] [[ 73 37 0] [ 15 95 0] [ 0 4 106]] [[ 72 35 3] [ 13 97 0] [ 1 4 105]] [[ 0 4 106] [ 0 7 103] [ 0 0 110]] [[ 75 35 0] [ 19 91 0] [ 2 5 103]] [[138 6 3] [ 8 142 0] [ 1 1 144]] [[138 7 2] [ 6 141 3] [ 1 3 142]] [[126 17 4] [ 21 125 4] [ 4 8 134]] [[ 8 5 134] [ 5 36 109] [ 3 0 143]] [[141 3 3] [ 20 125 5] [ 3 0 143]] [[88 12 0] [10 90 0] [ 0 5 95]] [[79 21 0] [14 76 10] [ 3 0 97]] [[80 20 0] [16 84 0] [ 2 2 96]] [[ 1 19 80] [10 13 77] [12 0 88]] [[65 33 2] [24 74 2] [ 1 1 98]]. Accuracy 0,91. 0,89. 0,88. 0,41. 0,88. 0,91. 0,90. 0,85. 0,42. 0,85. 0,85. 0,80. 0,85. 0,40. 0,77. 0,89. 0,83. 0,83. 0,35. 0,82. 0,96. 0,95. 0,87. 0,42. 0,92. 0,91. 0,84. 0,87. 0,34. 0,79.

(50) APÉNDICE A. ANEXOS. 36. A.2.. Pruebas con PCA.

(51) #. 1. 2. 3. 4. 5. seg. 3. 3. 5. 5. 3. PRE PROCESAMIENTO DE DATOS Ventana # Filas Tipo Estadístico R V W. Continua. Continua. Continua. Continua. Continua. media. media. media. media. media. 177 189 189. 177 189 189. 104. 104. 110. 110. 110. 110. 158 170 170. Total. 555. 555. 324. 324. 498. %. 0. 0. 0. 0. 0. PCA Caracteris. 10. 25. 10. 25. 10. ENTRENAMIENTO Modelo Nombre Detalle. Tipo. TEST Parámetros Resultados Porce # Filas Compon Matriz C. Accuracy. KNN. n_neighbo rs=15. [[31 19 6] [ 8 42 4] [14 13 30]]. 0,616. SVM. kernel='lin ear'. [[29 15 12] [ 9 32 13] [11 8 38]]. 0,592. SVM. Cross kernel='rbf validation '. [[27 21 8] [ 6 36 12] [10 10 37]]. 0,598. 30%. 167. r: 56 v: 54 w: 57. NB. -. [[35 11 10] [23 15 16] [12 7 38]]. 0,526. Perceptron. max_iter=1 000 n_iter_no_ change=50. [[17 25 14] [ 6 33 15] [ 5 16 36]]. 0,514. KNN. n_neighbo rs=19. [[34 17 2] [ 8 48 4] [ 5 4 45]]. 0,742. SVM. kernel='lin ear'. [[27 22 3] [11 47 0] [ 4 3 50]]. 0,76. SVM. Cross kernel='rbf validation '. [[36 13 4] [ 8 47 5] [ 4 4 46]]. 0,772. 30%. 167. r: 52 v: 58 w: 57. NB. -. [[18 27 8] [ 8 44 8] [ 4 6 44]]. 0,634. Perceptron. max_iter=1 000 n_iter_no_ change=50. [[34 17 2] [ 9 48 3] [ 5 2 47]]. 0,772. KNN. n_neighbo rs=6. [[17 12 1] [ 6 21 0] [10 9 22]]. 0,612. SVM. kernel='lin ear'. [[ 9 16 5] [10 17 0] [ 7 6 28]]. 0,551. SVM. Cross kernel='rbf validation '. [[14 13 3] [ 9 18 0] [ 7 11 23]]. 0,561. 30%. 98. r: 30 v: 27 w: 41. NB. -. [[20 3 7] [17 5 5] [10 1 30]]. 0,561. Perceptron. max_iter=1 000 n_iter_no_ change=50. [[ 4 19 7] [11 14 2] [ 8 4 29]]. 0,479. KNN. n_neighbo rs=7. [[17 12 1] [ 6 21 0] [10 9 22]]. 0,612. SVM. kernel='lin ear'. [[21 8 2] [ 6 27 3] [ 5 3 23]]. 0,724. SVM. Cross kernel='rbf validation '. [[17 8 6] [ 3 31 2] [ 3 2 26]]. 0,755. 30%. 98. r: 29 v: 33 w: 36. NB. -. [[19 6 6] [15 17 4] [ 6 3 22]]. 0,59. Perceptron. max_iter=1 000 n_iter_no_ change=50. [[17 11 3] [14 19 3] [ 4 2 25]]. 0,622. KNN. n_neighbo rs=1. [[32 3 3] [ 7 31 0] [ 3 7 28]]. 0,798. SVM. kernel='lin ear'. [[30 7 1] [13 25 0] [15 5 18]]. 0,64. SVM. kernel='rbf Leave one out '. [[27 10 1] [ 5 33 0] [ 6 10 22]]. 0,719. -. 114. r: 38 v: 38 w: 38. NB. -. [[24 5 9] [20 14 4] [ 6 5 27]]. 0,57. Perceptron. max_iter=1 000 n_iter_no_ change=50. [[27 10 1] [20 18 0] [18 3 17]]. 0,543.

(52) #. 6. 7. 8. 9. 10. seg. 3. 5. 5. 3. 3. PRE PROCESAMIENTO DE DATOS Ventana # Filas Tipo Estadístico R V W. Continua. Continua. Continua. Superpues ta. Superpues ta. media. media. media. media. media. 158 170 170. 93. 93. 99. 99. 99. 99. 530 568 566. 530 568 566. Total. 498. 291. 291. 1664. 1664. %. 0. 0. 0. 0. 0. PCA Caracteris. 25. 10. 25. 10. 25. ENTRENAMIENTO Modelo Nombre Detalle. Tipo. TEST Parámetros Resultados Porce # Filas Compon Matriz C. Accuracy. KNN. n_neighbo rs=1. [[30 6 2] [ 5 33 0] [ 3 8 27]]. 0,789. SVM. kernel='lin ear'. [[29 8 1] [ 4 34 0] [ 7 6 25]]. 0,771. SVM. kernel='rbf Leave one out '. [[25 13 0] [ 2 36 0] [ 0 10 28]]. 0,78. -. 114. r: 38 v: 38 w: 38. NB. -. [[16 3 19] [13 13 12] [ 3 3 32]]. 0,535. Perceptron. max_iter=1 000 n_iter_no_ change=50. [[29 7 2] [ 6 31 1] [ 4 4 30]]. 0,789. KNN. n_neighbo rs=1. [[15 6 1] [ 2 18 2] [ 2 1 19]]. 0,787. SVM. kernel='lin ear'. [[16 4 2] [ 9 10 3] [ 6 0 16]]. 0,636. SVM. kernel='rbf Leave one out '. [[13 9 0] [ 5 16 1] [ 2 1 19]]. 0,727. -. 66. r: 22 v: 22 w: 22. NB. -. [[ 3 14 5] [ 1 14 7] [ 1 5 16]]. 0,5. Perceptron. max_iter=1 000 n_iter_no_ change=50. [[16 6 0] [10 11 1] [ 5 1 16]]. 0,65. KNN. n_neighbo rs=1. [[15 7 0] [ 2 20 0] [ 2 3 17]]. 0,787. SVM. kernel='lin ear'. [[13 9 0] [ 4 18 0] [ 5 4 13]]. 0,666. SVM. kernel='rbf Leave one out '. [[14 7 1] [ 3 17 2] [ 1 4 17]]. 0,727. -. 66. r: 22 v: 22 w: 22. NB. -. [[ 7 9 6] [ 2 13 7] [ 2 4 16]]. 0,545. Perceptron. max_iter=1 000 n_iter_no_ change=50. [[12 9 1] [ 6 15 1] [ 2 3 17]]. 0,666. KNN. n_neighbo rs=1. [[121 23 17] [ 20 148 9] [ 21 14 127]]. 0,792. SVM. kernel='lin ear'. [[119 34 8] [ 40 126 11] [ 19 18 125]]. SVM. Cross kernel='rbf validation '. 30%. 500. r: 161 v: 177 w: 162. 0,74. [[127 26 8] [ 18 149 10] [ 19 14 129]]. 0,81. 0,558. NB. -. [[ 79 13 69] [ 44 59 74] [ 16 5 141]]. Perceptron. max_iter=1 000 n_iter_no_ change=50. [[115 29 17] [ 86 69 22] [ 29 12 121]]. KNN. n_neighbo rs=1. [[151 14 9] [ 8 160 2] [ 7 7 142]]. 0,906. SVM. kernel='lin ear'. [[137 28 9] [ 25 134 11] [ 8 11 137]]. 0,816. SVM. Cross kernel='rbf validation '. [[146 17 11] [ 17 148 5] [ 5 12 139]]. 0,866. 30%. 500. r: 158 v: 183 w: 159. 0,61. NB. -. [[130 15 29] [ 52 72 46] [ 9 10 137]]. 0,678. Perceptron. max_iter=1 000 n_iter_no_ change=50. [[115 29 17] [ 86 69 22] [ 29 12 121]]. 0,61.

(53) #. 11. 12. 13. 14. 15. seg. 5. 5. 3. 3. 5. PRE PROCESAMIENTO DE DATOS Ventana # Filas Tipo Estadístico R V W. Superpues ta. Superpues ta. Superpues ta. Superpues ta. Superpues ta. media. media. media. media. media. 514 550 548. 514 550 548. 473 511 509. 473 511 509. Total. 1612. 1612. 1493. 1493. 459 495 548 1447. %. 0. 0. 0. 0. 0. PCA Caracteris. 10. 25. 10. 25. 10. ENTRENAMIENTO Modelo Nombre Detalle. Tipo. TEST Parámetros Resultados Porce # Filas Compon Matriz C. Accuracy. KNN. n_neighbo rs=3. [[116 27 13] [ 19 143 5] [ 13 5 143]]. 0,83. SVM. kernel='lin ear'. [[101 50 5] [ 35 129 3] [ 13 14 134]]. 0,752. SVM. Cross kernel='rbf validation '. [[122 29 5] [ 34 132 1] [ 8 18 135]]. 0,803. NB. -. Perceptron. max_iter=1 000 n_iter_no_ change=50. KNN. n_neighbo rs=3. SVM. kernel='lin ear'. SVM. Cross kernel='rbf validation '. 30%. 484. r: 156 v: 167 w: 161. [[146 5 5] [150 12 5] [ 35 2 124]] [[ 80 75 1] [ 91 74 2] [ 28 27 106]] [[137 16 2] [ 17 159 3] [ 9 5 136]]. 30%. 484. r: 155 v: 179 w: 150. 0,582. 0,537. 0,892. [[126 22 7] [ 31 143 5] [ 7 6 137]]. 0,838. [[128 18 9] [ 25 151 3] [ 6 13 131]]. 0,847. NB. -. [[135 7 13] [135 39 5] [ 39 1 110]]. 0,586. Perceptron. max_iter=1 000 n_iter_no_ change=50. [[ 99 46 10] [ 26 146 7] [ 12 5 133]]. 0,78. KNN. n_neighbo rs=1. [[92 17 5] [22 89 3] [10 18 86]]. 0,78. SVM. kernel='lin ear'. [[93 20 1] [34 80 0] [32 22 60]]. 0,681. SVM. kernel='rbf Leave one out '. [[80 28 6] [15 98 1] [21 26 67]]. 0,716. -. 342. r: 114 v: 114 w: 114. NB. -. [[64 18 32] [50 19 45] [14 5 95]]. 0,52. Perceptron. max_iter=1 000 n_iter_no_ change=50. [[93 10 11] [84 27 3] [27 10 77]]. 0,576. KNN. n_neighbo rs=8. [[90 22 2] [14 99 1] [22 24 68]]. 0,751. SVM. kernel='lin ear'. [[ 79 33 2] [ 11 103 0] [ 14 28 72]]. 0,742. SVM. kernel='rbf Leave one out '. [[ 77 36 1] [ 7 107 0] [ 12 28 74]]. 0,754. -. 342. r: 114 v: 114 w: 114. NB. -. [[ 58 2 54] [ 37 23 54] [ 7 0 107]]. 0,549. Perceptron. max_iter=1 000 n_iter_no_ change=50. [[86 24 4] [23 90 1] [18 24 72]]. 0,725. KNN. n_neighbo rs=1. [[100 10 0] [ 15 95 0] [ 6 4 100]]. 0,893. SVM. kernel='lin ear'. [[ 73 37 0] [ 15 95 0] [ 0 4 106]]. 0,77. SVM. kernel='rbf Leave one out '. [[49 61 0] [15 87 8] [14 11 85]]. 0,669. -. 330. r: 110 v: 110 w: 110. NB. -. [[92 18 0] [83 14 13] [32 0 78]]. 0,557. Perceptron. max_iter=1 000 n_iter_no_ change=50. [[77 30 3] [67 41 2] [20 1 89]]. 0,627.