4
Grupo de Bioingeniería
© de los textos: los autores, 2012. © de la edición: Universidad de Valladolid
Palacio de Santa Cruz, Plaza de Santa Cruz, 8. 47002 Valladolid Editores: Ramón Ceres Ruiz, Javier Pérez Turiel, Pere Caminal Magrans Edición realizada por Editorial Spica Siglo XXI S.L. www.spicaeditorial.com
Foto Portada: Ayuntamiento de Valladolid. Foto: Archivo de Editorial Spica Siglo XXI ISBN-13: 978-84-695-3541-7
D.L.: VA-488-2012
No se permite la reproducción total o parcial de este libro ni de la cubierta, ni su almacenamiento en un sistema informático, ni la transmisión en cualquier forma o por cualquier vía, ya sea electrónica, mecánica, por fotocopia o por otros métodos, sin el permiso expreso de los titulares del copyright.
Presentación del Simposio
Tengo el placer de presentar en este libro de actas el contenido del Simposio CEA Bioingeniería 2012, que en su cuarta edición organiza el Grupo de Bioingeniería del Comité Español de Automática, CEA, en colaboración con las Redes Temáticas RETADIM (Tecnologías de Apoyo a la Discapacidad) y REDINBIO (Ingeniería Biomédica). Este encuentro da continuidad así a la edición previa de este Simposio, celebrada en el año 2008 en el IAI del CSIC en Arganda del Rey y posteriormente en 2009 en la Universidad Miguel Hernández de Elche, en 2010 en la Universidad de Málaga y en 2011 en la Universidad de las Islas Baleares.
En esta edición el Simposio comprende tres sesiones dedicadas al tema central de técnicas asociadas al BCI (Brain Computer Interface), tal como se ha venido haciendo en los anteriores encuentros, complementando el programa con una sesión dedicada a las Tecnologías de Rehabilitación en general.
Como en anteriores ocasiones, esperamos que este Simposio sea para profesores, investigadores, profesionales y estudiantes, un espacio de exposición, discusión, contraste e intercambio de conocimientos sobre los últimos avances y experiencias que ponen a nuestro alcance los destacados grupos de investigación que trabajan en estos temas en España, contando la práctica totalidad de estos grupos con importantes colaboraciones internacionales. Estamos seguros que estas actividades redundarán en beneficio de todos, esperando que sigan propiciando el planteamiento de nuevos proyectos conjuntos de interés científico y social e iniciativas de colaboración entre grupos tal como se han generado estos últimos años.
Deseamos agradecer el soporte del Plan Nacional a través de ambas Redes Temáticas, a CEA, a las entidades organizadoras locales, Universidad de Valladolid y Fundación CARTIF, que amablemente nos acogen, al CSIC y a todas las personas que han hecho posible este encuentro: organizadores locales, autores, ponentes y participantes en general. Nuestro reconocimiento a nuestro colega Pere Caminal, coordinador de REDINBIO y de forma especial al profesor Javier Pérez Turiel, actuando como motor de este Simposio.
Ramón Ceres Ruiz
Coordinador del Grupo CEA de Bioingeniería y de la Red RETADIM Valladolid, mayo de 2012
Organización
El Simposio CEA Bioingeniería 2012 ha sido organizado por la División de Ingeniería Biomédica de la Fundación CARTIF y el Departamento de Ingeniería de Sistemas y Automática de la Universidad de Valladolid, conjuntamente con el Grupo de Bioingeniería del Comité Español de Automática, CEA, en colaboración con las Redes Temáticas RETADIM (Tecnologías de Apoyo a la Discapacidad) y REDINBIO (Ingeniería Biomédica), ambas financiadas por el Plan Nacional de I+D+i.
El Grupo de Bioingeniería del Comité Español de Automática CEA (GTBio) tiene por objetivo unir los esfuerzos de los distintos grupos y centros españoles dedicados a la investigación y el desarrollo en el Área de la Bioingeniería.
La Red Temática de Tecnologías de Apoyo a la Discapacidad y Mayores (RETADIM) es el foro establecido en España para intercambio de experiencias y conocimientos en los diversos temas del Área de tecnologías relacionadas con la discapacidad, los mayores y la vida independiente. RETADIM está integrada por más de treinta grupos de investigación.
La Red Temática en Ingeniería Biomédica (REDINBIO) está integrada por más de 50 grupos de investigación que realizan su investigación en las diferentes facetas del ámbito de la Ingeniería Biomédica.
Comité Ejecutivo
Ramón Ceres (CSIC – Grupo de Bioingeniería) Javier Pérez Turiel (Fundación CARTIF)
Pere Caminal (Universidad Politécnica de Cataluña)
Comité de Organización
Juan Carlos Fraile Marinero (ITAP - Universidad de Valladolid) José Luis González Sánchez (ITAP - Universidad de Valladolid) José Ramón Perán González (Fundación CARTIF)
Tabla de Contenidos
Evaluación de un sistema BCI de control domótico basado en potenciales P300 aplicado a usuarios con grave discapacidad ……… 11
R. Corralejo, D. Álvarez, R. Hornero
Enseñando a un brazo robótico a realizar tareas de alcance mediante señales
cerebrales cognitivas de error ……….…. 19
I. Iturrate, R. Chavarriaga, L. Montesano, J. Mínguez, J.d.R. Millán
Propuesta de un teclado virtual predictivo controlado a través del potencial P300…….…….. 27
R. Ron-Angevin, L. da Silva-Sauer, A. Aguilar-García
Detección de la intención de movimiento del brazo mediante señales EEG ……….…….. 35
E. Hortal, A. Úbeda, E. Iáñez, A. Rodríguez, José M. Azorín
Canal auditivo en BCI y Neurofeedback ……….…. ….…. 43
E.A.Lamolda, M.A.Lopez-Gordo, F.Pelayo
Medición del estado de concentración a partir de Interfaces BCI inalámbricos. Control
de videojuegos e interfaces perceptuales………..……….... 49
J. Jiménez, F. J. Perales, C. Guerrero
Metodología para la construcción de BCIs orientados a la rehabilitación ……….…….. 57
M.D. del Castillo, J.I. Serrano, J. Ibáñez
Nuevas herramientas basadas en BCI para Rehabilitación Robótica en la marcha
después del Ictus Cerebral ………...… 65
J. Moreno, I. Collantes, G. Asín, J. L. Pons
Electromiografía de superficie multicanal como herramienta no invasiva en la
rehabilitación neuromuscular ……… 73
M. Rojas-Martínez, M. Ángel Mañanas
Experiencias en el desarrollo de sistemas de rehabilitación asistida por robots para
pacientes con daño cerebral sobrevenido ……….……….….. 81
F.J. Badesa, R. Morales, J. M. Sabater-Navarro, N. García-Aracil, C. Pérez, M. Cornejo
Interfaz inercial de acceso al computador como herramienta de valoración del control
motor en personas con parálisis cerebral ……….….….. 89
R. Raya, R. Ceres, E. Rocon, A. Ruiz, T. González
Resultados iniciales de la aplicación clínica de un sistema de terapias robotizadas para neuro-rehabilitación ………. 97
C. Rodríguez, P. Oliva, Equipo de Fisioterapia y Terapia Ocupacional de la Unidad de Daño Cerebral de Hospital Beata María Ana, P. V. Rivera Farina, J. Carlos Fraile
Evaluación de un sistema BCI de control domótico
basado en potenciales P300 aplicado a usuarios
con grave discapacidad
R. Corralejo
1, D. Álvarez
1, R. Hornero
11Grupo de Ingeniería Biomédica, Universidad de Valladolid
E. T. S. de Ingenieros de Telecomunicación, Paseo Belén 15, 47011 – Valladolid, España Teléfono: +34 983185570, Fax: +34 983423667
e-mail: [email protected], [email protected], [email protected]
Resumen. Los sistemas Brain Computer Interface (BCI) traducen las intenciones del usuario, identificadas a
partir de la actividad cerebral, en comandos de control. El objetivo del presente estudio es diseñar, desarrollar y validar una aplicación domótica a partir de la señal de electroencefalograma (EEG) empleando potenciales evocados P300. Se pretende incrementar la autonomía de las personas dependientes en su entorno habitual. El sistema se aplicó a 9 usuarios con grave discapacidad, procedentes del CRE de Discapacidad y Dependencia. La mayoría de los usuarios controlaron la aplicación con una precisión superior al 65%, incluso tres de ellos superaron el 85%. Estos resultados son notablemente mejores que los obtenidos empleando ritmos sensoriomotores, ya que los sistemas basados en P300 no necesitan una etapa previa de entrenamiento ni un alto nivel de concentración. Así, se consigue un control más preciso de la aplicación, mejorando la independencia y calidad de vida de las personas dependientes.
Palabras clave: Brain Computer Interface; electroencefalograma; discapacidad; dependencia; accesibilidad.
1. Introducción
Un sistema Brain Computer Interface (BCI) es aquel que monitoriza la actividad cerebral y traduce determinadas características, correspondientes a las intenciones del usuario, en comandos de control de un dispositivo [1]. El método más utilizado para registrar dicha actividad cerebral es el electroencefalograma (EEG), ya que se trata de una técnica portátil, de bajo coste, fácil de usar y no invasiva [1]. Existen diferentes tipos de sistemas BCI en función de la señal de control empleada: potenciales corticales lentos (Slow Cortical Potentials, SCP), potenciales evocados visuales de estado estable (Steady State Visually Evoked Potentials, SSVEP), potenciales evocados P300 y ritmos sensoriomotores [1]. Cuando se emplean SCP o ritmos sensoriomotores, los sistemas BCI se denominan endógenos, ya que dependen de la capacidad del usuario para controlar la actividad EEG y es necesaria una etapa previa de entrenamiento. En el caso de los potenciales SSVEP o P300 se habla de sistemas BCI exógenos, ya que es un estímulo externo el que provoca una actividad cerebral característica en el usuario [1].
El objetivo principal del presente estudio consiste en diseñar, desarrollar y validar una aplicación asistiva que permita controlar mediante órdenes cerebrales diferentes dispositivos domóticos y electrónicos presentes habitualmente en el hogar. Para ello, se propone el empleo de un sistema BCI basado en potenciales evocados P300. Dicho potencial es un pico de voltaje que aparece unos 300 ms después de la percepción de estímulos somático-sensoriales, visuales o auditivos, infrecuentes cuando se mezclan con estímulos frecuentes [1, 2]. La probabilidad de aparición de este pico es mayor cuanto menos frecuente es el estímulo asociado. Este tipo de sistemas no necesitan una etapa previa de entrenamiento ni un nivel de concentración extremadamente elevado, de forma que los usuarios pueden interaccionar con la aplicación BCI más rápidamente. Se pretende aumentar la independencia y calidad de vida de las personas con
12
discapacidad física grave, por lo que la aplicación implementada será utilizada por personas dependientes con grave discapacidad procedentes del Centro de Referencia Estatal (CRE) de Discapacidad y Dependencia de San Andrés de Rabanedo (León). Así, la aplicación gestionará diferentes dispositivos y servicios del hogar y entorno habitual, cubriendo diferentes necesidades, principalmente de comunicación, entretenimiento y confort.
2. Metodología
2.1. Registro de la señal EEG y sujetos participantes en el estudio
Para el registro de la señal EEG se utilizó el amplificador g.USBamp (g.tec, Austria), empleando una frecuencia de muestreo de 256 Hz. Las señales se registraron monopolarmente, tomando la referencia en la oreja izquierda y la tierra en la oreja derecha. Se realizó un filtrado paso banda entre 0.1 y 60 Hz y se aplicó un filtro de ranura a la frecuencia de la red eléctrica (50 Hz). Los valores de impedancia se mantuvieron por debajo de 5 kΩ. Se seleccionaron ocho canales EEG para el estudio: Fz, Cz, CP3, CP4, Pz, PO3, PO4 y Oz, de acuerdo con el sistema internacional 10–20 [3]. Estos canales permiten detectar tanto la respuesta P300 en torno al electrodo Cz como otros potenciales evocados sobre el córtex visual [4]. En la Figura 1, se muestra la localización espacial de dichos canales. Para maximizar la relación señal a ruido (Signal to Noise Ratio, SNR) se aplicó un filtro espacial CAR (Common Average Reference) [5].
La población bajo estudio estuvo formada por nueve usuarios del CRE de Discapacidad y Dependencia de León. Todos ellos presentaban algún tipo de discapacidad motora, no presentando ninguno de ellos problemas cognitivos severos. Los sujetos incluidos en el estudio fueron personas de ambos sexos, mayores de 18 años y sin límite de edad. La edad media de los sujetos fue de 46.20 ± 8.84 años. Cada uno de ellos fue informado y preguntado sobre su participación en el estudio, dando su consentimiento para formar parte del mismo. La Tabla 1 muestra los datos relativos a la edad, el sexo y la discapacidad que presentan los usuarios participantes.
Figura 1. Localización espacial de los canales EEG empleados en el estudio.
Usuario Sexo Edad Diagnóstico Discapacidad Cognitiva U1 M 59 Malformación de Arnold-Chiari Nula U2 F 46 Ataxia degenerativa del adulto Leve U3 F 41 Parálisis cerebral Leve U4 F 35 Parálisis cerebral Leve U5 M 33 Tetraplejia traumática por lesión medular completa a nivel C1-C4 Nula U6 F 47 Parálisis cerebral Leve U7 F 50 Traumatismo craneoencefálico Leve U8 M 48 Paraplejia por sección medular incompleta D8 a L2, traumática Nula U9 M 57 Neurofibromatosis, difoescoliosis severa Nula
2.2. Procesado de la señal EEG y planificación de las sesiones con la aplicación BCI domótica
Para determinar la presencia o ausencia de potenciales evocados P300, en primer lugar, se caracteriza la señal de EEG mediante su amplitud en espacio y tiempo [6]. A continuación, se aplica un análisis discriminante lineal paso a paso (StepWise Linear Discriminant Analysis, SWLDA). SWLDA reduce el espacio de características de partida seleccionando las más apropiadas, que se incluirán en la función discriminante [2, 7, 8, 9, 10, 11, 12, 13, 14]. En primer lugar, se determinan los pesos de las características del espacio de partida mediante el discriminante lineal de Fisher (Fisher’s Linear Discriminant, FLD). Posteriormente, las características más significativas se van añadiendo a la función discriminante a la vez que se van eliminando las menos significativas hasta que se obtiene un número máximo de características prefijado, o bien, hasta que no haya características que satisfagan el criterio de eliminación.
Para la realización de sesiones de control de la aplicación BCI domótica se seleccionaron los parámetros de funcionamiento típicamente empleados en sistemas BCI basados en P300 o en el paradigma oddball [1, 2, 13, 15, 16, 17, 18]. Este paradigma se basa en presentar al usuario una matriz de elementos de tamaño variable formada por iconos que representan distintas opciones. Cada 125 ms, se ilumina una fila o columna de la matriz de forma aleatoria [1, 2] y cada bloque de presentación de estímulos (en el que todas las filas y columnas se han intensificado una vez) se repite 15 veces [1, 2]. La duración del estímulo se fijó en 62,5 ms para facilitar a los usuarios finales la tarea de contar cuántas veces se ilumina la opción deseada. Los usuarios de la aplicación realizaron dos tipos de sesiones: modo copia y modo libre. En primer lugar, se realizaron una o dos sesiones de toma de contacto con el sistema BCI en modo copia. Se presentaba al usuario una matriz de letras o imágenes en la que las filas y las columnas se iban iluminando aleatoriamente. Se pedía al usuario que se fijase en una letra o imagen concreta y contase cuántas veces se iluminaba ésta. A continuación, se realizaron sesiones de control de la aplicación domótica en modo libre. Para poder evaluar la precisión obtenida por los usuarios, éstos debían seleccionar los comandos de distintas secuencias propuestas previamente, como por ejemplo: “acceder al menú del ventilador”, “encender el ventilador”, “activar la función de giro” y “programar su funcionamiento durante 2 h”. Para cada usuario se evaluó el grado de precisión alcanzado en el control de la aplicación así como el porcentaje de secuencias finalizadas.
3. Resultados y discusión
3.1. Aplicación BCI de control domótico basada en potenciales P300
Tras realizar un estudio del entorno habitual de los usuarios finales, es decir, las personas con grave discapacidad, se identificaron sus principales necesidades. Dichas necesidades fueron tenidas en cuenta en el diseño de la aplicación domótica implementada. Así, esta aplicación permite controlar varios dispositivos relacionados con el confort, la comunicación y el ocio. En concreto, es posible controlar los siguientes dispositivos y sus principales funcionalidades: televisor, reproductor de DVD, equipo de música, disco multimedia, teléfono, ventilador, calefactor y luces de una estancia.
El funcionamiento de la aplicación implementada se describe a continuación. En primer lugar, la pantalla muestra al usuario el menú principal de la aplicación, que se muestra en la Figura 2(a). Dicho menú consta de una matriz de 3 x 4 imágenes que representan un dispositivo o acción específica. Se muestran todos los dispositivos mencionados previamente, así como varios comandos de control: parar, pausar o reanudar la ejecución de la aplicación. Las filas y columnas de la matriz del menú principal se van intensificando aleatoriamente mientras el usuario mira fijamente la opción deseada y cuenta cuántas veces se intensifica ésta. Así, es más probable que se intensifique cualquier otra opción de la matriz que la opción deseada. Por ello, cuando ésta se intensifica aparece un potencial evocado en la actividad EEG del usuario, aproximadamente unos 300 ms después de haberse producido el estímulo [1, 2]. Analizando para qué fila y para qué columna aparece dicho potencial, la aplicación determina cuál es la opción deseada por el usuario.
14
Una vez identificada esa opción se ejecuta la acción correspondiente (pausar, parar o reanudar) o se accede al submenú del dispositivo seleccionado. Cada submenú muestra al usuario una matriz de imágenes similar a la del menú principal. En este caso, cada imagen presenta diferentes funcionalidades del dispositivo a controlar: encender, apagar, silenciar, marcar un número de teléfono, volver al menú principal, etc. De la misma forma que para el menú principal, las filas y columnas del submenú se van a ir intensificando aleatoriamente. Mientras, el usuario mira de nuevo fijamente la opción deseada y cuenta cuántas veces se intensifica ésta. En la Figura 2(b), se muestra una imagen del submenú televisión. Una vez finalizadas las intensificaciones, la aplicación determina la opción deseada por el usuario y ejecuta el comando correspondiente. Por ejemplo, si el usuario selecciona “encender las luces” la aplicación domótica ejecuta dicho comando mediante un dispositivo emisor de infrarrojos “RedRat” [19]. Así, los usuarios pueden navegar a través de los menús de la aplicación BCI y controlar los diferentes dispositivos presentes en su entorno. Para la implementación de esta aplicación se empleó el sistema BCI2000 [6].
3.2. Aplicación del sistema BCI a los usuarios del CRE de Discapacidad y Dependencia
El sistema BCI de control domótico desarrollado en este estudio se ha aplicado a nueve usuarios del CRE de Discapacidad y Dependencia con diferente grado de discapacidad, física y cognitiva. Las pruebas consistieron en una media de cuatro sesiones por usuario con la aplicación BCI de control domótico. En la Tabla 2 se muestran los resultados obtenidos. Por un lado, se indica el porcentaje de precisión conseguido durante cada sesión, así como el porcentaje global obtenido a lo largo de todas las sesiones. Por otro lado, se indica el porcentaje de secuencias completamente finalizadas durante las sesiones de control en modo libre (SC). Cinco usuarios fueron capaces de controlar la aplicación BCI con niveles de precisión aceptables, superiores al 65%. Además, tres de ellos consiguieron incluso una precisión media igual o superior al 85%. En el caso de estos usuarios se observa también que la precisión se mantuvo estable a lo largo de las
(a) (b)
Figura 2. (a) Menú principal de la aplicación BCI de control domótico desde el cual el usuario accede a los diferentes dispositivos domóticos. (b) Submenú de control de la televisión, está formado por una matriz de 5 x 5 imágenes. El usuario puede seleccionar diferentes acciones: encender o apagar, subir o bajar el volumen, cambiar de canal, acceder
al menú de configuración o al teletexto, etc. En esta captura se encuentra intensificada la tercera columna de la matriz. Nº usuario
Nº sesión U01 U02 U03 U04 U05 U06 U07 U08 U09 S1 95,00 7,00 96,00 82,00 92,31 55,00 25,00 46,00 37,50 S2 100,00 43,00 65,45 75,00 75,00 80,00 36,76 41,21 86,84 S3 100,00 38,00 98,00 62,50 100,00 17,68 32,08 25,00 54,05 S4 100,00 - 85,54 80,00 100,00 29,17 - - - S5 97,33 - - 51,47 93,42 - - - - Precisión media (%) 98,38 26,20 84,48 65,38 95,16 37,82 33,33 36,39 64,84 SC (%) 100,00 - 92,86 71,43 100,00 25,00 30,77 9,09 66,67 Tabla 2. Porcentaje de precisión y de secuencias completadas (SC) por cada usuario participante en el estudio.
diferentes sesiones. El resto de usuarios han obtenido resultados de precisión que oscilan entre el 26% y el 38%, por debajo de lo necesario para controlar la aplicación BCI adecuadamente.
Analizando los resultados más detalladamente, se observa que los usuarios 1 y 5 obtuvieron los resultados de precisión más elevados (98% y 95%). Ambos pudieron controlar la aplicación desde la primera sesión incluso finalizaron varias sesiones sin cometer ningún fallo. Además, los dos finalizaron completamente todas las secuencias de control propuestas durante las sesiones en modo libre. La ausencia de problemas cognitivos facilitó su capacidad de control de la aplicación. El análisis offline de las señales registradas muestra la existencia de un prominente potencial P300 para ambos usuarios. Para valorar la calidad de este potencial se emplea el factor r2. Se trata de un estadístico que determina la previsibilidad de que la respuesta se haya producido debido a la intensificación de la opción deseada. El usuario 5, obtuvo valores máximos de r2 de 3·10-2, valores adecuados, por lo que resulta sencillo determinar correctamente cuál es la opción deseada. En la Figura 3(a) se muestra el promedio de la señal EEG como respuesta del usuario a los estímulos atendidos (las opciones deseadas por el usuario) y los no atendidos (el resto de opciones presentes en la pantalla). Se aprecia perfectamente la existencia del potencial P300: para los estímulos atendidos aparece un pico negativo de gran amplitud en torno a 280 ms con una tendencia claramente distinta a la existente para los estímulos no atendidos por el usuario.
Por su parte, los usuarios 3, 4 y 9 obtuvieron una precisión media del 85%, 65% y 65%, y un porcentaje de secuencias finalizadas del 93%, 71% y 67%, respectivamente. A pesar de que dos de ellos presentaban discapacidad cognitiva leve, fueron capaces de manejar adecuadamente la aplicación. En el caso de los usuarios 6, 7 y 8 se obtuvieron valores de precisión entre el 33% y el 38% y porcentajes de secuencias completadas del 25%, 31% y 9%, respectivamente. El usuario 6 obtuvo durante al menos una sesión un resultado alto de precisión (80%) por lo que quizá dedicando más tiempo podría mejorar su precisión global y controlar la aplicación de forma aceptable. Las dificultades de estos usuarios para controlar la aplicación se han debido en el caso de los usuarios 6 y 7 a los problemas cognitivos que presentan y en el caso del usuario 8 a la falta de atención y motivación durante la realización de las pruebas con el sistema BCI.
Por último, el usuario 2 obtuvo el resultado de precisión más bajo. Este usuario no realizó ninguna sesión de control de la aplicación en modo libre, ya que el análisis offline mostró que su potencial P300 presentaba una amplitud muy pequeña, incluso a veces inapreciable. En la Figura 3(b) se muestra la respuesta de este usuario a los estímulos atendidos y no atendidos. Se observa que no existen grandes diferencias entre las respuestas a ambos tipos de estímulos, ya que la evolución de ambas señales es bastante similar. En torno a 200 ms la amplitud para los estímulos atendidos disminuye a valores más bajos pero inmediatamente vuelve a alcanzar valores y tendencia similares a la de los no atendidos. Además, el valor máximo de r2 fue de 9·10-4, demasiado bajo, por lo que no resulta sencillo determinar correctamente la opción deseada.
(a) (b)
Figura 3. Señal EEG promedio en el canal Oz para los estímulos atendidos (línea roja) y no atendidos (línea azul) (a) por el usuario 5, (b) por el usuario 2.
16
La mayoría de los estudios relativos a sistemas BCI se realizan con personas sanas. Sin embargo, algún estudio sí que se ha aplicado a personas con discapacidad. En el estudio de Hoffman et al. [18] participaron cinco sujetos con diferente tipo de discapacidad: parálisis cerebral, esclerosis múltiple, esclerosis lateral amiotrófica (ELA), daño medular y encefalopatía. Todos los participantes excepto uno lograron controlar adecuadamente el sistema, obteniendo una precisión del 100%. Sin embargo, estos resultados no pueden compararse directamente con los del presente estudio ya que el paradigma era muy diferente: se realizaron dos sesiones en las que únicamente se mostraban 6 imágenes que se intensificaban aleatoriamente de una en una. Por otro lado, en el estudio de Nijboer et al. [17] participaron ocho pacientes de ELA con el paradigma típico de una matriz de 6 x 6 caracteres. Sólo cuatro sujetos controlaron de forma adecuada el sistema, obteniendo resultados de precisión media del 82%, 65%, 58% y 83%. La etapa de pruebas se prolongó durante 40 semanas y se demostró, además, que la amplitud y latencia del potencial evocado P300 se mantuvo bastante estable durante ese tiempo. Los resultados de dicho trabajo son similares a los del presente estudio, aunque en este caso el porcentaje de usuarios que llegaron a controlar la aplicación es ligeramente superior: cinco de nueve y en tres casos la precisión superó el 85%.
Los usuarios 1, 2 y 3 participaron en un estudio previo de control de una aplicación BCI domótica basada en ritmos sensoriomotores [20]. Sólo el usuario 1 llegó a controlar la aplicación, obteniendo una precisión máxima del 70%. En el presente estudio se propuso el empleo de un sistema BCI basado en potenciales P300 para superar esa limitación, que afecta sobre todo a los usuarios que presentan problemas cognitivos. Empleando potenciales P300 los resultados mejoraron en dos de los tres usuarios participantes. El usuario 2 no llegó a controlar ninguna de las aplicaciones. El usuario 1 mejoró la precisión obtenida de un máximo del 70% a una media del 98%. El usuario 3 pasó de no poder controlar la primera aplicación a obtener muy buenos resultados con la aplicación basada en P300: una precisión media del 85%. Esto sugiere que los sistemas BCI basados en P300 son más adecuados para los graves discapacitados físicos, ya que suelen llevar asociado algún problema cognitivo.
4. Conclusiones y trabajos futuros
Los resultados obtenidos por los usuarios participantes en el estudio para controlar la aplicación BCI domótica son prometedores. Ninguno de los usuarios tenía experiencia previa con sistemas BCI basados en potenciales evocados P300. A pesar de ello, cinco de los nueve usuarios fueron capaces de controlar la aplicación BCI con un nivel de precisión aceptable, superior al 65%. Tres de ellos, además, obtuvieron una precisión media igual o superior al 85%.
La aplicación domótica implementada en el presente estudio permite al usuario controlar varios dispositivos presentes en su entorno habitual: TV, DVD, equipo de música, disco multimedia, teléfono, luces, calefactor y ventilador. Así, los usuarios pueden interactuar de forma sencilla con el entorno que les rodea incrementando su independencia y mejorando su calidad de vida. Esta aplicación podría ampliarse en un futuro para permitir el control de cualquier dispositivo presente en un hogar digital. Sería posible incorporar nuevos interfaces de control a la aplicación: Bluetooth, Ethernet, Wireless, etc. De esta forma, las personas con discapacidad podrían acceder con mayor autonomía a todos los dispositivos que se encuentran en su entorno habitual disminuyendo su dependencia de cuidadores, enfermeros, familiares, etc.
El presente estudio presenta ciertas limitaciones que deben señalarse. La principal limitación es el tiempo necesario para la realización de pruebas. Cada sesión conlleva, además del tiempo de interacción del usuario con la aplicación, mucho tiempo de montaje para la correcta colocación de los electrodos, ya que es necesario que la impedancia entre el electrodo y el cuero cabelludo sea baja. Esto consume mucho tiempo y puede influir en la motivación de los usuarios. Para solventar esta limitación se propone la adquisición y empleo de electrodos activos en futuros estudios. Por otro lado, en el presente estudio han participado nueve sujetos. Sería recomendable ampliar el estudio a una muestra de población mayor de forma que los
resultados puedan ser más generalizables. El empleo de electrodos activos favorecería también la participación de más usuarios en futuros estudios. Por último, sería conveniente la incorporación de nuevos métodos de procesado del EEG al sistema desarrollado. Así, se podría mejorar la detección de los potenciales evocados en aquellos usuarios que presentan mayor dificultad para controlar la aplicación. En resumen, la aplicación domótica implementada en el presente estudio permite al usuario controlar varios dispositivos presentes en su entorno habitual atendiendo a necesidades de confort, comunicación y ocio, incrementando su autonomía personal. Cinco de los nueve usuarios participantes en el estudio controlaron la aplicación con valores medios de precisión superiores al 65%. Tres de ellos obtuvieron precisiones superiores al 85%. Estos resultados son prometedores y mejoran los obtenidos por usuarios reales con aplicaciones BCI basadas en ritmos sensoriomotores. Es decir, las aplicaciones basadas en P300 parecen más adecuadas para las personas con grave discapacidad.
Agradecimientos
Este estudio ha sido parcialmente financiado por el “Proyecto Cero 2011 en Envejecimiento” de la Fundación General CSIC y por las “Ayudas a la Investigación 2010” de la Fundación MAPFRE. R. Corralejo es beneficiaria de una ayuda PIRTU financiada por la Consejería de Educación de la Junta de Castilla y León y el Fondo Social Europeo (FSE).
Referencias
[1] J. R. Wolpaw, N. Birbaumer, D. J. McFarland, G. Pfurtscheller, M. Vaughan. Brain–computer interfaces for communication and control. Clin. Neurophysiol. Vol. 113, pp. 767–791, 2002.
[2] E. Donchin, K. M. Spencer, y R. Wijesinghe. The Mental Prosthesis: Assessing the Speed of a P300–Based Brain– Computer Interface. IEEE Trans. Rehab. Eng. Vol. 8, pp. 174–179, 2000.
[3] H. H. Jasper. The Ten Twenty Electrode System of the International Federation. Electroenceph. Clin. Neurophysiol. Vol. 10, pp. 371–375, 1958.
[4] G. Schalk, J. Mellinger. BCI2000 Bulletin Board: Channels for P300 Experiments. 2011. Disponible: http://www.bci2000.org/phpbb/viewtopic.php?f=2&t=918&p=3263.
[5] D. J. McFarland, L. M. McCane, S. V. David, J. R. Wolpaw. Spatial Filter Selection for EEG-based Communication. Electroenceph. Clin. Neurophysiol. Vol. 103, pp. 386–394, 1997.
[6] G. Schalk, J. Mellinger. A Practical Guide to Brain-Computer Interfacing with BCI2000. London: Springer-Verlag. 2010.
[7] D. J. Krusienski, E. W. Sellers, F. Cabestaing, S. Bayoudh, D. J. McFarland, T. M. Vaughan et al. A comparison of classification techniques for the P300 Speller. J. Neural Eng. Vol. 3, pp. 299–305, 2006.
[8] L. A. Farwell, E. Donchin. Talking off the top of your head: toward a mental prosthesis utilizing event-related brain potentials. Electroencephalogr. Clin. Neurophysiol. Vol. 70, pp. 510–523, 1988.
[9] E. G. Cossio, G. G. Gentiletti. Interfaz cerebro computadora (ICC) basada en el potencial relacionado con eventos P300: análisis del efecto de la dimensión de la matriz de estimulación sobre su desempeño. Rev. Ing. Biomed. Vol. 2, pp. 26–33, 2008.
[10] R. A. Fisher. The use of multiple measurements in taxonomic problems. Ann. Eugen. Vol. 7, pp. 179–188, 1936. [11] C. Escolano, A. R. Murguialday, T. Matuz, N. Birbaumer, J. Minguez. A telepresence robotc system operated with a P300-based Brain Computer Interface: Initial tests with ALS patients. Proc. 23nd Annual Int. Conf. IEEE EMBS. Buenos Aires, Argentina, pp. 4476–4480, 2010.
[12] C. S. Nam, Y. Jeon, Y. Li, Y. J. Kim, H. Y. Yoon. Usability of the P300 Speller: Towards a More Sustainable Brain-Computer Interface. Int. J. Hum. Comput. Int. Vol. 1, 2009.
[13] I. Iturrate, J. M. Antelis, A. Kübler, J. Mínguez. A Noninvasive Brain-Actuated Wheelchair Based on a P300 Neurophysiological Protocol and Automated Navigation. IEEE Trans. Robotic. Vol. 25, pp. 614–627, 2009.
[14] D. J. Krusienski, E. W. Sellers, D. J. McFarland, T. M. Vaughan, J. R. Wolpaw. Toward enhanced P300 speller performance. J. Neurosci. Methods. Vol. 167, pp. 15–21, 2008.
[15] E. M. Mugler, C. A. Ruf, S. Halder, M. Bensch, A. Kübler. Design and Implementation of a P300-based Brain-Computer Interface for Controlling an Internet Browser. IEEE Trans. Neural. Syst. Rehabil. Eng. Vol. 18, pp. 599–609, 2010.
18
[16] C. Escolano, J. Antelis, J. Mínguez. Human Brain-Teleoperated Robot between Remote Places. Proc. 2009 IEEE Int. Conf. Robotics and Automation (ICRA). Kobe, Japón, pp. 4430–4437, 2009,.
[17] F. Nijboer, E. W. Sellers, J. Mellinger, M. A. Jordan, T. Matuz, A. Furdea, et al. A P300-based Brain–Computer Interface for People with Amyotrophic Lateral Sclerosis. Clin. Neurophysiol. Vol. 119, pp. 1909–1916, 2008.
[18] U. Hoffmann, J. M. Vesin, T. Ebrahimi, K. Diserens. An Efficient P300-based Brain–Computer Interface for Disabled Subjects. J. Neurosci. Methods, Vol. 167, pp. 115–125, 2008.
[19] RedRat Ltd. Website. Disponible: http://www.redrat.co.uk. Última consulta: 10 de noviembre de 2011.
[20] R. Corralejo, R. Hornero, D. Álvarez. A Domotic Control System Using Brain Computer-Interface (BCI). Lecture Notes in Computer Science, Part I, Proc. International Work-Conference on Artificial Neural Networks (IWANN 2011). Torremolinos, España, vol. 6691, pp. 345–352, 2011.
Enseñando a un brazo robótico a realizar tareas
de alcance mediante señales cerebrales
cognitivas de error
I. Iturrate
1, R. Chavarriaga
2, L. Montesano
1, J. Mínguez
1, J.d.R. Millán
21 I3A, DIIS, Universidad de Zaragoza. {iturrate, montesano, jminguez}@unizar.es
2 École Polytechnique Fédérale de Lausanne (EPFL), CH-1015, Lausanne, Suiza. {ricardo.chavarriaga, jose.millan}@epfl.ch
Resumen
Este trabajo describe un nuevo paradigma en el desarrollo de Brain-Computer Interfaces (BCI) invasivos y no-invasivos: la actividad cerebral no está mapeada en el espacio de control del dispositivo (operación mediante control). En su lugar, el dispositivo usa la actividad cerebral del usuario para aprender por aprendizaje por refuerzo su política de estados y acciones en el espacio de control (operación mediante enseñanza). En otras palabras, el sujeto no opera directamente el dispositivo, sino que evalúa de forma natural las acciones del dispositivo mientras éste aprende de manera autónoma cómo realizar la tarea. El nuevo paradigma ha sido evaluado con 6 sujetos, en un conjunto de tres escenarios con complejidad creciente, incluyendo la operación de un robot real de 7 grados de libertad. El paradigma propuesto abre la puerta al diseño de nuevos dispositivos aplicaciones para el control en línea de dispositivos protésicos que operen en tareas complejas, con una interacción natural y sin esfuerzo entre el usuario y el dispositivo.
Palabras clave: Interfaces Cerebro-Ordenador, Aprendizaje por Refuerzo
1. Introducción
Las personas afectadas por enfermedades neuromusculares severas, como la lesión de médula espinal o el infarto cerebral, sufren usualmente de una pérdida parcial o completa de funcionalidad de los miembros. Los Interfaces Cerebro-Ordenador (BCI por sus siglas en inglés) han surgido como una nueva alternativa para recuperar la funcionalidad de miembros dañados, donde las señales neurales se mapean en comandos para el control multidimensional de dispositivos. En los últimos años, los sistemas BCI han conseguido grandes avances usando técnicas tanto invasivas como no invasivas.
Los BCI invasivos [1] se basan en la estimación de la cinemática de los movimientos de brazo o mano mediante el análisis en tiempo real de señales provenientes de, por ejemplo, el córtex motor en primates [2], o señales de electrocorticograma (ECoG) en humanos [3]. Esta actividad neuronal, combinada con procesos de aprendizaje mediante retroalimentación, ha demostrado su utilidad para el control de dispositivos en espacios de trabajo tanto virtuales como reales [1]. Por otra parte, los BCI no invasivos [4] utilizan la auto-regulación de amplitudes de ritmos cerebrales (slow cortical potentials), cambios en el espectro de potencia (ritmos µ y β), imaginación motora de miembros , imaginación de tareas mentales cognitivas, o atención a estímulos visuales (potenciales P300 o SSVEPs). En varios sistemas BCI hay un aprendizaje explícito inducido por una estrategia de retroalimentación, mientras que en otros las señales son evocadas, pero ambos tipos se han usado para el control de dispositivos en espacios de trabajo virtuales y reales [4].
20
Un aspecto clave compartido por los BCI invasivos y no invasivos es el diseño del paradigma, donde la intención de control del usuario se decodifica y mapea en el espacio de control del dispositivo. En los BCI invasivos, la capacidad de decodificación es alta, permitiendo demostraciones de control complejas [1]. Sin embargo, el control de dispositivos mediados por retroalimentación está alcanzando un límite de rendimiento, debido fundamentalmente a las propiedades matemáticas del modelo [1]. Por otra parte, en los BCI no invasivos la capacidad de decodificación es baja, impidiendo el control complejo de dispositivos. Esto ocurre porque el número máximo de comandos que se pueden distinguir es bajo (en el caso de prótesis robóticas, entre 2 y 4 [5,6]). Aunque este problema se ve relajado gracias al uso de sistemas de control compartido [7-9], la limitación de proveer el control natural y la escalabilidad a sistemas complejos todavía existe.
Este trabajo describe un nuevo paradigma en el desarrollo de BCIs invasivos y no-invasivos: la actividad cerebral no está mapeada en el espacio de control del dispositivo (operación mediante control). En su lugar, el dispositivo usa la actividad cerebral del usuario para aprender por aprendizaje por refuerzo su política de estados y acciones en el espacio de control. En otras palabras, el sujeto no opera directamente el dispositivo, sino que evalúa de forma natural las acciones del dispositivo mientras éste aprende de manera autónoma cómo realizar la tarea. En el lado del usuario, la evaluación de las acciones se obtiene de la decodificación de los potenciales de error (ErrP por sus siglas en inglés) [10-12], potenciales que se evocan cuando el sujeto observa una diferencia entre la acción esperada y la acción ejecutada por el dispositivo [11,12]. En el lado del robot, esta información de evaluación se usa en un algoritmo de aprendizaje por refuerzo, que construye la política de estados-acciones en el espacio de la tarea. En principio, este nuevo paradigma es natural (el usuario evalúa acciones de un dispositivo), de bajo esfuerzo (el ratio de interacción es bajo), la tarea se aprende de forma subjetiva (el robot aprende de acuerdo a las preferencias del usuario), y escalable a tareas más complejas (dado que las limitaciones de aprendizaje se trasladan al robot). En el presente trabajo se describe una metodología de uso del paradigma, y su implementación y pruebas con 6 sujetos en tres tareas de alcance, incluyendo una con un robot real. Los resultados demuestran la viabilidad del nuevo paradigma, abriendo la puerta al diseño de nuevas aplicaciones BCI para el control complejo de dispositivos protésicos, con una interacción natural entre usuario y dispositivo.
El artículo se estructura como sigue: la sección 2 describe el diseño experimental, y la integración del algoritmo de aprendizaje por refuerzo con las señales EEG. La sección 3 presenta los análisis realizados y resultados obtenidos, y finalmente en la sección 4 se discuten los resultados y el trabajo futuro.
2. Metodología
A. Adquisición de EEGEl EEG fue adquirido con un sistema gTec con 16 electrodos conectado vía USB a un ordenador. Los electrodos fueron colocados siguiendo el sistema internacional 10/20 y trabajos previos en potenciales de error [11,12]. La tierra se colocó en la frente, y la referencia en el lóbulo de la oreja izquierda. El EEG fue adquirido a 256 Hz. Finalmente, el EEG se filtró con un filtro de paso banda de [1-10] Hz y un filtro CAR.
B. Diseño de los experimentos
Tres experimentos de complejidad creciente se diseñaron con el mismo objetivo: enseñar a un dispositivo cómo ejecutar una tarea de alcance (ver Figuras 1). 6 sujetos (edad media 27.33 años) realizaron los experimentos. Cada participante ejecutó cada experimento en una sesión de aproximadamente 3 horas. Durante la sesión, los participantes observaron movimientos realizados por un dispositivo, evaluándolos como correctos o incorrectos, evitando mover los ojos o parpadear fuera de los periodos de descanso. Cada sesión se dividió en una fase de entrenamiento del clasificador (de duración variable), y una fase de
aprendizaje del dispositivo en línea (de duración fija). Cada fase se dividió en varias ejecuciones, y cada ejecución consistió en 100 movimientos ejecutados por el dispositivo.
Figura 1. Experimentos realizados.
1) Experimento 1, cuadrado móvil virtual (Figura 1 izquierda): los participantes observaron una pantalla de ordenador con un cuadrado móvil azul (dispositivo), un grid horizontal con 9 posiciones (estados) y un cuadrado rojo (objetivo). En cada posición, el cuadrado azul podía ejecutar 2 acciones instantáneas: moverse una posición a la derecha o a la izquierda. Se instruyó al usuario para evaluar mentalmente las acciones como correctas cuando el movimiento era hacia la posición objetivo, o como incorrectas en caso contrario. El tiempo entre dos acciones consecutivas era aleatorio, dentro del rango [1.7-3.0] s, Cuando el dispositivo alcanzó el objetivo, su posición se reinicializaba a una nueva. El objetivo permaneció en la misma posición en cada ejecución, y se cambió aleatoriamente entre ejecuciones entre dos posibles posiciones: el estado en el límite izquierdo, o el estado en el límite derecho.
2) Experimento 2, brazo robótico simulado (Figura 1 centro): los participantes observaron una pantalla de ordenador con un entorno virtual con un robot (dispositivo). El robot simuló un Barret Whole Arm Manipulator (WAM) con 7 grados de libertad. Adicionalmente, se representaron 13 posiciones con cuadrados naranjas (estados), y una de ellas verde (objetivo). El robot se situó detrás de los cuadrados apuntando a la posición con el efector final, pudiendo ejecutar 4 acciones: moverse una posición a la izquierda, derecha, arriba o abajo. Los movimientos del robot eran continuos, durando aproximadamente 500 ms. Se instruyó al usuario para evaluar los movimientos como correctos cuando fueran hacia el objetivo, e incorrectos en caso contrario. El tiempo entre dos acciones fue aleatorio, dentro del rango [2.5-4.0] s. Cuando el robot alcanzó el objetivo, su posición se reinició a un nuevo estado. El objetivo permaneció en la misma posición en cada ejecución, y se cambió aleatoriamente entre ejecuciones entre cuatro posibles posiciones: el estado en el límite izquierdo, derecho, superior o inferior.
3) Experimento 3, brazo robótico real (Figura 1 izquierda): este experimento siguió la misma configuración que el experimento anterior, pero usando un brazo robótico real. El robot usado fue un Barret Whole Arm Manipulator. El usuario se sentó a dos metros de distancia del robot. Se usó un panel transparente para marcar las posibles posiciones del robot, con una distancia de 15 cm entre dos estados vecinos.
C. Diseño del clasificador
El clasificador EEG se diseñó con el objetivo de diferenciar entre las dos evaluaciones mentales (movimiento correcto o incorrecto del dispositivo). El diseño del clasificador consistió en dos fases: extracción y selección de características y entrenamiento del clasificador.
La extracción y selección de características se realizó mediante un filtro espacio temporal [13], cuya entrada fueron los ejemplos de entrenamiento etiquetados, y la salida fueron las características extraídas. Para cada
22
ejemplo, se usaron 8 canales fronto-centrales en una ventana de [200-800] ms submuestreados a 64 Hz, y concatenados formando un vector de 312 características. A continuación, las características fueron normalizadas y decorreladas con Principal Component Analysis (PCA) usando todos los ejemplos. Finalmente, se llevó a cabo un proceso de selección de características mediante 5-fold cross-validation, reteniendo sólo las F mejores características de acuerdo a la métrica de separabilidad r2. Finalmente, las F características de todos los ejemplos se usaron para entrenar un clasificador discriminante lineal (LDA) [14].
D. Aprendizaje por refuerzo con recompensas basadas en el EEG
El algoritmo de aprendizaje por refuerzo (RL) [15] se modeló como un proceso de decisión de Markov, definido mediante la tupla {S, A, P, r, γ}, con S el espacio de estados (posiciones del dispositivo), A el espacio de acciones y P: S x A → S las probabilidades de transición del estado s al estado s’ cuando se ejecutó la acción a. La función de recompensa r: S x A → R modeló la evaluación de la acción ejecutada en el estado s. El objetivo del RL es el de obtener una política π: S → A que mapea el espacio de estados al estado de acciones (es decir, qué acción se debe ejecutar en cada estado), mediante la maximización de la recompensa esperada en el instante k, calculado mediante la estimación de la función Q:
, donde es un factor de descuento (fijado empíricamente a 0.4). La política óptima π* se obtiene de la función óptima Q* como la política que siempre ejecuta la acción a’ para cada estado s, donde a’ es la acción con máximo valor Q en el estado s:
La función Q óptima se resolvió de forma iterativa usando el algoritmo Q-learning [15]:
, donde k es la iteración actual, y α es el ratio de aprendizaje (fijado empíricamente a 0.1). Durante el proceso iterativo en el instante k, el dispositivo ejecutó una acción ak del estado sk al estado sk+1. En ese momento, la evaluación del usuario (decodificada por el clasificador) se convirtió en una recompensa rk+1 (sk,ak). Inicialmente, se asignó 0 a todos los valores Q.
Para garantizar un equilibrio entre exploración y explotación del entorno. Se usó una política ε-greedy, con ε=0.2, para seleccionar la acción ak a ejecutar en cada paso k. Esta política seleccionó la acción con mayor valor Q el (100-ε)% de las veces, mientras que un ε% de las veces se eligió una acción aleatoria.
La función de recompensa rk+1 en cada paso k se calculó de acuerdo a la salida del clasificador: una vez se ejecutó una acción, la recompensa fue codificada como -1 cuando el clasificador detectó la evaluación del usuario como incorrecta, y como +1 cuando se detectó como correcta. Dado que la salida del clasificador era estocástica, la función de recompensa también lo fue. Por lo tanto, la velocidad de convergencia del sistema dependerá en gran medida del rendimiento del clasificador. Además, la convergencia se asegurará si o sólo si el rendimiento de detección de ambas evaluaciones (correcta e incorrecta) es superior al 50%.
3. Resultados
A. Análisis del rendimiento del clasificador
La tabla 1 muestra el rendimiento del clasificador en la detección de los potenciales correctos e incorrectos obtenidos durante la ejecución en línea de los experimentos. Adicionalmente, la tabla muestra el rendimiento total del clasificador, definido como el porcentaje de señales correctamente detectadas en total (sin tener en cuenta la clase a la que pertenecen).
En media, el rendimiento total fue superior al 75% para los tres experimentos, y todos los sujetos (excepto el sujeto 3 en los experimentos 2 y 3) obtuvieron rendimientos totales mayores o iguales al 70%. Los rendimientos obtenidos fueron suficientes para permitir la convergencia del aprendizaje por refuerzo, dado que los rendimientos para las clases correcto y error fueron siempre superiores al 50% (excepto sujeto 3, experimento 2). EXPERIMENTO 1 s1 s2 s3 s4 s5 s6 mean std Correcto 88,48 95,40 75,71 69,28 80,72 72,06 80,28 10,05 Error 80,00 80,77 63,33 78,72 82,35 65,63 75,13 8,37 Total 87,00 93,50 72,00 71,50 81,00 70,00 79,17 9,64 EXPERIMENTO 2 s1 s2 s3 s4 s5 s6 mean std Correcto 85,42 81,85 71,65 77,82 89,18 84,08 81,67 6,19 Error 73,33 67,11 50,00 79,85 75,76 61,94 68,00 10,87 Total 82,25 76,25 60,50 78,50 84,75 75,50 76,29 8,51 EXPERIMENTO 3 s1 s2 s3 s4 s5 s6 mean std Correcto 89,75 82,09 62,07 88,36 80,09 77,06 79,90 9,99 Error 90,60 87,61 56,64 65,48 75,74 59,75 72,64 14,35 Total 90,00 83,73 59,00 78,75 78,21 70,00 76,62 10,87
Tabla 1. Rendimiento del clasificador (en %) de los potenciales correctos y de error, y rendimiento total del clasificador. Los resultados se muestran para cada sujeto y mediados.
B. Análisis del aprendizaje por refuerzo
La figura 4 muestra las políticas óptimas para cada uno de los objetivos usados durante el aprendizaje por refuerzo, así como el número de sujetos para los cuales el dispositivo fue capaz de aprender la política. Para el primer experimento, la política aprendida convergió a la óptima en el 88% de los estados. En el experimento 2 las políticas óptimas fueron peor estimadas dado que la tarea de movimiento era más compleja. Por ejemplo, cuando el objetivo fue abajo, el estado central se estimó mal en 3 de los 6 sujetos. No obstante, la política se estimó correctamente en el 83% de los estados. Finalmente, el experimento 3 presentó unos resultados muy similares a los obtenidos con el experimento 2, donde la política se estimó correctamente en un 84% de las ocasiones. Estos resultados demuestran que el paradigma diseñado mediante aprendizaje por refuerzo es viable, con un porcentaje de rendimiento muy alto incluso en entornos más realistas y complejos.
24
EXPERIMENTO 1
EXPERIMENTO 2
EXPERIMENTO 3
Figura 2. Políticas óptimas junto al número de usuarios para los cuales la política se estimó correctamente.
4. Discusión
En este trabajo se ha descrito un cambio de paradigma en el diseño de BCIs: la actividad cerebral no se mapea en el espacio de control, sino que se usa esta actividad para enseñar a un robot cómo ejecutar una tarea. El paradigma ha sido demostrado en 3 escenarios diferentes, demostrando la viabilidad del sistema propuesto.
Una ventaja del sistema propuesto es que puede ser usado para aprender cualquier punto del espacio deseado por el usuario. Es más, el usuario puede decidir la forma de ejecución de la tarea, permitiendo así que el dispositivo se adapte a sus preferencias.
Otro punto clave del sistema es la escalabilidad del paradigma a tareas más complejas. Contrariamente a la decodificación de señales BCI, el campo del aprendizaje por refuerzo ofrece numerosas alternativas para su uso en tareas más complejas, con espacios de trabajo mayores. Algunos de estos ejemplos son el coarse coding, el tile coding, o la aproximación de funciones [15]. Adicionalmente, se han presentado trabajos donde un robot real aprende a realizar tareas complejas (como golpear una bola con un bate) en espacios de trabajos continuos [16].
Así, como trabajo futuro se pretende probar el sistema en sistemas más complejos. Además del uso de algoritmos de aprendizaje por refuerzo alternativos, será necesario un modelado más complejo de la función de recompensa, en lugar del modelado binario {-1,+1} propuesto en el presente trabajo.
Referencias
[1] M.A. Lebedev and M.A.L. Nicolelis, “Brain-machine interfaces: past, present and future,” TRENDS in Neurosciences, vol. 29, no. 9, pp. 536–546, 2006.
[2] Maryam Saleh, Kazutaka Takahashi, Yali Amit, , and Nicholas G. Hatsopoulos, “Encoding of coordinated grasp trajectories in primary motor cortex,” Journal of Neuroscience, vol. 30, no. 50, pp. 17079–17090, 2010.
[3] Soumyadipta Acharya, Matthew S Fifer, Heather L Benz, Nathan E Crone, and Nitish V Thakor, “Electrocorticographic amplitude predicts finger positions during slow grasping motions of the hand,” Journal of Neural Engineering, vol. 7, no. 4, pp. 046002, 2010.
[4] J. d. R. Millán, R. Rupp, G. Müller-Putz, R. Murray-Smith, C. Giugliemma, M. Tangermann, C. Vidaurre, F. Cincotti, A. Kübler, R. Leeb, C. Neuper, K. R. Müller and D. Mattia. “Combining brain-computer interfaces and assistive technologies: state-of-the-art and challenges.”, Frontiers in Neuroscience, vol. 4, num. 161, 2010.
[5] C. Neuper, G.R. Müller-Putz, R. Scherer, and G. Pfurtscheller, “Motor imagery and eeg-based control of spelling devices and neuroprostheses,” Progress in brain research, vol. 159, pp. 393–409, 2006.
[6] G.R. Muller-Putz and G. Pfurtscheller, “Control of an electrical prosthesis with an ssvep-based bci,” Biomedical Engineering, IEEE Transactions on, vol. 55, no. 1, pp. 361–364, 2008.
[7] J.d.R. Millán, F. Renkens, J. Mouriño, and W. Gerstner, “Non-invasive Brain-Actuated Control of a Mobile Robot by Human EEG,” IEEE Transactions on Biomedical Engineering, vol. 51, no. 6, June 2004.
[8] I. Iturrate, J. Antelis, A. Kübler, and J. Minguez, “Non-invasive brain- actuated wheelchair based on a P300 neurophysiological protocol and automated navigation,” IEEE Transactions on Robotics, vol. 25, no. 3, pp. 614–627, 2009.
[9] C. Escolano, J. Antelis, and J. Minguez, “A telepresence mobile robot controlled with a non-invasive brain-computer interface,” Journal of IEEE Transactions on Systems, Man and Cybernetics (in press), vol. PP, pp. 1–12, 2011.
[10] M. Falkenstein, J. Hoormann, S. Christ, and J. Hohnsbein, “ERP components on reaction errors and their functional significance: A tutorial,” Biological Psychology, vol. 51, pp. 87–107, 2000.
[11] R. Chavarriaga and J.d.R. Millán, “Learning from EEG error-related potentials in noninvasive brain-computer interfaces,” IEEE Transactions on Neural Systems and Rehabilitation Engineering, vol. 18, no. 4, pp.
381–388, 2010.
[12] I. Iturrate, L. Montesano, and J. Minguez, “Robot reinforcement learning using EEG-based reward signals,” in IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2010, pp. 4822–4829.
[13] I. Iturrate, L. Montesano, R. Chavarriaga, J.d.R. Millán, and J. Minguez, “Spatio-temporal filtering for EEG error related potentials,” in 5th Int. Brain-Computer Interface Conference, 2011.
[14] F. Lotte, M. Congedo, A. Lécuyer, F. Lamarche, and B. Arnaldi, “A review of classification algorithms for EEG-based brain–computer interfaces,” Journal of Neural Engineering, vol. 4, pp. R1, 2007.
[15] R.S. Sutton and A.G. Barto, Reinforcement learning: An introduction, MIT Press, 1998.
[16] J. Peters and S. Schaal, “Reinforcement learning of motor skills with policy gradients,” Neural Networks, vol. 21, no. 4, pp. 682–697, 2008.
Propuesta de un teclado virtual predictivo
controlado a través del potencial P300
Ricardo Ron-Angevin
1, Leandro Silva-Sauer
2, Alejandro Aguilar-García
31Universidad de Málaga: Campus Teatinos s/n Málaga, España, Tel: 952132897, Fax:952131447, [email protected]
2,3Universidad de Málaga: Campus Teatinos s/n Málaga, España, Tel: 952137180, Fax:952131447, [email protected], [email protected]3
Resumen. Personas afectadas por determinadas discapacidades motoras pueden tener grandes dificultades
para la comunicación. Las interfaces cerebro-computadora (BCIs) permiten al usuario controlar un canal de comunicación a través de su actividad cerebral. Entre estas interfaces, aquellas basadas en el potencial P300 ofrecen la posibilidad de habilitar un medio de comunicación a estos pacientes, proporcionándoles una mayor autonomía. En este trabajo se presenta un estudio inicial que propone la utilización de una nueva interfaz basada en el teclado usado por el predictor T9 de los teléfonos móviles, incorporando además un predictor de palabras. El rendimiento de dicha interfaz es comparado con una interfaz basada en el paradigma de un P300 Speller convencional [1]. Resultados preliminares sugieren que el sistema basado en la interfaz propuesta es más efectivo que el basado en el P300 Speller, ofreciendo mejores resultados tanto en velocidad de escritura como en el número de aciertos, lo que es especialmente importante para personas con severas discapacidades neuromotoras.
Palabras clave:Brain computer interfaz, P300, predictor T9.
1. Introducción
Una interfaz cerebro-computadora (Brain Computer Interface, BCI), o sistema BCI, permite la comunicación entre el cerebro y un dispositivo externo. El sistema proporciona y establece un canal adicional de comunicación, transformando señales cerebrales en comandos que son interpretados por la máquina sin que se realicen movimientos musculares. Los sistemas BCI pueden ayudar a personas afectadas por severas discapacidades motoras como la Esclerosis Lateral Amiotrófica a expresarse y, de este modo, proporcionarles una mayor autonomía en su vida diaria [2] y [3].
Figura 1. Diagrama de bloque de un sistema BCI.
En la Figura 1 se puede observar el diagrama de bloques de un sistema BCI. Actualmente los sistemas BCI basados en el registro de señales electroencefalográficas (EEG) son los más usados debido, fundamentalmente, a su no invasividad, pero también, a su buena resolución temporal y facilidad de uso. De las señales EEG se puede obtener el potencial P300, un potencial evocado que puede ser registrado como
28
una deflexión positiva de voltaje con una latencia de unos 300ms tras la percepción de un estimulo infrecuente o particularmente significativo. La amplitud (pico) de dicho potencial oscila entre los 2 y 5 microvoltios y su distribución de potencial se localiza de manera simétrica alrededor de Cz, con mayor potencia en la parte occipital que en la parte frontal [4].
Una variedad de estudios realizados con personas sanas [5] y [6]y otros con personas afectadas de alguna discapacidad motora [7] concluyen que el procesador de texto P300 Speller es un instrumento muy efectivo de comunicación para personas que han perdido o que están perdiendo la capacidad de escribir o hablar. Además, trabajos en fase inicial, con tests individuales utilizando el P300 Speller en el uso diario, indican que los beneficios en velocidad, eficacia y facilidad de uso son superiores o igual a otras tecnologías asistidas [8].
En este trabajo se presenta un nuevo teclado virtual basado en el potencial P300 para escribir palabras y frases. El teclado reproduce la interfaz T9 que se desarrolló en los teléfonos móviles para agilizar y reducir el tiempo de escritura, así como la introducción de un predictor de palabras. Se supone que el predictor a la hora de escribir aumenta la velocidad de escritura (discutido en [9]). Esto permite, mediante un diccionario previamente cargado en el sistema, predecir cuál es la palabra más probable con la combinación de letras seleccionadas actualmente. El predictor asociado a la interfaz T9 posibilita la utilización de una mayor variedad de caracteres en una matriz reducida. La matriz reducida ya ha sido estudiada por otros autores que afirman mejores resultados frente a una matriz de mayor tamaño [10] y [11], pero con un número limitado de caracteres. Para generar una interfaz que permita esta comunicación, la mayoría de los estudios actuales se basan en el paradigma de la matriz Speller (fila/columna) introducido por [1], el cual todavía es referenciado e intensamente estudiado [4], [10], [12] y [13].
En el presente artículo se propone el diseño e implementación de una interfaz basada en el P300 que presenta un teclado virtual que reproduce la interfaz T9, teniendo como finalidad reducir y mejorar la calidad de escritura. Los resultados son comparados con dos adaptaciones de la matriz estándar Speller 6x6 propuesta por [1].
2. Metodología
2.1 Participantes y adquisición de dados
Tres voluntarios sanos (un hombre de 36 años y dos mujeres 25 y 22 años)participaron en 3 sesiones de BCI cada uno sin tener ninguna experiencia previa. Esta pequeña muestra hace parte de un largo experimento que se está llevando a cabo. Los sujetos son distribuidos en grupos de acuerdo con el orden de llegada. En cada grupo, los sujetos pasan por las 3 fases del experimento configurando un estudio de caso único ABC reversible para un mayor/mejor control interno, además de evitar que el “aprendizaje previo” sea un factor favorable para alguna interfaz. La fase A es el Predictor T9, la fase B es el SpellerMod Predictor y la fase C es el SpellerMod. Las fases se explicarán con mayor detalla más adelante. La sesión, a su vez, consistía en una primera fase de calibración y la segunda fase de evaluación. En la fase de evaluación de cada interfaz se solicitaba al sujeto escribir la frase: “Experiencia BCI en la Universidad de Málaga”. La instrucción dada al sujeto era que contase mentalmente las veces que parpadeaba la tecla que deseaba seleccionar. Al final de cada sesión se pasaba al sujeto un cuestionario objetivo auto-informe con cuestiones referentes a la satisfacción del experimento.
Las señales EEG fueran registradas a través de 8 canales unipolares en las posiciones: P3, P4, PO8, Fz, Cz, Pz, PO7 y Oz, de acuerdo con el sistema internacional 10/20. El electrodo de referencia se situó en la posición FPz y la tierra en el lóbulo de la oreja izquierda. La señal fue amplificada por un amplificador de 16 canales (g.BSamp de Guger Technologies) y digitalizadas a 256 Hz por una tarjeta de adquisición NI USB-6210 (National Instruments).
2.2 Diseño experimental
En lugar de desarrollar una aplicación desde el inicio, se optó por utilizar un software libre que implementase los diferentes bloques (adquisición de la señal, procesado de la señal y aplicación del usuario) de un sistema BCI, y para ello se escogió el BCI2000. El BCI2000 es un sistema de propósito general para el diseño interfaces cerebro-computadora. Se puede utilizar para la adquisición de datos, procesado de la señal, presentación de estímulos, aplicaciones de monitorización cerebral, etc. Inicialmente se parte de la necesidad de implementar nuevos módulos para satisfacer nuestras necesidades. Para ello se diseñaron tres módulos diferentes para la fase de “Aplicación del usuario”, lo que implicó tres aplicaciones diferentes a testear: Predictor T9, SpellerMod y spellerMod Predictor. Seguidamente se explica el funcionamiento de cada uno de estos módulos, o lo que es lo mismo, la aplicación que interactúa con el sujeto.
Puesto el objetivo es hacer un estudio comparativo entre las 3 interfaces (aplicaciones), se optó por mantener todos los parámetros temporales necesarios para seleccionar una tecla, constantes. En este sentido, tras varias pruebas experimentales se fijo en 20 el número de ciclos de parpadeo necesarios para que el sistema tome una decisión, entendiendo por ciclo de parpadeo el necesario para que se produzca un flash de cada una de las teclas de la interfaz (10 columnas y 10 filas). El intervalo de tiempo entre flashes consecutivos era de 125ms, dejando una pausa de 2s entre ciclos de parpadeo. Es importante resaltar que dependiendo del tamaño de la matriz, el tiempo necesario para seleccionar una tecla puede variar considerablemente.
2.3 Predictor T9
La interfaz elegida para este caso es un teclado T9 (una matriz 4x3), tal y como se muestra en la figura 2. A través de dicha interfaz el sujeto es capaz de escribir palabras ayudado de un diccionario que selecciona la combinación de letras más favorable a las teclas que se vayan seleccionando. Dicha combinación de letras es mostrada en la ventana “Predictor T9” (ventana inferior). Además, hay una opción que muestra las palabras más probables con la combinación de letras actual, permitiendo la escritura de palabras más largas de forma directa. Dicha palabra se muestra en la ventana “Autocomplementar Palabra” (ventana pequeña).
Figura 2. Interfaz basada en el predictor T9.
Existen dos modos de funcionamiento, el modo alfabético y el modo numérico. La interfaz se inicializa en modo alfabético pudiendo, una vez que se haya escrito y aceptado una palabra, cambiar al modo numérico seleccionando la tecla “c” (cambiar) (no se pueden escribir palabras alfanuméricas, como por ejemplo, 3G). En caso de seleccionar dicho modo numérico, para volver al modo alfabético hay que volver a seleccionar la tecla “c” (cambiar) tras haber escrito un número. En caso de escribir un número no se puede incluir el espacio (tecla 0), y la validación del número viene implícita cuando se selecciona la tecla “c”. En ambos modos se puede utilizar la tecla “x” (borrar) para borrar la última tecla seleccionada.
En la interfaz alfabética, además de la tecla “c”, que adopta un nuevo modo de funcionamiento, existen dos teclas con nuevas funcionalidades. La tecla “1” (validar) permite validar la palabra más probable con las teclas que se hayan seleccionado hasta el momento, y que aparece en la ventana “Autocomplementar
30
Palabra”. El orden de estas palabras ha sido extraído de un documento oficial de la Real Academia de la Lengua Española (RAE). Por ejemplo, si se selecciona primero la tecla 4 y a continuación la tecla 6, el predictor nos diría que la palabra más probable sería GOBIERNO. Si deseamos escribir esa palabra, simplemente presionando la tecla “1” conseguimos escribir la palabra y validarla. La tecla “0” permite insertar un espacio a la palabra que se haya escrito, validándola a su vez. Es posible que con la combinación de teclas seleccionadas se puedan escribir varias palabras (Teclas: 2-2-7-2 Æ CASA, CARA, BARA, BATA,…). Seleccionando la tecla “c” se cambia de matriz, apareciendo una nueva matriz que muestra todas las palabras posibles para que el sujeto seleccione la que desea (ver figura 3). Cabe la posibilidad de volver a la matriz anterior en caso de equívoco seleccionando la tecla “VOLVER”.
Figura 3. Matriz con distintas combinaciones de palabras asociadas a un conjunto de teclas.
La tecla “x” permite borrar las teclas seleccionadas o deshacer el último movimiento. Además, esta tecla tiene una funcionalidad especial cuando se seleccionan teclas que no forman ninguna palabra. En caso de seleccionar la tecla “x” tras haber escrito varias letras “sin sentido”, como por ejemplo 2589… (para escribir: altura), elimina automáticamente todas las letras que no forman una palabra del diccionario hasta la última combinación coherente. Con los parámetros temporales descritos en el apartado 2.2, el tiempo de selección de un carácter a través de esta interfaz es de 19,5 s.
2.4 SpellerMod
En este caso, la matriz es una matriz alfanumérica de 7x6 adaptada de la matriz 6x6 propuesta por [1], donde cada celda es una letra, número o función individual (figura 4). Es una modificación de la matriz original 6x6 pero con la diferencia de que se han incluido dos celdas más para que fuese capaz de borrar caracteres e introducir un espacio sin prescindir de las teclas originales (última fila). De este modo, las opciones de escritura son idénticas a la interfaz anterior.
Figura 4. Interfaz SpellerMod.
La selección de letras o números se hace de manera individual existiendo dos teclas de función que permiten borrar el último carácter “BORRAR” y añadir un espacio “ESPACIO”. En este caso no existe ningún diccionario que ayude al sujeto, simplemente lo que se selecciona se escribe. Con los parámetros
temporales descritos en el apartado 2.2, el tiempo de selección de un carácter a través de esta interfaz es de 34,5 s.
2.5 SpellerMod Predictor
Si bien el principal objetivo del estudio era comparar la interfaz basada en el predictor T9 con una básica basada en la matriz 6x6 propuesta por [1] (SpellerMod), se optó también por estudiar las prestaciones de la interfaz básica cuando ésta incluía la opción del predictor de palabra. De este modo, la interfaz SpellerMod Predictor es idéntica a la anterior pero incorporando una nueva función “VALIDAR” (Figura 5) que permite aumentar la velocidad de escritura. El modo de funcionamiento del predictor de palabra es similar al de la primera interfaz (predictor T9), incluyendo de nuevo un diccionario que ofrece, a través de una ventana “Autocomplementar Palabra”, la palabra más probable con la combinación de teclas seleccionadas. Al seleccionar “VALIDAR”, se selecciona directamente dicha palabra. Al igual que con la interfaz anterior (SpellerMod), el tiempo de selección de un carácter a través de esta interfaz es de nuevo de 34,5 s.
Figura 5. Interfaz SpellerMod Predictor
3. Resultados y discusión
Para comprobar la eficacia de la nueva interfaz propuesta (predictor T9), los sujetos fueron sometidos, de forma aleatoria, a cada una de las tres interfaces. En cada interfaz el sujeto debía escribir la frase: “Experiencia BCI en la universidad de Málaga”. En la tabla 1, se pueden observar los resultados en tiempo de ejecución (s) obtenidos por los 3 sujetos para escribir cada palabra en cada uno de los modos (ordenados de arriba abajo según el orden de realización de la prueba), así como el tiempo total de la frase. También se consideran los fallos al escribir la frase y las rectificaciones de los mismos, lo cual permite completar las frases en los tres modos.
Sujetos Modos Experiencia BCI en la universidad de Málaga Frase
SpellerModPred 172,5 138 103,5 69 207 103,5 207 1000,5 PredT9 78 78 58,5 39 97,5 39 117 507 Sujeto 03 SpellerMod 414 138 103,5 103,5 621 103,5 276 1759,5 SpellerMod 483 345 310,5 172,5 483 103,5 276 2173,5 PredT9 78 156 58,5 78 214,5 78 177 840 Sujeto 06 SpellerModPred 138 103,5 103,5 517,5 172,5 69 345 1449 SpellerMod 414 138 103,5 103,5 414 172,5 207 1552,5 SpellerModPred 138 138 103,5 69 172,5 69 207 897 Sujeto 09 PredT9 78 117 78 39 97,5 39 156 604,5 SpellerModPred 138 103,5 103,5 69 172,5 69 207 862,5 PredT9 78 78 58,5 39 97,5 39 117 507 Sujeto Perfecto SpellerMod 414 138 103,5 103,5 414 103,5 270 1546,5
Tabla 1. Los valores hacen referencia a los tiempos de los 3 sujetos y el tiempo óptimo (en segundos) para escribir cada palabra y toda la frase: “Experiencia BCI en la universidad de Málaga”.