por Refuerzo y su Aplicación en Rehabilitación Virtual

(1)

Adaptación en Línea de una Política de Decisión utilizando Aprendizaje

por Refuerzo y su Aplicación en Rehabilitación Virtual

Por,

Shender María Ávila Sansores

Tesis sometida como requisito parcial para obtener el grado de Maestro en Ciencias en el Área de Ciencias Computacionales

en el Instituto Nacional de Astrofísica, Óptica y Electrónica

©INAOE 2013

El autor otorga al INAOE el permiso de reproducir y distribuir copias en su totalidad o en partes de esta tesis

Supervisada por:

Dr. Luís Enrique Sucar Succar

Dr. Felipe Orihuela Espina

(2)

(3)

Adaptaci´ on en L´ınea de una Pol´ıtica de Decisi´ on utilizando Aprendizaje por Refuerzo y su

Aplicaci´ on en Rehabilitaci´ on Virtual

Tesis de Maestr´ıa

Por:

Shender Mar´ıa ´ Avila Sansores

Asesores:

Dr. Lu´ıs Enrique Sucar Succar Dr. Felipe Orihuela Espina

Instituto Nacional de Astrof´ısica Óptica y Electrónica Coordinación de Ciencias Computacionales

Tonantzintla, Puebla. Febrero 2013

(4)

(5)

Agradecimientos

Agradezco a mi esposo Alejandro Gonzaga por darme la fuerza y la luz que en un momento de mi vida cre´ı perdida. Agradezco tambi´en a mi familia que aunque est´e lejos de mi, siempre pude recibir palabras de aliento y que de forma incondicional, entendieron mis ausencias.

Al Dr.Enrique Sucar Succar agradezco su disposici´on y confianza de guiarme en los momentos que me sent´ı insegura, al Dr.Felipe Orihuela Espina por brindarme sus valiosas ense˜nanzas y su paciencia hacia mi persona.

A todos mis amigos del INAOE, gracias por su amistad, el tiempo compartido durante la maestr´ıa y los tiempos de oscio. Gracias a Roger Lu´ıs, Juan Manuel Oropeza, Patrick Heyer, Claudia Cruz, Enriqueta Varela, Irving Vásquez, Paloma Álvarez, So- ledad Aquino y Angel Ocaña, sin sus valiosas participaciones, los experimentos con humanos no hubieran podido ser realizados.

Gracias al INAOE y a CONACYT por brindarme las facilidades de estudiar la maestr´ıa.

(6)

(7)

Resumen

Recientemente, los juegos serios [44] ganan popularidad en varios ámbitos, como la educación y la medicina. En este tipo de juegos, es deseable que el juego se adapte al usuario de acuerdo con su estado y su progreso. Una forma de hacerlo es utilizando los procesos de decisión de Markov (MDP), que pueden representar el estado del usuario y seleccionar la mejor acción de adaptación de acuerdo con este estado.

Sin embargo ante circunstancias cambiantes, la pol´ıtica generada por el MDP podr´ıa dejar de ser óptima, es decir una pol´ıtica general deja de ser óptima para usuarios de diferentes capacidades. Para remediar esta desviación el uso de aprendizaje por refuerzo es una opción, pero este tipo de aprendizaje generalmente requiere un periodo de aprendizaje largo que en algunas aplicaciones no es deseable o factible como en la medicina. En este trabajo se propone un enfoque alternativo que parte de una pol´ıtica inicial obtenida mediante la resolución de un modelo aproximado MDP, que adapta a la variabilidad natural de distintos usuarios mediante aprendizaje por refuerzo (RL), este refuerzo es doble, por un lado el modelo aprende monitoreando el desempeño del paciente. Por otro lado sobre la base de la pol´ıtica actual el sistema propone una acción de adaptación que se presenta a un experto del dominio, que acepta o no la propuesta. La retroalimentación del experto se proporciona como una recompensa adicional (un tipo de confirmación) para el algoritmo de RL y la pol´ıti- ca se actualiza en consecuencia. La conjunción de una inicialización proporcionada por el MDP y el doble refuerzo hace que el sistema pueda aprender en un menor número de etapas una buena pol´ıtica, y también se puede adaptar a circunstancias

(8)

cambiantes y diferentes usuarios. Esta tesis presenta los resultados de incorporar el modelo de adaptación sugerido a un sistema de rehabilitación que incluye juegos serios que simulan actividades de la vida diaria en un entorno virtual, para promover la rehabilitación de las extremidades superiores. Para probar el enfoque propuesto se implementó una arquitectura de simulación que conoce la pol´ıtica óptima y simula la respuesta de los usuarios y el experto en las interacciones con el sistema. A partir de una pol´ıtica subóptima, los resultados experimentales muestran que el sistema converge a la pol´ıtica óptima en un número de episodios menor a inicializaciones alea- torias o sin información y lo hace de una forma suficientemente eficiente para poder ser utilizado en rehabilitación. Con respecto a esto último, se realizó un experimento con humanos, en donde participó una experta en medicina f´ısica y rehabilitación jun- to con un co-investigador. Los resultados fueron prometedores. En ellos se muestra como la pol´ıtica se adapta incrementando su congruencia con el terapeuta en pocas iteraciones. El comportamiento del sistema se aproxima al comportamiento deseado durante las sesiones de una terapia convencional. Los resultados de esta tesis suponen un avance en inteligencia artificial demostrando que es posible acelerar el aprendizaje por refuerzo por una doble v´ıa, inicialización por un MDP y un doble refuerzo. A si mismo, supone una contribución a la rehabilitación virtual favoreciendo la viabilidad de llevar estos sistemas al hogar del paciente reduciendo la dependencia del terapeuta.

(9)

Abstract

Recently, serious games have gain popularity in several domains such as education and medicine. In this type of games it is desirable that the game adapts to the user according to her state and progress. One way to do this is using Markov decision processes (MDPs), that can represent the state of the user and select the best adaptive action according to this state. However, the MDP model could be incorrect resulting in a suboptimal policy, or the same policy could not be the best for all the users. Using reinforcement learning is an option, but this usually requires a large number of trails which in some application is not desirable as in medicine. In this work we propose an alternative approach which starts from an initial policy obtained by solving an approximate MDP model. The initial policy is then improved using reinforcement learning (RL) based on user’s interaction. Based on the current policy the system proposes an adaptation action which is presented to the user, who accepts or not the proposal. The feedback is provided as an additional reward (a kind of shaping) to the RL algorithm and the policy is updated. In this way the system can learn in small number of stages a good policy, and can also adapt it to diferent users. We present initial results for a rehabilitation system that includes serious games that simulate activities of daily living in a virtual environment, to promote the rehabilitation of the upper extremities. An MDP has been integrated to this system so it can adjust the level of dificulty of the games according to the patient progress. To test the proposed approach we implemented a “simulated”therapist who knows the optimal policy and simulates the user feedback in the interactions with the system. Starting

(10)

from a suboptimal policy, the experimental results show that the system converges to the optimal policy in a low number of stages. We also performed an experiment with humans, with an expert involved in physical medicine and rehabilitation along with a co-investigator. The results were very promising, it is shown how polices are learned and modified in few iterations and the behavior of the system approaches the desired behavior during sessions of conventional therapy.

(11)

Contenido

Agradecimientos I

Resumen III

Abstract V

Lista de Figuras XI

Lista de Tablas XV

1. Introducci´on 1

1.1. Motivaci´on . . . 2

1.2. Problem´atica . . . 2

1.3. Objetivo de la tesis . . . 3

1.3.1. Objetivos espec´ıficos . . . 3

1.4. Descripci´on del modelo de adaptaci´on . . . 3

1.5. Contribuciones . . . 5

1.6. Organizaci´on de la tesis . . . 5

2. Procesos de decisi´on de Markov 7 2.1. Procesos de Decisi´on de Markov . . . 7

2.1.1. Algoritmo Iteraci´on de Valor . . . 11

2.2. Aprendizaje por Refuerzo . . . 12

(12)

2.2.1. Exploraci´on vs Explotaci´on . . . 13

2.2.2. Algoritmos de RL . . . 14

Q-Learning . . . 15

Sarsa . . . 16

2.3. Trabajos relacionados . . . 17

2.4. Resumen . . . 20

3. Rehabilitaci´on 21 3.1. Enfermedades cerebrales vasculares . . . 21

3.1.1. Secuelas de la enfermedad vascular cerebral . . . 23

3.2. Terapia de Rehabilitaci´on y el desarrollo de nuevos sistemas . . . 23

3.3. Trabajos relacionados . . . 25

3.4. Resumen . . . 30

4. Modelo de adaptación 31 4.1. Introducción al Modelo de adaptación dinámica . . . 31

4.1.1. Entrenamiento y uso . . . 33

4.2. Descripción del modelo de adaptación de manera dinámica . . . 34

4.2.1. Obtención de una pol´ıtica de decisión inicial genérica mediante MDP . . . 35

4.2.2. Evoluci´on longitudinal de la pol´ıtica . . . 38

4.2.3. Aprendizaje doblemente reforzado . . . 39

4.3. Integraci´on del modelo de adaptaci´on a Gesture Therapy . . . 41

4.3.1. Descripci´on de los cambios realizados a la plataforma de rehabilitaci´on virtual Gesture Therapy . . . 42

M´odulo de adaptaci´on . . . 43

Sistema de Juegos . . . 43

Sistema de Visi´on . . . 44

Evaluaci´on de los datos . . . 44

(13)

CONTENIDO ix

4.4. Resumen . . . 46

5. Experimentos con datos sint´eticos 47 5.1. Introducci´on . . . 47

5.1.1. Objetivo del experimento . . . 48

5.1.2. Hip´otesis . . . 48

5.1.3. Dise˜no del Experimento . . . 49

M´etricas . . . 51

5.2. Procesamiento y an´alisis de la informaci´on . . . 53

5.3. Resultados . . . 56

5.3.1. Efecto del tipo de algoritmo . . . 56

5.3.2. Efecto del factor de aprendizaje . . . 57

5.3.3. Tipos de usuarios . . . 58

5.3.4. Efecto de las pol´ıticas iniciales . . . 60

5.3.5. Discusi´on . . . 63

6. Experimentos con humanos 65 6.1. Introducci´on . . . 65

6.1.1. Objetivo del Experimento . . . 66

6.2. Hip´otesis . . . 66

6.2.1. Experimentaci´on con una cohorte sana . . . 66

6.2.2. Elecci´on de los individuos . . . 68

6.2.3. Dise˜no del Experimento . . . 68

6.2.4. M´etricas . . . 70

6.3. Procesamiento y an´alisis de la informaci´on . . . 71

6.3.1. Almacenamiento de la informaci´on . . . 71

6.3.2. Parametrizaci´on del aprendizaje por refuerzo . . . 72

6.3.3. Refuerzo total . . . 72

6.3.4. Incidencias durante los experimentos . . . 73

(14)

6.4. Resultados . . . 73 6.4.1. Evaluación de las trazas de control y rapidez . . . 74 6.4.2. Aprendizaje y congruencia con el terapeuta . . . 75 6.4.3. Comparación de la experimentación con los datos sintéticos . . 78 6.4.4. Discusión . . . 79

7. Conclusiones y Trabajo Futuro 81

7.1. Conclusiones . . . 81 7.2. Contribuciones . . . 82 7.3. Trabajo futuro . . . 83

Bibliograf´ıa 85

Ap´endices 91

A. Art´ıculos derivados de la tesis 93

B. Hoja de consentimiento para la realizaci´on de los experimentos con

humanos 95

C. Pruebas de Normalidad 97

D. Prueba de Wilcoxon 101

E. Pruebas de Kruskal Wallis 103

F. Pendientes para Q+, S+ 107

(15)

Lista de Figuras

2.1. Modelo gr´afico MDP . . . 9

2.2. Modelo gr´afico de aprendizaje por refuerzo . . . 13

3.1. Tipos de enfermedad vascular cerebral . . . 22

4.1. Esquema conceptual del modelo de adaptaci´on . . . 33

4.2. Esquema ilustrativo de la propuesta de tesis y sus elementos que la conforman . . . 34

4.3. Esquema general de un modelo MDP . . . 35

4.4. Esquema conceptual del aprendizaje por refuerzo . . . 38

4.5. Esquema conceptual de la plataforma de rehabilitaci´on virtual Gesture Therapy . . . 42

4.6. Ejemplo de una traza de movimientos . . . 45

5.1. Representación esquemática del espacio de busqueda de interés. . . . 48

5.2. Representación esquemática de la arquitectura de simulación . . . 54

5.3. Gr´aficas correspondientes a los promedios generales . . . 57

5.4. Gr´aficas correspondientes a los promedios generales considerando como punto de inter´es el factor de aprendizaje . . . 58

5.5. Desempe˜no del aprendizaje par α = 0,2 . . . 59

5.6. Oscilaciones de la se˜nal por episodio . . . 59

5.7. Promedio de recompensas por episodio . . . 60

(16)

5.8. Desempe˜no del algoritmo Q+ y S+ . . . 61

5.9. Desempe˜no del algoritmo Q+ y S+ . . . 62

6.1. Ejercicios de estiramiento practicados en los descansos . . . 69

6.2. Ejemplo de la traza temporal de la variables control . . . 75

6.3. Desempe˜no del algoritmo de aprendizaje por refuerzo Q+ . . . 76

6.4. Evoluci´on temporal de la congruencia entre las decisiones del terapeuta con el sistema . . . 77

6.5. Esquema comparativo entre los experimentos con datos sint´eticos, A y con humanos, B. . . 78

(17)

Lista de Algoritmos

1. Iteraci´on de Valor . . . 12

2. Q-Learning . . . 16

3. Sarsa . . . 17

4. Algoritmo Q+ . . . 40

5. Algoritmo S+ . . . 41

(18)

(19)

Lista de Tablas

2.1. Lista de sistemas desarrollados con retroalimentaciones de los humanos 18 3.1. Lista de sistemas desarrollados para ayudar al paciente en rehabilita-

ci´on de las extremidades superiores . . . 26

4.1. Función de transición al realizar la acción conservar el nivel de dificultad 37 4.2. Función de recompensas para el modelo MDP para el caso de Gesture Therapy . . . 37

4.3. Función de recompensa del aprendizaje por refuerzo para el caso de Gesture Therapy. En la primera columna se listan todas las combina- ciones de los estados, en la segunda columna las acciones que puede realizar el sistema. Siguiendo con la estrategia de aprendizaje, se busca un balance para el desempeño de la rapidez y el control, es por ello que la combinación de recompensas rapidez: buena y control: bueno, tienen los valores de recompensa máximos. . . 39

5.1. Variación de parámetros para la experimentación . . . 49

5.2. Total de configuraciones para la experimentaci´on . . . 52

5.3. Total de configuraciones para la experimentaci´on . . . 53

5.4. Pol´ıtica del experto . . . 55

5.5. Pendientes seg´un el factor de aprendizaje . . . 58

5.6. Funci´on de valor para cada pol´ıtica inicial . . . 63

(20)

6.1. Porcentajes de congruencia entre el terapeuta y el sistema. . . 77

(21)

Cap´ıtulo 1

Introducci´ on

Hoy en d´ıa, la industria de los v´ıdeo juegos ya no se limita a desarrollar juegos con un propósito espec´ıfico, permitiendo as´ı la creación de juegos con un propósito mas allá que solo entretener, a este tipo de alternativa se le conoce como “juegos serios”mejor conocido en inglés como Serious Games. Los juegos serios tienen una amplia gama de áreas de aplicación, por ejemplo: militar, educación, salud etc. Están hechos para proporcionar un contexto de entretenimiento y autofortalecimiento con el propósito de motivar, educar y entrenar a los jugadores y también persiguen algún tipo de beneficio o información sobre la salud de las personas. Los juegos serios a veces incluyen hardware espec´ıfico, como por ejemplo en los videojuegos para mejorar la salud y entrenamiento f´ısico [24].

Hay muchos subg´eneros dentro del t´ermino general de Serious Games. Podemos mencionar los siguientes: “advergames” (se centra principalmente en el desarrollo de la conciencia del producto comercial, no solamente para publicidad de alguna marca);

entretenimiento educativo (como en la educación o la formación del jugador), infor- mación y entretenimiento, juegos terapéuticos (juegos utilizados como una terapia alternativa en el tratamiento de la enfermedad).

Este trabajo de tesis se centra en los juegos serios orientados en el sector de la salud, espec´ıficamente a la rehabilitaci´on motriz de enfermos que han sufrido un accidente cerebrovascular provocando deficiencias motoras en las extremidades superiores.

(22)

1.1. Motivaci´ on

La idea es desarrollar juegos con realidad virtual inteligentes capaces de adaptarse al progreso del usuario y as´ı mejorar su calidad de vida. Este proyecto de tesis tiene la intenci´on de potenciar los avances en inteligencia artificial para poder apoyar al sector de la salud.

Las principales motivaciones del proyecto de tesis son las siguientes:

El n´umero creciente en la poblaci´on de enfermos que han sufrido un accidente cerebrovascular

El costo de la terapia de rehabilitaci´on es muy alta y sugiere de un esfuerzo econ´omico y humano que a veces no puede sustentarse

Una forma de aliviar este lastre es facilitar que la terapia pueda llevarse a cabo en el hogar y se reduzca la dependencia del personal especializado.

Para llevar a casa la terapia y reducir la dependencia del terapeuta, los sistemas de rehabilitaci´on deben incorporar mecanismos que respondan a los progresos del paciente y a sus necesidades equivalentes.

1.2. Problem´ atica

Diseñar un sistema de inteligencia artificial que dote a un sistema de rehabilita- ción de la capacidad de ajustarse a los objetivos de una terapia de rehabilitación y la variabilidad natural del paciente con la m´ınima supervisión de un experto del dominio. El diseño del sistema no es trivial debido a que los objetivos de la terapia son cambiantes y dependientes de las circunstancias de cada usuario. Se busca desarrollar una alternativa de inteligencia artificial que se adecue a las necesidades particulares y espec´ıficas del problema.

(23)

1.3 Objetivo de la tesis 3

1.3. Objetivo de la tesis

Desarrollar un modelo de aprendizaje por refuerzo basado en procesos de decisi´on de Markov que permita adaptar una pol´ıtica inicial a las capacidades de los usuarios para juegos serios.

1.3.1. Objetivos espec´ıficos

Diseñar un modelo de decisión de Markov inicial acorde a la problemática

Dise˜nar un algoritmo de aprendizaje por refuerzo que modifique la pol´ıtica inicial.

Desarrollar un mecanismo de retroalimentaci´on que permita obtener refuerzos dados por un experto en l´ınea.

Dotar a la plataforma de rehabilitación virtual Gesture Therapy de una capacidad intrajuego de adaptación dinámica a la variabilidad natural del paciente tomando en cuenta las decisiones del terapeuta.

Evaluar el desarrollo del modelo en la plataforma de pruebas, as´ı como en un escenario real con humanos.

1.4. Descripci´ on del modelo de adaptaci´ on

Con el objetivo de dar solución a la problemática antes descrita se presenta un modelo de adaptación que permite ajustar una pol´ıtica inicial obtenida de un proceso de decisión de Markov mediante aprendizaje por refuerzo.

El modelo consta de 3 etapas. La primera etapa, es el dise˜no del modelo de decisi´on de Markov. En esta etapa se deben definir las variables de estado principales

(24)

que servirán para calificar el estado general del usuario. Construido el modelo de de- cisión de Markov, éste se resuelve, con el objetivo de obtener una pol´ıtica de decisión inicial para el sistema correspondiente a la segunda etapa. La tercera etapa consiste en modificar esta pol´ıtica con respecto al desempeño que presente el usuario mientras usa el sistema as´ı como las retroalimentaciones del experto. Para ello se integró un algoritmo de aprendizaje por refuerzo que ajusta esta pol´ıtica inicial a los requeri- mientos coyunturales. El proceso de adaptación de la pol´ıtica se dividió en dos fases:

1). Fase de entrenamiento, sirve para ajustar la pol´ıtica general dada por el MDP, en ella participan el usuario y el experto que califica las decisiones tomadas por el comportamiento inicial del sistema. La pol´ıtica ya esta adecuada al desempeño del usuario, es el momento de integrar el sistema de adaptación al juego. 2). La fase de uso, el usuario ya se puede llevar el sistema de rehabilitación virtual a su hogar. El sistema ya obtuvo un comportamiento adecuado según el desempeño particular que presentó el paciente, el sistema adquirió conocimiento de este desempeño y modificó su comportamiento, pero puede ser que el sistema no finalice su proceso de adaptación, siendo necesario volver a entrenarlo debido al progreso del usuario. El modelo ha sido probado en experimentos con datos sintéticos. Los resultados muestran que empezar de una pol´ıtica inicial disminuye la fase de entrenamiento. Posteriormente se fijó una parametrización para aplicarla en la experimentación con humanos. Para la experi- mentación con humanos fue necesario comprender y modificar algunos módulos de la plataforma de rehabilitación virtual Gesture Therapy. Se diseñó una prueba pilo- to con 4 sujetos sanos y se contó con la presencia de un experto en rehabilitación y terapia f´ısica as´ı como la de un investigador. Los resultados demostraron que el modelo de adaptación converge a una pol´ıtica óptima en un rango dentro del tiempo de una terapia convencional, además se pudo notar una tendencia positiva entre la congruencia de las decisiones entre el terapeuta y el modelo de adaptación.

(25)

1.5 Contribuciones 5

1.5. Contribuciones

El desarrollo de dos algoritmos de aprendizaje por refuerzo Q+ y S+ que incluyen retroalimentaciones de un experto que sirve como gu´ıa al aprendizaje.

La combinaci´on de MDP y aprendizaje por refuerzo que mejora en tiempos el proceso de aprendizaje

La utilización de un modelo de adaptación, que dinámicamente ajusta la pol´ıti- ca de comportamiento al desempeño del usuario en rehabilitación virtual. Esto permite a los usuarios una terapia sencilla, entretenida y sobre todo independiente.

El diseño y la implementación del modelo de adaptación al desempeño de los usuarios a la plataforma de rehabilitación virtual Geture Therapy

El desarrollo de una arquitectura de simulaci´on (paciente, experto) que permite probar exhaustivamente un esquema de adaptaci´on de pol´ıticas.

1.6. Organizaci´ on de la tesis

El cap´ıtulo 2 presenta los conceptos y fundamentos sobre procesos de decisión de Markov y aprendizaje por refuerzo. También se exponen algunos trabajos relacionados con aprendizaje por refuerzo en donde intervienen retroalimentaciones del humano. En el cap´ıtulo 3 se introduce al lector al problema de la enfermedad vascular cerebral as´ı como los métodos tradicionales de las terapias de rehabilitación. También se presenta los trabajos desarrollados para el apoyo en las terapias de rehabilitación, tanto en sistemas robóticos como de rehabilitación virtual. El cap´ıtulo 4 describe a detalle el método de adaptación propuesto as´ı como sus principales alcances y objetivos. El cap´ıtulo 5 presenta la descripción de los experimentos realizados con datos sintéticos. El cap´ıtulo 6 presenta una descripción y conclusiones de los experimentos

(26)

con humanos. Y por ´ultimo en el cap´ıtulo 7 se exponen las conclusiones y el trabajo futuro.

(27)

Cap´ıtulo 2

Procesos de decisi´ on de Markov

En este cap´ıtulo se explica los conceptos, técnicas y algoritmos que se utilizaron como base para el desarrollo y propuesta del modelo de adaptación para este trabajo de tesis. En particular se explica una introducción a los procesos de decisión de Markov (MDP, por sus siglas en inglés) y aprendizaje por refuerzo (RL, por sus siglas en inglés); también se describe el funcionamiento de los algoritmos iteración de valor, Q- Learning, Sarsa. Por ultimo se explica el trabajo relacionado con el modelo propuesto.

2.1. Procesos de Decisi´ on de Markov

En inteligencia artificial se desea diseñar sistemas o agentes que puedan percibir el estado del ambiente en el que se encuentran y basándose en estas percepciones, puedan seleccionar aquellas acciones que maximicen su medida de rendimiento. El diseño de una pol´ıtica de comportamiento capaz de lograr lo antes mencionado resulta dif´ıcil, y más aun considerando la incertidumbre del efecto de las acciones seleccionadas y de los posibles errores en la percepción del ambiente. Por ejemplo, se desea que un robot traiga una taza de café, la taza de café se encuentra en otra sala diferente de donde se encuentra el robot, existen diferentes caminos para llegar a esa sala; se espera que el robot sea capaz de planear la secuencia de pasos más corta para llegar a la sala donde se encuentra el café; sin embargo no es suficiente calcular la trayectoria correcta, ya que, como el resultados de sus acciones no son totalmente predecibles, el robot

(28)

deberá detectar y corregir las posibles desviaciones que sufrirá durante la toma de decisiones secuenciales para llegar a su objetivo. Una de las formas de representar el entorno y las decisiones secuenciales para lograr los objetivos que involucran la toma de decisiones secuenciales es mediante los procesos de decisión de Markov (MDP).

Los MDP fueron formalizados inicialmente en la investigación de operaciones para optimizar diversas tareas con un carácter secuencial y la existencia de incertidumbre [2]. El propósito es especificar los estados del entorno necesarios para la realización de una tarea de manera formal, considerando la incertidumbre. Una vez especificado el entorno, el cálculo de la pol´ıtica de comportamiento óptima se realiza mediante un algoritmo, en particular nos vamos a referir al algoritmo iteración de valor.

Formalmente,un MDP se define como una tupla < S, A, T, R, h, γ >[2] donde:

S es el conjunto de estados. El entorno esta modelado por un conjunto de estados diferentes. Este conjunto puede ser finito o infinito numerable. Para este trabajo de tesis se fijó un número finito de estados, también se asumió que los estados son completamente observables.

A es el conjunto de acciones. Las acciones se definen como las operaciones que se realizan sobre los estados. De igual manera que el conjunto de estados, el conjunto de acciones puede ser finito o infinito numerable. El agente elige las acciones ´optimas que operan sobre los estados, con el objetivo que los estados deseados sean visitados con mayor frecuencia.

T es la función de transición. Permite modelar los efectos causados al realizar una acción sobre un estado en particular tomando en cuenta la incertidumbre; es decir el entorno tiene una cierta probabilidad de hacer una transición a un estado siguiente debido al efecto causado al realizar una acción sobre algún estado actual del conjunto S. Esto es: T (s⁰, a, s) = P (s⁰|s, a) denota la probabilidad de pasar al estado s⁰ al realizar la acción a sobre el estado s.

R es la funci´on de recompensa. Esta funci´on indica la utilidad adquirida al

(29)

2.1 Procesos de Decisión de Markov 9 cambiar el estado del entorno tras la ejecución de una acción y esto es: R(s, a).

La funci´on de recompensa cuantifica las preferencias del agente. El objetivo es maximizar la utilidad esperada.

h es el horizonte y γ factor de descuento. h define el periodo de tiempo o n´umero de pasos en los cuales se debe maximizar la utilidad, puede ser finito o infinito.

Mientras que γ es el factor de descuento que nos indica como debe ser ponderada las recompensas en los diferentes pasos en el tiempo.

Una de las propiedades importantes de los MDP’s es que no toman en cuenta toda la historia de los estados por los que ha pasado anteriormente, sino que a partir del estado actual y del estado inmediato anterior, el agente puede decidir que acci´on tomar (figura 2.1).

Figura 2.1: Modelo conceptual de un MDP

Dado que la elección de la acción sólo depende del estado actual del entorno, y no de sus acciones pasadas, no importa que acciones se hayan llevado a cabo para alcanzar el estado actual, porque el estado actual es suficiente para decidir cuales deben de ser las acciones futuras. Para poder tener en cuenta los estados pasados, existen señales de estado que resumen toda la información anterior relevante para el problema, estas señales de estado se le denominan Markovianas, o que poseen la propiedad de Markov [3]. El hecho de que S_t (un estado s en el tiempo t), dependa solamente de S_t−1 y A_t−1 implica que los estados anteriores y acciones anteriores no influyen en S_t. Esto es:

P_r(S_t|S_t−1, A_t−1, S_t−2, A_t−2...) = P_r(S_t|S_t−1, A_t−1) (2.1.1)

(30)

Donde P_r significa probabilidad. De manera similar ocurre con la función de recompensa. Cada recompensa solo depende del estado y acción actual (i.e., Rt(St, At)).Otra propiedad no menos importante es que un proceso de decisión de Markov es estaciona- rio. Es decir, la manera de elegir la acciones futuras siempre es la misma, sin importar el tiempo. Estas dos propiedades son importantes ya que aseguran la representación de un proceso de decisión de manera compacta (propiedad Markoviana) y que una función de transición y una función de recompensa únicas son suficientes para codi- ficar la dinámica de la toma de decisiones secuenciales sin importar el instante de tiempo en el que se encuentre (propiedad estacionaria).

Una pol´ıtica π es un mapeo de estados a acciones (i.e.,π : S → A). Una pol´ıtica genera una secuencia de estados en el tiempo, cada secuencia tiene asignada su propia suma esperada de recompensas adquiridas por la funci´on de recompensa, a esto se le llama el valor de la pol´ıtica. El valor de la pol´ıtica o funci´on de valor de un estado bajo la pol´ıtica π se denota como V^π(s). V^π(s) es la suma de recompensas esperadas iniciando en el estado s_t y siguiendo una pol´ıtica π_t, la cual se expresa de la siguiente manera:

V^π(s) =

∞

X

t=0

γ^tE_π[R(s_t, π(s_t))]∀s (2.1.2) Donde E_π es la recompensa esperada, según la pol´ıtica φ La función de valor también se puede escribir de forma recursiva [3]; es decir, como la recompensa actual y la suma de recompensas esperadas futuras dado el valor de la función.

V^π(s) = R(s, π(s)) + γX

s⁰

P r(s⁰|s, π(s))V^π(s⁰)∀s (2.1.3)

Donde R(s, π(s)) es la recompensa actual y las recompensas futuras se definen como la probabilidad de estar en el estado s’dado que estaba en el estado s y se eligi´o la pol´ıtica φ(s) con una recompensa esperada de V^π(s⁰) La meta es encontrar una pol´ıtica que maximice el valor esperado de las recompensas, esto se logra maximizando la suma de recompensas acumuladas en el tiempo [?]. Una pol´ıtica π^∗ es ´opima si V^π(s)^∗ ≥

(31)

2.1 Procesos de Decisi´on de Markov 11 V^π(s)∀s, π y se denota de la siguiente manera:

V^π^∗(s) = m´ax

a R(s, π(s)) + γX

s⁰

P r(s⁰|s, π(s))V^π^∗(s⁰)∀s (2.1.4)

Recordemos que φ(s) = Q(s, a), al aplicar máx_aR(s, π(s)) se refiere a que se selecc- ciona el máximo valor de la acción, para s. Dicho objetivo se le denomina criterio de optimalidad y cumple las ecuaciones de Bellman [3].

Existen varios algoritmos para encontrar la pol´ıtica óptima dado el modelo del MDP, por ejemplo: iteracción de valor, iteracción de pol´ıticas, programación lineal.

El algoritmo iteración de valor es una mejora del algoritmo iteración de pol´ıticas ya que consiste en realizar un único paso para evaluar la pol´ıtica, además de que resulta más sencillo de comprender que formular un el problema de decisión como un problema de programación lineal. Por tales motivos, en este trabajo de tesis se utilizó el algoritmo clásico de iteración de valor para resolver el MDP propuesto.

2.1.1. Algoritmo Iteraci´ on de Valor

El algoritmo de iteración de valor [2], realiza el cálculo de la función de valor de forma recursiva. La ecuación 2.1.4 es la base de este algoritmo. El algoritmo comienza con V⁰(s)= 0, para todos los estados. Se aplica la ecuación 2.1.4, a medida de que n → ∞, Vⁿ converge a V^∗. Dado que no es factible realizar un número infinito de iteracciones, el algoritmo termina cuando la diferencia entre Vⁿ y V⁽ⁿ⁻¹⁾ es mas pequeño que un umbral . Esto garantiza que ||Vⁿ − V^∗||∞ ≤ 2/(1 − γ), esto es importante ya que asegura la convergencia del algoritmo.

Para este trabajo de tesis se utiliz´o el software SPUDD [43], para resolver el MDP propuesto. SPUDD utiliza el algoritmo de iteraci´on de valor para obtener la pol´ıtica

´

optima adem´as de utilizar una representaci´on compacta para resolver MDPs.

(32)

Algoritmo 1: Algoritmo Iteraci´on de Valor Entrada: M DP

Salida: π

1 n ← 0

2 V⁰(s) ← 0∀s

3 repeat

4 n ← n + 1

5 Vⁿ(s) ← m´ax_aR(s, π(s)) + γP

s⁰P r(s⁰|s, π(s))V^π^∗(s⁰)∀s

6 until

7 m´axs|Vⁿ(s) − Vⁿ⁻¹(s)| ≤

8 π(s) ← arg m´ax_aR(s, a) + γP

s⁰P r(s⁰|s, π(s))V^π^∗(s⁰)∀s

2.2. Aprendizaje por Refuerzo

Esta técnica de aprendizaje es una de las formas más básicas de aprendizaje que la mayor´ıa de los seres vivos desarrollan a lo largo de su vida. El objetivo del aprendizaje por refuerzo [22] es que un agente aprenda a asociar situaciones (estados) con acciones, de modo que se maximice una señal numérica de refuerzo mediante la experimentación [1], dependiendo únicamente de la percepción que posee del entorno y el estado en el que se encuentra (figura 2.2). El entorno es el encargado de proporcionar refuerzos al agente para guiar su aprendizaje. El refuerzo aplicado será positivo si se ejecuta una acción adecuada en el estado en el que se encuentra el agente, y negativo o nulo en otro caso. El propósito del agente es obtener el mayor refuerzo positivo en cada instante y, de esta forma, indirectamente, realizar un comportamiento óptimo global como resultado de sus objetivos. Con la repetición de este proceso, el agente aprende una pol´ıtica π, que indica cuales son las mejores acciones que maximizan su desempeño para as´ı obtener el máximo refuerzo acumulado.

Este tipo de aprendizaje se utiliza en muchos y muy variados tipos de problemas, desde aprender a controlar robots móviles, hasta controlar centrales qu´ımicas, pasando por aprender a jugar al ajedrez; sobre todo en sistemas donde la interacción con el entorno es muy activa y dinámica, como es el caso del tipo de dominio considerado.

(33)

2.2 Aprendizaje por Refuerzo 13

Figura 2.2: La imagen representa un agente interactuando con su ambiente. El agente ejecuta una acción atque lo traslada a un estado st+1 y recibe una recompensa rt+1. RL consiste en aprender una tarea mediante la interacción con un ambiente dinámico y en ocasiones desconocido.El agente percibe el entorno mediante sensores, en forma de estados; con ellos es capaz de ejecutar acciones y percibir los resultados o recompensas de aquellas acciones (causa y efecto), provocando la modificación de su comportamiento

2.2.1. Exploraci´ on vs Explotaci´ on

Debido a que en aprendizaje por refuerzo el agente no conoce el ambiente en el que interactua, no sabe si la acción que eligió fue útil para completar la tarea. Es decir, no se da cuenta si fue útil o no, hasta recibir el refuerzo asignado. De esta forma el agente aprende por medio de ensayo y error, el cual implica que el agente pruebe acciones que en su caso no lleve a los mejores refuerzos esperados. Pero a su vez es importante que explote el conocimiento ya adquirido, el cual quiere decir que elija con mayor frecuencia las acciones que reporten mayor recompensa. Un agente que solo explora no aprenderá suficiente sobre cuales son los caminos óptimos para llegar a un buen resultado, y un agente que solo explota su conocimiento no conocerá nuevos caminos que pudieran ser mejores. En general, explorar se refiere a arriesgarse a elegir acciones que no sabe si obtendrá altas recompensas y explotar se refiere a que solo elija acciones que sabe que recibirá una recompensa alta. Existen muchos métodos para balancear la exploración y explotación, para este trabajo de tesis se utilizó el método e-greedy [1] que consiste en considerar una pequeña probabilidad de no elegir siempre la acción con mejor valor de refuerzo.

(34)

2.2.2. Algoritmos de RL

Uno de los métodos más conocidos para resolver el problema del aprendizaje por refuerzo, es por medio de aprendizaje por diferencias temporales (TD, por sus siglas en ingles) [?]. El aprendizaje por diferencias temporales permite aprender una pol´ıtica óptima sin necesidad de conocer el comportamiento del entorno, utiliza la recompensa obtenida en cada episodio ¹) y las actualizaciones de la función de valor se hacen en función de estimaciones pasadas. Recordemos que la función de valor evalúa las pol´ıticas que ejecuta el agente, es decir la secuencia de estados (función de valor-estado V (s) o la secuencia de estados y acciones [función de valor-acción Q(s, a)]

que el agente ejecuta a lo largo del tiempo. Las ecuaciones 2.2.1 y 2.2.2 muestran la forma de evaluar las funciones de valor V (s) y Q(s, a).

V (s_t) = V (s_t) + α[r_t+1+ γV (s_t+1) − V (s_t)], (2.2.1)

Q(s_t, a_t) = Q(s_t, a_t) + α[r_t+1+ γQ(s_t+1, a_t+1) − Q(s_t, a_t)] (2.2.2) donde s_t significa el estado en el tiempo t, α es el factor de aprendizaje, r_t+1 es la recompensa en el tiempo t+1, γ el factor de descuento.

Unos de los m´etodos basados en diferencias temporales mas populares son Q- Learning [23] y Sarsa [24], Ambos algoritmos tienen como objetivo generar una tabla de estados y acciones con valores num´ericos que representan la pol´ıtica de comportamiento para el agente (tabla de valores Q). Esta tabla se inicializa con valores arbitrarios que por lo regular son todos cero. Posteriormente se elige el punto de partida y se ejecutan un conjunto de acciones extrayendo los refuerzos adquiridos con los cuales se va modificando la tabla de valores Q.

En este trabajo de tesis se implementan ambos algoritmos en el m´odulo de adap-

1Un episodio es la ejecuci´on de acciones sobre los estados comprendidos entre un estado de partida y un estado objetivo

(35)

2.2 Aprendizaje por Refuerzo 15 tación con la finalidad de hacer un análisis sobre cuál algoritmo convendr´ıa para lograr un aprendizaje más rápido. La tabla de valores se inicializó mediante el resultado obtenido al resolver el MDP propuesto por medio del software SPUDD. Ambos algoritmos se describirán a continuación.

Q-Learning

Q-Learning (algoritmo 2) es un algoritmo off-policy ya que aprende la pol´ıtica seleccionando acciones independientemente de las acciones que el agente ejecuta. Es decir, el agente actualiza el valor Q(s_t, a_t) mediante máx_a_t+1 (donde máx_a_t+1, significa elegir la acción de mayor valor )sin asegurar que esta acción sea elegida en la próxima iteracción. El parámetro α es el factor de aprendizaje. Representa la porción de la diferencia, al seleccionar la acción dada por la pol´ıtica y la estimada por el algoritmo de aprendizaje. Es decir, el porcentaje de influencia que tiene las nuevas decisiones sobre las anteriores. El rango del factor de aprendizaje esta entre 0 y 1.

Un α = 0, hará que el sistema no aprenda y solo siga una pol´ıtica fija. Mientras que un α= 1, significa que el sistema designe todo el peso a las decisiones futuras sobre las obtenidas anteriormente. γ es el parámetro de descuento determina la importancia de las futuras recompensas. Con un 0 sólo se considera la recompensa inmediata, con un valor cercano 1 se consideran las recompensas a largo plazo.

Ambos algoritmos tienen por objetivo generar una tabla —S—x—A— cuyo objetivo es generar pol´ıticas de comportamiento. En principio esta tabla se inicializa con ceros. Posteriormente dado un estado objetivo o un criterio de paro (comúnmente un número fijo de episodios se elige un estado de partida y se ejecuta un conjunto de acciones que permiten una búsqueda exploratoria para alcanzar el estado objetivo.

Mientras se lleva a cabo dicha exploraci´on, se extraen refuerzos con los cuales se va modificando la tabla de valores Q. Esto se repite el n´umero de veces que indique el criterio de paro.

(36)

Algoritmo 2: Algoritmo Q-Learning Entrada: < S, A, R >

Salida: Tabla de valores Q

1 Inicializar Q(s_t, a_t) arbitrariamente

2 repeat para cada episodio

3 Inicializar s_t

5 Escoger a_t para s_t mediante una pol´ıtica de selecci´on Q(e.g., − greedy)

6 Ejecutar la acci´on a_t, observar el refuerzo r_t+1 recibido y el siguiente estado s_t+1

7 Actualizar Q(s_t, a_t) con la ecuaci´on 2.2.2:

8 Q(s_t, a_t) ← Q(s, a) + α[r_t+1+ γmax_a_t+1Q(s_t+1, a_t+1) − Q(s_t, a_t)]

9 s_t ← s_t+1

10 until

11 s_t sea terminal

12 until

13 alcanzar el episodio final

Sarsa

Sarsa (algoritmo 3)[1], es un algoritmo on-policy ya que sigue y aprende la pol´ıti- ca de selección de acciones al mismo tiempo. Es decir, el agente actualiza el valor Q(s_t, a_t) mediante a_t+1 asegurando que esta acción sea elegida en la próxima iterac- ción. Es decir, sigue y aprende la pol´ıtica de selección de acciones al mismo tiempo.

La actualizaci´on de la pol´ıtica Q(s_t, a_t), depende de la qu´ıntupla < s, a, r, s⁰, a⁰ > que da origen a su nombre.

(37)

2.3 Trabajos relacionados 17 Algoritmo 3: Algoritmo Sarsa

Entrada: < S, A, R >

Salida: Tabla de valores Q

1 Inicializar Q(s_t, a_t) arbitrariamente

3 Inicializar s_t

4 Escoger a_t para s_t mediante una pol´ıtica de selecci´on Q(e.g., − greedy)

6 Ejecutar la acci´on a_t, observar el refuerzo r_t+1 recibido y el siguiente estado s_t+1

7 Escoger a_t+1 para s_t+1 mediante una pol´ıtica de selecci´on Q(e.g., − greedy)

8 Actualizar Q(s_t, a_t) con la ecuaci´on 2.2.2:

9 Q(s_t, a_t) ← Q(s, a) + α[r_t+1+ Q(s_t+1, a_t+1) − Q(s_t, a_t)]

10 s_t← s_t+1

11 a_t← a_t+1

12 until

13 s_t sea terminal

14 until

15 alcanzar el episodio final

2.3. Trabajos relacionados

Nuevas formas de lograr un aprendizaje surgen de la necesidad de que los sistemas aprendan más rápido, de entre ellos está el de la retroalimentación humana. La idea es proporcionar una gu´ıa en el aprendizaje, de esta manera el agente logra una pol´ıtica de comportamiento mejor a la aprendida. Con el objetivo de acelerar el proceso de aprendizaje por refuerzo, se ha optado por el uso de funciones de Reward Shaping [42].

La tabla 2.1 muestra algunos trabajos en donde involucran este tipo de metodolog´ıa.

(38)

Tabla 2.1: Lista de sistemas desarrollados con retroalimentaciones de los humanos

Autor(año)DescripciónRetroalimentaciónP.Ini.Alg.RLComentarios AndreaL. Thomaz yCynthia Breazel[7] (2006)

Simulaunambientella- madoShophie’sKitchen, endondeseleenseña alagenteaprepararun pastel.Empleadostipos deretroalimentación.Se demostróqueestetipo deayuda,reducelaex- ploracióninnecesariaque normalmenterealizar´ıael agenteduranteelentrena- mientoparaaprenderla tarea.

Empleadostiposdere- fuerzos,Noguiadoque consistesoloenenviar refuerzosenl´ıneade[1,- 1]medianteelrat´on. Elguiadoendondele se˜nalaalagenteelobje- toquedebeseleccionar.

NoQ- LearningElaprendizajeestotal- mentedirigidoporelhu- manoqueense˜naalagen- teaprepararelpastel TAMER [5](2009)Laideaesaprenderelmo- deloderefuerzodelen- trenadorhumanomedian- teaprendizajesupervisa- do.Lapol´ıtica´optimala daelentrenador.Esteti- podealgoritmosehaim- plementadoendosdomi- nios.TetrisyMountain Car.

ElagenteTAMERno buscamaximizarlosre- fuerzosalargoplazo, sinoquetratadema- ximizardirectamentea cortoplazoelrefuerzo dadoporelhumano.Se remplazalafunci´onde recompensadelapren- dizajeporlosrefuer- zosdelhumano(Reward Shaping).

NoSarsa (λ)Nopermiteaprendizaje aut´onomoydeestama- neraquedaligadoalaha- bilidaddelinstructor. TAMER+RL [6](2011)Consisteenunamejora altrabajoanterior.Sele anexaRLparaqueelre- fuerzodelhumanopue- daproporcionarloduran- teelaprendizaje.Ademas compara4t´ecnicasdere- fuerzoparaaplicarselasa RL.

Seobservaqueempezar conaprendizajedado porunapol´ıticadelre- fuerzohumano,produ- cemejoresrecompensas queempezarelaprendi- zajedesdecero.

NoSarsa (λ)Sinembargoelart´ıculo concluyequeelalgorit- moTAMERfuediseñado paraelaprendizajese- cuencial,porlotantore- sultóinadecuadoapren- derdeformasimultanea delentrenadorhumanoy delaseñalderecompensa delMDP.

(39)

2.3 Trabajos relacionados 19

Autor(año)DescripciónRetroalimentaciónP.Ini.Alg.RLComentarios Judah K.,Roy S.,FernA. Dietterich T.G.[8] (2010)

Elprocesodeaprendi- zajesealternaentredos etapas.1.Elusuarioob- servalaejecuci´ondela pol´ıtica,pudiendodes- plazarsehaciaadelante oatrasalolargode latrayectoriaymarcar lasaccionescomobue- nasomalas.Etapa2. Elagenteinteract´uacon elMDPconeltradicio- nalRLperoteniendoen cuentalaetapa1.

Aunqueelalgoritmo propuestoespromete- dor,alprobarloconhu- manos,sellegaala conclusiónquelausa- bilidaddelsistemano permitióquelosparti- cipantesentendieranla dinámicadelosejerci- ciosdeestrategiaporlo quenoseobtuvobuenos resultadosqueelgru- poqueutilizósolamente RL.

NoAlgoritmomo- dificadodeRL enelqueincluye losconjuntos C(Cr´ıtica, (s1,c1+,c2−)) yT(RL, (s1,a1,r1))

Laestimacióndela pol´ıticaóptimaescom- pleja,losusuariosre- quierendeunconoci- mientopreviosobrela funcionalidaddelalgo- ritmopropuestoyla dinámicadelasrecom- pensas. Tenorio- Gonzalez A.,Morales E.F.and Villaseñor Pine- da,L.V [40](2010)

Combinaretroalimenta- ci´onporvoz(enl´ınea) yRL.Modelaunafun- ci´onderecompensame- dianteRewardShaping, queincluyeaccionesy recompensasqueson directamenteproporcio- nadasenl´ıneaalproce- sodeaprendizaje.

Laretroalimentaciónes dinánimcaylafunción derecompensanoper- maneceestática.Dicha retroalimentaciónpue- dedarsenecualquier momentodelaprendiza- je.

NoSarsa(λ)Lacombinaci´onque present´omejoresre- sultadosfueRL+ HD Leon,A., Morales, E.,Alta- mirano,L., Ruiz,J. [41](2011)

Esunaextensióndel trabajo[40],involucra lavozcomomediona- turalderetroalimenta- ción.Caracter´ızaloses- tadospormediodere- presentacionesrelativas einvolucraprograma- ciónpordemostración apartirdeinformación visual.

Laretroalimentación esdinámicaeincluye accionesyrecompensas modeladasporReward Shaping.Serealizóuna seriedeexperimentos endondesecombina RL-Demostración humana(HD)- Simulación(S)- Retroalimentación porelusuario(FB).

NoQ-LearningLacombinaci´onque present´olosmejores tiemposdeaprendizaje fueronladeHD+S+ RL+FB

(40)

Del trabajo relacionado, podemos notar que la principales caracter´ısticas fueron:

El aprendizaje resulta totalmente guiado por los refuerzos del humano, dependiendo de las habilidades del mismo. También se busca aprender esta función de refuerzos con la ayuda del empleo de reward shaping, logrando que esta función de recompensa no sea estática. Además incluyen refuerzos extra como el aprendizaje por demostración y correcciones directas sobre las acciones. Para este trabajo de tesis, en lugar de aprender la función de recompensa del humano, se optó por empezar el aprendizaje desde una pol´ıtica dada por un MDP, utilizando aprendizaje por refuerzo y el empleo de reward shaping para la función de recompensa.

2.4. Resumen

En este cap´ıtulo se presentó una explicación sobre los procesos de decisión de Markov , as´ı como a detalle los componentes que lo conforman. Por otro lado tam- bién se explico brevemente el enfoque de aprendizaje por refuerzo sus principales caracter´ısticas y los algoritmos que resuelven este tipo de aprendizaje, también se mencionan algunos de los trabajos realizados que involucran aprendizaje con retroali- mentación humana. En el siguiente cap´ıtulo se explicará el dominio que se eligió para aplicar el modelo de adaptación propuesto.

(41)

Cap´ıtulo 3

Rehabilitaci´ on

La enfermedad vascular cerebral (EVC, por sus siglas en español) afecta a millones de personas cada año en todo el mundo. Las personas que han sufrido alguna EVC se vuelven dependientes. Una de las secuelas importantes que causa esta enfermedad es la hemiplejia que es un trastorno motor, en el que la mitad vertical del cuerpo está paralizada; por ejemplo, un brazo y su pierna correspondiente. La principal causa por la cual las personas hemipléjicas no se rehabilitan, es por la falta de terapia, ya sea porque no la hayan tomado nunca o porque se haya truncado una vez iniciada. Las causas pueden ser muchas, pero las principales son: la falta de recursos económicos, la dependencia a trasladarse, y en algunos casos la ausencia de terapeutas cercanos [9]. Debido a esto, se han buscado alternativas que faciliten y mejoren la rehabilita- ción. En este cap´ıtulo se explicarán de manera breve los antecedentes de este tipo de enfermedad y las alternativas que se han desarrollado para apoyar a este tipo de personas en su rehabilitación.

3.1. Enfermedades cerebrales vasculares

En el término enfermedades cerebrales vasculares se incluyen todos los procesos patológicos primarios o secundarios con afección de los vasos cerebrales (arterias, venas capilares y senos venosos) que se acompañan de daño cerebral por disminución del aporte sangu´ıneo, dificultades en el drenaje venoso o hemorragia [9].

(42)

Cuando una persona sufre una pérdida de flujo sangu´ıneo en el corazón, se dice que ha sufrido un ataque card´ıaco, de la misma forma puede decirse que una persona con pérdida de flujo sangu´ıneo en el cerebro, tiene un ataque cerebral o sufre un accidente cerebrovascular cuyo termino en inglés es “Stroke”. Cuando se interrumpe el flujo de sangre en el cerebro, algunas neuronas mueren inmediatamente mientras que otras corren el riesgo de morir, estas células dañadas constituyen la penumbra isquémica¹, con tratamiento oportuno, estas células pueden salvarse. Hay dos tipos de enfermedad vascular cerebral: Isquémica y Hemorrágica. La primera ocurre cuando una arteria que suministra sangre al cerebro queda bloqueada ver figura 3.1.B, mientras que en un un cerebro saludable, las neuronas no entran en contacto directo con la sangre.

La segunda ocurre cuando se rompe una arteria en el cerebro ver figura 3.1.A , la sangre pasa al tejido circundante y perturba no sólo el suministro de sangre sino el equilibrio qu´ımico delicado que las neuronas requieren para funcionar. La sangre llega a las neuronas a través de paredes delgadas de los capilares cerebrales. Las glias² forman una barrera sangu´ınea-cerebral o hemoencefálica.

Figura 3.1: Enfermedad vascular cerebral. A) Hemorrágico. Filtración de sangre dentro del tejido del cerebro. B) Isquémico. Coágulo deteniendo el suministro de sangre en el cerebro.

1Región isquémica, isquémia:disminución transitoria o permanente del riego sangu´ıneo de una parte del cuerpo, producida por una alteración normal o patológica de la arteria o arterias aferentes a ella

2Celdas del sistema nervioso que soportan y protegen a las neuronas

(43)

3.2 Terapia de Rehabilitaci´on y el desarrollo de nuevos sistemas 23

3.1.1. Secuelas de la enfermedad vascular cerebral

La hemiplejia es una de las secuelas más importantes de la enfermedad vascular cerebral que existen en la actualidad. La hemiplejia, es consecuencia en la mayor´ıa de las ocasiones de la enfermedad vascular. La hemiplejia es un trastorno motor, en el que la mitad vertical del cuerpo está paralizada; por ejemplo, un brazo y su pierna correspondiente. La hemiplejia es provocada por la muerte de neuronas encargadas de la motricidad del cuerpo. Dependiendo de las neuronas afectadas la enfermedad vascular puede afectar otras funciones del cuerpo humano [9]. La Organización Mun- dial de la Salud (O. M. S.), reporta 200 casos nuevos de personas con enfermedad vascular cerebral por cada 100 mil habitantes por año. Cada año 200,000 personas en México sobreviven a un derrame cerebral y cerca de 700,000 en Estados Unidos [9].

Aproximadamente el 80 % de ellos sufren secuelas de la enfermedad vascular, es decir, pierden la habilidad del movimiento. Aproximadamente un 10 % no logra beneficio alguno de ningún tratamiento. Un 10 % de los enfermos consiguen una recuperación espontanea completa de 8 a 12 semanas, mientras que el 80 % de los pacientes con secuelas, puede recuperarse por medio de terapias de rehabilitación [10]. Los costos de la terapia para la enfermedad vascular cerebral son muy elevados, los gastos directos están relacionados con la prevención, el diagnóstico, el tratamiento y la rehabilitación, en los Estados Unidos un poco mas de 3 millones de pacientes sobreviven a un accidente cerebrovascular, el cual se requiere cerca de 16.8 billones de dólares distribuidos entre gastos de hospital, enfermeras, servicios médicos y medicamentos [11].

3.2. Terapia de Rehabilitaci´ on y el desarrollo de nuevos sistemas

El primer objetivo dentro la terapia es la rehabilitación a corto plazo del paciente hemipléjico durante la etapa temprana y aguda, esto es, hacerlo más independiente en

(44)

las actividades primarias de la vida diaria, como asearse, alimentarse y trasladarse. El tratamiento pone ´enfasis en el lado sano que ayudar´a a compensar al lado afectado.

Este tipo de rehabilitación precoz lleva, lamentablemente, al desarrollo de espastici- dad³. Esto es producto de las reacciones del esfuerzo requerido, por la utilización solo del lado sano, pérdida del equilibrio y el miedo a las ca´ıdas [12]. La principal causa por la cual las personas hemipléjicas no se rehabilitan es por la falta de terapia, ya sea porque no la hayan tomado nunca o por que se haya truncado una vez iniciada. Las causas pueden ser muchas, pero las principales son: la falta de recursos económicos, la dependencia a trasladarse, y en algunos casos la ausencia de terapeutas cercanos [12].

Debido a esto, se han buscado alternativas que faciliten y mejoren la rehabilitaci´on.

La mayor´ıa de estos trabajos se basan en asistentes robóticos que eliminan en gran parte el trabajo del terapeuta. A continuación se enuncian los nombres de algunos sistemas robóticos: Massachusetts Institute of Technology (MIT) - MANUS [13], Mi- rror Image Motion Enabler (MIME) [14], Assited Rehabilitation and Measurement (ARM), Bi-Manu-Track [8] y GENTLE/S [16]. Estos proyectos proveen una rehabi- litación menos asistida por el especialista (ya que el médico programa la secuencia de ejercicios y el paciente la realiza de manera automática), pero siguen siendo costosos y su ubicación sigue siendo el centro de rehabilitación. Si el problema es poder llegar a un centro de rehabilitación, es necesario buscar alternativas que lleven la terapia a donde la persona hemipléjica se encuentre. Algunos de los ejemplos basados en reha- bilitación virtual son: Java therapy: Sistema que utiliza un brazo robótico para la rehabilitación, con comunicación v´ıa-Web [17],T-Wrex (Therapy Wilmington Robotic Exoskeleton): Sistema robótico pasivo de entrenamiento de bajo costo [18]. En estas propuestas, no es necesario que un terapeuta este presente durante la realización de los ejercicios en la terapia de rehabilitación, sin embargo, es necesario que el sistema de rehabilitación sea acorde al desempeño del paciente, para as´ı hacer que la terapia de rehabilitación sea óptima.

3Contracci´on exagerada de los m´usculos de origen cerebral que se manifiesta por espasmos

(45)

3.3. Trabajos relacionados

Existen varios sistemas desarrollados para ayudar al paciente en rehabilitación, básicamente se pueden dividir en sistemas robóticos, juegos de realidad virtual e h´ıbridos. De los existentes en la literatura se seleccionaron aquellos que presentan un posible acercamiento de adaptación al progreso del usuario. En la tabla 3.1 se listan algunos de estos sistemas. De los trabajos mencionados en la tabla 3.1, podemos notar las siguientes diferencias:

Estructura de Hardware. Algunos sistemas necesitan de una estructura de hardware adicional o de una plataforma robótica, en ocaciones son necesarios para la realización de los ejercicios de terapia, sin embargo lo que se busca es inducir a la terapia de rehabilitación no solo en la cl´ınica, sino que motivar al usuario a continuar sus ejercicios de rehabilitación desde casa.

Realidad virtual. Existen sistemas que ocupan la realidad virtual como medio motivacional y de entretenimiento para los usuarios en terapia de rehabilitación, sin embargo existe la posibilidad de que algunos pacientes pudieran no sentirse cómodos, por ello es importante saber la población y los temas de los juegos a la que va dirigida la realidad virtual.

Sistema de adaptación al usuario. La mayor´ıa de los sistemas presentados en la tabla, presentan un sistema de adaptación manual, en donde el terapeuta o el mismo usuario tiene que calibrar el sistema. O el comportamiento del sistema parte de una pol´ıtica de decisión estática empleada para todos los usuarios que utilicen el sistema.

Validez cl´ınica. Es muy importante llegar a este punto y demostrar con certeza la validez cl´ınica del sistema de rehabilitaci´on, sin embargo podemos observar que la mayor´ıa de los sistemas presentan pruebas piloto que generan un grado de validez antes de realizar un experimento en forma.

(46)

Tabla 3.1: Lista de sistemas desarrollados para ayudar al paciente en rehabilitaci´on de las extremidades superiores

NombreReferencias (año)DescripciónAdaptaciónAmbiente VirtualEstudioCl´ıni- coComentariosy limitaiones Virtual Envi- ronment Training System

[24] (2002)Pormediode lacomputado- raseconectan dispositivoselec- tromagn´eticos paraseguirel movimiento.En elmonitorse despliegaun ambientevirtual concompetencias paramoverlos brazos.

Sepuede desplegaren m´ultiplespan- tallasovarios dispositivosde seguimiento. Adaptaci´on pormediode umbrales.

Alcanzar objetos.unacohorte (n=9)mostra- ronmejoras (15%inFugl- Meyery31% enlaprueba demotor)en 2movimien- tosdegran alcance.

Profesorvirtual, elobjetivoaal- canzarpuedeser moderadoporel terapeuta,elpa- cientetratade imitarsusmovi- mientos. Thera Game[25] (2006)Sistemadevisi´on mediantecaptura devideo(Web- cam)

Losnivelesde losjuegospue- denserselec- cionadosseg´un elpaciente

Incluye juegosco- moTetris, frog,co- lorSokcon m´usicay emociones.

Puedeserusa- doporpacien- tescond´eficit neurol´ogico

serealizaun seguimientode losmovimientos delbrazopara lainteracci´on conlosobjetos virtuales.La evidenciadel beneficiocl´ınico eslimitado.

(47)

NombreReferencias (año)DescripciónAdaptaciónAmbienteVir- tualEstudioCl´ınicoComentariosylimi- taiones Universities ofDerbyand Ulster’sse- riousgames formovement therapy

[26],[27] (2008)ImmersiveHead MountedDisplay (Unapantalla montadaenla cabeza,como unoslentes)and guantes

Ladificultad denlosjuegos incremen- taconforme avanzasenel juego.

Incluyejue- gosRabbit chase,arrow attack,oran- gecatching ywhack-a- mouse

unpequeñoensa- yocl´ınicosugie- rebeneficioscl´ıni- cosentérminosde rendimientomo- torquesemantu- vo6semanasdes- puésdelainter- vención.

Elsistemaincorpo- ragráficos3Dy unmódulodete- rapia.Laplatafor- masoportaperfiles delosusuarios.La informaciónobteni- dapuedeserinsufi- cienteparadetermi- narelniveldedifi- cultad[28]. VirtualPiano Trainer[29] (2009)Cyberglove+Cy- bergrasp+estruc- turadesensores combinadoconun pianovirtual

Dosalgoritmos queadaptanla asistenciahap- tic(sensibleal tacto)

pianovirtualunestudiopilo- tosugieremejoras enpeque˜nassesio- nes

unsofisticadosiste- madeseguimiento delosdedos,ade- cuadoparalaseta- pasavanzadasdete- rapia. iStretch[30],[31] (2010)Sistemarob´otico paralasprimeras etapasdelatera- pia

Adaptaniveles dedificultad pormediode unapol´ıtica est´aticada- daporun emphPOMDP

Alcanzarlos objetivosesti- randoelbrazo sobreunagu´ıa fijasoportada poruntripi´e.

Noestadescrito.Movimientoslimita- dos.

(48)

breReferencias (año)DescripciónAdaptaciónAmbienteVir- tualEstudioCl´ınicoComentariosylimi- taiones (Ho-[32] (2000)Sistemarobóticoforma- doporunmotorquesir- vecomogu´ıaenlosmo- vimientos

3variantes enlosobjeti- vos(Power, Springand Boom)

Contienejue- goscomoRain mug,fruit shopping,egg crackingy revealpicture

NoestádescritoVersióncomercial porARMGuide [32]andT-WREX systems[33]. ox[34] (2006)XboxconguantesCalibración, permiteade- cuarrangode movimiento alusuario as´ıcomolos umbralesen losjuegos

2juegos Cleanup screenyBut- terfly/UFO scaring

NoestadescritoSistemamodificado parasucomerciali- zación.Sistemade bajocosto,incapaci- dadparamedirarti- culacionesindividua- lesparacadadedo. Juegosdeacciónes- tablecidoscon[35]. yStation3[35] (2008)PlayStation3conguan- tesCalibración, permiteade- cuarrangode movimiento alusuario as´ıcomolos umbralesen losjuegos

2juegos, Cleanup screen andBut- terfly/UFO scaring

Unestudiopilo- tosugieremejoras enADL.

Sistemamodificado parasucomercializa- ci´on.Bajocostoin- capacidadparame- dirarticulacionesin- dividualesparacada dedo.Juegosdeac- ci´onestablecidoscon [34].

(49)

breReferencias (año)DescripciónAdaptaciónAmbienteVir- tualEstudioCl´ınicoComentariosylimi- taiones proporcio-[36] (2010)Wiibasadoensistema devisiónDetectayfil- traycompen- sacióndemo- vimiento.Ca- libraatravés deejemplosde movimientos.

unconjuntode 8juegos,base- ballcatch,he- licopterflying, frogSimonand under-the-sea

Losresultadosen losestudiospilo- tofueronalenta- dores.

Juegosdesarrollados enJava,Proyecto LookingGlass.Una tercerapersonaque senecesitaparaayu- daracolocarelcon- trolremotoWiienel brazodelpaciente

(50)

En los trabajos relacionados podemos observar que la mayor´ıa de ellos ocupa realidad virtual, este medio ha servido como una forma de motivar y entretener a los usuarios en terapia, sin embargo es necesario saber el tema de los juegos a la que va dirigido. En nuestro caso los juegos van dirigidos a personas mayores, por tales motivos, los juegos emulan situaciones de la vida cotidiana, como por ejemplo fre´ır un bistec, lavar platos etc. También podemos observar que el sistema de adaptación son de tipo: manual, calibración previa, comportamiento estático, en la propuesta de tesis este sistema es dinámico, genera un comportamiento según el desempeño del paciente y la evaluación del terapeuta. Por lo que el comportamiento del sistema será acorde a las capacidades especiales de los pacientes.

3.4. Resumen

Se presentó una idea general del domino al que va dirigida la tesis multidiscipli- naria, se presentó el rol de las terapias de rehabilitación convencionales, as´ı como los sistemas de rehabilitación virtual desarrollados para este tipo de dominio, en el siguiente cap´ıtulo de explicará mas a detalle el modelo de adaptación propuesto.

(51)

Cap´ıtulo 4

Modelo de adaptaci´ on

En este cap´ıtulo se describe el método de adaptación dinámica propuesto para adaptar la pol´ıtica de decisiones a los cambios longitudinales en la conducta del usuario y se detallan las etapas que lo conforman para su desarrollo e implementación.

En la sección 4.1, se presenta una introducción al modelo de adaptación. La sección 4.2 se describe a detalle el modelo de adaptación dinámica, as´ı como la obtención de la pol´ıtica inicial su evolución longitudinal y el aprendizaje doblemente reforzado. La sección 4.3 explica la integración del modelo a la plataforma de videojuejos Gesture therapy.

4.1. Introducci´ on al Modelo de adaptaci´ on din´ amica

En los cap´ıtulos anteriores se expusieron dos alternativas para el desarrollo de un modelo de adaptación, las cuales son por medio de un MDP y aprendizaje por refuerzo. Un MDP puede modelar los estados del usuario y seleccionar la mejor acción de adaptación correspondiente al estado en que se encuentre dicho usuario. A esta correspondencia se le conoce como pol´ıtica. Pero la existencia de una pol´ıtica de comportamiento estática para todos los usuarios no es siempre efectiva. Por otro lado, el aprendizaje por refuerzo permite definir una pol´ıtica de comportamiento dinámica