• No se han encontrado resultados

por Refuerzo y su Aplicación en Rehabilitación Virtual

N/A
N/A
Protected

Academic year: 2022

Share "por Refuerzo y su Aplicación en Rehabilitación Virtual "

Copied!
128
0
0

Texto completo

(1)

Adaptación en Línea de una Política de Decisión utilizando Aprendizaje

por Refuerzo y su Aplicación en Rehabilitación Virtual

Por,

Shender María Ávila Sansores

Tesis sometida como requisito parcial para obtener el grado de Maestro en Ciencias en el Área de Ciencias Computacionales

en el Instituto Nacional de Astrofísica, Óptica y Electrónica

©INAOE 2013

El autor otorga al INAOE el permiso de reproducir y distribuir copias en su totalidad o en partes de esta tesis

Supervisada por:

Dr. Luís Enrique Sucar Succar

Dr. Felipe Orihuela Espina

(2)
(3)

Adaptaci´ on en L´ınea de una Pol´ıtica de Decisi´ on utilizando Aprendizaje por Refuerzo y su

Aplicaci´ on en Rehabilitaci´ on Virtual

Tesis de Maestr´ıa

Por:

Shender Mar´ıa ´ Avila Sansores

Asesores:

Dr. Lu´ıs Enrique Sucar Succar Dr. Felipe Orihuela Espina

Instituto Nacional de Astrof´ısica ´Optica y Electr´onica Coordinaci´on de Ciencias Computacionales

Tonantzintla, Puebla. Febrero 2013

(4)
(5)

Agradecimientos

Agradezco a mi esposo Alejandro Gonzaga por darme la fuerza y la luz que en un momento de mi vida cre´ı perdida. Agradezco tambi´en a mi familia que aunque est´e lejos de mi, siempre pude recibir palabras de aliento y que de forma incondicional, entendieron mis ausencias.

Al Dr.Enrique Sucar Succar agradezco su disposici´on y confianza de guiarme en los momentos que me sent´ı insegura, al Dr.Felipe Orihuela Espina por brindarme sus valiosas ense˜nanzas y su paciencia hacia mi persona.

A todos mis amigos del INAOE, gracias por su amistad, el tiempo compartido du- rante la maestr´ıa y los tiempos de oscio. Gracias a Roger Lu´ıs, Juan Manuel Oropeza, Patrick Heyer, Claudia Cruz, Enriqueta Varela, Irving V´asquez, Paloma ´Alvarez, So- ledad Aquino y Angel Oca˜na, sin sus valiosas participaciones, los experimentos con humanos no hubieran podido ser realizados.

Gracias al INAOE y a CONACYT por brindarme las facilidades de estudiar la maestr´ıa.

(6)
(7)

Resumen

Recientemente, los juegos serios [44] ganan popularidad en varios ´ambitos, como la educaci´on y la medicina. En este tipo de juegos, es deseable que el juego se adapte al usuario de acuerdo con su estado y su progreso. Una forma de hacerlo es utili- zando los procesos de decisi´on de Markov (MDP), que pueden representar el estado del usuario y seleccionar la mejor acci´on de adaptaci´on de acuerdo con este estado.

Sin embargo ante circunstancias cambiantes, la pol´ıtica generada por el MDP podr´ıa dejar de ser ´optima, es decir una pol´ıtica general deja de ser ´optima para usuarios de diferentes capacidades. Para remediar esta desviaci´on el uso de aprendizaje por refuerzo es una opci´on, pero este tipo de aprendizaje generalmente requiere un pe- riodo de aprendizaje largo que en algunas aplicaciones no es deseable o factible como en la medicina. En este trabajo se propone un enfoque alternativo que parte de una pol´ıtica inicial obtenida mediante la resoluci´on de un modelo aproximado MDP, que adapta a la variabilidad natural de distintos usuarios mediante aprendizaje por re- fuerzo (RL), este refuerzo es doble, por un lado el modelo aprende monitoreando el desempe˜no del paciente. Por otro lado sobre la base de la pol´ıtica actual el sistema propone una acci´on de adaptaci´on que se presenta a un experto del dominio, que acepta o no la propuesta. La retroalimentaci´on del experto se proporciona como una recompensa adicional (un tipo de confirmaci´on) para el algoritmo de RL y la pol´ıti- ca se actualiza en consecuencia. La conjunci´on de una inicializaci´on proporcionada por el MDP y el doble refuerzo hace que el sistema pueda aprender en un menor n´umero de etapas una buena pol´ıtica, y tambi´en se puede adaptar a circunstancias

(8)

cambiantes y diferentes usuarios. Esta tesis presenta los resultados de incorporar el modelo de adaptaci´on sugerido a un sistema de rehabilitaci´on que incluye juegos se- rios que simulan actividades de la vida diaria en un entorno virtual, para promover la rehabilitaci´on de las extremidades superiores. Para probar el enfoque propuesto se implement´o una arquitectura de simulaci´on que conoce la pol´ıtica ´optima y simula la respuesta de los usuarios y el experto en las interacciones con el sistema. A par- tir de una pol´ıtica sub´optima, los resultados experimentales muestran que el sistema converge a la pol´ıtica ´optima en un n´umero de episodios menor a inicializaciones alea- torias o sin informaci´on y lo hace de una forma suficientemente eficiente para poder ser utilizado en rehabilitaci´on. Con respecto a esto ´ultimo, se realiz´o un experimento con humanos, en donde particip´o una experta en medicina f´ısica y rehabilitaci´on jun- to con un co-investigador. Los resultados fueron prometedores. En ellos se muestra como la pol´ıtica se adapta incrementando su congruencia con el terapeuta en pocas iteraciones. El comportamiento del sistema se aproxima al comportamiento deseado durante las sesiones de una terapia convencional. Los resultados de esta tesis suponen un avance en inteligencia artificial demostrando que es posible acelerar el aprendizaje por refuerzo por una doble v´ıa, inicializaci´on por un MDP y un doble refuerzo. A si mismo, supone una contribuci´on a la rehabilitaci´on virtual favoreciendo la viabilidad de llevar estos sistemas al hogar del paciente reduciendo la dependencia del terapeuta.

(9)

Abstract

Recently, serious games have gain popularity in several domains such as education and medicine. In this type of games it is desirable that the game adapts to the user according to her state and progress. One way to do this is using Markov decision processes (MDPs), that can represent the state of the user and select the best adaptive action according to this state. However, the MDP model could be incorrect resulting in a suboptimal policy, or the same policy could not be the best for all the users. Using reinforcement learning is an option, but this usually requires a large number of trails which in some application is not desirable as in medicine. In this work we propose an alternative approach which starts from an initial policy obtained by solving an approximate MDP model. The initial policy is then improved using reinforcement learning (RL) based on user’s interaction. Based on the current policy the system proposes an adaptation action which is presented to the user, who accepts or not the proposal. The feedback is provided as an additional reward (a kind of shaping) to the RL algorithm and the policy is updated. In this way the system can learn in small number of stages a good policy, and can also adapt it to diferent users. We present initial results for a rehabilitation system that includes serious games that simulate activities of daily living in a virtual environment, to promote the rehabilitation of the upper extremities. An MDP has been integrated to this system so it can adjust the level of dificulty of the games according to the patient progress. To test the proposed approach we implemented a “simulated”therapist who knows the optimal policy and simulates the user feedback in the interactions with the system. Starting

(10)

from a suboptimal policy, the experimental results show that the system converges to the optimal policy in a low number of stages. We also performed an experiment with humans, with an expert involved in physical medicine and rehabilitation along with a co-investigator. The results were very promising, it is shown how polices are learned and modified in few iterations and the behavior of the system approaches the desired behavior during sessions of conventional therapy.

(11)

Contenido

Agradecimientos I

Resumen III

Abstract V

Lista de Figuras XI

Lista de Tablas XV

1. Introducci´on 1

1.1. Motivaci´on . . . 2

1.2. Problem´atica . . . 2

1.3. Objetivo de la tesis . . . 3

1.3.1. Objetivos espec´ıficos . . . 3

1.4. Descripci´on del modelo de adaptaci´on . . . 3

1.5. Contribuciones . . . 5

1.6. Organizaci´on de la tesis . . . 5

2. Procesos de decisi´on de Markov 7 2.1. Procesos de Decisi´on de Markov . . . 7

2.1.1. Algoritmo Iteraci´on de Valor . . . 11

2.2. Aprendizaje por Refuerzo . . . 12

(12)

2.2.1. Exploraci´on vs Explotaci´on . . . 13

2.2.2. Algoritmos de RL . . . 14

Q-Learning . . . 15

Sarsa . . . 16

2.3. Trabajos relacionados . . . 17

2.4. Resumen . . . 20

3. Rehabilitaci´on 21 3.1. Enfermedades cerebrales vasculares . . . 21

3.1.1. Secuelas de la enfermedad vascular cerebral . . . 23

3.2. Terapia de Rehabilitaci´on y el desarrollo de nuevos sistemas . . . 23

3.3. Trabajos relacionados . . . 25

3.4. Resumen . . . 30

4. Modelo de adaptaci´on 31 4.1. Introducci´on al Modelo de adaptaci´on din´amica . . . 31

4.1.1. Entrenamiento y uso . . . 33

4.2. Descripci´on del modelo de adaptaci´on de manera din´amica . . . 34

4.2.1. Obtenci´on de una pol´ıtica de decisi´on inicial gen´erica mediante MDP . . . 35

4.2.2. Evoluci´on longitudinal de la pol´ıtica . . . 38

4.2.3. Aprendizaje doblemente reforzado . . . 39

4.3. Integraci´on del modelo de adaptaci´on a Gesture Therapy . . . 41

4.3.1. Descripci´on de los cambios realizados a la plataforma de reha- bilitaci´on virtual Gesture Therapy . . . 42

M´odulo de adaptaci´on . . . 43

Sistema de Juegos . . . 43

Sistema de Visi´on . . . 44

Evaluaci´on de los datos . . . 44

(13)

CONTENIDO ix

4.4. Resumen . . . 46

5. Experimentos con datos sint´eticos 47 5.1. Introducci´on . . . 47

5.1.1. Objetivo del experimento . . . 48

5.1.2. Hip´otesis . . . 48

5.1.3. Dise˜no del Experimento . . . 49

M´etricas . . . 51

5.2. Procesamiento y an´alisis de la informaci´on . . . 53

5.3. Resultados . . . 56

5.3.1. Efecto del tipo de algoritmo . . . 56

5.3.2. Efecto del factor de aprendizaje . . . 57

5.3.3. Tipos de usuarios . . . 58

5.3.4. Efecto de las pol´ıticas iniciales . . . 60

5.3.5. Discusi´on . . . 63

6. Experimentos con humanos 65 6.1. Introducci´on . . . 65

6.1.1. Objetivo del Experimento . . . 66

6.2. Hip´otesis . . . 66

6.2.1. Experimentaci´on con una cohorte sana . . . 66

6.2.2. Elecci´on de los individuos . . . 68

6.2.3. Dise˜no del Experimento . . . 68

6.2.4. M´etricas . . . 70

6.3. Procesamiento y an´alisis de la informaci´on . . . 71

6.3.1. Almacenamiento de la informaci´on . . . 71

6.3.2. Parametrizaci´on del aprendizaje por refuerzo . . . 72

6.3.3. Refuerzo total . . . 72

6.3.4. Incidencias durante los experimentos . . . 73

(14)

6.4. Resultados . . . 73 6.4.1. Evaluaci´on de las trazas de control y rapidez . . . 74 6.4.2. Aprendizaje y congruencia con el terapeuta . . . 75 6.4.3. Comparaci´on de la experimentaci´on con los datos sint´eticos . . 78 6.4.4. Discusi´on . . . 79

7. Conclusiones y Trabajo Futuro 81

7.1. Conclusiones . . . 81 7.2. Contribuciones . . . 82 7.3. Trabajo futuro . . . 83

Bibliograf´ıa 85

Ap´endices 91

A. Art´ıculos derivados de la tesis 93

B. Hoja de consentimiento para la realizaci´on de los experimentos con

humanos 95

C. Pruebas de Normalidad 97

D. Prueba de Wilcoxon 101

E. Pruebas de Kruskal Wallis 103

F. Pendientes para Q+, S+ 107

(15)

Lista de Figuras

2.1. Modelo gr´afico MDP . . . 9

2.2. Modelo gr´afico de aprendizaje por refuerzo . . . 13

3.1. Tipos de enfermedad vascular cerebral . . . 22

4.1. Esquema conceptual del modelo de adaptaci´on . . . 33

4.2. Esquema ilustrativo de la propuesta de tesis y sus elementos que la conforman . . . 34

4.3. Esquema general de un modelo MDP . . . 35

4.4. Esquema conceptual del aprendizaje por refuerzo . . . 38

4.5. Esquema conceptual de la plataforma de rehabilitaci´on virtual Gesture Therapy . . . 42

4.6. Ejemplo de una traza de movimientos . . . 45

5.1. Representaci´on esquem´atica del espacio de busqueda de inter´es. . . . 48

5.2. Representaci´on esquem´atica de la arquitectura de simulaci´on . . . 54

5.3. Gr´aficas correspondientes a los promedios generales . . . 57

5.4. Gr´aficas correspondientes a los promedios generales considerando como punto de inter´es el factor de aprendizaje . . . 58

5.5. Desempe˜no del aprendizaje par α = 0,2 . . . 59

5.6. Oscilaciones de la se˜nal por episodio . . . 59

5.7. Promedio de recompensas por episodio . . . 60

(16)

5.8. Desempe˜no del algoritmo Q+ y S+ . . . 61

5.9. Desempe˜no del algoritmo Q+ y S+ . . . 62

6.1. Ejercicios de estiramiento practicados en los descansos . . . 69

6.2. Ejemplo de la traza temporal de la variables control . . . 75

6.3. Desempe˜no del algoritmo de aprendizaje por refuerzo Q+ . . . 76

6.4. Evoluci´on temporal de la congruencia entre las decisiones del terapeuta con el sistema . . . 77

6.5. Esquema comparativo entre los experimentos con datos sint´eticos, A y con humanos, B. . . 78

(17)

Lista de Algoritmos

1. Iteraci´on de Valor . . . 12

2. Q-Learning . . . 16

3. Sarsa . . . 17

4. Algoritmo Q+ . . . 40

5. Algoritmo S+ . . . 41

(18)
(19)

Lista de Tablas

2.1. Lista de sistemas desarrollados con retroalimentaciones de los humanos 18 3.1. Lista de sistemas desarrollados para ayudar al paciente en rehabilita-

ci´on de las extremidades superiores . . . 26

4.1. Funci´on de transici´on al realizar la acci´on conservar el nivel de dificultad 37 4.2. Funci´on de recompensas para el modelo MDP para el caso de Gesture Therapy . . . 37

4.3. Funci´on de recompensa del aprendizaje por refuerzo para el caso de Gesture Therapy. En la primera columna se listan todas las combina- ciones de los estados, en la segunda columna las acciones que puede realizar el sistema. Siguiendo con la estrategia de aprendizaje, se busca un balance para el desempe˜no de la rapidez y el control, es por ello que la combinaci´on de recompensas rapidez: buena y control: bueno, tienen los valores de recompensa m´aximos. . . 39

5.1. Variaci´on de par´ametros para la experimentaci´on . . . 49

5.2. Total de configuraciones para la experimentaci´on . . . 52

5.3. Total de configuraciones para la experimentaci´on . . . 53

5.4. Pol´ıtica del experto . . . 55

5.5. Pendientes seg´un el factor de aprendizaje . . . 58

5.6. Funci´on de valor para cada pol´ıtica inicial . . . 63

(20)

6.1. Porcentajes de congruencia entre el terapeuta y el sistema. . . 77

(21)

Cap´ıtulo 1

Introducci´ on

Hoy en d´ıa, la industria de los v´ıdeo juegos ya no se limita a desarrollar juegos con un prop´osito espec´ıfico, permitiendo as´ı la creaci´on de juegos con un prop´osito mas all´a que solo entretener, a este tipo de alternativa se le conoce como “juegos serios”mejor conocido en ingl´es como Serious Games. Los juegos serios tienen una amplia gama de ´areas de aplicaci´on, por ejemplo: militar, educaci´on, salud etc. Est´an hechos para proporcionar un contexto de entretenimiento y autofortalecimiento con el prop´osito de motivar, educar y entrenar a los jugadores y tambi´en persiguen alg´un tipo de beneficio o informaci´on sobre la salud de las personas. Los juegos serios a veces incluyen hardware espec´ıfico, como por ejemplo en los videojuegos para mejorar la salud y entrenamiento f´ısico [24].

Hay muchos subg´eneros dentro del t´ermino general de Serious Games. Podemos mencionar los siguientes: “advergames” (se centra principalmente en el desarrollo de la conciencia del producto comercial, no solamente para publicidad de alguna marca);

entretenimiento educativo (como en la educaci´on o la formaci´on del jugador), infor- maci´on y entretenimiento, juegos terap´euticos (juegos utilizados como una terapia alternativa en el tratamiento de la enfermedad).

Este trabajo de tesis se centra en los juegos serios orientados en el sector de la salud, espec´ıficamente a la rehabilitaci´on motriz de enfermos que han sufrido un acci- dente cerebrovascular provocando deficiencias motoras en las extremidades superiores.

(22)

1.1. Motivaci´ on

La idea es desarrollar juegos con realidad virtual inteligentes capaces de adaptarse al progreso del usuario y as´ı mejorar su calidad de vida. Este proyecto de tesis tiene la intenci´on de potenciar los avances en inteligencia artificial para poder apoyar al sector de la salud.

Las principales motivaciones del proyecto de tesis son las siguientes:

El n´umero creciente en la poblaci´on de enfermos que han sufrido un accidente cerebrovascular

El costo de la terapia de rehabilitaci´on es muy alta y sugiere de un esfuerzo econ´omico y humano que a veces no puede sustentarse

Una forma de aliviar este lastre es facilitar que la terapia pueda llevarse a cabo en el hogar y se reduzca la dependencia del personal especializado.

Para llevar a casa la terapia y reducir la dependencia del terapeuta, los sistemas de rehabilitaci´on deben incorporar mecanismos que respondan a los progresos del paciente y a sus necesidades equivalentes.

1.2. Problem´ atica

Dise˜nar un sistema de inteligencia artificial que dote a un sistema de rehabilita- ci´on de la capacidad de ajustarse a los objetivos de una terapia de rehabilitaci´on y la variabilidad natural del paciente con la m´ınima supervisi´on de un experto del do- minio. El dise˜no del sistema no es trivial debido a que los objetivos de la terapia son cambiantes y dependientes de las circunstancias de cada usuario. Se busca desarrollar una alternativa de inteligencia artificial que se adecue a las necesidades particulares y espec´ıficas del problema.

(23)

1.3 Objetivo de la tesis 3

1.3. Objetivo de la tesis

Desarrollar un modelo de aprendizaje por refuerzo basado en procesos de decisi´on de Markov que permita adaptar una pol´ıtica inicial a las capacidades de los usuarios para juegos serios.

1.3.1. Objetivos espec´ıficos

Dise˜nar un modelo de decisi´on de Markov inicial acorde a la problem´atica

Dise˜nar un algoritmo de aprendizaje por refuerzo que modifique la pol´ıtica inicial.

Desarrollar un mecanismo de retroalimentaci´on que permita obtener refuerzos dados por un experto en l´ınea.

Dotar a la plataforma de rehabilitaci´on virtual Gesture Therapy de una capa- cidad intrajuego de adaptaci´on din´amica a la variabilidad natural del paciente tomando en cuenta las decisiones del terapeuta.

Evaluar el desarrollo del modelo en la plataforma de pruebas, as´ı como en un escenario real con humanos.

1.4. Descripci´ on del modelo de adaptaci´ on

Con el objetivo de dar soluci´on a la problem´atica antes descrita se presenta un modelo de adaptaci´on que permite ajustar una pol´ıtica inicial obtenida de un proceso de decisi´on de Markov mediante aprendizaje por refuerzo.

El modelo consta de 3 etapas. La primera etapa, es el dise˜no del modelo de de- cisi´on de Markov. En esta etapa se deben definir las variables de estado principales

(24)

que servir´an para calificar el estado general del usuario. Construido el modelo de de- cisi´on de Markov, ´este se resuelve, con el objetivo de obtener una pol´ıtica de decisi´on inicial para el sistema correspondiente a la segunda etapa. La tercera etapa consiste en modificar esta pol´ıtica con respecto al desempe˜no que presente el usuario mientras usa el sistema as´ı como las retroalimentaciones del experto. Para ello se integr´o un algoritmo de aprendizaje por refuerzo que ajusta esta pol´ıtica inicial a los requeri- mientos coyunturales. El proceso de adaptaci´on de la pol´ıtica se dividi´o en dos fases:

1). Fase de entrenamiento, sirve para ajustar la pol´ıtica general dada por el MDP, en ella participan el usuario y el experto que califica las decisiones tomadas por el comportamiento inicial del sistema. La pol´ıtica ya esta adecuada al desempe˜no del usuario, es el momento de integrar el sistema de adaptaci´on al juego. 2). La fase de uso, el usuario ya se puede llevar el sistema de rehabilitaci´on virtual a su hogar. El sistema ya obtuvo un comportamiento adecuado seg´un el desempe˜no particular que present´o el paciente, el sistema adquiri´o conocimiento de este desempe˜no y modific´o su comportamiento, pero puede ser que el sistema no finalice su proceso de adaptaci´on, siendo necesario volver a entrenarlo debido al progreso del usuario. El modelo ha sido probado en experimentos con datos sint´eticos. Los resultados muestran que empezar de una pol´ıtica inicial disminuye la fase de entrenamiento. Posteriormente se fij´o una parametrizaci´on para aplicarla en la experimentaci´on con humanos. Para la experi- mentaci´on con humanos fue necesario comprender y modificar algunos m´odulos de la plataforma de rehabilitaci´on virtual Gesture Therapy. Se dise˜n´o una prueba pilo- to con 4 sujetos sanos y se cont´o con la presencia de un experto en rehabilitaci´on y terapia f´ısica as´ı como la de un investigador. Los resultados demostraron que el modelo de adaptaci´on converge a una pol´ıtica ´optima en un rango dentro del tiempo de una terapia convencional, adem´as se pudo notar una tendencia positiva entre la congruencia de las decisiones entre el terapeuta y el modelo de adaptaci´on.

(25)

1.5 Contribuciones 5

1.5. Contribuciones

El desarrollo de dos algoritmos de aprendizaje por refuerzo Q+ y S+ que inclu- yen retroalimentaciones de un experto que sirve como gu´ıa al aprendizaje.

La combinaci´on de MDP y aprendizaje por refuerzo que mejora en tiempos el proceso de aprendizaje

La utilizaci´on de un modelo de adaptaci´on, que din´amicamente ajusta la pol´ıti- ca de comportamiento al desempe˜no del usuario en rehabilitaci´on virtual. Esto permite a los usuarios una terapia sencilla, entretenida y sobre todo indepen- diente.

El dise˜no y la implementaci´on del modelo de adaptaci´on al desempe˜no de los usuarios a la plataforma de rehabilitaci´on virtual Geture Therapy

El desarrollo de una arquitectura de simulaci´on (paciente, experto) que permite probar exhaustivamente un esquema de adaptaci´on de pol´ıticas.

1.6. Organizaci´ on de la tesis

El cap´ıtulo 2 presenta los conceptos y fundamentos sobre procesos de decisi´on de Markov y aprendizaje por refuerzo. Tambi´en se exponen algunos trabajos rela- cionados con aprendizaje por refuerzo en donde intervienen retroalimentaciones del humano. En el cap´ıtulo 3 se introduce al lector al problema de la enfermedad vascular cerebral as´ı como los m´etodos tradicionales de las terapias de rehabilitaci´on. Tambi´en se presenta los trabajos desarrollados para el apoyo en las terapias de rehabilitaci´on, tanto en sistemas rob´oticos como de rehabilitaci´on virtual. El cap´ıtulo 4 describe a detalle el m´etodo de adaptaci´on propuesto as´ı como sus principales alcances y obje- tivos. El cap´ıtulo 5 presenta la descripci´on de los experimentos realizados con datos sint´eticos. El cap´ıtulo 6 presenta una descripci´on y conclusiones de los experimentos

(26)

con humanos. Y por ´ultimo en el cap´ıtulo 7 se exponen las conclusiones y el trabajo futuro.

(27)

Cap´ıtulo 2

Procesos de decisi´ on de Markov

En este cap´ıtulo se explica los conceptos, t´ecnicas y algoritmos que se utilizaron como base para el desarrollo y propuesta del modelo de adaptaci´on para este trabajo de tesis. En particular se explica una introducci´on a los procesos de decisi´on de Markov (MDP, por sus siglas en ingl´es) y aprendizaje por refuerzo (RL, por sus siglas en ingl´es); tambi´en se describe el funcionamiento de los algoritmos iteraci´on de valor, Q- Learning, Sarsa. Por ultimo se explica el trabajo relacionado con el modelo propuesto.

2.1. Procesos de Decisi´ on de Markov

En inteligencia artificial se desea dise˜nar sistemas o agentes que puedan percibir el estado del ambiente en el que se encuentran y bas´andose en estas percepciones, puedan seleccionar aquellas acciones que maximicen su medida de rendimiento. El dise˜no de una pol´ıtica de comportamiento capaz de lograr lo antes mencionado resulta dif´ıcil, y m´as aun considerando la incertidumbre del efecto de las acciones seleccionadas y de los posibles errores en la percepci´on del ambiente. Por ejemplo, se desea que un robot traiga una taza de caf´e, la taza de caf´e se encuentra en otra sala diferente de donde se encuentra el robot, existen diferentes caminos para llegar a esa sala; se espera que el robot sea capaz de planear la secuencia de pasos m´as corta para llegar a la sala donde se encuentra el caf´e; sin embargo no es suficiente calcular la trayectoria correcta, ya que, como el resultados de sus acciones no son totalmente predecibles, el robot

(28)

deber´a detectar y corregir las posibles desviaciones que sufrir´a durante la toma de decisiones secuenciales para llegar a su objetivo. Una de las formas de representar el entorno y las decisiones secuenciales para lograr los objetivos que involucran la toma de decisiones secuenciales es mediante los procesos de decisi´on de Markov (MDP).

Los MDP fueron formalizados inicialmente en la investigaci´on de operaciones para optimizar diversas tareas con un car´acter secuencial y la existencia de incertidumbre [2]. El prop´osito es especificar los estados del entorno necesarios para la realizaci´on de una tarea de manera formal, considerando la incertidumbre. Una vez especificado el entorno, el c´alculo de la pol´ıtica de comportamiento ´optima se realiza mediante un algoritmo, en particular nos vamos a referir al algoritmo iteraci´on de valor.

Formalmente,un MDP se define como una tupla < S, A, T, R, h, γ >[2] donde:

S es el conjunto de estados. El entorno esta modelado por un conjunto de estados diferentes. Este conjunto puede ser finito o infinito numerable. Para este trabajo de tesis se fij´o un n´umero finito de estados, tambi´en se asumi´o que los estados son completamente observables.

A es el conjunto de acciones. Las acciones se definen como las operaciones que se realizan sobre los estados. De igual manera que el conjunto de estados, el conjunto de acciones puede ser finito o infinito numerable. El agente elige las acciones ´optimas que operan sobre los estados, con el objetivo que los estados deseados sean visitados con mayor frecuencia.

T es la funci´on de transici´on. Permite modelar los efectos causados al realizar una acci´on sobre un estado en particular tomando en cuenta la incertidumbre; es decir el entorno tiene una cierta probabilidad de hacer una transici´on a un estado siguiente debido al efecto causado al realizar una acci´on sobre alg´un estado actual del conjunto S. Esto es: T (s0, a, s) = P (s0|s, a) denota la probabilidad de pasar al estado s0 al realizar la acci´on a sobre el estado s.

R es la funci´on de recompensa. Esta funci´on indica la utilidad adquirida al

(29)

2.1 Procesos de Decisi´on de Markov 9 cambiar el estado del entorno tras la ejecuci´on de una acci´on y esto es: R(s, a).

La funci´on de recompensa cuantifica las preferencias del agente. El objetivo es maximizar la utilidad esperada.

h es el horizonte y γ factor de descuento. h define el periodo de tiempo o n´umero de pasos en los cuales se debe maximizar la utilidad, puede ser finito o infinito.

Mientras que γ es el factor de descuento que nos indica como debe ser ponderada las recompensas en los diferentes pasos en el tiempo.

Una de las propiedades importantes de los MDP’s es que no toman en cuenta toda la historia de los estados por los que ha pasado anteriormente, sino que a partir del estado actual y del estado inmediato anterior, el agente puede decidir que acci´on tomar (figura 2.1).

Figura 2.1: Modelo conceptual de un MDP

Dado que la elecci´on de la acci´on s´olo depende del estado actual del entorno, y no de sus acciones pasadas, no importa que acciones se hayan llevado a cabo para alcanzar el estado actual, porque el estado actual es suficiente para decidir cuales deben de ser las acciones futuras. Para poder tener en cuenta los estados pasados, existen se˜nales de estado que resumen toda la informaci´on anterior relevante para el problema, estas se˜nales de estado se le denominan Markovianas, o que poseen la propiedad de Markov [3]. El hecho de que St (un estado s en el tiempo t), dependa solamente de St−1 y At−1 implica que los estados anteriores y acciones anteriores no influyen en St. Esto es:

Pr(St|St−1, At−1, St−2, At−2...) = Pr(St|St−1, At−1) (2.1.1)

(30)

Donde Pr significa probabilidad. De manera similar ocurre con la funci´on de recom- pensa. Cada recompensa solo depende del estado y acci´on actual (i.e., Rt(St, At)).Otra propiedad no menos importante es que un proceso de decisi´on de Markov es estaciona- rio. Es decir, la manera de elegir la acciones futuras siempre es la misma, sin importar el tiempo. Estas dos propiedades son importantes ya que aseguran la representaci´on de un proceso de decisi´on de manera compacta (propiedad Markoviana) y que una funci´on de transici´on y una funci´on de recompensa ´unicas son suficientes para codi- ficar la din´amica de la toma de decisiones secuenciales sin importar el instante de tiempo en el que se encuentre (propiedad estacionaria).

Una pol´ıtica π es un mapeo de estados a acciones (i.e.,π : S → A). Una pol´ıtica genera una secuencia de estados en el tiempo, cada secuencia tiene asignada su propia suma esperada de recompensas adquiridas por la funci´on de recompensa, a esto se le llama el valor de la pol´ıtica. El valor de la pol´ıtica o funci´on de valor de un estado bajo la pol´ıtica π se denota como Vπ(s). Vπ(s) es la suma de recompensas esperadas iniciando en el estado st y siguiendo una pol´ıtica πt, la cual se expresa de la siguiente manera:

Vπ(s) =

X

t=0

γtEπ[R(st, π(st))]∀s (2.1.2) Donde Eπ es la recompensa esperada, seg´un la pol´ıtica φ La funci´on de valor tambi´en se puede escribir de forma recursiva [3]; es decir, como la recompensa actual y la suma de recompensas esperadas futuras dado el valor de la funci´on.

Vπ(s) = R(s, π(s)) + γX

s0

P r(s0|s, π(s))Vπ(s0)∀s (2.1.3)

Donde R(s, π(s)) es la recompensa actual y las recompensas futuras se definen como la probabilidad de estar en el estado s’dado que estaba en el estado s y se eligi´o la pol´ıtica φ(s) con una recompensa esperada de Vπ(s0) La meta es encontrar una pol´ıtica que maximice el valor esperado de las recompensas, esto se logra maximizando la suma de recompensas acumuladas en el tiempo [?]. Una pol´ıtica π es ´opima si Vπ(s)

(31)

2.1 Procesos de Decisi´on de Markov 11 Vπ(s)∀s, π y se denota de la siguiente manera:

Vπ(s) = m´ax

a R(s, π(s)) + γX

s0

P r(s0|s, π(s))Vπ(s0)∀s (2.1.4)

Recordemos que φ(s) = Q(s, a), al aplicar m´axaR(s, π(s)) se refiere a que se selecc- ciona el m´aximo valor de la acci´on, para s. Dicho objetivo se le denomina criterio de optimalidad y cumple las ecuaciones de Bellman [3].

Existen varios algoritmos para encontrar la pol´ıtica ´optima dado el modelo del MDP, por ejemplo: iteracci´on de valor, iteracci´on de pol´ıticas, programaci´on lineal.

El algoritmo iteraci´on de valor es una mejora del algoritmo iteraci´on de pol´ıticas ya que consiste en realizar un ´unico paso para evaluar la pol´ıtica, adem´as de que resulta m´as sencillo de comprender que formular un el problema de decisi´on como un problema de programaci´on lineal. Por tales motivos, en este trabajo de tesis se utiliz´o el algoritmo cl´asico de iteraci´on de valor para resolver el MDP propuesto.

2.1.1. Algoritmo Iteraci´ on de Valor

El algoritmo de iteraci´on de valor [2], realiza el c´alculo de la funci´on de valor de forma recursiva. La ecuaci´on 2.1.4 es la base de este algoritmo. El algoritmo comienza con V0(s)= 0, para todos los estados. Se aplica la ecuaci´on 2.1.4, a medida de que n → ∞, Vn converge a V. Dado que no es factible realizar un n´umero infinito de iteracciones, el algoritmo termina cuando la diferencia entre Vn y V(n−1) es mas peque˜no que un umbral . Esto garantiza que ||Vn − V|| ≤ 2/(1 − γ), esto es importante ya que asegura la convergencia del algoritmo.

Para este trabajo de tesis se utiliz´o el software SPUDD [43], para resolver el MDP propuesto. SPUDD utiliza el algoritmo de iteraci´on de valor para obtener la pol´ıtica

´

optima adem´as de utilizar una representaci´on compacta para resolver MDPs.

(32)

Algoritmo 1: Algoritmo Iteraci´on de Valor Entrada: M DP

Salida: π

1 n ← 0

2 V0(s) ← 0∀s

3 repeat

4 n ← n + 1

5 Vn(s) ← m´axaR(s, π(s)) + γP

s0P r(s0|s, π(s))Vπ(s0)∀s

6 until

7 m´axs|Vn(s) − Vn−1(s)| ≤ 

8 π(s) ← arg m´axaR(s, a) + γP

s0P r(s0|s, π(s))Vπ(s0)∀s

2.2. Aprendizaje por Refuerzo

Esta t´ecnica de aprendizaje es una de las formas m´as b´asicas de aprendizaje que la mayor´ıa de los seres vivos desarrollan a lo largo de su vida. El objetivo del aprendizaje por refuerzo [22] es que un agente aprenda a asociar situaciones (estados) con acciones, de modo que se maximice una se˜nal num´erica de refuerzo mediante la experimentaci´on [1], dependiendo ´unicamente de la percepci´on que posee del entorno y el estado en el que se encuentra (figura 2.2). El entorno es el encargado de proporcionar refuerzos al agente para guiar su aprendizaje. El refuerzo aplicado ser´a positivo si se ejecuta una acci´on adecuada en el estado en el que se encuentra el agente, y negativo o nulo en otro caso. El prop´osito del agente es obtener el mayor refuerzo positivo en cada instante y, de esta forma, indirectamente, realizar un comportamiento ´optimo global como resultado de sus objetivos. Con la repetici´on de este proceso, el agente aprende una pol´ıtica π, que indica cuales son las mejores acciones que maximizan su desempe˜no para as´ı obtener el m´aximo refuerzo acumulado.

Este tipo de aprendizaje se utiliza en muchos y muy variados tipos de problemas, desde aprender a controlar robots m´oviles, hasta controlar centrales qu´ımicas, pasando por aprender a jugar al ajedrez; sobre todo en sistemas donde la interacci´on con el entorno es muy activa y din´amica, como es el caso del tipo de dominio considerado.

(33)

2.2 Aprendizaje por Refuerzo 13

Figura 2.2: La imagen representa un agente interactuando con su ambiente. El agente ejecuta una acci´on atque lo traslada a un estado st+1 y recibe una recompensa rt+1. RL consiste en aprender una tarea mediante la interacci´on con un ambiente din´amico y en ocasiones desconocido.El agente percibe el entorno mediante sensores, en forma de estados; con ellos es capaz de ejecutar acciones y percibir los resultados o recompensas de aquellas acciones (causa y efecto), provocando la modificaci´on de su comportamiento

2.2.1. Exploraci´ on vs Explotaci´ on

Debido a que en aprendizaje por refuerzo el agente no conoce el ambiente en el que interactua, no sabe si la acci´on que eligi´o fue ´util para completar la tarea. Es decir, no se da cuenta si fue ´util o no, hasta recibir el refuerzo asignado. De esta forma el agente aprende por medio de ensayo y error, el cual implica que el agente pruebe acciones que en su caso no lleve a los mejores refuerzos esperados. Pero a su vez es importante que explote el conocimiento ya adquirido, el cual quiere decir que elija con mayor frecuencia las acciones que reporten mayor recompensa. Un agente que solo explora no aprender´a suficiente sobre cuales son los caminos ´optimos para llegar a un buen resultado, y un agente que solo explota su conocimiento no conocer´a nuevos caminos que pudieran ser mejores. En general, explorar se refiere a arriesgarse a elegir acciones que no sabe si obtendr´a altas recompensas y explotar se refiere a que solo elija acciones que sabe que recibir´a una recompensa alta. Existen muchos m´etodos para balancear la exploraci´on y explotaci´on, para este trabajo de tesis se utiliz´o el m´etodo e-greedy [1] que consiste en considerar una peque˜na probabilidad de no elegir siempre la acci´on con mejor valor de refuerzo.

(34)

2.2.2. Algoritmos de RL

Uno de los m´etodos m´as conocidos para resolver el problema del aprendizaje por refuerzo, es por medio de aprendizaje por diferencias temporales (TD, por sus siglas en ingles) [?]. El aprendizaje por diferencias temporales permite aprender una pol´ıtica ´optima sin necesidad de conocer el comportamiento del entorno, utiliza la recompensa obtenida en cada episodio 1) y las actualizaciones de la funci´on de valor se hacen en funci´on de estimaciones pasadas. Recordemos que la funci´on de valor eval´ua las pol´ıticas que ejecuta el agente, es decir la secuencia de estados (funci´on de valor-estado V (s) o la secuencia de estados y acciones [funci´on de valor-acci´on Q(s, a)]

que el agente ejecuta a lo largo del tiempo. Las ecuaciones 2.2.1 y 2.2.2 muestran la forma de evaluar las funciones de valor V (s) y Q(s, a).

V (st) = V (st) + α[rt+1+ γV (st+1) − V (st)], (2.2.1)

Q(st, at) = Q(st, at) + α[rt+1+ γQ(st+1, at+1) − Q(st, at)] (2.2.2) donde st significa el estado en el tiempo t, α es el factor de aprendizaje, rt+1 es la recompensa en el tiempo t+1, γ el factor de descuento.

Unos de los m´etodos basados en diferencias temporales mas populares son Q- Learning [23] y Sarsa [24], Ambos algoritmos tienen como objetivo generar una tabla de estados y acciones con valores num´ericos que representan la pol´ıtica de compor- tamiento para el agente (tabla de valores Q). Esta tabla se inicializa con valores arbitrarios que por lo regular son todos cero. Posteriormente se elige el punto de par- tida y se ejecutan un conjunto de acciones extrayendo los refuerzos adquiridos con los cuales se va modificando la tabla de valores Q.

En este trabajo de tesis se implementan ambos algoritmos en el m´odulo de adap-

1Un episodio es la ejecuci´on de acciones sobre los estados comprendidos entre un estado de partida y un estado objetivo

(35)

2.2 Aprendizaje por Refuerzo 15 taci´on con la finalidad de hacer un an´alisis sobre cu´al algoritmo convendr´ıa para lograr un aprendizaje m´as r´apido. La tabla de valores se inicializ´o mediante el resul- tado obtenido al resolver el MDP propuesto por medio del software SPUDD. Ambos algoritmos se describir´an a continuaci´on.

Q-Learning

Q-Learning (algoritmo 2) es un algoritmo off-policy ya que aprende la pol´ıtica seleccionando acciones independientemente de las acciones que el agente ejecuta. Es decir, el agente actualiza el valor Q(st, at) mediante m´axat+1 (donde m´axat+1, significa elegir la acci´on de mayor valor )sin asegurar que esta acci´on sea elegida en la pr´oxima iteracci´on. El par´ametro α es el factor de aprendizaje. Representa la porci´on de la diferencia, al seleccionar la acci´on dada por la pol´ıtica y la estimada por el algoritmo de aprendizaje. Es decir, el porcentaje de influencia que tiene las nuevas decisiones sobre las anteriores. El rango del factor de aprendizaje esta entre 0 y 1.

Un α = 0, har´a que el sistema no aprenda y solo siga una pol´ıtica fija. Mientras que un α= 1, significa que el sistema designe todo el peso a las decisiones futuras sobre las obtenidas anteriormente. γ es el par´ametro de descuento determina la importancia de las futuras recompensas. Con un 0 s´olo se considera la recompensa inmediata, con un valor cercano 1 se consideran las recompensas a largo plazo.

Ambos algoritmos tienen por objetivo generar una tabla —S—x—A— cuyo obje- tivo es generar pol´ıticas de comportamiento. En principio esta tabla se inicializa con ceros. Posteriormente dado un estado objetivo o un criterio de paro (com´unmente un n´umero fijo de episodios se elige un estado de partida y se ejecuta un conjunto de acciones que permiten una b´usqueda exploratoria para alcanzar el estado objetivo.

Mientras se lleva a cabo dicha exploraci´on, se extraen refuerzos con los cuales se va modificando la tabla de valores Q. Esto se repite el n´umero de veces que indique el criterio de paro.

(36)

Algoritmo 2: Algoritmo Q-Learning Entrada: < S, A, R >

Salida: Tabla de valores Q

1 Inicializar Q(st, at) arbitrariamente

2 repeat para cada episodio

3 Inicializar st

4 repeat para cada episodio

5 Escoger at para st mediante una pol´ıtica de selecci´on Q(e.g.,  − greedy)

6 Ejecutar la acci´on at, observar el refuerzo rt+1 recibido y el siguiente estado st+1

7 Actualizar Q(st, at) con la ecuaci´on 2.2.2:

8 Q(st, at) ← Q(s, a) + α[rt+1+ γmaxat+1Q(st+1, at+1) − Q(st, at)]

9 st ← st+1

10 until

11 st sea terminal

12 until

13 alcanzar el episodio final

Sarsa

Sarsa (algoritmo 3)[1], es un algoritmo on-policy ya que sigue y aprende la pol´ıti- ca de selecci´on de acciones al mismo tiempo. Es decir, el agente actualiza el valor Q(st, at) mediante at+1 asegurando que esta acci´on sea elegida en la pr´oxima iterac- ci´on. Es decir, sigue y aprende la pol´ıtica de selecci´on de acciones al mismo tiempo.

La actualizaci´on de la pol´ıtica Q(st, at), depende de la qu´ıntupla < s, a, r, s0, a0 > que da origen a su nombre.

(37)

2.3 Trabajos relacionados 17 Algoritmo 3: Algoritmo Sarsa

Entrada: < S, A, R >

Salida: Tabla de valores Q

1 Inicializar Q(st, at) arbitrariamente

2 repeat para cada episodio

3 Inicializar st

4 Escoger at para st mediante una pol´ıtica de selecci´on Q(e.g.,  − greedy)

5 repeat para cada episodio

6 Ejecutar la acci´on at, observar el refuerzo rt+1 recibido y el siguiente estado st+1

7 Escoger at+1 para st+1 mediante una pol´ıtica de selecci´on Q(e.g.,  − greedy)

8 Actualizar Q(st, at) con la ecuaci´on 2.2.2:

9 Q(st, at) ← Q(s, a) + α[rt+1+ Q(st+1, at+1) − Q(st, at)]

10 st← st+1

11 at← at+1

12 until

13 st sea terminal

14 until

15 alcanzar el episodio final

2.3. Trabajos relacionados

Nuevas formas de lograr un aprendizaje surgen de la necesidad de que los sistemas aprendan m´as r´apido, de entre ellos est´a el de la retroalimentaci´on humana. La idea es proporcionar una gu´ıa en el aprendizaje, de esta manera el agente logra una pol´ıtica de comportamiento mejor a la aprendida. Con el objetivo de acelerar el proceso de aprendizaje por refuerzo, se ha optado por el uso de funciones de Reward Shaping [42].

La tabla 2.1 muestra algunos trabajos en donde involucran este tipo de metodolog´ıa.

(38)

Tabla 2.1: Lista de sistemas desarrollados con retroalimentaciones de los humanos

Autor(a˜no)Descripci´onRetroalimentaci´onP.Ini.Alg.RLComentarios AndreaL. Thomaz yCynthia Breazel[7] (2006)

Simulaunambientella- madoShophie’sKitchen, endondeseleense˜na alagenteaprepararun pastel.Empleadostipos deretroalimentaci´on.Se demostr´oqueestetipo deayuda,reducelaex- ploraci´oninnecesariaque normalmenterealizar´ıael agenteduranteelentrena- mientoparaaprenderla tarea.

Empleadostiposdere- fuerzos,Noguiadoque consistesoloenenviar refuerzosenl´ıneade[1,- 1]medianteelrat´on. Elguiadoendondele se˜nalaalagenteelobje- toquedebeseleccionar.

NoQ- LearningElaprendizajeestotal- mentedirigidoporelhu- manoqueense˜naalagen- teaprepararelpastel TAMER [5](2009)Laideaesaprenderelmo- deloderefuerzodelen- trenadorhumanomedian- teaprendizajesupervisa- do.Lapol´ıtica´optimala daelentrenador.Esteti- podealgoritmosehaim- plementadoendosdomi- nios.TetrisyMountain Car.

ElagenteTAMERno buscamaximizarlosre- fuerzosalargoplazo, sinoquetratadema- ximizardirectamentea cortoplazoelrefuerzo dadoporelhumano.Se remplazalafunci´onde recompensadelapren- dizajeporlosrefuer- zosdelhumano(Reward Shaping).

NoSarsa (λ)Nopermiteaprendizaje aut´onomoydeestama- neraquedaligadoalaha- bilidaddelinstructor. TAMER+RL [6](2011)Consisteenunamejora altrabajoanterior.Sele anexaRLparaqueelre- fuerzodelhumanopue- daproporcionarloduran- teelaprendizaje.Ademas compara4t´ecnicasdere- fuerzoparaaplicarselasa RL.

Seobservaqueempezar conaprendizajedado porunapol´ıticadelre- fuerzohumano,produ- cemejoresrecompensas queempezarelaprendi- zajedesdecero.

NoSarsa (λ)Sinembargoelart´ıculo concluyequeelalgorit- moTAMERfuedise˜nado paraelaprendizajese- cuencial,porlotantore- sult´oinadecuadoapren- derdeformasimultanea delentrenadorhumanoy delase˜nalderecompensa delMDP.

(39)

2.3 Trabajos relacionados 19

Autor(a˜no)Descripci´onRetroalimentaci´onP.Ini.Alg.RLComentarios Judah K.,Roy S.,FernA. Dietterich T.G.[8] (2010)

Elprocesodeaprendi- zajesealternaentredos etapas.1.Elusuarioob- servalaejecuci´ondela pol´ıtica,pudiendodes- plazarsehaciaadelante oatrasalolargode latrayectoriaymarcar lasaccionescomobue- nasomalas.Etapa2. Elagenteinteract´uacon elMDPconeltradicio- nalRLperoteniendoen cuentalaetapa1.

Aunqueelalgoritmo propuestoespromete- dor,alprobarloconhu- manos,sellegaala conclusi´onquelausa- bilidaddelsistemano permiti´oquelosparti- cipantesentendieranla din´amicadelosejerci- ciosdeestrategiaporlo quenoseobtuvobuenos resultadosqueelgru- poqueutiliz´osolamente RL.

NoAlgoritmomo- dificadodeRL enelqueincluye losconjuntos C(Cr´ıtica, (s1,c1+,c2−)) yT(RL, (s1,a1,r1))

Laestimaci´ondela pol´ıtica´optimaescom- pleja,losusuariosre- quierendeunconoci- mientopreviosobrela funcionalidaddelalgo- ritmopropuestoyla din´amicadelasrecom- pensas. Tenorio- Gonzalez A.,Morales E.F.and Villase˜nor Pine- da,L.V [40](2010)

Combinaretroalimenta- ci´onporvoz(enl´ınea) yRL.Modelaunafun- ci´onderecompensame- dianteRewardShaping, queincluyeaccionesy recompensasqueson directamenteproporcio- nadasenl´ıneaalproce- sodeaprendizaje.

Laretroalimentaci´ones din´animcaylafunci´on derecompensanoper- maneceest´atica.Dicha retroalimentaci´onpue- dedarsenecualquier momentodelaprendiza- je.

NoSarsa(λ)Lacombinaci´onque present´omejoresre- sultadosfueRL+ HD Leon,A., Morales, E.,Alta- mirano,L., Ruiz,J. [41](2011)

Esunaextensi´ondel trabajo[40],involucra lavozcomomediona- turalderetroalimenta- ci´on.Caracter´ızaloses- tadospormediodere- presentacionesrelativas einvolucraprograma- ci´onpordemostraci´on apartirdeinformaci´on visual.

Laretroalimentaci´on esdin´amicaeincluye accionesyrecompensas modeladasporReward Shaping.Serealiz´ouna seriedeexperimentos endondesecombina RL-Demostraci´on humana(HD)- Simulaci´on(S)- Retroalimentaci´on porelusuario(FB).

NoQ-LearningLacombinaci´onque present´olosmejores tiemposdeaprendizaje fueronladeHD+S+ RL+FB

(40)

Del trabajo relacionado, podemos notar que la principales caracter´ısticas fueron:

El aprendizaje resulta totalmente guiado por los refuerzos del humano, dependiendo de las habilidades del mismo. Tambi´en se busca aprender esta funci´on de refuerzos con la ayuda del empleo de reward shaping, logrando que esta funci´on de recompensa no sea est´atica. Adem´as incluyen refuerzos extra como el aprendizaje por demostraci´on y correcciones directas sobre las acciones. Para este trabajo de tesis, en lugar de aprender la funci´on de recompensa del humano, se opt´o por empezar el aprendizaje desde una pol´ıtica dada por un MDP, utilizando aprendizaje por refuerzo y el empleo de reward shaping para la funci´on de recompensa.

2.4. Resumen

En este cap´ıtulo se present´o una explicaci´on sobre los procesos de decisi´on de Markov , as´ı como a detalle los componentes que lo conforman. Por otro lado tam- bi´en se explico brevemente el enfoque de aprendizaje por refuerzo sus principales caracter´ısticas y los algoritmos que resuelven este tipo de aprendizaje, tambi´en se mencionan algunos de los trabajos realizados que involucran aprendizaje con retroali- mentaci´on humana. En el siguiente cap´ıtulo se explicar´a el dominio que se eligi´o para aplicar el modelo de adaptaci´on propuesto.

(41)

Cap´ıtulo 3

Rehabilitaci´ on

La enfermedad vascular cerebral (EVC, por sus siglas en espa˜nol) afecta a millones de personas cada a˜no en todo el mundo. Las personas que han sufrido alguna EVC se vuelven dependientes. Una de las secuelas importantes que causa esta enfermedad es la hemiplejia que es un trastorno motor, en el que la mitad vertical del cuerpo est´a pa- ralizada; por ejemplo, un brazo y su pierna correspondiente. La principal causa por la cual las personas hemipl´ejicas no se rehabilitan, es por la falta de terapia, ya sea porque no la hayan tomado nunca o porque se haya truncado una vez iniciada. Las causas pueden ser muchas, pero las principales son: la falta de recursos econ´omicos, la dependencia a trasladarse, y en algunos casos la ausencia de terapeutas cercanos [9]. Debido a esto, se han buscado alternativas que faciliten y mejoren la rehabilita- ci´on. En este cap´ıtulo se explicar´an de manera breve los antecedentes de este tipo de enfermedad y las alternativas que se han desarrollado para apoyar a este tipo de personas en su rehabilitaci´on.

3.1. Enfermedades cerebrales vasculares

En el t´ermino enfermedades cerebrales vasculares se incluyen todos los procesos patol´ogicos primarios o secundarios con afecci´on de los vasos cerebrales (arterias, venas capilares y senos venosos) que se acompa˜nan de da˜no cerebral por disminuci´on del aporte sangu´ıneo, dificultades en el drenaje venoso o hemorragia [9].

(42)

Cuando una persona sufre una p´erdida de flujo sangu´ıneo en el coraz´on, se dice que ha sufrido un ataque card´ıaco, de la misma forma puede decirse que una persona con p´erdida de flujo sangu´ıneo en el cerebro, tiene un ataque cerebral o sufre un accidente cerebrovascular cuyo termino en ingl´es es “Stroke”. Cuando se interrumpe el flujo de sangre en el cerebro, algunas neuronas mueren inmediatamente mientras que otras corren el riesgo de morir, estas c´elulas da˜nadas constituyen la penumbra isqu´emica1, con tratamiento oportuno, estas c´elulas pueden salvarse. Hay dos tipos de enfermedad vascular cerebral: Isqu´emica y Hemorr´agica. La primera ocurre cuando una arteria que suministra sangre al cerebro queda bloqueada ver figura 3.1.B, mientras que en un un cerebro saludable, las neuronas no entran en contacto directo con la sangre.

La segunda ocurre cuando se rompe una arteria en el cerebro ver figura 3.1.A , la sangre pasa al tejido circundante y perturba no s´olo el suministro de sangre sino el equilibrio qu´ımico delicado que las neuronas requieren para funcionar. La sangre llega a las neuronas a trav´es de paredes delgadas de los capilares cerebrales. Las glias2 forman una barrera sangu´ınea-cerebral o hemoencef´alica.

Figura 3.1: Enfermedad vascular cerebral. A) Hemorr´agico. Filtraci´on de sangre dentro del tejido del cerebro. B) Isqu´emico. Co´agulo deteniendo el suministro de sangre en el cerebro.

1Regi´on isqu´emica, isqu´emia:disminuci´on transitoria o permanente del riego sangu´ıneo de una parte del cuerpo, producida por una alteraci´on normal o patol´ogica de la arteria o arterias aferentes a ella

2Celdas del sistema nervioso que soportan y protegen a las neuronas

(43)

3.2 Terapia de Rehabilitaci´on y el desarrollo de nuevos sistemas 23

3.1.1. Secuelas de la enfermedad vascular cerebral

La hemiplejia es una de las secuelas m´as importantes de la enfermedad vascular cerebral que existen en la actualidad. La hemiplejia, es consecuencia en la mayor´ıa de las ocasiones de la enfermedad vascular. La hemiplejia es un trastorno motor, en el que la mitad vertical del cuerpo est´a paralizada; por ejemplo, un brazo y su pierna correspondiente. La hemiplejia es provocada por la muerte de neuronas encargadas de la motricidad del cuerpo. Dependiendo de las neuronas afectadas la enfermedad vascular puede afectar otras funciones del cuerpo humano [9]. La Organizaci´on Mun- dial de la Salud (O. M. S.), reporta 200 casos nuevos de personas con enfermedad vascular cerebral por cada 100 mil habitantes por a˜no. Cada a˜no 200,000 personas en M´exico sobreviven a un derrame cerebral y cerca de 700,000 en Estados Unidos [9].

Aproximadamente el 80 % de ellos sufren secuelas de la enfermedad vascular, es decir, pierden la habilidad del movimiento. Aproximadamente un 10 % no logra beneficio alguno de ning´un tratamiento. Un 10 % de los enfermos consiguen una recuperaci´on espontanea completa de 8 a 12 semanas, mientras que el 80 % de los pacientes con secuelas, puede recuperarse por medio de terapias de rehabilitaci´on [10]. Los costos de la terapia para la enfermedad vascular cerebral son muy elevados, los gastos directos est´an relacionados con la prevenci´on, el diagn´ostico, el tratamiento y la rehabilitaci´on, en los Estados Unidos un poco mas de 3 millones de pacientes sobreviven a un acci- dente cerebrovascular, el cual se requiere cerca de 16.8 billones de d´olares distribuidos entre gastos de hospital, enfermeras, servicios m´edicos y medicamentos [11].

3.2. Terapia de Rehabilitaci´ on y el desarrollo de nuevos sistemas

El primer objetivo dentro la terapia es la rehabilitaci´on a corto plazo del paciente hemipl´ejico durante la etapa temprana y aguda, esto es, hacerlo m´as independiente en

(44)

las actividades primarias de la vida diaria, como asearse, alimentarse y trasladarse. El tratamiento pone ´enfasis en el lado sano que ayudar´a a compensar al lado afectado.

Este tipo de rehabilitaci´on precoz lleva, lamentablemente, al desarrollo de espastici- dad3. Esto es producto de las reacciones del esfuerzo requerido, por la utilizaci´on solo del lado sano, p´erdida del equilibrio y el miedo a las ca´ıdas [12]. La principal causa por la cual las personas hemipl´ejicas no se rehabilitan es por la falta de terapia, ya sea porque no la hayan tomado nunca o por que se haya truncado una vez iniciada. Las causas pueden ser muchas, pero las principales son: la falta de recursos econ´omicos, la dependencia a trasladarse, y en algunos casos la ausencia de terapeutas cercanos [12].

Debido a esto, se han buscado alternativas que faciliten y mejoren la rehabilitaci´on.

La mayor´ıa de estos trabajos se basan en asistentes rob´oticos que eliminan en gran parte el trabajo del terapeuta. A continuaci´on se enuncian los nombres de algunos sistemas rob´oticos: Massachusetts Institute of Technology (MIT) - MANUS [13], Mi- rror Image Motion Enabler (MIME) [14], Assited Rehabilitation and Measurement (ARM), Bi-Manu-Track [8] y GENTLE/S [16]. Estos proyectos proveen una rehabi- litaci´on menos asistida por el especialista (ya que el m´edico programa la secuencia de ejercicios y el paciente la realiza de manera autom´atica), pero siguen siendo costosos y su ubicaci´on sigue siendo el centro de rehabilitaci´on. Si el problema es poder llegar a un centro de rehabilitaci´on, es necesario buscar alternativas que lleven la terapia a donde la persona hemipl´ejica se encuentre. Algunos de los ejemplos basados en reha- bilitaci´on virtual son: Java therapy: Sistema que utiliza un brazo rob´otico para la rehabilitaci´on, con comunicaci´on v´ıa-Web [17],T-Wrex (Therapy Wilmington Robotic Exoskeleton): Sistema rob´otico pasivo de entrenamiento de bajo costo [18]. En estas propuestas, no es necesario que un terapeuta este presente durante la realizaci´on de los ejercicios en la terapia de rehabilitaci´on, sin embargo, es necesario que el sistema de rehabilitaci´on sea acorde al desempe˜no del paciente, para as´ı hacer que la terapia de rehabilitaci´on sea ´optima.

3Contracci´on exagerada de los m´usculos de origen cerebral que se manifiesta por espasmos

(45)

3.3 Trabajos relacionados 25

3.3. Trabajos relacionados

Existen varios sistemas desarrollados para ayudar al paciente en rehabilitaci´on, b´asicamente se pueden dividir en sistemas rob´oticos, juegos de realidad virtual e h´ıbridos. De los existentes en la literatura se seleccionaron aquellos que presentan un posible acercamiento de adaptaci´on al progreso del usuario. En la tabla 3.1 se listan algunos de estos sistemas. De los trabajos mencionados en la tabla 3.1, podemos notar las siguientes diferencias:

Estructura de Hardware. Algunos sistemas necesitan de una estructura de hard- ware adicional o de una plataforma rob´otica, en ocaciones son necesarios para la realizaci´on de los ejercicios de terapia, sin embargo lo que se busca es inducir a la terapia de rehabilitaci´on no solo en la cl´ınica, sino que motivar al usuario a continuar sus ejercicios de rehabilitaci´on desde casa.

Realidad virtual. Existen sistemas que ocupan la realidad virtual como medio motivacional y de entretenimiento para los usuarios en terapia de rehabilitaci´on, sin embargo existe la posibilidad de que algunos pacientes pudieran no sentirse c´omodos, por ello es importante saber la poblaci´on y los temas de los juegos a la que va dirigida la realidad virtual.

Sistema de adaptaci´on al usuario. La mayor´ıa de los sistemas presentados en la tabla, presentan un sistema de adaptaci´on manual, en donde el terapeuta o el mismo usuario tiene que calibrar el sistema. O el comportamiento del sistema parte de una pol´ıtica de decisi´on est´atica empleada para todos los usuarios que utilicen el sistema.

Validez cl´ınica. Es muy importante llegar a este punto y demostrar con certeza la validez cl´ınica del sistema de rehabilitaci´on, sin embargo podemos observar que la mayor´ıa de los sistemas presentan pruebas piloto que generan un grado de validez antes de realizar un experimento en forma.

(46)

Tabla 3.1: Lista de sistemas desarrollados para ayudar al paciente en rehabilitaci´on de las extremidades superiores

NombreReferencias (a˜no)Descripci´onAdaptaci´onAmbiente VirtualEstudioCl´ıni- coComentariosy limitaiones Virtual Envi- ronment Training System

[24] (2002)Pormediode lacomputado- raseconectan dispositivoselec- tromagn´eticos paraseguirel movimiento.En elmonitorse despliegaun ambientevirtual concompetencias paramoverlos brazos.

Sepuede desplegaren m´ultiplespan- tallasovarios dispositivosde seguimiento. Adaptaci´on pormediode umbrales.

Alcanzar objetos.unacohorte (n=9)mostra- ronmejoras (15%inFugl- Meyery31% enlaprueba demotor)en 2movimien- tosdegran alcance.

Profesorvirtual, elobjetivoaal- canzarpuedeser moderadoporel terapeuta,elpa- cientetratade imitarsusmovi- mientos. Thera Game[25] (2006)Sistemadevisi´on mediantecaptura devideo(Web- cam)

Losnivelesde losjuegospue- denserselec- cionadosseg´un elpaciente

Incluye juegosco- moTetris, frog,co- lorSokcon m´usicay emociones.

Puedeserusa- doporpacien- tescond´eficit neurol´ogico

serealizaun seguimientode losmovimientos delbrazopara lainteracci´on conlosobjetos virtuales.La evidenciadel beneficiocl´ınico eslimitado.

(47)

3.3 Trabajos relacionados 27

NombreReferencias (a˜no)Descripci´onAdaptaci´onAmbienteVir- tualEstudioCl´ınicoComentariosylimi- taiones Universities ofDerbyand Ulster’sse- riousgames formovement therapy

[26],[27] (2008)ImmersiveHead MountedDisplay (Unapantalla montadaenla cabeza,como unoslentes)and guantes

Ladificultad denlosjuegos incremen- taconforme avanzasenel juego.

Incluyejue- gosRabbit chase,arrow attack,oran- gecatching ywhack-a- mouse

unpeque˜noensa- yocl´ınicosugie- rebeneficioscl´ıni- cosent´erminosde rendimientomo- torquesemantu- vo6semanasdes- pu´esdelainter- venci´on.

Elsistemaincorpo- ragr´aficos3Dy unm´odulodete- rapia.Laplatafor- masoportaperfiles delosusuarios.La informaci´onobteni- dapuedeserinsufi- cienteparadetermi- narelniveldedifi- cultad[28]. VirtualPiano Trainer[29] (2009)Cyberglove+Cy- bergrasp+estruc- turadesensores combinadoconun pianovirtual

Dosalgoritmos queadaptanla asistenciahap- tic(sensibleal tacto)

pianovirtualunestudiopilo- tosugieremejoras enpeque˜nassesio- nes

unsofisticadosiste- madeseguimiento delosdedos,ade- cuadoparalaseta- pasavanzadasdete- rapia. iStretch[30],[31] (2010)Sistemarob´otico paralasprimeras etapasdelatera- pia

Adaptaniveles dedificultad pormediode unapol´ıtica est´aticada- daporun emphPOMDP

Alcanzarlos objetivosesti- randoelbrazo sobreunagu´ıa fijasoportada poruntripi´e.

Noestadescrito.Movimientoslimita- dos.

(48)

breReferencias (a˜no)Descripci´onAdaptaci´onAmbienteVir- tualEstudioCl´ınicoComentariosylimi- taiones (Ho-[32] (2000)Sistemarob´oticoforma- doporunmotorquesir- vecomogu´ıaenlosmo- vimientos

3variantes enlosobjeti- vos(Power, Springand Boom)

Contienejue- goscomoRain mug,fruit shopping,egg crackingy revealpicture

Noest´adescritoVersi´oncomercial porARMGuide [32]andT-WREX systems[33]. ox[34] (2006)XboxconguantesCalibraci´on, permiteade- cuarrangode movimiento alusuario as´ıcomolos umbralesen losjuegos

2juegos Cleanup screenyBut- terfly/UFO scaring

NoestadescritoSistemamodificado parasucomerciali- zaci´on.Sistemade bajocosto,incapaci- dadparamedirarti- culacionesindividua- lesparacadadedo. Juegosdeacci´ones- tablecidoscon[35]. yStation3[35] (2008)PlayStation3conguan- tesCalibraci´on, permiteade- cuarrangode movimiento alusuario as´ıcomolos umbralesen losjuegos

2juegos, Cleanup screen andBut- terfly/UFO scaring

Unestudiopilo- tosugieremejoras enADL.

Sistemamodificado parasucomercializa- ci´on.Bajocostoin- capacidadparame- dirarticulacionesin- dividualesparacada dedo.Juegosdeac- ci´onestablecidoscon [34].

(49)

3.3 Trabajos relacionados 29

breReferencias (a˜no)Descripci´onAdaptaci´onAmbienteVir- tualEstudioCl´ınicoComentariosylimi- taiones proporcio-[36] (2010)Wiibasadoensistema devisi´onDetectayfil- traycompen- saci´ondemo- vimiento.Ca- libraatrav´es deejemplosde movimientos.

unconjuntode 8juegos,base- ballcatch,he- licopterflying, frogSimonand under-the-sea

Losresultadosen losestudiospilo- tofueronalenta- dores.

Juegosdesarrollados enJava,Proyecto LookingGlass.Una tercerapersonaque senecesitaparaayu- daracolocarelcon- trolremotoWiienel brazodelpaciente

(50)

En los trabajos relacionados podemos observar que la mayor´ıa de ellos ocupa realidad virtual, este medio ha servido como una forma de motivar y entretener a los usuarios en terapia, sin embargo es necesario saber el tema de los juegos a la que va dirigido. En nuestro caso los juegos van dirigidos a personas mayores, por tales motivos, los juegos emulan situaciones de la vida cotidiana, como por ejemplo fre´ır un bistec, lavar platos etc. Tambi´en podemos observar que el sistema de adaptaci´on son de tipo: manual, calibraci´on previa, comportamiento est´atico, en la propuesta de tesis este sistema es din´amico, genera un comportamiento seg´un el desempe˜no del paciente y la evaluaci´on del terapeuta. Por lo que el comportamiento del sistema ser´a acorde a las capacidades especiales de los pacientes.

3.4. Resumen

Se present´o una idea general del domino al que va dirigida la tesis multidiscipli- naria, se present´o el rol de las terapias de rehabilitaci´on convencionales, as´ı como los sistemas de rehabilitaci´on virtual desarrollados para este tipo de dominio, en el siguiente cap´ıtulo de explicar´a mas a detalle el modelo de adaptaci´on propuesto.

(51)

Cap´ıtulo 4

Modelo de adaptaci´ on

En este cap´ıtulo se describe el m´etodo de adaptaci´on din´amica propuesto para adaptar la pol´ıtica de decisiones a los cambios longitudinales en la conducta del usuario y se detallan las etapas que lo conforman para su desarrollo e implementaci´on.

En la secci´on 4.1, se presenta una introducci´on al modelo de adaptaci´on. La secci´on 4.2 se describe a detalle el modelo de adaptaci´on din´amica, as´ı como la obtenci´on de la pol´ıtica inicial su evoluci´on longitudinal y el aprendizaje doblemente reforzado. La secci´on 4.3 explica la integraci´on del modelo a la plataforma de videojuejos Gesture therapy.

4.1. Introducci´ on al Modelo de adaptaci´ on din´ amica

En los cap´ıtulos anteriores se expusieron dos alternativas para el desarrollo de un modelo de adaptaci´on, las cuales son por medio de un MDP y aprendizaje por refuerzo. Un MDP puede modelar los estados del usuario y seleccionar la mejor acci´on de adaptaci´on correspondiente al estado en que se encuentre dicho usuario. A esta correspondencia se le conoce como pol´ıtica. Pero la existencia de una pol´ıtica de comportamiento est´atica para todos los usuarios no es siempre efectiva. Por otro lado, el aprendizaje por refuerzo permite definir una pol´ıtica de comportamiento din´amica

Referencias

Documento similar

[r]

[r]

Cedulario se inicia a mediados del siglo XVIL, por sus propias cédulas puede advertirse que no estaba totalmente conquistada la Nueva Gali- cia, ya que a fines del siglo xvn y en

que hasta que llegue el tiempo en que su regia planta ; | pise el hispano suelo... que hasta que el

Abstract: This paper reviews the dialogue and controversies between the paratexts of a corpus of collections of short novels –and romances– publi- shed from 1624 to 1637:

En junio de 1980, el Departamento de Literatura Española de la Universi- dad de Sevilla, tras consultar con diversos estudiosos del poeta, decidió propo- ner al Claustro de la

Missing estimates for total domestic participant spend were estimated using a similar approach of that used to calculate missing international estimates, with average shares applied

[r]