Estudios sobre sistemas adaptativos con aplicaciones en la robótica autónoma y los agentes inteligentes

Texto completo

(1)UNIVERSIDAD POLITÉCNICA DE MADRID FACULTAD DE INFORMÁTICA. ESTUDIOS SOBRE SISTEMAS ADAPTATIVOS CON APLICACIONES EN LA ROBÓTICA AUTÓNOMA Y LOS AGENTES INTELIGENTES Tesis Doctoral José Antonio Martı́n Hernández Ingeniero en Informática. 2009.

(2)

(3) Departamento de Inteligencia Artificial Facultad de Informática. Estudios sobre Sistemas Adaptativos con aplicaciones en la Robótica Autónoma y los Agentes Inteligentes José Antonio Martı́n Hernández Ingeniero en Informática. Directores: Darı́o Maravall Gómez-Allende, doctor ingeniero de telecomunicaciones Javier de Lope Asiaı́n, doctor en informática 2009.

(4)

(5) UNIVERSIDAD POLITÉCNICA DE MADRID. Tribunal nombrado por el Magfco. y Excmo. Sr. Rector de la Universidad Politécnica de Madrid, el dı́a. . . . . . de. . . . . . . . . . . . . . . . . . . . . . . . . . . de 200. . .. Presidente: D. Vocal 1o :. D.. Vocal 2o :. D.. Vocal 3o :. D.. Secretario: D. Suplente 1o : D. Suplente 2o : D.. Realizado el acto de defensa y lectura de la Tesis el dı́a . . . . . . de. . . . . . . . . . . . . . . . . . de 200. . . en la Facultad de Informática, Madrid. Calificación: EL PRESIDENTE. LOS VOCALES. EL SECRETARIO. V.

(6)

(7) Con intenso amor, a mis padres José Antonio y Marı́a de Lourdes (PA y MA), a mi mujer Ana Marı́a (Anaksunamun), a mis hermanas, Marı́a Cristina (Mary), Adriana Marı́a (Adri), y Lourdes Alejandra (Alu), a mis sobrinos: Belén (Belunchu) y Valentı́n (Tintin)..

(8)

(9) Agradecimientos. A Darı́o Maravall, gracias por tu amistad y por haberme guiado y supervisado desde el primer dı́a, por ser siempre especial en las discusiones y por tener siempre algo que aportar. A Javier de Lope, gracias por tu amistad, tu apoyo y tu confianza durante estos años, siempre has sabido sacarme de los estancamientos y has estado en los momentos en los que he necesitado apoyo y ayuda. A Matilde Santos por tu amistad, tu apoyo, por auparme, animarme y estar allı́ pendiente. A Juan Pereda por tu amistad y por tu apoyo. A mis profesores del D.I.A. y compañeros de investigación por estar siempre dispuestos a aclarar dudas, gracias por vuestra amistad y por imprimirme ánimo (en una laser y a todo color): Alfonso Rodriguez, Ana Garcı́a, Concha Bielza, Maribel Rodrı́guez, Arminda Moreno, Miguel Virto y Luis Baumela. A Jose Miguel Buenaposada y Enrique Muñoz por vuestra amistad y por vuestro apoyo y colaboración en el D.I.A. a D.I.A. de la investigación. A Yolanda Sanz... eternamente Yolanda... A Yadira Quiñonez la de ojitos dormilones... A Francisco Bellas por tu amistad, apoyo y comentarios de ánimo sinceros.. Gracias a tod@s.. Madrid, 4 de Marzo de 2009. con cariño. José Antonio Martı́n H..

(10)

(11) Prefacio. Todos los que nos iniciamos en la ciencia queremos buscar un lugar en el mundo y, como todos, terminamos por conseguir el mundo en un lugar. Si bien es cierto que en estos universos y a estas alturas es bastante difı́cil hallar cosas nuevas nunca he perdido el optimismo. Ya bien sabemos que en la ciencia, las probabilidades favorecen a quienes aventuran conjeturas pesimistas, pero de la probabilidad al hecho no hay continuidad ! Sin embargo, también es cierto que la ciencia se ha hecho una profesión y como tal está mayoritariamente compuesta por profesionales que deben seguir unos hitos en su desarrollo profesional dejando de lado empresas cientı́ficas donde la probabilidad de éxito es muy baja pero que serı́an empresas donde los frutos podrı́an ser inmensos. Esto no tendrı́a necesariamente que ser ası́, pero las reglas de la financiación han impuesto un esquema donde cada vez hay menos lugar para, en fin, como dicen por allı́ “perder el tiempo”. Volviendo al optimismo y al pesimismo, en general, no es una cuestión de elección personal, el pesimismo tanto como el optimismo son cualidades que se ejercen y que influyen de forma muy notoria en la racionalidad. Si digo que soy optimista no es porque haya elegido serlo, lo digo en base a la auto-evaluación que hago de la forma en la que enfrento las decisiones cotidianas, es decir si busco, por ejemplo, una solución a un problema, en general las primeras soluciones no me satisfacen y pienso que quizá estoy buscando mal, esto es un signo claro de optimismo pues quiere decir que la idea de solución que hay en mi cerebro es superior a lo que encuentro, es decir, que mis expectativas no son satisfechas por la realidad, mientras que si por el contrario, enfrascado en un problema consigo una solución y a la primera me siento satisfecho, entonces estarı́a ejerciendo el pesimismo pues la idea o modelo de solución que habı́a en mi cerebro era inferior a la realidad. Evidentemente somos seres que nos adaptamos a la realidad y que aprendemos, y la experiencia de vivir la realidad produce un cambio en nuestra racionalidad, y podemos pasar del optimismo inicial al pesimismo, y volver al optimismo y volver al pesimismo y ası́ sucesivamente. Pero lo que sucede es que no nos quedamos para siempre en ese ir y venir, en esas oscilaciones de expectativas, sino que vamos reduciendo los vaivenes (convergiendo) de forma gradual hacia un.

(12) Prefacio. punto más o menos intermedio donde los golpes de la realidad son cada vez menores, es decir, donde nuestras expectativas sobre la realidad, nuestro modelo del mundo, empieza a estar de acuerdo con la realidad y en ese momento alcanzamos un equilibrio, equilibrio que no es estático pues tenemos que mantenerlo de forma activa. Los triunfos y los fracasos marcan nuestra vida, quedan como marcadores en el cerebro para recordarnos sobre nuestras elecciones pasadas e influir en las de futuro y ya que no podemos ver más allá de aquellas elecciones que no comprendemos, cuando llegan las consecuencias entonces recordamos ese preciso momento de ignorancia y nos viene a la cabeza el lamento “haberlo sabido” y la exigencia “quiero otra oportunidad” y ası́ enfrentamos la vida futura sabiendo que aunque no comprendemos aún las causas conocemos la consecuencia futura y es entonces cuando se crea un nuevo marcador en nuestro cerebro que atribuye la consecuencia a nuestra elección arbitraria y ası́ entonces parecemos máquinas destinadas a seguir la inercia, sujetos a los antojos de las causas y los efectos. -¡Soy juguete del destino!- exclamó. Y sin embargo, algunos aún tenemos la sensación de la libertad de elección, y digo sensación pues es lo único que podemos afirmar hasta ahora, si el mundo es una larga cadena de causas y efectos al menos esa sensación es de agradecer (¿o no?), si no, entonces ¿como exigirnos una explicación que determine nuestros actos si en definitiva los realizamos ejerciendo nuestra libertad?. Madrid, José Antonio Martı́n Hernández.. 4 de Marzo de 2009. XII.

(13) Información Académica. Esta Tesis es presentada como requisito final para optar al grado académico de Doctor en Informática, de la Universidad Politécnica de Madrid, y no ha sido presentada previamente para la obtención de otro tı́tulo en esta Universidad u otras. La misma contiene los resultados obtenidos en investigaciones llevadas a cabo en el Departamento de Inteligencia Artificial durante el perı́odo comprendido entre el 1 de Noviembre del año 2002 y el 20 de Octubre del año 2008, bajo la co-dirección del Dr. Don Darı́o Maravall Gómez-Allende y del Dr. Don Javier de Lope Asiaı́n, profesores ambos pertenecientes al programa de Doctorado en Ciencias de la Computación e Inteligencia Artificial del citado departamento.. José Antonio Martı́n H. [email protected]. Departamento de Inteligencia Artificial Universidad Politécnica de Madrid Madrid, 4 de Marzo de 2009.

(14)

(15) Resumen. Inteligencia, Racionalidad, Aprendizaje, Anticipación y Adaptación son términos que han estado y permanecen aún en el foco principal de las ciencias de la computación. Estos términos delimitan áreas de estudio, pero están tan interrelacionados que estudiarlos por separado es una aventura que parece poco factible. Cada término busca delimitar un determinado fenómeno, sin embargo las complicadas interrelaciones no lineales entre estos procesos hace que sus fronteras sean difusas y en ocasiones se visualicen como distintos vértices de un mismo fenómeno. En este trabajo se presenta un modelo de estudio integral y vertical sobre estos fenómenos: se propone una división orientada hacia discriminar estos términos desde el punto de vista de la complejidad que aportan a la conducta de los sistemas donde estos procesos se manifiestan. Ası́, se comienza con el estudio de la Adaptación como fenómeno más básico y se muestra tanto su potencialidad en cuanto a la complejidad que aporta a la conducta como sus limitaciones inherentes. Se sigue una lı́nea ascendente de complejidad con el estudio de la Anticipación para lo cual se estudia la teorı́a de la expectación como fenómeno que rige la conducta de anticipación y se propone que el estudio de los sistemas anticipatorios y los fenómenos de aprendizaje complejo deben enfocarse hacia la teorı́a estadı́stica de la expectación o esperanza matemática como fenómeno rector de un tipo de conducta que comienza a destacar en términos de complejidad. Finalmente, se aborda el estudio de la Racionalidad y la Inteligencia como los fenómenos donde la complejidad se manifiesta en mayor grado. A lo largo de las diferentes partes de este trabajo se presentan una serie de contribuciones tanto teóricas como tecnológicas que representan la aplicación práctica en el campo de la robótica autónoma y los agentes inteligentes del presente estudio. Este trabajo de investigación, visto como un todo, representa un modelo sistémico de los fenómenos complejos que se manifiestan en los sistemas tanto naturales como artificiales a los cuales de forma explı́cita o implı́cita se les atribuye una finalidad (al menos metafórica) u objetivo..

(16)

(17) Abstract. Intelligence, Rationality, Learning, Anticipation and Adaptation are terms that have been and still remain at the main center of computer science. These terms delimit their specific areas of study; nevertheless, they are so interrelated that studying them separately is an endeavor that seems little promising. Each term looks for to delimit a certain phenomenon; nevertheless, the complicated nonlinear interrelations between these phenomena cause that their borders be diffuse and sometimes they visualize as different vertices from the same phenomenon. In this work an integral and vertical model of study about these phenomena is presented by means of a division, which oriented towards discriminating these terms from the point of view of the complexity expresed in the behavior of the systems where these phenomena come at play. Thus, we depart from the Adaptation as the more basic phenomenon and show its potentiality in complexity terms as well as its inherent limitations, we followed an ascending line of complexity with the study of Anticipation for which we propose that the study of the anticipatory systems and the phenomena of complex learning must focus towards the mathematical theory of expectations as the governing framework of a kind of behavior that begins to blunt in complexity terms. Finally, we undertook the study of Rationality and Intelligence as the phenomena where the complexity appears in greater degree. Throughout the different parts of this work a series of theoretical and technological contributions appears, representing the practical application in the field of the autonomous robots and intelligent agents of our study. The present work seen as a whole represents a systemic model of the complex phenomena that appears in natural and artificial systems to which of explicit or implicit manner a purpose (at least metaphorically) or objective is attributed..

(18)

(19) Índice general. 1. INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Organización del Trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1 5 6. Parte I MARCO TEÓRICO 2. Contextualización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1. Modelos de Control de Robots Autónomos y Agentes Inteligentes . . . 2.2. Aprendizaje por Refuerzo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 11 12 15. 3. Persistencia e Inmunidad: Adaptación . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1. La Constancia y el Principio de la Persistencia Justificada . . . . . . . . . 3.2. La Ley de la Adaptación y la Hipótesis del Estı́mulo Universal . . . . .. 21 22 28. 4. Expectaciones y Predicciones: Anticipación . . . . . . . . . . . . . . . . . . . . . 4.1. Ley de Adaptación vs. Ley del Efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Sistemas Anticipatorios y Teorı́a de la Expectación . . . . . . . . . . . . . . .. 33 33 34. 5. Opciones y No Aleatoriedad: Racionalidad . . . . . . . . . . . . . . . . . . . . . 5.1. Grados de Libertad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Racionalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3. ¿Sistemas Inteligentes? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4. Conducta Activa Orientada a Objetivos -Inteligencia- . . . . . . . . . . . . . 5.5. Racionalidad e Inteligencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 39 39 40 42 43 45. Parte II MÉTODOS.

(20) Índice general. 6. La Familia de Métodos kNN-TD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1. Estadı́stica No Paramétrica y los k-vecinos más Próximos . . . . . . . . . 6.2. Método kNN-TD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3. Adición de Trazas de Elegibilidad: Algoritmo kNN-TD(λ) . . . . . . . . . 6.4. Acciones Continuas: Algoritmo kNN-TD(λ)C(a) . . . . . . . . . . . . . . . . . 6.5. Filtrado Adaptativo Online: El Filtro k-NNδs . . . . . . . . . . . . . . . . . . . .. 49 51 52 58 60 65. 7. Método para la Reducción de Problemas de Actuadores Múltiples basado en Aprendizaje Distribuido . . . . . . . . . . . . . . . . . . . 7.1. Descripción de la Arquitectura Propuesta . . . . . . . . . . . . . . . . . . . . . . .. 69 70. 8. Método para la Coordinación Dinámica de Multiples Objetivos . 8.1. Descripción del Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2. Solución mediante un Enfoque Bio-Inspirado . . . . . . . . . . . . . . . . . . . . . 8.3. Modos de Implementación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 73 73 81 83. Parte III RESULTADOS EXPERIMENTALES 9. Resultados Experimentales del Modelo kNN-TD . . . . . . . . . . . . . . . 87 9.1. Resultados para el Problema MountainCar . . . . . . . . . . . . . . . . . . . . . . 87 9.2. Análisis del Parámetro k y de la Ecuación de Actualización . . . . . . . . 92 9.3. Evaluación experimental del Algoritmo k-NNQ(λ) trazas de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 9.4. Evaluación experimental del Algoritmo k-NNQ(λ)-C(a) acciones continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 9.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 10. Aprendizaje Distribuido: Resultados Experimentales . . . . . . . . . . . 10.1. Diseño Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2. Resultados Experimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 119 119 120 122. 11. Coordinación de Objetivos Múltiples: Resultados Experimentales 125 11.1. El Problema del Aparcamiento Automático de Vehı́culos . . . . . . . . . . 126 11.2. El Problema del Coche en la Montaña con Conflictos Añadidos . . . . 128 11.3. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 12. Simulación de un Sistema Multi-Robot . . . . . . . . . . . . . . . . . . . . . . . . . 12.1. Descripción de la Simulación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2. Cinemática y Dinámica de los Robots . . . . . . . . . . . . . . . . . . . . . . . . . . 12.3. Descripción del Comportamiento de los Robots . . . . . . . . . . . . . . . . . .. XX. 131 131 132 133.

(21) Índice general. 12.4. Resultados y Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 Parte IV CONCLUSIONES Y RESULTADOS 13. Conclusiones y Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.1. Conclusiones y resultados a nivel teórico . . . . . . . . . . . . . . . . . . . . . . . . 13.2. Conclusiones y resultados a nivel tecnológico . . . . . . . . . . . . . . . . . . . . 13.3. Futuras Lı́neas de Investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.4. Listado de publicaciones derivadas de esta tesis . . . . . . . . . . . . . . . . . .. 149 149 150 152 153. Parte V APÉNDICES Y REFERENCIAS Definiciones y Terminologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.1. Reproducción, Algoritmos, Procesos y Sistemas . . . . . . . . . . . . . . . . . . A.2. Estı́mulos, Conducta y Respuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.3. Adaptación, Evolución y Aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . .. 159 159 161 162. La Probabilidad de Error Bayesiano y el Método k-NN . . . . . . . . . . . . 167 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171. XXI.

(22)

(23) Índice de figuras. 2.1. 2.2. 2.3. 2.4. 2.5. 3.1. 3.2. 3.3. 3.4. 3.5.. Modelo vertical sobre complejidad y fenómenos observables en los sistemas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagrama de estructura de un agente clásico (deliberativo y basado en modelos apriorı́sticos del ambiente). . . . . . . . . . . . . . . . . . . Diagrama de estructura de un agente reactivo (basado en retroalimentación). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagrama de interacción entre Agente y Ambiente en el Aprendizaje por Refuerzo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagrama de estructura de un agente basado en expectaciones. . . . El Principio de la Persistencia Justificada aplicado a un problema de navegación de robots. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sistema cerrado, aislado del ambiente. . . . . . . . . . . . . . . . . . . . . . . . . . Sistema completamente plástico: desintegración, ambiente y sistema están completamente indiferenciados. . . . . . . . . . . . . . . . . . . . Punto de equilibrio entre un sistema plástico y cerrado: interacciones posibles con el ambiente y adaptación. . . . . . . . . . . . . . Una gráfica de un experimento sobre diversidad en algoritmos evolutivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 12 13 14 17 20 24 25 26 26 30. 4.1. 4.2.. Diagrama de los elementos que actúan en un Sistema Anticipatorio. 36 Un ratón transgénico cuyo sistema de valores olfativo ha sido alterado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38. 5.1.. Diagrama del Modelo de Racionalidad. . . . . . . . . . . . . . . . . . . . . . . . .. 6.1.. Diagrama de estructura de un agente RL con representación tabular de expectaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Una arquitectura de Aprendizaje por Refuerzo con representación perceptual para el tratamiento de problemas de espacio de estados (estı́mulos) continuo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.2.. 41 50. 50.

(24) Índice de figuras. 6.3. 6.4.. 6.5. 6.6. 7.1. 8.1. 8.2.. 8.3. 9.1. 9.2. 9.3. 9.4.. 9.5. 9.6. 9.7. 9.8. 9.9. 9.10. 9.11.. Esquema basado en k-NN en un instante determinado del proceso de aprendizaje para un valor de k = 5. . . . . . . . . . . . . . . . . . . . . . . . . . Arquitectura de un agente de Aprendizaje por Refuerzo donde el mecanismo de selección de acciones afecta directamente el proceso de aprendizaje. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comportamiento del filtro k-NNδs en un episodio del problema MountainCar durante la competición RL2008. . . . . . . . . . . . . . . . . . . Comportamiento del filtro k-NNδs en un episodio del problema MountainCar durante la competición RL2008. . . . . . . . . . . . . . . . . . . Diagrama de interacción entre Agentes y Ambiente en el Aprendizaje por Refuerzo Distribuido o Multi-Agente. . . . . . . . . . . . Gráfica del problema de los tres negociadores. . . . . . . . . . . . . . . . . . . El juego de los tres negociadores y la cantidad total de distancia desde Z y Optimum (localizaciones del almacén común) a cada fábrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejes del vector ω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gráfica del problema MountainCar. . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de convergencia para el algoritmo experimental basado en k-NN en el problema MountainCar. . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribución de la Relevancia de los clasificadores sobre el espacio de estados para el método k-NN en el problema MountainCar. . . . . Distribución de la calidad de los clasificadores sobre el espacio de estados para el método k-NN y su independencia de la relevancia en el problema MountainCar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Superficie Estados-Valor aprendida por el método k-NN para diferentes resoluciones en el problema MountainCar. . . . . . . . . . . . . . Curva de aprendizaje para k=1 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=2 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=3 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=4 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=5 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=6 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. XXIV. 53. 55 67 68 70 77. 78 83 87 88 89. 90 91 93 93 94 94 95 95.

(25) Índice de figuras. 9.12. 9.13. 9.14. 9.15. 9.16. 9.17. 9.18. 9.19. 9.20. 9.21. 9.22. 9.23. 9.24. 9.25. 9.26. 9.27. 9.28. 9.29. 9.30. 9.31. 9.32. 9.33. 9.34. 9.35. 9.36. 9.37.. Curva de aprendizaje para k=7 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=8 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=9 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=10 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=1 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=2 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=3 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=4 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=5 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=6 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=7 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=8 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=9 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=10 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=1 para el método k-NNQ(λ = 0.95). Curva de aprendizaje para k=2 para el método k-NNQ(λ = 0.95). Curva de aprendizaje para k=3 para el método k-NNQ(λ = 0.95). Curva de aprendizaje para k=4 para el método k-NNQ(λ = 0.95). Curva de aprendizaje para k=5 para el método k-NNQ(λ = 0.95). Curva de aprendizaje para k=6 para el método k-NNQ(λ = 0.95). Curva de aprendizaje para k=7 para el método k-NNQ(λ = 0.95). Curva de aprendizaje para k=8 para el método k-NNQ(λ = 0.95). Curva de aprendizaje para k=9 para el método k-NNQ(λ = 0.95). Curva de aprendizaje para k=10 para el método k-NNQ(λ = 0.95). Problema del péndulo invertido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de convergencia para el algoritmo experimental basado en k-NN en el problema del péndulo invertido. . . . . . . . . . . . . . . . . . . . . XXV. 96 96 97 97 98 98 99 99 100 100 101 101 102 102 106 106 107 107 108 108 109 109 110 110 111 111.

(26) Índice de figuras. 9.38. 9.39. 9.40. 9.41. 9.42. 9.43. 9.44. 9.45. 9.46. 9.47. 9.48. 10.1. 10.2. 10.3. 10.4.. Curva de aprendizaje para k = 1 y k = 2 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k = 3 y k = 4 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k = 5 y k = 6 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k = 7 y k = 9 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k = 9 y k = 10 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de recompensa para k = 1 y k = 2 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de recompensa para k = 3 y k = 4 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de recompensa para k = 5 y k = 6 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de recompensa para k = 7 y k = 9 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de recompensa para k = 9 y k = 10 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espacio de estados y gráfica de las acciones continuas ejecutadas en un episodio particular del problema CartPole. . . . . . . . . . . . . . . . . Curva de aprendizaje para el robot plano durante 100 episodios. . . Traza de comportamiento para el robot plano para cuatro objetivos consecutivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para el robot SCARA durante 100 episodios. Traza de comportamiento para el robot SCARA para cuatro objetivos consecutivos vista en 2 y 3 dimensiones respectivamente.. 112 112 113 113 113 114 114 115 115 115 116 121 121 122 122. 11.1. 11.2. 11.3.. Problema del aparcamiento de coches. . . . . . . . . . . . . . . . . . . . . . . . . . 127 El problema del coche y la montaña. . . . . . . . . . . . . . . . . . . . . . . . . . . 128 Resultado experimental de la simulación del problema del coche y la montaña con conflictos añadidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130. 12.1. 12.2. 12.3. 12.4. 12.5. 12.6. 12.7.. Maniobra simple de protección. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estrategia compleja de protección. . . . . . . . . . . . . . . . . . . . . . . . . . . . . Objetivos en conflicto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Trayectorias largas muestran la complejidad del problema. . . . . . . . Estrategia básica del robot M (ir directamente al nido). . . . . . . . . . . Maniobra de bloqueo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Maniobra de protección compleja. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XXVI. 138 139 139 140 141 142 143.

(27) Índice de cuadros. 9.1. 9.2. 9.3.. Resumen del Comportamiento del método k-NNQ para la regla de aprendizaje según ecuación (9.1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Resumen del Comportamiento del método k-NNQ para la regla de aprendizaje según ecuación (9.2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Resumen del Comportamiento del método k-NNQ(λ). . . . . . . . . . . . . 105. 12.1. Configuración cinemática de cada robot. . . . . . . . . . . . . . . . . . . . . . . . . 132.

(28)

(29) 1 INTRODUCCIÓN El auténtico problema no es si las máquinas piensan, sino si lo hacen los hombres. Skinner.. El estudio de los sistemas adaptativos tiene innumerables aplicaciones en muy diversas disciplinas tanto cientı́ficas como tecnológicas. Por citar sólo unas pocas tenemos: la robótica, la sociologı́a, la economı́a, la inteligencia artificial, la psicologı́a, la etologı́a, la biologı́a, la fı́sica y las matemáticas. Esta gran aplicabilidad no es fortuita sino que está completamente justificada por la misma estructura de los modelos de solución de problemas en matemáticas, donde generalmente el problema consiste en conseguir un número, un vector, una matriz o una función que represente la solución a un problema, sujeto a un número de restricciones dadas. Pues bien, para alcanzar este “estado final solución” es necesario buscar o “recorrer” parte del espacio de búsqueda evitando las zonas no factibles y viajando de un estado a otro intentando mejorar la solución a cada paso. Es evidente que, a simple vista, es un problema de navegación de un móvil en un espacio de búsqueda. Si a todo esto le agregamos múltiples objetivos cambiantes en el tiempo y restricciones complejas también cambiantes en el tiempo tendremos un problema de navegación dinámico multiobjetivo o, en terminologı́a matemática, un problema de optimización dinámica multiobjetivo. El tema que se propone busca el estudio de los procesos de adaptación y control en robots autónomos y agentes inteligentes que están confinados a un determinado entorno del que extraen información relevante y en el cual actúan para satisfacer unos objetivos dados. Definiremos un sistema adaptativo como aquél que es capaz de cambiar su estructura o su conducta para “mejorar su función” ante variaciones y perturbaciones de su entorno. El marco de la teorı́a de juegos diferenciales, por ejemplo, es un marco idóneo para el planteamiento y estudio de muchos fenómenos adaptativos. La teorı́a clásica de juegos debida a von Neumann y Morgenstern (1947), en su libro clásico Theory of Games and Economic Behavior, es considerada como un modelo de las interacciones.

(30) 1 INTRODUCCIÓN. sociales y la ampliación de esta teorı́a, en lo que se conoce como juegos diferenciales, fue propuesta por Isaac Rufus en su libro Differential Games (Isaacs, 1999), con la intención de extender la teorı́a de juegos para considerar estrategias continuas con las cuales poder modelar una serie de dinámicas cuyas acciones y recompensas sean funciones continuas. La teorı́a de juegos se ha convertido en la actualidad en una pieza fundamental de la teorı́a económica. Como un caso clásico podemos ver los trabajos de John Nash. Sin embargo, las aplicaciones en teorı́a de juegos diferenciales han llegado hasta campos tan lejanos de la economı́a como la neuro-etologı́a por ejemplo, que tiene una relación directa con los sistemas adaptativos. Por medio de la teorı́a de juegos diferenciales se han estudiado diversos comportamientos animales como el sistema depredador-presa, modelándolo como un juego de persecución y evasión en un espacio continuo con acciones también continuas. En este contexto se pueden citar por ejemplo los trabajos de Cliff y Miller (1996) quienes en una serie de artı́culos estudian un tipo de conducta animal llamada “Protean Behavior” y su influencia en el desarrollo de estrategias en el juego de persecución y evasión entre un depredador y una presa. Estos autores utilizan el concepto de “inteligencia maquiavélica” o “conducta adaptativa impredecible” para modelar y estudiar el comportamiento de los animales en circunstancias estratégicas de competición. Sus ideas están inspiradas en observaciones sobre la propia conducta animal. El argumento que define y justifica esta llamada inteligencia maquiavélica se sustenta en la premisa de que en el juego de la supervivencia natural entre depredadores y presas, visto desde un marco evolutivo darwiniano, la capacidad para predecir las acciones de las presas y, por lo tanto, su trayectoria de escape tiene gran valor para su supervivencia. Es este hecho el que favorecerı́a que a su vez la conducta impredecible o “inteligencia maquiavélica” tenga también un gran valor para la supervivencia permitiendo a la presa el desarrollo de este tipo de conducta para lograr escapar y sobrevivir. Por otro lado, las aplicaciones en robótica son inmediatas. Mediante juegos diferenciales puede modelarse prácticamente cualquier problema de robótica: robots móviles, manipuladores, robots caminantes, etc. La teorı́a de juegos diferenciales está estrechamente ligada a la optimización dinámica y esto permite trasladar directamente los problemas de un área a la otra. No obstante, las investigaciones iniciales sobre teorı́a de juegos diferenciales están basadas, al igual que las primeras arquitecturas de control, en una aproximación apriorı́stica a la solución de problemas necesitando, por tal motivo, de un conjunto de herramientas matemáticas muy sofisticadas y de la generación de modelos matemáticos muy precisos que son muy difı́ciles de conseguir y en algunos resultan en aproximaciones inviables en la práctica. Es quizás ésta limitación junto con otras consideraciones que veremos más adelante, que han venido desarrollándose otros tipos de métodos alternativos para solucionar los mismos problemas.. 2.

(31) 1 INTRODUCCIÓN. La investigación que se presenta está orientada al estudio, experimentación y desarrollo de modelos computacionales para el estudio de la conducta adaptativa y sus aplicaciones en el campo de los robots autónomos y los agentes inteligentes. Proponiendo un modelo de estudio y un conjunto de métodos cuya aplicaciones práctica resulte viable. Otro concepto que opera de forma sinergética con la teorı́a de sistemas adaptativos es la racionalidad. La racionalidad ha estado ligada históricamente a lo más ı́ntimo de la humanidad, y podrı́a afirmarse que junto con otros pensamientos como el de la identidad, del quién soy y qué soy, representa el nacimiento de la filosofı́a. Ya sabemos que una de las definiciones más clásicas del hombre se basa en la distinción entre animal racional y no racional. Se dice que el hombre es un animal racional. Actualmente sabemos que los animales poseen un cierto grado de racionalidad y que nuestro monopolio de la razón se destruye ya no sólo por la apreciación de racionalidad en otros animales sino incluso en las máquinas. Utilizando un enfoque reduccionista clásico podrı́a afirmase que la racionalidad es la cualidad de un ente de conducirse mediante la razón; cosa que inmediatamente obliga a definir qué es la razón. Por otro lado el concepto de racionalidad ha sido estudiado ampliamente en campos diversos como la economı́a y la informática. En economı́a, por ejemplo, se entiende la racionalidad como una restricción al tipo de estrategia que puede utilizar un ente económico, siendo la principal restricción la de que su conducta estará orientada a conseguir el máximo beneficio posible ordenando las alternativas posibles y decidiendo cual es la que maximiza su utilidad. De esta forma podrı́a proponerse un marco etológico para definir la racionalidad de un agente envuelto en una determinada dinámica de la siguiente forma: la racionalidad es una restricción del pensamiento y como tal elimina cierta libertad. Esta restricción o pérdida de libertad está orientada a seleccionar y ordenar el pensamiento de forma tal que los principios de causa y efecto tanto innatos como aprendidos sean satisfechos favoreciendo que el agente opere con al menos un indicio consciente de que su juicio y conducta no son fenómenos aleatorios o carecen de relación causal con las consecuencias de sus acciones o pensamientos. Es evidente y se desprende naturalmente de la definición anterior que hay ciertos factores que intervienen en el grado de racionalidad, por ejemplo el factor vigilancia de la conciencia que se sabe es gradual y varı́a no sólo de individuo a individuo sino que en un mismo individuo varı́a incluso en intervalos pequeños de tiempo. Otro factor gradual de la racionalidad se desprende de la naturaleza estadı́stica de la definición. El hecho de la diferenciación clara de la aleatoriedad depende directamente de la entropı́a del microsistema de estados local asociado al momento contextual preciso donde se da el pensamiento. Por último, puede verse que el aprendizaje y el repertorio de conocimiento es también un factor gradual de la racionalidad ya que permite almacenar relaciones causales que en buena parte son las que permiten decidir sobre el grado de aleatoriedad de la operación, ası́, a mayor cantidad de 3.

(32) 1 INTRODUCCIÓN. relaciones causa-efecto, mayor racionalidad en potencia poseerá el agente. De esta forma el grado de conciencia, el conocimiento y el contexto determinan el grado de la racionalidad de un individuo. Uno de los paradigmas más importantes dentro de los sistemas adaptativos y que guarda mayor relación con nuestra propuesta sobre la racionalidad es el Aprendizaje por Refuerzo. En el aprendizaje por refuerzo en su formulación clásica computacional (Sutton, 1992a,b; Sutton y Barto, 1998; Sutton, 2006) el agente inteligente o sistema adaptativo modifica su conducta con la finalidad de obtener la mayor recompensa posible debida a sus acciones, utilizando un sistema de memoria en el cual almacena relaciones causa-efecto que tienden a ser cada vez más óptimas. Este paradigma muestra cómo un sistema adaptativo puede aprender directamente mediante la interacción con su entorno a conducirse de forma racional y adaptarse a cambios para satisfacer su objetivo primordial que es el conseguir la mayor recompensa posible. Existen muchos otros paradigmas dentro del campo de estudio de los sistemas adaptativos. Entre los modelos de sistemas adaptativos que se utilizan con mayor frecuencia en resolución de problemas en inteligencia artificial podemos mencionar los siguientes: Modelos basados en Aprendizaje por Refuerzo, Modelos Conexionistas, Algoritmos Evolutivos, Métodos Bayesianos y Modelos de enjambres, y en general muchos y diversos métodos en aprendizaje automático. Uno de los modelos mas completos sobre los fenómenos de la adaptación y la complejidad fue desarrollado por Holland (1995). En su trabajo, Holland recopila una serie de ideas que habı́a venido desarrollando a lo largo de su carrera y propone ası́ un modelo llamado ECHO donde define el estudio de este tipo de sistemas como el estudio de los sistemas complejos adaptativos (SCA). Generalmente los métodos de solución de problemas donde se utilizan sistemas adaptativos son hı́bridos, es decir, se basan en una mezcla y sinergia entre diferentes modelos y métodos para conseguir buenos resultados. Un ejemplo claro de esto son las sinergias entre Aprendizaje por Refuerzo y Redes Neuronales, donde las Redes Neuronales se utilizan como la memoria donde se almacenan las relaciones causales del agente inteligente. Otra combinación que está siendo investigada con resultados parciales satisfactorios es el uso de Aprendizaje por refuerzo y Algoritmos Evolutivos, utilizándose los Evolutivos como motor de generación de relaciones causa-efecto y como proceso darwinista de selección, recombinación y mutación de relaciones causa efecto. El tema que se propone busca el estudio de los procesos de adaptación y control en robots autónomos y agentes inteligentes que están confinados a un determinado entorno del cual extraen información relevante y en el cual actúan para satisfacer unos objetivos dados. De esta forma el principal objeto de estudio se centra en la experimentación con modelos adaptativos que incluyen aprendizaje complejo, que utilizan cierto grado de racionalidad e inteligencia, y sus aplicaciones al campo de la robótica autónoma y los agentes inteligentes. En este sentido se busca la ampliación 4.

(33) 1.1 Objetivos. de las técnicas actuales en la resolución de problemas de robótica autónoma y sistemas inteligentes mediante la extensión de diversos modelos de sistemas adaptativos complejos como el Aprendizaje por Refuerzo, los Algoritmos Evolutivos y las Redes Neuronales.. 1.1.. Objetivos. El tema que se propone busca el estudio de los procesos de adaptación y control en robots autónomos y agentes inteligentes que están confinados a un determinado entorno del cual extraen información relevante y en el cual actúan para satisfacer unos objetivos dados. De esta forma el principal objeto de estudio se centra en la experimentación con modelos adaptativos que incluyen aprendizaje complejo, que utilizan cierto grado de racionalidad e inteligencia, y sus aplicaciones al campo de la robótica autónoma y los agentes inteligentes. En este sentido se busca la ampliación de las técnicas actuales en la resolución de problemas de robótica autónoma y sistemas inteligentes mediante la extensión de diversos modelos de sistemas adaptativos complejos como el Aprendizaje por Refuerzo, los Algoritmos Evolutivos y las Redes Neuronales. Ası́, uno de los resultados esperados es la mejora del desempeño de métodos en sistemas de control de robots autónomos, robots móviles, robots manipuladores industriales, robots humanoides y otros diversos problemas de control ası́ como la consecución de nuevas herramientas para el estudio y mejora de diversos modelos de sistemas adaptativos, nuevas arquitecturas para el Aprendizaje por Refuerzo, Algoritmos Evolutivos y Redes Neuronales. Para lograr esto, se plantean los siguientes objetivos: • Proposición de un modelo que permita el estudio y comprensión de los diferentes fenómenos observables en los sistemas adaptativos inteligentes de tal forma que permita la descomposición y análisis del objeto de estudio (sistema complejo) en partes diferenciadas proporcionando a cada una de estas partes su propio marco teórico y sus propios métodos de estudio y solución de problemas. • Desarrollar dentro de cada parte diferenciada un cuerpo teórico formal que permita entender y modelar los fenómenos respectivos con vistas al desarrollo de métodos y “herramientas” para solucionar problemas prácticos. • Desarrollar un conjunto de métodos y “herramientas” para la solución de problemas prácticos planteados dentro del modelo propuesto. • Realización de un conjunto de experimentos que permitan establecer la validez, idoneidad, capacidades y limitaciones de cada herramienta y método de solución propuesto. 5.

(34) 1 INTRODUCCIÓN. • Experimento de simulación de un sistema multi-robot. El objetivo fundamental de este experimento es evaluar y analizar como actúan de forma integrada los conceptos y principios propuestos dentro del marco teórico de esta tesis conjuntamente con los métodos de solución de problemas desarrollados en esta tesis.. 1.2.. Organización del Trabajo. Como se indica dentro de los objetivos, El presente trabajo está orientado a presentar un modelo teórico para el estudio y comprensión de los diferentes fenómenos observables en los sistemas adaptativos inteligentes desarrollándolo en partes diferenciadas y proporcionando a cada una de estas partes su propio marco teórico y sus propios métodos de estudio y solución de problemas. De esta manera, luego del capı́tulo introductorio se presenta un breve marco teórico de carácter unificador donde se sitúa la presente tesis dentro de su contexto general. El marco teórico se desarrolla en la Parte I y contiene además de la contextualización del trabajo una serie de capı́tulos donde se desarrolla el modelo teórico propuesto como uno de los objetivos principales de esta tesis. El modelo teórico propuesto está dividido en tres partes fundamentales donde se desarrollan las aportaciones teóricas de esta tesis, cumpliendo ası́ el objetivo de proponer y desarrollar un modelo que permita el estudio y comprensión de los diferentes fenómenos observables en los sistemas adaptativos. Las tres partes diferenciadas que propone dicho modelo son: • Adaptación. • Anticipación. • Racionalidad e Inteligencia. El Capı́tulo 3 es el que estudia la Adaptación. Aquı́ se presenta un conjunto de teorı́as sobre los sistemas adaptativos, la adaptación como proceso y un conjunto de aplicaciones a problemas prácticos de optimización y control. Se formaliza lo que es Adaptación como proceso y se proponen algunas hipótesis y principios relevantes. También se presentan varios casos de aplicación de estos principios en tareas de optimización y control, donde se muestran los procesos de adaptación mediante técnicas evolutivas computacionales. Finalmente se establecen dos principios fundamentales que subyacen y rigen el fenómeno de la adaptación: el Principio de la Persistencia Justificada y la Ley de Adaptación. Siguiendo el modelo propuesto, en el Capı́tulo 4 se ponen de manifiesto algunas limitaciones del fenómeno adaptativo en su forma simple y se propone el estudio de la Anticipación como fenómeno complementario a la adaptación para lograr un mayor nivel de complejidad. En esta parte se desarrollan las teorı́as sobre el aprendizaje basado en la generación de modelos predictivos de expectaciones de futuro y se 6.

(35) 1.2 Organización del Trabajo. proponen diversas herramientas teóricas y tecnológicas entre las cuales destaca el modelo kNN-TD; que es un método de aprendizaje por refuerzo basado en diferencias temporales y que utiliza al clasificador de los k-vecinos más próximos como base de su sistema perceptivo. Dentro del modelo propuesto, el último escalón de complejidad se presenta en el Capı́tulo 5. Este Capı́tulo desde el punto de vista teórico podemos subdividirlo en dos secciones : la primera, está dedicada a la formulación de un concepto operativo y computacional de la racionalidad vista a través de los conceptos estudiados previamente sobre adaptación, anticipación. La hipótesis fundamental es que la Racionalidad está basada en la no aleatoriedad de un sistema que posea libertad (en el sentido que en que se define la libertad en este trabajo). La segunda, propone a su vez una definición teórica de un tipo de conducta que denominamos “conducta activa orientada a objetivos” la cual relacionamos directamente con la inteligencia. Al final de cada una de las anteriores partes se ha elaborado un breve resumen a manera de sumario con los aspectos esenciales de cada parte. En la Parte II se presentan una serie métodos de solución de problemas que incluyen: la familia de métodos kNN-TD (Capı́tulo 6), un método para la Reducción de Problemas de Actuadores Múltiples basado en Aprendizaje Distribuido (Capı́tulo 7) y un método para la Coordinación Dinámica de multiples Objetivos en Conflicto (Capı́tulo 8). En la Parte III se presenta una colección de resultados experimentales que representan la validación y aplicación práctica de los métodos propuestos dentro del modelo de estudio donde se discuten las conclusiones obtenidas para cada experimento. En este apartado cabe destacar el experimento de simulación de un sistema multi-robot que imita (metafóricamente) la conducta de protección de la prole ante el peligro de que ocurra una depredación. El objetivo fundamental del experimento del sistema multi-robot fue mostrar como actúan de forma integrada los conceptos y principios propuestos dentro del marco teórico de esta tesis conjuntamente con los métodos de solución de problemas desarrollados en esta tesis. Finalmente, en la Parte IV se presentan las conclusiones generales de esta tesis y un conjunto de posibles lı́neas futuras de investigación y áreas de estudio que quedan abiertas a posteriores consideraciones. Los apéndices y referencias finalmente aparecen en la Parte V.. 7.

(36)

(37) Parte I. MARCO TEÓRICO.

(38)

(39) 2 Contextualización El pensamiento es sólo un relámpago entre dos largas noches, pero este relámpago lo es todo. Henry Poincaré. Inteligencia, Racionalidad, Aprendizaje, Anticipación y Adaptación son términos que han estado y permanecen aún en el foco principal de las ciencias de la computación. Estos términos delimitan áreas de estudio, pero están tan interrelacionados que estudiarlos por separado es una aventura que parece poco factible. Cada término busca delimitar un determinado fenómeno, sin embargo las complicadas interrelaciones no lineales entre estos procesos hace que sus fronteras sean difusas y en ocasiones se visualicen como distintos vértices de un mismo fenómeno. En este trabajo se presenta un modelo de estudio integral y vertical sobre estos fenómenos: se propone una división orientada hacia discriminar estos términos desde el punto de vista de la complejidad que aportan a la conducta de los sistemas donde estos procesos se manifiestan. Siguiendo el modelo propuesto, este trabajo está dividido en tres partes fundamentales donde se establecen las aportaciones de esta tesis: • Adaptación. • Anticipación. • Racionalidad e Inteligencia. Este modelo puede apreciarse en la figura 2.1, donde se describen los diferentes fenómenos observables en función de la complejidad del sistema. Como puede verse existe una lı́nea ascendente y un punto de corte donde se da un salto cualitativo en los fenómenos observables. De esta forma, se parte de la Adaptación como fenómeno más básico y se muestra tanto su potencialidad en cuanto a la complejidad que aporta a la conducta como sus limitaciones inherentes. Se sigue una lı́nea ascendente de complejidad con el estudio de la Anticipación para lo cual se estudia la expectación como fenómeno que rige la conducta de anticipación y se propone que el estudio de los sistemas anticipatorios y los fenómenos de aprendizaje complejo deben enfocarse hacia la teorı́a estadı́stica de la predicción como fenómeno rector de un tipo de conducta que comienza a destacar en términos de complejidad. Finalmente, se aborda el estudio de la Racionalidad.

(40) 2 Contextualización. Racionalidad e Inteligencia. Anticipación y Expectación. Adaptación. Complejidad del sistema Figura 2.1. Modelo vertical sobre complejidad y fenómenos observables en los sistemas.. y la Inteligencia como los fenómenos donde la complejidad se manifiesta en mayor grado.. 2.1. Modelos de Control de Robots Autónomos y Agentes Inteligentes En la presente sección se utilizará la terminologı́a utilizada por de Lope Asiaı́n (1998) para definir las arquitecturas de control. En la figura 2.2 se muestra la estructura de un agente con arquitectura de control clásica. Recordemos que tradicionalmente el paradigma dominante en Inteligencia Artificial, en lo que a arquitecturas de control se refiere, fue el enfoque clásico. Este enfoque clásico poseı́a un alto componente de deliberación y estaba basado mayoritariamente en el razonamiento simbólico y la inferencia lógica. Una de las caracterı́sticas fundamentales de las arquitecturas llamadas clásicas es su aproximación apriorı́stica 1 a la solución de problemas. Una de las crı́ticas más relevantes a los paradigmas clásicos y que significó una ruptura y consecuentemente la creación de otro paradigma fueron los trabajos de un grupo de investigadores que centraron su atención en una nueva forma de arquitecturas de control principalmente caracterizada por la interacción directa entre el 1. entiéndase aquı́ aproximación apriorı́stica aquella donde el ingeniero o cientı́fico establece de antemano (a priori) o pretende establecer de antemano las condiciones del entorno donde se desenvolverá el robot, asumiendo de esta forma que se posee un conocimiento a priori de casi la totalidad del entorno del robot.. 12.

(41) 2.1 Modelos de Control de Robots Autónomos y Agentes Inteligentes. Introducción o g generación por un ingeniero del sistema. Percepción. Ambiente. Planificación exhaustiva de Acciones. Modelo apriorístico del ambiente. Objetivos. Figura 2.2. Diagrama de estructura de un agente clásico (deliberativo y basado en modelos apriorı́sticos del ambiente).. agente/robot y su entorno. Uno de ellos fue Brooks que dentro del paradigma de la Robótica Reactiva logró publicaciones de alto impacto (Brooks, 1990, 1991a,b) en la comunidad • “Elephants Don’t Play Chess!” (Brooks, 1990) • “Intelligence Without Reason” (Brooks, 1991a) • “Intelligence Without Representation” (Brooks, 1991b) Sólo leyendo los tı́tulos de los trabajos antes citados puede verse claramente la diferencia entre las aproximaciones clásicas y las reivindicaciones que proponı́a esta nueva forma de hacer robótica. De esta forma, se consolidó el paradigma llamado reactivo, caracterizado por la interacción directa entre agente y entorno y suprimiendo el componente apriorı́stico y mayormente deliberativo. El paradigma reactivo ha cambiado la forma de programar robots y sistemas inteligentes. Es un modelo donde los sistemas reaccionan directamente a los estı́mulos que reciben de su entorno produciendo algún tipo de conducta, esto es, sin razonamiento y sin representación. En la figura 2.3 vemos una estructura de un agente reactivo. Como vemos no existe ningún modelo apriorı́stico del entorno ni información predefinida por un ingeniero de sistema excepto por la definición de los objetivos del sistema los cuales en están representados aquı́ mediante las funciones J que sirven de indices de rendimiento a optimizar (siguiendo la lı́nea de trabajo de Maravall Gómez-Allende y de Lope Asiaı́n, 2003; Maravall Gómez-Allende et al., 2004; Maravall y de Lope, 2007).. Este tipo de arquitectura reactiva de control basada en objetivos ha sido ampliamente estudiada y desarrollada en trabajos propuestos el grupo de trabajo dentro 13.

(42) 2 Contextualización. Percepción. Ambiente. Reacción del Agente. Evaluación E l ió d dell D Desempeño ñ (feedback). El objetivo (J) a optimizar es introducido por un ingeniero del sistema. x' = −α. ∂J ∂x. Figura 2.3. Diagrama de estructura de un agente reactivo (basado en retroalimentación).. del cual se desarrolla esta tesis (véase, por ejemplo, Maravall Gómez-Allende y de Lope Asiaı́n, 2003; Maravall Gómez-Allende et al., 2004; Maravall y de Lope, 2007). No obstante, La forma deliberativa es aún utilizada con éxito en entornos controlados y conocidos pero es inviable en entornos no controlados y desconocidos ya que precisamente utiliza la representación del entorno para calcular las acciones futuras, mientras que la forma reactiva es en la actualidad donde mayor esfuerzo se realiza a nivel de investigación ya que cada dı́a se piensa en la robótica como herramienta aplicable a diversos trabajos donde no es posible o es inviable obtener una representación a priori del ambiente donde se desenvolverá el robot. Sin embargo también es cierto que el paradigma reactivo puro es incapaz de solucionar problemas complejos donde sı́ es necesaria una cierta cantidad de planificación previa. Las primeras áreas en ciencias de la computación e ingenierı́a en prestar atención al fenómeno de la adaptación fueron la teorı́a de controles automáticos y la cibernética (Ashby, 1948; Wiener, 1963). Sus trabajos iniciales se basaron en los principios fisiológicos establecidos en los trabajos de Cannon (1932) y especializados luego por Wiener (1963) con la introducción del paradigma de control de bucle cerrado. Este paradigma puede ser explicado por medio de la interacción entre tan solo dos elementos: un ambiente y un sistema de control. el objetivo en este paradigma de control es mantener or guiar el ambiente o entorno hacia un estado deseado por medio de las acciones de control emitidas por el sistema de control. La Interacción entre estos dos componentes está representada por el flujo circular de información entre 14.

(43) 2.2 Aprendizaje por Refuerzo. el estado del entorno y las acciones de control emitidas por el sistema de control. La forma clásica de entender a un sistema adaptativo homeostático está expresada por una ecuación clásica que sigue el principio de la retroalimentación negativa: x0 = −µ. ∂J ∂x. (2.1). Puede verse en la ecuación (2.1) que el estı́mulo del sistema es el componente ∂J, y que la ecuación expresa el proceso adaptativo donde x es la conducta del sistema. Es evidente que bajo esta ley de conducta el sistema perseguirá siempre la minimización del estı́mulo J ya que su conducta está determinada estrictamente en la dirección que hace que J disminuya. Es de importancia destacar la similitud entre el principio homeostático expresado en la ecuación (2.1) y la teorı́a de la viavilidad propuesta por Aubin (1991). Como vimos en la figura 2.3 el sistema reactivo depende de información precisa, constante e inmediata de su desempeño mediante realimentación negativa y no puede operar cuando esta información está retardada, es ruidosa, es inconstante y en especial cuando el resultado final de las acciones ejecutadas sólo se conoce luego de transcurrido un tiempo cuando algún evento relevante indica que se ha mejorado la situación o ha empeorado. Esta es una limitación inherente a este tipo de modelos. Esta limitación es la que precisamente se disminuye o elimina del todo cuando el sistema puede anticipar las consecuencias de sus acciones y predecir el futuro ya que entonces tendrı́a asegurada la valoración a cada instante de tiempo de sus acciones y podrı́a completar el bucle cerrado de Wiener (1963, Principio de la Retroalimentación Negativa)2 , es decir, el bucle de control homeostático propuesto por Cannon (1932).. 2.2.. Aprendizaje por Refuerzo. La conducta de anticipación (véase, Rosen, 1985) puede ser definida como todo tipo de conducta que está influenciada por algún tipo de conocimiento, expectación, creencia o intuición acerca del futuro. Pero el concepto de futuro puede ser entendido y/o expresado de muy diversas formas, por ejemplo, en términos de recompensa futura, eventos futuros, acciones futuras, etc. La Anticipación vista como proceso predictivo juega un papel preponderante en cualquier conducta inteligente, por ejemplo: para tomar buenas decisiones es necesario predecir o anticipar -en algún sentido- las consecuencias de tales decisiones. Estas ideas fueron introducidas, dentro del marco de la psicologı́a conductista, por Thorndike (1911, 1927) y 2. Wiener infirió que con el objeto de controlar una acción con un propósito determinado la circulación de información necesaria para el control debe formar “un bucle cerrado que permita la evaluación de los efectos de las propias acciones y la adaptación de la conducta futura basándose en el desempeño pasado”.. 15.

(44) 2 Contextualización. posteriormente desarrolladas por Skinner (1938) con la introducción del condicionamiento instrumental. En la actualidad el Aprendizaje por Refuerzo en su formulación clásica computacional está mayoritariamente representado por el enfoque de Sutton (1992a,b); Sutton y Barto (1998); Sutton (2006). Particularmente el Aprendizaje por Refuerzo ha sido aplicado exitosamente a varios problemas de control (Franklin, 1988; Lin, 1993; Mataric, 1996, 1997; Rubo et al., 2000; Yamada et al., 1997; Kretchmar, 2000; Kalmar et al., 2000; El-Fakdi et al., 2005). Sobre aplicaciones del Aprendizaje por Refuerzo Connel y Mahadevan (1993) escriben un libro recopilatorio, del cual Demiris (1995) escribe una revisión donde evalúa el libro como muy significativo. También puede consultarse el libro de J. Franklin y Thrun (1996) sobre avances recientes en aprendizaje en robots. El Aprendizaje por Refuerzo es uno de los paradigmas más prometedores para el estudio del aprendizaje en robots. Barto et al. (1990) y Grefenstette et al. (1990) defienden que todos los métodos de aprendizaje por refuerzo comparten el mismo objetivo: solucionar problemas de decisión secuencial guiados por interacciones de ensayo y error con el ambiente. Aquı́ se afirma sin embargo que la tarea de aprendizaje por refuerzo en todo sistema consiste en buscar, derivar, inferir o deducir una polı́tica de comportamiento mediante un Reforzador. Las principales ventajas del Aprendizaje por Refuerzo sobre otros métodos son: 1. No existe la necesidad de definir un modelo previo del ambiente. Esto es una ventaja que consideramos crucial y requisito indispensable ya que en la mayorı́a de las tareas complejas no se conoce un modelo del ambiente o éste es muy complejo para ser descrito. 2. No existe la necesidad de conocer a priori qué acciones para cada situación deben ser presentadas al sistema. 3. El proceso de aprendizaje es directo y por interacción inmediata con el ambiente. 4. Es posible aprender sin ningún tipo de conocimiento previo. Por otro lado el Aprendizaje por Refuerzo puede ser aplicado a tareas de control de robots de una forma muy simple. Los elementos básicos de un sistema de Aprendizaje por Refuerzo son: 1. Un agente (sistema) o grupo de agentes (sistema complejo) (p.e. robots móviles) que perciben su ambiente y elaboran una percepción (tı́picamente llamada estado del sistema St ) y actúan en el ambiente mediante la realización de acciones (at ). 2. El ambiente, también llamado entorno, donde el agente se desenvuelve, que puede ser simulado o puede ser el mundo real. 3. Una señal de recompensa rt que representa la evaluación de la acción tomada y que es utilizada por el agente para evaluar qué tan bueno ha sido su comportamiento.. 16.

(45) 2.2 Aprendizaje por Refuerzo. La figura 2.4 muestra un diagrama clásico de interacción entre un agente y su ambiente siguiendo el paradigma del Aprendizaje por Refuerzo. Este ciclo de control es un bucle cerrado tal como lo definió Wiener (1969) y puede ser utilizado para todo tipo de tareas de aprendizaje y control en robots.. Agente estado. acción. recompensa. Ambiente. Figura 2.4. Diagrama de interacción entre Agente y Ambiente en el Aprendizaje por Refuerzo.. Uno de los más importantes avances en esta metodologı́a fue el desarrollo del algoritmo Q-Learning por Watkins (1989) que iterativamente aproxima una función valor-acción inicial Q(s, a) hacia una función valor-acción óptima Q∗ (s, a) haciendo que de esta manera se obtenga a su vez la polı́tica óptima (π ∗ ). De forma simple su regla de aprendizaje es: Q(s, a) = Q(s, a) + α[r + γ máx Q(st+1 , a0 ) − Q(s, a)] 0 a. (2.2). donde α ∈ (0, 1] es un valor al que se denomina ritmo de aprendizaje. Una observación interesante es que ésta es una fórmula recursiva que se aplica a todo par estado-acción y podemos advertir además que la estructura de esta formula sigue el mismo patrón de una técnica clásica de aproximación adaptativa conocida como “moyenne adaptive modifiée” (según Venturini, 1994), la cual se utiliza para aproximar de forma incremental el valor esperado µ de un conjunto x = (x1 ...x∞ ) de observaciones: µ = µ + α[xt − µ], (2.3) Puede verse también que esta formula es la regla básica de aprendizaje en la redes auto-organizadas introducidas por Kohonen (1982a,b, 1989, 1990). Como veremos esta fórmula se deriva fácilmente de la fórmula exacta para estimar la media que coincide con el valor esperado solo cuando todas las observaciones son equiprobables. Para obtener la media aritmética de una serie de números utilizamos la formula siguiente: 17.

(46) 2 Contextualización. P. xt , N es decir, que para un par de números (a,b) serı́a: µ=. (2.4). a+b , (2.5) N =2 con lo cual podemos elaborar una formula que estime de forma exacta la media y lo haga de forma incremental: (N − 1)µ + xt , N y operando..., finalmente obtenemos: µ=. (2.6). [µ − xt ] (2.7) N 1 = µ + [xt − µ] (2.8) N 1 = µ + {α ← }[xt − µ] (2.9) N Que es la ecuación original (2.3). Ası́, vemos que el ritmo de aprendizaje α corresponde a una aproximación a 1/N . Otra forma de interpretar la ecuación del Q-Learning es hacerlo directamente en base al valor esperado y no a la media aritmética; ası́, por ejemplo, sabemos que el valor esperado de una variable aleatoria es: µ=µ−. µ=. n X. xt p(xt ). (2.10). i=1. y que para una variable discreta con 2 posibles valores serı́a: (1 − α)a + bα ,. (2.11). donde α es la probabilidad del segundo valor. En este caso se pierde un grado de libertad ya que al haber tan solo 2 posibles valores con establecer la probabilidad de uno de ellos tenemos la probabilidad del otro valor. Siguiendo esta lı́nea obtenemos lo siguiente: µ = (1 − α)µ + xt α , (2.12) y operando..., finalmente obtenemos:. µ= = µ − αµ + αxt = µ + α[−µ + xt ] = µ + α[xt − µ] 18. (2.13) (2.14) (2.15) (2.16).

(47) 2.2 Aprendizaje por Refuerzo. Y entonces vemos que el parámetro α indica la probabilidad de que la variable µ posea el valor de la observación xt . Bien, volviendo a la formula original, tenemos que: si reemplazamos el factor xt en la ecuación (2.3) y ponemos en su lugar la recompensa inmediata obtenida por el sistema en el estado actual más una fracción γ ∈ [0, 1] del valor esperado de recompensa de la mejor acción a futuro máxa Q(st+1 , ∗) µ = µ + α[r + γ máx Q(st+1 , ∗) − µ], a. (2.17). estaremos aproximando el valor esperado de la máxima recompensa cuando seleccionemos la acción a en el estado s. Sea cual sea el procedimiento de estimación el valor de Q(s, a) será el valor esperado de la expresión: r + γ máx Q(st+1 , ∗), (2.18) a. Watkins y Dayan (1992) probaron formalmente la convergencia con probabilidad 1 del algoritmo Q-Learning a una polı́tica optima bajo ciertos supuestos algo rı́gidos (véase Sutton y Barto, 1998, p.148). Sin embargo uno de los mayores inconvenientes del Aprendizaje por Refuerzo en su forma clásica es la explosión combinatoria cuando existen variables de estado múltiples y acciones múltiples para controlar de forma óptima un sistema complejo en un entorno complejo y dinámico. Esta situación produce una combinación de estados×acciones enorme, la cual, en el mejor de los casos, asumiendo suficiente memoria para almacenar esta información, el proceso de aprendizaje necesitarı́a una enorme cantidad de tiempo para converger y de hecho el problema serı́a intratable. En la figura 2.5 podemos ver la estructura de un agente que aprende mediante el paradigma basado en refuerzo que en nuestro marco teórico está clasificado dentro de los sistemas anticipatorios que operan con expectaciones. Este tipo de modelos aporta una solución al problema de la dependencia de información precisa, constante e inmediata mediante realimentación negativa en los sistemas reactivos y establece un paradigma de control basado en el aprendizaje por refuerzo. Ası́, los nuevos paradigmas de control estarán desarrollados para casos como los robots enviados a Marte, los robots submarinos, y en general cualquier robot que esté abierto al mundo natural. Estos nuevos robots abiertos al mundo, con una cognición empotrada, y capaces de percibir el mundo a través de diversos sensores que le aportarán una inmensa cantidad de datos, para poder ser integrados y generar 19.

(48) 2 Contextualización. Percepción. Ambiente. Mecanismo de Selección de Acciones. Conocimiento Tabla de Expectaciones. Evaluación del desempeño en forma de recompensas retardadas TD error. Aprendizaje. Figura 2.5. Diagrama de estructura de un agente basado en expectaciones.. una percepción integrada el entorno que les rodea, necesitarán una forma de percepción, cognición y conducta con un mı́nimo de reacción, adaptación al medio y aprendizaje, ya que no hay forma o al menos es inviable aún tener un mapa y/o un predictor del mundo en todo momento y lugar.. 20.

(49) 3 Persistencia e Inmunidad: Adaptación La gota horada la roca, no por su fuerza sino por su constancia. Ovidio. Un sistema es un conjunto de elementos interrelacionados que interactúan entre si. Las interacciones entre sus elementos determinan los posibles procesos del sistema. Dado un sistema S, decimos que un evento (E) es un Estı́mulo para el sistema S si y sólo si la probabilidad P (S → S 0 ) de que el sistema sufra algún cambio (en sus elementos o en sus procesos) cuando ocurre el evento (E) es mayor que la probabilidad a priori de que S cambie de forma independiente de E. P (S → S 0 |E) > P (S → S 0 ),. (3.1). Además definimos la conducta de un sistema como todo elemento o proceso susceptible de observación y/o medición en un sistema. Ası́, decimos entonces que la respuesta de un sistema es su conducta cuando se asume que un evento precedente es un estı́mulo para el sistema. El término adaptación surge principalmente en el ámbito biológico como un intento por estudiar la relación que hay entre las caracterı́sticas (estructura anatómica, procesos fisiológicos o rasgos del comportamiento) de los seres vivos y su medio ambiente. Actualmente en biologı́a el término adaptación tiene un significado claro y conciso: una adaptación biológica es una estructura anatómica, un proceso fisiológico o un rasgo del comportamiento de un organismo que ha evolucionado durante un perı́odo de tiempo mediante selección natural de manera tal que incrementa sus expectativas a largo plazo para reproducirse con éxito. A pesar de que el termino adaptación tiene un significado claro y conciso en diversas disciplinas como la Biologı́a, en la presente investigación se utiliza la definición de adaptación como proceso. Se utiliza el término evolución como un mecanismo formal por el cual se produce un tipo especı́fico de adaptación y se denomina a las adaptaciones biológicas simplemente caracterı́sticas (estructura anatómica, procesos fisiológicos o rasgos del comportamiento) adaptadas. La adaptación biológica es un proceso por medio del cual un ser vivo incrementa la correlación entre su estructura y el ambiente resultando en un incremento de sus probabilidades de supervivencia y reproducción..