• No se han encontrado resultados

Estudios sobre sistemas adaptativos con aplicaciones en la robótica autónoma y los agentes inteligentes

N/A
N/A
Protected

Academic year: 2020

Share "Estudios sobre sistemas adaptativos con aplicaciones en la robótica autónoma y los agentes inteligentes"

Copied!
206
0
0

Texto completo

(1)UNIVERSIDAD POLITÉCNICA DE MADRID FACULTAD DE INFORMÁTICA. ESTUDIOS SOBRE SISTEMAS ADAPTATIVOS CON APLICACIONES EN LA ROBÓTICA AUTÓNOMA Y LOS AGENTES INTELIGENTES Tesis Doctoral José Antonio Martı́n Hernández Ingeniero en Informática. 2009.

(2)

(3) Departamento de Inteligencia Artificial Facultad de Informática. Estudios sobre Sistemas Adaptativos con aplicaciones en la Robótica Autónoma y los Agentes Inteligentes José Antonio Martı́n Hernández Ingeniero en Informática. Directores: Darı́o Maravall Gómez-Allende, doctor ingeniero de telecomunicaciones Javier de Lope Asiaı́n, doctor en informática 2009.

(4)

(5) UNIVERSIDAD POLITÉCNICA DE MADRID. Tribunal nombrado por el Magfco. y Excmo. Sr. Rector de la Universidad Politécnica de Madrid, el dı́a. . . . . . de. . . . . . . . . . . . . . . . . . . . . . . . . . . de 200. . .. Presidente: D. Vocal 1o :. D.. Vocal 2o :. D.. Vocal 3o :. D.. Secretario: D. Suplente 1o : D. Suplente 2o : D.. Realizado el acto de defensa y lectura de la Tesis el dı́a . . . . . . de. . . . . . . . . . . . . . . . . . de 200. . . en la Facultad de Informática, Madrid. Calificación: EL PRESIDENTE. LOS VOCALES. EL SECRETARIO. V.

(6)

(7) Con intenso amor, a mis padres José Antonio y Marı́a de Lourdes (PA y MA), a mi mujer Ana Marı́a (Anaksunamun), a mis hermanas, Marı́a Cristina (Mary), Adriana Marı́a (Adri), y Lourdes Alejandra (Alu), a mis sobrinos: Belén (Belunchu) y Valentı́n (Tintin)..

(8)

(9) Agradecimientos. A Darı́o Maravall, gracias por tu amistad y por haberme guiado y supervisado desde el primer dı́a, por ser siempre especial en las discusiones y por tener siempre algo que aportar. A Javier de Lope, gracias por tu amistad, tu apoyo y tu confianza durante estos años, siempre has sabido sacarme de los estancamientos y has estado en los momentos en los que he necesitado apoyo y ayuda. A Matilde Santos por tu amistad, tu apoyo, por auparme, animarme y estar allı́ pendiente. A Juan Pereda por tu amistad y por tu apoyo. A mis profesores del D.I.A. y compañeros de investigación por estar siempre dispuestos a aclarar dudas, gracias por vuestra amistad y por imprimirme ánimo (en una laser y a todo color): Alfonso Rodriguez, Ana Garcı́a, Concha Bielza, Maribel Rodrı́guez, Arminda Moreno, Miguel Virto y Luis Baumela. A Jose Miguel Buenaposada y Enrique Muñoz por vuestra amistad y por vuestro apoyo y colaboración en el D.I.A. a D.I.A. de la investigación. A Yolanda Sanz... eternamente Yolanda... A Yadira Quiñonez la de ojitos dormilones... A Francisco Bellas por tu amistad, apoyo y comentarios de ánimo sinceros.. Gracias a tod@s.. Madrid, 4 de Marzo de 2009. con cariño. José Antonio Martı́n H..

(10)

(11) Prefacio. Todos los que nos iniciamos en la ciencia queremos buscar un lugar en el mundo y, como todos, terminamos por conseguir el mundo en un lugar. Si bien es cierto que en estos universos y a estas alturas es bastante difı́cil hallar cosas nuevas nunca he perdido el optimismo. Ya bien sabemos que en la ciencia, las probabilidades favorecen a quienes aventuran conjeturas pesimistas, pero de la probabilidad al hecho no hay continuidad ! Sin embargo, también es cierto que la ciencia se ha hecho una profesión y como tal está mayoritariamente compuesta por profesionales que deben seguir unos hitos en su desarrollo profesional dejando de lado empresas cientı́ficas donde la probabilidad de éxito es muy baja pero que serı́an empresas donde los frutos podrı́an ser inmensos. Esto no tendrı́a necesariamente que ser ası́, pero las reglas de la financiación han impuesto un esquema donde cada vez hay menos lugar para, en fin, como dicen por allı́ “perder el tiempo”. Volviendo al optimismo y al pesimismo, en general, no es una cuestión de elección personal, el pesimismo tanto como el optimismo son cualidades que se ejercen y que influyen de forma muy notoria en la racionalidad. Si digo que soy optimista no es porque haya elegido serlo, lo digo en base a la auto-evaluación que hago de la forma en la que enfrento las decisiones cotidianas, es decir si busco, por ejemplo, una solución a un problema, en general las primeras soluciones no me satisfacen y pienso que quizá estoy buscando mal, esto es un signo claro de optimismo pues quiere decir que la idea de solución que hay en mi cerebro es superior a lo que encuentro, es decir, que mis expectativas no son satisfechas por la realidad, mientras que si por el contrario, enfrascado en un problema consigo una solución y a la primera me siento satisfecho, entonces estarı́a ejerciendo el pesimismo pues la idea o modelo de solución que habı́a en mi cerebro era inferior a la realidad. Evidentemente somos seres que nos adaptamos a la realidad y que aprendemos, y la experiencia de vivir la realidad produce un cambio en nuestra racionalidad, y podemos pasar del optimismo inicial al pesimismo, y volver al optimismo y volver al pesimismo y ası́ sucesivamente. Pero lo que sucede es que no nos quedamos para siempre en ese ir y venir, en esas oscilaciones de expectativas, sino que vamos reduciendo los vaivenes (convergiendo) de forma gradual hacia un.

(12) Prefacio. punto más o menos intermedio donde los golpes de la realidad son cada vez menores, es decir, donde nuestras expectativas sobre la realidad, nuestro modelo del mundo, empieza a estar de acuerdo con la realidad y en ese momento alcanzamos un equilibrio, equilibrio que no es estático pues tenemos que mantenerlo de forma activa. Los triunfos y los fracasos marcan nuestra vida, quedan como marcadores en el cerebro para recordarnos sobre nuestras elecciones pasadas e influir en las de futuro y ya que no podemos ver más allá de aquellas elecciones que no comprendemos, cuando llegan las consecuencias entonces recordamos ese preciso momento de ignorancia y nos viene a la cabeza el lamento “haberlo sabido” y la exigencia “quiero otra oportunidad” y ası́ enfrentamos la vida futura sabiendo que aunque no comprendemos aún las causas conocemos la consecuencia futura y es entonces cuando se crea un nuevo marcador en nuestro cerebro que atribuye la consecuencia a nuestra elección arbitraria y ası́ entonces parecemos máquinas destinadas a seguir la inercia, sujetos a los antojos de las causas y los efectos. -¡Soy juguete del destino!- exclamó. Y sin embargo, algunos aún tenemos la sensación de la libertad de elección, y digo sensación pues es lo único que podemos afirmar hasta ahora, si el mundo es una larga cadena de causas y efectos al menos esa sensación es de agradecer (¿o no?), si no, entonces ¿como exigirnos una explicación que determine nuestros actos si en definitiva los realizamos ejerciendo nuestra libertad?. Madrid, José Antonio Martı́n Hernández.. 4 de Marzo de 2009. XII.

(13) Información Académica. Esta Tesis es presentada como requisito final para optar al grado académico de Doctor en Informática, de la Universidad Politécnica de Madrid, y no ha sido presentada previamente para la obtención de otro tı́tulo en esta Universidad u otras. La misma contiene los resultados obtenidos en investigaciones llevadas a cabo en el Departamento de Inteligencia Artificial durante el perı́odo comprendido entre el 1 de Noviembre del año 2002 y el 20 de Octubre del año 2008, bajo la co-dirección del Dr. Don Darı́o Maravall Gómez-Allende y del Dr. Don Javier de Lope Asiaı́n, profesores ambos pertenecientes al programa de Doctorado en Ciencias de la Computación e Inteligencia Artificial del citado departamento.. José Antonio Martı́n H. [email protected]. Departamento de Inteligencia Artificial Universidad Politécnica de Madrid Madrid, 4 de Marzo de 2009.

(14)

(15) Resumen. Inteligencia, Racionalidad, Aprendizaje, Anticipación y Adaptación son términos que han estado y permanecen aún en el foco principal de las ciencias de la computación. Estos términos delimitan áreas de estudio, pero están tan interrelacionados que estudiarlos por separado es una aventura que parece poco factible. Cada término busca delimitar un determinado fenómeno, sin embargo las complicadas interrelaciones no lineales entre estos procesos hace que sus fronteras sean difusas y en ocasiones se visualicen como distintos vértices de un mismo fenómeno. En este trabajo se presenta un modelo de estudio integral y vertical sobre estos fenómenos: se propone una división orientada hacia discriminar estos términos desde el punto de vista de la complejidad que aportan a la conducta de los sistemas donde estos procesos se manifiestan. Ası́, se comienza con el estudio de la Adaptación como fenómeno más básico y se muestra tanto su potencialidad en cuanto a la complejidad que aporta a la conducta como sus limitaciones inherentes. Se sigue una lı́nea ascendente de complejidad con el estudio de la Anticipación para lo cual se estudia la teorı́a de la expectación como fenómeno que rige la conducta de anticipación y se propone que el estudio de los sistemas anticipatorios y los fenómenos de aprendizaje complejo deben enfocarse hacia la teorı́a estadı́stica de la expectación o esperanza matemática como fenómeno rector de un tipo de conducta que comienza a destacar en términos de complejidad. Finalmente, se aborda el estudio de la Racionalidad y la Inteligencia como los fenómenos donde la complejidad se manifiesta en mayor grado. A lo largo de las diferentes partes de este trabajo se presentan una serie de contribuciones tanto teóricas como tecnológicas que representan la aplicación práctica en el campo de la robótica autónoma y los agentes inteligentes del presente estudio. Este trabajo de investigación, visto como un todo, representa un modelo sistémico de los fenómenos complejos que se manifiestan en los sistemas tanto naturales como artificiales a los cuales de forma explı́cita o implı́cita se les atribuye una finalidad (al menos metafórica) u objetivo..

(16)

(17) Abstract. Intelligence, Rationality, Learning, Anticipation and Adaptation are terms that have been and still remain at the main center of computer science. These terms delimit their specific areas of study; nevertheless, they are so interrelated that studying them separately is an endeavor that seems little promising. Each term looks for to delimit a certain phenomenon; nevertheless, the complicated nonlinear interrelations between these phenomena cause that their borders be diffuse and sometimes they visualize as different vertices from the same phenomenon. In this work an integral and vertical model of study about these phenomena is presented by means of a division, which oriented towards discriminating these terms from the point of view of the complexity expresed in the behavior of the systems where these phenomena come at play. Thus, we depart from the Adaptation as the more basic phenomenon and show its potentiality in complexity terms as well as its inherent limitations, we followed an ascending line of complexity with the study of Anticipation for which we propose that the study of the anticipatory systems and the phenomena of complex learning must focus towards the mathematical theory of expectations as the governing framework of a kind of behavior that begins to blunt in complexity terms. Finally, we undertook the study of Rationality and Intelligence as the phenomena where the complexity appears in greater degree. Throughout the different parts of this work a series of theoretical and technological contributions appears, representing the practical application in the field of the autonomous robots and intelligent agents of our study. The present work seen as a whole represents a systemic model of the complex phenomena that appears in natural and artificial systems to which of explicit or implicit manner a purpose (at least metaphorically) or objective is attributed..

(18)

(19) Índice general. 1. INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Organización del Trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1 5 6. Parte I MARCO TEÓRICO 2. Contextualización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1. Modelos de Control de Robots Autónomos y Agentes Inteligentes . . . 2.2. Aprendizaje por Refuerzo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 11 12 15. 3. Persistencia e Inmunidad: Adaptación . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1. La Constancia y el Principio de la Persistencia Justificada . . . . . . . . . 3.2. La Ley de la Adaptación y la Hipótesis del Estı́mulo Universal . . . . .. 21 22 28. 4. Expectaciones y Predicciones: Anticipación . . . . . . . . . . . . . . . . . . . . . 4.1. Ley de Adaptación vs. Ley del Efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Sistemas Anticipatorios y Teorı́a de la Expectación . . . . . . . . . . . . . . .. 33 33 34. 5. Opciones y No Aleatoriedad: Racionalidad . . . . . . . . . . . . . . . . . . . . . 5.1. Grados de Libertad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Racionalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3. ¿Sistemas Inteligentes? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4. Conducta Activa Orientada a Objetivos -Inteligencia- . . . . . . . . . . . . . 5.5. Racionalidad e Inteligencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 39 39 40 42 43 45. Parte II MÉTODOS.

(20) Índice general. 6. La Familia de Métodos kNN-TD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1. Estadı́stica No Paramétrica y los k-vecinos más Próximos . . . . . . . . . 6.2. Método kNN-TD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3. Adición de Trazas de Elegibilidad: Algoritmo kNN-TD(λ) . . . . . . . . . 6.4. Acciones Continuas: Algoritmo kNN-TD(λ)C(a) . . . . . . . . . . . . . . . . . 6.5. Filtrado Adaptativo Online: El Filtro k-NNδs . . . . . . . . . . . . . . . . . . . .. 49 51 52 58 60 65. 7. Método para la Reducción de Problemas de Actuadores Múltiples basado en Aprendizaje Distribuido . . . . . . . . . . . . . . . . . . . 7.1. Descripción de la Arquitectura Propuesta . . . . . . . . . . . . . . . . . . . . . . .. 69 70. 8. Método para la Coordinación Dinámica de Multiples Objetivos . 8.1. Descripción del Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2. Solución mediante un Enfoque Bio-Inspirado . . . . . . . . . . . . . . . . . . . . . 8.3. Modos de Implementación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 73 73 81 83. Parte III RESULTADOS EXPERIMENTALES 9. Resultados Experimentales del Modelo kNN-TD . . . . . . . . . . . . . . . 87 9.1. Resultados para el Problema MountainCar . . . . . . . . . . . . . . . . . . . . . . 87 9.2. Análisis del Parámetro k y de la Ecuación de Actualización . . . . . . . . 92 9.3. Evaluación experimental del Algoritmo k-NNQ(λ) trazas de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 9.4. Evaluación experimental del Algoritmo k-NNQ(λ)-C(a) acciones continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 9.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 10. Aprendizaje Distribuido: Resultados Experimentales . . . . . . . . . . . 10.1. Diseño Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2. Resultados Experimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 119 119 120 122. 11. Coordinación de Objetivos Múltiples: Resultados Experimentales 125 11.1. El Problema del Aparcamiento Automático de Vehı́culos . . . . . . . . . . 126 11.2. El Problema del Coche en la Montaña con Conflictos Añadidos . . . . 128 11.3. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 12. Simulación de un Sistema Multi-Robot . . . . . . . . . . . . . . . . . . . . . . . . . 12.1. Descripción de la Simulación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2. Cinemática y Dinámica de los Robots . . . . . . . . . . . . . . . . . . . . . . . . . . 12.3. Descripción del Comportamiento de los Robots . . . . . . . . . . . . . . . . . .. XX. 131 131 132 133.

(21) Índice general. 12.4. Resultados y Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 Parte IV CONCLUSIONES Y RESULTADOS 13. Conclusiones y Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.1. Conclusiones y resultados a nivel teórico . . . . . . . . . . . . . . . . . . . . . . . . 13.2. Conclusiones y resultados a nivel tecnológico . . . . . . . . . . . . . . . . . . . . 13.3. Futuras Lı́neas de Investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.4. Listado de publicaciones derivadas de esta tesis . . . . . . . . . . . . . . . . . .. 149 149 150 152 153. Parte V APÉNDICES Y REFERENCIAS Definiciones y Terminologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.1. Reproducción, Algoritmos, Procesos y Sistemas . . . . . . . . . . . . . . . . . . A.2. Estı́mulos, Conducta y Respuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.3. Adaptación, Evolución y Aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . .. 159 159 161 162. La Probabilidad de Error Bayesiano y el Método k-NN . . . . . . . . . . . . 167 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171. XXI.

(22)

(23) Índice de figuras. 2.1. 2.2. 2.3. 2.4. 2.5. 3.1. 3.2. 3.3. 3.4. 3.5.. Modelo vertical sobre complejidad y fenómenos observables en los sistemas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagrama de estructura de un agente clásico (deliberativo y basado en modelos apriorı́sticos del ambiente). . . . . . . . . . . . . . . . . . . Diagrama de estructura de un agente reactivo (basado en retroalimentación). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagrama de interacción entre Agente y Ambiente en el Aprendizaje por Refuerzo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagrama de estructura de un agente basado en expectaciones. . . . El Principio de la Persistencia Justificada aplicado a un problema de navegación de robots. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sistema cerrado, aislado del ambiente. . . . . . . . . . . . . . . . . . . . . . . . . . Sistema completamente plástico: desintegración, ambiente y sistema están completamente indiferenciados. . . . . . . . . . . . . . . . . . . . Punto de equilibrio entre un sistema plástico y cerrado: interacciones posibles con el ambiente y adaptación. . . . . . . . . . . . . . Una gráfica de un experimento sobre diversidad en algoritmos evolutivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 12 13 14 17 20 24 25 26 26 30. 4.1. 4.2.. Diagrama de los elementos que actúan en un Sistema Anticipatorio. 36 Un ratón transgénico cuyo sistema de valores olfativo ha sido alterado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38. 5.1.. Diagrama del Modelo de Racionalidad. . . . . . . . . . . . . . . . . . . . . . . . .. 6.1.. Diagrama de estructura de un agente RL con representación tabular de expectaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Una arquitectura de Aprendizaje por Refuerzo con representación perceptual para el tratamiento de problemas de espacio de estados (estı́mulos) continuo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.2.. 41 50. 50.

(24) Índice de figuras. 6.3. 6.4.. 6.5. 6.6. 7.1. 8.1. 8.2.. 8.3. 9.1. 9.2. 9.3. 9.4.. 9.5. 9.6. 9.7. 9.8. 9.9. 9.10. 9.11.. Esquema basado en k-NN en un instante determinado del proceso de aprendizaje para un valor de k = 5. . . . . . . . . . . . . . . . . . . . . . . . . . Arquitectura de un agente de Aprendizaje por Refuerzo donde el mecanismo de selección de acciones afecta directamente el proceso de aprendizaje. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comportamiento del filtro k-NNδs en un episodio del problema MountainCar durante la competición RL2008. . . . . . . . . . . . . . . . . . . Comportamiento del filtro k-NNδs en un episodio del problema MountainCar durante la competición RL2008. . . . . . . . . . . . . . . . . . . Diagrama de interacción entre Agentes y Ambiente en el Aprendizaje por Refuerzo Distribuido o Multi-Agente. . . . . . . . . . . . Gráfica del problema de los tres negociadores. . . . . . . . . . . . . . . . . . . El juego de los tres negociadores y la cantidad total de distancia desde Z y Optimum (localizaciones del almacén común) a cada fábrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejes del vector ω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gráfica del problema MountainCar. . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de convergencia para el algoritmo experimental basado en k-NN en el problema MountainCar. . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribución de la Relevancia de los clasificadores sobre el espacio de estados para el método k-NN en el problema MountainCar. . . . . Distribución de la calidad de los clasificadores sobre el espacio de estados para el método k-NN y su independencia de la relevancia en el problema MountainCar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Superficie Estados-Valor aprendida por el método k-NN para diferentes resoluciones en el problema MountainCar. . . . . . . . . . . . . . Curva de aprendizaje para k=1 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=2 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=3 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=4 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=5 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=6 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. XXIV. 53. 55 67 68 70 77. 78 83 87 88 89. 90 91 93 93 94 94 95 95.

(25) Índice de figuras. 9.12. 9.13. 9.14. 9.15. 9.16. 9.17. 9.18. 9.19. 9.20. 9.21. 9.22. 9.23. 9.24. 9.25. 9.26. 9.27. 9.28. 9.29. 9.30. 9.31. 9.32. 9.33. 9.34. 9.35. 9.36. 9.37.. Curva de aprendizaje para k=7 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=8 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=9 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=10 y regla de aprendizaje según ecuación 9.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=1 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=2 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=3 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=4 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=5 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=6 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=7 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=8 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=9 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=10 y regla de aprendizaje según ecuación 9.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k=1 para el método k-NNQ(λ = 0.95). Curva de aprendizaje para k=2 para el método k-NNQ(λ = 0.95). Curva de aprendizaje para k=3 para el método k-NNQ(λ = 0.95). Curva de aprendizaje para k=4 para el método k-NNQ(λ = 0.95). Curva de aprendizaje para k=5 para el método k-NNQ(λ = 0.95). Curva de aprendizaje para k=6 para el método k-NNQ(λ = 0.95). Curva de aprendizaje para k=7 para el método k-NNQ(λ = 0.95). Curva de aprendizaje para k=8 para el método k-NNQ(λ = 0.95). Curva de aprendizaje para k=9 para el método k-NNQ(λ = 0.95). Curva de aprendizaje para k=10 para el método k-NNQ(λ = 0.95). Problema del péndulo invertido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de convergencia para el algoritmo experimental basado en k-NN en el problema del péndulo invertido. . . . . . . . . . . . . . . . . . . . . XXV. 96 96 97 97 98 98 99 99 100 100 101 101 102 102 106 106 107 107 108 108 109 109 110 110 111 111.

(26) Índice de figuras. 9.38. 9.39. 9.40. 9.41. 9.42. 9.43. 9.44. 9.45. 9.46. 9.47. 9.48. 10.1. 10.2. 10.3. 10.4.. Curva de aprendizaje para k = 1 y k = 2 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k = 3 y k = 4 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k = 5 y k = 6 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k = 7 y k = 9 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para k = 9 y k = 10 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de recompensa para k = 1 y k = 2 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de recompensa para k = 3 y k = 4 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de recompensa para k = 5 y k = 6 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de recompensa para k = 7 y k = 9 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de recompensa para k = 9 y k = 10 para el método k-NNQ(λ = 0.90)-C(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espacio de estados y gráfica de las acciones continuas ejecutadas en un episodio particular del problema CartPole. . . . . . . . . . . . . . . . . Curva de aprendizaje para el robot plano durante 100 episodios. . . Traza de comportamiento para el robot plano para cuatro objetivos consecutivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curva de aprendizaje para el robot SCARA durante 100 episodios. Traza de comportamiento para el robot SCARA para cuatro objetivos consecutivos vista en 2 y 3 dimensiones respectivamente.. 112 112 113 113 113 114 114 115 115 115 116 121 121 122 122. 11.1. 11.2. 11.3.. Problema del aparcamiento de coches. . . . . . . . . . . . . . . . . . . . . . . . . . 127 El problema del coche y la montaña. . . . . . . . . . . . . . . . . . . . . . . . . . . 128 Resultado experimental de la simulación del problema del coche y la montaña con conflictos añadidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130. 12.1. 12.2. 12.3. 12.4. 12.5. 12.6. 12.7.. Maniobra simple de protección. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estrategia compleja de protección. . . . . . . . . . . . . . . . . . . . . . . . . . . . . Objetivos en conflicto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Trayectorias largas muestran la complejidad del problema. . . . . . . . Estrategia básica del robot M (ir directamente al nido). . . . . . . . . . . Maniobra de bloqueo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Maniobra de protección compleja. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XXVI. 138 139 139 140 141 142 143.

(27) Índice de cuadros. 9.1. 9.2. 9.3.. Resumen del Comportamiento del método k-NNQ para la regla de aprendizaje según ecuación (9.1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Resumen del Comportamiento del método k-NNQ para la regla de aprendizaje según ecuación (9.2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Resumen del Comportamiento del método k-NNQ(λ). . . . . . . . . . . . . 105. 12.1. Configuración cinemática de cada robot. . . . . . . . . . . . . . . . . . . . . . . . . 132.

(28)

(29) 1 INTRODUCCIÓN El auténtico problema no es si las máquinas piensan, sino si lo hacen los hombres. Skinner.. El estudio de los sistemas adaptativos tiene innumerables aplicaciones en muy diversas disciplinas tanto cientı́ficas como tecnológicas. Por citar sólo unas pocas tenemos: la robótica, la sociologı́a, la economı́a, la inteligencia artificial, la psicologı́a, la etologı́a, la biologı́a, la fı́sica y las matemáticas. Esta gran aplicabilidad no es fortuita sino que está completamente justificada por la misma estructura de los modelos de solución de problemas en matemáticas, donde generalmente el problema consiste en conseguir un número, un vector, una matriz o una función que represente la solución a un problema, sujeto a un número de restricciones dadas. Pues bien, para alcanzar este “estado final solución” es necesario buscar o “recorrer” parte del espacio de búsqueda evitando las zonas no factibles y viajando de un estado a otro intentando mejorar la solución a cada paso. Es evidente que, a simple vista, es un problema de navegación de un móvil en un espacio de búsqueda. Si a todo esto le agregamos múltiples objetivos cambiantes en el tiempo y restricciones complejas también cambiantes en el tiempo tendremos un problema de navegación dinámico multiobjetivo o, en terminologı́a matemática, un problema de optimización dinámica multiobjetivo. El tema que se propone busca el estudio de los procesos de adaptación y control en robots autónomos y agentes inteligentes que están confinados a un determinado entorno del que extraen información relevante y en el cual actúan para satisfacer unos objetivos dados. Definiremos un sistema adaptativo como aquél que es capaz de cambiar su estructura o su conducta para “mejorar su función” ante variaciones y perturbaciones de su entorno. El marco de la teorı́a de juegos diferenciales, por ejemplo, es un marco idóneo para el planteamiento y estudio de muchos fenómenos adaptativos. La teorı́a clásica de juegos debida a von Neumann y Morgenstern (1947), en su libro clásico Theory of Games and Economic Behavior, es considerada como un modelo de las interacciones.

(30) 1 INTRODUCCIÓN. sociales y la ampliación de esta teorı́a, en lo que se conoce como juegos diferenciales, fue propuesta por Isaac Rufus en su libro Differential Games (Isaacs, 1999), con la intención de extender la teorı́a de juegos para considerar estrategias continuas con las cuales poder modelar una serie de dinámicas cuyas acciones y recompensas sean funciones continuas. La teorı́a de juegos se ha convertido en la actualidad en una pieza fundamental de la teorı́a económica. Como un caso clásico podemos ver los trabajos de John Nash. Sin embargo, las aplicaciones en teorı́a de juegos diferenciales han llegado hasta campos tan lejanos de la economı́a como la neuro-etologı́a por ejemplo, que tiene una relación directa con los sistemas adaptativos. Por medio de la teorı́a de juegos diferenciales se han estudiado diversos comportamientos animales como el sistema depredador-presa, modelándolo como un juego de persecución y evasión en un espacio continuo con acciones también continuas. En este contexto se pueden citar por ejemplo los trabajos de Cliff y Miller (1996) quienes en una serie de artı́culos estudian un tipo de conducta animal llamada “Protean Behavior” y su influencia en el desarrollo de estrategias en el juego de persecución y evasión entre un depredador y una presa. Estos autores utilizan el concepto de “inteligencia maquiavélica” o “conducta adaptativa impredecible” para modelar y estudiar el comportamiento de los animales en circunstancias estratégicas de competición. Sus ideas están inspiradas en observaciones sobre la propia conducta animal. El argumento que define y justifica esta llamada inteligencia maquiavélica se sustenta en la premisa de que en el juego de la supervivencia natural entre depredadores y presas, visto desde un marco evolutivo darwiniano, la capacidad para predecir las acciones de las presas y, por lo tanto, su trayectoria de escape tiene gran valor para su supervivencia. Es este hecho el que favorecerı́a que a su vez la conducta impredecible o “inteligencia maquiavélica” tenga también un gran valor para la supervivencia permitiendo a la presa el desarrollo de este tipo de conducta para lograr escapar y sobrevivir. Por otro lado, las aplicaciones en robótica son inmediatas. Mediante juegos diferenciales puede modelarse prácticamente cualquier problema de robótica: robots móviles, manipuladores, robots caminantes, etc. La teorı́a de juegos diferenciales está estrechamente ligada a la optimización dinámica y esto permite trasladar directamente los problemas de un área a la otra. No obstante, las investigaciones iniciales sobre teorı́a de juegos diferenciales están basadas, al igual que las primeras arquitecturas de control, en una aproximación apriorı́stica a la solución de problemas necesitando, por tal motivo, de un conjunto de herramientas matemáticas muy sofisticadas y de la generación de modelos matemáticos muy precisos que son muy difı́ciles de conseguir y en algunos resultan en aproximaciones inviables en la práctica. Es quizás ésta limitación junto con otras consideraciones que veremos más adelante, que han venido desarrollándose otros tipos de métodos alternativos para solucionar los mismos problemas.. 2.

(31) 1 INTRODUCCIÓN. La investigación que se presenta está orientada al estudio, experimentación y desarrollo de modelos computacionales para el estudio de la conducta adaptativa y sus aplicaciones en el campo de los robots autónomos y los agentes inteligentes. Proponiendo un modelo de estudio y un conjunto de métodos cuya aplicaciones práctica resulte viable. Otro concepto que opera de forma sinergética con la teorı́a de sistemas adaptativos es la racionalidad. La racionalidad ha estado ligada históricamente a lo más ı́ntimo de la humanidad, y podrı́a afirmarse que junto con otros pensamientos como el de la identidad, del quién soy y qué soy, representa el nacimiento de la filosofı́a. Ya sabemos que una de las definiciones más clásicas del hombre se basa en la distinción entre animal racional y no racional. Se dice que el hombre es un animal racional. Actualmente sabemos que los animales poseen un cierto grado de racionalidad y que nuestro monopolio de la razón se destruye ya no sólo por la apreciación de racionalidad en otros animales sino incluso en las máquinas. Utilizando un enfoque reduccionista clásico podrı́a afirmase que la racionalidad es la cualidad de un ente de conducirse mediante la razón; cosa que inmediatamente obliga a definir qué es la razón. Por otro lado el concepto de racionalidad ha sido estudiado ampliamente en campos diversos como la economı́a y la informática. En economı́a, por ejemplo, se entiende la racionalidad como una restricción al tipo de estrategia que puede utilizar un ente económico, siendo la principal restricción la de que su conducta estará orientada a conseguir el máximo beneficio posible ordenando las alternativas posibles y decidiendo cual es la que maximiza su utilidad. De esta forma podrı́a proponerse un marco etológico para definir la racionalidad de un agente envuelto en una determinada dinámica de la siguiente forma: la racionalidad es una restricción del pensamiento y como tal elimina cierta libertad. Esta restricción o pérdida de libertad está orientada a seleccionar y ordenar el pensamiento de forma tal que los principios de causa y efecto tanto innatos como aprendidos sean satisfechos favoreciendo que el agente opere con al menos un indicio consciente de que su juicio y conducta no son fenómenos aleatorios o carecen de relación causal con las consecuencias de sus acciones o pensamientos. Es evidente y se desprende naturalmente de la definición anterior que hay ciertos factores que intervienen en el grado de racionalidad, por ejemplo el factor vigilancia de la conciencia que se sabe es gradual y varı́a no sólo de individuo a individuo sino que en un mismo individuo varı́a incluso en intervalos pequeños de tiempo. Otro factor gradual de la racionalidad se desprende de la naturaleza estadı́stica de la definición. El hecho de la diferenciación clara de la aleatoriedad depende directamente de la entropı́a del microsistema de estados local asociado al momento contextual preciso donde se da el pensamiento. Por último, puede verse que el aprendizaje y el repertorio de conocimiento es también un factor gradual de la racionalidad ya que permite almacenar relaciones causales que en buena parte son las que permiten decidir sobre el grado de aleatoriedad de la operación, ası́, a mayor cantidad de 3.

(32) 1 INTRODUCCIÓN. relaciones causa-efecto, mayor racionalidad en potencia poseerá el agente. De esta forma el grado de conciencia, el conocimiento y el contexto determinan el grado de la racionalidad de un individuo. Uno de los paradigmas más importantes dentro de los sistemas adaptativos y que guarda mayor relación con nuestra propuesta sobre la racionalidad es el Aprendizaje por Refuerzo. En el aprendizaje por refuerzo en su formulación clásica computacional (Sutton, 1992a,b; Sutton y Barto, 1998; Sutton, 2006) el agente inteligente o sistema adaptativo modifica su conducta con la finalidad de obtener la mayor recompensa posible debida a sus acciones, utilizando un sistema de memoria en el cual almacena relaciones causa-efecto que tienden a ser cada vez más óptimas. Este paradigma muestra cómo un sistema adaptativo puede aprender directamente mediante la interacción con su entorno a conducirse de forma racional y adaptarse a cambios para satisfacer su objetivo primordial que es el conseguir la mayor recompensa posible. Existen muchos otros paradigmas dentro del campo de estudio de los sistemas adaptativos. Entre los modelos de sistemas adaptativos que se utilizan con mayor frecuencia en resolución de problemas en inteligencia artificial podemos mencionar los siguientes: Modelos basados en Aprendizaje por Refuerzo, Modelos Conexionistas, Algoritmos Evolutivos, Métodos Bayesianos y Modelos de enjambres, y en general muchos y diversos métodos en aprendizaje automático. Uno de los modelos mas completos sobre los fenómenos de la adaptación y la complejidad fue desarrollado por Holland (1995). En su trabajo, Holland recopila una serie de ideas que habı́a venido desarrollando a lo largo de su carrera y propone ası́ un modelo llamado ECHO donde define el estudio de este tipo de sistemas como el estudio de los sistemas complejos adaptativos (SCA). Generalmente los métodos de solución de problemas donde se utilizan sistemas adaptativos son hı́bridos, es decir, se basan en una mezcla y sinergia entre diferentes modelos y métodos para conseguir buenos resultados. Un ejemplo claro de esto son las sinergias entre Aprendizaje por Refuerzo y Redes Neuronales, donde las Redes Neuronales se utilizan como la memoria donde se almacenan las relaciones causales del agente inteligente. Otra combinación que está siendo investigada con resultados parciales satisfactorios es el uso de Aprendizaje por refuerzo y Algoritmos Evolutivos, utilizándose los Evolutivos como motor de generación de relaciones causa-efecto y como proceso darwinista de selección, recombinación y mutación de relaciones causa efecto. El tema que se propone busca el estudio de los procesos de adaptación y control en robots autónomos y agentes inteligentes que están confinados a un determinado entorno del cual extraen información relevante y en el cual actúan para satisfacer unos objetivos dados. De esta forma el principal objeto de estudio se centra en la experimentación con modelos adaptativos que incluyen aprendizaje complejo, que utilizan cierto grado de racionalidad e inteligencia, y sus aplicaciones al campo de la robótica autónoma y los agentes inteligentes. En este sentido se busca la ampliación 4.

(33) 1.1 Objetivos. de las técnicas actuales en la resolución de problemas de robótica autónoma y sistemas inteligentes mediante la extensión de diversos modelos de sistemas adaptativos complejos como el Aprendizaje por Refuerzo, los Algoritmos Evolutivos y las Redes Neuronales.. 1.1.. Objetivos. El tema que se propone busca el estudio de los procesos de adaptación y control en robots autónomos y agentes inteligentes que están confinados a un determinado entorno del cual extraen información relevante y en el cual actúan para satisfacer unos objetivos dados. De esta forma el principal objeto de estudio se centra en la experimentación con modelos adaptativos que incluyen aprendizaje complejo, que utilizan cierto grado de racionalidad e inteligencia, y sus aplicaciones al campo de la robótica autónoma y los agentes inteligentes. En este sentido se busca la ampliación de las técnicas actuales en la resolución de problemas de robótica autónoma y sistemas inteligentes mediante la extensión de diversos modelos de sistemas adaptativos complejos como el Aprendizaje por Refuerzo, los Algoritmos Evolutivos y las Redes Neuronales. Ası́, uno de los resultados esperados es la mejora del desempeño de métodos en sistemas de control de robots autónomos, robots móviles, robots manipuladores industriales, robots humanoides y otros diversos problemas de control ası́ como la consecución de nuevas herramientas para el estudio y mejora de diversos modelos de sistemas adaptativos, nuevas arquitecturas para el Aprendizaje por Refuerzo, Algoritmos Evolutivos y Redes Neuronales. Para lograr esto, se plantean los siguientes objetivos: • Proposición de un modelo que permita el estudio y comprensión de los diferentes fenómenos observables en los sistemas adaptativos inteligentes de tal forma que permita la descomposición y análisis del objeto de estudio (sistema complejo) en partes diferenciadas proporcionando a cada una de estas partes su propio marco teórico y sus propios métodos de estudio y solución de problemas. • Desarrollar dentro de cada parte diferenciada un cuerpo teórico formal que permita entender y modelar los fenómenos respectivos con vistas al desarrollo de métodos y “herramientas” para solucionar problemas prácticos. • Desarrollar un conjunto de métodos y “herramientas” para la solución de problemas prácticos planteados dentro del modelo propuesto. • Realización de un conjunto de experimentos que permitan establecer la validez, idoneidad, capacidades y limitaciones de cada herramienta y método de solución propuesto. 5.

(34) 1 INTRODUCCIÓN. • Experimento de simulación de un sistema multi-robot. El objetivo fundamental de este experimento es evaluar y analizar como actúan de forma integrada los conceptos y principios propuestos dentro del marco teórico de esta tesis conjuntamente con los métodos de solución de problemas desarrollados en esta tesis.. 1.2.. Organización del Trabajo. Como se indica dentro de los objetivos, El presente trabajo está orientado a presentar un modelo teórico para el estudio y comprensión de los diferentes fenómenos observables en los sistemas adaptativos inteligentes desarrollándolo en partes diferenciadas y proporcionando a cada una de estas partes su propio marco teórico y sus propios métodos de estudio y solución de problemas. De esta manera, luego del capı́tulo introductorio se presenta un breve marco teórico de carácter unificador donde se sitúa la presente tesis dentro de su contexto general. El marco teórico se desarrolla en la Parte I y contiene además de la contextualización del trabajo una serie de capı́tulos donde se desarrolla el modelo teórico propuesto como uno de los objetivos principales de esta tesis. El modelo teórico propuesto está dividido en tres partes fundamentales donde se desarrollan las aportaciones teóricas de esta tesis, cumpliendo ası́ el objetivo de proponer y desarrollar un modelo que permita el estudio y comprensión de los diferentes fenómenos observables en los sistemas adaptativos. Las tres partes diferenciadas que propone dicho modelo son: • Adaptación. • Anticipación. • Racionalidad e Inteligencia. El Capı́tulo 3 es el que estudia la Adaptación. Aquı́ se presenta un conjunto de teorı́as sobre los sistemas adaptativos, la adaptación como proceso y un conjunto de aplicaciones a problemas prácticos de optimización y control. Se formaliza lo que es Adaptación como proceso y se proponen algunas hipótesis y principios relevantes. También se presentan varios casos de aplicación de estos principios en tareas de optimización y control, donde se muestran los procesos de adaptación mediante técnicas evolutivas computacionales. Finalmente se establecen dos principios fundamentales que subyacen y rigen el fenómeno de la adaptación: el Principio de la Persistencia Justificada y la Ley de Adaptación. Siguiendo el modelo propuesto, en el Capı́tulo 4 se ponen de manifiesto algunas limitaciones del fenómeno adaptativo en su forma simple y se propone el estudio de la Anticipación como fenómeno complementario a la adaptación para lograr un mayor nivel de complejidad. En esta parte se desarrollan las teorı́as sobre el aprendizaje basado en la generación de modelos predictivos de expectaciones de futuro y se 6.

(35) 1.2 Organización del Trabajo. proponen diversas herramientas teóricas y tecnológicas entre las cuales destaca el modelo kNN-TD; que es un método de aprendizaje por refuerzo basado en diferencias temporales y que utiliza al clasificador de los k-vecinos más próximos como base de su sistema perceptivo. Dentro del modelo propuesto, el último escalón de complejidad se presenta en el Capı́tulo 5. Este Capı́tulo desde el punto de vista teórico podemos subdividirlo en dos secciones : la primera, está dedicada a la formulación de un concepto operativo y computacional de la racionalidad vista a través de los conceptos estudiados previamente sobre adaptación, anticipación. La hipótesis fundamental es que la Racionalidad está basada en la no aleatoriedad de un sistema que posea libertad (en el sentido que en que se define la libertad en este trabajo). La segunda, propone a su vez una definición teórica de un tipo de conducta que denominamos “conducta activa orientada a objetivos” la cual relacionamos directamente con la inteligencia. Al final de cada una de las anteriores partes se ha elaborado un breve resumen a manera de sumario con los aspectos esenciales de cada parte. En la Parte II se presentan una serie métodos de solución de problemas que incluyen: la familia de métodos kNN-TD (Capı́tulo 6), un método para la Reducción de Problemas de Actuadores Múltiples basado en Aprendizaje Distribuido (Capı́tulo 7) y un método para la Coordinación Dinámica de multiples Objetivos en Conflicto (Capı́tulo 8). En la Parte III se presenta una colección de resultados experimentales que representan la validación y aplicación práctica de los métodos propuestos dentro del modelo de estudio donde se discuten las conclusiones obtenidas para cada experimento. En este apartado cabe destacar el experimento de simulación de un sistema multi-robot que imita (metafóricamente) la conducta de protección de la prole ante el peligro de que ocurra una depredación. El objetivo fundamental del experimento del sistema multi-robot fue mostrar como actúan de forma integrada los conceptos y principios propuestos dentro del marco teórico de esta tesis conjuntamente con los métodos de solución de problemas desarrollados en esta tesis. Finalmente, en la Parte IV se presentan las conclusiones generales de esta tesis y un conjunto de posibles lı́neas futuras de investigación y áreas de estudio que quedan abiertas a posteriores consideraciones. Los apéndices y referencias finalmente aparecen en la Parte V.. 7.

(36)

(37) Parte I. MARCO TEÓRICO.

(38)

(39) 2 Contextualización El pensamiento es sólo un relámpago entre dos largas noches, pero este relámpago lo es todo. Henry Poincaré. Inteligencia, Racionalidad, Aprendizaje, Anticipación y Adaptación son términos que han estado y permanecen aún en el foco principal de las ciencias de la computación. Estos términos delimitan áreas de estudio, pero están tan interrelacionados que estudiarlos por separado es una aventura que parece poco factible. Cada término busca delimitar un determinado fenómeno, sin embargo las complicadas interrelaciones no lineales entre estos procesos hace que sus fronteras sean difusas y en ocasiones se visualicen como distintos vértices de un mismo fenómeno. En este trabajo se presenta un modelo de estudio integral y vertical sobre estos fenómenos: se propone una división orientada hacia discriminar estos términos desde el punto de vista de la complejidad que aportan a la conducta de los sistemas donde estos procesos se manifiestan. Siguiendo el modelo propuesto, este trabajo está dividido en tres partes fundamentales donde se establecen las aportaciones de esta tesis: • Adaptación. • Anticipación. • Racionalidad e Inteligencia. Este modelo puede apreciarse en la figura 2.1, donde se describen los diferentes fenómenos observables en función de la complejidad del sistema. Como puede verse existe una lı́nea ascendente y un punto de corte donde se da un salto cualitativo en los fenómenos observables. De esta forma, se parte de la Adaptación como fenómeno más básico y se muestra tanto su potencialidad en cuanto a la complejidad que aporta a la conducta como sus limitaciones inherentes. Se sigue una lı́nea ascendente de complejidad con el estudio de la Anticipación para lo cual se estudia la expectación como fenómeno que rige la conducta de anticipación y se propone que el estudio de los sistemas anticipatorios y los fenómenos de aprendizaje complejo deben enfocarse hacia la teorı́a estadı́stica de la predicción como fenómeno rector de un tipo de conducta que comienza a destacar en términos de complejidad. Finalmente, se aborda el estudio de la Racionalidad.

(40) 2 Contextualización. Racionalidad e Inteligencia. Anticipación y Expectación. Adaptación. Complejidad del sistema Figura 2.1. Modelo vertical sobre complejidad y fenómenos observables en los sistemas.. y la Inteligencia como los fenómenos donde la complejidad se manifiesta en mayor grado.. 2.1. Modelos de Control de Robots Autónomos y Agentes Inteligentes En la presente sección se utilizará la terminologı́a utilizada por de Lope Asiaı́n (1998) para definir las arquitecturas de control. En la figura 2.2 se muestra la estructura de un agente con arquitectura de control clásica. Recordemos que tradicionalmente el paradigma dominante en Inteligencia Artificial, en lo que a arquitecturas de control se refiere, fue el enfoque clásico. Este enfoque clásico poseı́a un alto componente de deliberación y estaba basado mayoritariamente en el razonamiento simbólico y la inferencia lógica. Una de las caracterı́sticas fundamentales de las arquitecturas llamadas clásicas es su aproximación apriorı́stica 1 a la solución de problemas. Una de las crı́ticas más relevantes a los paradigmas clásicos y que significó una ruptura y consecuentemente la creación de otro paradigma fueron los trabajos de un grupo de investigadores que centraron su atención en una nueva forma de arquitecturas de control principalmente caracterizada por la interacción directa entre el 1. entiéndase aquı́ aproximación apriorı́stica aquella donde el ingeniero o cientı́fico establece de antemano (a priori) o pretende establecer de antemano las condiciones del entorno donde se desenvolverá el robot, asumiendo de esta forma que se posee un conocimiento a priori de casi la totalidad del entorno del robot.. 12.

(41) 2.1 Modelos de Control de Robots Autónomos y Agentes Inteligentes. Introducción o g generación por un ingeniero del sistema. Percepción. Ambiente. Planificación exhaustiva de Acciones. Modelo apriorístico del ambiente. Objetivos. Figura 2.2. Diagrama de estructura de un agente clásico (deliberativo y basado en modelos apriorı́sticos del ambiente).. agente/robot y su entorno. Uno de ellos fue Brooks que dentro del paradigma de la Robótica Reactiva logró publicaciones de alto impacto (Brooks, 1990, 1991a,b) en la comunidad • “Elephants Don’t Play Chess!” (Brooks, 1990) • “Intelligence Without Reason” (Brooks, 1991a) • “Intelligence Without Representation” (Brooks, 1991b) Sólo leyendo los tı́tulos de los trabajos antes citados puede verse claramente la diferencia entre las aproximaciones clásicas y las reivindicaciones que proponı́a esta nueva forma de hacer robótica. De esta forma, se consolidó el paradigma llamado reactivo, caracterizado por la interacción directa entre agente y entorno y suprimiendo el componente apriorı́stico y mayormente deliberativo. El paradigma reactivo ha cambiado la forma de programar robots y sistemas inteligentes. Es un modelo donde los sistemas reaccionan directamente a los estı́mulos que reciben de su entorno produciendo algún tipo de conducta, esto es, sin razonamiento y sin representación. En la figura 2.3 vemos una estructura de un agente reactivo. Como vemos no existe ningún modelo apriorı́stico del entorno ni información predefinida por un ingeniero de sistema excepto por la definición de los objetivos del sistema los cuales en están representados aquı́ mediante las funciones J que sirven de indices de rendimiento a optimizar (siguiendo la lı́nea de trabajo de Maravall Gómez-Allende y de Lope Asiaı́n, 2003; Maravall Gómez-Allende et al., 2004; Maravall y de Lope, 2007).. Este tipo de arquitectura reactiva de control basada en objetivos ha sido ampliamente estudiada y desarrollada en trabajos propuestos el grupo de trabajo dentro 13.

(42) 2 Contextualización. Percepción. Ambiente. Reacción del Agente. Evaluación E l ió d dell D Desempeño ñ (feedback). El objetivo (J) a optimizar es introducido por un ingeniero del sistema. x' = −α. ∂J ∂x. Figura 2.3. Diagrama de estructura de un agente reactivo (basado en retroalimentación).. del cual se desarrolla esta tesis (véase, por ejemplo, Maravall Gómez-Allende y de Lope Asiaı́n, 2003; Maravall Gómez-Allende et al., 2004; Maravall y de Lope, 2007). No obstante, La forma deliberativa es aún utilizada con éxito en entornos controlados y conocidos pero es inviable en entornos no controlados y desconocidos ya que precisamente utiliza la representación del entorno para calcular las acciones futuras, mientras que la forma reactiva es en la actualidad donde mayor esfuerzo se realiza a nivel de investigación ya que cada dı́a se piensa en la robótica como herramienta aplicable a diversos trabajos donde no es posible o es inviable obtener una representación a priori del ambiente donde se desenvolverá el robot. Sin embargo también es cierto que el paradigma reactivo puro es incapaz de solucionar problemas complejos donde sı́ es necesaria una cierta cantidad de planificación previa. Las primeras áreas en ciencias de la computación e ingenierı́a en prestar atención al fenómeno de la adaptación fueron la teorı́a de controles automáticos y la cibernética (Ashby, 1948; Wiener, 1963). Sus trabajos iniciales se basaron en los principios fisiológicos establecidos en los trabajos de Cannon (1932) y especializados luego por Wiener (1963) con la introducción del paradigma de control de bucle cerrado. Este paradigma puede ser explicado por medio de la interacción entre tan solo dos elementos: un ambiente y un sistema de control. el objetivo en este paradigma de control es mantener or guiar el ambiente o entorno hacia un estado deseado por medio de las acciones de control emitidas por el sistema de control. La Interacción entre estos dos componentes está representada por el flujo circular de información entre 14.

(43) 2.2 Aprendizaje por Refuerzo. el estado del entorno y las acciones de control emitidas por el sistema de control. La forma clásica de entender a un sistema adaptativo homeostático está expresada por una ecuación clásica que sigue el principio de la retroalimentación negativa: x0 = −µ. ∂J ∂x. (2.1). Puede verse en la ecuación (2.1) que el estı́mulo del sistema es el componente ∂J, y que la ecuación expresa el proceso adaptativo donde x es la conducta del sistema. Es evidente que bajo esta ley de conducta el sistema perseguirá siempre la minimización del estı́mulo J ya que su conducta está determinada estrictamente en la dirección que hace que J disminuya. Es de importancia destacar la similitud entre el principio homeostático expresado en la ecuación (2.1) y la teorı́a de la viavilidad propuesta por Aubin (1991). Como vimos en la figura 2.3 el sistema reactivo depende de información precisa, constante e inmediata de su desempeño mediante realimentación negativa y no puede operar cuando esta información está retardada, es ruidosa, es inconstante y en especial cuando el resultado final de las acciones ejecutadas sólo se conoce luego de transcurrido un tiempo cuando algún evento relevante indica que se ha mejorado la situación o ha empeorado. Esta es una limitación inherente a este tipo de modelos. Esta limitación es la que precisamente se disminuye o elimina del todo cuando el sistema puede anticipar las consecuencias de sus acciones y predecir el futuro ya que entonces tendrı́a asegurada la valoración a cada instante de tiempo de sus acciones y podrı́a completar el bucle cerrado de Wiener (1963, Principio de la Retroalimentación Negativa)2 , es decir, el bucle de control homeostático propuesto por Cannon (1932).. 2.2.. Aprendizaje por Refuerzo. La conducta de anticipación (véase, Rosen, 1985) puede ser definida como todo tipo de conducta que está influenciada por algún tipo de conocimiento, expectación, creencia o intuición acerca del futuro. Pero el concepto de futuro puede ser entendido y/o expresado de muy diversas formas, por ejemplo, en términos de recompensa futura, eventos futuros, acciones futuras, etc. La Anticipación vista como proceso predictivo juega un papel preponderante en cualquier conducta inteligente, por ejemplo: para tomar buenas decisiones es necesario predecir o anticipar -en algún sentido- las consecuencias de tales decisiones. Estas ideas fueron introducidas, dentro del marco de la psicologı́a conductista, por Thorndike (1911, 1927) y 2. Wiener infirió que con el objeto de controlar una acción con un propósito determinado la circulación de información necesaria para el control debe formar “un bucle cerrado que permita la evaluación de los efectos de las propias acciones y la adaptación de la conducta futura basándose en el desempeño pasado”.. 15.

(44) 2 Contextualización. posteriormente desarrolladas por Skinner (1938) con la introducción del condicionamiento instrumental. En la actualidad el Aprendizaje por Refuerzo en su formulación clásica computacional está mayoritariamente representado por el enfoque de Sutton (1992a,b); Sutton y Barto (1998); Sutton (2006). Particularmente el Aprendizaje por Refuerzo ha sido aplicado exitosamente a varios problemas de control (Franklin, 1988; Lin, 1993; Mataric, 1996, 1997; Rubo et al., 2000; Yamada et al., 1997; Kretchmar, 2000; Kalmar et al., 2000; El-Fakdi et al., 2005). Sobre aplicaciones del Aprendizaje por Refuerzo Connel y Mahadevan (1993) escriben un libro recopilatorio, del cual Demiris (1995) escribe una revisión donde evalúa el libro como muy significativo. También puede consultarse el libro de J. Franklin y Thrun (1996) sobre avances recientes en aprendizaje en robots. El Aprendizaje por Refuerzo es uno de los paradigmas más prometedores para el estudio del aprendizaje en robots. Barto et al. (1990) y Grefenstette et al. (1990) defienden que todos los métodos de aprendizaje por refuerzo comparten el mismo objetivo: solucionar problemas de decisión secuencial guiados por interacciones de ensayo y error con el ambiente. Aquı́ se afirma sin embargo que la tarea de aprendizaje por refuerzo en todo sistema consiste en buscar, derivar, inferir o deducir una polı́tica de comportamiento mediante un Reforzador. Las principales ventajas del Aprendizaje por Refuerzo sobre otros métodos son: 1. No existe la necesidad de definir un modelo previo del ambiente. Esto es una ventaja que consideramos crucial y requisito indispensable ya que en la mayorı́a de las tareas complejas no se conoce un modelo del ambiente o éste es muy complejo para ser descrito. 2. No existe la necesidad de conocer a priori qué acciones para cada situación deben ser presentadas al sistema. 3. El proceso de aprendizaje es directo y por interacción inmediata con el ambiente. 4. Es posible aprender sin ningún tipo de conocimiento previo. Por otro lado el Aprendizaje por Refuerzo puede ser aplicado a tareas de control de robots de una forma muy simple. Los elementos básicos de un sistema de Aprendizaje por Refuerzo son: 1. Un agente (sistema) o grupo de agentes (sistema complejo) (p.e. robots móviles) que perciben su ambiente y elaboran una percepción (tı́picamente llamada estado del sistema St ) y actúan en el ambiente mediante la realización de acciones (at ). 2. El ambiente, también llamado entorno, donde el agente se desenvuelve, que puede ser simulado o puede ser el mundo real. 3. Una señal de recompensa rt que representa la evaluación de la acción tomada y que es utilizada por el agente para evaluar qué tan bueno ha sido su comportamiento.. 16.

(45) 2.2 Aprendizaje por Refuerzo. La figura 2.4 muestra un diagrama clásico de interacción entre un agente y su ambiente siguiendo el paradigma del Aprendizaje por Refuerzo. Este ciclo de control es un bucle cerrado tal como lo definió Wiener (1969) y puede ser utilizado para todo tipo de tareas de aprendizaje y control en robots.. Agente estado. acción. recompensa. Ambiente. Figura 2.4. Diagrama de interacción entre Agente y Ambiente en el Aprendizaje por Refuerzo.. Uno de los más importantes avances en esta metodologı́a fue el desarrollo del algoritmo Q-Learning por Watkins (1989) que iterativamente aproxima una función valor-acción inicial Q(s, a) hacia una función valor-acción óptima Q∗ (s, a) haciendo que de esta manera se obtenga a su vez la polı́tica óptima (π ∗ ). De forma simple su regla de aprendizaje es: Q(s, a) = Q(s, a) + α[r + γ máx Q(st+1 , a0 ) − Q(s, a)] 0 a. (2.2). donde α ∈ (0, 1] es un valor al que se denomina ritmo de aprendizaje. Una observación interesante es que ésta es una fórmula recursiva que se aplica a todo par estado-acción y podemos advertir además que la estructura de esta formula sigue el mismo patrón de una técnica clásica de aproximación adaptativa conocida como “moyenne adaptive modifiée” (según Venturini, 1994), la cual se utiliza para aproximar de forma incremental el valor esperado µ de un conjunto x = (x1 ...x∞ ) de observaciones: µ = µ + α[xt − µ], (2.3) Puede verse también que esta formula es la regla básica de aprendizaje en la redes auto-organizadas introducidas por Kohonen (1982a,b, 1989, 1990). Como veremos esta fórmula se deriva fácilmente de la fórmula exacta para estimar la media que coincide con el valor esperado solo cuando todas las observaciones son equiprobables. Para obtener la media aritmética de una serie de números utilizamos la formula siguiente: 17.

(46) 2 Contextualización. P. xt , N es decir, que para un par de números (a,b) serı́a: µ=. (2.4). a+b , (2.5) N =2 con lo cual podemos elaborar una formula que estime de forma exacta la media y lo haga de forma incremental: (N − 1)µ + xt , N y operando..., finalmente obtenemos: µ=. (2.6). [µ − xt ] (2.7) N 1 = µ + [xt − µ] (2.8) N 1 = µ + {α ← }[xt − µ] (2.9) N Que es la ecuación original (2.3). Ası́, vemos que el ritmo de aprendizaje α corresponde a una aproximación a 1/N . Otra forma de interpretar la ecuación del Q-Learning es hacerlo directamente en base al valor esperado y no a la media aritmética; ası́, por ejemplo, sabemos que el valor esperado de una variable aleatoria es: µ=µ−. µ=. n X. xt p(xt ). (2.10). i=1. y que para una variable discreta con 2 posibles valores serı́a: (1 − α)a + bα ,. (2.11). donde α es la probabilidad del segundo valor. En este caso se pierde un grado de libertad ya que al haber tan solo 2 posibles valores con establecer la probabilidad de uno de ellos tenemos la probabilidad del otro valor. Siguiendo esta lı́nea obtenemos lo siguiente: µ = (1 − α)µ + xt α , (2.12) y operando..., finalmente obtenemos:. µ= = µ − αµ + αxt = µ + α[−µ + xt ] = µ + α[xt − µ] 18. (2.13) (2.14) (2.15) (2.16).

(47) 2.2 Aprendizaje por Refuerzo. Y entonces vemos que el parámetro α indica la probabilidad de que la variable µ posea el valor de la observación xt . Bien, volviendo a la formula original, tenemos que: si reemplazamos el factor xt en la ecuación (2.3) y ponemos en su lugar la recompensa inmediata obtenida por el sistema en el estado actual más una fracción γ ∈ [0, 1] del valor esperado de recompensa de la mejor acción a futuro máxa Q(st+1 , ∗) µ = µ + α[r + γ máx Q(st+1 , ∗) − µ], a. (2.17). estaremos aproximando el valor esperado de la máxima recompensa cuando seleccionemos la acción a en el estado s. Sea cual sea el procedimiento de estimación el valor de Q(s, a) será el valor esperado de la expresión: r + γ máx Q(st+1 , ∗), (2.18) a. Watkins y Dayan (1992) probaron formalmente la convergencia con probabilidad 1 del algoritmo Q-Learning a una polı́tica optima bajo ciertos supuestos algo rı́gidos (véase Sutton y Barto, 1998, p.148). Sin embargo uno de los mayores inconvenientes del Aprendizaje por Refuerzo en su forma clásica es la explosión combinatoria cuando existen variables de estado múltiples y acciones múltiples para controlar de forma óptima un sistema complejo en un entorno complejo y dinámico. Esta situación produce una combinación de estados×acciones enorme, la cual, en el mejor de los casos, asumiendo suficiente memoria para almacenar esta información, el proceso de aprendizaje necesitarı́a una enorme cantidad de tiempo para converger y de hecho el problema serı́a intratable. En la figura 2.5 podemos ver la estructura de un agente que aprende mediante el paradigma basado en refuerzo que en nuestro marco teórico está clasificado dentro de los sistemas anticipatorios que operan con expectaciones. Este tipo de modelos aporta una solución al problema de la dependencia de información precisa, constante e inmediata mediante realimentación negativa en los sistemas reactivos y establece un paradigma de control basado en el aprendizaje por refuerzo. Ası́, los nuevos paradigmas de control estarán desarrollados para casos como los robots enviados a Marte, los robots submarinos, y en general cualquier robot que esté abierto al mundo natural. Estos nuevos robots abiertos al mundo, con una cognición empotrada, y capaces de percibir el mundo a través de diversos sensores que le aportarán una inmensa cantidad de datos, para poder ser integrados y generar 19.

(48) 2 Contextualización. Percepción. Ambiente. Mecanismo de Selección de Acciones. Conocimiento Tabla de Expectaciones. Evaluación del desempeño en forma de recompensas retardadas TD error. Aprendizaje. Figura 2.5. Diagrama de estructura de un agente basado en expectaciones.. una percepción integrada el entorno que les rodea, necesitarán una forma de percepción, cognición y conducta con un mı́nimo de reacción, adaptación al medio y aprendizaje, ya que no hay forma o al menos es inviable aún tener un mapa y/o un predictor del mundo en todo momento y lugar.. 20.

(49) 3 Persistencia e Inmunidad: Adaptación La gota horada la roca, no por su fuerza sino por su constancia. Ovidio. Un sistema es un conjunto de elementos interrelacionados que interactúan entre si. Las interacciones entre sus elementos determinan los posibles procesos del sistema. Dado un sistema S, decimos que un evento (E) es un Estı́mulo para el sistema S si y sólo si la probabilidad P (S → S 0 ) de que el sistema sufra algún cambio (en sus elementos o en sus procesos) cuando ocurre el evento (E) es mayor que la probabilidad a priori de que S cambie de forma independiente de E. P (S → S 0 |E) > P (S → S 0 ),. (3.1). Además definimos la conducta de un sistema como todo elemento o proceso susceptible de observación y/o medición en un sistema. Ası́, decimos entonces que la respuesta de un sistema es su conducta cuando se asume que un evento precedente es un estı́mulo para el sistema. El término adaptación surge principalmente en el ámbito biológico como un intento por estudiar la relación que hay entre las caracterı́sticas (estructura anatómica, procesos fisiológicos o rasgos del comportamiento) de los seres vivos y su medio ambiente. Actualmente en biologı́a el término adaptación tiene un significado claro y conciso: una adaptación biológica es una estructura anatómica, un proceso fisiológico o un rasgo del comportamiento de un organismo que ha evolucionado durante un perı́odo de tiempo mediante selección natural de manera tal que incrementa sus expectativas a largo plazo para reproducirse con éxito. A pesar de que el termino adaptación tiene un significado claro y conciso en diversas disciplinas como la Biologı́a, en la presente investigación se utiliza la definición de adaptación como proceso. Se utiliza el término evolución como un mecanismo formal por el cual se produce un tipo especı́fico de adaptación y se denomina a las adaptaciones biológicas simplemente caracterı́sticas (estructura anatómica, procesos fisiológicos o rasgos del comportamiento) adaptadas. La adaptación biológica es un proceso por medio del cual un ser vivo incrementa la correlación entre su estructura y el ambiente resultando en un incremento de sus probabilidades de supervivencia y reproducción..

Referencias

Documento similar

Este libro intenta aportar al lector una mirada cuestiona- dora al ambiente que se desarrolló en las redes sociales digitales en un escenario de guerra mediática mantenido por

o esperar la resolución expresa" (artículo 94 de la Ley de procedimiento administrativo). Luego si opta por esperar la resolución expresa, todo queda supeditado a que se

1. LAS GARANTÍAS CONSTITUCIONALES.—2. C) La reforma constitucional de 1994. D) Las tres etapas del amparo argentino. F) Las vías previas al amparo. H) La acción es judicial en

Las características del trabajo con grupos que se debería llevar a cabo en los Servicios Sociales de Atención Primaria (SSAP), en términos de variabilidad o estabilidad

"No porque las dos, que vinieron de Valencia, no merecieran ese favor, pues eran entrambas de tan grande espíritu […] La razón porque no vió Coronas para ellas, sería

En cuarto lugar, se establecen unos medios para la actuación de re- fuerzo de la Cohesión (conducción y coordinación de las políticas eco- nómicas nacionales, políticas y acciones

b) El Tribunal Constitucional se encuadra dentro de una organiza- ción jurídico constitucional que asume la supremacía de los dere- chos fundamentales y que reconoce la separación

Volviendo a la jurisprudencia del Tribunal de Justicia, conviene recor- dar que, con el tiempo, este órgano se vio en la necesidad de determinar si los actos de los Estados