3. Estado del Arte
3.2. Arquitecturas Cognitivas Artificiales
3.2.3. Arquitecturas de Aproximaci´on H´ıbrida
3.2.3.1. Arquitectura HUMANOID: Interacci´on multi-componente
Burgart (Burghart et al., 2005; Burghart et al., 2007) presenta una arquitectura cog- nitiva h´ıbrida para un robot humanoide. Esta arquitectura se basa en la interacci´on de los siguientes componentes: un sistema jer´arquico de tres niveles para la descomposici´on de tareas, un sub-sistema de Memoria de Largo Plazo que emplea una base de conocimiento global (para lo cual utiliza una variedad de esquemas representacionales, incluidas Onto- log´ıas, Modelos Geom´etricos, Modelos de Markov Ocultos, y Modelos de Cinem´atica), un Gestor de Di´alogos que media entre la percepci´on y la planificaci´on de tareas, un Su- pervisor de Ejecuci´on, un sub-sistema de Memoria de Corto plazo al cual tienen acceso todos los niveles de percepci´on y gesti´on de tareas, y un conjunto de comportamientos que operan en paralelo (como se observa en la figura 3.18).
El Sub-sistema de Percepci´on se compone de una jerarqu´ıa de tres niveles: percepci´on de bajo, medio, y alto nivel. El m´odulo de percepci´on de bajo nivel interpreta los datos sensoriales sin necesidad de acceder a la base de conocimiento central del sistema, lo que permite un control reactivo del agente. Este m´odulo se comunica con el m´odulo de percepci´on de nivel medio y con el m´odulo de ejecuci´on de tareas. Por su parte, el m´odulo de percepci´on de nivel medio provee un conjunto de componentes para el reconocimiento de patrones, y se comunica tanto con la base de conocimiento del sistema (la memoria de largo plazo), como con los modelos activos (la memoria de corto plazo). Finalmente, el m´odulo de percepci´on de alto nivel provee un conjunto de capacidades de interpretaci´on m´as sofisticadas, tales como el reconocimiento de situaciones, la interpretaci´on de gestos y movimientos, y la predicci´on de las intenciones de otros agentes.
Por otro lado, el sub-sistema de ejecuci´on de tareas se compone de una jerarqu´ıa de tres niveles que incluye: la Planificaci´on, la Coordinaci´on, y la Ejecuci´on de Tareas. El sistema cognitivo planifica las tareas en el nivel simb´olico superior empleando para ello conocimiento especializado sobre las tareas, el cual es adquirido mediante un proceso de aprendizaje (e.g., a trav´es de demostraciones). Elplanificador de tareasinteract´ua con el m´odulo de percepci´on de alto nivel, la base de conocimiento del sistema (memoria de largo plazo), el nivel de coordinaci´on de tareas, y elsupervisor de ejecuci´on, este ´ultimo encargado de gestionar las tareas y los recursos del sistema durante la ejecuci´on del plan. Como resultado de la planificaci´on, una secuencia de acciones es generada y enviada al nivel de coordinaci´on de tareas, quien jerarquiza luego las tareas que ser´an realizadas en el nivel m´as bajo de ejecuci´on. En general, durante la ejecuci´on de alguna tarea, el nivel de coordinaci´on de tareas funciona independientemente del nivel de planificaci´on de tareas.
sustancia encargada de mantener nuestros pensamientos y percepciones de acuerdo con la realidad del medio que nos rodea (Mi˜narro y Rodr´ıguez, 1996).
Cap´ıtulo 3. Estado del Arte
Figura 3.18: Arquitectura HUMANOID. Adaptada de (Burghart et al., 2005).
Por otra parte, unGestor de Di´alogos, que coordina la comunicaci´on con el usuario e interpreta los eventos de comunicaci´on, provee un puente entre el sub-sistema de perce- pci´on y el sub-sistema de tareas. Esta operaci´on es propiamente cognitiva en el sentido que provee la funcionalidad de reconocer las intenciones y los comportamientos de los usuarios.
Finalmente, elsub-sistema de aprendizaje se encarga de integrar las tareas de apren- dizaje actuales con las secuencias de acciones pre-programadas; aunque tambi´en define un proceso de aprendizaje en tiempo de ejecuci´on basado en la imitaci´on. Como tal, este ´ultimo componente representa el proceso clave del mecanismo de aprendizaje.
3.2. Arquitecturas Cognitivas Artificiales
3.2.3.2. Arquitectura CEREBUS
Horswill (Horswill, 2001; Horswill, 2007) argumenta que los sistemas de inteligencia artificial cl´asicos tales como SOAR, ACT-R y EPIC, son sistemas que almacenan todo el conocimiento de manera central en una base de datos simb´olica, sobre la cual el razo- namiento es efectuado principalmente a trav´es de la b´usqueda y actualizaci´on secuencial de los propios datos. Sin embargo, defiende que los SCA debieran ser sistemas distribui- dos dotados con una gran cantidad de sensores, procesos de razonamiento, y procesos de control motriz, todos ellos d´ebilmente acoplados unos con otros y operando en paralelo. Propone adem´as, que cada uno de esos procesos debiera mantener su propia representa- ci´on del mundo, puesto que no es realista el que cada uno requiera estar sincroniz´andose constantemente con una base de conocimiento central.
Horswill sostiene que los sistemas cl´asicos de razonamiento emplean una forma apro- piada de dirigir la atenci´on perceptual: asumen que toda la informaci´on relevante se en- cuentra almacenada previamente en la base de conocimiento o, que en su defecto, pro- veen un conjunto de acciones que disparan operadores perceptuales los cuales se ajustan a tareas concretas y modifican partes espec´ıficas de la base de conocimiento (justo co- mo sucede, por ejemplo, con ACT-R). Ambas aproximaciones resultan inconvenientes: la primera falla en el problema t´ıpico relacionado con el uso de marcos (i.e., el desaf´ıo de re- presentar todas las consecuencias posibles de las acciones del agente mediante un sistema de l´ogica, sin la necesidad de almacenar expl´ıcitamente un gran n´umero de consecuencias no v´alidas y obvias), y la segunda requiere, de forma imperante, que el dise˜nador pro- ponga una base de reglas mediante la cual puede asegurarse que las acciones apropiadas sean disparadas en las circunstancias correctas y en el momento preciso.
Horswill argumenta que el dividir todos los distintos modelos y representaciones en procesos distribuidos o sub-sistemas, los cuales no requieren de una sincronizaci´on con una base de conocimiento central, es una caracter´ıstica clave en el dise˜no de arquitecturas cognitivas. Por tanto, propone en Cerebus, la hibridaci´on de modelos basados en compor- tamientos y algunas t´ecnicas de IA simb´olica (e.g., los sistemas de l´ogica de predicados que emplean mecanismos inferenciales con encadenamiento hacia adelante y hacia atr´as). Combina adem´as, un conjunto de sistemas sensoriomotrices basados en comportamiento, junto con una red sem´antica y una red de inferencia. La red sem´antica corresponde a la memoria declarativa de largo plazo, la cual almacena conocimiento reflexivo acerca de las propias capacidades del agente. Por otro lado, la red de inferencia permite razonar acerca del estado actual y los procesos de control. Juntos, implementan la caracter´ıstica clave de Cerebus: el uso de conocimiento reflexivo acerca de los sistemas sensoriomotrices del agente a fin de desempe˜nar un razonamiento efectivo sobre sus propias capacidades cognitivas.
En cuanto a la implementaci´on del sistema basado en comportamientos, Cerebus em- plea un lenguaje de programaci´on funcional llamado GRL (por su acr´onimo en ingl´es deGeneric Robot Language). Este lenguaje hereda la mayor´ıa de fortalezas del lenguaje LISP, tales como: el polimorfismo, las sem´anticas funcionales, los procedimientos de alto nivel, y las funciones de secuencia. Sin embargo, a diferencia de LISP, todas estas carac- ter´ısticas son evaluadas parcialmente en tiempo de compilaci´on a fin de reducir todas las instrucciones declarativas a una red de m´aquinas de estados finitos que opera en paralelo.
Cap´ıtulo 3. Estado del Arte
Adicionalmente, la arquitectura Cerebus puede aceptar instrucciones simples de un humano a trav´es de una interfaz de di´alogo. Por ejemplo, cuando se teclea el comando “mu´evete hasta el muro”, su interprete (que es un conjunto de m´aquinas de estados fini- tos estructuradas en cascada) examina cada palabra individualmente, y luego las enlaza con los roles correspondientes. En el ejemplo, el interprete asociar´ıa el comportamiento
mu´evete con el rol dehactividadi, y la palabra muro ser´ıa asociada con el rol de hdestinoi. Cuando Cerebus detecta una interrupci´on, activar´ıa como consecuencia el comportamientoatender-con-urgencia, el cual implementa las siguientes reglas:
Si la condici´on de proximidad hasta elhdestinoies falsa, entonces se continua con la ejecuci´on de lahactividadi
Si elhdestinoise encuentra dentro del campo de percepci´on y a una distancia m´ınima de proximidad, entonces se desactiva lahactividadi
Si lahactividadise desactiva as´ı misma, entonces desactivarse tambi´en a s´ı mis- mo
Cerebus no es fluido en sus di´alogos en lo absoluto. Sin embargo, no es su inten- ci´on demostrar que los sistemas basados en comportamiento podr´ıan ser la t´ecnica de implementaci´on m´as adecuada para la generaci´on de lenguaje natural. En lugar de esto, Cerebus demuestra que las redes paralelas de estados finitos pueden llegar a ser mucho m´as poderosas de lo esperado.
3.2.3.3. Arquitectura COG: Integraci´on de m ´ultiples Teor´ıas de la Mente
Scassellati (Scassellati, 2002) presenta una arquitectura para un humanoide rob´otico lla- mada COG, la cual propone que la interacci´on social es un aspecto clave de la funci´on cognitiva. Seg´un Scassellati, un SCA que implemente algunateor´ıa de la mente deber´ıa ser capaz, por un lado, de aprender a partir del comportamiento observado en otro agente (artificial o humano) empleando para ello la interpretaci´on de ciertas se˜nales sociales y, por otro, de expresar su estado interno (e.g., emociones, deseos, objetivos, etc.) a trav´es de interacciones sociales (no ling¨u´ısticas). Adicionalmente, tendr´ıa la capacidad para re- conocer los objetivos y deseos de otros agentes, anticiparse a las actuaciones de estos, y modificar su propio comportamiento como consecuencia (Gold et al., 2009).
COG es una arquitectura que se basa en dos Teor´ıas de la Mente: la teor´ıa de Les- lie (Leslie, 1994) y la teor´ıa de Cohen (Baron-Cohen, 1995), las cuales descomponen el problema del modelado cognitivo en conjuntos de habilidades primarias y m´odulos de desarrollo (aunque cada teor´ıa lo realiza de manera diferente). Scassellati propone un modelo h´ıbrido llamado“teor´ıa de la mente para agentes personificados”, la cual integra las dos teor´ıas descritas anteriormente junto con un sistema perceptual y otro comporta- mental.
La Teor´ıa de la Mente de Leslie enfatiza la independencia entre los diferentes m´odu- los de dominio espec´ıfico: un m´odulo mec´anico, un m´odulo de actuaci´on, y un m´odulo de actitud; cada uno de los cuales se encarga respectivamente de representar: el compor- tamiento de objetos inanimados, el comportamiento de objetos animados, y las creencias e intenciones de los objetos animados.
3.2. Arquitecturas Cognitivas Artificiales
La Teor´ıa de la Mente de Cohen propone tres m´odulos, uno de los cuales se ocupa de la interpretaci´on de est´ımulos perceptuales (visual, auditivo, y t´actil) asociados con el movimiento auto-propulsado, y otro que se encarga de la interpretaci´on de est´ımulos visuales asociados con formas redondas. Estos dos m´odulos alimentan un tercer m´odu- lo de atenci´on compartida que a su vez alimenta un m´odulo de la Teor´ıa de la Mente que presenta el conocimiento intencional o los “Estados Mentales Epist´emicos” de otros agentes.
El punto central de la Teor´ıa de la Mente propuesta en COG, al menos en principio, es la creaci´on de destrezas perceptuales y motrices primarias sobre las cuales se puedan construir capacidades mentales m´as complejas. Los comportamientos visuomotrices pri- marios (e.g., para el reconocimiento de caras y ojos) se basan en modelos motivacionales y estrategias de b´usqueda visual (e.g., la distinci´on entre el movimiento inanimado y ani- mado, la identificaci´on de la direcci´on de la mirada, etc.) las cuales vienen integradas en la propia arquitectura.
3.2.3.4. Arquitectura KISMET: Aprendiendo a trav´es de la interacci´on social
El rol que cumple el comportamiento emocional en la regulaci´on de las interacciones sociales entre humanos y otros agentes ha sido examinado por Breazeal, empleando pa- ra ello un SCA antropom´orfico articulado llamado Kismet (Breazeal, 2000). Breazeal argumenta que las emociones son un mecanismo importante para modular el compor- tamiento del sistema en respuesta tanto a los cambios en los estados internos como en los ambientales. Los estados emocionales preparan y motivan el sistema para responder de manera adaptativa, retroalimentan el aprendizaje de nuevo comportamiento, y act´uan como un mecanismo para la home´ostasis comportamental. As´ı pues, el objetivo principal de Kismet es incentivar el aprendizaje a trav´es de interacciones sociales.
Kismet tiene dos tipos de elementos motivacionales: losMotivadoresy lasEmocio- nes. Los motivadores establecen las metas de alto nivel del SCA: e.g., interactuar con las personas (motivador social), emplear juguetes (motivador de diversi´on), y ocasional- mente descansar (motivador de fatiga). Por tanto, el comportamiento global del agente se enfoca en saciar sus motivadores. En comparaci´on con las emociones, los motivadores operan c´ıclicamente en per´ıodos de tiempo m´as prolongados: la intensidad del motivador incrementa con la ausencia de interacciones de satisfacci´on y disminuye con el acostum- bramiento. As´ı pues, la meta interna del agente es mantener el nivel de cada motivador en alguna regi´on homeost´atica entre la infra y la sobre-estimulaci´on.
Las emociones (e.g., la ira, la frustraci´on, el enfado, el miedo, la calma, la alegr´ıa, la aflicci´on, la sorpresa, el inter´es, el aburrimiento, etc.) evocan respuestas comporta- mentales espec´ıficas tales como lamentarse, distanciarse, huir, expresar placer, expresar l´astima, o sobresalto, etc. En efecto, las emociones causan que el SCA entre en contacto con cosas que aumentan su “bienestar”, evitando aquellas que no. Kismet propone una arquitectura compuesta por cinco m´odulos distintos: un Sistema Perceptual, un Sistema Motivacional, un Sistema Comportamental, un Sistema Atencional, y un Sistema Motriz. En la figura3.19 se observan los distintos sub-sistemas de la arquitectura KISMET.
Cap´ıtulo 3. Estado del Arte
Figura 3.19: Arquitectura KISMET. Interacci´on entres sub-sistemas. Adaptada de (Brea- zeal, 2000).
El sistema perceptual de bajo nivel ejecuta las siguientes funciones: (1) percibe los est´ımulos visuales y auditivos; (2) extrae las caracter´ısticas perceptuales (e.g., color, mo- vimiento, frecuencia); (3) extrae descripciones afectivas a partir de las conversaciones; (4) orienta la atenci´on visual; y (5) localiza las caracter´ısticas m´as relevantes tales como caras, ojos, objetos, etc. Estas funciones son luego procesadas por el sistema perceptual de alto nivel y sirven como entradas para el sistema motivacional (emociones y motivado- res) y el sistema comportamental. El sistema perceptual de alto nivel filtra la informaci´on que proviene del sistema perceptual de bajo nivel mediante un “disparador” de procesos que codifica el conjunto de creencias que mantiene el SCA acerca de su propio estado y su relaci´on con el mundo.
En la arquitectura KISMET existen muchos tipos de disparadores, cada uno de los cuales es “configurado manualmente” por el dise˜nador del sistema. Cuando el nivel de activaci´on de un disparador excede un umbral dado (basado en la intensidad de las en- tradas perceptuales, afectivas, motivacionales, y comportamentales), se env´ıa su salida al sistema emocional para su procesamiento. Breazeal sostiene que “cada disparador puede ser visto como una evaluaci´on cognitiva simple que combina caracter´ısticas perceptuales de bajo nivel con medidas del estado interno a fin de crear categor´ıas perceptuales que son significativas para el nivel comportamental” (Breazeal, 2003).
Adicionalmente, existe un proceso de valoraci´on que etiqueta la salida del disparador con informaci´on afectiva pre-definida sobre su nivel de estimulaci´on (cu´anto estimula
3.2. Arquitecturas Cognitivas Artificiales
al sistema), lavalencia (qu´e prioridad tiene), y la postura (qu´e tan amigable es). Estos disparadores son luego filtrados por el descubridor de emociones que convierte cada tripleta del tipo EVP (Estimulo, Valencia, Postura) en emociones individuales. Luego, el sistema selecciona una emoci´on simple mediante un proceso de arbitraje que emplea una estrategia deseleccionar-siempre-el-mejor, la cual es enviada luego a los sistemas comportamental y motriz para provocar la expresi´on y postura apropiada.
Kismet es un sistema h´ıbrido en el sentido que emplea esencialmente esquemas cog- nitivistas basados en reglas que determinan, por ejemplo, las condiciones anteriores, la operaci´on de los disparadores de emociones, la valoraci´on afectiva, etc., aunque el comportamiento global del sistema emerge de la interacci´on din´amica entre dichos sub- sistemas (Vernon et al., 2007).
3.2.3.5. Arquitectura CLARION: Un modelo de integraci´on simb´olico/sub-simb´oli- co
CLARION (por su acr´onimo en ingl´es deConnectionist Learning Adaptive Rule Induc- tion ON-line) es una arquitectura h´ıbrida que propone una distinci´on entre los procesos cognitivos que se llevan a cabo de forma expl´ıcita (simb´olica) e impl´ıcita (sub-simb´oli- ca), y las interacciones entre estos dos (Sun et al., 2001; Sun y Zhang, 2004). El dise˜no de la arquitectura tiene dos objetivos: el desarrollo de agentes que pueden resolver ciertas tareas cognitivas, y la comprensi´on del aprendizaje humano y de los procesos de razo- namiento observables en dominios similares. La arquitectura CLARION define cuatro m´odulos de memoria, cada uno compuesto de una representaci´on dual del conocimien- to (expl´ıcita-impl´ıcita): un sub-sistema centrado en acciones (ACS), un sub-sistema no centrado en acciones (NACS), un sub-sistema motivacional (MS), y un sub-sistema meta- cognitivo (MCS), como se observa en la figura 3.20. De ahora en adelante se emplear´a el t´ermino nivel superior para hacer referencia al nivel de representaci´on expl´ıcita/simb´oli- ca de cada m´odulo, mientras que el t´ermino nivel inferior har´a referencia al nivel de representaci´on impl´ıcita/sub-simb´olica.
En esencia, el m´odulo ACS se encarga de regular las acciones del agente, mientras que el m´odulo NCS se ocupa de mantener la base de conocimiento global del sistema (tanto expl´ıcito como impl´ıcito). Por otro lado, el m´odulo MS provee las motivaciones y est´ımulos que influyen sobre el funcionamiento de los sistemas de percepci´on, actuaci´on, y cognici´on, mientras que el m´odulo MCS dirige y modifica las operaciones de los otros tres m´odulos. Cada uno de estos m´odulos adopta una representaci´on localista-distribuida, donde la secci´on localista codifica el conocimiento expl´ıcito (i.e., en forma de reglas de producci´on) y la secci´on distribuida codifica conocimiento impl´ıcito (i.e., en forma de redes neuronales del tipo perceptr´on multicapa – MLP).
El aprendizaje de nuevo conocimiento impl´ıcito es logrado mediante m´etodos de aprendizaje por refuerzo tales como el algoritmo Q-learning, o mediante m´etodos de aprendizaje supervisado como el algoritmo de retropropagaci´on (back-propagation), los cuales pueden ser implementados empleando una red MLP (Sun et al., 2001). El cono- cimiento impl´ıcito adquirido por el nivel inferior es luego utilizado para crear el conoci- miento expl´ıcito del nivel superior a trav´es de un mecanismo de aprendizaje ascendente
Cap´ıtulo 3. Estado del Arte
Figura 3.20: Arquitectura CLARION. Adaptada de (Sun et al., 2001).
(bottom-up). A su vez, este aprendizaje puede ser visto como una reconstrucci´on racio- nal del conocimiento impl´ıcito en el nivel expl´ıcito de la arquitectura. Por otro lado, el aprendizaje descendente (top-down) puede lograrse mediante la pre-codificaci´on de al- gunas reglas en el nivel superior, las cuales gu´ıan luego el proceso de aprendizaje por observaci´on que efect´ua el nivel inferior (Sun y Zhang, 2004).
Como tal, el proceso de toma de decisiones del sistema, que en las fases iniciales de aprendizaje se basa en el nivel superior (expl´ıcito/simb´olico), gradualmente delega mayor responsabilidad en el nivel inferior (impl´ıcito/sub-simb´olico). Esta arquitectura ha servido como plataforma de pruebas para simular una gran cantidad de micro-teor´ıas psicol´ogicas, as´ı como tambi´en ha servido como un sistema complejo de toma de deci- siones secuenciales que resuelve tareas de navegaci´on en escenarios de campos de minas