Arquitecturas de Aproximaci´on H´ıbrida - Arquitecturas Cognitivas Artificiales

3. Estado del Arte

3.2. Arquitecturas Cognitivas Artificiales

3.2.3. Arquitecturas de Aproximaci´on H´ıbrida

3.2.3.1. Arquitectura HUMANOID: Interacci´on multi-componente

Burgart (Burghart et al., 2005; Burghart et al., 2007) presenta una arquitectura cognitiva h´ıbrida para un robot humanoide. Esta arquitectura se basa en la interacción de los siguientes componentes: un sistema jerárquico de tres niveles para la descomposición de tareas, un sub-sistema de Memoria de Largo Plazo que emplea una base de conocimiento global (para lo cual utiliza una variedad de esquemas representacionales, incluidas Onto- log´ıas, Modelos Geométricos, Modelos de Markov Ocultos, y Modelos de Cinemática), un Gestor de Diálogos que media entre la percepción y la planificación de tareas, un Su- pervisor de Ejecución, un sub-sistema de Memoria de Corto plazo al cual tienen acceso todos los niveles de percepción y gestión de tareas, y un conjunto de comportamientos que operan en paralelo (como se observa en la figura 3.18).

El Sub-sistema de Percepción se compone de una jerarqu´ıa de tres niveles: percepción de bajo, medio, y alto nivel. El módulo de percepción de bajo nivel interpreta los datos sensoriales sin necesidad de acceder a la base de conocimiento central del sistema, lo que permite un control reactivo del agente. Este módulo se comunica con el módulo de percepción de nivel medio y con el módulo de ejecución de tareas. Por su parte, el módulo de percepción de nivel medio provee un conjunto de componentes para el reconocimiento de patrones, y se comunica tanto con la base de conocimiento del sistema (la memoria de largo plazo), como con los modelos activos (la memoria de corto plazo). Finalmente, el módulo de percepción de alto nivel provee un conjunto de capacidades de interpretación más sofisticadas, tales como el reconocimiento de situaciones, la interpretación de gestos y movimientos, y la predicción de las intenciones de otros agentes.

Por otro lado, el sub-sistema de ejecución de tareas se compone de una jerarqu´ıa de tres niveles que incluye: la Planificación, la Coordinación, y la Ejecución de Tareas. El sistema cognitivo planifica las tareas en el nivel simbólico superior empleando para ello conocimiento especializado sobre las tareas, el cual es adquirido mediante un proceso de aprendizaje (e.g., a través de demostraciones). Elplanificador de tareasinteractúa con el módulo de percepción de alto nivel, la base de conocimiento del sistema (memoria de largo plazo), el nivel de coordinación de tareas, y elsupervisor de ejecución, este último encargado de gestionar las tareas y los recursos del sistema durante la ejecución del plan. Como resultado de la planificación, una secuencia de acciones es generada y enviada al nivel de coordinación de tareas, quien jerarquiza luego las tareas que serán realizadas en el nivel más bajo de ejecución. En general, durante la ejecución de alguna tarea, el nivel de coordinación de tareas funciona independientemente del nivel de planificación de tareas.

sustancia encargada de mantener nuestros pensamientos y percepciones de acuerdo con la realidad del medio que nos rodea (Mi˜narro y Rodr´ıguez, 1996).

 Cap´ıtulo 3. Estado del Arte

Figura 3.18: Arquitectura HUMANOID. Adaptada de (Burghart et al., 2005).

Por otra parte, unGestor de Diálogos, que coordina la comunicación con el usuario e interpreta los eventos de comunicación, provee un puente entre el sub-sistema de perce- pción y el sub-sistema de tareas. Esta operación es propiamente cognitiva en el sentido que provee la funcionalidad de reconocer las intenciones y los comportamientos de los usuarios.

Finalmente, elsub-sistema de aprendizaje se encarga de integrar las tareas de aprendizaje actuales con las secuencias de acciones pre-programadas; aunque también define un proceso de aprendizaje en tiempo de ejecución basado en la imitación. Como tal, este último componente representa el proceso clave del mecanismo de aprendizaje.

3.2. Arquitecturas Cognitivas Artificiales 

3.2.3.2. Arquitectura CEREBUS

Horswill (Horswill, 2001; Horswill, 2007) argumenta que los sistemas de inteligencia artificial clásicos tales como SOAR, ACT-R y EPIC, son sistemas que almacenan todo el conocimiento de manera central en una base de datos simbólica, sobre la cual el razonamiento es efectuado principalmente a través de la búsqueda y actualización secuencial de los propios datos. Sin embargo, defiende que los SCA debieran ser sistemas distribuidos dotados con una gran cantidad de sensores, procesos de razonamiento, y procesos de control motriz, todos ellos débilmente acoplados unos con otros y operando en paralelo. Propone además, que cada uno de esos procesos debiera mantener su propia representa- ción del mundo, puesto que no es realista el que cada uno requiera estar sincronizándose constantemente con una base de conocimiento central.

Horswill sostiene que los sistemas clásicos de razonamiento emplean una forma apropiada de dirigir la atención perceptual: asumen que toda la información relevante se encuentra almacenada previamente en la base de conocimiento o, que en su defecto, pro- veen un conjunto de acciones que disparan operadores perceptuales los cuales se ajustan a tareas concretas y modifican partes espec´ıficas de la base de conocimiento (justo como sucede, por ejemplo, con ACT-R). Ambas aproximaciones resultan inconvenientes: la primera falla en el problema t´ıpico relacionado con el uso de marcos (i.e., el desaf´ıo de representar todas las consecuencias posibles de las acciones del agente mediante un sistema de lógica, sin la necesidad de almacenar expl´ıcitamente un gran número de consecuencias no válidas y obvias), y la segunda requiere, de forma imperante, que el diseñador pro- ponga una base de reglas mediante la cual puede asegurarse que las acciones apropiadas sean disparadas en las circunstancias correctas y en el momento preciso.

Horswill argumenta que el dividir todos los distintos modelos y representaciones en procesos distribuidos o sub-sistemas, los cuales no requieren de una sincronización con una base de conocimiento central, es una caracter´ıstica clave en el diseño de arquitecturas cognitivas. Por tanto, propone en Cerebus, la hibridación de modelos basados en comportamientos y algunas técnicas de IA simbólica (e.g., los sistemas de lógica de predicados que emplean mecanismos inferenciales con encadenamiento hacia adelante y hacia atrás). Combina además, un conjunto de sistemas sensoriomotrices basados en comportamiento, junto con una red semántica y una red de inferencia. La red semántica corresponde a la memoria declarativa de largo plazo, la cual almacena conocimiento reflexivo acerca de las propias capacidades del agente. Por otro lado, la red de inferencia permite razonar acerca del estado actual y los procesos de control. Juntos, implementan la caracter´ıstica clave de Cerebus: el uso de conocimiento reflexivo acerca de los sistemas sensoriomotrices del agente a fin de desempeñar un razonamiento efectivo sobre sus propias capacidades cognitivas.

En cuanto a la implementación del sistema basado en comportamientos, Cerebus emplea un lenguaje de programación funcional llamado GRL (por su acrónimo en inglés deGeneric Robot Language). Este lenguaje hereda la mayor´ıa de fortalezas del lenguaje LISP, tales como: el polimorfismo, las semánticas funcionales, los procedimientos de alto nivel, y las funciones de secuencia. Sin embargo, a diferencia de LISP, todas estas caracter´ısticas son evaluadas parcialmente en tiempo de compilación a fin de reducir todas las instrucciones declarativas a una red de máquinas de estados finitos que opera en paralelo.

 Cap´ıtulo 3. Estado del Arte

Adicionalmente, la arquitectura Cerebus puede aceptar instrucciones simples de un humano a través de una interfaz de diálogo. Por ejemplo, cuando se teclea el comando “muévete hasta el muro”, su interprete (que es un conjunto de máquinas de estados finitos estructuradas en cascada) examina cada palabra individualmente, y luego las enlaza con los roles correspondientes. En el ejemplo, el interprete asociar´ıa el comportamiento

mu´evete con el rol dehactividadi, y la palabra muro ser´ıa asociada con el rol de hdestinoi. Cuando Cerebus detecta una interrupci´on, activar´ıa como consecuencia el comportamientoatender-con-urgencia, el cual implementa las siguientes reglas:

Si la condici´on de proximidad hasta elhdestinoies falsa, entonces se continua con la ejecuci´on de lahactividadi

Si elhdestinoise encuentra dentro del campo de percepci´on y a una distancia m´ınima de proximidad, entonces se desactiva lahactividadi

Si lahactividadise desactiva as´ı misma, entonces desactivarse tambi´en a s´ı mis- mo

Cerebus no es fluido en sus diálogos en lo absoluto. Sin embargo, no es su inten- ción demostrar que los sistemas basados en comportamiento podr´ıan ser la técnica de implementación más adecuada para la generación de lenguaje natural. En lugar de esto, Cerebus demuestra que las redes paralelas de estados finitos pueden llegar a ser mucho más poderosas de lo esperado.

3.2.3.3. Arquitectura COG: Integraci´on de m ´ultiples Teor´ıas de la Mente

Scassellati (Scassellati, 2002) presenta una arquitectura para un humanoide robótico lla- mada COG, la cual propone que la interacción social es un aspecto clave de la función cognitiva. Según Scassellati, un SCA que implemente algunateor´ıa de la mente deber´ıa ser capaz, por un lado, de aprender a partir del comportamiento observado en otro agente (artificial o humano) empleando para ello la interpretación de ciertas señales sociales y, por otro, de expresar su estado interno (e.g., emociones, deseos, objetivos, etc.) a través de interacciones sociales (no lingü´ısticas). Adicionalmente, tendr´ıa la capacidad para reconocer los objetivos y deseos de otros agentes, anticiparse a las actuaciones de estos, y modificar su propio comportamiento como consecuencia (Gold et al., 2009).

COG es una arquitectura que se basa en dos Teor´ıas de la Mente: la teor´ıa de Les- lie (Leslie, 1994) y la teor´ıa de Cohen (Baron-Cohen, 1995), las cuales descomponen el problema del modelado cognitivo en conjuntos de habilidades primarias y m´odulos de desarrollo (aunque cada teor´ıa lo realiza de manera diferente). Scassellati propone un modelo h´ıbrido llamado“teor´ıa de la mente para agentes personificados”, la cual integra las dos teor´ıas descritas anteriormente junto con un sistema perceptual y otro comportamental.

La Teor´ıa de la Mente de Leslie enfatiza la independencia entre los diferentes módu- los de dominio espec´ıfico: un módulo mecánico, un módulo de actuación, y un módulo de actitud; cada uno de los cuales se encarga respectivamente de representar: el comportamiento de objetos inanimados, el comportamiento de objetos animados, y las creencias e intenciones de los objetos animados.

3.2. Arquitecturas Cognitivas Artificiales 

La Teor´ıa de la Mente de Cohen propone tres módulos, uno de los cuales se ocupa de la interpretación de est´ımulos perceptuales (visual, auditivo, y táctil) asociados con el movimiento auto-propulsado, y otro que se encarga de la interpretación de est´ımulos visuales asociados con formas redondas. Estos dos módulos alimentan un tercer módu- lo de atención compartida que a su vez alimenta un módulo de la Teor´ıa de la Mente que presenta el conocimiento intencional o los “Estados Mentales Epistémicos” de otros agentes.

El punto central de la Teor´ıa de la Mente propuesta en COG, al menos en principio, es la creación de destrezas perceptuales y motrices primarias sobre las cuales se puedan construir capacidades mentales más complejas. Los comportamientos visuomotrices pri- marios (e.g., para el reconocimiento de caras y ojos) se basan en modelos motivacionales y estrategias de búsqueda visual (e.g., la distinción entre el movimiento inanimado y ani- mado, la identificación de la dirección de la mirada, etc.) las cuales vienen integradas en la propia arquitectura.

3.2.3.4. Arquitectura KISMET: Aprendiendo a trav´es de la interacci´on social

El rol que cumple el comportamiento emocional en la regulación de las interacciones sociales entre humanos y otros agentes ha sido examinado por Breazeal, empleando para ello un SCA antropomórfico articulado llamado Kismet (Breazeal, 2000). Breazeal argumenta que las emociones son un mecanismo importante para modular el comportamiento del sistema en respuesta tanto a los cambios en los estados internos como en los ambientales. Los estados emocionales preparan y motivan el sistema para responder de manera adaptativa, retroalimentan el aprendizaje de nuevo comportamiento, y actúan como un mecanismo para la homeóstasis comportamental. As´ı pues, el objetivo principal de Kismet es incentivar el aprendizaje a través de interacciones sociales.

Kismet tiene dos tipos de elementos motivacionales: losMotivadoresy lasEmocio- nes. Los motivadores establecen las metas de alto nivel del SCA: e.g., interactuar con las personas (motivador social), emplear juguetes (motivador de diversión), y ocasional- mente descansar (motivador de fatiga). Por tanto, el comportamiento global del agente se enfoca en saciar sus motivadores. En comparación con las emociones, los motivadores operan c´ıclicamente en per´ıodos de tiempo más prolongados: la intensidad del motivador incrementa con la ausencia de interacciones de satisfacción y disminuye con el acostum- bramiento. As´ı pues, la meta interna del agente es mantener el nivel de cada motivador en alguna región homeostática entre la infra y la sobre-estimulación.

Las emociones (e.g., la ira, la frustración, el enfado, el miedo, la calma, la alegr´ıa, la aflicción, la sorpresa, el interés, el aburrimiento, etc.) evocan respuestas comportamentales espec´ıficas tales como lamentarse, distanciarse, huir, expresar placer, expresar lástima, o sobresalto, etc. En efecto, las emociones causan que el SCA entre en contacto con cosas que aumentan su “bienestar”, evitando aquellas que no. Kismet propone una arquitectura compuesta por cinco módulos distintos: un Sistema Perceptual, un Sistema Motivacional, un Sistema Comportamental, un Sistema Atencional, y un Sistema Motriz. En la figura3.19 se observan los distintos sub-sistemas de la arquitectura KISMET.

 Cap´ıtulo 3. Estado del Arte

Figura 3.19: Arquitectura KISMET. Interacci´on entres sub-sistemas. Adaptada de (Brea- zeal, 2000).

El sistema perceptual de bajo nivel ejecuta las siguientes funciones: (1) percibe los est´ımulos visuales y auditivos; (2) extrae las caracter´ısticas perceptuales (e.g., color, movimiento, frecuencia); (3) extrae descripciones afectivas a partir de las conversaciones; (4) orienta la atención visual; y (5) localiza las caracter´ısticas más relevantes tales como caras, ojos, objetos, etc. Estas funciones son luego procesadas por el sistema perceptual de alto nivel y sirven como entradas para el sistema motivacional (emociones y motivadores) y el sistema comportamental. El sistema perceptual de alto nivel filtra la información que proviene del sistema perceptual de bajo nivel mediante un “disparador” de procesos que codifica el conjunto de creencias que mantiene el SCA acerca de su propio estado y su relación con el mundo.

En la arquitectura KISMET existen muchos tipos de disparadores, cada uno de los cuales es “configurado manualmente” por el diseñador del sistema. Cuando el nivel de activación de un disparador excede un umbral dado (basado en la intensidad de las entradas perceptuales, afectivas, motivacionales, y comportamentales), se env´ıa su salida al sistema emocional para su procesamiento. Breazeal sostiene que “cada disparador puede ser visto como una evaluación cognitiva simple que combina caracter´ısticas perceptuales de bajo nivel con medidas del estado interno a fin de crear categor´ıas perceptuales que son significativas para el nivel comportamental” (Breazeal, 2003).

Adicionalmente, existe un proceso de valoración que etiqueta la salida del disparador con información afectiva pre-definida sobre su nivel de estimulación (cuánto estimula

3.2. Arquitecturas Cognitivas Artificiales 

al sistema), lavalencia (qué prioridad tiene), y la postura (qué tan amigable es). Estos disparadores son luego filtrados por el descubridor de emociones que convierte cada tripleta del tipo EVP (Estimulo, Valencia, Postura) en emociones individuales. Luego, el sistema selecciona una emoción simple mediante un proceso de arbitraje que emplea una estrategia deseleccionar-siempre-el-mejor, la cual es enviada luego a los sistemas comportamental y motriz para provocar la expresión y postura apropiada.

Kismet es un sistema h´ıbrido en el sentido que emplea esencialmente esquemas cog- nitivistas basados en reglas que determinan, por ejemplo, las condiciones anteriores, la operación de los disparadores de emociones, la valoración afectiva, etc., aunque el comportamiento global del sistema emerge de la interacción dinámica entre dichos sub- sistemas (Vernon et al., 2007).

3.2.3.5. Arquitectura CLARION: Un modelo de integración simbólico/sub-simbóli- co

CLARION (por su acrónimo en inglés deConnectionist Learning Adaptive Rule Induc- tion ON-line) es una arquitectura h´ıbrida que propone una distinción entre los procesos cognitivos que se llevan a cabo de forma expl´ıcita (simbólica) e impl´ıcita (sub-simbóli- ca), y las interacciones entre estos dos (Sun et al., 2001; Sun y Zhang, 2004). El diseño de la arquitectura tiene dos objetivos: el desarrollo de agentes que pueden resolver ciertas tareas cognitivas, y la comprensión del aprendizaje humano y de los procesos de razonamiento observables en dominios similares. La arquitectura CLARION define cuatro módulos de memoria, cada uno compuesto de una representación dual del conocimien- to (expl´ıcita-impl´ıcita): un sub-sistema centrado en acciones (ACS), un sub-sistema no centrado en acciones (NACS), un sub-sistema motivacional (MS), y un sub-sistema meta- cognitivo (MCS), como se observa en la figura 3.20. De ahora en adelante se empleará el término nivel superior para hacer referencia al nivel de representación expl´ıcita/simbóli- ca de cada módulo, mientras que el término nivel inferior hará referencia al nivel de representación impl´ıcita/sub-simbólica.

En esencia, el módulo ACS se encarga de regular las acciones del agente, mientras que el módulo NCS se ocupa de mantener la base de conocimiento global del sistema (tanto expl´ıcito como impl´ıcito). Por otro lado, el módulo MS provee las motivaciones y est´ımulos que influyen sobre el funcionamiento de los sistemas de percepción, actuación, y cognición, mientras que el módulo MCS dirige y modifica las operaciones de los otros tres módulos. Cada uno de estos módulos adopta una representación localista-distribuida, donde la sección localista codifica el conocimiento expl´ıcito (i.e., en forma de reglas de producción) y la sección distribuida codifica conocimiento impl´ıcito (i.e., en forma de redes neuronales del tipo perceptrón multicapa – MLP).

El aprendizaje de nuevo conocimiento impl´ıcito es logrado mediante métodos de aprendizaje por refuerzo tales como el algoritmo Q-learning, o mediante métodos de aprendizaje supervisado como el algoritmo de retropropagación (back-propagation), los cuales pueden ser implementados empleando una red MLP (Sun et al., 2001). El conocimiento impl´ıcito adquirido por el nivel inferior es luego utilizado para crear el conocimiento expl´ıcito del nivel superior a través de un mecanismo de aprendizaje ascendente

 Cap´ıtulo 3. Estado del Arte

Figura 3.20: Arquitectura CLARION. Adaptada de (Sun et al., 2001).

(bottom-up). A su vez, este aprendizaje puede ser visto como una reconstrucción racio- nal del conocimiento impl´ıcito en el nivel expl´ıcito de la arquitectura. Por otro lado, el aprendizaje descendente (top-down) puede lograrse mediante la pre-codificación de algunas reglas en el nivel superior, las cuales gu´ıan luego el proceso de aprendizaje por observación que efectúa el nivel inferior (Sun y Zhang, 2004).

Como tal, el proceso de toma de decisiones del sistema, que en las fases iniciales de aprendizaje se basa en el nivel superior (expl´ıcito/simbólico), gradualmente delega mayor responsabilidad en el nivel inferior (impl´ıcito/sub-simbólico). Esta arquitectura ha servido como plataforma de pruebas para simular una gran cantidad de micro-teor´ıas psicológicas, as´ı como también ha servido como un sistema complejo de toma de decisiones secuenciales que resuelve tareas de navegación en escenarios de campos de minas

In document Arquitectura Híbrida para Sistemas Cognitivos Artificiales Con Comportamiento Emergente, Adaptativo y Auto-organizado (página 105-122)