Gu´ıa para aplicar EBL a sistemas de planificaci´on

7. Sistema de aprendizaje GEBL 91

8.1. Gu´ıa para aplicar EBL a sistemas de planificaci´on

Cap´ıtulo 8

Metodolog´ıa para aplicar EBL a sistemas de planificaci´on

En los cap´ıtulos anteriores se han descrito dos sistemas de aprendizaje desarro- llados para extraer conocimiento de control de diferentes paradigmas de planifica- ción: planificación h´ıbrida HTN-POP y planificación basada en grafos de planes.

Ambos sistemas están inspirados en otro sistema de aprendizaje aplicado a planifi- cación bidireccional. El método de aprendizaje utilizado en todos esEBL. En este cap´ıtulo se pretende generalizar los tres sistemas para definir una metodolog´ıa de diseño y desarrollo de sistemas de aprendizaje de conocimiento de control basada en la explicación que permita sistematizar los métodos y técnicas necesarias para aprender conocimiento de control de diferentes técnicas de planificación.

En la siguiente sección se describe la metodolog´ıa. En la sección 8.2 se enu- meran los requisitos del paradigma de planificación necesarios para aplicar la metodolog´ıa. Por último, se analiza el conocimiento de control que se puede extraer con su utilización.

blemas. Cada paradigma de planificación considera un espacio de problemas diferentes y aplica un determinado algoritmo de búsqueda. Los operadores de búsqueda no tienen porqué coincidir con los operadores de planificación.

Por ejemplo, enTGPun estado de búsqueda (nodo del árbol) viene determinado por 3 factores: un conjunto de metas, el plan parcial y el nivel en el grafo del plan, porqueTGP busca asignaciones de operadores instanciados del dominio de planificación que satisfagan un conjunto de metas sin violar ninguna relación de mutex, para lo cual necesita conocer el plan parcial y el nivel del grafo. Los operadores de búsqueda enTGP transforman un estado del espacio de estados de planificación en un estado del espacio de problemas deTGPcompuesto también por un conjunto de metas, un plan parcial y un nivel, tal como se explicó en la sección 7.2. Sin embargo, los operadores de planificación enTGP son asignar una acción del dominio para alcanzar una meta, añadir o borrar relaciones de mutex entre nodos, almacenar un conjunto de metas como memo . . . . Por tanto, enTGP no hay coincidencia entre los operadores de búsqueda y los de planificación.

Pero, en HYBIScada nodo del espacio de búsqueda representa una tarea pendiente de planificación que pueden ser metas pendientes, amenazas, interfe- rencias, inconsistencias en el orden o cómo realizar un refinamiento jerárqui- co; y los nodos hijos representan las diferentes formas en que dicha tarea se puede resolver. En este caso, los operadores de búsqueda coinciden con los operadores de planificación. Cada nodo lleva asociado toda la información que el algoritmo necesita para resolver la tarea.

En PRODIGYhay tres tipos diferentes de nodos de búsqueda: pueden repre- sentar una meta, un operador o una sustitución de variables y los operadores de búsqueda de cada tipo son diferentes: en los nodos de tipo meta se busca un operador que la satisfaga generando un nodo hijo de tipo operador por cada posible operador del dominio que tenga dicha meta en la lista de efec- tos añadidos; en los nodos de tipo operador se busca la asignación de sus variables generando nodos hijos de tipo sustitución y en los nodos de tipo sustitución PRODIGYdecide entre aplicar el operador instanciado o explorar otro nodo de tipo meta.

Identificación de los posibles puntos de aprendizaje, estudiando los puntos de retroceso del algoritmo de búsqueda. Una vez identificado el árbol de búsqueda resulta inmediato encontrar los nodos en que el algoritmo de búsqueda tiene que retroceder porque la solución no se encuentra en la primera opción explorada. Generalmente todos los nodos son posibles puntos de retroceso, pero en cada algoritmo puede haber diferentes opciones que se puedan aprender de forma independiente y estudiar la conveniencia, en cada caso, de aprender esas decisiones o no. Por ejemplo, enHEBL de los diferentes tipos de nodos que hay sólo se aprende de los de tipo meta pendiente y refinamiento jerárquico, mientras que en HAMLETse aprende de todos. En

8.1. GU´IA PARA APLICAREBLA SISTEMAS DE PLANIFICACI ´ON 113

GEBLs´olo hay un tipo de nodo del que aprender.

Identificar, en los puntos anteriores, el tipo de acción realizada por el planificador para definir los diferentes tipos de reglas de control que se pueden generar. Por ejemplo, enGEBLhay un sólo tipo de punto de decisión, pero se pueden aprender dos acciones diferentes: el operador del dominio de pla- nificación que consiga una de las metas o persistir dicha meta. EnHEBL en los nodos de tipo meta se aprende el operador del dominio que la satisfaga diferenciando entre si dicho operador ya ha sido utilizado en el plan parcial o no; y en los nodos de tipo refinamiento jerárquico se aprende el método de expansión a utilizar. En HAMLETde cada punto de decisión se aprende una acción diferente: una meta de entre un conjunto de metas para empezar a trabajar sobre ella, un operador del dominio para satisfacer una meta, un conjunto de sustituciones que instancien las variables libres del operador elegido o la opción de aplicar un operador instanciado o empezar a resolver otra meta.

Determinar si el algoritmo de planificación permite distinguir los estados en cada decisión realizada identificando si el propio algoritmo proporciona algún mecanismo para tal diferenciación o se pueden hacer aproximaciones. Estos estados son lo utilizados porEBLpara explicar las circunstancias en que se produce cada decisión durante la resolución de un problema para generar la parte de precondiciones (meta-predicados) de las reglas que permitan identificar en resoluciones futuras situaciones similares de forma un´ıvoca. En el caso de PRODIGY el propio algoritmo de planificación ac- tualiza estos estados cuando aplica un operador instanciado. Sin embargo, enTGPel algoritmo de planificación sólo necesita explorar el grafo del plan que permanece invariante durante un episodio de búsqueda; es decir, no hay un estado diferente en cada decisión tomada por el algoritmo de búsqueda por lo que es necesario hacer aproximaciones que permitan discernir los estados en otros procesos de búsqueda. En el caso de HYBISel algoritmo POP no modifica el estado pero se puede obtener a través del conjunto de enlaces causales, tal como se explicó en la sección 6.2.2.

Preparar los problemas de entrenamiento de los que aprender que el planificador ejecutará de uno en uno. El tamaño y complejidad de los problemas de entrenamiento es un factor importante enEBL. Conviene que sean sencillos para que el planificador pueda resolverlos, requisito imprescindible para ini- ciar el proceso de aprendizaje, y también para que las reglas aprendidas sean lo más general posibles, sin demasiadas precondiciones que incrementan el proceso de equiparación de reglas produciendo el problema de la utilidad.

Cuanto más complejos son los problemas de aprendizaje más espec´ıficas son las reglas aprendidas; es decir, se disparan en menos situaciones, pero dis- ciernen mejor unos casos de otros, por lo que hay que llegar a un equilibrio entre generalización y especialización no siempre alcanzado con técnicas

exclusivas de aprendizaje deductivo.

Guardar el árbol de búsqueda realizado por el planificador hasta encontrar la solución de cada problema. Si el planificador no lo almacena, generar la traza con la información necesaria. Esto puede consumir mucha memoria y tiempo del ordenador por lo que conviene que sea opcional su generación y almacenamiento. As´ı, durante el aprendizaje, que normalmente se realiza con problemas pequeños, se activa y en el resto de casos se desactiva. En HYBISes un parámetro de ejecución del planificador; enGEBLse ha intro- ducido en el algoritmo de aprendizaje: cuando se aprende de un problema se genera y se guarda el árbol de búsqueda, en el resto de resoluciones no; y PRODIGYsiempre guarda el árbol de búsqueda en todas las resoluciones de problemas que realiza ya que este planificador se implementó para estudiar la influencia de las técnicas de aprendizaje automático en planificación.

Etiquetar los nodos de búsqueda para la identificación de los nodos de éxi- to y de fallo. Cada vez que se genera un nuevo nodo durante el proceso de planificación se le asigna una etiqueta. Si el nodo falla se cambia su etiqueta a fallo. Cuando el algoritmo de planificación encuentra una solución a todos los nodos del árbol de éxito, desde abajo hacia arriba, se les cambia la etiqueta a éxito. De forma similar los nodos tales que todos sus sucesores son nodos de fallo, se etiquetan como de fallo. Además de nodos de éxito y fallo puede existir otro tipo de nodos que también se quieran identificar. Por ejemplo, enHEBL hay ramas del árbol de búsqueda incompletas porque la heur´ıstica utilizada desaconseja seguir explorándolas antes de llegar a fallar, y se denominan nodos abandonados. El algoritmo de planificación deTGP

almacena memos cuando en un nivel de búsqueda no es posible encontrar una asignación válida a todas las metas. Esos nodosGEBLlos etiqueta como memo-failure ya que, aunque sean de fallo, el propio algoritmo de planifica- ción lo detecta y no los explora. En PRODIGYhay nodos que no explora, que se denominan desconocidos o, incluso, que no ha llegado a generar, que se denominan no-intentados.

Cada punto de decisión de éxito puede generar una o varias reglas de control cuyo consecuente sean la decisión tomada por el planificador. Se puede optar por un aprendizaje eager o lazy dependiendo de si se aprende de todos los puntos de decisión o sólo de aquéllos que no constituyeron la primera decisión del planificador. Hay que implementar una función que tome como entrada la lista de todos los nodos etiquetados y vaya devolviendo, consecu- tivamente, el nodo o nodos de los que aprender.

Utilizar los meta-predicados básicos usados por el lenguaje común para explicar el estado del planificador en cada decisión, identificando, en el algoritmo de planificación, la manera de obtenerlos. En la en la sección 5.3 se describió a alto nivel cómo implementar dichas funciones. La mayor´ıa de

8.1. GUÍA PARA APLICAREBLA SISTEMAS DE PLANIFICACI ÓN 115 los algoritmos de planificación definen funciones para obtener los valores necesarios para la definición de los meta-predicados más comunes, como la meta actual que está tratando de resolver, la lista de metas pendientes . . . . En caso de no existir habr´ıa que implementarlos. Para reducir el número y tamaño de los meta-predicados que preguntan por el estado de planificación se realiza una regresión de metas de forma que se incluyan sólo los literales que afectan directamente a la decisión considerada. La forma de hacer es- ta regresión depende del paradigma de planificación. Por ejemplo, enHEBL

se utiliza el conjunto de enlaces causales (ver secci´on 6.2.2) y enGEBLse contemplan diferentes alternativas para hacerlo (ver secci´on 7.3.2).

Estudiar otros aspectos del estado de planificaci´on analizado por el planificador que puedan servir para definir nuevos meta-predicados espec´ıficos del paradigma de planificaci´on utilizado. Por ejemplo, el nivel HTN enHEBL o el plan parcial enGEBL.

Implementar o reutilizar un mecanismo de equiparación y ejecución de las reglas que se dispare en cada punto de decisión según se explicó en la sec- ción 5.2.

Realizar de forma opcional algún estudio de utilidad de las reglas genera- das para restringir la cantidad de reglas de cada dominio y evitar los problemas t´ıpicos de utilidad de los sistemas de aprendizaje basados en la ex- plicación. Por ejemplo, el realizado en HAMLET siguiendo la ecuación de Minton [Minton, 1988] en que la utilidad de una reglarse calcula como:

u(r) =s(r)×p(r)−m(r)

dondeu(r)es una estimación de la utilidad der,s(r)es una estimación del tiempo de búsqueda que la regla ahorra cuando se usa,p(r)es una estimación de la probabilidad de que la regla se dispare, ym(r)es una estimación del coste de equiparación de la regla. Cada una de estas funciones HAMLETlas estima de la siguiente forma:

• s(r): es el número de nodos que hay por debajo del nodo donde se aprende la regla, multiplicado por el tiempo que PRODIGY tarda en expandir un nodo. Se puede hacer una mejor estimación utilizando un segundo conjunto de entrenamiento, como hizo Minton, y calcular la media del número de nodos usados cada vez por la regla.

• p(r): es el número de veces en querse dispara en los problemas de entrenamiento dividido entre el número de veces en que PRODIGYintenta usar la regla. Igual que antes, se puede realizar una mejor estimación utilizando un segundo conjunto de entrenamiento.

• m(r): es el tiempo total consumido intentando equipar la regla durante toda la resoluci´on del problema dividido entre el n´umero de veces en que se intenta disparar.

In document aprendizaje de conocimiento de control (página 140-145)