Aprendizaje deductivo en planificaci´on - Aprendizaje de conocimiento de control para planifica

Los métodos deductivos explican y analizan un único ejemplo de un concepto para aprender descripciones más eficientes del concepto. Una vez que se tiene una explicación de porqué una instancia es un ejemplo de un concepto se realiza una generalización para poder aplicarla a la clasificación eficiente de futuras instancias diferentes de ese concepto. Requieren normalmente un conocimiento completo y correcto del dominio.

En planificación, las aproximaciones más utilizadas han sido: aprendizaje de macro-operadores, aprendizaje de secuencias de sub-objetivos, aprendizaje basado en la explicación (EBL), y aprendizaje de la teor´ıa del dominio (aunque este último, no necesariamente se deba realizar sólo mediante aprendizaje deductivo).

3.6.1. Aprendizaje de macro-operadores

Los intentos iniciales para mejorar la eficiencia de la resolución de problemas se basaban en aprender macro-operadores [Fikes et al., 1972, Iba, 1989, Korf, 1985]. Los macro-operadores son secuencias de operadores de planificación que pueden ser reutilizados en futuros casos de resolución de problemas, con la esperanza de

3.6. APRENDIZAJE DEDUCTIVO EN PLANIFICACI ÓN 19 que permitirán alcanzar la solución de manera más rápida. Estas macro-secuencias pueden ser útiles en aquellos problemas que puedan ser descompuestos en submetas no serializables. Las submetas pueden ser: independientes, si la solución óptima se obtiene al concatenar soluciones óptimas de las submetas; serializables, si existe un cierto orden de las submetas que resuelven el problema sin violar una submeta resuelta con anterioridad; y no serializables, si se necesitan violar soluciones a metas anteriores para resolver las nuevas metas. La utilización de macro-operadores reduce la profundidad del árbol de búsqueda pero hace que crezca el factor de ra- mificación por el incremento de operadores del dominio. Esto hace que el beneficio de los macro-operadores decaiga al incrementar su número.

3.6.2. Aprendizaje de secuencias de sub-objetivos

STEPPINGSTONEaprende secuencias de sub-objetivos que actúan como hitos entre el estado inicial y las metas [Ruby and Kibler, 1989]. A diferencia de los macro-operadores, consigue decrecer la distancia entre el estado inicial y las metas sin incrementar el factor de ramificación. Aprende cuando el planificador base (medios-fines) falla. Los autores también proponen el sistemaEAScomo una gene- ralización deSTEPPINGSTONE, en la que se aprenden episodios (casos) de aquellos problemas que, además de haber sido solucionados, se podr´ıa mejorar la calidad de la solución encontrada [Ruby and Kibler, 1992].

3.6.3. Aprendizaje basado en la explicaci´on (EBL)

Existen métodos de aprendizaje que aprenden heur´ısticas que permiten a un planificador independiente del dominio explorar de manera eficiente en su espacio de búsqueda. Estas heur´ısticas ayudan al planificador a tomar mejores decisiones (por ejemplo, a elegir un operador). El conocimiento contenido en las heur´ısticas es local, restringido a un punto de decisión particular. Las heur´ısticas intentan que el planificador llegue antes a la solución, ordenando las alternativas del árbol de búsqueda de planificación de una manera eficiente, o realizando podas del árbol de búsqueda. La ventaja frente a los macro-operadores es que no incrementan el factor de ramificación, pero tienen la desventaja de que no decrementan el núme- ro de pasos que hay desde el estado inicial a las metas. EBL intenta aprender a partir de uno o pocos ejemplos, basándose en observaciones sobre el aprendizaje humano [Mitchell et al., 1986]. Las entradas aEBLconstan de: el concepto que se quiere aprender, el ejemplo de aprendizaje, la teor´ıa del dominio y un criterio de operatividad

Existe una gran variedad de sistemas que utilizan EBL para aprender conocimiento de control para planificadores. Por ejemplo, el sistema PRODIGY4.0-EBL de aprendizaje para el planificadorPRODIGY2.0 usaEBS(Explanation Based Spe-

control en respuesta a decisiones correctas e incorrectas del planificador, siguiendo el mecanismo descrito en los párrafos anteriores. Dicho trabajo introdujo además el importante concepto de utilidad: en ocasiones añadir más conocimiento de control puede ser contraproducente. La razón es que este conocimiento de control hay que equipararlo en cada nodo que se expande para comprobar si es aplicable. Puesto que cada trozo del conocimiento de control será aplicable sólo en algunas ocasiones, puede ocurrir que el coste de equiparación del conocimiento de control en todos los nodos expandidos supere a los beneficios de aplicar el conocimien- to (en aquellos casos en que sea aplicable). Un problema similar ocurre con los macro-operadores [Tambe et al., 1990]. Minton intenta resolver este problema de dos maneras distintas. La primera, denominada compresión, transforma las reglas de control sin modificar su significado, pero haciendo su equiparación más eficiente. En segundo lugar, olvida aquellas reglas cuya utilidad es negativa. El sistema ULSutiliza evaluación emp´ırica de las reglas obtenidas para determinar si algunas condiciones son frecuentemente redundantes [Chase et al., 1989]. Aquellas que lo son, se podan, lo que hace que las reglas obtenidas sean menos costosas de aplicar. Otros trabajos muestran que si el conocimiento de control se organiza de mane-

ra adecuada, el problema de la utilidad es mucho menos grave [Doorenbos and Veloso, 1993]. Existen tambi´en extensiones a EBL para aprender conceptos recursivos e iterati-

vos [Shavlik, 1990]. El sistemaFAILSAFEaprende reglas de control a partir de fallos, en lugar de sólo ejemplos de resolución de problemas exitosos [Bhatnagar, 1992, Bhatnagar and Mostow, 1994, Mostow and Bhatnagar, 1987]. Uno de los problemas de EBL es que en dominios complejos puede ser muy complicado obtener trazas de problemas resueltos.FAILSAFEintenta resolver este problema generando planes sin tener en cuenta ciertas restricciones que impone el dominio y compro- bando posteriormente las restricciones e identificando porqué falla el plan. Final- mente, se utilizaEBLpara identificar y evitar esa clase de fallos en el futuro. Estos trabajos sólo incrementan la eficiencia y eficacia de los planificadores, en contras- te conQUALITY [Pérez, 1995] y el sistema de aprendizaje propuesto por Iwamo- to [Iwamoto, 1994] encaminados a mejorar la calidad de las soluciones encontradas por el planificadorPRODIGY.

Los sistemas anteriores aprend´ıan conocimiento de control para planificadores de orden total (búsqueda en el espacio de estados o de problemas).UCPOP+EBL aprende reglas de control gracias al análisis de fallos previos durante el proceso de planificación para planificadores de orden parcial [Kambhampati et al., 1996]. Es- te sistema analiza los caminos de la traza de un problema de planificación. Estudia tanto aquellos caminos que no se pudieron continuar como aquellos que supera- ron una profundidad l´ımite. Para ello usa conocimiento sobre el dominio adicional basado en leyes f´ısicas del dominio.SNLP+EBL también utiliza EBLcon un planificador de orden parcial [Katukam and Kambhampati, 1994]. Otros ejemplos de sistemas que utilizan EBL en POP para incrementar la calidad de los planes son PIPP[Upal, 1999] yPYRRHUS[Williamson and Hanks, 1994].

3.6. APRENDIZAJE DEDUCTIVO EN PLANIFICACI ÓN 21 Los sistemas basados enEBLnecesitan teor´ıas completas, correctas y tratables, pero no siempre es posible cumplir estas condiciones al mismo tiempo. El caso del ajedrez presenta una teor´ıa que es completa pero intratable: aunque disponemos de todos los posibles movimientos, generar demostraciones en ajedrez es un problema combinatoriamente intratable, aunque sólo sea porque se desconoce cual va a ser el movimiento del contrario (con lo que, habr´ıa que probar todos los posibles movimientos). LEBL (Lazy Explanation Based Learning) intenta solucionar este problema, aprendiendo conocimiento que es sólo válido de manera aproximada, y refinándolo posteriormente cuando se presenten fallos, tras aprender el fallo por medio deEBL[Tadepalli, 1989].

El sistema GP-CSP [Do and Kambhampati, 2001a] resuelve un problema de planificación convirtiéndolo automáticamente a un problema CSP y utilizando la librer´ıa creada por Beek [Beek, 1994] para resolver problemas CSP. Además, utili- zaEBLpara ayudar a explicar los fallos encontrados durante la búsqueda para evitar incurrir en ellos en futuras ejecuciones. Los fallos se almacenan como asignaciones de variable-valor con el significado semántico de que no pueden formar parte de la solución. Para decidir cuántas de estas explicaciones se deben almacenar se pueden usar dos técnicas: aprendizaje basado en el tamaño [Frost and Dechter, 1994] o aprendizaje basado en la relevancia [Bayardo and Miranker, 1996]. En el aprendizaje basado en el tamaño de grado k se ignoran todas las explicaciones que con- tengan más de k variables y valores. En el aprendizaje basado en la relevancia de grado k se ignoran aquellos esquemas que difieran de la asignación parcial actual en más de k asignaciones.

3.6.4. Aprendizaje por an´alisis del dominio

Existen sistemas que realizan un análisis previo de la teor´ıa del dominio para extraer conocimiento. Entre ellos se encuentra STATIC que obtiene reglas de control tras analizar la descripción del dominio (los operadores) sin necesidad de utilizar ejemplos [Etzioni, 1993]. Este sistema también usaEBL para analizar las relaciones entre precondiciones y efectos de los operadores que son luego con- vertidos en reglas de control para ordenar las decisiones relativas a objetivos de PRODIGY4.0. Sin embargo, al no utilizar ejemplos, parte del conocimiento puede ser inútil si nunca va a ser utilizado en la distribución de problemas que se presenten al planificador. En otras palabras, puede aparecer el problema de la utilidad. Por ello, se diseñó un nuevo sistema (DYNAMIC) que combina las ventajas deEBL y STATIC [Pérez and Etzioni, 1992]. Otro sistema de este tipo es STAN que analiza los dominios buscando simetr´ıas [Fox and Long, 2001]. Estas simetr´ıas pueden ser de dos tipos: de los objetos del dominio y de las acciones. Un ejemplo sencillo de la utilidad de las simetr´ıas en planificación es que si se dispone de una caja con 500 chinchetas, el que se use una u otra chincheta es irrelevante. Si coger una chincheta provoca que el plan falle, cualquier otra chincheta tendrá el

mismo efecto. STAN aprovecha la simetr´ıas de esta manera para el planificador GRAPHPLAN, evitando elegir una acción simétrica de otra que falló previamente. STAN se ve ayudado por otra herramienta denominada TIM que permite encon- trar automáticamente tipos de objetos (esto es, conjuntos de objetos del dominio que se comportan de manera similar) [Long and Fox, 1999]. Esta información es útil por s´ı misma, y sirve además para establecer simetr´ıas no sólo de objetos sino también de tipos de objetos. El sistema SYMMETRICSTAN es una extensión de STAN que tiene en cuenta el hecho de que en muchos problemas de planifi- cación las simetr´ıas no se presentan en el estado inicial sino que pueden aparecer durante el proceso de búsqueda [Fox and Long, 2002a]. Huffman, Pearson y Laird [Huffman et al., 1992] hacen una análisis de la teor´ıa del dominio basándose en la premisa de que casi todas las descripciones de dominios son aproximaciones debido a la dificultad para describir completamente las precondiciones y efectos de los operadores [Huffman et al., 1992]. Detectan diferentes imperfecciones en las definiciones de los operadores: precondiciones demasiado generales o demasiado espec´ıficas, efectos incompletos o extraños y operadores que faltan y deber´ıan existir.RIFOes un método que puede detectar automáticamente información irrele- vante en planificadores basados en el espacio de estados [Nebel et al., 1997]. Una información se considera irrelevante si no es necesaria para obtener el plan que constituye la solución. El sistema se deshace de esta información en un pre-proceso inicial, antes de empezar a resolver el problema.

In document Aprendizaje de conocimiento de control para planificación de tareas (página 46-50)