Los m´etodos deductivos explican y analizan un ´unico ejemplo de un concepto para aprender descripciones m´as eficientes del concepto. Una vez que se tiene una explicaci´on de porqu´e una instancia es un ejemplo de un concepto se realiza una generalizaci´on para poder aplicarla a la clasificaci´on eficiente de futuras instancias diferentes de ese concepto. Requieren normalmente un conocimiento completo y correcto del dominio.
En planificaci´on, las aproximaciones m´as utilizadas han sido: aprendizaje de macro-operadores, aprendizaje de secuencias de sub-objetivos, aprendizaje basado en la explicaci´on (EBL), y aprendizaje de la teor´ıa del dominio (aunque este ´ultimo, no necesariamente se deba realizar s´olo mediante aprendizaje deductivo).
3.6.1. Aprendizaje de macro-operadores
Los intentos iniciales para mejorar la eficiencia de la resoluci´on de problemas se basaban en aprender macro-operadores [Fikes et al., 1972, Iba, 1989, Korf, 1985]. Los macro-operadores son secuencias de operadores de planificaci´on que pueden ser reutilizados en futuros casos de resoluci´on de problemas, con la esperanza de
3.6. APRENDIZAJE DEDUCTIVO EN PLANIFICACI ´ON 19 que permitir´an alcanzar la soluci´on de manera m´as r´apida. Estas macro-secuencias pueden ser ´utiles en aquellos problemas que puedan ser descompuestos en subme- tas no serializables. Las submetas pueden ser: independientes, si la soluci´on ´optima se obtiene al concatenar soluciones ´optimas de las submetas; serializables, si existe un cierto orden de las submetas que resuelven el problema sin violar una submeta resuelta con anterioridad; y no serializables, si se necesitan violar soluciones a me- tas anteriores para resolver las nuevas metas. La utilizaci´on de macro-operadores reduce la profundidad del ´arbol de b´usqueda pero hace que crezca el factor de ra- mificaci´on por el incremento de operadores del dominio. Esto hace que el beneficio de los macro-operadores decaiga al incrementar su n´umero.
3.6.2. Aprendizaje de secuencias de sub-objetivos
STEPPINGSTONEaprende secuencias de sub-objetivos que act´uan como hitos entre el estado inicial y las metas [Ruby and Kibler, 1989]. A diferencia de los macro-operadores, consigue decrecer la distancia entre el estado inicial y las me- tas sin incrementar el factor de ramificaci´on. Aprende cuando el planificador base (medios-fines) falla. Los autores tambi´en proponen el sistemaEAScomo una gene- ralizaci´on deSTEPPINGSTONE, en la que se aprenden episodios (casos) de aquellos problemas que, adem´as de haber sido solucionados, se podr´ıa mejorar la calidad de la soluci´on encontrada [Ruby and Kibler, 1992].
3.6.3. Aprendizaje basado en la explicaci´on (EBL)
Existen m´etodos de aprendizaje que aprenden heur´ısticas que permiten a un planificador independiente del dominio explorar de manera eficiente en su espacio de b´usqueda. Estas heur´ısticas ayudan al planificador a tomar mejores decisiones (por ejemplo, a elegir un operador). El conocimiento contenido en las heur´ısticas es local, restringido a un punto de decisi´on particular. Las heur´ısticas intentan que el planificador llegue antes a la soluci´on, ordenando las alternativas del ´arbol de b´usqueda de planificaci´on de una manera eficiente, o realizando podas del ´arbol de b´usqueda. La ventaja frente a los macro-operadores es que no incrementan el factor de ramificaci´on, pero tienen la desventaja de que no decrementan el n´ume- ro de pasos que hay desde el estado inicial a las metas. EBL intenta aprender a partir de uno o pocos ejemplos, bas´andose en observaciones sobre el aprendizaje humano [Mitchell et al., 1986]. Las entradas aEBLconstan de: el concepto que se quiere aprender, el ejemplo de aprendizaje, la teor´ıa del dominio y un criterio de operatividad
Existe una gran variedad de sistemas que utilizan EBL para aprender conoci- miento de control para planificadores. Por ejemplo, el sistema PRODIGY4.0-EBL de aprendizaje para el planificadorPRODIGY2.0 usaEBS(Explanation Based Spe-
control en respuesta a decisiones correctas e incorrectas del planificador, siguiendo el mecanismo descrito en los p´arrafos anteriores. Dicho trabajo introdujo adem´as el importante concepto de utilidad: en ocasiones a˜nadir m´as conocimiento de control puede ser contraproducente. La raz´on es que este conocimiento de control hay que equipararlo en cada nodo que se expande para comprobar si es aplicable. Puesto que cada trozo del conocimiento de control ser´a aplicable s´olo en algunas oca- siones, puede ocurrir que el coste de equiparaci´on del conocimiento de control en todos los nodos expandidos supere a los beneficios de aplicar el conocimien- to (en aquellos casos en que sea aplicable). Un problema similar ocurre con los macro-operadores [Tambe et al., 1990]. Minton intenta resolver este problema de dos maneras distintas. La primera, denominada compresi´on, transforma las reglas de control sin modificar su significado, pero haciendo su equiparaci´on m´as eficien- te. En segundo lugar, olvida aquellas reglas cuya utilidad es negativa. El sistema ULSutiliza evaluaci´on emp´ırica de las reglas obtenidas para determinar si algunas condiciones son frecuentemente redundantes [Chase et al., 1989]. Aquellas que lo son, se podan, lo que hace que las reglas obtenidas sean menos costosas de aplicar. Otros trabajos muestran que si el conocimiento de control se organiza de mane-
ra adecuada, el problema de la utilidad es mucho menos grave [Doorenbos and Veloso, 1993]. Existen tambi´en extensiones a EBL para aprender conceptos recursivos e iterati-
vos [Shavlik, 1990]. El sistemaFAILSAFEaprende reglas de control a partir de fa- llos, en lugar de s´olo ejemplos de resoluci´on de problemas exitosos [Bhatnagar, 1992, Bhatnagar and Mostow, 1994, Mostow and Bhatnagar, 1987]. Uno de los proble- mas de EBL es que en dominios complejos puede ser muy complicado obtener trazas de problemas resueltos.FAILSAFEintenta resolver este problema generando planes sin tener en cuenta ciertas restricciones que impone el dominio y compro- bando posteriormente las restricciones e identificando porqu´e falla el plan. Final- mente, se utilizaEBLpara identificar y evitar esa clase de fallos en el futuro. Estos trabajos s´olo incrementan la eficiencia y eficacia de los planificadores, en contras- te conQUALITY [P´erez, 1995] y el sistema de aprendizaje propuesto por Iwamo- to [Iwamoto, 1994] encaminados a mejorar la calidad de las soluciones encontradas por el planificadorPRODIGY.
Los sistemas anteriores aprend´ıan conocimiento de control para planificadores de orden total (b´usqueda en el espacio de estados o de problemas).UCPOP+EBL aprende reglas de control gracias al an´alisis de fallos previos durante el proceso de planificaci´on para planificadores de orden parcial [Kambhampati et al., 1996]. Es- te sistema analiza los caminos de la traza de un problema de planificaci´on. Estudia tanto aquellos caminos que no se pudieron continuar como aquellos que supera- ron una profundidad l´ımite. Para ello usa conocimiento sobre el dominio adicional basado en leyes f´ısicas del dominio.SNLP+EBL tambi´en utiliza EBLcon un pla- nificador de orden parcial [Katukam and Kambhampati, 1994]. Otros ejemplos de sistemas que utilizan EBL en POP para incrementar la calidad de los planes son PIPP[Upal, 1999] yPYRRHUS[Williamson and Hanks, 1994].
3.6. APRENDIZAJE DEDUCTIVO EN PLANIFICACI ´ON 21 Los sistemas basados enEBLnecesitan teor´ıas completas, correctas y tratables, pero no siempre es posible cumplir estas condiciones al mismo tiempo. El caso del ajedrez presenta una teor´ıa que es completa pero intratable: aunque disponemos de todos los posibles movimientos, generar demostraciones en ajedrez es un proble- ma combinatoriamente intratable, aunque s´olo sea porque se desconoce cual va a ser el movimiento del contrario (con lo que, habr´ıa que probar todos los posibles movimientos). LEBL (Lazy Explanation Based Learning) intenta solucionar este problema, aprendiendo conocimiento que es s´olo v´alido de manera aproximada, y refin´andolo posteriormente cuando se presenten fallos, tras aprender el fallo por medio deEBL[Tadepalli, 1989].
El sistema GP-CSP [Do and Kambhampati, 2001a] resuelve un problema de planificaci´on convirti´endolo autom´aticamente a un problema CSP y utilizando la librer´ıa creada por Beek [Beek, 1994] para resolver problemas CSP. Adem´as, utili- zaEBLpara ayudar a explicar los fallos encontrados durante la b´usqueda para evitar incurrir en ellos en futuras ejecuciones. Los fallos se almacenan como asignaciones de variable-valor con el significado sem´antico de que no pueden formar parte de la soluci´on. Para decidir cu´antas de estas explicaciones se deben almacenar se pue- den usar dos t´ecnicas: aprendizaje basado en el tama˜no [Frost and Dechter, 1994] o aprendizaje basado en la relevancia [Bayardo and Miranker, 1996]. En el apren- dizaje basado en el tama˜no de grado k se ignoran todas las explicaciones que con- tengan m´as de k variables y valores. En el aprendizaje basado en la relevancia de grado k se ignoran aquellos esquemas que difieran de la asignaci´on parcial actual en m´as de k asignaciones.
3.6.4. Aprendizaje por an´alisis del dominio
Existen sistemas que realizan un an´alisis previo de la teor´ıa del dominio pa- ra extraer conocimiento. Entre ellos se encuentra STATIC que obtiene reglas de control tras analizar la descripci´on del dominio (los operadores) sin necesidad de utilizar ejemplos [Etzioni, 1993]. Este sistema tambi´en usaEBL para analizar las relaciones entre precondiciones y efectos de los operadores que son luego con- vertidos en reglas de control para ordenar las decisiones relativas a objetivos de PRODIGY4.0. Sin embargo, al no utilizar ejemplos, parte del conocimiento puede ser in´util si nunca va a ser utilizado en la distribuci´on de problemas que se presen- ten al planificador. En otras palabras, puede aparecer el problema de la utilidad. Por ello, se dise˜n´o un nuevo sistema (DYNAMIC) que combina las ventajas deEBL y STATIC [P´erez and Etzioni, 1992]. Otro sistema de este tipo es STAN que ana- liza los dominios buscando simetr´ıas [Fox and Long, 2001]. Estas simetr´ıas pue- den ser de dos tipos: de los objetos del dominio y de las acciones. Un ejemplo sencillo de la utilidad de las simetr´ıas en planificaci´on es que si se dispone de una caja con 500 chinchetas, el que se use una u otra chincheta es irrelevante. Si coger una chincheta provoca que el plan falle, cualquier otra chincheta tendr´a el
mismo efecto. STAN aprovecha la simetr´ıas de esta manera para el planificador GRAPHPLAN, evitando elegir una acci´on sim´etrica de otra que fall´o previamente. STAN se ve ayudado por otra herramienta denominada TIM que permite encon- trar autom´aticamente tipos de objetos (esto es, conjuntos de objetos del dominio que se comportan de manera similar) [Long and Fox, 1999]. Esta informaci´on es ´util por s´ı misma, y sirve adem´as para establecer simetr´ıas no s´olo de objetos si- no tambi´en de tipos de objetos. El sistema SYMMETRICSTAN es una extensi´on de STAN que tiene en cuenta el hecho de que en muchos problemas de planifi- caci´on las simetr´ıas no se presentan en el estado inicial sino que pueden apare- cer durante el proceso de b´usqueda [Fox and Long, 2002a]. Huffman, Pearson y Laird [Huffman et al., 1992] hacen una an´alisis de la teor´ıa del dominio bas´andose en la premisa de que casi todas las descripciones de dominios son aproximaciones debido a la dificultad para describir completamente las precondiciones y efectos de los operadores [Huffman et al., 1992]. Detectan diferentes imperfecciones en las definiciones de los operadores: precondiciones demasiado generales o demasia- do espec´ıficas, efectos incompletos o extra˜nos y operadores que faltan y deber´ıan existir.RIFOes un m´etodo que puede detectar autom´aticamente informaci´on irrele- vante en planificadores basados en el espacio de estados [Nebel et al., 1997]. Una informaci´on se considera irrelevante si no es necesaria para obtener el plan que constituye la soluci´on. El sistema se deshace de esta informaci´on en un pre-proceso inicial, antes de empezar a resolver el problema.