Aprendizaje inductivo en planificaci´on - Aprendizaje de conocimiento de control para planifica

Desgraciadamente, los sistemas deductivos requieren teor´ıas del dominio correctas, completas y tratables (aunque existen trabajos basados enEBL que aprenden a partir de teor´ıas incompletas e intratables [Tadepalli, 1989]). Construir di- chas teor´ıas no siempre es fácil. Lo que es peor, aunque las teor´ıas sean completas, pueden carecer de información heur´ıstica. Por ejemplo, pueden no contener infor- mación acerca de qué decisión es más eficiente tomar en un determinado momento, de entre un conjunto de decisiones correctas. Unido a lo anterior, puesto que los sistemas deductivos aprenden de tan sólo unos pocos ejemplos, tienden a producir reglas demasiado espec´ıficas, con muchas precondiciones, que sufren del problema de la utilidad [Etzioni and Minton, 1992, Minton, 1988]. Los sistemas inductivos intentan resolver estos problemas aprendiendo a partir de un conjunto de ejemplos. Dichos ejemplos son instancias de decisiones correctas e incorrectas tomadas por un planificador al resolver un determinado conjunto de problemas. Los sistemas inductivos no requieren de teor´ıas completamente correctas, puesto que en ocasiones aprender una heur´ıstica incorrecta no significa que el planificador tenga que fallar, sino que simplemente puede llevarle por un camino incorrecto por el que tenga que retroceder posteriormente. Esto podr´ıa compensarse si en otras muchas ocasiones, la aplicación de la heur´ıstica es correcta [Leckie, 1993]. Los sistemas deductivos no

3.7. APRENDIZAJE INDUCTIVO EN PLANIFICACI ÓN 23 podr´ıan aprender este tipo de conocimiento, puesto que sólo aprenden heur´ısticas correctas. Además, los sistemas inductivos pueden aprender reglas muy generales, puesto que examinan muchos ejemplos. La mayor´ıa de los trabajos de investiga- ción que utilizan aprendizaje inductivo en planificación se combinan con alguna otra técnica de aprendizaje deductivo dando lugar a los sistemas multi-estrategia que se detallan en la siguiente sección. A continuación, se detallan algunas de las investigaciones que utilizan sólo aprendizaje inductivo.

3.7.1. Aprendizaje basado en el Espacio de Versiones (EV)

Como se dijo anteriormente, el aprendizaje inductivo trata de obtener la hipóte- sis h de todo el espacio de hipótesis H que sea consistente con los ejemplos pro- porcionados, tanto positivos como negativos. El espacio de versiones es el conjunto de todas las hipótesis que son consistentes con los datos. En el contexto de planifi- cación es el conjunto de todas las posibles explicaciones del concepto que se quiere aprender. Un primer algoritmo para encontrar el EV a partir de unos ejemplos con- siste en generar todas las posibles hipótesis y luego borrar aquéllas que describan algún ejemplo negativo o no describan algún ejemplo positivo. El problema de este algoritmo es que es muy poco eficiente por la cantidad de posibles hipótesis que se pueden crear. Por eso se han desarrollado diferentes algoritmos para resolver este problema. Entre ellos se encuentra el de eliminación de candidato (candidate

elimination), introducido en [Mitchell, 1977]. El concepto a aprender se representa

mediante dos conjuntos: el conjunto G que contiene los predicados más generales posibles que explican el concepto y el conjunto S con los más espec´ıficos. Los conceptos contenidos entre estos dos l´ımites pertenecen al EV y son posibles explicaciones para el concepto a aprender. Con un número suficiente de ejemplos se puede llegar a que estos dos conjuntos sean iguales, siguiendo un algoritmo incremental. Cada vez que llega un ejemplo nuevo se adaptan G y S para cubrirlo. El sistema CAMELutiliza este algoritmo para aprender métodos de expansión en un planifica- dor HTN [Ilghami et al., 2002], aplicado a dominios militares.CAMELaprende de manera incremental las condiciones de los métodos. La ventaja de que sea incremental es que no es necesario almacenar todos los ejemplos de entrenamiento. En cuanto recibe uno, adapta el espacio de versiones y se deshace de él. Cada método tiene su correspondiente EV y cada miembro del EV de un método es una posi- ble precondición para dicho método. Para generar los ejemplos de entrenamiento se requieren trazas de problemas resueltos. Cuando el método utilizado llega a la solución se considera un ejemplo positivo; en caso contrario un ejemplo negativo. El planificador utilizado esSHOPcon una pequeña modificación. Si hay más de un método aplicable a la situación actualSHOPsiempre escoge el primero. EnCAMEL se cambia este comportamiento para que elija uno cualquiera aleatoriamente.

3.7.2. Aprendizaje basado en ´arboles de decisi´on

Los árboles de decisión son un método de aprendizaje inductivo que intenta obtener las caracter´ısticas relevantes de un conjunto de ejemplos conocidos pa- ra hacer una distribución en clases, produciendo reglas de tipo if-then capaces de clasificar una nueva instancia desconocida en una clase. Son muy robustos al ruido, capaces de aprender bien con datos incompletos. Hay muchas variantes de algoritmos de árboles de decisión, como ID3 [J.R., 1983] y su continuación C4.5 [Quinlan, 1993], ITI [Utgoff et al., 1997] . . . .

En planificación se ha utilizado este método de aprendizaje para determinar las acciones que debe seguir un robot móvil, Pioneer, en un dominio parcialmente ob- servable ya que su sistema de sensores no es completo ni preciso [Schmill et al., 2000]. Pretende adquirir de forma dinámica el modelo de operadores aplicables al robot, basándose en su propia experiencia. Los datos recogidos por sus sensores, primero se distribuyen en clases según las caracter´ısticas de los patrones recibidos. Luego se utiliza un algoritmo de árboles de decisión para determinar las condiciones ini- ciales de cada una de las clases. Estas clases se incluyen en el planificador para que el agente pueda determinar de qué forma van a cambiar las lecturas de los sensores y de qué forma reaccionará el modelo con patrones desconocidos. El dominio parcialmente observable de Pioneer hace que el modelo que pueda aprender no sea completo. En general, no puede aprender todas las precondiciones necesarias y suficientes para cada uno de sus operadores.

3.7.3. Programaci´on L´ogica Inductiva (ILP)

El sistemaGRASSHOPPER aprende reglas para seleccionar metas, operadores y argumentos de operadores utilizandoFOIL[Quinlan and Cameron-Jones, 1995] como sistema inductivo [Leckie and Zukerman, 1991]. Este sistema busca decisiones similares en trazas de ejemplos resueltos por el planificador para construir de manera inductiva las reglas de control. El sistemaEXELtambién utiliza ILP aplicado a planificadores basados en el espacio de estados [Reddy and Tadepalli, 1997]. Considera que el aprendizaje de conocimiento de planificación es equivalente al aprendizaje de cláusulas de Horn, sin recursividad ni funciones. Utiliza un algoritmo recursivo e interactivo similar aCLINT[Raedt and Bruynooghe, 1992]. Se em- pieza por la clausula vac´ıa H, por medio de preguntas de equivalencia se encuentra un ejemplo e no incluido en H y se modifica H para incluirlo. Mientras H no sea equivalente al concepto objetivo C, se repite este proceso con otros ejemplos. Los literales irrelevantes se descartan de la hipótesis por preguntas de relación.

3.7. APRENDIZAJE INDUCTIVO EN PLANIFICACI ´ON 25

3.7.4. Otros m´etodos inductivos

Aprendizaje de pol´ıticas generales: una pol´ıtica general es una función que opera sobre todas las instancias de un determinado dominio y es capaz de determinar la acción que se debe aplicar basándose tanto en el estado del sistema como en las metas actuales. Ejemplos de pol´ıticas generales en el mundo de los bloques son: ’levantar un bloque mal puesto si está libre’, ’poner el bloque actual en el destino si el destino está bien situado y libre’, etc. A partir de ejemplos resueltos en un mismo dominio se pueden aprender estas pol´ıti- cas generales en planificadores basados en el espacio de estados. Este problema fue tratado inicialmente por Roni Khardon [Khardon, 1999]. Khardon representa una pol´ıtica general usando listas ordenadas de reglas y aprende las pol´ıticas generales de forma supervisada a partir de ejemplos resueltos, utili- zando una variación del algoritmo de Rivest [Rivest, 1987] de listas de deci- sión. Similar a este trabajo es el de Mart´ın y Geffner [Martin and Geffner, 2000], pero en vez de utilizar un lenguaje de reglas, representa las pol´ıticas generales en un lenguaje de conceptos [Brachman and Levesque, 1984, Geffner, 1999]. El lenguaje de conceptos tiene la misma expresividad que la lógica de predicados de primer orden, pero además tiene una sintaxis que permite razonar con clases de objetos. Por ejemplo, la clase de objetos ‘bien situado’ en el mundo de los bloques, se puede definir de manera compacta en términos de los predicados originales.

El aprendizaje por refuerzo también está relacionado con el aprendizaje de pol´ıticas pero tienen dos diferencias importantes: la primera es que estas aproximaciones son algoritmos de aprendizaje supervisado, frente a RL que no lo es y la segunda diferencia es que, en RL, las pol´ıticas toman la forma de funciones de valor que les hace dif´ıcil adaptarse a los cambios en el tamaño del espacio de estados, lo cual impide que aprendan pol´ıticas generales. La programación genética se ha utilizado para buscar pol´ıticas generales. Koza en [Koza, 1994] y Baum en [Baum, 1995] desarrollaron algoritmos evoluti- vos para encontrar pol´ıticas generales en el mundo de los bloques. Koza las representa como programas Lisp mientras que en la aproximación de Baum se representan como una colección de reglas. Igual que en RL son méto- dos no supervisados pero s´ı que pueden aprender pol´ıticas generales. Otros sistemas basados en programación genética no aprenden conocimiento de control, sino que intentan aprender un programa planificador ya adaptado al dominio [Spector, 1994]. Es decir, buscan en el espacio de planificadores que funcionan bien en un dominio determinado. Hasta el momento, esta alternativa sólo ha sido ensayada en dominios muy simples.

Aprendizaje de reglas en planificación por reescritura (Plan Rewriting PbR): La idea básica de PbR [Ambite and Knoblock, 2001] es, primero generar un plan inicial y después, reescribirlo iterativamente, usando una serie de reglas, hasta que la calidad del plan sea aceptable o se alcance el l´ımite de un recurso

determinado. Este tipo de planificación tiene muchas ventajas con respecto a la escalabilidad, la calidad de los planes y el tiempo de resolución de problemas, pero requiere de tres entradas adicionales que no precisan otros planificadores independientes del dominio: un generador de planes inicial, un conjunto de reglas y una estrategia de búsqueda. Aunque las reglas están des- critas en un lenguaje declarativo de alto nivel, su diseño y selección requieren un gran esfuerzo por parte del diseñador. Por eso, se ha creado un método capaz de aprender estas reglas a partir de ejemplos [Ambite et al., 2000]. En un dominio determinado se resuelven un conjunto de problemas de entrenamiento, con un planificador óptimo y con el generador de planes. El sistema compara ambas soluciones y genera las reglas que transformar´ıan la solución inicial en la óptima.

Redes Neuronales [J.W. et al., 1991]: El sistema UCPOP-NN utiliza redes neuronales para aprender en un planificador de orden parcial [Zimmerman, 1996]. En [Fern´andez et al., 2002] se describe un m´etodo para aprender las accio- nes a realizar para resolver problemas del mundo de los bloques.

In document Aprendizaje de conocimiento de control para planificación de tareas (página 50-54)