• No se han encontrado resultados

Aprendizaje inductivo en planificaci´on

Desgraciadamente, los sistemas deductivos requieren teor´ıas del dominio co- rrectas, completas y tratables (aunque existen trabajos basados enEBL que apren- den a partir de teor´ıas incompletas e intratables [Tadepalli, 1989]). Construir di- chas teor´ıas no siempre es f´acil. Lo que es peor, aunque las teor´ıas sean completas, pueden carecer de informaci´on heur´ıstica. Por ejemplo, pueden no contener infor- maci´on acerca de qu´e decisi´on es m´as eficiente tomar en un determinado momento, de entre un conjunto de decisiones correctas. Unido a lo anterior, puesto que los sistemas deductivos aprenden de tan s´olo unos pocos ejemplos, tienden a producir reglas demasiado espec´ıficas, con muchas precondiciones, que sufren del problema de la utilidad [Etzioni and Minton, 1992, Minton, 1988]. Los sistemas inductivos intentan resolver estos problemas aprendiendo a partir de un conjunto de ejemplos. Dichos ejemplos son instancias de decisiones correctas e incorrectas tomadas por un planificador al resolver un determinado conjunto de problemas. Los sistemas in- ductivos no requieren de teor´ıas completamente correctas, puesto que en ocasiones aprender una heur´ıstica incorrecta no significa que el planificador tenga que fallar, sino que simplemente puede llevarle por un camino incorrecto por el que tenga que retroceder posteriormente. Esto podr´ıa compensarse si en otras muchas ocasiones, la aplicaci´on de la heur´ıstica es correcta [Leckie, 1993]. Los sistemas deductivos no

3.7. APRENDIZAJE INDUCTIVO EN PLANIFICACI ´ON 23 podr´ıan aprender este tipo de conocimiento, puesto que s´olo aprenden heur´ısticas correctas. Adem´as, los sistemas inductivos pueden aprender reglas muy generales, puesto que examinan muchos ejemplos. La mayor´ıa de los trabajos de investiga- ci´on que utilizan aprendizaje inductivo en planificaci´on se combinan con alguna otra t´ecnica de aprendizaje deductivo dando lugar a los sistemas multi-estrategia que se detallan en la siguiente secci´on. A continuaci´on, se detallan algunas de las investigaciones que utilizan s´olo aprendizaje inductivo.

3.7.1. Aprendizaje basado en el Espacio de Versiones (EV)

Como se dijo anteriormente, el aprendizaje inductivo trata de obtener la hip´ote- sis h de todo el espacio de hip´otesis H que sea consistente con los ejemplos pro- porcionados, tanto positivos como negativos. El espacio de versiones es el conjunto de todas las hip´otesis que son consistentes con los datos. En el contexto de planifi- caci´on es el conjunto de todas las posibles explicaciones del concepto que se quiere aprender. Un primer algoritmo para encontrar el EV a partir de unos ejemplos con- siste en generar todas las posibles hip´otesis y luego borrar aqu´ellas que describan alg´un ejemplo negativo o no describan alg´un ejemplo positivo. El problema de este algoritmo es que es muy poco eficiente por la cantidad de posibles hip´otesis que se pueden crear. Por eso se han desarrollado diferentes algoritmos para resolver este problema. Entre ellos se encuentra el de eliminaci´on de candidato (candidate

elimination), introducido en [Mitchell, 1977]. El concepto a aprender se representa

mediante dos conjuntos: el conjunto G que contiene los predicados m´as generales posibles que explican el concepto y el conjunto S con los m´as espec´ıficos. Los con- ceptos contenidos entre estos dos l´ımites pertenecen al EV y son posibles explica- ciones para el concepto a aprender. Con un n´umero suficiente de ejemplos se puede llegar a que estos dos conjuntos sean iguales, siguiendo un algoritmo incremental. Cada vez que llega un ejemplo nuevo se adaptan G y S para cubrirlo. El sistema CAMELutiliza este algoritmo para aprender m´etodos de expansi´on en un planifica- dor HTN [Ilghami et al., 2002], aplicado a dominios militares.CAMELaprende de manera incremental las condiciones de los m´etodos. La ventaja de que sea incre- mental es que no es necesario almacenar todos los ejemplos de entrenamiento. En cuanto recibe uno, adapta el espacio de versiones y se deshace de ´el. Cada m´etodo tiene su correspondiente EV y cada miembro del EV de un m´etodo es una posi- ble precondici´on para dicho m´etodo. Para generar los ejemplos de entrenamiento se requieren trazas de problemas resueltos. Cuando el m´etodo utilizado llega a la soluci´on se considera un ejemplo positivo; en caso contrario un ejemplo negativo. El planificador utilizado esSHOPcon una peque˜na modificaci´on. Si hay m´as de un m´etodo aplicable a la situaci´on actualSHOPsiempre escoge el primero. EnCAMEL se cambia este comportamiento para que elija uno cualquiera aleatoriamente.

3.7.2. Aprendizaje basado en ´arboles de decisi´on

Los ´arboles de decisi´on son un m´etodo de aprendizaje inductivo que intenta obtener las caracter´ısticas relevantes de un conjunto de ejemplos conocidos pa- ra hacer una distribuci´on en clases, produciendo reglas de tipo if-then capaces de clasificar una nueva instancia desconocida en una clase. Son muy robustos al ruido, capaces de aprender bien con datos incompletos. Hay muchas variantes de algoritmos de ´arboles de decisi´on, como ID3 [J.R., 1983] y su continuaci´on C4.5 [Quinlan, 1993], ITI [Utgoff et al., 1997] . . . .

En planificaci´on se ha utilizado este m´etodo de aprendizaje para determinar las acciones que debe seguir un robot m´ovil, Pioneer, en un dominio parcialmente ob- servable ya que su sistema de sensores no es completo ni preciso [Schmill et al., 2000]. Pretende adquirir de forma din´amica el modelo de operadores aplicables al robot, bas´andose en su propia experiencia. Los datos recogidos por sus sensores, primero se distribuyen en clases seg´un las caracter´ısticas de los patrones recibidos. Luego se utiliza un algoritmo de ´arboles de decisi´on para determinar las condiciones ini- ciales de cada una de las clases. Estas clases se incluyen en el planificador para que el agente pueda determinar de qu´e forma van a cambiar las lecturas de los senso- res y de qu´e forma reaccionar´a el modelo con patrones desconocidos. El dominio parcialmente observable de Pioneer hace que el modelo que pueda aprender no sea completo. En general, no puede aprender todas las precondiciones necesarias y suficientes para cada uno de sus operadores.

3.7.3. Programaci´on L´ogica Inductiva (ILP)

El sistemaGRASSHOPPER aprende reglas para seleccionar metas, operadores y argumentos de operadores utilizandoFOIL[Quinlan and Cameron-Jones, 1995] como sistema inductivo [Leckie and Zukerman, 1991]. Este sistema busca decisio- nes similares en trazas de ejemplos resueltos por el planificador para construir de manera inductiva las reglas de control. El sistemaEXELtambi´en utiliza ILP aplica- do a planificadores basados en el espacio de estados [Reddy and Tadepalli, 1997]. Considera que el aprendizaje de conocimiento de planificaci´on es equivalente al aprendizaje de cl´ausulas de Horn, sin recursividad ni funciones. Utiliza un algorit- mo recursivo e interactivo similar aCLINT[Raedt and Bruynooghe, 1992]. Se em- pieza por la clausula vac´ıa H, por medio de preguntas de equivalencia se encuentra un ejemplo e no incluido en H y se modifica H para incluirlo. Mientras H no sea equivalente al concepto objetivo C, se repite este proceso con otros ejemplos. Los literales irrelevantes se descartan de la hip´otesis por preguntas de relaci´on.

3.7. APRENDIZAJE INDUCTIVO EN PLANIFICACI ´ON 25

3.7.4. Otros m´etodos inductivos

Aprendizaje de pol´ıticas generales: una pol´ıtica general es una funci´on que opera sobre todas las instancias de un determinado dominio y es capaz de determinar la acci´on que se debe aplicar bas´andose tanto en el estado del sis- tema como en las metas actuales. Ejemplos de pol´ıticas generales en el mun- do de los bloques son: ’levantar un bloque mal puesto si est´a libre’, ’poner el bloque actual en el destino si el destino est´a bien situado y libre’, etc. A partir de ejemplos resueltos en un mismo dominio se pueden aprender estas pol´ıti- cas generales en planificadores basados en el espacio de estados. Este proble- ma fue tratado inicialmente por Roni Khardon [Khardon, 1999]. Khardon re- presenta una pol´ıtica general usando listas ordenadas de reglas y aprende las pol´ıticas generales de forma supervisada a partir de ejemplos resueltos, utili- zando una variaci´on del algoritmo de Rivest [Rivest, 1987] de listas de deci- si´on. Similar a este trabajo es el de Mart´ın y Geffner [Martin and Geffner, 2000], pero en vez de utilizar un lenguaje de reglas, representa las pol´ıticas genera- les en un lenguaje de conceptos [Brachman and Levesque, 1984, Geffner, 1999]. El lenguaje de conceptos tiene la misma expresividad que la l´ogica de predi- cados de primer orden, pero adem´as tiene una sintaxis que permite razonar con clases de objetos. Por ejemplo, la clase de objetos ‘bien situado’ en el mundo de los bloques, se puede definir de manera compacta en t´erminos de los predicados originales.

El aprendizaje por refuerzo tambi´en est´a relacionado con el aprendizaje de pol´ıticas pero tienen dos diferencias importantes: la primera es que estas aproximaciones son algoritmos de aprendizaje supervisado, frente a RL que no lo es y la segunda diferencia es que, en RL, las pol´ıticas toman la forma de funciones de valor que les hace dif´ıcil adaptarse a los cambios en el tama˜no del espacio de estados, lo cual impide que aprendan pol´ıticas generales. La programaci´on gen´etica se ha utilizado para buscar pol´ıticas generales. Koza en [Koza, 1994] y Baum en [Baum, 1995] desarrollaron algoritmos evoluti- vos para encontrar pol´ıticas generales en el mundo de los bloques. Koza las representa como programas Lisp mientras que en la aproximaci´on de Baum se representan como una colecci´on de reglas. Igual que en RL son m´eto- dos no supervisados pero s´ı que pueden aprender pol´ıticas generales. Otros sistemas basados en programaci´on gen´etica no aprenden conocimiento de control, sino que intentan aprender un programa planificador ya adaptado al dominio [Spector, 1994]. Es decir, buscan en el espacio de planificado- res que funcionan bien en un dominio determinado. Hasta el momento, esta alternativa s´olo ha sido ensayada en dominios muy simples.

Aprendizaje de reglas en planificaci´on por reescritura (Plan Rewriting PbR): La idea b´asica de PbR [Ambite and Knoblock, 2001] es, primero generar un plan inicial y despu´es, reescribirlo iterativamente, usando una serie de reglas, hasta que la calidad del plan sea aceptable o se alcance el l´ımite de un recurso

determinado. Este tipo de planificaci´on tiene muchas ventajas con respecto a la escalabilidad, la calidad de los planes y el tiempo de resoluci´on de pro- blemas, pero requiere de tres entradas adicionales que no precisan otros pla- nificadores independientes del dominio: un generador de planes inicial, un conjunto de reglas y una estrategia de b´usqueda. Aunque las reglas est´an des- critas en un lenguaje declarativo de alto nivel, su dise˜no y selecci´on requieren un gran esfuerzo por parte del dise˜nador. Por eso, se ha creado un m´etodo capaz de aprender estas reglas a partir de ejemplos [Ambite et al., 2000]. En un dominio determinado se resuelven un conjunto de problemas de entrena- miento, con un planificador ´optimo y con el generador de planes. El sistema compara ambas soluciones y genera las reglas que transformar´ıan la soluci´on inicial en la ´optima.

Redes Neuronales [J.W. et al., 1991]: El sistema UCPOP-NN utiliza redes neuronales para aprender en un planificador de orden parcial [Zimmerman, 1996]. En [Fern´andez et al., 2002] se describe un m´etodo para aprender las accio- nes a realizar para resolver problemas del mundo de los bloques.

Documento similar