• No se han encontrado resultados

Experimentos y resultados

In document aprendizaje de conocimiento de control (página 134-137)

7. Sistema de aprendizaje GEBL 91

7.5. Experimentos y resultados

las reglas se ha mantenido la denominaci´onSELECTen vez dePREFERporque, desde el punto de vista de adquisici´on del conocimiento, las reglas aprendidas son de selecci´on, lo que ocurre es que, tal como est´a implementado el algoritmo de

TGP, no es posible adaptarlas como tales en el proceso de equiparaci´on y ejecuci´on de reglas. Ser´ıa necesario un cambio en el propio algoritmo deTGPque sobrepasa los objetivos de esta tesis.

Las reglas de selecci´on de operadores cambian el comportamiento por omisi´on de TGPpara que no se intente primero la persistencia, a no ser que, en un mismo punto de decisi´on, tambi´en se dispare una regla de persistencia. En este caso, se hace la ordenaci´on de los operadores, pero se prueba primero la persistencia.

7.5. Experimentos y resultados

Los experimentos descritos en este apartado tienen por objetivo demostrar la validez del m´etodo de aprendizaje propuesto, para incrementar la eficiencia del propio planificadorTGP en la resoluci´on de problemas. Se extrae el conocimiento de control de un conjunto de problemas de entrenamiento y se aplica en la resolu- ci´on de otros problemas diferentes, del mismo dominio, esperando que haya una disminuci´on de los recursos consumidos por el ordenador en su resoluci´on (tiempo y memoria) respecto a la no utilizaci´on de conocimiento de control. Se fija un tiem- po m´aximo de resoluci´on. El aprendizaje es lazy para corregir s´olo las decisiones en que las heur´ısticas del planificador fallan y minimizar el problema de utilidad t´ıpico de EBL. En el cap´ıtulo siguiente se ver´a c´omo se puede utilizar el conoci- miento de control extra´ıdo deTGPen otra t´ecnica de planificaci´on. En este caso el tipo de aprendizaje que conviene hacer es eager.

Las variables independientes de la experimentaci´on son:

- dominio de planificaci´on,

- problemas: variando la complejidad, medida, por ejemplo, por el n´umero de metas a satisfacer,

- m´etrica de calidad a utilizar: longitud del plan paralelo y n´umero de opera- dores en la soluci´on,

y las variables dependientes son:

- n´umero y porcentaje de problemas de un mismo dominio resueltos en el tiempo l´ımite de ejecuci´on establecido,

- tiempo de CPU que se tarde en encontrar la soluci´on del problema,

- calidad de la soluci´on encontrada, seg´un la m´etrica de calidad establecida, - puntos de decisi´on: n´umero de nodos del ´arbol de b´usqueda. Representa el

n´umero total de veces que el planificador intenta buscar una asignaci´on v´ali- da a un conjunto de metas.

La experimentaci´on se ha hecho utilizando los dominios de las competiciones internacionales de planificaci´on.TGPresuelve problemasPDDLcon los requisitos strips y equality. Los dominios de las competiciones definidos con estos requisitos son las versiones STRIPSde:

IPC02: Driverlog, Zenotravel, Satellite, Depots y Rover.

IPC00: Miconic, Logistics, Blocks y FreeCell.

Los primeros experimentos se realizaron con estos dominios y utilizando los problemas definidos para las competiciones.TGPintent´o resolver todos los proble- mas propuestos en las competiciones. En los dominios Depots, Rover y FreeCell no consigui´o solucionar ninguno de los problemas por lo que se desecharon para el aprendizaje. En el dominio Blocks s´olo resolvi´o un problema, pero no apren- di´o ninguna regla de ´el, por lo que tambi´en se descart´o. En los otros dominios se utilizaron los problemas m´as sencillos (los A primeros) para hacer el aprendiza- je. La tabla 7.1 resume los resultados obtenidos. Muestra el n´umero de problemas (columnas Problemas) de aprendizaje (A) y de validaci´on (V), los problemas re- sueltos porTGPsin conocimiento de control (TGP) y utilizando las reglas (GEBL) y el n´umero de reglas generadas (Reglas). Se muestra tanto el n´umero de proble- mas resueltos (Res) como el porcentaje ( % Res) de resueltos respecto al total de problemas probados. El tiempo de ejecuci´on fue 60s.

DOMINIO Problemas TGP GEBL

A V Res % Res Res % Res Reglas

Driverlog 3 20 9 45 % 9 45 % 8

Zenotravel 3 20 8 40 % 8 40 % 1

Logistics 2 30 4 13 % 0 0 % 6

Satellite 3 20 4 20 % 3 15 % 6

Miconic 10 150 33 22 % 31 21 % 8

Tabla 7.1: Resumen resultados deGEBLenTGPcon los problemas de las IPCs. N´umero de problemas resueltos.

Estos resultados reflejan que el m´etodo de aprendizaje no hace que se resuelvan m´as problemas. Las tablas detalladas con los valores de las variables dependientes mencionadas antes est´an en el ap´endice C.1. La tabla 7.2 muestra un resumen de dichos resultados. Muestra la suma total de las variables medidas de todos los pro- blemas resueltos porTGP tanto con reglas de control como sin ellas: el tiempo de

7.5. EXPERIMENTOS Y RESULTADOS 107 resoluci´on en segundos (TE), el tiempo de equiparaci´on de reglas (TM), los puntos de decisi´on (PD), la calidad de las soluciones medidas como la longitud del plan paralelo (Q) y el n´umero de reglas aprendidas (R). En todos los casos el tiempo de CPU necesario para resolver los problemas es peor con reglas de control que sin ellas. La calidad de las soluciones es la misma y los puntos de decisi´on, en el domi- nio Driverlog, Zenotravel y Miconic es pr´acticamente igual y en el Satellite, con las reglas, se incrementan en un 13 %. Esto demuestra que apenas hay diferencia entre usar las reglas de control y no usarlas. En el dominio Logistics, se comprob´o expe- rimentalmente que la disminuci´on en el n´umero de problemas resueltos al utilizar las reglas es debido a la expiraci´on del tiempo de ejecuci´on (60s) mas que a que las reglas se disparen en sitios incorrectos.

DOMINIO TGP GEBL

TE(s) PD Q TE(s) TM(s) PD Q R

Driverlog 51.50 682321 167 50.30 0.12 682321 167 8

Zenotravel 15.58 193608 43 16.64 0.95 193605 43 1

Satellite 1.35 59729 26 4.40 3.08 69072 26 6

Miconic 107.62 4817076 322 167.56 70.73 4817190 322 8 Tabla 7.2: Resumen resultados deGEBL enTGPcon los problemas de las IPCs. Tiempo, calidad y puntos de decisi´on acumulados de los problemas resueltos por ambos sistemas.

Se hicieron otros experimentos generando m´as problemas aleatorios, tanto de entrenamiento como de validaci´on. Se incluy´o un dominio m´as (Robocare, ver ap´endice A.7) no utilizado en las competiciones porque es un dominio especial- mente id´oneo para generar planes paralelos. Los resultados detallados est´an en el ap´endice C.1 y en las tablas 7.4 y 7.3 se muestra el resumen. La primera tabla re- fleja el n´umero de problemas resueltos por cada sistema, junto con los problemas utilizados para validar y entrenar, y la segunada tabla muestra el acumulado de los valores de las variables independientes medido para los problemas que resuelven ambos sistemas. Los resultados vuelven a confirmar que la utilizaci´on de las reglas de control casi no var´ıa el comportamiento deTGP, simplemente se observa un in- cremento en el tiempo de resoluci´on debido al proceso de equiparaci´on de reglas.

En los tres primeros dominios, tanto el n´umero total de puntos de decisi´on como la calidad total tienen el mismo valor en ambos casos, s´olo en el ´ultimo dominio se aprecia una reducci´on del 85 % en el n´umero de puntos de decisi´on, pero la calidad de las soluciones es igual y el tiempo total en encontrar las soluciones se incremen- ta en un 92 % con las reglas. Este aumento es debido al tiempo de equiparaci´on de reglas. En el dominio Logistics este tiempo es especialmente alto, incluso haciendo que expire el tiempo total antes de encontrar las soluciones; por eso se resuelven menos problemas con reglas que sin ellas. El tiempo total de ejecuci´on fue de 60s.

DOMINIO Problemas TGP GEBL

A V Res % Res Res % Res Reglas

Driverlog 23 100 100 100 % 100 100 % 8

Zenotravel 200 100 21 21 % 21 21 % 1

Logistics 200 100 93 93 % 4 4 % 6

Robocare 27 336 68 20 % 68 20 % 12

Tabla 7.3: Resumen resultados deGEBLenTGPcon los problemas aleatorios. N´umero de problemas resueltos.

DOMINIO TGP GEBL

TE(s) PD Q TE(s) TM(s) PD Q R

Driverlog 41.79 224672 769 42.24 0.07 224672 769 8

Zenotravel 0.30 195 43 0.20 0.00 195 43 1

Logistics 3.35 22487 34 150.14 146.79 22485 34 6

Robocare 138.20 3745275 693 1771.76 1682.15 558265 693 12 Tabla 7.4: Resumen resultados de GEBL en TGP con los problemas aleatorios. Tiempo, calidad y puntos de decisi´on acumulados de los problemas resueltos por ambos sistemas.

In document aprendizaje de conocimiento de control (página 134-137)