Experimentos y resultados - Sistema de aprendizaje GEBL 91

7. Sistema de aprendizaje GEBL 91

7.5. Experimentos y resultados

las reglas se ha mantenido la denominaciónSELECTen vez dePREFERporque, desde el punto de vista de adquisición del conocimiento, las reglas aprendidas son de selección, lo que ocurre es que, tal como está implementado el algoritmo de

TGP, no es posible adaptarlas como tales en el proceso de equiparaci´on y ejecuci´on de reglas. Ser´ıa necesario un cambio en el propio algoritmo deTGPque sobrepasa los objetivos de esta tesis.

Las reglas de selección de operadores cambian el comportamiento por omisión de TGPpara que no se intente primero la persistencia, a no ser que, en un mismo punto de decisión, también se dispare una regla de persistencia. En este caso, se hace la ordenación de los operadores, pero se prueba primero la persistencia.

7.5. Experimentos y resultados

Los experimentos descritos en este apartado tienen por objetivo demostrar la validez del método de aprendizaje propuesto, para incrementar la eficiencia del propio planificadorTGP en la resolución de problemas. Se extrae el conocimiento de control de un conjunto de problemas de entrenamiento y se aplica en la resolu- ción de otros problemas diferentes, del mismo dominio, esperando que haya una disminución de los recursos consumidos por el ordenador en su resolución (tiempo y memoria) respecto a la no utilización de conocimiento de control. Se fija un tiempo máximo de resolución. El aprendizaje es lazy para corregir sólo las decisiones en que las heur´ısticas del planificador fallan y minimizar el problema de utilidad t´ıpico de EBL. En el cap´ıtulo siguiente se verá cómo se puede utilizar el conocimiento de control extra´ıdo deTGPen otra técnica de planificación. En este caso el tipo de aprendizaje que conviene hacer es eager.

Las variables independientes de la experimentaci´on son:

- dominio de planificaci´on,

- problemas: variando la complejidad, medida, por ejemplo, por el n´umero de metas a satisfacer,

- métrica de calidad a utilizar: longitud del plan paralelo y número de operadores en la solución,

y las variables dependientes son:

- n´umero y porcentaje de problemas de un mismo dominio resueltos en el tiempo l´ımite de ejecuci´on establecido,

- tiempo de CPU que se tarde en encontrar la soluci´on del problema,

- calidad de la solución encontrada, según la métrica de calidad establecida, - puntos de decisión: número de nodos del árbol de búsqueda. Representa el

número total de veces que el planificador intenta buscar una asignación váli- da a un conjunto de metas.

La experimentaci´on se ha hecho utilizando los dominios de las competiciones internacionales de planificaci´on.TGPresuelve problemasPDDLcon los requisitos strips y equality. Los dominios de las competiciones definidos con estos requisitos son las versiones STRIPSde:

IPC02: Driverlog, Zenotravel, Satellite, Depots y Rover.

IPC00: Miconic, Logistics, Blocks y FreeCell.

Los primeros experimentos se realizaron con estos dominios y utilizando los problemas definidos para las competiciones.TGPintentó resolver todos los problemas propuestos en las competiciones. En los dominios Depots, Rover y FreeCell no consiguió solucionar ninguno de los problemas por lo que se desecharon para el aprendizaje. En el dominio Blocks sólo resolvió un problema, pero no apren- dió ninguna regla de él, por lo que también se descartó. En los otros dominios se utilizaron los problemas más sencillos (los A primeros) para hacer el aprendizaje. La tabla 7.1 resume los resultados obtenidos. Muestra el número de problemas (columnas Problemas) de aprendizaje (A) y de validación (V), los problemas resueltos porTGPsin conocimiento de control (TGP) y utilizando las reglas (GEBL) y el número de reglas generadas (Reglas). Se muestra tanto el número de problemas resueltos (Res) como el porcentaje ( % Res) de resueltos respecto al total de problemas probados. El tiempo de ejecución fue 60s.

DOMINIO Problemas TGP GEBL

A V Res % Res Res % Res Reglas

Driverlog 3 20 9 45 % 9 45 % 8

Zenotravel 3 20 8 40 % 8 40 % 1

Logistics 2 30 4 13 % 0 0 % 6

Satellite 3 20 4 20 % 3 15 % 6

Miconic 10 150 33 22 % 31 21 % 8

Tabla 7.1: Resumen resultados deGEBLenTGPcon los problemas de las IPCs. N´umero de problemas resueltos.

Estos resultados reflejan que el método de aprendizaje no hace que se resuelvan más problemas. Las tablas detalladas con los valores de las variables dependientes mencionadas antes están en el apéndice C.1. La tabla 7.2 muestra un resumen de dichos resultados. Muestra la suma total de las variables medidas de todos los problemas resueltos porTGP tanto con reglas de control como sin ellas: el tiempo de

7.5. EXPERIMENTOS Y RESULTADOS 107 resolución en segundos (TE), el tiempo de equiparación de reglas (TM), los puntos de decisión (PD), la calidad de las soluciones medidas como la longitud del plan paralelo (Q) y el número de reglas aprendidas (R). En todos los casos el tiempo de CPU necesario para resolver los problemas es peor con reglas de control que sin ellas. La calidad de las soluciones es la misma y los puntos de decisión, en el dominio Driverlog, Zenotravel y Miconic es prácticamente igual y en el Satellite, con las reglas, se incrementan en un 13 %. Esto demuestra que apenas hay diferencia entre usar las reglas de control y no usarlas. En el dominio Logistics, se comprobó expe- rimentalmente que la disminución en el número de problemas resueltos al utilizar las reglas es debido a la expiración del tiempo de ejecución (60s) mas que a que las reglas se disparen en sitios incorrectos.

DOMINIO TGP GEBL

TE(s) PD Q TE(s) TM(s) PD Q R

Driverlog 51.50 682321 167 50.30 0.12 682321 167 8

Zenotravel 15.58 193608 43 16.64 0.95 193605 43 1

Satellite 1.35 59729 26 4.40 3.08 69072 26 6

Miconic 107.62 4817076 322 167.56 70.73 4817190 322 8 Tabla 7.2: Resumen resultados deGEBL enTGPcon los problemas de las IPCs. Tiempo, calidad y puntos de decisi´on acumulados de los problemas resueltos por ambos sistemas.

Se hicieron otros experimentos generando más problemas aleatorios, tanto de entrenamiento como de validación. Se incluyó un dominio más (Robocare, ver apéndice A.7) no utilizado en las competiciones porque es un dominio especialmente idóneo para generar planes paralelos. Los resultados detallados están en el apéndice C.1 y en las tablas 7.4 y 7.3 se muestra el resumen. La primera tabla re- fleja el número de problemas resueltos por cada sistema, junto con los problemas utilizados para validar y entrenar, y la segunada tabla muestra el acumulado de los valores de las variables independientes medido para los problemas que resuelven ambos sistemas. Los resultados vuelven a confirmar que la utilización de las reglas de control casi no var´ıa el comportamiento deTGP, simplemente se observa un in- cremento en el tiempo de resolución debido al proceso de equiparación de reglas.

En los tres primeros dominios, tanto el número total de puntos de decisión como la calidad total tienen el mismo valor en ambos casos, sólo en el último dominio se aprecia una reducción del 85 % en el número de puntos de decisión, pero la calidad de las soluciones es igual y el tiempo total en encontrar las soluciones se incremen- ta en un 92 % con las reglas. Este aumento es debido al tiempo de equiparación de reglas. En el dominio Logistics este tiempo es especialmente alto, incluso haciendo que expire el tiempo total antes de encontrar las soluciones; por eso se resuelven menos problemas con reglas que sin ellas. El tiempo total de ejecución fue de 60s.

DOMINIO Problemas TGP GEBL

A V Res % Res Res % Res Reglas

Driverlog 23 100 100 100 % 100 100 % 8

Zenotravel 200 100 21 21 % 21 21 % 1

Logistics 200 100 93 93 % 4 4 % 6

Robocare 27 336 68 20 % 68 20 % 12

Tabla 7.3: Resumen resultados deGEBLenTGPcon los problemas aleatorios. N´umero de problemas resueltos.

DOMINIO TGP GEBL

TE(s) PD Q TE(s) TM(s) PD Q R

Driverlog 41.79 224672 769 42.24 0.07 224672 769 8

Zenotravel 0.30 195 43 0.20 0.00 195 43 1

Logistics 3.35 22487 34 150.14 146.79 22485 34 6

Robocare 138.20 3745275 693 1771.76 1682.15 558265 693 12 Tabla 7.4: Resumen resultados de GEBL en TGP con los problemas aleatorios. Tiempo, calidad y puntos de decisi´on acumulados de los problemas resueltos por ambos sistemas.

In document aprendizaje de conocimiento de control (página 134-137)