Diseño de un algoritmo de arrecifes de corales para la resolución de pantallas del videojuego Lemmings

(1)

Universidad Aut´ onoma de Madrid

Escuela Polit´ecnica Superior

Proyecto fin de carrera

DISE ˜ NO DE UN ALGORITMO DE ARRECIFES DE CORALES PARA

LA RESOLUCI ´ ON DE

PANTALLAS DEL VIDEOJUEGO LEMMINGS

Grado en Ingenier´ıa Inform´ atica

(2)

Dise˜no de un algoritmo de arrecifes de corales para la resoluci´on de pantallas del videojuego Lemmings

Alejandro Ortiz Martin Abril 2014

2

(3)

DISE ˜ NO DE UN ALGORITMO DE ARRECIFES DE CORALES PARA

LA RESOLUCI ´ ON DE

PANTALLAS DEL VIDEOJUEGO LEMMINGS

AUTOR: Alejandro Ortiz Martin TUTOR: Antonio Gonz´alez Pardo Co-Tutor: David Camacho Fern´andez

i

(4)

Grupo de la EPS: AIDA Dpto. de Ingenier´ıa Inform´atica

Escuela Polit´ecnica Superior Universidad Aut´onoma de Madrid

Abril 2014

ii

(5)

Resumen

El videojuego de los Lemmings fue desarrollado en 1991 y alcanzó gran popularidad durante esa década. En el juego, una población de Lemmings entra al nivel por un punto espec´ıfico y un número determinado de ellos deben alcanzar la salida. Para ello, el jugador dispone de un conjunto de habilidades que puede asignar un número determinado de veces a diferentes Lem- mings. Con estas acciones los Lemmings modifican el entorno de la pantalla (creando puentes, excavando, trepando paredes, etc) y construyen un camino seguro desde el punto de entrada hasta la salida de la pantalla.

Se ha demostrado que este videojuego tiene una complejidad NP-Completa. En cuanto a métodos de Inteligencia Artificial para la resolución de pantallas, lo más común es la utilización de algoritmos genéticos y algoritmos de colonias de hormigas. Estos algoritmos de Inteligencia Computacional proporcionan buenos resultados debido a su componente estocástica.

Recientemente, se ha desarrollado un nuevo algoritmo bio-inspirado llamado Coral Reef Optimization. Este nuevo algoritmo se basa en la competición entre corales por un espacio dentro del arrecife. Este algoritmo se ha aplicado satisfactoriamente en la optimización de diversos problemas numéricos.

En este Trabajo Fin de Grado se propone en el desarrollo y an´alisis de un algoritmo de coral para la resoluci´on de pantallas del videojuego Lemmings.

Figura 1: Pantalla de Lemmings

Palabras Clave

Lemmings, Coral Reef Optimization, Algorimos Evolutivos, resoluci´on de videojuegos.

iii

(6)

Abstract

The game of Lemmings was developed in 1991 and achieved great popularity during that decade. In the game, a population of Lemmings enters the level at a specific point and a number of them must reach the exit. To do this, the player has a set of skills that can be assigned a given number of times at different Lemmings. With these actions Lemmings change the environment of the screen (building bridges, digging, climbing walls, etc. ) and build a safe path from the starting point to the exit of the screen.

It has been proved that this game has a NP-Complete complexity. Regarding methods of Artificial Intelligence for screen resolution, the most common is the use of genetic algorithms and algorithms colonies ant. These Computational Intelligence algorithms provide good results because of their stochastic component.

Recently, a new algorithm has been developed called bio-inspired Coral Reef Optimization.

This new algorithm is based on the competition between corals by a space inside the reef. This algorithm has been applied successfully in various numerical optimization problems.

In this Bachelor Thesis is proposed in the development and analysis of an coral algorithm for resolution of screens of the videogame Lemmings.

Figura 2: Lemmings screen

Key words

Lemmings, Coral Reef Optimization, Evolutionary Algorithm, video game resolution.

iv

(7)

Agradecimientos

Quiero agradecer a mi tutor, Antonio Gonzalez, que me haya guiado durante todo el proceso de creaci´on de este trabajo.

Tambi´en quiero agradecer a mi co-tutor, David Camacho, que me haya permitido colaborar en su grupo de investigaci´on.

Y a mi novia, Tatiana Melissa Naranjo, por estar siempre ah´ı.

v

(8)

vi

(9)

´Indice general

´Indice de figuras ^IX

´Indice de tablas ^XI

1. Introducci´on 1

2. Estado del arte 3

2.1. Computaci´on bioinspirada . . . 3

2.1.1. Computaci´on evolutiva: algoritmos gen´eticos . . . 4

2.1.2. Inteligencia de enjambre: Ant Colony Optimization . . . 5

2.2. ¿Por qu´e el videojuego Lemmings? . . . 8

3. El algoritmo de Optimización por Arrecife de Coral 13 4. Implementación de CRO para Lemmings 17 4.1. Inicialización del arrecife . . . 17

4.2. Fase de formaci´on y operadores . . . 17

4.2.1. Broadcast spawning . . . 18

4.2.2. Brooding . . . 18

4.2.3. Reproducci´on asexual . . . 19

4.2.4. Larvae Setting . . . 19

4.2.5. Depredaci´on . . . 19

4.3. Adaptaci´on a resoluci´on de Lemmings . . . 19

4.3.1. Genotipo de los corales . . . 19

4.3.2. Adaptaci´on de los operadores . . . 20

4.3.3. Funci´on de fitness . . . 21

4.4. An´alisis de los par´ametros . . . 22

5. Pruebas 25 5.1. Pruebas de implementaci´on . . . 25

5.2. Comparaci´on con GA y ACO . . . 26

5.2.1. Configuraci´on del experimento . . . 26 vii

(10)

5.2.2. Análisis de los resultados iniciales . . . 28 5.2.3. Rectificación del fitness . . . 28 5.2.4. Análisis de los resultados con función de fitness heur´ıstica . . . 34

6. Conclusiones y trabajo futuro 35

A. Niveles analizados 37

viii ´INDICE GENERAL

(11)

´Indice de figuras

1. Pantalla de Lemmings . . . iii

2. Lemmings screen . . . iv

2.1. Esquema gen´erico de un algoritmo gen´etico. . . 4

2.2. Ejemplo de crossover en un punto. . . 5

2.3. Ejemplo de mutaci´on. . . 5

2.4. Estados iniciales del algoritmo ACO. Las zonas marrones representan materiales no atravesables, el punto rojo de la zona superior izquierda representa el objetivo y el punto de la zona inferior derecha representa el nido. Los puntos negros representan las hormigas, marcando las zonas que recorren en distintas tonalidades de verde seg´un la frecuencia. . . 7

2.5. Estados intermedios del algoritmo ACO. Las feromonas depositadas por las hormigas al encontrar el objetivo se representan en distintas tonalidades de azul seg´un su intensidad. . . 7

2.6. Estados finales del algoritmo ACO. . . 8

2.7. Ejemplo de grafo derivado del juego Lemmings. . . 9

2.8. Imagen frontal del videojuego Lemmings . . . 9

2.9. Ejemplo de puente construido por un Builder. En el centro del escenario se puede observar una escalera de color m´as claro colocada por un Builder que ya ha abandonado el nivel. . . 10

2.10. Ejemplo de nivel de dificultad f´acil. . . 11

2.11. Ejemplo de nivel de dificultad dif´ıcil. . . 11

2.12. Ejemplo de nivel de dificultad media. . . 11

3.1. Desove de los corales. . . 13

3.2. Inicialización de un arrecife de 100 posibles corales aleatoriamente al 60 % de ca- pacidad. Las casillas negras representan posiciones ocupadas por corales, mientras que las vac´ıas son huecos a disposición de siguientes generaciones. Tras la primera generación se puede apreciar que además de crecer nuevos corales, algunos han desaparecido por depredación. . . 14

4.1. Ejemplo de reproducci´on sexual externa. . . 18

4.2. Ejemplo de reproducci´on sexual interna. . . 19

4.3. Estructura del genotipo de un coral. . . 21

4.4. Ejemplo de punto de corte correcto e incorrecto en la reproducci´on sexual externa de CRO. . . 21

ix

(12)

4.5. Ejemplo de mutación variando un step o variando una acción en la reproducción sexual interna de CRO. . . 21 4.6. Representación de mejor fitness y del fitness medio de un arrecife de coral respecto

al número de épocas. . . 23 5.1. Ejemplos de niveles de distinta dificultad. . . 25 5.2. Evolución del fitness durante las primeras iteraciones del algoritmo. Se ha usado

el nivel 3, de dificultad f´acil. . . 27 5.3. Valores aproximados del fitness al quedar atrapados los lemmings en distintos

puntos del nivel. El n´umero en blanco representa el fitness aproximado de los lemmings que alcanzan la salida. . . 29 5.4. Valores aproximados del fitness al restar 0.5 al fitness de los atrapados. El n´umero

en blanco representa el fitness aproximado de los lemmings que alcanzan la salida. 30 5.5. Valores aproximados del fitness al aplicar una penalizaci´on en funci´on de la dis-

tancia a la salida. El número en blanco representa el fitness aproximado de los lemmings que alcanzan la salida. . . 31 5.6. Valores aproximados del fitness al aplicar la fórmula final. El número en blanco

representa el fitness aproximado de los lemmings que alcanzan la salida. . . 32 5.7. Representaci´on de la funci´on y = exp(x − 0,85) − 0,161. Convierte un intervalo

[-1, 1] en un intervalo [0, 1] tratando de mantener la parte cercana a y = 1 lo m´as pegado a la funci´on y = x para no variar el comportamiento en arrecifes donde predominan los corales que alcanzan la salida. . . 32

x ´INDICE DE FIGURAS

(13)

´Indice de cuadros

5.1. Configuraci´on del experimento con CRO. . . 26

5.2. Configuraci´on del experimento con CRO. . . 27

5.3. Configuraci´on del experimento con GA. . . 27

5.4. Configuraci´on del experimento con ACO. . . 28

5.5. N´umero de soluciones distintas encontradas por los algoritmos descritos usando la funci´on de fitness original. . . 29

5.6. N´umero de soluciones distintas encontradas por los algoritmos descritos usando la nueva funci´on de fitness. . . 33

5.7. N´umero de soluciones distintas encontradas por GA y CRO con y sin fitness heur´ıstico. . . 33

xi

(14)

(15)

1

Introducci´ on

La computación bioinspirada ha sido ampliamente usada en diferentes áreas, desde opti- mización de problemas combinatorios hasta búsqueda estocástica de soluciones en problemas complejos. Existe un gran número de dominios en los que se puede usar la computación bioinspirada, desde dominios industriales o de ingenier´ıa, como la planificación de proyectos o Project Scheduling Problem (PSP), hasta desarrollos teóricos como el problema de las N-reinas.

Estos problemas se caracterizan por tener una complejidad NP-completa, lo que quiere decir que la cantidad de recursos necesarios para su resolución incrementa mucho ante pequeños in- crementos en el tamaño del problema. Por esta razón, los algoritmos de búsqueda clásicos no son aplicables en estos dominios y se suele recurrir a algoritmos estocásticos como los de la computación bioinspirada.

Del conjunto de diferentes algoritmos que se pueden considerar bioinspiradas (Redes neuronales artificiales, lógica difusa, computación evolutiva e inteligencia de enjambre), este trabajo se centrara en un algoritmo evolutivo recientemente desarrollado y su aplicación para resolución de videojuegos: Coral Reef Optimization (CRO). Para comprobar su eficacia se comparará el rendimiento de CRO contra algoritmos representativos de distintos métodos de la computación bioinspirada, como son los algoritmos genéticos (GA) y los algoritmos de colonias de hormigas (ACO). Genetic Algorithms (GA) ha sido seleccionado como representante de la computación evolutiva, mientras que Ant Colony Optimization (ACO) se usará como ejemplo de inteligencia de enjambre.

Los tres algoritmos que compararemos tienen en común 2 caracter´ısticas principales. En primer lugar, todos trabajan con una población de posibles soluciones que navega por el espacio de soluciones del problema. Por otro lado, todos necesitan una función que indique cómo de buena o mala es una solución al problema, llamada función de fitness o evaluación. Esta función será utilizada para guiar a los algoritmos en la búsqueda de la solución optima.

Los algoritmos de inteligencia de enjambre, como ACO, se centran en el comportamiento colectivo de sistemas auto-organizativos donde las acciones individuales de cada individuo generan conocimiento colectivo basado en colonias sociales. Algunos ejemplos de estos algoritmos son particle swarm optimization (PSO), bee colony optimization, bird flocking o bacterial foraging.

En todos estos algoritmos la población inicial no var´ıa, esto significa que no hay generación de nuevos individuos. En lugar de eso, la población viaja a través del espacio de soluciones para encontrar la mejor solución del problema. En estas aproximaciones, la función de fitness no mide

1

(16)

la calidad de la población, sino la calidad de las soluciones encontradas por el enjambre. Los valores de fitness se usan para guiar a la población total, o enjambre, a la solución.

En el caso de GA, existe una población de individuos y cada uno de ellos representa una posible solución al problema modelado a través de su genotipo. Estos individuos son evaluados por una función que se llama función de fitness y que permite comparar cómo de bueno es un individuo, o lo que es lo mismo, cómo de buena es una solución. Los individuos con mejores fitness tendrán una mayor probabilidad de ser seleccionados para la fase de reproducción. La operación que permite la generación de nuevos individuos a partir de los genes de los mejores se llama crossover. Con esta operación, las caracter´ısticas de los nuevos individuos (es decir, el genotipo) se generan intercambiando diferentes partes de los genotipos de los padres. Por último, una operación de mutación cambia aleatoriamente los valores de algunos genes de los nuevos individuos. Estas dos operaciones proporcionan los mecanismos necesarios para la explotación y exploración del espacio de soluciones del problema.

El algoritmo CRO se basa en la simulación del proceso de formación y reproducción de los arrecifes de coral. Cada coral representará una solución al problema, de forma similar a los individuos de GA. El algoritmo CRO simula las distintas fases de la reproducción de los corales y la competición por el espacio en el arrecife, dando lugar a un algoritmo eficiente resolviendo problemas dif´ıciles de optimización.

El dominio de aplicación de este TFG es el conocido videojuego de Los Lemmings. Este juego de tipo puzzle alcanzó gran popularidad en la década de las 90. El objetivo básico de este juego es guiar a un grupo de lemmings a través de una serie de obstáculos hasta una salida designada. A pesar de la popularidad alcanzada y de que tiene una complejidad NP-completa, no se han realizado numerosos trabajos entorno a este juego.

El principal objetivo de este trabajo es desarrollar un algoritmo CRO que solucione pantallas de los lemmings, es decir que encuentre el camino que es capaz de llevar a los lemmings desde la entrada a la salida del nivel usando las acciones disponibles. Tras ello se comparar´a su eficacia con los algoritmos ya mencionados: Genetic Algorithm y Ant Colony Optimization.

Esta comparación se hará en base al número de soluciones encontradas.

2 CAP´ITULO 1. INTRODUCCI ´ON

(17)

2

Estado del arte

Este cap´ıtulo tiene como objetivo exponer el estado del arte actual en las áreas que este trabajo analiza. El apartado 2.1 proporciona una visión general de los algoritmos bioinspirados, centrándose especialmente en los dos algoritmos con que compararemos coral reef optimization (CRO): algoritmos genéticos (GA) en la sección 2.1.1 y ant colony optimization (ACO) en la sección 2.1.2.

El apartado 2.2 tambi´en proporciona una descripci´on detallada del tipo de problemas que trataremos de solucionar con estos algoritmos, y de como se adapta el videojuego lemmings para cumplir las caracter´ısticas que los definen.

2.1. Computaci´ on bioinspirada

La inteligencia artificial surgió en 1955 como convergencia de diversos campos, incluyendo psicolog´ıa, lingü´ıstica, filosof´ıa, neurociencia y ciencias de la computación. La definición del campo de la inteligencia artificial es, según la mayor parte de investigadores, el estudio y diseño de agentes inteligentes. A través de dicho estudio se pretenden lograr una serie de objetivos, entre los que se inclu´ıan representación del conocimiento, planificación, aprendizaje, y el que más nos atañe: resolución de problemas.

Muchas nuevas aproximaciones a la inteligencia artificial surgen de la idea de que la inteligencia surge tanto de las células, cuerpos y sociedades como de la evolución, el desarrollo y el aprendizaje. Tradicionalmente, la inteligencia artificial ha tratado de reproducir las capacida- des del cerebro humano; nuevos enfoques se inspiran en un abanico más amplio de estructuras biológicas que son capaces de auto-organizarse. Esto lleva directamente a la computación bioinspirada: el uso de ordenadores para modelizar fenómenos vivientes, y al mismo tiempo analizar la vida para mejorar el uso de los ordenadores.

La computación bioinspirada cubre numerosos campos, dependiendo de aquello de lo que hayan tomado inspiración: las redes neuronales se inspiran en la estructura interna del cerebro humano, la inteligencia de enjambre se inspira en el comportamiento colectivo de hormigas, termitas o pájaros, los algoritmos genéticos se basan en la teor´ıa de la evolución de Darwin...

Para este trabajo nos interesan especialmente los campos de la computaci´on evolutiva y la inteligencia de enjambre.

3

(18)

Poblaci´on Inicializaci´on

Fin del algoritmo

Progenitores

Sucesores

Recombinaci´on Mutaci´on

Selecci´on supervivientes

Selecci´on progenitores

Figura 2.1: Esquema gen´erico de un algoritmo gen´etico.

2.1.1. Computaci´on evolutiva: algoritmos gen´eticos

La computación evolutiva[1, 2] se comenzó a desarrollar basándose en las ideas de Darwin entre los años 1950 y 1970, y se centra en solucionar problemas de optimización a través de dos métodos usados conjuntamente: metaheur´ısticas y optimización estocástica. Las metaheur´ısticas son procedimientos genéricos y abstractos aplicables a un conjunto de problemas que suelen abandonar algún objetivo menor para lograr alcanzar la solución. Normalmente se usan cuando no se conoce un algoritmo que proporcione la solución óptima, o cuando el tiempo necesario para solucionar el problema mediante los algoritmos clásicos es inmanejable. Por otro lado, la optimización estocástica es un tipo de optimización que hace uso de un cierto grado de aleatoriedad, normalmente para evitar tener que explorar todo el espacio de soluciones.

La computación evolutiva suele hacer uso de una población sobre la que se aplica una progre- sión iterativa, simulando un crecimiento o desarrollo. Estas iteraciones, también denominadas

épocas, suelen ser inspiradas por mecanismos biológicos de evolución.

Los algoritmos genéticos son la rama más conocida de la computación evolutiva y se inspiran en la teor´ıa de la selección natural que Darwin propuso. La idea general de estos algoritmos es simular una población donde cada individuo representa una solución del problema a tratar.

Para ello es necesario tener una representación genética del dominio de soluciones (en forma de cadena de datos, simulando un genotipo) y una función de fitness, también llamada función de evaluación, que sea capaz de evaluar cada una de las posibles representaciones. A lo largo de las iteraciones, la evolución de la población se produce al entremezclar los mejores individuos entre si, siguiendo el esquema 2.1. Las distintas implementaciones del algoritmo se caracterizan principalmente por los operadores escogidos.

El operador de recombinación o crossover produce uno o dos sucesores a partir de dos progenitores. La versión del crossover más utilizada se denomina crossover en un punto, y consiste en cortar los genotipos de los progenitores por un punto aleatorio y formar los sucesores a partir de la combinación de los trozos resultantes como muestra la figura 2.2.

El operador de mutaci´on modifica un sucesor generado por crossover. Para esta modificaci´on se escoge un gen del sucesor aleatoriamente y se modifica su valor, como se observa en la figura 2.3.

4 CAP´ITULO 2. ESTADO DEL ARTE

(19)

Figura 2.2: Ejemplo de crossover en un punto.

Figura 2.3: Ejemplo de mutaci´on.

2.1.2. Inteligencia de enjambre: Ant Colony Optimization

El concepto de Swarm Intelligence (SI), o inteligencia de enjambre, surgió en 1989 en el contexto de la robótica. Aunque no hay una definición clara, la idea es imitar el comportamiento de sistemas naturales como enjambres de insectos o bandadas de pájaros para obtener un comportamiento colectivo, descentralizado y auto-organizado de un conjunto de individuos.

Cualquier sistema multi-agente y auto-organizado que muestre un comportamiento inteligente podr´ıa considerarse SI.

Un sistema SI está formado por una población de agentes simples que interactúan local- mente entre si y con el entorno. Cada agente sigue reglas muy simples, y aunque no hay una estructura de control centralizada, las pequeñas interacciones locales entre los agentes hacen surgir un comportamiento global ’inteligente’. Hay numerosos algoritmos que hacen uso de estos principios: Ant Colony Optimization, Particle Swarm Optimization, Grey Wolf Optimizer, River Formation Dynamics... En este trabajo nos centraremos en el primero de ellos, Ant Colony Optimization (ACO).

El algoritmo ACO[3, 4, 5, 6] imita el comportamiento de las colonias de hormigas. Las hormigas tratarán de encontrar el camino más corto entre los nodos de un grafo, G=(V,E), donde V es el conjunto de nodos que conforman el grafo y los vértices, E, representan las conexiones entre los nodos.

Los v´ertices del grafo contienen las feromonas depositadas por las hormigas. La cantidad de feromona depositada en el v´ertice que conecta el nodo i con el nodo j en el step t se denomina τij(t) e inicialmente no hay ninguna feromona en el grafo.

En el primer step, N hormigas se encuentran en el nodo origen del grafo. Las hormigas se mueven a traves del mapa contruyendo un camino (su propia solución). En cada nodo, la hormiga decide el siguiente nodo que será visitado basandose en una probabilidad. En el step t, dad una hormiga (k) localizada en el nodo i, la probabilidad (p^k_ij(t)) de moverse al nodo j se define por la ecuación 2.1.

CAP´ITULO 2. ESTADO DEL ARTE 5

(20)

p^k_ij(t) =







τ_ij^α(t)η^β_ij(t) P

u∈N k i

τ_iu^α(t)η^β_iu(t) if j ∈ N_i^k

0 if j /∈ N_i^k

(2.1)

Donde N_i^k representa el conjunto de nodos viables conectados al nodo i, para la hormiga k comenzando en el nodo i, mientras que ηij representa el valor de la heur´ıstica al moverse del nodo i al nodo j. α es un parámetro que controla la influencia de las concentraciones de feromonas y β es otro parámetro que controla la influencia de la heur´ıstica. Estos dos parámetros sirven para encontrar un balance entre la exploración (encontrar más soluciones) y la explotación (mejorar la soluciones encontradas) del algoritmo. P

u∈N_i^kτ_iu^α(t) es el total de feronomas depositadas en todos los vertices que conectan el nodo i con el resto de nodos.

Cuando cualquier hormiga encuentra la comida (es decir, obtiene una solución), deshace el camino de vuelta al nido depositando feromonas en el camino recorrido. La cantidad de feromonas depositadas dependerá de la calidad de la solución encontrada. Esta calidad la determina una función de fitness, que depende del problema a solucionar. Esto significa que mejores soluciones se representan con valores de feromonas más altos y estas feromonas aumentarán las probabilidades del camino se ser elegido por otras hormigas.

Por ultimo, la cantidad de feromonas contenida en cada vertice se calcula a˜nadiendo todas las cantidades depositadas por todas las hormigas (ver ecuaci´on 2.2).

τ_ij(t + 1) = τ_ij(t) +

N

X

k=1

△τ_ij^k(t) (2.2)

Donde △ τ_ij^k(t) es la variaci´on de las feromonas producida por la hormiga k.

Para permitir la exploración de nuevas soluciones, las feromonas sufren un proceso de eva- poración. En cada iteración, las feromonas se evaporan de acuerdo a un ratio de evaporación especifico. Esta evaporación se puede entender como un descenso del valor de las feromonas y se calcula del siguiente modo: τ_ij(t) = (1 − ρ)τ_ij(t − 1). Por lo tanto, el parámetro ρ, ρ ∈ [0, 1], permite controlar como de rápido se evaporarán las feromonas.

Un ejemplo del funcionamiento del algoritmo se puede observar entre las figuras 2.4, 2.5 y 2.6. La figura 2.4a muestra el estado inicial de ACO. Las zonas marrones representan materiales no atravesables, el punto rojo en la zona superior izquierda representa el objetivo y el punto de la zona inferior derecha representa el nido, desde donde partirán las hormigas (puntos negros) en su búsqueda. En la figura 2.4b las hormigas han comenzado a explorar los alrededores del nido, se representan en distintas tonalidades de verde los caminos recorridos por las hormigas. Las hormigas continúan la búsqueda hasta dar con una solución, como se puede observar en 2.5a. El rastro de feromonas de vuelta al nido se representará en tonalidades de azul, según su intensidad.

Al continuar la exploraci´on se acaban encontrando varios caminos al objetivo (figura 2.5b). Por

´

ultimo, las hormigas marcan los caminos encontrados, y se empiezan a centrar en el más eficiente de los dos, hasta encontrar la solución óptima (figuras 2.6a y 2.6b).

(21)

(a) Estado inicial de ACO. (b) Exploraci´on inicial del entorno.

Figura 2.4: Estados iniciales del algoritmo ACO. Las zonas marrones representan materiales no atravesables, el punto rojo de la zona superior izquierda representa el objetivo y el punto de la zona inferior derecha representa el nido. Los puntos negros representan las hormigas, marcando las zonas que recorren en distintas tonalidades de verde seg´un la frecuencia.

(a) Se encuentra el objetivo por primera vez.

(b) Las hormigas encuentran varios caminos al objetivo.

Figura 2.5: Estados intermedios del algoritmo ACO. Las feromonas depositadas por las hormigas al encontrar el objetivo se representan en distintas tonalidades de azul seg´un su intensidad.

(22)

(a) Se ’eval´uan’ los distintos caminos encontrados.

(b) Las hormigas finalmente han encontrado la soluci´on ´optima.

Figura 2.6: Estados finales del algoritmo ACO.

2.2. ¿Por qu´ e el videojuego Lemmings?

Tradicionalmente se han aplicado técnicas de inteligencia artificial a juegos de mesa como el ajedrez, las damas o el kahala. Sin embargo, el impacto que han tenido los videojuegos ha generado un interés creciente en la utilización practica de técnicas de AI sobre videojuegos comerciales. Actualmente hay un gran número de conferencias internacionales que proponen diferentes competiciones o retos, cuyo principal objetivo es aplicar las técnicas de AI para solucionar problemas como resolución automática de niveles, definición de bots autónomos o generación automática de niveles. En estas conferencias se han promovido especialmente las competiciones basadas en juegos populares como Mario Bros, Ms-Pacman o Starcraft, pero en ninguna ocasión se han llevado a cabo competiciones sobre el videojuego Lemmings. Esto provoca que existan numerosos trabajos y art´ıculos sobre estos primeros videojuegos, mientras que apenas hay estudios sobre Lemmings.

En 1998, John McCarthy, quien acuñó el término de Artificial Intelligence (AI), afirmó que el juego de los lemmings se puede considerar una Drosophila en la investigación de este campo[7].

Esto es, un problema representativo de la inteligencia artificial, por lo que es especialmente interesante probar nuestros algoritmos en adaptaciones de este juego.

El principal uso de CRO, al igual que GA, es la resoluci´on de problemas de optimizaci´on.

Por otro lado ACO está especialmente diseñado para encontrar caminos óptimos en grafos. Una correcta modelización del videojuego Lemmings permite convertirlo en una búsqueda en grafo para ACO y un problema de optimización para GA y CRO.

En primer lugar, podr´ıamos interpretar una partida de lemmings como un grafo en que cada nodo corresponde a un estado del tablero y cada arista o decisión a las acciones disponibles dado un estado concreto, como muestra la figura 2.7. Cada nodo representa un paso concreto de la simulación, y cada acción (o ausencia de ella) llevar´ıa al siguiente paso. Hay que tener en cuenta diversos factores como el limite de uso de las acciones y las condiciones de uso de las m´ısmas.

Por otro lado, introducir un genotipo (codificado como se indica más adelante, en el apartado 4.3.1) en el simulador del videojuego Lemmings proporciona una función de fitness que permite convertir el videojuego en un problema de optimización adecuado para GA y CRO.

(23)

Estado inicial

Climber . . .

Floater . . .

Exploder . . .

Blocker . . .

Builder . . .

Basher . . .

Miner . . .

Digger . . .

Walker . . .

Figura 2.7: Ejemplo de grafo derivado del juego Lemmings.

El videojuego Lemmings es un juego de tipo puzzle-plataforma desarrollado en 1991, muy popular por su complejidad. Se despleg´o en numerosas plataformas, y se hicieron m´ultiples remakes y secuelas.

Figura 2.8: Imagen frontal del videojuego Lemmings

Los lemmings son criaturas que necesitan ser salvadas. En cada nivel, los lemmings comien- zan en un punto espec´ıfico del escenario y deben ser guiados al punto de salida por el jugador.

Viven en un mundo bidimensional compuesto de materiales modificables y no modificables, y les afecta la gravedad. Comenzarán a andar en una dirección espec´ıfica hasta encontrarse un obstáculo, en cuyo caso el lemming cambiará la dirección y continuará andando. En ningún momento dejarán de andar, a no ser que se alcance la salida. En el caso en que el lemming encuentre un agujero, caerá. Hay dos modos en que un lemming puede morir, consideradas en este trabajo: cayendo desde una altura demasiado alta o cayendo más allá del borde inferior de la pantalla. Hay que tener en cuenta que los otros bordes del escenario (los laterales y el superior) se cuentan como material impenetrable, por lo que los lemmings se darán media vuelta al topar con ellos, en vez de considerarse muertos al salir del mapa por esos extremos.

Para guiar a los lemmings hasta la salida, los jugadores tienen un conjunto de habilidades que deben asignar a los lemmings. Usando estas habilidades, los lemnings pueden modificar el entorno creando t´uneles, o puentes, y por lo tanto creando nuevos caminos para alcanzar la salida. Hay ocho habilidades distintas que pueden ser asignadas a los lemmings:

1. Climber : Un lemming al que se le proporciona la habilidad Climber puede escalar muros verticales. Esta habilidad se puede asignar en cualquier momento de la vida de un lemming y durar´a durante el resto de la partida, es decir, podr´a escalar verticalmente cualquier muro que se encuentre hasta que muera o encuentre la salida.

2. Floater : Esta habilidad permite al lemming abrir un parag¨uas si cae desde una gran

(24)

distancia, evitando su muerte. Al igual que la habilidad anterior, una vez asignada se mantiene durante toda la partida. Un lemming con la habilidad Floater ser´a inmune a la muerte por ca´ıda desde una gran altura, sin embargo seguir´a podr´ıa al salir del escenario por el lado inferior.

3. Exploder : El lemming explotará tras un breve retraso. El lemming que use esta habilidad morirá irremediablemente, llevándose consigo parte de su entorno como material modificable, pero no otros lemmings.

4. Blocker : Usando esta habilidad, el lemming se parar´a en el sitio, impidiendo pasar al resto de lemmings. Los lemmings que se encuentren con un Blocker reaccionar´an como al toparse con terreno no atravesable e inmodificable, dando media vuelta. Esta habilidad juega un papel fundamental al guiar a los lemmings.

5. Builder : El lemming con esta habilidad comenzará a construir un puente y continuará hasta que se le asigne otra acción o hasta alcanzar una determinada longitud. Este puente irá ascendiendo lentamente como muestra la figura 2.9, permitiendo a otros lemmings alcanzar lugares más altos sin necesidad de Climber o superar agujeros en el terreno. Una vez terminado el puente el lemming dejará su papel de Builder y comenzará a andar (normalmente cayendo por el borde del puente), aunque se puede volver a ejecutar la acción para que continue construyendo.

6. Basher : Permite crear túneles horizontales si el entorno lo permite. Esta acción permite atravesar muros o zonas de material modificable, pero no funcionará contra material no editable.

7. Miner : Esta habilidad es similar a la anterior, pero en este caso el t´unel se excava diago- nalmente, descendiendo a trav´es de materiales modificables.

8. Digger : El lemming cavará verticalmente hacia abajo hasta encontrar aire o un material sólido. Al igual que las anteriores, no permite pasar a través de Blockers.

Figura 2.9: Ejemplo de puente construido por un Builder. En el centro del escenario se puede observar una escalera de color m´as claro colocada por un Builder que ya ha abandonado el nivel.

En el mundo de los lemmings hay numerosos tipos de materiales, pero se pueden agrupar en 2 clases distintas: los que se pueden modificar (es decir, pueden ser excavados) y aquellos que no pueden ser alterados. En el primer tipo, las habilidades Basher, Miner y Digger están permitidas. En el caso en que un lemming este cavando y se encuentre un material que no puede ser excavado, el lemming parará de cavar y empezará a caminar. Dependiendo de los tipos de materiales, se han diseñado tres niveles diferentes de complejidad:

Fácil: Estos niveles usan los dos tipos de materiales, y las soluciones requieren caminos cortos con pocas acciones por parte de los lemmings para alcanzar la salida. Cuando se usan materiales no modificables, las colonias de lemmings son guiadas a la salida porque las habilidades relacionadas con excavar no pueden ser usadas (por tanto el espacio de búsqueda se reduce). Figura 2.10 muestra un ejemplo de nivel fácil.

(25)

Figura 2.10: Ejemplo de nivel de dificultad f´acil.

Dif´ıcil: Este tipo de niveles usan solo materiales modificables, y la solución para alcanzar la salida necesita que un gran número de habilidades y acciones sean elegidas. La ausencia de materiales no modificables aumenta las posibles ramificaciones del problema, aumentando considerablemente la complejidad y el espacio de búsqueda de las soluciones.

Figura 2.11 muestra un ejemplo de nivel dif´ıcil.

Figura 2.11: Ejemplo de nivel de dificultad dif´ıcil.

Medio: Estos niveles usan una combinaci´on de los anteriores, como la figura 2.12 muestra.

En este tipo de niveles, ambos materiales pueden ser usados y la soluci´on puede ser un compuesto de acciones. En estos niveles, es posible encontrar partes donde se permite una mayor variedad de acciones a los lemmings y partes donde el n´umero de acciones posibles es reducido.

Figura 2.12: Ejemplo de nivel de dificultad media.

Además, cada nivel tiene su propia configuración de habilidades, donde cada habilidad puede ser usada (es decir, asignada) un número máximo de veces. No es necesario usar todas las habilidades en cada nivel. El número de veces que se puede usar una habilidad también puede ser un marcador de complejidad de un escenario, puesto que la ausencia de Builders o Bashers puede provocar que la búsqueda de la solución sea mucho mas larga y costosa. Sin embargo, en la mayor parte de los casos se gastan menos habilidades de las disponibles para su uso.

El juego de los lemmings puede ser considerado un problema interesante para investigar

(26)

especialmente con algoritmos de optimización. Tres objetivos son necesarios para optimizar el juego: salvar el mayor número de lemmings, minimizar el uso de habilidades necesarias para alcanzar la salida y encontrar el mejor camino que permite salvar el máximo número de lemmings con el m´ınimo uso de habilidades. Estos objetivos se verán reflejados en la función de evaluación, y definirán qué se está buscando en los distintos algoritmos de optimización.

(27)

3

El algoritmo de Optimizaci´ on por Arrecife de Coral

El algoritmo CRO simula en el ciclo de vida de los corales en los arrecifes coralinos. Los corales pueden reproducirse sexual y asexualmente. La reproducción asexual se produce cuando un coral concreto alcanza un cierto tamaño y se divide, produciendo un segundo coral con com- posición genética exactamente igual que se escinde del coral principal y tratará de establecerse como una nueva colonia.

Por otro lado, la mayor parte de los corales se reproducen sexualmente por desove (Broadcast spawning), soltando numerosos huevos y esperma al agua que forman unas nubes de larvas que posteriormente tratar´an de establecerse como nuevas colonias o corales.

Cada una de las nuevas larvas de coral que se intenten establecer en el arrecife tendr´a que competir con los corales existentes por el espacio disponible.

Figura 3.1: Desove de los corales.

CRO es una nueva aproximación meta-heur´ıstica basada en la reproducción de los corales y la formación de los arrecifes de coral, propuesto recientemente en [8] y [9]. Básicamente, CRO se basa en una modelización artificial del arrecife de coral, consistiendo en una cuadricula de N × M que representa el arrecife donde se asentarán los corales. Asumimos que cada posición de la cuadricula (i, j) es capaz de contener un coral, representando una solución al problema de optimización dado. Estas soluciones se encuentran codificadas en una cadena de valores similar al genotipo de los algoritmos evolutivos.

Los corales competirán por el espacio en el arrecife, y esta competición se realizará com- parando la calidad de los corales. Esta calidad se mide con una función de fitness que evalúa el genotipo del coral. En primer lugar se inicializa el arrecife en función del tamaño máximo disponible y la tasa de ocupación inicial indicada. Se asignarán N ∗ M ∗ o corales generados aleatoriamente, donde o es el porcentaje inicial de ocupación, a casillas aleatorias de la cuadricula.

13

(28)

(a) Arrecife inicial. (b) Arrecife tras una generaci´on.

Figura 3.2: Inicialización de un arrecife de 100 posibles corales aleatoriamente al 60 % de capaci- dad. Las casillas negras representan posiciones ocupadas por corales, mientras que las vac´ıas son huecos a disposición de siguientes generaciones. Tras la primera generación se puede apreciar que además de crecer nuevos corales, algunos han desaparecido por depredación.

Se mantienen el resto de casillas vac´ıas (como se observa en la figura 3.2a), dejando huecos en el arrecife que pueden ser usados por nuevos corales para instalarse y crecer en un futuro (véase figura 3.2b). La proporción entre casillas vac´ıas y ocupadas en este inicio del algoritmo es un parámetro importante de CRO.

Cada coral tiene un valor de salud proporcionado por la función de fitness en función de su genotipo. Esta función de fitness representa el objetivo del problema. CRO se basa en el hecho de que el arrecife progresará, puesto que los corales más saludables y fuertes (que representan mejores soluciones al problema) sobreviven, mientras que los menos saludables mueren.

Después de la inicialización mencionada anteriormente, una segunda fase de la formación de los arrecifes se simula artificialmente: la simulación de la reproducción de los corales se efectúa aplicando secuencialmente una serie de operadores. Este conjunto secuencial se aplica repetida- mente a lo largo de una serie de épocas hasta que un criterio de parada se cumpla. Se definen varios operadores que imitan la reproducción de los corales, entre ellos: una modelización de la reproducción sexual (Broadcast Spawning y Brooding), una modelización de la reproducción asexual (Budding). Tras la reproducción sexual y asexual, el conjunto de larvas formadas tra- tarán de encontrar un lugar donde establecerse y crecer en el arrecife. Puede ser en espacio libre, o en espacio ocupado, luchando contra el coral que ocupe la posición. Si las larvas no tienen éxito encontrando un lugar en un número dado de intentos, se consideran v´ıctimas de la depredación. Por ultimo, se consideran posibles eventos catastróficos como depredación por pólipos, eliminando parte de los corales del arrecife. Esta segunda fase de CRO se puede detallar del siguiente modo:

1. Broadcast Spawning (reproduccion sexual externa): la modelizaci´on de la reproducci´on de los corales por broadcast spawning consiste en los siguientes casos:

a) En un paso k de la fase de formación del arrecife, se selecciona una fracción aleatoria de los corales existentes para ser los broadcast spawners, aquellos que se reproducirán por este método. La fracción con respecto a la cantidad total de corales existentes es un parámetro del algoritmo y se denota como F_b. Los corales no seleccionados (i.e.

1 − Fb) son candidatos a reproducirse por brooding m´as adelante en el algoritmo.

b) Se seleccionan parejas del conjunto de broadcast spawners seleccionado en el paso k.

Cada una de estas parejas formará una larva de coral por crossover, que posterior- 14 CAPÍTULO 3. EL ALGORITMO DE OPTIMIZACI ÓN POR ARRECIFE DE CORAL

(29)

Algorithm 1: Algoritmo Coral Reef Optimization Gen´erico

1 iniciarArrecife(f)

2 while g < numGeneraciones do

3 lse ← reproduccionSexualExterna(f)

4 l_si ← reproduccionSexualInterna(f)

5 l_a← reproduccionAsexual(f)

6 larvaeSetting(lse, f)

7 larvaeSetting(l_si, f)

8 larvaeSetting(l_a, f)

9 depredacion(f)

10 g ← g + 1

11 end

12 devolver mejor coral de f

mente se tratarán de asentarse por Larvae setting. Una vez que dos corales han sido seleccionados para ser progenitores, no podrán volver a ser seleccionados en este paso k (i.e. dos corales solo pueden ser progenitores una vez en cada paso). Esta selección se puede hacer aleatoriamente uniforme o proporcionalmente al fitness.

2. Brooding (reproducción sexual interna): como se ha mencionado antes, en cada paso k de la fase de formación de CRO, la fracción de los corales existentes que se reproducirá por brooding será 1 − Fb. La modelización de esta reproducción sexual interna consistirá en la formación de una larva de coral mutando aleatoriamente el coral progenitor (auto- fertilizándose considerando corales hermafroditas). La larvas se tratarán de asentar en la fase de Larvae setting junto con las larvas generadas en el paso anterior.

3. Reproducción asexual: en el modelo de reproducción asexual (budding o fragmentación), el conjunto total de corales existentes en el arrecife se ordenan en función de su salud, dada por la función de fitness. Sobre el conjunto ordenado una fracción F_a (parámetro del algoritmo) se duplica a si misma y trata de asentarse en un lugar distinto del arrecife siguiente el proceso de Larvae setting. Nótese que con este proceso el número de corales idénticos en el arrecife aumenta. Esto puede producir que el mismo coral (misma solución) esté poblando la mayor parte del arrecife, haciendo que el algoritmo converga a soluciones locales. Por este motivo es necesaria la utilización de procedimientos para el control de copias del arrecife. Este procedimiento se lleva a cabo durante la fase de Larvae setting, impidiendo asentarse a las larvas que representen soluciones repetidas.

4. Larvae setting: una vez que todo las larvas de las etapas anteriores se han formado, tra- tarán de asentarse y crecer en el coral. En primer lugar se realizará el control de corales idénticos: en caso de que la solución que una larva representa se encuentre en el arrecife más de µ veces (parámetro del algoritmo) la larva no se asentará. Tras ello se calculan los valores de salud de los nuevos corales usando la función de fitness. Después cada larva intentará establecerse en una casilla (i,j) aleatoria de la cuadr´ıcula que representa el coral.

Si la casilla está vac´ıa, el coral se asentará en dicha posición. Por otro lado, si algún coral está ocupando la casilla en cuestión, la nueva larva solo se asentará si el nuevo coral representa una solución mejor que aquella solución representada por el coral que se encuentra en la posición del arrecife. La definición de ”mejor”solución dependerá del objetivo que tenga el algoritmo (si se pretende maximizar o minimizar una función objetivo). En el caso de que el nuevo coral sea peor que aquel que está asentado en el arrecife, el nuevo coral busca una nueva posición. Este proceso se puede repetir un número determinado de veces que se especifica por el parámetro κ. Si el coral agota todos estos intento y no ha CAPÍTULO 3. EL ALGORITMO DE OPTIMIZACI ÓN POR ARRECIFE DE CORAL 15

(30)

encontrado un lugar donde asentarse, el nuevo coral muere.

5. Depredation in polyp phase: Los corales pueden morir durante la fase de formación del algoritmo CRO. Al final de cada fase de reproducción k, un número pequeño de corales puede ser depredado, liberando espacio en el arrecife para la siguiente generación de corales. El operador de depredación ordena todos los corales del arrecife en función de su valor de salud, y una fracción F_d (parámetro del algoritmo) de los peores corales del arrecife son candidatos a morir. Esto candidatos morirán con una probabilidad P_d (parámetro del algoritmo). Para simplificar la configuración de parámetros del algoritmo, el valor de esta fracción puede asignarse como Fd=Fa. Cualquier otra asignación que cumpla que F_d+ F_a≤ 1 también es válida.

16 CAP´ITULO 3. EL ALGORITMO DE OPTIMIZACI ´ON POR ARRECIFE DE CORAL

(31)

4

Implementaci´ on de CRO para Lemmings

Este cap´ıtulo se centrar´a en la implementaci´on de CRO que se ha llevado a cabo en este TFG.

En primer lugar explicaré cada uno de los operadores y apartados del algoritmo, para después explicar el algoritmo al completo. La codificación del genotipo de los corales y la función de fitness utilizada, al ser las partes que no son genéricas del algoritmo sino particulares al problema a solucionar, se dejarán para el final.

4.1. Inicializaci´ on del arrecife

La parte central del algoritmo hace uso de un único arrecife (un conjunto de corales o individuos), que se irá modificando a lo largo de las épocas de entrenamiento. Este arrecife se representa como un array que contendrá tanto corales como espacios vac´ıos.

La inicialización del arrecife consiste en rellenar el array de corales. Esta inicialización tiene dos parámetros, el tamaño de la cuadr´ıcula y el porcentaje de ocupación. Para rellenar el arrecife, insertamos N ∗ M ∗ o corales generados aleatoriamente (por el método explicado en el apartado 4.3.1) en el array en posiciones aleatorias hasta cubrir la proporción indicada.

4.2. Fase de formaci´ on y operadores

Tras inicializar el arrecife, viene la segunda fase del algoritmo: la fase de formación. Esta fase itera una serie de operadores secuencialmente a lo largo de una serie de épocas. Las épocas de formación se sucederán hasta que se cumpla un criterio de parada. Este criterio de parada podr´ıa ser alcanzar una determinada calidad con el mejor coral, o pasar un determinado número de épocas sin que el mejor coral mejore. Para prevenir que un resultado máximo local haga saltar esta segunda condición, por ejemplo estancando el mejor coral en un resultado no óptimo durante demasiadas épocas, he escogido tener un número de épocas fijo, independiente de la evolución del arrecife. Esta elección alarga algunas ejecuciones, pero en escenarios especialmente complejos es necesaria para obtener buenos resultados.

Cada una de estas épocas producirá una cantidad fija de larvas por reproducción sexual (bien por Broadcast spawning o por Brooding) dependiente del parámetro del algoritmo α y otra

17

(32)

Figura 4.1: Ejemplo de reproducci´on sexual externa.

cantidad fija por reproducción asexual, dependiente del parámetro Fa explicado más adelante.

Estas larvas tendrán que luchar por ganar su posición en el arrecife. Por otro lado, una porción de los corales del arrecife tienen la posibilidad de ser depredados al finalizar cada época.

A continuación se explicarán detalladamente cada una de las partes de la fase de formación.

4.2.1. Broadcast spawning

Al comienzo de la reproducción sexual se seleccionan aleatoriamente los corales que actuarán como broadcast spawners. Como ya se indicó en la descripción del algoritmo, ésta fracción se denota como F_b.

A partir del conjunto seleccionado se seleccionan parejas que formarán, por reproducción sexual externa, una larva cada una. Este operador selecciona aleatoriamente un punto de corte en cada progenitor e intercambia los bloques formados por la separación resultante, tal y como muestra la figura 4.1.

Solo se podrá ser progenitor una vez por época, es decir, que los corales que se seleccionen para formar parejas se extraerán del conjunto antes de seleccionar más. La selección de los progenitores es proporcional al fitness: los corales con mejor fitness, y por tanto las mejores soluciones al problema, tendrán más posibilidades de ser seleccionados como progenitores.

Puesto que se deben formar α larvas por reproducción sexual, pero esta cantidad también debe incluir las formadas por Brooding, se formarán un total de F b × α larvas por broadcast spawning.

4.2.2. Brooding

El conjunto de corales que no sea seleccionado para reproducción sexual externa (Broadcast spawning) será seleccionado para la reproducción sexual interna o Brooding. Este conjunto corresponderá a una proporción 1 − F b de los corales. La reproducción sexual interna consiste en aplicar al progenitor una modificación aleatoria con una probabilidad γ.

Las variaciones más comunes son intercambiar distintas partes del genotipo o variar valores concretos. Se ha escogido la segunda opción: la reproducción sexual interna modifica aleatoriamente un elemento cualquiera del genotipo del coral. Cada coral del conjunto seleccionado liberará una larva con su mismo genotipo, y a esta larva se le aplicará la modificación. El conjunto de larvas tendrá tamaño (1 − F b) × α, para complementar el conjunto formado por Broadcast spawning y obtener un total de α larvas por reproducción sexual.

18 CAP´ITULO 4. IMPLEMENTACI ´ON DE CRO PARA LEMMINGS

(33)

Figura 4.2: Ejemplo de reproducci´on sexual interna.

4.2.3. Reproducci´on asexual

El proceso de reproducción asexual, también conocido como budding o fragmentación, consiste en duplicar una serie de corales. Una fracción Fa de los corales seleccionados de entre los mejores del arrecife se duplica, dando lugar a larvas de igual genotipo, y se asentarán por el método de Larvae Setting.

4.2.4. Larvae Setting

Una vez que las larvas han sido generadas a través de los tres procesos anteriores, éstas buscarán su hueco en el arrecife. Puesto que se ha de limitar el número de corales idénticos, no se tratarán de asentar los corales que superen la cantidad indicada de corales iguales. Cada una de las larvas tendrá κ intentos para asentarse en el arrecife, si no lo logra será descartada.

En cada intento seleccionará una casilla aleatoria del arrecife. Si la casilla está vac´ıa, el coral crecerá en ella sin importar el valor de salud que tenga. Por otro lado, si algún coral esta ocupando la casilla en cuestión, la nueva larva solo se asentara si su función de salud es mejor que la del coral existente. El algoritmo 2 muestra el pseudocódigo de este procedimiento.

4.2.5. Depredaci´on

El proceso de depredación elimina corales débiles, es decir que representen soluciones al algoritmo peores que el resto de corales del arrecife. Este método permite liberar espacio para albergar futuros corales. Para simular esto, se selecciona un subconjunto del arrecife formado por una fracción F_dde los corales con peor valor de salud. Cada uno de estos corales tendrá una probabilidad muy baja, Pd, de ser eliminado del arrecife.

4.3. Adaptaci´ on a resoluci´ on de Lemmings

Hay dos partes fundamentales del algoritmo CRO que deben ser adaptadas al problema concreto a estudiar: la estructura de los corales (junto con las adaptaciones de los procedimientos de reproducción que esta conlleve) y la función de fitness que lo evaluará. La combinación de ambas será crucial en la correcta aplicación del algoritmo CRO al problema concreto a solucionar, en este caso la resolución de pantallas del videojuego Lemmings.

4.3.1. Genotipo de los corales

Cada coral debe contener una posible solución a un escenario de los lemmings, que se codi- ficará como un conjunto de pares paso-acción, tal y como muestra la figura 4.3, que indica que acción se ejecutará en que step concreto. Por ejemplo un par 3-Digger indicará que en el step CAPÍTULO 4. IMPLEMENTACI ÓN DE CRO PARA LEMMINGS 19

(34)

Algorithm 2: Procedimiento de Larvae setting Data: N_c conjunto de nuevas larvas

1 foreach l ∈ Nc do

2 asentada ← false

3 t ← 0

4 if repeticionesEnArrecife(l) > µ then

5 Eliminar(l)

6 else

7 while asentada = false ∧ t < κ do

8 pos ← seleccionarPosicionAleatoria

9 C ← coralEnPosicion(pos)

10 if C = N U LL then

11 AsentarLarva(l, pos)

12 asentada ← true

13 else

14 if f (l) EsMejorQue f (C) then

15 Eliminar(C)

16 AsentarLarva(l, pos)

17 asentada ← true

18 else

19 t ← t + 1

20 end

21 end

22 end

23 if t = κ then

24 Eliminar(l)

25 end

26 end

27 end

3 de la simulación se asignará la acción digger. Hay que tener en cuenta que esta codificación no garantiza una solución, sino que puede implicar que todos los lemmings queden atrapados o mueran.

La inicialización de los corales se hace generando un número aleatorio de estos pares, com- prendido entre 1 y la duración estimada del escenario de los lemmings. El paso de cada par se calcula obteniendo un número aleatorio entre 1 y la duración estimada una vez más, de esta manera la población inicial var´ıa entre ejecutar una acción en cada paso y ejecutar una única acción en un paso aleatorio de la pantalla. La acción de cada par se escoge aleatoriamente tam- bién, pero teniendo en cuenta el número de acciones disponibles en el escenario: la probabilidad de seleccionar una acción es directamente proporcional al número de veces que puedes asignar dicha acción.

4.3.2. Adaptaci´on de los operadores

El operador reproducción sexual externa se aplica seleccionando un punto de corte que separe distintos pares sin llegar a dividir ningún par por la mitad, de tal manera que el individuo hijo contendrá las primeras acciones del primer progenitor y las ultimas acciones del segundo. La figura 4.4 muestra ejemplos de un punto de corte correcto y uno que no lo es.

(35)

Figura 4.3: Estructura del genotipo de un coral.

Figura 4.4: Ejemplo de punto de corte correcto e incorrecto en la reproducci´on sexual externa de CRO.

El operador reproducción sexual interna se aplica independientemente en acciones y en pasos. Es decir, al reproducirse se decide modificar o una de las acciones o uno de los pasos (con probabilidad del 50 % de uno o otro). Una vez seleccionado el valor a modificar, se escogerá uno nuevo según los mismos criterios que durante la inicialización: las acciones se encontrarán entre las disponibles para el escenario y los pasos de entre los máximos de la pantalla. La figura 4.5 muestra un ejemplo de reproducción sexual externa.

4.3.3. Funci´on de fitness

La función de fitness define la calidad de un genotipo y es una de las partes más importantes del algoritmo, pues le indica cual es su objetivo. Esta función calcula la calidad de los corales y permite la comparación de los mismo en los procesos de reproducción, larvae setting y el proceso de depredación.

En el caso particular que nos ocupa, buscamos la mejor soluci´on a un escenario del videojuego Lemmings. El objetivo es maximizar el n´umero de lemmings que se salvan, minimizar el tiempo

Figura 4.5: Ejemplo de mutación variando un step o variando una acción en la reproducción sexual interna de CRO.

CAP´ITULO 4. IMPLEMENTACI ´ON DE CRO PARA LEMMINGS 21

(36)

empleado en llegar a la salida (el número de steps) y el número de acciones usadas. Para ello se aplican las fórmulas 4.1, 4.2, 4.3 y 4.4:

turnosRestantes = turnosT otales − turnosU sados (4.1)

accionesRestantes = accionesT otales − accionesU sadas (4.2)

lemmingsSalvados = lemmingsT otales − numBlockers − numExploders (4.3)

f itness = turnosRestantes + accionesRestantes + lemmingsSalvados

turnosT otales + accionesT otales + lemmingsT otales (4.4) Esta fórmula proporciona un número entre 0 y 1, teniendo en cuenta que en ningún momento se alcanzará el máximo valor, pues siempre hay una serie de steps a dar antes de alcanzar la salida.

Las variaciones e interpretaciones de la fórmula se analizarán más detalladamente en el cap´ıtulo 5.

4.4. An´ alisis de los par´ ametros

El algoritmo CRO tiene numerosos parámetros de configuración que afectan a lo largo de todo su algoritmo, como ya hemos visto en este mismo cap´ıtulo. Los siguientes datos se han extra´ıdo a partir de datos teóricos y pruebas efectuadas durante la fase de implementación. A continuación listaremos cada uno de estos parámetros, mencionando su importancia e impacto, junto con los valores normalmente usados:

1. Épocas de entrenamiento: El número de épocas de entrenamiento afecta directamente al número de soluciones encontradas y la calidad de las mismas, puesto que representa el tiempo que se le concede al arrecife para encontrar tales soluciones. Como ya se ha mencionado antes, este número no variará en caso de encontrar una solución que supere determinada calidad o en caso de no encontrar mejores corales en un número fijo de

épocas: el número de épocas siempre es el mismo. La gráfica 4.6 muestra un ejemplo en que un número de épocas fijo permite al algoritmo encontrar una solución mejor: Se puede observar como limitando el número de épocas en función de las variaciones del mejor fitness hubiera parado el aprendizaje en torno a la época 200, en vez de alcanzar una solución mejor.

2. Tamaño del arrecife: El tamaño del arrecife se ha de elegir teniendo en cuenta que afecta directamente al número de soluciones obtenidas y a la calidad de las mismas, puesto que representa cuanto se explorará del espacio de soluciones. En la fase experimental se compará el comportamiento de CRO contra GA y ACO, por esa razón, el tamaño del arrecife se fijará al tamaño de la población del GA y al número de hormigas de ACO.

3. Ocupación inicial: La ocupación inicial define que proporción del arrecife que se ocu- pará durante la fase de inicialización. Este parámetro influye en como de variado será el arrecife base sobre el que se comenzará la búsqueda. La mayor parte de los corales generados con la iteración del algoritmo son combinaciones de los generados durante la 22 CAPÍTULO 4. IMPLEMENTACI ÓN DE CRO PARA LEMMINGS

(37)

Figura 4.6: Representación de mejor fitness y del fitness medio de un arrecife de coral respecto al número de épocas.

inicialización, con lo que una alta ocupación es de recomendable para mejorar los resultados del algoritmo. Puesto que tampoco queremos que los nuevos corales generados no tengan donde asentarse, las tasas optimas para este parámetro observadas durante las fases de implementación se encuentran en torno al 80 %.

4. Número de larvas por reproducción sexual (α): Este parámetro es el principal al decidir cuantas larvas generaremos en cada época. El valor de α debe estar equilibrado con los parámetros de la depredación, puesto que entre los dos deben mantener la ocupación del arrecife en torno al 80-90 %. Puesto que el tamaño del arrecife puede variar, lo ideal es expresar este valor en función del número máximo de corales del arrecife. Teniendo en cuenta que no todas las larvas que se generen se asentarán con éxito, el valor de este parámetro suele rondar el 5-10 % del tamaño del arrecife.

5. Proporción de broadcast spawners (Fb): Este valor Fb determinará que proporción de las larvas de cada época se obtendrá por reproducción sexual externa, es decir com- binando dos corales, y que proporción por reproducción sexual interna (1 − F_b). Por un lado, un Fb muy alto provocará que casi ningún nuevo coral se obtenga modificando individuos, únicamente combinándolos, con lo que se explorará un espacio de soluciones más acotado. En problemas especialmente complicados al obtener una solución, la falta de mutación puede provocar que no solo no se encuentre una buena solución, sino que no se encuentre ninguna. Por otro lado, un valor de F_b muy bajo provocará que el arrecife mute muy rápidamente, con lo que no se conservará lo aprendido en generaciones anteriores. Esto impedir´ıa que el conjunto de soluciones que los corales representan converja a una solución: el algoritmo no funcionará. Un valor de 70 % en este parámetro da lugar a buenos resultados, aunque en escenarios especialmente complicados es interesante tratar con valores menores hasta haber encontrado una solución.

6. Probabilidad de mutación (γ): Hay que tener en cuenta que no todo el conjunto de larvas formadas por Brooding están mutadas, únicamente una proporción muy baja. Se ha usado el valor más comúnmente usado para este parámetro en algoritmos genéticos:

5 %.

CAP´ITULO 4. IMPLEMENTACI ´ON DE CRO PARA LEMMINGS 23

(38)

7. Intentos de asentamiento (κ): Este parámetro determina el número de intentos máxi- mo para asentarse que tiene una larva durante la fase de Larvae Setting. El número de intentos influye directamente en la competitividad del arrecife. Un valor muy alto anu- lará el sistema de selección natural que imita este algoritmo. En el otro extremo, un valor muy bajo impedirá la exploración de soluciones que peores que tengan el potencial de alcanzar la solución optima, y eso no nos interesa. También afecta indirectamente a la ocupación del arrecife, puesto que un valor muy alto prácticamente garantiza un 100 % de ocupación. En general, 7-10 intentos proporcionan la competencia adecuada para el correcto funcionamiento de CRO en las pruebas efectuadas.

8. Proporción de reproducción asexual (F_a): El objetivo de la reproducción asexual en CRO es aumentar las probabilidades de reproducción de los mejores corales haciendo que haya más de uno en el arrecife. Por desgracia esto puede provocar que se reproduzcan entre corales idénticos, lo cual no nos interesa. Este hecho se controla tanto con F_a como con el número máximo de corales idénticos. Para evitarlo, se han de generar por reproducción sexual un número de individuos muy bajo, menor del 1 % del tamaño del arrecife.

9. Numero máximo de corales idénticos: Este parámetro ayuda a determinar la variedad del arrecife de forma secundaria. No nos interesa que se repitan demasiado los corales, puesto que limitan el espacio de búsqueda doblemente: contienen información duplicada e impiden asentarse a otros corales. Además la selección proporcional al fitness produce que los corales idénticos suelan encontrarse entre los mejores corales, que suelen ser los mejores por cruzarse entre ellos, con lo que es aún más grave. Hay que ser especialmente estricto a la hora de escoger el valor de este parámetro, pues dos corales se consideran idénticos si los genotipos son idénticos, pero eso no impide que una variación que no tiene efecto en la calidad de la solución produzca que no se consideren iguales. Por ejemplo, el efecto de la acción floater se mantiene durante todo el escenario, por lo que usarlo en el step 2 o en el 3 en muchos casos es equivalente. Dos corales con un genotipo idéntico excepto por el step de uso de floater se consideran distintos a pesar que aportan la misma información al arrecife en conjunto. El valor usado es 3, aunque se podr´ıa reducir a 2 perfectamente.

10. Proporción de depredación (F_d): Los parámetros de depredación controlan la ocu- pación de la población de manera directa junto con α. Este parámetro determina que proporción de la población puede ser depredada, teniendo en cuenta que se comienza la selección desde los peores corales. Un valor muy alto provocará que se depreden corales con mejor salud, mientras que un valor muy bajo limitará la posible muerte a los peores corales del arrecife. Puesto que nos interesa deshacernos de los peores corales, este ba- jos rara vez supera el 15 %. Es decir, solo los 15 % peores corales son vulnerables a ser depredados.

11. Probabilidad de depredación (P_d): Una vez seleccionado el conjunto de corales vulnerables a depredación con el parámetro anterior (Fd), Pd determina que probabilidad tiene un coral concreto de ser eliminado del arrecife. Su valor se tiene que decidir conjuntamente con F_d, pues la proporción de corales depredados se expresa como F_d∗ Pd. Para equilibrar las α larvas generadas, correspondientes a un 10 % de la población, y teniendo en cuenta que no todas se asientan, suele bastar con un 5 % de depredación conjunta para mantener la ocupación más o menos constante. Este valor se podr´ıa obtener, por ejemplo, usando Fd = 50 % y Pd = 10 %, pero esto provocar´ıa que perdiéramos corales con fitness demasiado altos. Tras hacer diversas pruebas, F_d = 10 % y P_d= 50 % suele proporcionar resultados adecuados.