Análisis de estado del arte en algoritmos genéticos

Texto completo

(1)UNIVERSIDAD DE LOS ANDES Facultad de Ingeniería Departamento de Ingeniería de Sistemas y Computación. Análisis de Estado del Arte en Algoritmos Genéticos Trabajo de Grado Para aspirar al título de. Ingeniero de Sistemas. Wolfgand Enrique Kook C.. Asesor Rafael García ISC-2003-2-18 Santafé de Bogotá, Mayo de 2004.

(2) Análisis de Estado del Arte en Algoritmos Genéticos. Agradezco a mi madre, quien me dio el primer impulso, y me ha acompañado todo el camino; A Inghe, Kathy y Krys, a J, a Ricardo, a Natalia y a Sandra, quienes marcaron los momentos de mayores dificultades y cambios en mi vida: No saben todo lo que aprendí gracias a ustedes; A Carlos, a Hugo, más hermanos que amigos, que me han acompañado durante todo el camino, a veces incluso llevándome sobre sus hombros; A las niñas más hermosas que conozco, por dentro y por fuera –Ángela con su mordacidad, Bibi con su veleidad, Cucú con su luminosidad, Eileen con su complicidad, Fica con su confiabilidad, Gina con su espontaneidad,. Natis. con. su afabilidad,. Vicky. con su. hiperactividad, y en especial Ginita, quien siempre ha estado allí, y que en tantas ocasiones me ha servido de apoyo y de paño de lágrimas –; A Diego Ramírez y a Jaime Gutiérrez, que siempre estuvieron pendientes de “cómo iba”, y listos a darme un empujoncito, o un jalón de orejas; A Diana K, a Pam, a Rosa y a Sonia, de quienes a mi pesar el tiempo y la distancia me han separado tanto; A la gente de IBM, en especial a Patty por confiar en mí, y a Jayson porque siempre pude contar con él; A Mónica, a Maru, a Daniel, a Franky, a Gino, a Himura, a Jaguar, a Santiago y al Abogado; A Rafael por su paciencia y su ayuda, y a Mauricio y a Isabel, que superaron la tortura de permanecer sin computador mientras yo adelantaba este proyecto.. -Wolfgand Enrique Kook C.. ISC-2003-2-18 Pg. 2.

(3) ©2004, Wolfgand Enrique Kook Camero. 1. Introducción Una gran cantidad de ciencias – incluyendo la Física, la Biología, la Economía y la Sociología –, han tenido a lo largo de su historia que lidiar con problemas de optimización. El desarrollo del cálculo diferencial ayudó en gran parte al desarrollo de éstas ciencias, al proporcionar un método relativamente sencillo para hallar éstos óptimos, en la forma de. Figura 1.1. puntos extremos –máximos y mínimos –de una función. El método diferencial, sin embargo, suele tener algunas importantes fallas al intentar abarcar algunos problemas del mundo real. En breve, la realidad no suele acomodarse a valores tan perfectamente diferenciables como aquellos con los que se acostumbra a trabajar en el trabajo teórico. En estos casos, históricamente, se ha recurrido a atajos en la resolución del problema que por lo general tienden a simplificarlo, como el reemplazo de procedimientos infinitos por procedimientos finitos, y el de problemas no lineales por problemas lineales relativamente cercanos al original [25]. Sin embargo, en los últimos años los estudiosos de la Inteligencia Artificial han desviado su mirada para asimilar los procedimientos utilizados por la Naturaleza para resolver sus problemas de optimización, como son el aprendizaje, la percepción, el raciocinio, la evolución y la adaptación. Adaptando estos procedimientos a modelos computacionales, éstos estudiosos han logrado desarrollar poderosas herramientas como son las Redes Neuronales, que pretenden ser una analogía del funcionamiento del cerebro ISC-2003-2-18 Pg. 3.

(4) Análisis de Estado del Arte en Algoritmos Genéticos. humano, la Lógica Difusa, basada en los procesos lingüísticos, y los Sistemas Expertos, que emulan los procesos comunes de inferencia [11]; Todas las cuales se agrupan bajo el término de Computación Natural o Computación Suave [38]. Dentro de este orden de idea, han aparecido otros métodos para resolver algunos problemas complejos a través de las teorías de la evolución Darwinianas de Selección Natural [11], que dicen que el gran número de diseños y soluciones complejas hallado en la naturaleza responde a cientos de años de evolución [43]; que en lugar de examinar una función que puede no existir o no ser diferenciable, barren en forma semi-aleatoria el dominio de búsqueda en búsqueda de un valor óptimo. Un subconjunto de estos métodos son los llamados Algoritmos Genéticos [42].. ISC-2003-2-18 Pg. 4.

(5) ©2004, Wolfgand Enrique Kook Camero. 2. Objetivos El presente documento pretende hacer una introducción breve pero profunda al tema de los algoritmos genéticos, con el fin de convertirse en material de apoyo y consulta para cualquier investigación posterior en el tema. En particular, se pretende hacer una profundización en los siguientes temas: •. Historia de los algoritmos genéticos, con el fin de investigar las motivaciones históricas que dieron lugar a su aparición.. •. Teoría biológica de la evolución que es la base de los algoritmos genéticos.. •. Proceso de implantación de un algoritmo genético para la resolución de un problema en particular.. •. Teoría matemática que sustenta el correcto funcionamiento del algoritmo genético, y la convergencia del mismo a una solución óptima.. •. Estudio del tipo de problemas que son más susceptibles de ser resueltos a través de algoritmos genéticos, y de aquellos que son específicamente difíciles de resolver por ésta técnica.. •. Estado del arte a Junio de 2004.. ISC-2003-2-18 Pg. 5.

(6) Análisis de Estado del Arte en Algoritmos Genéticos. 3. Antecedentes Históricos 3.1. Evolución, Selección y Herencia Hasta mediados del siglo XIX, las teorías predominantes para la explicación de la diversidad de las especies eran la creacionista y la de la generación espontánea, según la cual algunos seres –en particular aquellos que podríamos clasificar como “alimañas” –eran generados espontáneamente a partir de ciertos componentes, que curiosamente terminaban por ser precisamente aquellos que servían a la criatura de alimento [40]. Sin embargo, en el Siglo XVIII, un grupo de pensadores encabezados por Pierre de Maupertuis, Erasmus Darwin y Jean Baptiste de Lamarck comenzaron a poner en duda el origen divino de las especies terrestres, postulando (Al igual que ciertos pensadores en la Grecia Antigua), que las diversas especies eran generadas por otras especies a través de un mecanismo de evolución, por el cual los órganos que eran utilizados habitualmente durante la vida de una criatura eran reforzados en sus hijos, y los que no eran usados se atrofiaban en las futuras generaciones. Estas ideas se hicieron habituales entre los círculos intelectuales, en particular entre los geólogos, durante la primera mitad del siglo XIX, aunque siempre en forma vaga y sin explicar el mecanismo por el cual tales modificaciones eran posibles [51]. Pero fue Charles Darwin –nieto de Erasmus –quien, a partir de los descubrimientos Wallace. y. de de. Alfred. Russel. sus. propias. observaciones, realizadas durante sus viajes alrededor del mundo a bordo del barco de reconocimiento HMS ISC-2003-2-18 Figura 3.1. Pg. 6.

(7) ©2004, Wolfgand Enrique Kook Camero. Beagle [51], publicó en 1859 su libro “El Origen de las Especies”, que plantea la evolución –no la creación divina –como razón de la diversidad de las especies que abundan sobre la tierra. Bajo las leyes de la evolución planteadas por Wallace y Darwin, la existencia de un individuo comienza a ser determinada por su capacidad de adaptarse a los rigores del medio en el que debe sobrevivir (“Supervivencia del más Fuerte” [18]). Sólo los mejores, los más aptos, son los elegidos para sobrevivir. Desde el punto de vista científico, esto es un claro ejemplo de optimización [47]. Las teorías de Darwin, que revolucionaron al mundo de aquella época y generaron controversias científicas y religiosas que perduran hasta nuestros días, planteaban sin embargo dificultades derivadas del cruce –en el que se perdía la ganancia en aptitud en la información genética de cada generación – que no fueron resueltas hasta 1865, cuando Gregorio Mendel [28] realizó sus descubrimientos en genética que en 1900, al ser descubiertas sus anotaciones y combinadas con las teorías del Darwinismo puro, darían lugar al NeoDarwinismo [31], postulado por R. A. Fisher, J. B. S. Haldane y Sewall Wright en los años 20 [51]. Por aquella misma época, el científico estadounidense Thomas Hunt Morgan, junto con tres de sus alumnos, ayudó a establecer la teoría cromosómica de la herencia [51]. Durante la segunda guerra mundial se hacen grandes avances en genética (Término acuñado en 1906 por William Bateson): En 1940, George Wells Beadle y Edward Laurie Tatum lograron determinar que los genes son de naturaleza química, y en 1944, el bacteriólogo canadiense Theodore Avery demuestra que los ácidos nucléicos (ADN y ARN) son las principales moléculas en la codificación de información genética. Después, en 1953, James Dewey Watson y Francis Harry Compton Crick descifran el modelo de la estructura del ADN que es usada hasta nuestros días.. ISC-2003-2-18 Pg. 7.

(8) Análisis de Estado del Arte en Algoritmos Genéticos. En 1960, el genetista japonés Motoo Kimura propone su Teoría Neutral, la cual reza que la mayor parte de las variaciones genéticas de una población no son lo suficientemente radicales como para impulsar los mecanismos de selección natural.. Esta teoría, erróneamente llamada “Anti-Darwiniana”, será de. particular interés para nosotros más adelante; Finalmente, en Junio de 2000, un grupo de científicos encabezados por Francis Collins logra trazar el 90% del mapa genético del ser humano.. 3.2. La Computación Evolutiva En 1960, Ingo Rechenberg, en su libro “Estrategias Evolutivas”, propone la idea de computación evolutiva, que no es llevada a término hasta 1975, cuando John Holland, profesor de la Universidad de Michigan, publica su artículo “Adaptación en Sistemas Naturales y Artificiales”, fruto de 10 años de investigación en busca de un incremento en el entendimiento de los procesos de la evolución, y de un diseño de sistemas artificiales que pudieran emular los procesos evolutivos naturales. El trabajo de Holland, iniciado a principios de los 60s a raíz de la lectura de “La teoría genética de la selección natural” [39,42], de R. A. Fisher y logrado gracias a la ayuda de sus alumnos del curso “Teoría de Sistemas Adaptativos”, plantea la posibilidad de utilizar los principios de la evolución al desarrollo de soluciones óptimas para un problema particular [42], con el uso de la teoría de Patrones, que había presentado en 1960 ante la Western Joint Computer Conference (WJCC) [27]: Bargley [62] acuña en 1967 el término Algoritmo Genético para designar el proceso de obtención de estas soluciones, que emula el seguido por la naturaleza para hallar los individuos (soluciones) más aptos para adaptarse a un medio particular (el problema) [47]. Unos 15 años después, David Goldberg conoce a Holland y se convierte en su estudiante. Golberg –un ingeniero industrial que trabajaba en diseño de pipelines –fue uno de los pioneros en la aplicación de algoritmos genéticos a problemas industriales [39], con lo cual se inició una rápida expansión en la aplicación de algoritmos genéticos a una gran cantidad de problemas ISC-2003-2-18 Pg. 8.

(9) ©2004, Wolfgand Enrique Kook Camero. diferentes, como la optimización de estructuras moleculares, la resolución de equilibrio en teoría de juegos, la creación automática de diseños óptimos, etc. [12] Finalmente, en 1992, John Koza expande la idea de los algoritmos genéticos para generar programas diseñados específicamente para resolver tareas específicas a través de un proceso evolutivo. Programación Evolutiva [38].. ISC-2003-2-18 Pg. 9. Este proceso es llamado.

(10) Análisis de Estado del Arte en Algoritmos Genéticos. 4. Un Poco de Genética A lo largo de la historia ha sido siempre motivo de sorpresa y admiración, para la mayoría de las personas, la gran diversidad de la vida, la increíble perfección con la que están dotados los organismos vivos para sobrevivir y multiplicarse, y la desconcertante complejidad y especialización de estos organismos para adaptarse al medio en el cual se desenvuelven [51].. Basta una mirada a. nuestro alrededor para darnos cuenta que la Naturaleza se encuentra llena de diseños y soluciones complejas y sorprendentes, que permiten a los pájaros volar, a las plantas tomar su energía de la luz solar y a algunas bacterias soportar niveles increíbles de radiación [43]. La explicación para estos fenómenos biológicos no se dio, sin embargo, hasta 1859, cuando Charles Darwin publicó su libro “El Origen de las Especies”. Para Darwin, la diversidad de la vida es consecuencia de un complicado y lento proceso. de. adaptación. gradual. de. los. organismos. a. un. ambiente. constantemente cambiante, y a veces hostil; Un proceso que es generalmente denominado evolución [51].. 4.1. La Selección Natural La teoría evolucionista de Darwin se basa principalmente en el concepto de selección natural; que no es más que una interacción entre los caracteres emergentes de un individuo (fenotipos) y el ambiente que lo rodea [63]. Esta interacción crea una ventaja –o desventaja –comparativa para éste, incrementando o disminuyendo asimismo su probabilidad de supervivencia. En general, se ha visto que los efectos ambientales conducen a un grado variable de éxito o adaptación de individuos en una población de organismos con características, o rasgos, diferentes. Cuando estos rasgos son heredables, y no simplemente producto de adaptaciones morfológicas de un individuo. ISC-2003-2-18 Pg. 10.

(11) ©2004, Wolfgand Enrique Kook Camero. particular, las características que potencian el nivel de adaptación tienden a hacerse más frecuentes en cada generación. En palabras de Darwin: “Como nacen muchos mas individuos de una especie que los que posiblemente pueden sobrevivir, habrá entre ellos una recurrencia frecuente a la lucha por la existencia, que permite que cualquier ser, aunque varíe poco en cualquier manera que le sea beneficioso, bajo condiciones de vida complejas y a veces cambiantes, tendrá una mejor chance de supervivencia y, por lo tanto, será naturalmente seleccionado. Dado el fuerte principio de la herencia, cualquier variedad seleccionada tenderá a propagarse en su forma nueva y modificada” [63] En otras palabras, los recursos económicos disponibles en un hábitat particular (Alimento, espacio, número de miembros del sexo opuesto, etc.) son limitados1, y la gran mayoría de las especies producen mucha más descendencia de la que realmente es capaz de sobrevivir, lo cual genera una alta dosis de competencia entre los diferentes individuos. Sin embargo, estos organismos difieren en su habilidad para sobrevivir a causa de diminutas variaciones en sus caracteres emergentes (fenotipos), que los hacen imperceptiblemente mejor o peor adaptados a su ambiente [63]. Este nivel de adaptación fue descrito por Darwin en términos de aptitud [45]. Ante diferentes niveles de adaptación, algunos individuos adquieren una ventaja comparativa ante los demás de su especie, que les permite llegar a la edad necesaria para la reproducción. Así, los individuos capaces de sobrevivir logran propagar sus genotipos, con lo cual se incrementa –en forma desproporcionada, pero proporcional a la aptitud de cada individuo –la frecuencia de las características que potencian la supervivencia y la. 1 Es de anotar que una de las mayorges influencias de Darwin en su teoría evolucionista fue la lectura del libro “Un Ensayo sobre el Principio de la Población” de Thomas Malthus [51]. ISC-2003-2-18 Pg. 11.

(12) Análisis de Estado del Arte en Algoritmos Genéticos. reproducción. Al final de cada ciclo reproductivo, entonces, las características favorables se han propagado en forma, dejando a la población en un nuevo estado de adaptación que contribuye de nuevo a la competitividad, de la cual pueden lentamente surgir nuevas variaciones, con lo cual el ciclo se repite, una y otra vez [43]. Ejemplo 4.1 Las bacterias son seres unicelulares, capaces de reproducirse rápidamente y sujetas a numerosos cambios. Muchas de ellas son parásitos, por lo cual a lo largo de los años se han producido un sinnúmero de antibióticos que permitan al cuerpo humano combatirlas y exterminarlas, o al menos mantenerlas bajo control.. Sin embargo, su diversidad genética permite a algunas de ellas. sobrevivan a éstos antibióticos y, gracias a su rapidez de reproducción, multiplicarse en millones de veces en cuestión de días, propagando con ello su resistencia a toda la población. Así, el uso globalizado de antibióticos termina redundado en la generación de bacterias altamente resistentes. "Cuando se usan antibióticos, hay una presión selectiva para que se dé una resistencia. Una presión que se suma a sí misma. Así, más y más organismos desarrollan resistencia a más y más medicamentos" -Joe Cranston, Ph.D., Director del Departamento de Políticas y Estándares en Medicamentos de la Asociación Médica Americana en Chicago [43]. La selección natural actúa de modo positivo o negativo, según el rasgo favorezca la aptitud reproductiva del individuo que lo porta, o la perjudique. En el segundo caso, la tendencia del rasgo será a la marginación o a la desaparición. Existen multitud de casos en que un rasgo puede ser beneficioso al individuo cuando lo ostenta sólo una serie de individuos en la población, pero se convierte en perjudicial si lo ostentan todos. De este modo, la propia selección se encarga de mantenerlo en las proporciones adecuadas para que no sea lesivo a la población, pero sin extinguirlo del todo; Asimismo no todos ISC-2003-2-18 Pg. 12.

(13) ©2004, Wolfgand Enrique Kook Camero. los rasgos. de. un. ser. vivo. son. objeto. de. neutros,. que. necesariamente selección:. Existen. pueden. verse. rasgos en. ocasiones. seleccionados simplemente por encontrarse. acompañados. de. otros. rasgos que sí son sometidos a la. acción de. la selección [51].. Al. depender del medio, la selección. puede. darse en forma diferente cuando. las. poblaciones sobre las que actúa. se. desarrollan ambientes,. en. distintos produciendo. individuos. especializados a su ambiente. particular. que,. no. obstante. ser. descendientes de un antepasado común,. pueden diferir mucho en sus características específicas. Es lo. que. sucede con los pinzones de las islas Galápagos, observados por Darwin. Al parecer, dentro del. Figura 4.1. archipiélago, cada una de las islas constituyó un ambiente. particular para un grupo de estas aves, que a lo largo de los años, lo llevó a generar adaptaciones completamente diferentes de las de sus vecinos. Es de anotar que la selección natural actúa sobre una diversidad de características ya existente, reflejo de la diversidad genética. Así, por selección natural no se pueden crear órganos o estructuras nuevas, sino que se favorece a los individuos que poseen características diferencialmente beneficiosas, a partir de las cuales puede continuar actuando la selección de modo progresivo para exacerbar el rasgo en cuestión.. Así, por ejemplo, la trompa de los. ISC-2003-2-18 Pg. 13.

(14) Análisis de Estado del Arte en Algoritmos Genéticos. elefantes no tuvo las dimensiones actuales desde un primer momento, sino que a partir de un esbozo de probóscide, fue objeto de selección natural a lo largo de las generaciones, en función de las ventajas adaptativas por ella propiciadas. En éste sentido, podemos señalar dos tipos de selección natural: Aquella que mantiene aquellas adaptaciones que resultan favorables en un entorno estable (selección estabilizadora), y aquella que favorece adaptaciones en la dirección adecuada cuando se presentan cambios ambientales (selección direccional). Este tipo de cambios producen en primera instancia drásticas disminuciones en el nivel de población, que son generalmente seguidos por una rápida adaptación, o por la extinción [63]. 4.1.1. Selección Artificial y Selección Sexual Uno de los puntos fuertes de la teoría de Darwin, que le daba una mayor credibilidad, y uno de los que éste más recalcó, fue la explicación del refuerzo de las características deseables en el proceso de cruce –también llamado selección artificial –, en el que el encargado del proceso de selección no es el ambiente, sino una persona que se encarga de dar mayores oportunidades de reproducirse a aquellos ejemplares que presentan las características que desea reforzar.. Curiosamente, el cruce funcionó durante milenios sin que. nadie se preguntara cómo funcionaba. De una forma similar, tanto Darwin como Wallace describieron lo que Darwin bautizó “selección sexual”, por la cual ciertas características, algunas de las cuales –como la cola del pavo real –podrían parecer completamente inútiles, y hasta estorbosas, a los ojos de la selección natural clásica. Sin embargo, por alguna razón sobre la cual los evolucionistas no han logrado ponerse de acuerdo (Darwin argüía que se trataba simplemente de un capricho, mientras Wallace insistía que era una manifestación visible de alguna otra característica que de otra manera no sería evidente), las hembras de ciertas especies tienden a elegir a los machos que presentan éstas características sobre los que no la. ISC-2003-2-18 Pg. 14.

(15) ©2004, Wolfgand Enrique Kook Camero. muestran, logrando con ello la perpetuación de caracteres que, de otra forma, no prosperarían. La teoría de la Selección Natural propuesta por Darwin tenía algunos aspectos teóricos de la misma –en particular, la carencia de una explicación lógica de los mecanismos que hacían que las adaptaciones favorables fueran hereditarias, ya que si, como se creía, los descendientes siempre tienen carácter y apariencia intermedia de los de sus padres, esto implica que con cada generación la diversidad genética se divide a la mitad, lo cual contradice por completo toda la teoría de Darwin –encontraron gran debate entre la comunidad científica de la época. No fue hasta el redescubrimiento de los escritos de Mendel en genética que se superaron los obstáculos que planteaban las teorías de Darwin, dando lugar a una base teórica que apoya la teoría de Darwin desde el nivel celular [51].. 4.2. Cromosomas, Genes y el ADN La célula es la mínima unidad capaz de actuar de forma autónoma en un organismo.. Todos los organismos. vivos están compuestos de células, y en general se acepta que ningún organismo es un ser vivo si no está compuesto de al menos una célula. Todas las células –sin importar el organismo que constituyan –tienen a su vez una estructura similar: Una membrana. (La. Figura 4.2. membrana. plasmática), que encierra un material de aspecto gelatinoso, rico en agua, llamado citoplasma.. Al interior del citoplasma se encuentran numerosas. estructuras pequeñas, que por lo general encierra en los organismos superiores un cuerpo prominente denominado núcleo. Cada núcleo contiene ISC-2003-2-18 Pg. 15.

(16) Análisis de Estado del Arte en Algoritmos Genéticos. cierto número de diminutos organelos filamentosos llamados cromosomas. Ciertos organismos simples, como las algas verde-azuladas y las bacterias, carecen de un núcleo delimitado, pero poseen sin embargo un citoplasma con uno o más cromosomas. Estos cromosomas varían en forma y tamaño y, por lo general –sobre todo en los organismos superiores, como los animales y las plantas –, se presentan en parejas (Células diploides). Los miembros de cada pareja, llamados cromosomas homólogos, tienen un estrecho parecido entre sí. La mayoría de las células del cuerpo humano contienen 23 pares de cromosomas, en tanto que la mayor parte de las células de la mosca del vinagre o de la fruta, Drosophila, contienen cuatro pares, y la bacteria Escherichia coli tiene un cromosoma único en forma de anillo. El conjunto completo de los cromosomas de una especie constituye su “genoma” [45]. 4.2.1. El ADN El ADN –ácido desoxirribonucléico –, constituye la "columna vertebral" de un cromosoma, y el principal codificador de material genético. El ADN es una molécula continua, alargada, simple y delgada, compuesta de sub-unidades muy pequeñas que se conocen como nucleótidos, dispuestas a lo largo de dos cadenas, o filamentos, alargadas, que se enrollan para formar una hélice doble. Cada uno de los nucleótidos está formado por un azúcar de cinco carbonos, ácido fosfórico y una base nitrogenada. En general, en cada cadena de ADN existen cuatro tipos diferentes de bases —adenina, guanina, citosina y timina —. La mejor forma para visualizar el ADN es pensar en una larga escalera de caracol en la que moléculas de fosfato e hidratos de carbono se alternan para conformar la estructura, y las bases nitrogenadas, unidas a ésta a través de moléculas de azúcar, constituyen los escalones.. ISC-2003-2-18 Pg. 16.

(17) ©2004, Wolfgand Enrique Kook Camero. A lo largo de la doble hélice, cada una de las bases se encuentra unida por un enlace de hidrógeno a una. base. complementaria. localizada en la cadena opuesta. La adenina siempre se encuentra vinculada con. la timina,. guanina con la citosina.. y la A los. lados de la cadena se encuentra una. serie. de. moléculas. más. pequeñas (grupos laterales) de cuatro tipos diferentes, que facilitan la duplicación del ADN y la síntesis de proteínas. El ADN es la principal molécula capaz de autorreplicarse.. Figura 4.3. Para. hacer una copia nueva e idéntica de la molécula de ADN, las dos cadenas se extienden y se separan por sus bases (cuyos enlaces son bastante débiles). Gracias a la presencia en la célula de más nucleótidos, se pueden unir a cada cadena separada bases complementarias nuevas, formando con ello dos hélices dobles que, gracias a la complementariedad de las bases nitrogenadas, serán completamente idénticos. Así, si la secuencia de bases que existía en una cadena era AGATC, la nueva contendría la secuencia complementaria (O imagen especular) TCTAG. Como finalmente cada cromosoma no es más que una larga molécula de ADN, una copia de éste estilo finalmente dará lugar a dos cromosomas idénticos. Es a causa de los complejos mecanismos de replicación del ADN, que se cree que esta compleja molécula no pudo haber estado presente durante el origen de la vida, ya que para ello se habría requerido de estructuras muy ISC-2003-2-18 Pg. 17.

(18) Análisis de Estado del Arte en Algoritmos Genéticos. especializadas que no pudieron existir antes del inicio de la propia evolución. El ADN ha sido descrito como una molécula de alta tecnología que apareció con toda probabilidad algún tiempo después del origen de la vida. Tal vez la molécula con la que está emparentada, el ácido ribonucleico (ARN), que aún desempeña varias funciones vitales en las células vivas, fue la molécula autorreplicativa original. A lo largo de la cadena de ADN se encuentran dispuestos los genes, o unidades de herencia: Pequeñas partículas de material genético, no necesariamente contiguo, que determinan la presencia o ausencia de una característica determinada, o de un grupo de características, dependiendo de la secuencia en la que se encuentren las diferentes bases.. Dentro de un. cromosoma, cada gen ocupa una posición, o locus, específico, que determina la característica que éste codifica.. Cada gen puede tener diferentes. posibilidades, o alelos, y cada cromosoma puede contener un sinnúmero de genes. El genoma humano, por ejemplo, contiene entre 30,000 y 40,000 genes [45]. El ADN ejerce sus efectos a través de las moléculas a las que da origen, principalmente de las moléculas de ARN, que no son más que copias de ADN en las que la base timina. es. reemplazada por el e. uracilo, indirectamente. –A. través del ARN –, de. las. proteínas,. que vienen siendo a la vez los ladrillos y las herramientas en la construcción de los. Figura 4.4. ISC-2003-2-18 Pg. 18.

(19) ©2004, Wolfgand Enrique Kook Camero. seres vivos.. Estas proteínas se encuentran a su vez formadas por. polipéptidos: Cadenas de unidades (Aminoácidos) que son determinadas por las bases presentes en cada uno de los genes [51]. 4.2.2. Decodificación Para obtener una cadena de polipéptidos, el ADN es desenrollado, y sus dos cadenas separadas en una porción de su longitud. Una de ellas es utilizada para formar ARN mensajero, o ARNm, con la ayuda de una enzima denominada ARN polimerasa. El proceso, denominado trascripción, es similar al de la duplicación de ADN, pero se diferencia de éste en que cada timina es reemplazada por un uracilo. Una vez formado el ARNm, éste se separa del ADN, y se inserta en una estructura denominada ribosoma, que consta de pequeñas cadenas de ARN y de una proteína que las encapsula; Una cadena de ARN puede ser encapsulado en una cadena completa de ribosomas, a lo que se da el nombre de polirribosoma o polisoma. Al interior de cada ribosoma, cada tripleta (O conjunto de tres bases nitrogenadas) es equiparada a una porción de ARN de transferencia, o ARNt: una tripleta de ARN que complementa –a través de sus bases, en la misma. Figura 4.6. Figura 4.5. ISC-2003-2-18 Pg. 19.

(20) Análisis de Estado del Arte en Algoritmos Genéticos. forma en que sucede al interior de la molécula de ADN. –la. tripleta. de. ARNm, que reconoce y se. adhiere. secuencia. (o. a. esta. codón).. Cada tripleta de ARNt (anticodón) atrae, por su extremo. opuesto,. un. aminoácido específico – Existen en total 20 tipos. Figura 4.6. diferentes. de. aminoácido, que se distribuyen entre las 64 (43) posibilidades presentes en una tripleta de cuatro bases diferentes –; Así, por ejemplo, las secuencias UUA, UUG, CUU, CUA, CUC y CUG determinan la leucina, mientras que AGU y AGC determinan la serina, y la UGG el triptófano.. La mayor parte de los. aminoácidos están determinados de manera unívoca por sus dos primeras bases, siendo el tercero indiferente o designando un aminoácido de una familia próxima. A medida que estos aminoácidos se unen en forma secuencial a las partículas de ARNt convocadas por el ARNm, se forman enlaces químicos entre ellos, lo que forma una cadena de aminoácidos o, en otras palabras, un polipéptido. Tres secuencias de ARNm (La UAG, la UAA y la UGA) no determinan ningún aminoácido en particular, sirviendo en su lugar como mecanismo de parada en la síntesis de polipéptidos. Los polipéptidos se unen a otros polipéptidos para formar proteínas, que irán a constituir la estructura del organismo, o constituirán enzimas, encargadas de favorecer una reacción química en particular. Así, una pequeña variación en una cadena de ADN puede producir cambios radicales en la estructura o la química de un organismo [51].. ISC-2003-2-18 Pg. 20.

(21) ©2004, Wolfgand Enrique Kook Camero. 4.2.3. Morfogénesis En los últimos años, se ha logrado un amplio conocimiento acerca del proceso de decodificación del ADN y de formación de las proteínas. Sin embargo, el porqué de las variaciones que sufren los organismos en respuesta a ciertas circunstancias del medio, o la manera en que un cigoto simple puede dar lugar a todos los tejidos y órganos diferentes que constituyen un organismo complejo, son aún temas de debate: Si bien en los diferentes órganos y tejidos la mayoría de las células contienen conjuntos de genes idénticos, también es cierto que en ellos se encuentran presentes proteínas distintas. Parece ser, por tanto, que en células diferentes –en tejidos diferentes, en particular – algunos genes se encuentran activos y otros no. Parte de la explicación del desarrollo de un organismo complejo debe basarse, por tanto, en cómo se activan o se desactivan los genes en una forma específica. Las bases de nucleótidos de ADN que codifican la estructura de los ARN y las proteínas no son los únicos componentes de los genes: Otros grupos de bases se encuentran adyacentes a las secuencias codificadoras, afectando la cantidad y disposición de los productos de los genes.. En organismos. superiores (Animales y Plantas, en particular), las secuencias no codificadoras suelen superar en diez o más a las codificadoras (En el ser humano, el 99% de cada gen es no codificador).. Durante la trascripción, estas secuencias, o. intrones, son copiadas al ARN, para luego ser eliminadas de la cadena por enzimas especiales que se encargan de “depurar” el ARNm. Asimismo, se han encontrado secuencias repetidas de código genético, que no siempre es utilizado en la codificación de polipéptidos. Las funciones de estas regiones son muy poco conocidas, aunque probablemente constituyan algún tipo de mecanismo de redundancia que permita asegurar la transmisión y verificar la validez del código genético, o un mecanismo de control de los mecanismos de decodificación.. ISC-2003-2-18 Pg. 21.

(22) Análisis de Estado del Arte en Algoritmos Genéticos. El proceso de activación de los genes en los organismos superiores aún no está claro; Se sabe bastante, sin embargo, acerca de este proceso en las bacterias: Junto a cada gen bacteriano existe un segmento de ADN conocido como promotor, al cual se adhiere la ARN polimerasa para iniciar la transcripción. Entre el promotor y el gen existe con frecuencia otro segmento de ADN que recibe el nombre de operador, al cual puede adherirse otra proteína, comúnmente llamada el represor.. Cuando el represor se une al. operador, detiene el desplazamiento de la ARN polimerasa a lo largo del cromosoma, y por tanto la producción de ARNm; por lo tanto, el gen se desactiva. Sin embargo, la presencia en la célula de cierta sustancia química provoca la separación del represor, reactivando el gen. Otras sustancias pueden afectar al grado de actividad del gen al alterar la capacidad de la ARN polimerasa de unirse al promotor. Este complejo sistema no parece existir en organismos más complejos, aunque es muy posible que cada gen tenga su propio sistema individual de promotores y represores, y que los intrones y las secuencias repetidas desempeñen también algún papel en este proceso [51]. 4.2.4. Mutaciones A pesar que la replicación del ADN es muy precisa, no es del todo perfecta, y algunas veces se producen errores, que reciben el nombre de mutaciones y generalmente son producidas por la presencia de radiaciones, altas temperaturas, ciertos compuestos químicos o de ciertos alelos específicos de algunos genes, conocidos como genes mutadores, que pueden producir defectos en los mecanismos de replicación. En estos casos, el nuevo ADN puede contener uno o más nucleótidos modificados en cualquier parte de su estructura. Cuando se produce una mutación en la secuencia de nucleótidos que codifica un polipéptido particular, éste puede dar lugar a una alteración –probablemente minúscula, pero no por ello irrelevante –en la secuencia de aminoácidos de la cadena polipeptídica. Esta modificación puede causar una seria alteración en ISC-2003-2-18 Pg. 22.

(23) ©2004, Wolfgand Enrique Kook Camero. las propiedades de la proteína resultante (Los polipéptidos que distinguen la hemoglobina normal de la hemoglobina de las células falciformes, cuya presencia causa un tipo especial de anemia que suele ser letal, difieren, por ejemplo, en sólo un aminoácido). Ya que las proteínas sintetizadas por un organismo suelen servir para labores muy específicas, estas mutaciones suelen en la mayoría de los casos ser perjudiciales para los organismos que las portan, si bien en algunos casos particulares pueden generar alteraciones beneficiosas. Otro tipo, más severo, de mutaciones, ocurre cuando se gana –o se pierde – por completo un nucleótido, o cuando se altera la forma o el número de los cromosomas. Una parte de un cromosoma se puede separar, invertir, y volver a unir, por ejemplo (inversión), unirse a otro cromosoma o a otra parte del mismo (traslocación). Algunas veces se pierde un fragmento de un cromosoma que forma parte de una pareja de homólogos, y éste es adquirido por el otro. En éste caso se dice que uno presenta una deleción o deficiencia, y el otro una duplicación. La inversión y la traslocación pueden a veces sobrepasarse, si bien tienden a generar errores durante el cruce sexual; La duplicación, sin embargo, suele ser letal [51].. 4.3. Reproducción Sexual En los organismos sexuados, todas las células que componen el organismo derivan de divisiones sucesivas de una única célula, el cigoto.. Durante el. proceso de división, denominado mitosis –cada cromosoma se divide en dos fragmentos iguales, y cada uno emigra hacia un extremo opuesto de la célula, a través de una matriz de microtúbulos. Tras la división celular, a cada una de las dos células resultantes corresponde el mismo número de cromosomas y genes de la célula original, por lo que cada célula originada a través de este proceso hereda en forma exacta el material genético de la célula original. Así, en un organismo superior, a menos que se produzca una mutación, todas las. ISC-2003-2-18 Pg. 23.

(24) Análisis de Estado del Arte en Algoritmos Genéticos. células contienen el mismo material genético presente originalmente en el cigoto. Los cigotos, por su parte, son formados por la unión de dos células especiales, denominadas gametos o células sexuales –el óvulo y el espermatozoide, en el caso de los animales –, provenientes cada una de uno de los organismos padres.. Estos gametos son formados a través de un proceso especial de. división de las células terminales, denominado meiosis, cuya principal diferencia con la mitosis radica en que cada nueva célula recibe solamente uno de los dos cromosomas de cada par de homólogos de la célula original (Es decir, es haploide). Así, cuando los gametos se unen durante la fecundación, la nueva célula hereda la mitad del material genético de cada una de las células madre, dando lugar a un organismo completamente diferente. Cuando se produce una mutación durante la formación de los gametos, ésta será trasmitida a las generaciones posteriores. La unión de los gametos combina dos conjuntos de genes, uno de cada progenitor.. Cada locus, por tanto, está representado por dos genes, uno. procedente de la madre y otro del padre. Cada copia se localiza en la misma posición sobre cada uno de los cromosomas pares del cigoto. Cuando las dos copias son idénticas se dice que el individuo es homocigótico para aquel gen particular, lo cual por lo general se traduce en que la característica emergente representada por ese gen es equivalente a la presente en ambos padres. Cuando las copias son diferentes, por otra parte –es decir, cuando cada progenitor ha aportado una forma, o alelo, distinto, del mismo gen –, se dice que el individuo es heterocigótico para dicho gen. En este caso, a pesar que ambos alelos se encuentren contenidos en el material genético de un individuo, si uno de ellos es dominante (Es decir, si predomina sobre el otro), sólo se manifiesta éste.. Sin embargo, como demostró Mendel, cuando los. descendientes son heterocigóticos, los genes recesivos pueden volver a manifestarse en generaciones posteriores. ISC-2003-2-18 Pg. 24.

(25) ©2004, Wolfgand Enrique Kook Camero. Rara vez la acción de los genes es cuestión de un gen aislado que controla un solo caracter. Con frecuencia un gen puede controlar más de un caracter, y un caracter puede depender de muchos genes. Por ejemplo, es necesaria la presencia de dos genes dominantes diferentes para producir el pigmento violeta en las flores de la planta del guisante de olor. Estas plantas, cuando son homocigóticas para alguno o ambos de los alelos recesivos implicados en el caracter del color, producen flores blancas. Así, en algunos casos, los efectos de un gen pueden depender de los otros genes presentes [51]. Ejemplo 4.2 La capacidad de una persona para pigmentar la piel, el cabello y los ojos, depende de la presencia de un alelo particular (A), mientras que la ausencia de esta capacidad, denominada albinismo, es consecuencia de otro alelo (a) del mismo gen (por consenso, los alelos se designan siempre por una única letra; el alelo dominante se representa con una letra mayúscula y el recesivo con una minúscula). Los efectos de A son dominantes; los de a, recesivos. Por lo tanto, los individuos heterocigóticos (Aa), así como los homocigóticos (AA), para el alelo responsable de la producción de pigmento, tienen una pigmentación normal. Las personas homocigóticas para el alelo que da lugar a una ausencia de pigmentación (aa) son albinas.. Figura 4.8. ISC-2003-2-18 Pg. 25.

(26) Análisis de Estado del Arte en Algoritmos Genéticos. Cada hijo de una pareja en la que ambos son heterocigóticos (Aa) tiene un 25% de probabilidades de ser homocigótico AA, un 50% de ser heterocigótico Aa, y un 25% de ser homocigótico aa. Sólo los individuos que son aa serán albinos. Observamos que cada hijo tiene una posibilidad entre cuatro de ser albino, pero al tratarse de una probabilidad, no es exacto decir que en una familia heterocigótica, una cuarta parte de los niños estarán afectados. Ambos alelos. estarán. presentes. en. el. material. genético. del. descendiente. heterocigótico, quien originará gametos que contendrán uno u otro alelo.. Figura 4.7. Éste no es siempre el caso cuando un alelo es dominante y el otro recesivo: El dondiego de noche puede tener flores de color rojo, blanco o rosa. Las plantas con flores rojas pueden tener dos copias del alelo R para el color rojo de las flores, y, por lo tanto, son homocigóticas RR. Las plantas con flores blancas tienen dos copias del alelo r para el color blanco de las flores, y son homocigóticas rr. Las plantas con una copia de cada alelo, heterocigóticas Rr, son rosas, es decir, una mezcla de colores producida por los dos alelos (Este fenómeno es conocido como codominancia) [51]. En suma, el genotipo representa la información sobre la cual se construye un organismo; Una especie de “programa” codificado en porciones infinitesimales de ADN. El fenotipo es la manifestación física de éste genotipo–lo que el. ISC-2003-2-18 Pg. 26.

(27) ©2004, Wolfgand Enrique Kook Camero. usuario ve, para seguir con nuestra analogía –, que es transcrita a partir de éste a través de un proceso conocido como morfogénesis u ontogenia. Los caracteres que se expresan como variaciones en cantidad o extensión, como el peso, la talla o el grado de pigmentación, suelen depender de muchos genes, así como de las influencias del medio. Con frecuencia, los efectos de genes distintos parecen ser aditivos: Es decir, parece que cada gen produce un pequeño incremento o descenso independiente de los otros genes [51]. Ejemplo 4.3 La altura de una planta puede estar determinada por una serie de cuatro genes: A, B, C y D. Supongamos que cuando su genotipo es aabbccdd, la planta alcanza una altura media de 25 cm, y que cada sustitución por un par de alelos dominantes aumenta la altura media en unos 10 centímetros. En el caso de una planta que es AABBccdd su altura será de 45 cm, y en aquella que es AABBCCDD será de 65 centímetros. En la realidad los resultados no suelen ser tan regulares. Genes diferentes pueden contribuir de forma distinta a la medida total, y ciertos genes pueden interactuar, de modo que la aportación de uno depende de la presencia de otro. La herencia de características cuantitativas que dependen de varios genes se denomina herencia poligénica. La combinación de influencias genéticas y del medio se conoce como herencia multifactorial [51]. Un caso especial de. la. reproducción sexual. sucede. con los llamados cromosomas sexuales,. que ISC-2003-2-18 Pg. 27. Figura 4.9.

(28) Análisis de Estado del Arte en Algoritmos Genéticos. pueden ser X o Y. A pesar que el cromosoma Y, de longitud aproximada de un tercio de la del X, carece de información genética; su presencia o ausencia determina el sexo de los descendientes (Las hembras son XX, los machos XY). Como el gen X es el único que aporta información genética, todos sus genes son, de alguna manera, dominantes en los varones, lo cual determina una gran cantidad de características que se encuentran, como se suele decir, ligadas al sexo. Dado nuestro tema de discusión, podría llegar a pensarse que la frecuencia relativa de ciertos alelos en una población determinada varía radicalmente con el tiempo, favoreciendo rápidamente a aquellas características que dan ventajas infinitesimales. Sin embargo, esto está lejos de la verdad. Se ha demostrado [51] que éstas frecuencias –llamadas también frecuencias génicas –son casi invariantes a lo largo del tiempo, mientras los procesos de selección natural y de mutación –que, como se ha dicho actúan muy esporádicamente – no contribuyan a modificarlas.. Esto, sin embargo, contribuye a que la. diversidad genética permanezca, y no se disuelva rápidamente con el tiempo. En éste ámbito, la evolución puede describirse como el proceso responsable de la variación de las frecuencias génicas. Uno de los puntos cruciales para la generación de mutaciones que puedan llegar a trasmitirse de forma hereditaria es durante la meiosis. Una de las mutaciones más comunes es una falla en la separación de una pareja de cromosomas homólogos, que genera gametos –y, por tanto, cigotos –con cromosomas extra (trisómicos o polisómicos), o con cromosomas faltantes (monosómicos), ambas mutaciones degeneran en graves incapacidades (El síndrome de Down, por ejemplo, es causado por una trisomía en el cromosoma 21).. Sin embargo, cuando el conjunto completo de cromosomas tiene. problemas en separarse, se produce lo que se llama una poliploidía, que es el único proceso conocido hasta el momento de crear nuevas especies en una sola generación. La poliploidía suele ser fatal en la mayoría de los organismos, ISC-2003-2-18 Pg. 28.

(29) ©2004, Wolfgand Enrique Kook Camero. pero en ciertas especies hermafroditas pueden dar lugar a individuos viables y fértiles, que suelen ser incluso más robustos que sus antecesores diploides. En general, los genes que contienen mutaciones suelen ser recesivos: Sus características no se manifiestan a menos que dos de ellos coincidan para dar lugar a una situación homocigótica.. Esto suele ser más probable en la. reproducción consanguínea, por lo que las enfermedades hereditarias suelen ser más frecuentes en hijos de padres con relación familiar. En los últimos años, el uso de ciertas herramientas tecnológicas, como los rayos X, los compuestos radioactivos y ciertos compuestos químicos han dado lugar a un gran incremento en la tasa de mutaciones [27]. 4.3.1. Recombinación de Caracteres Uno de los principios planteados por Mendel es el de la independencia en la herencia de diferentes caracteres. Según él, cada característica observable es heredada en forma independiente de las otras. Como demostró Thomas Hunt Morgan, esto es cierto sólo cuando estas características se encuentran codificadas en cromosomas diferentes. Cuando los genes se encuentran sobre un mismo cromosoma, éstos se heredan como una unidad aislada mientras el cromosoma se mantenga intacto. Se dice entonces que los genes heredados de ésta forma se encuentran de alguna manera ligados. Este ligamiento, sin embargo, no siempre es completo: Las combinaciones de características de cada progenitor pueden terminar reorganizándose entre sus descendientes.. Durante la meiosis, una pareja de cromosomas análogos. puede intercambiar material durante lo que se llama recombinación o sobrecruzamiento, en cierto modo un tipo de “unión de los cromosomas”. Este sobrecruzamiento se produce más o menos al azar a lo largo de los cromosomas, de modo que la frecuencia de recombinación entre dos genes depende de la distancia que los separe en el cromosoma –Será más frecuente en cuanto más alejados se encuentren los genes –. En el descendiente que ISC-2003-2-18 Pg. 29.

(30) Análisis de Estado del Arte en Algoritmos Genéticos. procede de los gametos, el sobrecruzamiento se manifiesta en la forma de nuevas combinaciones de caracteres visibles. Cuanto mayor sea el sobrecruzamiento, más elevado será el porcentaje de descendientes que muestran las nuevas combinaciones. Esta recombinación de alelos puede tener lugar sin que se produzcan intercambios recíprocos entre los cromosomas. En apariencia, cuando existen dos versiones distintas del mismo gen (en un individuo heterocigótico), una de ellas puede ser corregida para equipararse a la otra, a través de un proceso denominado conversión genética, que puede tener lugar en cualquier dirección (Un alelo recesivo puede ser modificado por uno dominante, pero el proceso puede también darse a la inversa) [51].. 4.4 Evolución Así pues, a un nivel básico, la evolución parte del proceso de reproducción, mediante la combinación de los cromosomas de los progenitores en sus hijos, y –Según la teoría de Richard Dawkins (El gen egoísta) [29] –tiene lugar en los cromosomas, no en los individuos que estos generan. A través de la selección natural, el medio ambiente elige los cromosomas con "buenas estructuras", permitiendo a los individuos que éstas generan reproducirse más a menudo que los demás [37]. cambios. A medida que transcurre el tiempo, la suma de los. imperceptibles. en. el. genoma. de. una población, causados. principalmente por cruces y mutaciones, va transformando lentamente unas especies en otras [45]. El proceso de evolución es, entonces, consecutivo, interminable y altamente aleatorio; Determinado por el nivel de adaptación de un individuo particular al medio ambiente en el cual se desarrolla, y no por su ventaja absoluta sobre los otros. En éste sentido, no hay un objetivo o un estado final para el proceso de evolución: Cada nuevo cambio en el medio ambiente puede dar lugar a nuevos. ISC-2003-2-18 Pg. 30.

(31) ©2004, Wolfgand Enrique Kook Camero. cambios poblacionales, lo cual hace de la selección natural un proceso interminable [45]. La teoría neutra de Kimura, por la cual gran parte de las mutaciones no tienen efectos reales en el momento de la morfogénesis –intercambiando bases nitrogenadas que tienen el mismo significado a la hora de producir aminoácidos, o generando cadenas de polipéptidos que finalmente no crean diferencias apreciables en las proteínas que conforman –, ha generado una gran controversia en el ámbito de la genética que aún no se ha logrado salvar del todo. Sin embargo, proporciona una gran herramienta en el cálculo de los períodos de existencia de los antepasados comunes de cualquier par de especies. Es importante para nuestra futura exploración de los algoritmos genéticos, en particular cuando queramos modelar los procesos evolutivos como Cadenas de Markov, añadir el hecho de que el proceso de evolución no tiene memoria, en el sentido en que en la formación de cromosomas únicamente se considera la información del período anterior [37].. ISC-2003-2-18 Pg. 31.

(32) Análisis de Estado del Arte en Algoritmos Genéticos. 5. El Algoritmo Genético 5.1 Introducción Muchos interesantes problemas computacionales pueden ser vistos como problemas de búsqueda u optimización; Es decir, problemas en los que la solución consiste en buscar la mejor solución dentro de un conjunto de soluciones posibles [29] o, en otras palabras, un x’ tal que bajo una función dada F(x), F(x’) sea el máximo (O el mínimo, en algunos casos) de la función para el conjunto de búsqueda. Históricamente, la mayoría de algoritmos de búsqueda en un espacio ndimensional de gran tamaño en que una búsqueda exhaustiva resultaría impráctica [45], se han resuelto por métodos basados en los algoritmos de escalada o hill climbing [6,3] que, a su vez, requieren para su implantación de métodos de cálculo de gradientes [9], con el fin de determinar los caminos de mayor o menor inclinación2; Estos métodos, si bien son usualmente bastante eficientes [29], pueden presentar graves problemas –e incluso fallar miserablemente –cuando se presentan múltiples máximos (O mínimos) relativos [58]. Ejemplo 5.1 Halle el máximo global de la función: f ( x, y ) = [16 x(1 − x) y (1 − y ) sin( nπx) sin( nπy )]. 2. En el espacio de búsqueda [0,1]2:. 2. En cálculo diferencial, los puntos óptimos (Máximos o mínimos) se encuentran encontrando. los puntos en que la inclinación tiende a ser 0.. ISC-2003-2-18 Pg. 32.

(33) ©2004, Wolfgand Enrique Kook Camero. Figura 5.1. Como vemos en la gráfica, un método de escalada funciona perfectamente para el caso en que n = 1.. Sin embargo, cuando n = 9, puede ser. extremadamente difícil para el algoritmo encontrar un máximo global [58]. En algunos casos, incluso, la función de búsqueda es tan irregular que el mejor método de búsqueda para hallar un máximo o mínimo global es un muestreo aleatorio exhaustivo [27]. Los algoritmos genéticos surgen como una forma no estándar de solución de problemas estándar de optimización [58], que pueden estar tan definidos como el problema de nuestro ejemplo (Encontrar el máximo de una función en un intervalo dado), o ser tan difusos como la evolución misma [30]; Para ello, se aplican los métodos ya presentes en la evolución –que ya sabemos que funcionan, siendo nosotros mismos prueba de su eficiencia [45] –, evadiendo con ello las técnicas de cálculo de gradientes. En palabras de Holland [37]: "Se pueden encontrar soluciones aproximadas a problemas de gran complejidad computacional mediante un proceso de ‘evolución simulada’". ISC-2003-2-18 Pg. 33.

(34) Análisis de Estado del Arte en Algoritmos Genéticos. Los algoritmos genéticos son, entonces, parte de lo que ha sido llamado comúnmente “computación biológicamente inspirada”, una ramificación del área de Inteligencia Artificial o neuroinformática que parte del conocimiento de los procesos biológicos para crear procesos computacionales que los emulen. Un área del conocimiento que no debe ser confundida, sin embargo, con la bioinformática, que es la rama de la computación que se aplica a los procesos biológicos [45]. Es importante tener en cuenta que, dado el hecho de que los algoritmos genéticos se inspiran en los procesos de evolución y selección natural, la heurística [58] de un algoritmo genético tiene lugar en conjuntos, o poblaciones, de hipótesis, que actúan en concierto para hallar una solución óptima al problema en forma conjunta; no en hipótesis separadas que son optimizadas en forma individual [52,30]. Esto proporciona, entonces, un paralelismo innato que permite navegar un enorme espacio de búsqueda en busca de combinaciones óptimas [56] en forma eficiente y en un período de tiempo relativamente corto.. 5.2. El Algoritmo Genético Como hemos mencionado, un algoritmo genético emula los procesos naturales de selección natural y evolución; Para realizar una implementación de un algoritmo genético, entonces, debemos encontrar un modelo computacional apropiado que nos permita modelar de alguna manera los procesos genéticos que fueron descritos en el capítulo anterior. Como ya hemos dicho, la información genética de cualquier organismo viviente se encuentra codificada en sus cromosomas; En el caso de los algoritmos genéticos, cada uno de los valores posibles en estos “cromosomas” debe codificar una hipótesis de la solución, o un punto en nuestro espacio de búsqueda [53,50], que en el contexto del algoritmo serán a su vez llamados ISC-2003-2-18 Pg. 34.

(35) ©2004, Wolfgand Enrique Kook Camero. “individuos” [54]: En nuestro ejemplo anterior, cada individuo representaría la hipótesis de que la función dada, evaluada sobre un par ordenado (x, y), constituyera el máximo global de ésta en el intervalo dado. Para codificar adecuadamente este individuo, requeriríamos de la información necesaria para ubicar inequívocamente éste par ordenado; Información que, en nuestro ejemplo, se encuentra en los valores x e y que lo constituyen; La representación, probablemente binaria, de cada uno de estos valores, constituiría uno de los genes indivisibles de nuestro individuo, con la concatenación de éstas representaciones constituyéndose en un cromosoma [6], en la que la ubicación de cada gen constituiría su locus, y sus diferentes valores posibles serían sus alelos. Esta codificación de la información es una de las principales diferencias entre los algoritmos tradicionales de optimización y un algoritmo genético [3]; Es, asimismo, una de sus principales fortalezas: Siempre que se encuentre un método apropiado de codificar la información –y un adecuado mecanismo de evaluación de las hipótesis, como veremos más adelante –casi cualquier problema podrá ser resuelto a través de un procedimiento virtualmente idéntico, sin necesidad de un conocimiento específico del problema en particular [30,50]. Al igual que en los procesos de selección natural, un algoritmo genético no actúa sobre individuos particulares, sino sobre conjuntos de individuos (poblaciones). Bajo éste contexto, el nivel de adaptación al medio de cada uno de los individuos estaría representado por la cercanía que este presentara a lo que sería una solución óptima del problema en cuestión.. Este nivel de. adaptación, medido en términos de aptitud, es dado por una función de aptitud F(x), que es única para cada implementación de un algoritmo genético [8]. En el caso de nuestro ejemplo, una función de aptitud apropiada sería, simplemente, la función a optimizar, evaluada para el par (x, y) dado por el. ISC-2003-2-18 Pg. 35.

(36) Análisis de Estado del Arte en Algoritmos Genéticos. cromosoma en cuestión. En otros casos, sin embargo, ésta función puede no ser tan fácilmente discernible. Una vez se tiene una población inicial (típicamente escogida al azar, aunque se pueden utilizar ciertos métodos heurísticos para generar una población inicial específicamente “buena”), ésta es transformada a través de una serie de operadores genéticos, que no son más que versiones artificiales de los procesos de selección, cruce y mutación, en una nueva generación de hipótesis que, se supone, se encontrarán más cerca de la solución del problema en cuestión que sus progenitores. El proceso se repite entonces continuamente hasta lograr cierto objetivo predeterminado, dado bien por el número de iteraciones, por cierto nivel de aptitud esperado [29], o por el grado de convergencia de la población, que generalmente es medido en distancia promedio de Hamming3 [35], o deriva genética [19]. La idea del algoritmo genético se basa en la suposición de que la solución correcta existe, y es susceptible de ser encontrada mediante una cierta combinación de los genes que constituyen a la población inicial [42]. En éste sentido, el algoritmo no es una búsqueda secuencial de un individuo en particular, sino de una serie de “bloques de construcción” que permitan mejorar cada vez más los individuos existentes [27]. Si el algoritmo está bien diseñado, es muy probable que la población converja a una solución aproximada –o exacta, en el límite infinitesimal – [6]. Esta suposición no es correcta el 100% de las veces, y hay casos en que la generación de una solución óptima no está garantizada; el desafío es, entonces, encontrar un proceso genético que maximice las posibilidades de obtener ésta solución [52].. 3 La distancia de Hamming representa la diferencia entre dos cromosomas, es decir, el número de símbolos que deben ser alterados (0 a 1 o viceversa, en nuestro caso) para convertir a uno en el otro. Para mayor información, ver capítulo 11.. ISC-2003-2-18 Pg. 36.

(37) ©2004, Wolfgand Enrique Kook Camero. Como hemos podido ver, la principal diferencia entre los procesos naturales de evolución y los algoritmos genéticos reside en la presencia o ausencia de un objetivo final: A diferencia de la evolución, donde nunca hay un objetivo específico diferente a la adaptación a un ambiente, en un algoritmo genético el objetivo está ligado al problema que se desea resolver y es, por tanto, el indicador de que este proceso ha llegado a su fin [45]. Sin embargo, como en su mayor parte un algoritmo genético no es más que una metáfora de un proceso biológico real, en éste trabajo nos referiremos a muchas de las características de éste en términos utilizados tradicionalmente en biología, como es común en la bibliografía relativa al tema. A continuación presentamos un paralelo de términos biológicos y su significado en el contexto de algoritmos genéticos: Biología. Algoritmos Genéticos. Individuo. Parámetros que representan una posible solución al problema.. Cromosoma. Representación codificada de un individuo.. Gen. Representación codificada de un parámetro particular.. Locus. Posición de cada gen dentro del cromosoma.. Alelo. Valor posible para un parámetro o característica codificado.. Genotipo. Estructura interna de un cromosoma.. Fenotipo. Manifestación o propiedades en la decodificación del genotipo.. Población. Conjunto de Individuos.. Generación. Población en un ciclo determinado.. Aptitud. Función a optimizar evaluada para un individuo.. Cruce, Mutación. Operadores de Búsqueda.. Selección. Selección de soluciones de mayor aptitud.. Natural Tabla 5.2 - Paralelo de Términos [11,31,54]. ISC-2003-2-18 Pg. 37.

(38) Análisis de Estado del Arte en Algoritmos Genéticos. Un algoritmo genético es, en suma, un método sistemático [62] de optimización y aprendizaje gradual [38,56] en paralelo [54], inspirado en los mecanismos evolutivos de genética, adaptación y selección natural [45,6,56], que “evoluciona” un conjunto de hipótesis a un problema dado, hasta hallar una solución plausible al mismo [30]. 5.2.1. Componentes de un Algoritmo Genético Antes de implementar cualquier algoritmo genético es fundamental tener en cuenta los siguientes elementos [12,56,58,11]: •. El problema que se desea resolver, que determinará a su vez el modelo de codificación y la función de aptitud.. •. Un modelo de codificación, o representación cromosómica, a través del cual se indica la forma en que se almacena la información en el genoma. Este modelo es crítico para el éxito del algoritmo.. •. El tamaño de la población, que determinará en gran medida la complejidad y eficiencia del algoritmo, así como un criterio de selección de la población inicial.. •. Una función de evaluación de la adaptación de los cromosomas, o función de aptitud, que se encuentra en gran medida determinada por el problema que se desea resolver.. •. Un mecanismo de selección de los individuos para ser cruzados, que debe estar en función de la aptitud.. •. Una serie de operadores genéticos, que definan las reglas para obtener nuevos individuos a raíz de los existentes, a saber: ISC-2003-2-18 Pg. 38.

(39) ©2004, Wolfgand Enrique Kook Camero. o Cruce: Cómo se realizará la recombinación de caracteres. o Mutación: Cómo y en qué medida se añadirá aleatoriedad al algoritmo. o Otros operadores (Muerte, Aborto, Envejecimiento, etc.) •. Un criterio de reemplazo de los individuos de una generación por individuos de una nueva generación. En particular: o Una serie de reglas para el tratamiento de individuos no factibles. o Decisiones en cuanto al reemplazo total o parcial de las generaciones anteriores con los nuevos individuos.. •. Un criterio de parada, que determina los parámetros con los cuales se dará por finalizada la búsqueda (Número de iteraciones, aptitud mínima, etc.).. •. Otros parámetros: Cualquier otro criterio que sea necesario para llevar a cabo la implantación.. 5.3. El Proceso En un algoritmo genético encontramos. dos. operaciones fundamentales: selección. de. La aquellos. individuos mejor adaptados a la solución óptima del problema en cuestión, para su reproducción; y el cruce de estos individuos para Figura 5.3. ISC-2003-2-18 Pg. 39.

(40) Análisis de Estado del Arte en Algoritmos Genéticos. obtener una nueva población. Estas. dos operaciones son repetidas. continuamente un cierto número de veces, o hasta hallar un individuo con un nivel de costo aceptable (Criterio de Parada). El proceso de selección de individuos se fundamenta, como hemos visto, en una evaluación de los mismos, dada por la función de aptitud escogida. Esta función constituye el único enlace entre el proceso de solución del problema en cuestión y el problema en sí (En un algoritmo genético tradicional no se trata de “forzar” la solución a través de los operadores), y por tanto, debe ser escogida meticulosamente: Una función de aptitud equivocada puede impedir la convergencia de la solución, resultando generalmente en una estabilidad conocida como deriva genética, o resultar en una solución que, minimizando la función de costo, no es una solución óptima para el problema en cuestión. De la misma manera, unos criterios de selección o cruce equivocados pueden arruinar la consistencia interna de los individuos resultantes, arruinando por completo la solución. Como apoyo a estas operaciones fundamentales, suelen presentarse otras que, si bien no alteran el principio fundamental del algoritmo genético, pueden ayudar a mejorar su rendimiento con su presencia. Tal vez la más común de estas operaciones sea la mutación, que consiste en una pequeña modificación aleatoria del código genético de un individuo. Las mutaciones, aunque no del todo necesarias, pueden aumentar la velocidad de convergencia del algoritmo, dando lugar a cromosomas más cercanos –y, por tanto, aceptables –o lejanos –desechables –al valor de costo (o aptitud) esperado. Algunos ejemplos de otras operaciones no fundamentales serán tratados en el capítulo 14. En la estructura básica de un algoritmo genético, una vez se ha escogido un método apropiado de codificación y se selecciona al azar una población, se evalúa cada uno de los miembros de la misma y se verifica si se ha cumplido el criterio de parada. De no ser éste encontrado, se prosigue en forma secuencial ISC-2003-2-18 Pg. 40.

(41) ©2004, Wolfgand Enrique Kook Camero. con las operaciones de selección, cruce y mutación (y cualquier otra operación no fundamental que sea implementada), para retornar luego al estado de evaluación, y proseguir con el ciclo hasta que se cumpla el criterio de parada. Una vez esto se logra, el individuo de mayor aptitud de la población resultante es generalmente tomado como una solución aceptable para el problema en cuestión. BEGIN i,t := 0,0 Población := Generación Aleatoria FOR Tamaño(Población) Aptitud[43] := Evaluación(Población[43]) i := i + 1; END FOR REPEAT /* Nueva Generación */ i := 0 FOR Tamaño(Población) / 2 DO /* Basado en su aptitud: */ Padre[0] := Selección (Población) Padre[1] := Selección (Población) Población[43] := Cruce (Padre[0], Padre[1], 0) Población[i + 1] := Cruce (Padre[0], Padre[1], 1) t := t + 1 Mutación (Población[43]) Mutación (Población[i + 1]) Aptitud[43] := Evaluación (Población[43]) Aptitud[43] := Evaluación (Población[i + 1]) i := i + 2 END FOR UNTIL Criterio de Parada END Seudocódigo aproximado de un Algoritmo Genético [6,3,56]. ISC-2003-2-18 Pg. 41.