Un algoritmo evolutivo híbrido para el problema del plegamiento de proteínas bajo el modelo hidrofóbico polar en tres dimensionesA hybrid genetic algorithm for the protein folding problem under the 3D hydrophobic-polar model

(1)

W

M

"W

”"\\

,

,, ,,

†_

_,_,_,

\

/Centro de Investigación Óièntifica y de ax

a

Educación Superior de Ensenada

a

Um Mgasrãm Ewaﬂumv@ Hãlfmršm naaa aä äammama mi

mgamim aa mmm aaa@ H

mamﬁféam

Pam aa ïam M

TESlS

MAESTRIA EN CIENCIAS

¡URGE WRIGUE LUNA TAYLUR

(2)

Jorge Enrique Luna Taylor

Y aprobada por el siguiente comité:

fl

Dr. Carlos Alberto Brizuela Rodríguez Director del Comité

\\\

\\

Drl José Albe to nández Zepeda. Miembr el Comite'

Dr. Andrei Tchernykh Miembro del Comite'

W

Dr. Axeyácatl Rocha Olivares Miembro del Comité

Dm. Marthé Patricia Hernández Cortés Miembro del Comité

QML (ají

Dr. Pedryìilíerto López Mariscal Coordinador del Posgrado en Ciencias eri

Ciencias de la Computación

Dr. Raúl Ramón Castro Escamilla Director de Estudios

de Posgrado

(3)

CENTRO DE INVESTIGACIÓN CIENTÍFICA Y DE EDUCACIÓN

SUPERIOR DE ENSENADA

c|c:ese_;_

PROGRAMA DE POSGRADO EN CIENCIAS

EN CIENCIAS DE LA COMPUTACIÓN

Un algoritmo evolutivo híbrido para el problema del

plegamiento de proteínas bajo el modelo hidrofóbico polar en tres dimensiones

TESIS

que para cubrir parcialmente los requisitos necesarios para obtener el grado de

MAESTRO EN CIENCIAS

Presenta:

Jorge Enrique Luna Taylor

(4)

COMPUTACIÓN. Ensenada, B, C. Agosto del 2006.

Un algoritmo evolutivo híbrido para el problema del

plegamiento de proteínas bajo el modelo hidrofóbico

polar en tres dimensiones

Resumen aprobado por:

,

/*_

Dr. Carlos Alberto Brizuela Rodriguez Director de Tesis

En esta tesis se describe el problema del plegamiento de proteinas el cual representa uno de los retos más importantes dentro de la biologia molecular. Debido a que este problema es extremadamente difícil se han propuesto diferentes modelos simplificados para abordarlo. Uno de los modelos más estudiados es el modelo hidrofóbico-polar (HP). A pesar de las simplificaciones que propone el modelo HP, el problema pertenece a la clase NP-dificil, es decir, no se conoce algún método para resolverlo eficienternente, En este trabajo se propone un algoritmo héurístico basado en el método Construi-ned Hydrophobic Core Construction (CHCC) de Yue y Dill (1995), para tratar este problema. El CI-ICC es un método exacto que ha arrojado el óptimo para 13 casos tipo del problema con secuencias de hasta 88 residuos. Las fortalezas del CHCC se basan en el concepto de centros-H y en el manejo de restricciones del problema. La fase final del CHCC intenta. acomodar los residuos de la secuencia dentro de los centros-H a través de una enumeración exhaustiva, lo cual observamos como una limitante del método para tratar con secuencias más largas. Nuestra propuesta es aprovechar las fortalezas del método CHCC y aplicar un algoritmo heuristico en lugar de la enumeración ex-haustiva, para intentar acomodar los residuos de la secuencia dentro de los centros-H calculados. Esta heuristica consiste en aplicar un algoritmo genético principal, com-puesto a su vez por un algoritmo genético interno para el cálculo de la aptitud de los individuos, y por un algoritmo del tipo Monte Carlo para el manejo de las restricciones del problema Después de los experimentos realizados se concluye que si es posible aplicar un algoritmo heurístico para acomodar los residuos de la secuencia dentro de un centro-H óptimo conocido, encontrando con esto el plegado óptimo de la secuencia correspondiente.

Finalmente, se comentan algunas ideas para mejorar el método propuesto, así como algunas propuestas de líneas de investigación a futuro.

(5)

Palabras clave: Bioinformática, Plegamiento de Proteínas, Modelo Hidrofóbico-Polar, Método CHCC, I-Ieurísticas, Algoritmos Genétìcos, Algoritmos Monte Carlo, Optimi-zación Local, Búsqueda Exhaustiva.

(6)

Ensenada, B. C. August 2006.

A hybrid genetic algorithm for the protein folding problem under the 3D hydrophobic-polar model

Abstract approved by:

'/ 4/ ø

›W¬""'

Dr. Carlos Al o Brizuela Ro íguez Thesis director

This thesis deal with the protein folding problem which is one of the most challenging problems in molecular biology. Due to the problem complexity, many approximate and simplified models have been proposed to deal with itt One of these models is the one known es hydrophobic-polar (HP) model. Despite the simplifications of this model the problem belongs to the NP-hard class of problems, i.e. problems for Which we do not know efiicient algorithms to solve any given instance efficieritly.

In this Work a heuristic procedure based on Yuen and Dil1”s Canstrained Hydrophabíc Core Construction (CHCC) method is proposed. The CHCC is an exa/ct method which has generated the optimum for 13 well known instances of up to 88 residues. The positive aspects of this method is the concept of hydrophibic centers and the use of constraints to reduce the search space size. The final stage of this method, once an optimal center is given, tries to lay each H rnononer inside the center trough exhaustiva enumeration. This constitutes the main drawback of the method when dealing With long sequences. Our main idea is to use the positive aspects of the method and to replace the exhaustivo procedure by a heuristics in order to try to lay the whole sequence inside the hydrophobic center. The heuristics is composed by a genetic algorithm, which contains another internal genetic algorithm to compute the ﬁtness function. It also contains e Monte Carlo algorithm to handle some problem›specifìc constraints.

Eperimental results allow us to conclude that it is possible to use the proposed heuristics to correctly lay the residues inside a known optimal hydrophobic center.

Finally, some ideas to improve the proposed method as Well as some lines for future research are described.

Keywords: Bioinformatic, Protein Folding, Hydrophobic-Polar Model, CHCC Me-thod, Heuristics, Genetic Algorithms, Monte Carlo Algorithms, Local Optimization, Exhaustive Search.

(7)

A la memoria de mi esposa

(8)

A Dios por cada nueva oportunidad.

A mi madre por estar conmigo cuando más la necesito,

A mis hijos Luis, Angelica y Enrique por su cariño y apapacbosl

A mi asesor Dr. Carlos Alberto Brizuela Rodríguez por su valioso apoyo, y por su comprensión al trabajar a distancia, a pesar de las adversidades que esta representa.

A los miembros de mi comité Dr, Jose' Alberto Fernández Zepeda, Dr. Andrei Tchernykh, Dra. Martha Patricia Hernández Cortés y Dr. Azayácatl Rocha Olivares por sus importantes aportaciones a mi trabajo de lésisi

A mis compañeros Juan Silva, Leonardo Trujillo, Eddie Clemente y Victor Díaz por sus valiosas asesorias e invaluable amistad.

A Everardo Gutiérrez por su importante apoyo durante la realización de los experi-mentos del proyecto, y por sus asesorias con el editor del documento de tesis.

A Jorge Niebla por su atenta disponibilidad para atender cualquier duda o problema con el equipo de cómputo.

Al personal de la Dirección de Estudios de Posgrado del CICESE, especialmente a M,C. Dolores Sorrocino Ramírez, Citlali Romero Manzano y Quim. Ivonne Best Guzmán por sus cordiales atenciones y apoyo en los diversos trámites que requerí.

Al Lic. Humberto Robledo Urzua, al Lic. José Luís Martinez Mota y a todo el personal de los Departamentos de Desarrollo Académico y de Recursos Humanos del Instituto Tecnológico de La Paz, por darle siempre agilidad a mis trámites de beca co-misión.

Muy especialmente a mi jefe Ing. Alberto Ibarra Berber por las gestiones realizadas que me permitieron concentrarme en mis estudios.

Un agradecimiento también especial al Ing. Antonio Flores López, ex~Director del Instituto Tecnológico de La Paz, quien me brindó todo su apoyo durante los trámites de mi beca comisión.

(9)

Educación Tecnológica por hacer posible el realizar mis estudios de maestría.

A Rosario Patricia quien estuvo conmigo en momentos difíciles durante mis estu› dios.

Ensenada, México Jorge Enrique Luna Taylor 20 de Agosto del 2006.

(10)

Sección

IV Experimentos y Resultados

lV.l Experimentos realizados con búsqueda exhaustiva . _ . _ _ _ _ _ lV.2 Motivación para el método heurístico _ _ _ _ _ _ _ . _ . _ _ _ _ . IV_3 Casos de prueba para el método heurístico _ _ . _ . . _ _ . . _ . IV_4 Experimentos con la secuencia de 67 residuos _ _ _

IV.4_l Algoritmo genético con optimización local _ _ . _ . _ _ . _ _ lV.4_2 Algoritmo genético con fase de reﬁnamiento _ . . _ _ _ _ _ _ IV.5 Experimentos con las secuencias de 48 residuos _ _ . . . . _ _ _ _ lV.5.1 Experimento con 200 individuos y 200 generaciones _ . _ _ _ IV.5_2 Experimento con 300 individuos y 600 generaciones _ _ _ _ _ IV.6 Experimentos con las secuencias de 64 y 67 residuos _ . . . _ _ _ IV_7 Experimento con la secuencia de 88 residuos _ _ _ _ _ _ _ _ IV.8 Discusión sobre los resultados obtenidos _ . . . . _ _ . . _ . _ _ _ V Conclusiones y Trabajo Futuro

V_l Sumario _ . . . _ _ _ _ . _ _ _ _ . . _ _ _ . _ . _ _ _ _ _ _ V_2 Conclusiones . _ . _ . _ _ . _ . _ _ . . _ _ V_3 Trabajo futuro . . _ . . . _ _ _ . _ _ _ _ _ . _ _ . . . _ _ _ _ _ _ _ Bibliografía Apéndices Pagina 80 _ 80 _ 84 _ 85 _ 85 _ 87 _ 88 _ 89 _ 90 _ 91 _ 92 _ 93 _ 93 98 _ 98 _ 99 _ 100 102 105 A Estructura y clasiﬁcación de los 20 aminoácidos que forman proteínas 105

A.1 Aminoácidos Polares _ . . _ _ _ _ _ . _ _ _ _ _ . _ _ . _ . _ _ _ _ . _ 106 A_1_1 Polares con cargapositiva _ . _ _ _ _ _ _ _ _ . _ _ _ _ _ _ _ _ _ 106 A_1_2 Polares con carga negativa _ _ _ _ . _ _ _ _ _ _ _ _ _

A_1_3 Polares sin carga _ _ _ _ . . . _ _ _ _ _ _ _ _ . . . _ A_2 Aminoácidos Hidrofóbicos _ _ _ _ _ _ _ _ _ _ _ _ . _ _ _ _ _ _ _ _ _ B Estructuras secundarias

B.l hélices-or _ _ . _ . _ _ _ _ _ _ . _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ B_2 láminas-Li . . . _ _ _ . . . _ . . . _ _ B_3 Giros-li _ . . _ _ _ _ . _ . . . _ . . . . _ _ Á . _ . . . . _ _ . . _ _ B_4 Rizos . . . . _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ C Definición y cálculo de energía libre

C, 1 Energia libre _ _ . _ _ _ _ _ _ . _ . _ _ _ _ _ _ _ _ . _ _ _ _ _ . . _ C2 EntalpÍa__._.______. . _ _ _ _ _ _ _ __

C_3 Entropia _ . _ _ . _ _ _ _ _ _ . _ _ _ _ _ _ . _ _ _ . _ _ _ _ _ . _ _

(11)

Tabla de CO1'lt€^.I'lÍClO (Continuación)

Secci D E F G ón

Fuerzas que intervienen en la estabilización de las proteinas D_l Enlace por puente de disulfuro . _ _ _ _ _ _ _ _ _ _ _ . . _ _ _ . _ _ D_2 Enlacesalino _ . . _ _ _ _ _ . . . _ _ _ D_3 Puentes de hidrógeno _ _ _ _ _ _ _ _ . _ _ _ _ _ D_4 Interacciones hidrofóbicas _ _ . . _ _ _ _ . . _ _ _ _ _ . _ _ _ _ _ _ _ D_5 Fuerzas de Van der Waals _ _ . . _ _ . _ _ _ _ _ _ _ _ _ _ . _ _ _ _ _

Pagina 115 116 116 116 117 117 Secuencias de residuos utilizadas como casos tipo “benchmarlcs”, y sus

E_1 E.2

plegados óptimos

Secuencias utilizadas bajo el modelo 2D HP _ _ _ _ . _ _ _ _ _ _ _ _ Plegados óptimos para las secuencias utilizadas bajo el modelo 2D HP _ . _ . _ _ _ _ _ . . _ _ _ _ . . _ _ _ _ _ . _ _ _ _ _ . _ _ _ _ _ _ Secuencias utilizadas bajo modelo 3D HP _ _ _ _ _ _ _ . _ . . _ _ _ Plegados óptimos para algunas de las secuencias utilizadas bajo el modelo 3D HP . . _ . _ . _ _ _ _ _ _ . _ _ _ _ . . _ _ . . . _ _ _ _ _ Deﬁnición de los centros-H utilizados en los casos de prueba F_1 Secuencia 1 de 48 residuos . _ _ _ _ . . _ _ _ _ . . _ _ _ _ . _ . _ _ F_2 Secuencia 2 de 48 residuos

F_3 Secuencia 3 de 48 residuos F_4 Secuencia 4 de 48 residuos F_5 Secuencia 5 de 48 residuos F_6 Secuencia 6 de 48 residuos F_7 Secuencia 7 de 48 residuos F_8 Secuencia 8 de 48 residuos F.9 Secuencia 9 de 48 residuos

F_10 Secuencia 10 dc 48 residuos _ . _ _ _ _ _ . . _ _ _ _ _ . _ _ _ F.11 Secuencia de 64 residuos _

(12)

Sección Página G9 Secuencia 9 de 48 residuos . . . .

G.10 Secuencia 10 de 48 residuos . _ , G.11 Secuencia de 64 residuos . . . .

G.12 Secuencia de 67 residuos . . . , . . , . . . _ Glosario

xì

(13)

Lista de Figuras

Figura Pagina

Estructura general de los aminoácidos. La letra R denota la localización de la cadena lateral. . . . , . _ _ _ _ . , . . . _ , _ _ _ . . _ _ _ . . _ _ Enlace peptídico entre dos aminoácidos. El ángulo ¢ mide ci giro entorno al enlace que une el carbono oz de un residuo con el N del mismo residuo, El ángulo rb mide el giro en torno al enlace que une el carbono or con el C del mismo residuo. _ _ _ _ _ _ . . . . _ _ , , _ . . . _ . _ _ _ . _ _ La unión entre dos aminoácidos libera una molécula de agua (ver los átomos encerrados), alos monómeros resultantes se ies llama residuos. _ Plegado óptimo para la secuencia HHHHHPHPPHPHPPHPHPPHPH, con un total de 12 contactos H~l-l, bajo el modelo 2D HP_ _ _ . _ _ _ _ _ Ejemplo de plegado óptimo para la secuencia de residuos de aminoácidos S y su codificación C' correspondiente, bajo el modelo 3D HP. La se› cuencia inicia con el residuo hidrofóbico localizado en la parte inferior derecha de la figura. . . _ . _ . _ _ _ _ . . _ _ _ . _ _ _ _ . _ . _ _ Esquema de optimización local donde se muestra un cambio de dirección en el plegado. En la figura (a) se muestra el plegado original, y en la figura (b) se muestra el plegado después de la optimización, . _ _ . _ _ Proyección de los residuos hidrofóbicos contenidos en un centro-H. . _ _ (bl) Centro H con identación (sección sombreada), (b2) centro-H con 2 cavidades. _ , . . . _ . _ . _ _ . , , _ . . . _ _ _ _ _ . . _ _ _ _ . _ _ _ _ Las posiciones H14, H31, H48 y H65 sólo las pueden ocupar residuos H localizados a la mitad de segmentos H de longitud mayor que dos. _ . _ Corte transversal de un centro›H . . _ _ . , _ _ _ . . _ _ _ . _ _ _ _ _ _ Plegados encontrados con el método de búsqueda exhaustiva bajo el mo-delo 2D HP para la secuencia HHPHHPHPP dentro de una malla de 3 >< 4. (a) Primer plegado encontrado. (b) y (c) Segundo y tercer ple-gado correspondientemente, encontrados con el proceso de vuelta atrás a partir de un plegado anterior válido. _ _ _ _ . . . _ _ . _ _ _ _ _ _ Centro-H (líneas en color negro), para la secuencia de entrada HHHHH~ PHPPHPHPPHPHPPHPH. (a) Intento fallido de acomodo de los residuos de la secuencia, ya que las únicas dos opciones para colocar el residuo número 6, el cual es polar, son posiciones dentro del centrc»H. (b) Parte inicial de un acomodo exitoso de los residuos. (c) Acomodo exitoso de todos los residuos de la secuencia, (plegado óptimo) . . _ _ , _ . _ . . _ _

(14)

Figura Pagina (a) Acomodo aleatorio de los residuos hidrofóbicos dentro del centro-H, y presentación de los enlaces que se pueden lograr, incluyendo los residuos polares, bajo esta configuración, (b) Acomodo evolucionado de los residuos hidrofóbicos donde se logra un enlace total entre los residuos de la secuencia (plegado óptimo). _ . _ _ . _ _ _ _ . _ _ _ _ _ . _ _ _ _ _ Definición de la forma de un centro-H que corresponde a la secuencia mostrada _ _ _ _ _ _ _ _ _ _ _ . . _ _ _ _ . . _ _ _ _ _ _ _ _ . _ _ _ _ _ _ _ Definición de un marco (recuadro exterior) y centro~H (líneas gruesas), La letra “E” representa un escalón reservado para residuos P-Singlets, “O” representa una posición sobre la superficie del centro-H. “1” indica el nivel de profundidad de esa localidad. En este marco no hay posiciones que correspondan al solvente. _ _ _ _ _ _ _ _ _ _ _ _ _ . . _ _ _ . . _ . _ Ejemplo de dos individuos de la población generados por el acomodo alea-torio de los residuos hidrofóbicos dentro del centro-H, para la secuencia

HHHHHPHPPHPHPPHPHPPHPH _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

Ejemplo de calculo de aptitud de acuerdo al número de residuos que se pueden conectar sin colisión en el modelo 2D HP_ _ _ _ _ _ _ . _ _ _ _ _ Dos caminos distintos para conectar los residuos hidrofóbicos 49 y 53 en el modelo 3D HP_ . _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ . . _ _ Ejemplo de competencia entre dos individuos de la población, _ _ _ _ _ Ejemplo de padres que participan en un cruzamiento en 2D HP. _ _ _ Hijos resultantes del cruzamiento de ejemplo _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Ejemplo de mutación por intercambio de estructuras P-singlets _ _ _ _ _ Ejemplo de mutación por intercambio de residuos laterales _ _ _ _ _ _ _ Ejemplo de mutación por intercambio de residuos no laterales _ _ _ _ _ Representación de un vecindario para el mejor individuo generado en la fase del algoritmo genético (individuo actual). Cada vecino se crea aplicando una mutación distinta sobre el individuo actual. _ . _ _ _ _ _ (a) Estructuras P-singlets con sus H, laterales (residuos encerrados), y (b) residuos colocados en sitios de profundidad uno (residuos encerrados), que pueden intercambiarse entre si para producir una mutación. _ _ _ _

(15)

Lista de Figuras (Continuación)

Figura Pagina

Representación grafica de los segmentos de residuos “bien” conectados de seis de los mejores individuos generados por el algoritmo genético, incluyendo la fase de optimización local. Las líneas gruesas de color gris (tanto continuas como discontinuas), representan los segmentos de resi-duos bien conectados. Las lineas continuas representan los segmentos de residuos que además de estar bien conectados, sus plegados son similares a los plegados de los segmentos de residuos que le corresponden en la conformación óptima para la secuencia correspondiente. _ _ _ _ _ _ _ _ _ Determinación del segmento más largo de residuos bien conectados (en-cerrados en lineas discontinuas), para una configuración particular de residuos H dentro del centro-H_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Ejemplo de nuevos individuos creados a partir del individuo mostrado en la Figura 28. Los residuos H que forman parte del segmento más largo de residuos bien conectados (residuos 3 al 12), se mantienen fijos para toda la población. Los restantes (residuos 1 al 2 y 15 al 22), se acomodan de forma aleatoria en las posiciones libres del centroH _ _ _ _ _ _ _ _ _ _ _ _ Las figuras muestran dos configuraciones distintas que se pueden tener en 2D HP, y sus respectivas rotaciones, para estructuras formadas por dos P-singlets consecutivos y sus H, laterales. _ _ _ _ _ _ _ _ . _ _ _ _ _ Acomodo de estructuras P-singlets y doble P-singlets dentro de un centro-H en 2D HP . _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ . _ _ _ _ _ _ _ _ _ _ Configuración después del intercambio de los sitios 4 y 12 _ _ _ _ _ _ _ _ Resultado después del proceso de reacomodo _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Configuración con estructura de doble P-singlets no valida _ _ _ _ _ _ _ Seis de los plegados óptimos encontrados con el método de búsqueda ex-haustiva para la secuencia PHPPHPPHPPHPPHPPHPPH de 20 residuos, evaluada dentro de una malla cúbica de 3><3><3_ (a) Primer plegado óptimo encontrado, (b) Plegado óptimo número 100, (c) Plegado óptimo número 150, (d) Plegado óptimo número 300, (e) Plegado óptimo número 450 y (f) Plegado óptimo número 600. _ _ _ _ _ _ _ . _ . _ _ _ . _ _ _ _

(16)

Figura Pagina Tres de los plegados óptimos encontrados con el método de búsqueda exhaustiva para la secuencia PHPPHHHHPPHHHHPPHPPH de 20 resi-duos, evaluada dentro de una malla cúbica de 3 ><3 ><3_ (a) Primer plegado óptimo encontrado, (b) Plegado óptimo número 10 y (c) Plegado óptimo número 30. _ _ _ _ _ _ _ _ _ _ _ . _ _ _ _ _ _ . _ _ _ _ _ _ _ _ _ _ _ _ _ _ Tres de los plegados óptimos encontrados con el método de búsqueda exhaustiva para la secuencia PPHHPPPPPPHHPPPPPPPPHHPP de 24 residuos, evaluada dentro de una malla cúbica de 3><3><3_ (a) Primer ple-gado óptimo encontrado, (b) Pleple-gado óptimo número 500 y (c) Pleple-gado óptimo número 1000. . _ _ . _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ . . _ _ _ _ _ _ _ Dos representaciones distintas de la hélice-oz. (a) modelo de espacio lleno, (b) modelo de cintas_ _ _ _ . . _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Representación de láminas-Ú antiparalelas y paralelas respectivamente _ Representación del giro-,B _ . _ . _ _ _ _ _ _ _ _ _ _ _ _ . _ _ _ _ _ _ _ _ _ En cada una de estas ﬁguras se muestra la unión de dos hélices-or a través de una estructura secundaria de rizo_ _ _ _ _ _ _ _ _ _ . _ _ . _ _ _ _ _ _

(17)

Tabla de Símbolos

Símbolo Descripción HP Malla 3D HP 2D HP H-H Centro-H Marco Ca

5g§1mee

sH

Pm "H Segmento SegmentoP(H) P - singlet z 51111 bHP ¡Irma tHH t'HP te-sal./me SP

Sms,

Modelo bidrofóbico polar del problema del plegamiento de proteinas Espacio donde se coloca el plegado de una proteína

Modelo hidrofóbico polar en un lattice cúbico Modelo hidrofóbico polar en un lattice cuadrado

Contacto entre residuos hidrofóbicos en un plegado HP de proteína Espacio que contiene todos los residuos hidrofóbicos en un plegado Prisma con dimensiones mínimas suﬁcientes para contener un centro-H Atomo de carbono central de los aminoácidos

Angulo entre el Ca y el nitrógeno del mismo residuo Angulo entre el Ca y el carbono del mismo residuo Residuo hidrofóbico

Residuo polar

Máximo número de contactos H-H encontrados para una secuencia Probabilidad de selección en un GA

Probabilidad de cruzamiento en un GA Probabilidad de mutación en un GA

Número de residuos hidrofóbicos de una secuencia dada Subsecuencia de residuos

Subsecuencia de residuos del mismo tipo (polar ó hidrofóbico) Segmento P de longitud uno, ejemplo

Número máximo de vecinos para un sitio dentro del lattice, para 3D HP 2 = 6

Número de enlaces covalentes entre residuos H en una secuencia Número de enlaces covalentes entre residuos H y P en una secuencia Número de residuos H en los extremos de una secuencia

Número de contactos H-H

Número de contactos entre residuos H y P dentro del plegado Número de contactos entre residuos H y el solvente

Longitud del segmento P

Longitud del segmento P más largo en una secuencia

(18)

Tabla l II Ill IV V VI VII VIII IX X Xi XII XIII XIV XV XVI Pagina Máximo número de contactos H-H obtenidos por diferentes algoritmos evolutivos y Monte Carlo, para los casos tipo ( “benchmarks”), utilizados bajo el modelo 2D HP (ver Apéndice (fuente: Bui y Sundarraj (2005)). Los valores máximos se presentan en negritas. _ _ _ _ _ _ _ _ _ Resultados obtenidos por el método PFGA para los casos tipo, bajo el modelo 2D HP (ver Apéndice E). C,,,,,, = Número maximo de contactos encontrados _ _ _ _ _ _ _ _ . _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Mejores resultados obtenidos por diferentes métodos para los casos tipo (ver Apéndice E), sobre el modelo 3D HP_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Muestra los puntajes utilizados en la función heurística utilizada para determinar la aptitud de las diferentes conformaciones dadas para cada segmento agregado_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Registro de caminos encontrados entre cada par de residuos H para un individuo en pa_rticular_ (R representa un desplazamiento a la derecha, L desplazamiento a la izquierda, D abajo, U arriba., F hacia el frente y B hacia atrás). _ _ _ _ _ _ _ _ _ _ _ _ _ . _ . _ _ _ _ _ _ . _ _ _ _ _ _ _ _ 57 Secuencia de 67 residuos aplicando algoritmo genético y optimización local. 87 Secuencia de 67 residuos aplicando algoritmo genético con fase de reﬁ-namiento_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ . _ _ _ _ _ _ _ _ _ _ _ 89 Secuencias de 48 residuos utilizando 200 individuos y 200 generaciones. 90 Secuencias 7 y 8 de 48 residuos utilizando 300 individuos y 600 generaciones 91 Secuencias de 64 y 67 residuos. _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 92 Secuencia de 88 residuos _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ . . _ _ _ _ _ _ _ _ _ 93 Fuerzas de atracción de los diferentes enlaces que intervienen en la esta-bilización de las proteínas. . _ _ _ _ _ _ . _ _ _ _ _ _ _ _ _ _ _ _ _ . _ _ _ Secuencias, longitudes de secuencias y número de contactos H-H; para los casos tipo utilizados bajo el modelo 2D HP_ _ _ _ _ _ _ _ _ _ _ _ _ _ Plegados óptimos para los casos tipo bajo el modelo 2D HP_ Las letras L, R, U y D, representan la dirección tomada por cada residuo, (“L” izquierda, “R” derecha, “U” arriba y “D” abajo). _ _ _ _ _ _ . _ . _ _ _ Secuencias, longitudes de secuencias y número de contactos H-H; para los casos tipo utilizados bajo el modelo 3D HP. _ _ _ _ _ _ _ _ _ _ _ _ _ Plegados óptimos para los casos tipo bajo el modelo 3D HP_ Las letras L, R, U, D, F y B representan la dirección tomada por cada residuo, (“L” izquierda, “R” derecha, “U” arriba, “D” abajo, “F” frente y “B” atrás)_

(19)

Capítulo I

un

Introduccion

I.1 Antecedentes

Uno de los problemas vigentes más importantes dentro de la biologia molecular, es el llamado problema del plegamiento de proteínas (protein folding problem). Cuyo objetivo es encontrar la estructura tridimensional que presentan las proteínas en su estado natural a partir de una secuencia de aminoácidos determinada conocida como estructura primaria (Yue y Dill, 1993). El trabajo de investigación dentro de esta área cuenta ya con varias décadas de esfuerzos, cuyos inicios lo podemos remontar a principios de la década de los 50's en que Linus Pauling propone la existencia de un estado termodinámicamente estable con una estructura lielicoidal para ciertas proteínas (Pauling et al., 1951). Este hecho fue conﬁrmaclo experimentalmente por Kendrew et al. (1958), para la molécula de la mioglobina.

(20)

Cada proteína inicia como una secuencia de aminoácidos, la estructura primaria. Posteriormente toman un plegado particular dentro de una forma en tres dimensiones, dando lugar a configuraciones locales conocidas como estructuras secundarias, para pos-teriormente tomar un plegado global que corresponde a su estructura terciaria. Este pro-ceso de doblado es muy rápido, menos de un segundo para la mayoría de las proteinas, y ocurre inmediatamente después de que la estructura primaria de la proteína ha sido creada. Una proteína es activa sólo hasta después que su plegado se ha finalizado en su forma final establecida (estado natural). La función de las proteínas depende princi-palmente de su estructura terciaria, la cual a su vez depende de su estructura primaria. Los errores en el proceso de plegado crean proteínas con formas anormales, lo cual es causa de enfermedades tales como la fibrosis cística, Alzheimer, encefalopatía espon-giforme bovina (EEB) conocida como "mal de las vacas locas”, entre otras (Cohen y Kelly, 2003). Se cree que si somos capaces de predecir la estructura terciaria de una proteína a partir de su secuencia de aminoácidos, podemos ser capaces de tratar mejor estas enfermedades. El conocimiento de las estructuras terciarias tiene también otras aplicaciones tal como el diseño de medicamentos, por ejemplo, la replicación del virus del SIDA depende de la proteasa HIV. Si se logra encontrar una molécula que pueda permanecer unida al sitio activo en la proteasa HIV, la función normal de esta enzima podría ser anulada (Fogel y Corne, 2003).

(21)

3 A pesar de que se han determinado las secuencias de mas de 250,000 proteínas, actual-mente se conocen apenas cerca de 35,000 estructuras terciarias, disponibles en una base de datos dedicada exclusivamente a proteínasl.

Paralelamente a los métodos experimentales se han estudiado técnicas computacio-nales para afrontar este problema, Lamentablemente el éxito ha sido también muy limitado debido a que es un problema computacional extremadamente difícil del tipo optimización cornbinatoria con un número exponencial de soluciones potenciales. Por esta razón, se han propuesto diferentes modelos simpliﬁcados del problema con el ob-jetivo de aportar aproximaciones iniciales de la solución, lo cual se puede ver como un enfoque de trabajo reduccionista. Estos modelos simplificados han sido útiles también para explorar y entender mejor las fuerzas y principios de plegamiento de las proteínas reales (Dill, 1999).

Uno de los modelos simpliﬁcados mas ampliamente estudiados, el modelo hidrofóbico polar (HP), fue introducido por Dill (1985). En este modelo, los 20 aminoácidos que componen las proteínas se clasifican como hidrofóbicos o polares (P), de acuerdo a su afinidad con el agua. La conformación de una proteína se coloca sobre una malla (lattice) en dos o tres dimensiones (2D o 3D), de tal manera que el plegado entre un aminoacido y el siguiente sólo puede tomar ángulos de ±90° en cada uno de los ejes. Bajo este modelo se considera un plegado óptimo o natural, a aquel que mantiene el maximo número de contactos entre residuos H que no son adyacentes en la secuencia. Existen muchas variantes de mallas utilizadas para el estudio de este problema en el modelo HP (Kolinski y Skolnick, 1996).

Se han desarrollado numerosos métodos que intentan resolver el problema bajo este modelo; sin embargo, a pesar de las simpliﬁcaciones que este modelo representa, los mejores resultados se limitan a garantizar el plegado óptimo para proteínas pequeñas

(22)

de hasta 88 aminoácidos (Yue y Dill, 1995), y a proponer buenos plegados (sin garantizar el óptimo), para secuencias de hasta 136 aminoácidos (Hsu et al,, 2003). La secuencia de 88 aminoácidos para la cual se logró el óptimo corresponde a un barril ,B/zx. La secuencia de 136 aminoácidos modela a un fragmento del estaﬁlococo nucleasa. Estos resultados son aún limitados considerando que existen proteínas formadas por casi 27,000 aminoácidos (Eilton y lsaacs, 1991).

Entre estos métodos se encuentra el método Constmined Hydraphobíc Core Construc-tion (CHCC), de Yue y Dill (1993, 1995). Este es exacto y se basa en un replanteamiento del problema original dentro del modelo HP. Se demuestra formalmente que maximizar el número de contactos H-H es equivalente a minimizar la superﬁcie de un centro-H (centro hidrofóbico), que contiene at todos los residuos hidrofóbicos. Bajo este plane teamiento, construyen el centro-H con superﬁcie mínima, y a través de una búsqueda exhaustiva intentan acomodar la cadena de aminoácidos dentro del centro-H. Con este método se logran encontrar plegados óptimos para secuencias de hasta 88 residuos en tiempos que van de minutos a horas en mallas cúbicss.

(23)

5 Otro método heurístico, también del tipo Monte Carlo, que ha mostrado algunos de los mejores resultados para los casos tipo, es el Coredirected Chaín Growth (CG), de Beutler y Dill (1996). El CG calcula un centro siguiendo la idea de Yue y Dill (1993), y crea la conformación agregando de forma sistemática un segmento de la secuencia de residuos a la vez. Por cada segmento agregado realiza una enumeración exhaustiva de todos los plegados posibles, eligiendo de estos el mejor. Este método es el único, del tipo heurístico, capaz de hallar la energía mínima global para la secuencia de 88 residuos cuyo plegado óptimo fue calculado por el método exacto CHCC.

También se han desarrollado métodos del tipo evolutivo. Uno de los mejores de este tipo es el algoritmo genético Protein Foldtng Genetic Algmtthm (PFGA), de Bui y Sundarraj (2005). La idea principal del algoritmo PFGA está en el uso de estructuras secundarias, las cuales son generadas a través de un proceso evolutivo, y posteriormente se utilizan dentro de otro proceso similar para explorar el espacio de plegado de una proteína. Con este método se han obtenido algunos de los mejores resultados para las secuencias de prueba estándar en 2D.

Nuestra propuesta se basa en el método CHCC. A pesar de que la búsqueda exhaus-tiva del método CHCC realiza una poda muy significaexhaus-tiva sobre el espacio de búsqueda conformacional, ésta requiere de un tiempo que crece exponencialmente con el número de los residuos de la cadena, para acomodar los residuos dado un centro-H. Esto limita la aplicación del método CHCC a cadenas relativamente pequeñas. Este trabajo de te-sis se basa en esta observación. Se propone experimentar una combinación del manejo de centros-H con la aplicación de métodos evolutivos para llevar a cabo el acomodo final de los residuos. Aprovechando así el planteamiento del problema de maximización de contactos H-H como un problema de minimización de superficies, pero evitando una búsqueda exhaustiva en la fase final.

(24)

para intentar acomodar lo residuos de la secuencia dado un centro-H óptimo, de manera que se logre un plegado viable. Se implementó el método y se realizaron diversos experimentos con 13 de las secuencias de prueba más utilizadas como casos tipo para este problema. De las 13 secuencias de prueba se logró el valor óptimo para 12 de ellas, y un valor muy cercano para la secuencia para la cual no se llegó al óptimo. Con base a los resultados de los experimentos, concluimos que si es viable acomodar los residuos de la secuencia dado un centro-H óptimo, a través de métodos heuristicos. La principal aportación de este trabajo, es la propuesta de un método heurístico para resolver un subproblema del plegamiento de proteínas bajo el modelo 3D HP, para el cual sólo se conocía una estrategia exhaustiva cuyo tiempo de ejecución crece de manera exponencial con el número de residuos en la secuencia,

I.2 Objetivos

A continuación se establecen los objetivos del proyecto.

I.2.1 Objetivo General

Proponer un algoritmo genético para el problema del plegado de proteínas bajo el modelo Hidrofóbico-Polar en una malla de tres dimensiones.

I.2.2 Objetivos especíﬁcos

o Identiﬁcar fortalezas y debilidades de algunos de los algoritmos utilizados para el problema del plegamiento de proteínas bajo el modelo HP, con el ﬁn de ser aprovechados en el diseno de nuevas estrategias

(25)

7 y su plegado correspondiente, así como las propiedades descubiertas del modelo HP en investigaciones anteriores.

0 Con base en los resultados de los dos puntos anteriores, diseñar un algoritmo genético para el problema del plegado de proteínas bajo el modelo HP 3D cúbico.

-›

L3

Organizacion de la tesis

Este trabajo consta de cinco capítulos, seis apéndices y un glosario, y está organizado de la siguiente manera:

En el Capítulo II “Planteamiento del problema" se describe el problema del plegamiento de proteínas y se explica el modelo hidrofóbico-polar (HP), el cual es un modelo sim-pliﬁcado de este problema. Se presenta también una revisión general sobre el trabajo previo realizado sobre este modelo y ﬁnalmente se muestra un resumen de cinco de los mejores métodos aplicados a este problema bajo el modelo HP.

En el Capítulo III “Metodología propuesta” se describe la metodología desarrollada para afrontar el problema del plegamiento de proteínas bajo el modelo HP. Se presenta un método exhaustivo, y sus limitaciones, para abordar este problema. Posteriormente se describen algunos algoritmos heurísticos (Genéticos, Monte Carlo y optimización lo-cal), los cuales estan basados en el manejo de restricciones del problema.

En el Capítulo IV “Experimentos y Resultados" se describen los experimentos realiza-dos con el fin de evaluar el método propuesto, y se presentan los resultarealiza-dos obtenirealiza-dos. En el Capítulo V “Conclusiones y trabajo futuro” se discuten los resultados obtenidos y se comentan los problemas y propuestas a tratar en una posible continuación de este trabajo.

(26)

El Apéndice B muestra los tres tipos mas comunes de estructuras secundarias presentes en las proteínas.

En el Apéndice C se deﬁne el concepto de energía libre y se presenta la ecuación cor-respondiente.

En el Apéndice D se deﬁnen las fuerzas que intervienen en la formación y estabilización de las proteinas.

En el Apéndice E se presentan las secuencias utilizadas como casos tipo (“benchmarks" ), y algunos de los plegados óptimos para estas secuencias.

El Apéndice F muestra la definición de algunos centros-H utilizados en los experimentos realizados.

(27)

9

Capítulo II

Planteamiento del problema

II.1

Plegamiento de proteínas

Los organismos biológicos están compuestos por miles de diferentes tipos de proteínas, las proteínas tienen funciones especíﬁcas y fundamentales que desempeñar. Las proteínas a su vez están formadas por aminoácidos, Cada aminoácido está compuesto por un átomo de carbono (Ca) unido a un grupo carboxil, a un grupo amino (ver Figura 1), y a u.na cadena lateral (Fogel y Come, 2003).

Gmpn Amino Grupo Carboxiïo

H\M

4 C/@ \`\\

“

\@

p

Figura 1: Estructura general de los aminoácidos. La letra R denota la localización de la cadena lateral.

mgníï

(28)

en si plegados locales. A estas estructuras se les llama estructuras secundarias (ver Apéndice B).

La conformación de una estructura más compleja, a partir de estructuras secunda-rias, da lugar a la llamada estructura terciaria. La estructura terciaria de una proteína está ligada fuertemente a la función que desempeña la proteina. Es por esto la gran importancia que tiene el poder predecir la estructura tridimensional de una proteína a partir de la secuencia de aminoácidos que la conforman,

Se sabe que la estructura o plegado tridimensional que toman las proteínas en su estado natural minimiza la energía libre o energía libre de Gibbs (ver Apéndice C), a esto se le llama hipótesis termodinámica (Anfinsen, 1973).

Existen muchas fuerzas que actuan sobre la proteína que determinan su confor› mación, y por lo tanto a los cambios de energía libre de éstas. Estas fuerzas pueden ser, enlaces por puentes de disulfuro, puentes de hidrógeno, interacciones hidrofóbicas, enlaces salinos ó interacciones de Van der Waals (ver Apéndice D).

Es con base a la minimización de la energia libre y/0 la maximización de las fuerzas actuantes en la conformación de las proteinas, que los diferentes métodos computar cionales pretenden modelar la estructura de las proteínas. Sin embargo, éste es un problema muy complejo debido a la enorme cantidad de combinaciones que se presen-tan al querer predecir las estructuras.

El problema del plegado de proteínas implica predecir los ángulos ¢ y 1,0 que existen entre átomos de cada de aminoácido (ver Figura 2, tomada de un sitio en internet que publica información sobre los principios de la estructura de las proteinasl), y los ángulos de torsión entre los diferentes grupos de átomos que conforman la cadena lateral. Considerando que una proteína puede estar formada por cientos Ó miles de aminoácidos, se generan cantidades extremadamente grandes de posibles combinaciones.

(29)

11

Q ví /nf

4-'

e

2-

'I'

~ ,

\

,f ímt, J

-1

ii

Q

¿gg

,

¬ '«._, J

X

`°' of

fl

\_

la

É'

<.-....›

Figura 2: Enlace peptídico entre dos aminoácidos. El ángulo ¢ mide el giro entorno al enlace que une el carbono or de un residuo con el N del mismo residuo. El angulo tb mide el giro en torno al enlace que une el carbono oz con el C del mismo residuo.

Por otro lado, el cálculo de la energía libre no es trivial. Se han propuesto varios modelos matemáticos para su calculo, los cuales son extremadamente lentos de aplicar dentro de un algoritmo computacional.

Debido a lo anterior, es que ha sido necesario reducir el problema a través de mo-delos sirnpliﬁcados. Con estos momo-delos no se pretende dar la descripción exacta de la estructura de las proteínas, ni deﬁnir los factores que intervienen en la conformación de éstas. En cambio se pretenden lograr buenas aproximaciones y sentar las bases para futuras implementaciones más ambiciosas.

II.2

Modelo Hidrofóbico Polar (HP)

(30)

Cuando los aminoácidos se unen para formar el enlace peptidico liberan moléculas de agua. A los monómeros resultantes que conforman la nueva cadena polipéptida se les llama residuos, es decir, los aminoácidos que conforman la cadena después de haber perdido algunos átomos como consecuencia de la unión (ver Figura 3). Dependiendo de la estructura de su cadena lateral, estos residuos pueden ser hidrofóbicos (que repelen el agua) o polares (no la repelen). Debido a que las proteínas en su estado natural se encuentran en un ambiente acuoso, los residuos hodrofóbicos tienden a concentrarse en el interior de la estructura, produciendo así un plegado particular a la proteína debido a esta fuerza.

¡F3

Fl”

I

/©s\

©- H

/©”¢\ /©”*Qi

@ ui

c

tu mln"

o”

H

ò

H

¿W

Figura 3: La unión entre dos aminoácidos libera una molécula de agua (ver los átomos encerrados), a los monómeros resultantes se les llama residuos.

Bajo esta consideración se lleva a cabo la primera simpliﬁcación al problema. Los 20 aminoácidos de los cuales está formada la proteina se reemplazan por dos tipos de monómeros únicamente: Hidrofóbicos o Polares (P), dependiendo de su afinidad con el agua (ver Apéndice A).

(31)

13

Bajo este modelo se conoce como contacto H-H a un par de Hs que son vecinos en la malla pero no en la. secuencia. A tales contactos se le asigne una energía de -1. Dado que la conformación natural de una proteina corresponde al estado con el más bajo nivel de energía, el plegado óptimo en el modelo HP es aquel que tiene el máximo número de contactos H-H (Figura 4).

_?

-"W,--,_

Secuencia HP: I I _

HHHHHPHPPHPHPPHPHPPHPH _ ' l234567890l2345ó7890l2 U ~

-| . Res1duosHidrufóbicos _ _ bi? _ 15

Residuos Polares

4 - - 1 7 _@

í Enlace Covalente |

_ _ ` ` ` Conlacio H-H :T`

Figure 4: Plegado óptimo para la secuencia HHHHHPHPPHPHPPHPHPPHPH, con un total de 12 contactos H-H, bajo el modelo 2D HP.

O

-<-6

Secuencia Primaria:

MLVVINPGYAGWTSLMCTYPCV

II.3

Deﬁnìción formal del problema

(32)

U

_{¡_}

D

_B

U

R

s = HHPPPHHP

C = LURBDLU

Figura 5: Ejemplo de plegado óptimo para la secuencia de residuos de aminoácidos S y su codificación C correspondiente, bajo el modelo 3D HP. La secuencia inicia con el residuo hidrofóbico localizado en la parte inferior derecha de la ﬁgurai

Un plegado válido es aquel donde cada sitio de la malla aloja a lo mas un residuo de la secuencia, y cada residuo se conecta a suﬁs) vecino(s) en la secuencia en un(os) sitio(s) vecino(s) también en la malla.

El problema del plegado de proteínas bajo el modelo HP se puede plantear de la siguiente manera:

Entrada: Una cadena S = slsgsa. . .sn donde si G {H, P}, 1 S í 5 n, que representa una secuencia de residuos de aminoácidos.

Salida: Una conformación ó plegado válido C sobre una malla 2D ó 3D de S que tiene el máximo número de contactos H-H.

(33)

15

3D HP (Berger y Leighton, 1998).

II.4

Trabajo previo sobre el modelo HP

Desde hace más de una década se han llevado a cabo numerosos esfuerzos por resolver el problema del plegado de proteínas bajo el modelo HP, A pesar de estos esfuerzos el problema ha sido resuelto sólo parcialmente para pequeñas secuencias de residuos de aminoácidos. Existe una gran variedad de algoritmos tanto para el modelo 2D como el 3D HP. Algunos de estos algoritmos son exactos, (Yue y Dill, 1993, 1995). Estos algoritmos son capaces de encontrar plegados óptimos en mallas 3D para secuencias de hasta 88 residuos de aminoácidos en tiempos que van de minutos a horas. Existen también algoritmos de aproximación, (Hart y Istrail, 1995; Newman, 2002; Newman y Ruhl, 2004). Estos algoritmos aseguran un factor de aproximación de la solución óptima, lo cual logran regularmente en tiempos de segundos a minutos, Actualmente el grado de aproximación que aseguran es de à para 2D HP y ã para 3D HP. Además, existen algoritmos basados en lieuristicas para el modelo HP. Estos algoritmos se divi-den generalmente en dos categorías: algoritmos evolutivos, (Jiang et al., 2003; Konig y Dandekar, 1999; Krasnogor et al., 1999; Patton et al., 1995; Shmygelska y Hoos, 2003; Unger y Moult, 1993), y en algoritmos Monte Carlo, (Beutler y Dill, 1996; Bastolla et al,, 1998; Hsu et al., 2003; Liang y Wong, 2001; Ramakrishnan et al., 1997). Estos algoritmos a pesar que no aseguran formalmente encontrar el óptimo global, experi~ mentalmente han demostrado ser capaces de encontrar el óptimo para secuencias de hasta 100 residuos de aminoácidos en mallas 2D (ver Tabla l)i

(34)

Tabla I: Máximo número de contactos H-H obtenidos por diferentes algoritmos evo« lutivos y Monte Carlo, para los casos tipo ( “bench'marks”), utilizados bajo el modelo 2D HP (ver Apéndice (fuente: Bui y Sundarraj (2005)). Los valores máximos se presentan en negritas.

. PERM“ Mejor Mejor Mejor Mejor Mejor Mejor

›-›-©oo\¡c>cn›¢>C›1›-O

48 23 23

50 21 2 1 21 21 60 36 36 36 35 64 42 42 42 39 85 53 53 51

-50 49 47

-48 47

-1 20 9 9 9 9 2 24 9 9 9 9 25 8 8 8 8 36 14 14 14 14

23 23

100

100 48

9 9 8 14 23 21 35 39

9 9 S 13 20 21 33 35

seq.`Long.` cm

PFGAT Acoﬂ EMC? GTSG MMC'

GAI

No

9 9 8 12 22 21 34 37

'L Determinado; por el metodo PERM, (Hen =¢ uz., zona) H Bus y sundwaj (2005)

(35)

17 y finalmente se presenta el método Cl-ICC, un método exacto para el plegado en 2D y 3D HP,

II.4.1 Protein Folding Genetic Algorithrn (PFGA)

(Bui y Sundarraj, 2005)

La idea principal del algoritmo PFGA está en el uso de estructuras secundarias para explorar el espacio de plegado de una proteína. Los plegados de proteinas se centran alrededor de una estructura polipéptida que mantienen alguna forma particular. Es-tas estructuras se conocen como estructuras secundarias, las cuales generalmente son clasificadas dentro de los siguientes tres tipos: hélices-oz (oz-helix), láminas-ﬁ (5-sheet) y los giros-Ú (ﬁ-turns) que conectan las hélices y láminas. Extendiendo este concepto al modelo HP, una subsecuencia de residuos hidrofóbicos se restringe a un plegado es-pecífico en el proceso de determinar el plegado óptimo para la secuencia de entrada. Sin embargo, no hay razones dadas para elegir una estructura secundaria sobre otra para una subsecuencia hìdrofóbica.

Dado que hay muchas estructuras secundarias aún para pequeñas subsecuencias, es impráctico probarlas todas, En este trabajo utilizan un algoritmo genético para. evolucionar sistemáticamente las estructuras secundarias, las cuales se utilizan pos-teriormente como bloques constructores para evolucionar el plegado completo de la cadena.

(36)

las estructuras secundarias de la biblioteca como bloques constructores.

A continuación se presenta el funcionamiento del algoritmo PFGA, el cual es una combinación de algoritmo genético con optimización local.

Generación de la población inicial

Para la creación de cada individuo, en cada posición i que resulta ser el inicio de una subsecuencia hidrofóbica de longitud lc, se elige de forma aleatoria si se utiliza una estructura secundaria o no. Si se utiliza una estructura secundaria, ésta se elige también de forma aleatoria de la biblioteca y se coloca en el plegado. Si el plegado resulta inválido se intenta rotar la estructura secundaria 90", 180° y 270° una a la vez, hasta que produzca una conformación válida. Si ésta no se produce, se vuelve a crear un individuo. Cuando no se utiliza. una estructura secundaria, se selecciona una dirección de plegado disponible de forma aleatoria. Si no hay una dirección de plegado disponible se vuelve a crear el individuo. La aptitud de cada individuo es simplemente el número de contactos H›H en el plegado resultante. Siempre se crean individuos válidos y la población inicial se forma con la selección de los 500 mejores individuos de un conjunto original de 1000.

Cruzamiento

(37)

19 Mutación

Se utiliza mutación uniforme, Cada posición de plegado se muta con una probabilidad que varia en el tiempo de 0.2 al inicio a 0.1 al final del algoritmo. La probabilidad de mutación varía en el tiempo con el fin de lograr una mayor exploración al inicio y una menor al final. Si el hijo contiene estructuras secundarias no se realiza mutación dentro de la estructura. Se trata la estructura como una unidad y sólo se muta por reemplazo con otra estructura seleccionada de forma aleatoria de la biblioteca.

Ajuste de hijos

Es frecuente que después del cruzamiento y mutación, los hijos generados resulten con plegados no validos. Los hijos sin estructuras secundarias se ajustan iniciando con el primer residuo de la secuencia, cada residuo siguiente se intenta colocar en la malla con la dirección del plegado actual. Si ésta es no factible, se coloca el residuo en una posición disponible elegida de forma aleatoria. El hijo se descarta si no hay posición en la malla disponible. Para el caso de hijos con una o varias estructuras secundarias el ajuste es mas complejo, para más detalles ver Bui y Sundarraj (2005).

Optimización local

(38)

Z Y Z Y

W X W X

tiëll)

(Po)

Figura 6: Esquema de optimización local donde se muestra un cambio de dirección en el plegado. En la figura (a) se muestra el plegado original, y en la ﬁgura (b) se muestra el plegado después de la optimización.

Reemplazo

Si el mejor hijo de los dos existentes es mejor que el peor de los dos padres, lo reemplaza en la población. De otra manera si el mejor hijo es mejor que el peor individuo de la población lo reemplaza. En otro caso se descartan los hijos.

Criterio de parada

El algoritmo se ejecuta por un máximo de 100,000 iteraciones o hasta que no hay mejora en las últimas 10,000 iteraciones. El mejor miembro de la población se selecciona como salida del algoritrmo.

Algoritmo SSGA

(39)

21

hidrofóbicas sean simétricas en alguno de los ejes de la malla. Esto debido a que las estructuras secundarias en el estado natural de una proteina presentan cierto grado de simetría.

La aptitud de un individuo en el algoritmo SSGA es la suma de la aptitud asignada por el número de contactos H-H total y la aptitud por compactación. El número de contactos total es el que resulta al considerar que la estructura secundaria estará rodeada exclusivamente por residuos hidrofóbicos, debido a que es probable que ésta forme parte del centro de la conformación, La otra medida es el grado de compacta/ción que mantiene la estructura secundaria. Si s es el número de sitios que abarca el área rectangular mas pequeña que encierra a la conformación, el valor de la aptitud aportado por esta medida es fs. Esta medida considera que para lograr un máximo número de contactos H-H el centro hidrofóbico tiende a ser mas compacto.

En la Tabla H se muestran los resultados experimentales obtenidos con este método.

II.4.2

Genetic Algorithm combined with Tabú Search (GTS)

(Jiang et al., 2003)

Los algoritmos genéticos (GAs) y la búsqueda tabú (TS) son algoritmos heurísticos con sus propias ventajas y desventajas, Por ejemplo, los GAS algunas veces terminan prematuramente. Los TS regularmente dependen de la buena elección de la solución inicial. Jiang y colaboradores diseñaron un método hibrido de un GA y TS nombrado GTS para superar las desventajas y mantener las ventajas de cada método.

(40)

Tabla II: Resultados obtenidos por el método PFGA para los casos tipo, bajo el modelo 2D HP (ver Apéndice Cm, = Número maximo de contactos encontrados.

Seq Long Cm, Contactos H-H Tiempo

.93 . 0 4.48 No. Mejor Promedio Desviación Promedio

Estándar (Se

20 9 9 0 63

24 9 9 7 0 7

25 8 8 6.51 0.93 4.77

›-›-\=.ooo\ic>::1›:>mwi-›-ic:

S 8.39 . 3. 23

36 14 14 11.44 1.03 7.98 48 23 23 18.51 1.49 12,85 50 21 21 17.51 1.33 12.78 60 36 36 31.62 1.28 19.38 64 42 42 37.24 1.91 23.82 85 53 53 47.40 1.89 44.05 100 50 49 43.38 1,96 56.71 100 48 48 42.10 1,92 58.93

'Pruebas realizadas sobre una FC con procesador Pentium [V 3.2 G1-Iz y 1 GB dc RAM bajo Windows XP Pro.

En el GA se utiliza un operador nuevo de cruzamiento (CT), que toma idea de la búsqueda tabú. Para el CT se maneja una lista tabú de tamaño L, donde la aptitud de los individuos se guarda. Si la aptitud del hijo generado en el cruzamiento es mayor que la aptitud media de la población y corresponde a un plegado valido, el hijo se acepta, en caso contrario, si el hijo no está en la lista tabú pero es válido, también se acepta, en caso de que no ocurra alguno de estos dos casos, el mejor de los padres se elige para la próxima generación. Posteriormente la lista tabú se actualiza.

Después que el CT ﬁnaliza, los operadores de mutación, selección y actualización se aplican. El proceso completo es iterativo.

(41)

Algoritmo 1. Paso 1: Paso 2: Paso 3: Paso 4: Paso 5: Paso 6: Paso 7; Paso 8:

23

Método GTS Asigna parámetros. Crea la población inicial. Inicia el proceso iterativo.

Aplica TS a la población y obtener una nueva población legal. Aplica operador de selección para la próxima generación. Aplica operador CT a la población actual.

Aplica operador de mutación a la población actual.

Si condición de término, regresa resultados, caso contrario regresa al Paso 3.

Realización del GTS

Creación de la solución inicial

El plegado se codifica como una cadena de dígitos del conjunto {0, 1, 2}, donde 0 representa giro a la izquierda, 1 giro ala derecha y 2 seguir de frente. Los individuos se crean eligiendo de forma aleatoria la dirección de plegado para cada uno de los residuos. Método de búsqueda tabú

(42)

Operador genético

Se utiliza el operador CT. La probabilidad de cruzamiento, PC, se decrementa lineal~ mente con el número de generaciones. Para aplicar la mutación se utilizan tres métodos distintos explicados en Liang y Wong (2001), Cada uno de estos métodos se elige con una cierta probabilidad. La probabilidad de ejecutar mutación se incrementa lineal~ mente durante las generaciones. Para la selección se utiliza ruleta (Goldberg, 1989). La probabilidad de sobrevivencia de un individuo es proporcional al valor de su energía (aptitud). Para mejorar la capacidad de convergencia del GA se incrementa la proba-bilidad de sobrevivencia de los individuos con más baja aptitud aplicando un factor de escalarniento, Para el reemplazo se utiliza elitismo dejando una copia del miembro más apto para la siguiente generación.

Revisión de colisiones

Los individuos generados no siempre son validos, Por lo que se evalúa la validez después de inicializar la población, durante la búsqueda tabú, después del cruzamiento y después del operador de mutación.

II.4.3

Growth Algorithms for Lattice Heteropolymers at Low

Temperatures

(Hsu et al., 2003)

(43)

25 tiempos más cortos que los demás métodos, y en algunos casos se encontraron nuevos estados mas bajos de energía. Con respecto al método CG, es superior en algunos casos de pruebas e inferior en otros. El método PERM esta construido sobre la idea del método R-R (Rosenbluth y Rosenbluth, 1955). Han sido desarrolladas y publicadas varias mejoras y adaptaciones a diferentes modelos del método PERM ((Grassberger

et al., 1998), (Frauenkron et al., 1998), (Hsu et al., 2003)).

El método PERM es un algoritmo llamado de crecimiento de cadena (chain growth algaríthm), en el cual los Inonómeros se agregan uno después de otro en el orden en que se encuentran en la secuencia primaria. Cada monómero se coloca en un sitio vecino al último monórnero agregado. El monómero n se coloca en el sitio z' con una probabilidad ;0,,(í). En el método RR original (que no se restringe al modelo HP), se utiliza una probabilidad uniforme p"(í) para cada uno de los vecinos vacantes: p,,(i) : 1/mn donde m,, es el número de vecinos vacantes del último monómero colocado. Como una alternativa se puede incluir el factor de Boltzmann en la probabilidad para elegir un sitio:

mi) =

donde:

1. ø = ,LT

k es la constante de Boltzmann. T es la temperatura del sistema.

El valor de B se asigna al inicio del proceso.

Para diferentes secuencias se pueden elegir diferentes valores de T, para lograr los resultados óptimos.

(44)

Es la energía ganada por agregar el monómero n. Ah" = 1 si y sólo si el monómero k y el n son vecinos en la malla y no son adyacentes en la secuencia (en el caso del modelo HP, ambos monómeros deben ser del tipo H), en otro caso AM = 0, El valor de e se asigna dependiendo del modelo que se utiliza, en algunos modelos puede ser simplemente un valor de 1.

Para el caso más especiﬁco de trabajo con heteropolimeros (como en el modelo HP), un sitio vacante con mg vecinos del tipo B (B = H, P), se elige con una probabilidad:

p,(-1) a 1 +“ AHNH +“ AP"-P

donde:

“AB son constantes con “AB > O para “AB < 0 y viceversa

A cada configuración (plegado parcial o completo), se le asigna un peso. Este peso se puede calcular como:

W" = m,,e'ﬁE“W,,_1 con W¡ = 1 donde;

mn = E,-g{,,,,)Z;% {nn) es el conjunto de sitios vecinos disponibles

(45)

27 de muestras de peso alto. El crecimiento de una cadena se detiene cuando el tamaño ﬁnal de la secuencia se alcanza y se reinicia el proceso para la obtención de nuevos plegados haciendo n = 1.

Cuando se generan copias de una conformación por el enriquecimiento, cada copia continúa su crecimiento de forma independiente a las demás. El podado es estocastico: si el peso de una conformación esta por debajo de un límite inferior Wf, la confor-mación se elimina con una probabilidad de à, o se conserva con la misma probabilidad En los casos en que la conformación se conserva su peso se duplica. En el caso del enri-quecimiento, si el peso Wu está por encima de un límite superior Wf, la conformación correspondiente se copia nç veces (para la versión original del PERM). A cada copia generada se le asigna un peso de Técnicamente, las copias se guardan en una pila, esto se implementa más fácilmente a través de funciones recursivas. De esta manera se evita mantener tamaños de poblaciones muy grandes.

El valor de los límites Wi y Wrf se eligen proporcional a la suma de la partición estimada Z", y se incrementan durante el crecimiento de las cadenas:

W: = 0Z,.1%1>{“+^;§12

Y

Wf = TWWÍ donde:

C es una constante r zz 10

M es una constante del orden 104 - 105

(46)

(tour es un conjunto de configuraciones derivadas de un mismo punto de partida) El número de copias a generar cuando W" > W; es:

C,, = int(i +

šš

))

F

La elección de estos valores (en el caso de C, r, M y los límites), no afectan la corrección del algoritmo, sin embargo, pueden afectar considerablemente su eficiencia. Estas características pueden depender de la longitud de la cadena y de conﬁguraciones locales, y pueden cambiarse libremente en cualquier momento durante la ejecución del método. Con esto se dice que el algoritmo aprende durante la simulación.

El pseudocódigo de la subrutina central del método PERM se presenta a continuación, Algoritmo 2. Subrutina central del método PERM

Línea 1 subrutina PASO(z',n)

Línea 2 selecciona 1" vecino de i con probabilidad p Línea 3 calcula W" y Zn

Línea 4 si n < Nm@ y W,., > U entonces Línea 5 calcula W; y W;

Línea 6 si W., > W,_> entonces Línea 7 Wn = %

Línea 8 llama PASO(z",n+1) Línea 9 llama PASO(z`l,n+1)

Línea 10 en caso contrario y si W., < Wf entonces Línea 11 W" = 2W,,

(47)

29

Línea 14 en caso contrario llama Línea 15 PASO(i'¬n-i-1) Línea 16 ﬁn del si

Línea 17 ﬁn del si Línea 18 retorna Línea 19 ﬁn de subrutina

En la versión mejorada del método PERM, llamada nPERM, la principal diferencia es que no se crean clones idénticos durante cl enriquecimiento. Cuando se tiene una configuración con n - 1 monómeros, primero se estima un peso predicho W,f"d para el siguiente paso, y se contabiliza el número Kfm de sitios libres donde el monómero TL se puede colocar. Si Wf'”” > W; y K¡,,,E > 1, se eligen 2 5 lc S K¡m diferentes sitios entre los sitios libres y se crean lc configuraciones las cuales se obligan a ser diferentes, De esta forma se evita la pérdida de diversidad lo cual limita el éxito del método PERM. El valor de lc se puede calcular con:

wena

k = mï”{K¡†=¢. -iii"/fl

A continuación se selecciona una lc-tupla A = oq, ..., ak de probabilidad 11,4, de sitios libres mutuamente diferentes, y con pesos correspondientes W,,m, . . . W†,_,,,¢ dados por:

W

= <w,i¬«.,K,..,.›

"'°”

ru5%›››A›

donde:

qm. : e-IïE,.,m'

(48)

a G [l, K¡,e¿] donde se puede colocar el monómero n, se calcula su energía EM, y su número K de vecinos libres, y se utiliza la llamada ínﬂuencía modificada:

ä= <K§ïìE + %)wr›(-REM)

para elegir el camino a seguir. El peso predicho es ahora Wf"'i = W,,_¡Z,,, Esto debido a que elegir caminos con un número menor de vecinos libres, contribuye en menor grado en corridas largas del algoritmo, con respecto a caminos con un número mayor de vecinos libres.

La probabilidad de seleccionar una tupla A = {a¡, _ . , , o¿k} está dada por:

_

2. «Z

PA _ L1?

2,,,2,,,EA,q,,,

Para generar la primera conﬁguración que alcanza la longitud n, nPERM utiliza W; = 0 y WT? = oo, es decir, no hay poda ni enriquecimiento. Para las siguientes configuraciones se utiliza W; = C%(%';-)2 y W; = 0.2W,,>, Aquí cn es el número total de configuraciones de tamaño n ya creadas durante la corrida, Z,, es la suma de partición estimada para estas configuraciones (ver apéndice en Hsu et al. (2003)), y C es algún número positivo S 1. Los resultados que presentan los autores (incluidos en la Tabla III), se obtuvieron con un valor de C:1. Sin embargo, se puede lograr un incremento substancial en la velocidad (arriba de un factor de 2) con valores de C mucho más pequeños entre 1045 a 10'”. Estos valores no se utilizaron en los casos de prueba debido a que dependen de la secuencia específica de aminoácidos en la cadena, y deterrninarlos en cada caso requiere una extensa búsqueda.

(49)

Tabla III: Mejores resultados obtenidos por diferentes métodos para los casos tipo (ver Apéndice E), sobre el modelo 3D HP.

N

Ema

d

EMC

Eiiz

ETTP

tåz

(mm)

9 ÉCHCC

(mm) (mm)

tt@

tiream(mm)

MPERM (mm) 48 48 48 48 48 48 48 48 48 48 64

-32"

-34"

-ase

-sz@

-32@

-31”

-34"

-33°

›so

67 -so

ss

-72*

ss

-44€

ios -54°

124 -71€

136 -so=

›30 -30 ~31 ›30 -30 -30 -31 -31 -30 -30 >r >i< ›s< ›k * * * -31 ›3Z -31 -30 -30 -29 -29 -29 -31 -33 fr ›r * * _ * _ * _ * _ ›s< >k >r * * >F >¶< * * ›r * ›i= * 42 49 58 65 15000 71000 82000 1600000 110000 180000 22000 14000 16000 4100 >i< ›k ›k * * * * 30 2.3 30 71 32 80 11 53 8.3 4,8 * ›r 40" ›i< * ›z< * 9.4 35 62 29 12 460 64 38 1.1 1< * 4320q 4< * ›k * 6.9 40.5 100.2 284.0 74.7 59.2 144.7 26.6 1420 18.3 * * * * >l< * *

o6sf_'

a.s9k

1.99k

13.45k

siosk

s.sok

5.37*

2.17k

41.41*

o.47k

26,8"

67.0”

11.4"

1812"

738.0"

6600.0" H 1-:rmrga mfmma graba1,<iererm¡rrsa» par Yue y Dm (1995),

" Energia mrmmr graban, derermimaa pm el metodo cr-¡oc (Beutler y Dm, im). = Energia mrmma errcrmrraar, aerermimrda por el memaa HPHRM (1-im rr ar., zona), -1 Energía mrmma drmmirras par rm Mc (Yue y Dm, less).

= Energía mmima determinada por 1-iz (riemg ¢r ai., mea).

I Tiempo estimada sobre rms ertmirsrr es trabaja smac 1 para emm-.trar le energia mfmma (Beutler y om, isos). M Tiempo requerida pam mrmrrrar ir. energia mmimrr sobre rms emana de trabaja spam: 1 (Beutler y Dm, ma). f E1 minima global rm me simmaia despues aa 12 mr. Para E:-sa se »irme en 26 mm.

1 Tiempo ae c1>u para mfmme global sobre rma estarian de trabajo ULTRA 1 rr isv Mar mas rapida que ia rrrrmiarr se irrbeje smac 1 pm rm ¡Mier ae ~ in (Hsu er az., zona).

'= Tiempo aa cpu para minima gietai mara rmr ertmrrsrr ae rrabrja ULTRA 1 rr 1:11 Mm (I-im ei rr., zuos). 1 Energía mmims graban, determinada por Yue y om (was).

"~ Tmmmr ae cru para mmimrr gines! sabre Drac ALPHA mal. Para ir secuencia de a1 mriarmr se realizó ei primera empezaran pm si mama msiarm. irricimrdo del primera Se airmrm mia e:¬ss. 1* Trampa para mmimrr mremrrrsaa mars Dec ALPHA mai a am Mi-rr (Hsu rr ru., zona). ° No se aimrma el mmimrr global, rs iagra E=.ss (Hsu si -rr., zuoa).

P Energia mfmma errmrrzmria pm Toma ara 'mms (aerruer y om, mes).

(50)

II.4.4 A fast conformational search strategy for ﬁnding low

energy structures of model proteins

(Beutler y Dill, 1996)

En este artículo se presenta el método Core-dírected Chaín Growth (CG). El método CG es el único método heuristico capaz de hallar la energia mínima global para la cadena más larga para la cual se conoce dicho valor bajo el modelo SD HP. Esta cadena es una secuencia de 88 residuos cuya conformación o plegado óptimo se logró con el método exacto CHCC (Yue y Dill, 1993, 1995).

El método CG crea la conformación de una cadena por la adición sistemática de un segmento a la vez. Un segmento es una cadena conectada de algunos residuos de la secuencia, El algoritmo inicia con la estimación de la forma del centro hidrofóbico. Siguiendo el trabajo de Yue y Dill (1993), se cuenta el número total de monómeros H en la secuencia y se construye un centro, el cual es tan cercano a un cubo como sea posible, y capaz de contener todos los monómeros H.

Este centro›H estimado no es el centro real del plegado ﬁnal, es un centro óptimo calculado como si no hubiera restricciones de conectividad en la cadena, pero propor-ciona un estimado que sirve como marco de referencia para la construcción del plegado, El espacio dentro y fuera del centro esté. organizado en capas.

Posteriormente se selecciona de forma aleatoria un monómero hidrofóbico 1' de la cadena, que tiene como vecino al monómero 1' ~ 1 ó í+ 1, otro residuo, que es también hidrofóbico. Este primer residuo se coloca de forma también aleatoria sobre los bordes del centro calculado. Para cada segmento, se exploran todas las posibles conformaciones por enumeración exhaustiva, considerando como conformación ﬁja aquella generada previamente por la colocación de segmentos anteriores.

(51)

33 (por ejemplo, que un monómero quede encima de otro ya colocado). Entre las confor-ma/ciones restantes se elige una de acuerdo a un peso calculado por la siguiente función:

_ f- 1.1 ' za

fn - ÉHesagm±mS¡¡m + Epesegmentsigg + Énucmmnsuu + Éppcw-meti-SFP + EH¡=cm¢«m5H1=

Los parametros de la función heuristica estan dados en la Tabla IV:

Tabla IV: Muestra los puntajes utilizados en la función heuristica utilizada para deter-minar la aptitud de las diferentes conforma/ciones dadas para cada segmento agregado,

i Parámetro i Valor 1 Descripción sx-aa

/` la

s,P

Si-¡H

SFP SHP

9

1

,_.ow›-o,_.o›-1-'

Peso Peso Peso Peso Peso Peso Peso Peso Peso Peso

de H en la región del centro de H fuera de la región del centro de P fuera de la región del centro de P en la primera capa del centro de P en la parte interna del centro de contactos HH mientras l < ¿1¡l2,m¿"

de contactos HH mientras %lc,,,,,,, S l < ålawn de contactos HH mientras l 2 ãlchﬂm

de contactos PP de contactos HP '- El pm es ¿aemmem.sa<› por wi» esta que Se aleja del mana.

" 1 es el tamaña semi se la esa-ma, z¢,.,.¡.1 es la iﬂngaud de la amm wmpiat.

La tarea principal de la función heurística es fomentar la formación de un centro hi-drofóbico. Los primeros dos términos describen la propensidad de mover los monómeros H hacia el centro y los monómeros P hacia la superﬁcie. Los siguientes tres términos indican la preferencia de los contactos HH sobre otros tipos de contactos. Mientras más residuos se agregan a la conformación, se le asigna mayor valor a los contactos HH resultantes Esta función es altamente degenerada, es decir, diferentes conforrnaciones tienen el mismo peso. Se elige de forma aleatoria entre las conforrnaciones con el más alto puntaje.

(52)

avanzando hacia uno de los extremos de la cadena. La dirección a tomar sobre la cadena es aleatoria mientras no se llegue a un extremo. Al llegar a uno de los extremos se avanza en el otro sentido de forma directa. Para cada segmento su longitud se elige dentro de limites preestablecidos, La longitud de un segmento se elige de tal forma que tenga un valor suficiente para alcanzar el siguiente residuo H en la secuencia, ó alcance el límite superior preestablecido.

El proceso de elegir una dirección, elegir la longitud de un segmento, enumerar todas las conformaciones para cada segmento y elegir uno de los mejores segmentos; se repite hasta que la cadena esté completa.

Posteriormente se ejecuta una fase de reﬁnamiento, Se elige el 1% mejor de las conformaciones generadas para aplicar el reﬁnamiento. Para cada una se hace un retro-ceso eliminando residuos por los extremos, hasta alcanzar un núcleo con tamaño elegido de forma aleatoria dentro de un limite preestablecido, Posteriormente el algoritmo se vuelve a ejecutar a partir de esta conformación resultante, bajo las mismas condiciones explicadas anteriormente.

Los resultados obtenidos por este método se presentan también en la Tabla III.

II.4.5 Constrained Hydrophobic Core Construction (CHCC).

(Yue y Dill, 1993, 1995)

En este trabajo Yue y Dill presentan un método que utiliza restricciones basadas en la geometría para generar una poda sobre el arbol (ramiﬁcación) que representa el espacio de soluciones. Con este método encuentran el óptimo global para cadenas con longitud de hasta 88 residuos, en tiempos que van de minutos a horasz.

En su propuesta Yue y Dill realizan un replanteamiento del problema. A través

Un algoritmo evolutivo híbrido para el problema del plegamiento de proteínas bajo el modelo hidrofóbico polar en tres dimensionesA hybrid genetic algorithm for the protein folding problem under the 3D hydrophobic-polar model

W

M

"W

”"\\

,

,, ,,

†_

_,___,___,

\

/Centro de Investigación Óièntifica y de ax

a

Educación Superior de Ensenada

a

Um Mgasrãm Ewaﬂumv@ Hãlfmršm naaa aä äammama mi

mgamim aa mmm aaa@ H

mamﬁféam

Pam aa ïam M

TESlS

MAESTRIA EN CIENCIAS

¡URGE WRIGUE LUNA TAYLUR

Jorge Enrique Luna Taylor

fl

\\\

W

QML (ají

CENTRO DE INVESTIGACIÓN CIENTÍFICA Y DE EDUCACIÓN

SUPERIOR DE ENSENADA

c|c:ese_;_

PROGRAMA DE POSGRADO EN CIENCIAS

EN CIENCIAS DE LA COMPUTACIÓN

Un algoritmo evolutivo híbrido para el problema del

TESIS

MAESTRO EN CIENCIAS

Presenta:

Jorge Enrique Luna Taylor

Un algoritmo evolutivo híbrido para el problema del

polar en tres dimensiones

,

/*_

'/ 4/ ø

›W¬""'

A la memoria de mi esposa

Tabla de CO1'lt€^.I'lÍClO (Continuación)

Lista de Figuras

Lista de Figuras (Continuación)

Tabla de Símbolos

5g§1mee

sH

Sms,

Capítulo I

Introduccion

I.1

Antecedentes

I.2

Objetivos

I.2.1

Objetivo General

L3

Organizacion de la tesis

Capítulo II

Planteamiento del problema

II.1

Plegamiento de proteínas

H\M

4 C/@ \`\\

“

\@

4-'

e

2-

'I'

~ ,

\

,f ímt, J

-1

ii

Q

¿gg

,

_,_,_,

_{¡_}

_B