• No se han encontrado resultados

Capítulo 6. Conclusiones

A.6. Diseño de funciones de score

Luego de evaluar el desempeño de las funciones de score de algunos métodos del estado del arte, el siguiente paso es diseñar mejores funciones de score. Un camino para ello es diseñar una función de score compuesta de los dos términos más impor- tantes: el que considera las interacciones de Van der Waals (término de Van der Waals) y el término en función a las conformaciones de los rotámeros en la biblioteca (término de ángulos de torsión). Para el diseño de estos términos podría emplearse programa- ción genética (Koza, 1994), o bien cada término podría tener una forma predefinida. Este segundo enfoque fue el elegido para las pruebas preliminares, basándose en el trabajo de Lianget al. (2011b). El término de Van der Waals se define por:

E(d)=1×d2+2×d4+3×d6+4×d8 (21)

donded es la distancia entre los átomos y14 son parámetros que dependen del par

de átomos involucrados (se consideró 14 tipos de átomos). El término de ángulos de torsión está dado por:

Etor son=t1×cosα+t2×sinα+t3×cos 2α+t4×sin 2α+t5×cos 3α+t6×sin 3α (22)

dondeαes el ángulo de torsión de la cadena lateral del rotámero yt16son parámetros

que corresponden a un ángulo de torsión particular de cierto tipo de residuo. Existen 39 ángulos de torsión para los 20 residuos naturales.

Por lo tanto, existe un total de 654 parámetros a ser definidos. La principal diferen- cia entre esta propuesta y el trabajo de Lianget al. (2011b) es que, para la optimiza-

ción de estos parámetros, se plantea usar el método de búsqueda local propuesto en el presente trabajo para medir la precisión al final de la búsqueda local (comenzando con la estructura de referencia) para un conjunto de proteínas. Se conjetura que esta evaluación proveerá mayor información que permitirá distinguir de mejor manera la

Tabla 22.Descripción del algoritmo genético (GA).

Representación Arreglo de números reales

Recombinación Aritmética (α=0.5)

Probabilidad de Recombinación 100 %

Mutación Perturbación Gaussiana

P. Gaussiana - Desviación estándar 0.01

Probabilidad de Mutación 100 %

Selección de padres Torneo binario

Selección de sobrevivientes Generacional

Porcentaje de Elitismo 10 %

Tamaño de la Población 120

Número de generaciones 2000

Número de hijos 120

Inicialización Aleatoria

calidad de dos funciones de score distintas.

A.6.1. Pruebas preliminares

Como se mencionó, bajo este esquema de diseño se tiene que definir 654 paráme- tros; por lo que una solución está dada por un arreglo de 654 números reales. Para las pruebas preliminares, cada solución candidata se evaluó empleando el conjunto de prueba de 25 proteínas. Inicialmente se utilizó un algoritmo genético (GA por sus siglas en inglés), aunque posteriormente se cambió a una estrategia evolutiva (ES por sus siglas en inglés) (Eiben et al., 2003). Esto fue debido a que las mutaciones por

perturbación con desviación estándar constante no lograban mejorar los resultados a partir de una cierta cantidad de iteraciones y se llegaba a una convergencia prematu- ra en el GA. En las tablas 22 y 23 se muestran los parámetros empleados para cada método.

Un punto importante es que si sólo consideramos la estructura de referencia como entrada al algoritmo de búsqueda local, puede darse el caso de que tengamos un desempeño óptimo bajo el método de búsqueda local si todos los parámetros de la función de score son iguales a cero; pues en este caso se tendrá un score igual a cero para cualquier posible solución. Por ello, se pondera el desempeño de la búsqueda local comenzando conNative, MostProbyRandom1; otorgándoles a sus resultados de precisión distintos pesos. Como se tienen dos medidas de precisión (χ

1 y χ1+2), cada una tendrá también un peso para determinar la calidad de una cierta función de score

Tabla 23.Descripción de la estrategia evolutiva (ES).

Representación Arreglo de números reales

Recombinación Aritmética (α=0.5)

Probabilidad de Recombinación 100 %

Mutación Perturbación Gaussiana

P. Gaussiana - Desviación estándar inicial 0.01 P. Gaussiana - Mínima desviación estándar 0.000001

Tipo de Mutación No correlacionada, con 654 tamaños de salto

Selección de padres Aleatoria uniforme

Selección de sobrevivientes (μ, λ) Porcentaje de Elitismo 10 % Tamaño de la Población 20 Número de generaciones 2000 Número de hijos 120 Inicialización Aleatoria

Tabla 24. Otros parámetros para las pruebas experimentales. Si sólo se considera la estructura de referencia, puede darse el caso de que se tenga un desempeño óptimo bajo el método de búsqueda local si todos los parámetros de la función de score son iguales a cero. Por ello, se pondera el desempeño

de la búsqueda local comenzando con Native, MostProb y Random. Entre paréntesis se muestran los

pesos empleados para cada componente.

Valores - Límite inferior -1.0

Valores - Límite superior 1.0

Estructuras iniciales Native(0.7),MostProb(0.2) yRandom(0.1)

Medidas de precisión χ

1(0.8) yχ1+2(0.2)

candidata. También se estableció límites para los valores de cada parámetro, pues lo más importante es la relación entre ellos; y con esto también se evita tener valores absolutos de score muy grandes. Los resultados de las pruebas experimentales se muestran en la Tabla 25.

Las precisiones alcanzadas por la funciones de score diseñadas están aún bastan- te alejadas de las obtenidas por los métodos del estado del arte. Inclusive, al usar el algoritmo de búsqueda local con las funciones de score de CIS-RR y RASP se logran resultados considerablemente mejores. Además, la cantidad de colisiones que apa- recen en las funciones Liang (AG) y Liang (ES) es muy alta. Todo esto podría indicar que no debería considerarse únicamente la precisión como métrica de calidad a la hora de evaluar funciones de score candidatas, sino también considerar el número de colisiones, la variación de energía, etc.

157 Resultados de referencia

Precisión total y número de colisiones

Experimental WHATIF χ 1( %) χ1+2( %) Colisiones χ1( %) χ1+2( %) Colisiones SCWRL4 83.73 73.6 29 84.47 75.04 32 OPUS-Rota 85.76 75.92 48 86.63 77.4 51 CIS-RR 84.47 73.83 6 85.34 75.66 7 RASP 83.91 72.33 46 84.82 73.14 75 SIDEpro 84.92 74.84 5 86.3 76.84 4

Resultados de las pruebas experimentales Precisión total y número de colisiones

Native MostProb Random

χ

1( %) χ1+2( %) Colisiones χ1( %) χ1+2( %) Colisiones χ1( %) χ1+2( %) Colisiones

Liang (AG) 66.95 41.87 4252 61.04 32.84 4712 62.69 34.97 4728

Liang (ES) 84.87 68.73 850 72.86 53.06 1201 71.97 52.18 1278

CIS-RR 89.44 82.99 2 83.51 71.84 36 83.51 71.84 56