Capítulo 6. Conclusiones
A.6. Diseño de funciones de score
Luego de evaluar el desempeño de las funciones de score de algunos métodos del estado del arte, el siguiente paso es diseñar mejores funciones de score. Un camino para ello es diseñar una función de score compuesta de los dos términos más impor- tantes: el que considera las interacciones de Van der Waals (término de Van der Waals) y el término en función a las conformaciones de los rotámeros en la biblioteca (término de ángulos de torsión). Para el diseño de estos términos podría emplearse programa- ción genética (Koza, 1994), o bien cada término podría tener una forma predefinida. Este segundo enfoque fue el elegido para las pruebas preliminares, basándose en el trabajo de Lianget al. (2011b). El término de Van der Waals se define por:
E(d)=1×d−2+2×d−4+3×d−6+4×d−8 (21)
donded es la distancia entre los átomos y1−4 son parámetros que dependen del par
de átomos involucrados (se consideró 14 tipos de átomos). El término de ángulos de torsión está dado por:
Etor son=t1×cosα+t2×sinα+t3×cos 2α+t4×sin 2α+t5×cos 3α+t6×sin 3α (22)
dondeαes el ángulo de torsión de la cadena lateral del rotámero yt1−6son parámetros
que corresponden a un ángulo de torsión particular de cierto tipo de residuo. Existen 39 ángulos de torsión para los 20 residuos naturales.
Por lo tanto, existe un total de 654 parámetros a ser definidos. La principal diferen- cia entre esta propuesta y el trabajo de Lianget al. (2011b) es que, para la optimiza-
ción de estos parámetros, se plantea usar el método de búsqueda local propuesto en el presente trabajo para medir la precisión al final de la búsqueda local (comenzando con la estructura de referencia) para un conjunto de proteínas. Se conjetura que esta evaluación proveerá mayor información que permitirá distinguir de mejor manera la
Tabla 22.Descripción del algoritmo genético (GA).
Representación Arreglo de números reales
Recombinación Aritmética (α=0.5)
Probabilidad de Recombinación 100 %
Mutación Perturbación Gaussiana
P. Gaussiana - Desviación estándar 0.01
Probabilidad de Mutación 100 %
Selección de padres Torneo binario
Selección de sobrevivientes Generacional
Porcentaje de Elitismo 10 %
Tamaño de la Población 120
Número de generaciones 2000
Número de hijos 120
Inicialización Aleatoria
calidad de dos funciones de score distintas.
A.6.1. Pruebas preliminares
Como se mencionó, bajo este esquema de diseño se tiene que definir 654 paráme- tros; por lo que una solución está dada por un arreglo de 654 números reales. Para las pruebas preliminares, cada solución candidata se evaluó empleando el conjunto de prueba de 25 proteínas. Inicialmente se utilizó un algoritmo genético (GA por sus siglas en inglés), aunque posteriormente se cambió a una estrategia evolutiva (ES por sus siglas en inglés) (Eiben et al., 2003). Esto fue debido a que las mutaciones por
perturbación con desviación estándar constante no lograban mejorar los resultados a partir de una cierta cantidad de iteraciones y se llegaba a una convergencia prematu- ra en el GA. En las tablas 22 y 23 se muestran los parámetros empleados para cada método.
Un punto importante es que si sólo consideramos la estructura de referencia como entrada al algoritmo de búsqueda local, puede darse el caso de que tengamos un desempeño óptimo bajo el método de búsqueda local si todos los parámetros de la función de score son iguales a cero; pues en este caso se tendrá un score igual a cero para cualquier posible solución. Por ello, se pondera el desempeño de la búsqueda local comenzando conNative, MostProbyRandom1; otorgándoles a sus resultados de precisión distintos pesos. Como se tienen dos medidas de precisión (χ
1 y χ1+2), cada una tendrá también un peso para determinar la calidad de una cierta función de score
Tabla 23.Descripción de la estrategia evolutiva (ES).
Representación Arreglo de números reales
Recombinación Aritmética (α=0.5)
Probabilidad de Recombinación 100 %
Mutación Perturbación Gaussiana
P. Gaussiana - Desviación estándar inicial 0.01 P. Gaussiana - Mínima desviación estándar 0.000001
Tipo de Mutación No correlacionada, con 654 tamaños de salto
Selección de padres Aleatoria uniforme
Selección de sobrevivientes (μ, λ) Porcentaje de Elitismo 10 % Tamaño de la Población 20 Número de generaciones 2000 Número de hijos 120 Inicialización Aleatoria
Tabla 24. Otros parámetros para las pruebas experimentales. Si sólo se considera la estructura de referencia, puede darse el caso de que se tenga un desempeño óptimo bajo el método de búsqueda local si todos los parámetros de la función de score son iguales a cero. Por ello, se pondera el desempeño
de la búsqueda local comenzando con Native, MostProb y Random. Entre paréntesis se muestran los
pesos empleados para cada componente.
Valores - Límite inferior -1.0
Valores - Límite superior 1.0
Estructuras iniciales Native(0.7),MostProb(0.2) yRandom(0.1)
Medidas de precisión χ
1(0.8) yχ1+2(0.2)
candidata. También se estableció límites para los valores de cada parámetro, pues lo más importante es la relación entre ellos; y con esto también se evita tener valores absolutos de score muy grandes. Los resultados de las pruebas experimentales se muestran en la Tabla 25.
Las precisiones alcanzadas por la funciones de score diseñadas están aún bastan- te alejadas de las obtenidas por los métodos del estado del arte. Inclusive, al usar el algoritmo de búsqueda local con las funciones de score de CIS-RR y RASP se logran resultados considerablemente mejores. Además, la cantidad de colisiones que apa- recen en las funciones Liang (AG) y Liang (ES) es muy alta. Todo esto podría indicar que no debería considerarse únicamente la precisión como métrica de calidad a la hora de evaluar funciones de score candidatas, sino también considerar el número de colisiones, la variación de energía, etc.
157 Resultados de referencia
Precisión total y número de colisiones
Experimental WHATIF χ 1( %) χ1+2( %) Colisiones χ1( %) χ1+2( %) Colisiones SCWRL4 83.73 73.6 29 84.47 75.04 32 OPUS-Rota 85.76 75.92 48 86.63 77.4 51 CIS-RR 84.47 73.83 6 85.34 75.66 7 RASP 83.91 72.33 46 84.82 73.14 75 SIDEpro 84.92 74.84 5 86.3 76.84 4
Resultados de las pruebas experimentales Precisión total y número de colisiones
Native MostProb Random
χ
1( %) χ1+2( %) Colisiones χ1( %) χ1+2( %) Colisiones χ1( %) χ1+2( %) Colisiones
Liang (AG) 66.95 41.87 4252 61.04 32.84 4712 62.69 34.97 4728
Liang (ES) 84.87 68.73 850 72.86 53.06 1201 71.97 52.18 1278
CIS-RR 89.44 82.99 2 83.51 71.84 36 83.51 71.84 56