Modelación de una proteína utilizando Mapas Cognitivos Difusos

CAPÍTULO 2. MODELACIÓN Y AJUSTE DE UN MCD PARA EL ANÁLISIS DE LA

2.1 Modelación de una proteína utilizando Mapas Cognitivos Difusos

Como fue mencionado anteriormente, las proteínas son largas cadenas de aminoácidos. Las propiedades químicas que distinguen los 20 aminoácidos existentes causan que la estructura tridimensional de la proteína se doble en estructuras específicas que definen su función particular dentro de la célula. De esta manera, la secuencia de la proteasa se define por 99 aminoácidos, y por 560 la de la transcriptasa reversa, los cuales pueden ser descritos por su energía de contacto. La energía de contacto de un aminoácido (Anexo B) es un descriptor numérico que corresponde con la estructura tridimensional de la proteína, el cual se calcula estadísticamente a partir de una gran y diversa cantidad de secuencias (Miyazawa 1999). Por tanto, la principal propuesta del presente trabajo es modelar el comportamiento de las proteínas del VIH como un sistema dinámico, a través de la teoría de MCD y utilizando las energías de contactos normalizadas como descriptores numéricos para los aminoácidos.

Tomando la secuencia de una mutación como rasgos predictores, se utiliza una selección de rasgos basada en las posiciones que han sido asociadas previamente con la resistencia, con el objetivo de disminuir la dimensión del mapa modelado y lograr mayor facilidad de interpretación. Para una mejor consistencia del modelo, se han tenido en cuenta las posiciones reportadas tanto en estudios experimentales (Shafer 2002; Johnson 2003; Tang and Shafer 2012)

como computacionales (Sing 2005; Woods and Carpenter 2007). Esto permite incluir un amplio rango de conocimientos sobre la relevancia de las posiciones de la proteína respecto a la resistencia, proveyendo una aproximación inicial razonable. De esta manera se sustituye la función de los expertos en la determinación de los conceptos del mapa del modelo. En el Anexo C aparece la selección de rasgos utilizada para cada fármaco.

Para la modelación del comportamiento de las proteínas, cada posición 𝐴𝐴_𝑖 de la secuencia es tomada como un concepto del mapa, y además se define otro concepto 𝑅 que representa la resistencia al fármaco estudiado. Los valores de activación de los conceptos del mapa están dados por la energía de contacto normalizada de los aminoácidos en las posiciones correspondientes. Adicionalmente, en el proceso de actualización de los valores de activación se utiliza una función sigmoidal para mantener los valores de los conceptos en el intervalo [0,1]. Siguiendo esta lógica, el valor de la resistencia se modela como un concepto binario que toma valores en dependencia de los cortes definidos para la clasificación, aunque podría ser simplemente continuo si se deseara modelar como un problema de regresión (Grau, Nápoles et al. 2012; Nápoles, Grau et al. 2013; Nápoles, Grau et al. 2014). Para una mejor comprensión del modelo propuesto la siguiente figura muestra la topología general del MCD.

Figura 2.1 Modelación del mecanismo de resistencia de las proteínas del VIH. En esta topología los nodos 𝑨𝑨𝒊 denotan las

posiciones de la secuencia, mientras que la neurona 𝑹 cuantifica el grado de resistencia.

La topología está soportada por el hecho de que existen relaciones entre las posiciones no necesariamente adyacentes debido a la estructura tridimensional de la proteína, donde una mutación (traducida como un cambio en el valor de la energía de contacto) puede ser relevante

para la resistencia (Grau, Nápoles et al. 2013). En concreto, la resistencia a fármacos se condiciona por la interacción de los aminoácidos en el ambiente biológico una vez que sucede una mutación, llevando a diferentes niveles de resistencia al fármaco estudiado. Luego las relaciones causales entre las posiciones de la secuencia y la resistencia están definidas por una matriz 𝑊_{𝑛×(𝑛+1)} que se inicializa con valores aleatorios en el intervalo [0,1]. Esta matriz define para cada posición de la secuencia 𝐴𝐴_𝑖 su relación con la posición 𝐴𝐴_𝑗 y su influencia causal en la resistencia 𝑅. De esta manera se crea una primera capa de nodos totalmente conectados y luego cada uno de los conceptos de esta capa está conectado con el concepto de decisión 𝑅. En este modelo no se permiten autoconexiones en el grafo, es decir, 𝑖 ≠ 𝑗. Obsérvese que la topología de este modelo es similar a los modelos interactivos de Redes Neuronales Artificiales. Predecir el valor del concepto de resistencia (fenotipo) a partir de los conceptos descriptores (genotipo) significa resolver, para cada fármaco, el correspondiente problema de clasificación de secuencias. Nótese que los MCD clásicos no están concebidos para problemas de clasificación debido a sus limitaciones de arquitectura y descripción (Song, Miao et al. 2011). Sin embargo, en el presente trabajo se prueba que la topología propuesta es capaz de predecir la resistencia para nuevos casos de mutaciones.

Aunque construir un MCD utilizando enfoques automáticos en sustitución de la ausencia de expertos es cada día más frecuente, encontrar las relaciones causales que definen el sistema investigado puede ser un reto. Este problema ha incentivado el desarrollo de trabajos que permitan encontrar métodos computacionales semiautomáticos o completamente automáticos para aprender las características del mapa, principalmente la matriz de causalidad utilizando datos históricos. Los métodos semiautomáticos requieren una limitada intervención de los expertos, mientras los enfoques completamente automáticos son capaces de entrenar el modelo basado solamente en el conocimiento almacenado.

Con el objetivo de obtener representaciones fiables de los sistemas, en la literatura se han propuesto varios algoritmos de entrenamiento para ajustar los modelos de MCD. Sin embargo, debido a la complejidad de estos problemas, el ajuste de los parámetros en MCD lleva a problemas abiertos en la investigación y requiere la formulación de nuevos procedimientos. Por ejemplo, los espacios de búsqueda en el aprendizaje de MCD se caracterizan a menudo por ser

complejos y multimodales, es decir, existen varios óptimos locales y globales que causan la convergencia prematura de los algoritmos a soluciones sub-optimas. Teniendo en cuenta esta dificultad, en la próxima sección se propone un esquema de aprendizaje completamente automatizado, donde a partir de datos históricos se estima una matriz de pesos causales para el modelo de MCD propuesto en esta sección.

In document Descubrimiento de conocimiento en el problema de resistencia a fármacos del VIH utilizando Mapas Cognitivos Difusos (página 38-41)