5.8. Métodos computacionales
5.8.1. Análisis de estructura primaria
El análisis de la estructura primaria comprende la identificación de motivos y dominios conservados. Los primeros corresponden con un segmento conservado de la secuencia de aminoácidos de la proteína que generalmente se encuentran asociados a una función concreta, y los segundos se relacionan con la región que posee interés biológico, funcional o estructural. Este análisis se puede llevar a cabo mediante dos servidores, el primero de ellos es MotifFinder, el cual evalúa la secuencia de aminoácidos y el score de coincidencia con los motivos de la base de datos de Pfam mediante el valor-E (mientras menor es el valor, mayor coincidencia), de igual manera lo hace con la información contenida en la Base de datos de Dominios Conservados (CDD). El segundo servidor es InterPro, el cual clasifica las secuencias proteicas en familias y predice la presencia de dominios y sitios importantes en ella, a partir de la información contenida en varias bases de datos que hacen parte del consorcio InterPro como PROSITE, Pfam, PRINTS, SUPERFAMILY, entre otras.
Para proteínas integrales de membrana se realiza la predicción de las hélices transmembranales que posee en su estructura, para esto se utilizan servidores como TMHMM 2.0, Phobius, Philius y SPOCTOPUS. El servidor TMHMM 2.0 se basa en un Modelo Oculto de Márkov (HMM) el cual reconoce patrones a partir de los cuales predice un modelo probabilístico, en este caso la topología a partir de la gramática de la secuencia de aminoácidos en donde los bucles citoplasmáticos y no citoplasmáticos se encuentran intercalados, adicionalmente posee modelos especializados en diferentes regiones de las proteínas de membrana como lo son los extremos de las hélices α, su región intermedia y su longitud, las regiones próximas a la membrana y los dominios tipo bucle, asimismo incluye el perfil de hidrofobicidad (dominio transmembranal) y la polarización debida a residuos cargados positivamente (bucles citoplasmáticos) organizados en clases estructurales [50].
El servidor Phobius utiliza un algoritmo que combina el modelo de predicción de péptido señal de la herramienta SignalIP con el de predicción de topología transmembranal de TMHMM lo que mejora la precisión global en la detección y diferenciación de proteínas que presentan péptido señal en su extremo N-terminal y aquellas con segmentos transmembranales. Asimismo Philius combina estos dos modelos y adicionalmente hace uso de las Redes Bayesianas Dinámicas (DBN), las cuales modelan un fenómeno mediante un conjunto de variables y sus relaciones de dependencia, por lo tanto estiman la probabilidad de una variable desconocida analizando conjuntamente otras dimensiones como por ejemplo la posición en la secuencia de la proteína, por consiguiente aborda el problema de diferenciar entre cuatro tipos de proteínas: globulares (G), globulares con un péptido señal (SP + G), transmembranales (TM) y transmembranales con un péptido señal (SP + TM) y de predecir la topología de cada segmento por separado (transmembrana y bucles en la cara interna o externa de la membrana) [51]. De la misma manera, PolyPhobius se basa en las predicciones de Phobius, sin embargo adiciona la información estructural que brinda el alineamiento con secuencias homologas [52].
El servidor SPOCTOPUS adiciona el modelo de predicción de péptido señal a la predicción del servidor OCTOPUS [53] que analiza la topología mediante una combinación entre los puntajes de las preferencias de cada residuo (ubicación en membrana, en su cara interna o la externa) obtenidos mediante una Red Neural Artificial (ANN) con el algoritmo de predicción global del HMM e incluye en la gramática topológica regiones que se encuentran inmersas en la membrana así como horquillas helicoidales que no la atraviesan completamente [54].
Debido a que para la caracterización bioquímica y biofísica de las proteínas es necesario obtenerlas de manera solubles (lo que favorece su adecuado plegamiento) se realiza la predicción de la solubilidad de diferentes proteínas fusión para una misma secuencia para así determinar el mejor sistema de expresión con el cual trabajar de acuerdo a la naturaleza de la proteínas a estudiar. Para este análisis se utilizan tres servidores principalmente: PROSO II, SOLpro y ESPRESSO.
Para realizar la predicción PROSO II se basa en la información contenida en la base de datos TargetDB y Protein Data Bank (PDB) realizando la predicción mediante un algoritmo con dos niveles: El primero basado en una “Máquina de Vectores de Soporte” (SVM – Conjunto de proteínas solubles e insolubles) y el segundo en un “Clasificador Bayesiano Ingenuo” (se asume que la presencia o ausencia de una característica particular no está relacionada con la presencia o ausencia de cualquier otra característica) identificándose que los aminoácidos R, D, E, G, S, C, M y L y los dipéptidos ER, EG, KG, QA, HM contribuyen en la solubilidad global del péptido, por lo tanto se evidencia la relación directa entre la estructura primaria y la solubilidad [55].
De la misma manera SOLpro realiza la predicción teniendo en cuenta estos mismos parámetros y adiciona en su algoritmo algunas características derivadas de la estructura primaria de la proteína como su longitud, peso molecular, índice de hidropaticidad, índice alifático, fracción de aminoácidos que presentan torsión, carga absoluta por residuo y la fracción de residuos expuestos. A pesar de tener una estructura similar a la de PROSO II, SOLpro disminuye la redundancia de las secuencias presentes en su base de datos [56].
Finalmente el servidor ESPRESSO utiliza dos tipos de métodos de predicción: el primero basado en la estructura predicha a partir de la secuencia y el segundo en patrones de secuencia, como
respuesta a la limitación de los servidores que utilizan como modelo únicamente a E. coli y a que la mayoría no consideran las variables que influyen en la expresión de la proteína y su solubilidad, por lo tanto brinda la posibilidad de predecir estas propiedades en diferentes sistemas [57].