ALGORITMOS PARA PREDICCIÓN DE LA FUNCIÓN DE PROTEÍNAS

(1)

ALGORITMOS PARA PREDICCIÓN DE LA

FUNCIÓN DE PROTEÍNAS

Estefanía Prior Cano

Ing. Telecomunicació

100055190@alumnos.uc3m.es

RESÚMEN

Este trabajo pretende realizar un estudio general de algunas herramientas útiles a la hora de llevar a cabo un proceso de alineamiento de secuencias de ADN o ARN o estructuras proteicas además de presentar algunos de los algoritmos de clasificación de proteínas más utilizados en la actualidad. Todo ello desde el punto de vista de las aplicaciones basadas en Inteligencia Artificial englobadas en el campo de trabajo conocido como bioinformática.

Palabras clave

Proteína, ADN, homología, Blast, Psi HMM, Systers, Tribes.

1. INTRODUCCIÓN

La maduración de la Biología Molecular, las nuevas técnicas que han dado lugar al acceso a miles de datos, el mayor poder computacional, los nuevos algoritmos, han cambiado la actitud de muchos científicos sobre cómo solucionar algunos de sus problemas, y ha propiciado el nacimiento de nuevas disciplinas como la Bioinformática.

Figura 1 - Aplicaciones de la bioinformática

La bioinformática es la aplicación de tecnología a la gestión y análisis de datos biológicos

bioinformática, biología computacional

sistemas son utilizados en muchas situaciones como sinónimos y hacen referencia a campos de estudios interdisciplinarios muy vinculados, que requieren el uso o el desarrollo de diferentes técnicas que informática, matemática aplicada

ALGORITMOS PARA PREDICCIÓN DE LA

FUNCIÓN DE PROTEÍNAS

Estefanía Prior Cano

Ing. Telecomunicación

100055190@alumnos.uc3m.es

Sergio Tejeda Pastor

Ing. Telecomunicació

100061107@alumnos.uc3m.es

trabajo pretende realizar un estudio general de útiles a la hora de llevar a cabo un proceso de alineamiento de secuencias de ADN o ARN o estructuras proteicas además de presentar algunos de los algoritmos de clasificación de más utilizados en la actualidad. Todo ello desde el punto de vista de las aplicaciones basadas en Inteligencia Artificial englobadas en el campo de trabajo conocido como bioinformática.

Proteína, ADN, homología, Blast, Psi-blast, BSI,

La maduración de la Biología Molecular, las nuevas técnicas que han dado lugar al acceso a miles de datos, el mayor poder computacional, los nuevos algoritmos, han cambiado la actitud de muchos científicos sobre cómo solucionar algunos de sus ha propiciado el nacimiento de nuevas

Aplicaciones de la bioinformática

es la aplicación de tecnología a la gestión y análisis de datos biológicos. Los términos biología computacional y biología de utilizados en muchas situaciones como hacen referencia a campos de estudios interdisciplinarios muy vinculados, que requieren el uso o el desarrollo de diferentes técnicas que incluyen matemática aplicada, estadística,

informática, inteligencia artificial

solucionar problemas, analizar datos, o simular sistemas o mecanismos, todos ellos de índole biológica. El núcleo principal de estas técnicas se encuentra en la utilización de recursos

para solucionar o investigar problemas sobre escalas de tal magnitud que sobrepasan el discernimiento humano.

Los principales esfuerzos de investigación en estos campos incluyen el alineamiento de secuencias, predicción de genes, montaje del genoma, alineamiento estructural de proteínas, predicción de estructura de proteínas, etc.

realizar agrupaciones de datos que poseen información semejante, o inferir la estructura o función de una proteína desconocida a partir de la secuencia e información estructural de proteínas homólogas, por ejemplo. El objetivo final es realizar simulaciones de procesos biológicos o realizar modelos matemáticos, que permitan predecir el comportamiento de sistemas biológicos complejos y en último término, modificar o incluso diseñar estos sistemas en base a determinadas necesidades.

Figura 2 - La bioinformática construye modelos matemáticos en base a los datos disponibles

El caso del genoma humano puede ser ilustrativo del reto al que nos enfrentamos: en palabras del premio Nobel Sydney Brenner: "Enviar un hombre a la Luna es muy fácil. Lo difícil es traerle de vuelta. Con el genoma pasa lo mismo. Describir el genoma humano es trivial. Pero cuando acabemos, habrá que traerlo de vuelta: comprender el significado, resolver los grandes problemas de la biología de nuestra especie".

ALGORITMOS PARA PREDICCIÓN DE LA

Sergio Tejeda Pastor

Ing. Telecomunicación

@alumnos.uc3m.es

inteligencia artificial, etc., para solucionar problemas, analizar datos, o simular sistemas o mecanismos, todos ellos de índole biológica. El núcleo principal de estas técnicas se tra en la utilización de recursos informáticos para solucionar o investigar problemas sobre escalas de tal magnitud que sobrepasan el discernimiento

Los principales esfuerzos de investigación en estos campos incluyen el alineamiento de secuencias, la predicción de genes, montaje del genoma, alineamiento estructural de proteínas, predicción de estructura de proteínas, etc. También es posible de datos que poseen información semejante, o inferir la estructura o teína desconocida a partir de la secuencia e información estructural de proteínas . El objetivo final es realizar simulaciones de procesos biológicos o realizar modelos matemáticos, que permitan predecir el biológicos complejos y en último término, modificar o incluso diseñar estos sistemas en base a determinadas necesidades.

La bioinformática construye modelos matemáticos en base a los datos disponibles

El caso del genoma humano puede ser ilustrativo del reto al que nos enfrentamos: en palabras del premio Nobel Sydney Brenner: "Enviar un hombre a la Luna es muy fácil. Lo difícil es traerle de vuelta. Con el genoma pasa lo mismo. Describir el genoma humano es trivial. Pero cuando acabemos, habrá que traerlo de vuelta: comprender el significado, resolver los grandes problemas de la biología de nuestra especie".

(2)

2. BÚSQUEDA DE HOMÓLOGOS

La comparación de genomas, genes y proteínas de distintas especies es la aproximación más intuitiva y directa para interpretar el libro de instrucciones que hay en los genomas.

Hay muchos enfoques para aproximarse al conocimiento de la función de las proteínas. El más clásico, y también más fiable y eficiente, se basa en la observación de que las proteínas homólogas conservan algún parecido funcional. Gracias a la tecnología de las matrices de ADN, podemos conocer los patrones de expresión de miles de genes en distintas situaciones: aquellos genes con patrones similares, sean o no homólogos, es posible que estén implicados en los mismos procesos celulares. Por otra parte, los esfuerzos que se están aplicando para describir el mapa de interacciones proteína-proteína también pueden arrojar luz sobre este problema, ya que si sabemos con quién interacciona una proteína podemos suponer que realiza una función similar o complementaria a la de sus compañeras.

Existen numerosos métodos de búsqueda para encontrar secuencias parecidas entre la enorme cantidad de secuencias de las bases de datos. Estos métodos se basan en modelos estadísticos para determinar cuándo estos parecidos se deben a que ambas proteínas comparten un mismo origen (son homólogas) y cuándo se deben a parecidos al azar. Algunos de estos métodos son los siguientes:

2.1 BLAST (Basic Local Alignment

Search Tool)

Es un programa informático de alineamiento de secuencias de tipo local, ya sea de ADN o de proteínas. El programa es capaz de comparar una secuencia problema (también denominada query) contra una gran cantidad de secuencias que se encuentren en una base de datos. El algoritmo encuentra las secuencias de la base de datos que tienen mayor parecido a la secuencia problema. BLAST es desarrollado por los Institutos Nacionales de Salud del gobierno de EE. UU., por lo que es de dominio público y puede usarse gratuitamente desde el servidor del Centro Nacional para la Información Biotecnológica (NCBI). Esta aplicación se puede encontrar en: http://blast.ncbi.nlm.nih.gov/Blast.cgi

Es importante mencionar que BLAST usa un algoritmo heurístico por lo que no nos puede garantizar que ha encontrado la solución correcta. Sin embargo, BLAST es capaz de calcular la significación de sus resultados, por lo que nos provee de un parámetro para juzgar los resultados que se obtienen.

El método de BLAST resulta muy útil para conocer de forma rápida cuáles son los homólogos cercanos de una proteína, pero no es capaz de distinguir los homólogos remotos de los falsos homólogos. Existen varios programas de la familia BLAST. Los más comunes son Blastp y Blastn para aminoácidos y nucleótidos respectivamente.

Algoritmo BLAST

BLAST usa una matriz de sustitución de aminoácidos o nucleótidos para calificar sus alineamientos. Dicha matriz contiene la puntuación (también llamada

score) que se le da al alinear un nucleótido o un

aminoácido X de la secuencia A con otro aminoácido Y de la secuencia B. La matriz de substitución en la que está representado, mediante un valor numérico, la frecuencia con que se observan los posibles cambios entre aminoácidos o la frecuencia con que éstos se conservan. Las matrices más usadas para calificar alineamientos de proteínas son la BLOSUM y la PAM. También se permite al usuario definir su propia matriz. En el caso de BLOSUM, la matriz se construye analizando alineamientos múltiples y contando la frecuencia con que se observan las posibles sustituciones de aminoácidos.

El algoritmo de BLAST tiene tres etapas principales: ensemillado, extensión y evaluación. A continuación se describen brevemente cada una de ellas:

Primera etapa. Ensemillado o seeding: BLAST

busca coincidencias exactas de una pequeña longitud fija W entre la secuencia de consulta y las secuencias de la base de datos. Sólo se consideran significativas las palabras que tengan una puntuación mayor a T (T se puede ajustar) y que se encuentren al menos a una distancia A de otra palabra. Ajustando los parámetros T, A y W se puede escoger entre hacer un alineamiento sensible pero lento, o uno más rápido pero con menor sensibilidad.

Por ejemplo, dadas las secuencias AGTTAC y ACTTAG y el largo de palabra W = 3, BLAST podría identificar la subcadena coincidente TTA que es común en ambas secuencias.

Segunda etapa. Extensión: BLAST trata de extender

la coincidencia en ambas direcciones, comenzando por las semillas obtenidas en la etapa anterior de manera que extiende la coincidencia de la semilla inicial de longitud W en cada dirección en un intento de estimular el puntaje de alineación. Inserciones y eliminaciones no son consideradas durante esta etapa. La extensión realizada en este punto se realiza haciendo uso del algoritmo de Smith-Waterman. BLAST va extendiendo el alineamiento hasta que la

(3)

puntuación del alineamiento descienda X o más puntos con respecto a la puntuación más alta obtenida anteriormente. Aquí reside el factor heurístico del BLAST, ya que al imponer el límite X, evita extender a lo largo de toda la secuencia todos los alineamientos (proceso que llevaría demasiado tiempo). El peligro que esto conlleva es que el programa se puede quedar atorado en un máximo local. Es por ello que la definición de X es determinante para el resultado.

Posteriormente, BLAST realiza un alineamiento con huecos entre la secuencia de consulta y la secuencia de la base de datos usando una variación del algoritmo de Smith-Waterman.

Figura 3 - Representación gráfica de los resultados arrojados por BLAST. El nivel de identidad se representa con colores

Tercera etapa. Evaluación: Una vez terminada la

extensión de todas las palabras, cada uno de los alineamientos realizados es evaluado para determinar su significación estadística. Los alineamientos resultantes son llamados pares de alta puntuación (High Score Pairs o HSPs, por sus siglas en inglés), y se determina su significación tomando en cuenta la probabilidad que tiene dicho alineamiento de haber sido obtenido por azar de acuerdo al tamaño de la base de datos. Al final se reportan sólo los alineamientos que hayan obtenido una probabilidad mayor a E (e-valor o valor de corte).

Consideraciones con BLAST:

• BLAST es heurístico y por lo tanto puede que no encuentre la solución óptima. Esto hay que tenerlo en cuenta a la hora de extraer conclusiones.

• BLAST NO garantiza que las secuencias que alinea sean homólogas ni que tengan la misma función, simplemente provee posibles candidatos. Se necesitan más análisis para anotar correctamente una secuencia.

• La puntuación del BLAST depende del largo de la secuencia, una secuencia muy corta tendrá una puntuación menor que una grande simplemente por la cantidad de caracteres que tiene.

• El e-valor depende del tamaño de la base de datos. Para bases de datos muy pequeñas, e-valores altos son más significativos que para bases de datos muy grandes.

Figura 4 - Listado de las secuencias con algún nivel de homología según los resultados de BLAST. Las secuencias contienen un link de acceso, una breve denominación y los estimativos estadísticos

• A pesar de lo que comúnmente se piensa, las secuencias con la mejor puntuación o el mejor e-valor NO necesariamente son los mejores candidatos a ser genes homólogos. Es importante analizar todos los alineamientos que encuentra el programa y sacar conclusiones en base al resultado global.

• BLAST tiene varios parámetros por defecto que en general funcionan bien para la mayoría de los casos, pero habrá situaciones en las que es necesario cambiarlos para obtener mejores resultados. No hay forma de saber exactamente qué parámetro es el óptimo, y se tienen que realizar múltiples pruebas hasta encontrar las mejores condiciones.

(4)

Figura 5 - Detalles y alineamientos entre la secuencia problema y las reportadas en NCBI según el programa BLAST. Se observa la denominación de la secuencia, el porcentaje de identidad, los gaps que se encontraron y el puntaje obtenido.

2.2 PSI-BLAST

Esta variante de BLAST trabaja en el contexto de familias de proteínas para cuantificar los parecidos y encontrar homólogos remotos. Se trata de un programa iterativo que va calculando sus propias matrices de sustitución en cada iteración. Al inicio, hace un Blastp normal, usando una matriz estándar para calificar los alineamientos. De las secuencias obtenidas en este alineamiento, el programa genera una nueva matriz de sustitución, basándose en las frecuencias de los aminoácidos de las secuencias obtenidas en los alineamientos. Usa esta nueva matriz para realizar otro alineamiento. Esto permite en general encontrar nuevos alineamientos, que son usados para calcular una nueva matriz. El proceso se repite tantas veces como el usuario lo indique, o hasta que ya no se encuentran nuevos alineamientos. Existen más algoritmos de alineamiento de secuencias posteriores a estos, y que tienen su propio nicho. Algunos de ellos son SSearch (básicamente una implementación del Smith&Waterman) y BLAT. El primero es más ’sensitivo’, a costa de más tiempo de ejecución, mientras que el tercero se usa para realizar de forma eficiente comparaciones masivas de genoma contra genoma y cromosoma contra cromosoma.

2.3 HMMs: modelos de Markov

ocultos

Una limitación de los métodos anteriores es que la base probabilística para determinar las puntuaciones no es sólida. Los perfiles de tipo HMM alivian en gran medida esta limitación, lo cual se manifiesta en una mayor efectividad para distinguir homólogos

lejanos de parecidos al azar. El HMM está compuesto por un conjunto de estados (por ejemplo cada una de las posiciones de un alineamiento múltiple). Cada estado 'emite' símbolos (por ejemplo residuos observados en una determinada posición) de acuerdo a unas probabilidades de emisión de símbolos, y los estados están interconectados por probabilidades de transición entre estados, de modo que a partir de un estado se indica con qué probabilidad puede producirse un salto directo al siguiente nodo. En otras palabras, es un modelo que, una vez entrenado con un conjunto de proteínas homólogas, indica con qué probabilidad se podría obtener cualquier secuencia de símbolos a partir del mismo.

Aplicándolo a la búsqueda de homólogos podemos usarlo para determinar la probabilidad con que cada secuencia de una base de datos podría ser generada a partir del HMM, lo cual guarda relación con la probabilidad de que esas secuencias tengan un origen común con las usadas para construir el modelo.

2.4 Búsquedas con secuencias

intermedias (BSI)

Este método se basa en la aplicación de la propiedad transitiva de la homología entre proteínas: si dos proteínas A y B son homólogas, y B es homóloga a una tercera proteína C, entonces A y C también son homólogas; esta propiedad sólo es aplicable cuando las regiones o dominios homólogos se corresponden: en el caso de proteínas multidominio sólo se cumple si el dominio compartido entre A y B es el mismo que el compartido entre B y C. Naturalmente, la propiedad transitiva se puede extender indefinidamente.

Una vez encontrados los homólogos cercanos a una proteína mediante un método de búsqueda tal que BLAST, podemos utilizar las secuencias obtenidas para, mediante nuevas búsquedas, encontrar sus homólogos cercanos, que pueden ser lejanos con respecto a la proteína inicial. Es como dar un paseo por el espacio de secuencias, saltando de unas proteínas a otras en cada “ronda” BLAST. Hay que tener en cuenta que estos saltos nunca podrán ser muy grandes debido a las limitaciones de los métodos tradicionales de búsqueda. Hay ciertos aspectos que deben tenerse en cuenta a la hora de usar BSI:

Selección de subsecuencias: Las búsquedas han de

realizarse con las regiones de las secuencias que presuntamente son homólogas, y no con las proteínas completas. En el caso de búsquedas BSI con una sola iteración esto es sencillo: basta con extraer el fragmento de la secuencia que ha alineado significativamente y utilizarlo para lanzar la nueva búsqueda. Cuando realizamos múltiples rondas

(5)

BLAST sucede que, a partir de la segunda iteración, en que buscamos con todos los homólogos encontrados en la primera iteración, un nuevo homólogo podrá ser encontrado, alineando regiones más o menos diferentes en los distintos casos. Para seleccionar la subsecuencia que deberá ser utilizada en la siguiente ronda se extraen los fragmentos de secuencia del nuevo homólogo que han alineado en cada caso, y se unen todos aquellos fragmentos que se superpongan al menos un 50%.

Limitación del espacio de búsqueda: Una de las

limitaciones prácticas de este método es el enorme número de búsquedas de tipo BLAST que tiene que realizar, especialmente en familias de proteínas muy numerosas. Además, cuando una proteína no homóloga se incluye erróneamente en el proceso, arrastra a todas las de su familia en las siguientes iteraciones. Para minimizar algunos de estos aspectos, se fija un límite máximo variable del número de secuencias obtenidas.

Por ejemplo, si el límite máximo se fija en 1500 búsquedas y en la N iteración ya se han realizado 1200 búsquedas, y éstas han permitido encontrar 500 nuevas proteínas parecidas, se seleccionan las 300 con una mayor puntuación acumulada, de forma análoga a cómo se seleccionan los conjuntos de fragmentos, descartando las otras 200.

2.5 Comparativas

La efectividad del método BSI es comparable a la de PSI-BLAST y superior a la de BLAST: A un mismo nivel de especificidad (detectar bien no homólogos), tanto BSI como PSI-BLAST permiten detectar más del doble de homologías remotas que BLAST. Es decir, son mucho más sensibles. El método BSI puede alcanzar una sensibilidad superior a PSI-BLAST, pero con un alto coste en pérdida de especificidad. A un nivel de especificidad similar, BSI es menos sensible que PSI-BLAST.

Cuando hacemos un alineamiento múltiple se revela cierta información como qué posiciones son más importantes, lo cual es utilizado por PSI-BLAST pero no por BSI, de ahí la menor sensibilidad de este último.

La baja especificidad del método de BSI se explica porque cuando se incluye un falso positivo en la lista de secuencias intermedias, éste, en las siguientes rondas, arrastra a todos sus homólogos (también falsos positivos); en el caso de PSI-BLAST puede que la incorporación de un solo falso positivo no tenga suficiente peso en el perfil como para provocar la inclusión de sus homólogos. Sin embargo, a veces sucede que el perfil de PSI-BLAST se contamina y aparecen en los resultados numerosos falsos

positivos. En un caso real no es fácil saber si ha sucedido esto o no.

El método de BSI permite cartografiar el espacio de secuencias, ya que en los resultados se especifican las distancias evolutivas entre los positivos encontrados. Esto nos permite trazar los caminos que han conducido a que se encuentre cada proteína, por lo que esa información puede ayudarnos a discriminar los verdaderos positivos de los falsos. Además, disponer de un mapa del espacio de secuencias hace posible que podamos tratar de identificar grupos de proteínas diferenciados del resto, que posiblemente se correspondan con familias o subfamilias de proteínas con funciones particulares. También podemos indagar en las relaciones evolutivas que hay entre las distintas familias, lo que nos puede dar una visión más profunda de la función de las proteínas así como de los procesos evolutivos en sí mismos.

Quizás la principal desventaja del método de BSI es el elevado coste computacional que tiene, especialmente si lo comparamos con los rápidos métodos de BLAST y PSI-BLAST. Este coste depende del tamaño de la familia de proteínas que estemos estudiando, ya que por cada nuevo homólogo encontrado se realiza una búsqueda BLAST.

3. CLASIFICACIÓN DE

PROTEÍNAS

Una vez que hemos llevado a cabo un proceso de búsqueda de homólogos, uno de los aspectos más importantes en cuanto al análisis de proteínas es su clasificación. Así, puede ser necesario llevar a cabo una agrupación de proteínas atendiendo a distintos criterios. Estas aproximaciones presentan distintas características según el método de clasificación aplicado, el conjunto de proteínas por clasificar y la información que persiguen obtener. Entre las herramientas más utilizadas en la agrupación de proteínas se encuentran las siguientes:

3.1 Árboles filogenéticos

Un árbol filogenético de un grupo de especies relacionadas biológicamente es un árbol que representa el curso evolutivo de tales especies. Este tipo de métodos de representación también pueden ser aplicados a otros campos, tales como la clasificación de proteínas.

Existen muchos métodos para construir árboles que puedan ser usados para datos moleculares. Cada método tiene sus ventajas y desventajas. De acuerdo a los tipos de datos usados, los métodos se dividen en dos categorías:

1) Métodos basados en distancia. En estos métodos

se calcula una distancia para todos los pares de secuencias de ADN (o aminoácidos), y el árbol

(6)

filogenético se construye considerando las relación entre estas distancias. Una vez que los valores de distancia se han obtenido, hay varios métodos para obtener el árbol.

2) Métodos basados en caracteres discretos. En

estos métodos se usan datos con estados de caracteres discretos tales como estados de nucleótidos en secuencias de ADN, y el árbol se construye considerando las secuencias de ADN en cada posición de carácter o nucleótido.

Para ambas categorías existen varios métodos diferentes para construir árboles que están basados en diferentes principios, entre los que destaca el método UPGMA (Unweighted Pair Group Method with Arithmetic Means), que se engloba dentro de los métodos basados en distancia.

Figura 6 - Ejemplo de árbol filogenético

El funcionamiento básico del método de UPGMA es el siguiente: primeramente, cada secuencia está representada por un nodo y se unen los dos nodos más cercanos en un nuevo nodo (representa el ancestro de ambas secuencias). Entonces se vuelven a calcular las distancias entre los nodos aún no unidos y el nuevo nodo. Y se vuelven a unir los dos nodos más cercanos y a recalcular las distancias. Y así hasta que el árbol está completo. Este método asume que en las distintas ramas del árbol el ritmo al que han divergido es constante, ya que el cálculo de la distancia entre un nuevo nodo AB (el ancestro de los nodos A y B) y los otros se toma como la media de la distancia de los dos nodos A y B y cada uno de los otros. Sin embargo, rara vez el reloj molecular es constante, por lo que este método puede generar árboles incorrectos. Otro método basado en distancias es el de unión al

vecino (Saitou & Nei, 1987). Éste método asume que

el mejor árbol es aquél en el que la longitud total de las ramas es menor. En cada etapa se unen los dos nodos que minimizan la longitud del árbol. Seguidamente se recalculan las distancias entre el nuevo nodo y el resto. Este proceso se repite hasta que el árbol está completo. Tiene las ventajas de que es rápido y de que no asume un ritmo constante de

divergencia, aunque no garantiza que obtengamos el árbol con una longitud de las ramas mínima. Los métodos basados en caracteres, aplicados a proteínas, tienen en cuenta cada una de las posiciones de un alineamiento múltiple, y procuran obtener aquel árbol que concuerde mejor con las sustituciones observadas. Cuando los homólogos son lejanos una diferencia observada en una posición puede equivaler a varias mutaciones sucesivas por lo que estos métodos pueden producir resultados erróneos.

3.2 SYSTERS

El objetivo es la clasificación automática de todas las proteínas en grupos de forma jerárquica, en superfamilias, familias y subfamilias. A partir de los parecidos entre las secuencias, encontrados con BLAST, se realiza un primer agrupamiento utilizando el algoritmo de agrupamiento por simple enlace. Estos grupos luego son divididos en otros más pequeños utilizando un algoritmo de corte mínimo, lo cual resulta en una jerarquía.

3.3 TRIBES

Aplica un método llamado TRIBE-MCL, el cual está basado en el algoritmo de Markov cluster o grupo de Markov. En un grafo en el que las secuencias parecidas están conectadas entre sí en un grupo de proteínas correspondiente a una familia encontraremos muchas conexiones. De este modo es fácil imaginar que existen más caminos posibles (definidos por los arcos que conectan los nodos) entre dos secuencias de una misma familia que entre secuencias que, aunque conectadas, sean de familias distintas. Si simulamos random walks o paseos aleatorios por el grafo, aquellos caminos por los que pasemos más frecuentemente definirán las familias de proteínas. Este método es bastante robusto.

3.4 SequenceSpace

Ésta es una aproximación a la clasificación de las proteínas un poco distinta de las otras y puede aplicarse tanto para identificar residuos funcionales en las proteínas como para determinar qué familias existen. El punto de partida es un alineamiento múltiple. Cada proteína del alineamiento se representa como un vector, de modo que situamos cada proteína en un espacio de secuencias con un número de dimensiones proporcional a la longitud tenga el alineamiento (20xL, de los veinte tipos de aminoácidos por la longitud del alineamiento). Mediante un análisis de componentes principales se pueden proyectar las proteínas sobre un espacio de menos dimensiones y así visualizar qué grupos de proteínas hay en el alineamiento. Paralelamente se puede identificar qué posiciones del alineamiento múltiple reflejan de un mejor modo la situación de las proteínas, los cuales posiblemente están relacionados con las funciones particulares de cada familia o subfamilia.

(7)

Figura 7 - Esquema clustering

3.5 PROTOMAP

El objetivo que persigue es obtener una clasificación jerárquica del conjunto de todas las proteínas conocidas. Para ello, calcula el parecido entre todas las secuencias mediante métodos como el de BLAST. Esta información es representada mediante un grafo G(V, E), que es una estructura de datos en la que hay nodos y arcos que unen los nodos entre sí. En el caso de grafos con peso estos arcos tienen asociado un valor. En PROTOMAP cada secuencia es representada por un nodo y las relaciones entre las secuencias (cuando existen) se plasman mediante un arco entre los nodos con un valor asociado equivalente al del e-value (valor esperado).

4. APLICACIONES

Como sabemos, las proteínas están íntimamente relacionadas con los genes, puesto que los genes son secuencias de nucleótidos que contienen información necesaria para la síntesis de proteínas. Esto significa que en función de los genes que sinteticen una proteína, así será la función de esta. Es por ello que es tan importante conocer la función de las proteínas y, por consiguiente, del genoma humano.

La alteración de la secuencia de ADN que constituye el genoma humano puede causar la expresión anormal de uno o más genes, originando un fenotipo patológico. Las enfermedades genéticas pueden estar causadas por mutación de la secuencia de ADN, produciendo proteínas incorrectas, alterando el nivel de expresión de un gen, o por alteraciones cromosómicas, numéricas o estructurales. Actualmente el número de enfermedades genéticas conocidas es aproximadamente de 4.000.

El Proyecto Genoma Humano (PGH) fue un proyecto internacional de investigación científica con el objetivo fundamental de determinar la secuencia de pares de bases químicas que componen el ADN e identificar y cartografiar los aproximadamente 20.000-25.000 genes del genoma humano desde un punto de vista físico y funcional.

Una de las aplicaciones más directas de conocer la secuencia de genes que componen el genoma humano es que se puede conocer la base molecular de muchas enfermedades genéticas y se puede realizar un diagnóstico adecuado. Algunas de estas enfermedades son, por ejemplo, enfermedad de Gaucher, Alzheimer, enfermedad de Huntington o síndrome de Marfan.

El diagnóstico de cierta enfermedad, gracias al PGH se puede realizar de manera presintomática y prenatal (medicina predictiva).

Una vez que se conocen qué genes producen qué enfermedades, y las características para diagnosticar una enfermedad conociendo la secuencia de bases, es necesario realizar una terapia para acabar con esa enfermedad.

La terapia farmacológica se ve también facilitada por el PGH ya que éste permite encontrar alteraciones en la secuencia del ADN de genes específicos y esto conlleva a que se realice el tratamiento con medicamentos de una manera dirigida, neutralizando las alteraciones y modificando favorablemente el curso de la enfermedad de forma más efectiva que los tratamientos de la medicina actual, que están generalmente dirigidos a aliviar los síntomas. El PGH permite además, en relación con la farmacología, modificar los medicamentos para que se ajusten a las características genéticas del paciente y así poder metabolizar el fármaco de la mejor manera posible, lo que en consecuencia, elimina o minimiza los efectos secundarios indeseables del mismo.

La terapia génica es una consecuencia directa del PGH y supone la probabilidad de curar las enfermedades hereditarias insertando copias funcionales de genes defectivos o ausentes en el genoma de un individuo para tratar dicha enfermedad.

El estudio de las enfermedades genéticas frecuentemente se ha englobado dentro de la genética de poblaciones. Los resultados del Proyecto Genoma Humano son de gran importancia para la identificación de nuevas enfermedades genéticas y para el desarrollo de nuevos y mejores sistemas de diagnóstico genético, así como para la investigación en nuevos tratamientos.

ANEXO A: Definiciones relevantes

Genoma: Es la totalidad de la información genética

(8)

Bases: Compuestos orgánicos que forman el ADN.

Hay cuatro: Adenina (A), Timina (T), Citosina (C) y Guanina (G).

Aminoácidos: Un aminoácido es una molécula

orgánica formada por una secuencia de tres bases (tripleta o codón). Es una molécula orgánica con un grupo amino (-NH2) y un grupo carboxílico (-COOH; ácido). Los aminoácidos más frecuentes y de mayor interés son aquellos que forman parte de las proteínas.

Proteínas: Son macromoléculas formadas por

cadenas lineales de aminoácidos. Las proteínas se sintetizan dependiendo de cómo se encuentren regulados los genes que las codifican de manera que la información genética determina en gran medida qué proteínas tiene una célula, un tejido y un organismo.

Proteínas homólogas: Dos proteínas son homólogas

si reflejan un origen común. Existen numerosos métodos, como veremos más adelante, para encontrar parecidos entre secuencias de proteínas. Si estos parecidos no son demasiado claros es difícil saber si dos proteínas son realmente homólogas, o si los parecidos se deben al azar.

Algoritmo de Smith-Waterman: Es una reconocida

estrategia para realizar alineamiento local de secuencias biológicas (ADN, ARN o proteínas); es decir que determina regiones similares entre un par de secuencias. Este algoritmo garantiza encontrar el alineamiento local óptimo con respecto al sistema de puntaje que está siendo utilizado.

Alineamiento de secuencias: Forma de representar y

comparar dos o más secuencias o cadenas de ADN, ARN, o estructuras primarias proteicas para resaltar sus zonas de similitud, que podrían indicar relaciones funcionales o evolutivas entre los genes o proteínas consultados.

Cadena de Márkov: Es una serie de eventos, en la

cual la probabilidad de que ocurra un evento depende del evento inmediato anterior. En efecto, las cadenas de este tipo tienen memoria. Recuerdan el último evento y esto condiciona las posibilidades de los eventos futuros.

Modelo oculto de Márkov: o HMM (por sus siglas

del inglés, Hidden Markov Model) es un modelo estadístico en el que se asume que el sistema a modelar es un proceso de Márkov de parámetros desconocidos. El objetivo es determinar los parámetros desconocidos (u ocultos, de ahí el nombre) de dicha cadena a partir de los parámetros observables. La arquitectura general de un HMM se muestra en la siguiente figura, donde x(t) es el parámetro desconocido e y(t) el parámetro observable:

Figura 8 - Arquitectura general de un HMM

Especificidad: Probabilidad de que un sujeto sano

tenga un resultado negativo en la prueba. En este caso, es la probabilidad de que decidir que dos proteínas no son homologas cuando, efectivamente, no lo son.

Sensibilidad: Probabilidad de clasificar correctamente a un individuo enfermo. En este caso, es la probabilidad de decidir que dos proteínas sí son homologas cuando, efectivamente, lo son.

REFERENCIAS

[1] Bioinformática: http://es.wikipedia.org/wiki/Bioinform%C3%A1 tica [2] Alineamiento de secuencias: http://es.wikipedia.org/wiki/Alineamiento_de_se cuencias

[3] Software alineamiento de secuencias:

http://es.wikipedia.org/wiki/Anexo:Software_pa ra_alineamiento_de_secuencias [4] Smith-Waterman: http://es.wikipedia.org/wiki/Algoritmo_Smith-Waterman [5] Blast: http://es.wikipedia.org/wiki/BLAST [6] Algoritmo Blast: http://bioinformaticos.com.ar/articulos/algoritmo -blast [7] Análisis de genomas: http://darwin.uvigo.es/people/fabascal/tesis.pdf

[8] Bioinformática para novatos:

http://silvioalejandro.tripod.com/ [9] Alineamiento de secuencias: http://www.madrimasd.org/blogs/bioinformatica /2006/09/01/39376 [10] Tutorial Blast: http://www.ncbi.nlm.nih.gov/Education/BLAST info/tut1.html [11] Tutorial Blast: http://www.ncbi.nlm.nih.gov/Education/BLAST info/tut2.html

(9)

[12] Proceso de Markov: http://es.wikipedia.org/wiki/Proceso_de_M%C3 %A1rkov [13] HMM: http://es.wikipedia.org/wiki/Modelo_oculto_de_ M%C3%A1rkov [14] Aplicaciones de la IA al análisis de Biosecuencias: http://www.uv.mx/mia/egresados/documents/MI AJULIOCeSARSANDRiAREYNOSO.pdf [15] Gen: http://es.wikipedia.org/wiki/Gen

[16] Proyecto Genoma Humano:

http://es.wikipedia.org/wiki/Proyecto_Genoma_ Humano