BÚSQUEDA DE SECUENCIAS PARECIDAS (Similarity search)

(1)

BÚSQUEDA DE SECUENCIAS PARECIDAS (Similarity search)

Cuando los proyectos de secuenciación genómica descubren una nueva secuencia biológica es muy poco lo que se sabe de ella. Por ese motivo, una de las actividades más frecuentes en Bioinformática consiste en consultar las bases de datos en busca de

secuencias idénticas o parecidas a la secuencia recién descubierta. Si encontramos

secuencias similares de las que ya se conoce su estructura y/o función es posible utilizar esta información para predecir la estructura y/o función de la nueva secuencia.

Para ello hay que comparar la nueva secuencia, también llamada secuencia problema (query sequence), con todas y cada una de las secuencias almacenadas en una base de

datos. Esta operación requiere un número muy elevado de alineamientos y mucho

tiempo de computación, ya que los algoritmos de programación dinámica para el alineamiento global o local de secuencias generan el alineamiento óptimo en un tiempo

que es proporcional al producto de las longitudes de las secuencias que se están

comparando: O (m × n).

Los programas de la familia Fasta y Blast se basan en métodos heurísticos*_que

reducen el tiempo de computación sacrificando parte de la sensibilidad. El tiempo

de computación se reduce porque (1) seleccionan las secuencias de la bases de datos que puedan parecerse a la secuencia problema y (2) porque localizan en cada secuencia las regiones similares que hay que alinear. De este modo se gana en rapidez porque sólo se realizan los alineamientos en un subconjunto de secuencias de la base de datos y en las regiones que puedan dar lugar a los mejores alineamientos. Por otro lado, se

pierde sensibilidad porque, a diferencia de los algoritmos de programación dinámica,

no se garantiza el alineamiento óptimo entre las secuencias y se corre el riesgo de no encontrar los alineamientos más difíciles de detectar.

Se define la sensibilidad del método como la capacidad para detectar todos los parecidos significativos (obtener el mínimo número de falsos negativos). Se define la

especificidad del método como la capacidad para detectar únicamente aquellos

parecidos que resulten significativos (obtener el mínimo número de falsos positivos). El significado biológico de la similitud existente entre dos secuencias es un concepto arbitrario que depende del contexto en el que se ha hecho la búsqueda y no se puede estimar directamente a partir de la puntuación que se haya otorgado al alineamiento. Los programas de la familia Fasta y Blast calculan la significación estadística de los resultados, comparándolos con un modelo aleatorio: se considera que un resultado es estadísticamente significativo si la probabilidad de que se deba al azar es muy baja. Al hacer alineamientos, tanto los sistemas de puntuación como los algoritmos empleados pretenden conseguir que las similitudes encontradas tengan sentido biológico y que los resultados con mayor significación estadística sean también los más relevantes desde el punto de vista biológico. Es tarea del investigador determinar si un resultado estadísticamente significativo también tiene significado biológica. Nunca debemos olvidar que podemos encontrar (1) resultados estadísticamente significativos sin relevancia biológica (como ocurre, por ejemplo, con las regiones de la secuencia con

*_{Heurístico: que busca la solución a un problema mediante métodos no rigurosos o imaginativos como,} por ejemplo, el tanteo, reglas no empíricas, etc.

(2)

baja complejidad) y resultados con poca significación estadística que puedan corresponder a características de interés biológico.

El programa FASTA (Fast Alignment)

FASTA es un programa diseñado para buscar en las bases de datos de ADN o de proteínas secuencias idénticas o similares a una secuencia problema introducida por el usuario. El programa se ejecuta en cuatro etapas:

Etapa nº 1: Identificación de las 10 regiones que más se parecen.

En vez comparar los residuos uno a uno, FASTA busca "palabras" iguales en las dos secuencias. Estas palabras se denominan k-tuplos, y se pueden definir como una subsecuencia formada por k residuos. El parámetro que determina la longitud del k-tuplo se llama ktup y su valor lo establece el usuario.

A partir de la secuencia problema se obtienen todos los k-tuplos posibles por el método de la ventana deslizante. Se compara la secuencia problema con todas y cada una de las secuencias de una base de datos (BD) y se identifican todos los k-tuplos idénticos. Para localizar las 10 regiones que más se parecen entre las dos secuencias, primero se representan en una matriz bidimensional todas las coincidencias entre k-tuplos, como si se tratase de un dot-plot. Las regiones idénticas entre las dos secuencias aparecen como una diagonal, que se interrumpe cada vez que aparece alguna diferencia entre las secuencias.

Regiones con k-tuplos idénticos Las 10 regiones más parecidas

A continuación, todas las diagonales que estén situadas a una cierta distancia una de otra se agrupan en una sóla. De este modo se identifican las regiones con mayor densidad de k-tuplos idénticos. El programa selecciona las 10 regiones con mayor

densidad de coincidencias para que pasen a la segunda etapa.

Es en esta primera etapa donde se determina la sensibilidad del método. Al disminuir el valor de ktup aumenta la sensibilidad al tiempo que se reduce la velocidad. Por otro lado, cuanto mayor sea ktup, más rápida será la búsqueda, pero a costa de perder sensibilidad. Al comparar secuencias de proteínas se suele utilizar ktup = 2, y si queremos búsquedas más sensibles, ktup = 1. Al comparar secuencias de ácidos

(3)

nucleicos el valor de ktup varía entre 4 y 6. Cuando se trata de oligonucleótidos cortos

se puede utilizar ktup = 1.

Etapa nº 2: Se vuelven a puntuar las 10 regiones seleccionadas utilizando una matriz de similitud.

En la etapa anterior los k-tuplos tenían que ser idénticos (no se tenía en cuenta el concepto de similitud). En esta etapa se vuelven a puntuar las 10 regiones seleccionadas utilizando una matriz de sustitución (PAM, BLOSUM, etc.) y se determina la región

que alcanza la máxima puntuación. En el gráfico de la derecha de la Tabla anterior, la

subsecuencia con mayor puntuación aparece marcada con un asterisco. Esta puntuación es una variable que se denomina init1. Podría ocurrir que la subsecuencia con puntuación init1 no sea la que presente un mayor número de símbolos idénticos sino aquella en la que se ha producido un mayor número de sustituciones conservativas, en las que una misma posición está ocupada por aminoácidos distintos pero con características bioquímicas similares.

Etapa nº 3: Unión de las subsecuencias más parecidas.

FASTA intentará unir algunas de las 10 mejores regiones seleccionadas en la primera etapa. En esta etapa sólo se tienen en cuenta aquellas regiones que superan un

determinado valor (denominado cutoff) y que en el gráfico de la derecha de la Tabla

anterior se representan mediante trazo continuo. De este modo aumenta la sensibilidad del método (disminuye el número de falsos negativos) pero disminuye su especificidad (aumenta el número de falsos positivos). El balance a favor de una u otra se puede modificar mediante cambios en el valor del parámetro cutoff.

Las regiones unidas se vuelven a puntuar teniendo en cuenta las puntuaciones ya calculadas y penalizando los tramos en los que las secuencias no coinciden. FASTA utiliza un algoritmo de programación dinámica para determinar una puntuación óptima para las regiones unidas, a la que denomina initn.

Unión de subsecuencias que superan un umbral de puntuación (cutoff)

Alineamiento local "bandeado"

De este modo, cada secuencia de la BD recibe una puntuación initn que permite establecer un ranking con las secuencias que más se parecen a la secuencia problema.

(4)

Sólo pasarán a la siguiente etapa las secuencias que obtengan un valor de initn superior a cierto umbral.

Etapa nº 4: Alineamiento local entre las secuencias seleccionadas y la secuencia problema.

FASTA utiliza una variante del algoritmo de Smith-Waterman denominada "bandeada" para alinear las secuencias de la BD seleccionadas en la fase 3 con la secuencia problema. Este algoritmo limita la exploración de la matriz a una banda

de 32 residuos de anchura centrada en la región que consiguió la mayor puntuación

(init1) en la etapa nº 2. En el gráfico de la derecha de la Tabla anterior, esta banda está delimitada por las líneas de puntos.

La puntuación de este alineamiento se convierte en el parámetro opt, que es el que permite ordenar los alineamientos de mejor a peor. El programa también calcula la

significación estadística del alineamiento (la probabilidad de obtener la misma

puntuación opt por simple azar). Como el algoritmo de programación dinámica sólo se aplica a la banda seleccionada es posible que no sea el óptimo, pero de esta forma se consigue que las búsquedas en las BD sean entre 10 y 100 veces más rápidas.

Dos direcciones de Internet donde se puede utilizar este algoritmo para realizar búsquedas en BD son:

• http://www.ebi.ac.uk/Tools/sss/fasta/

• http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml

El programa BLAST (Basic Local Alignment Search Tool)

BLAST es la herramienta bioinformática más utilizada. Cuando se obtiene una nueva secuencia lo primero que se suele hacer es utilizar BLAST para compararla con otras secuencias caracterizadas con anterioridad y almacenadas en una BD. Esta herramienta permite inferir relaciones funcionales, estructurales o evolutivas entre dos secuencias. BLAST es de dominio público y se puede usar gratuitamente desde diversos servidores de Internet como, por ejemplo, el del Centro Nacional para la Información Biotecnológica (NCBI) de los EEUU (http://blast.ncbi.nlm.nih.gov/Blast.cgi). También es posible descargarlo e instalarlo en tu ordenador para usarlo localmente.

BLAST compara una secuencia problema (query sequence) con todas las secuencias

almacenadas en una BD. Mediante el alineamiento local de secuencias permite encontrar regiones de similitud local y calcula la significación estadística de los

resultados.

El algoritmo de búsqueda fue desarrollado por Altschul en 1990 para encontrar de manera rápida las secuencias de una BD que más se parecen a una secuencia problema. BLAST usa un algoritmo heurístico por lo que no puede garantizar que el alineamiento encontrado sea el mejor. Sin embargo, BLAST es capaz de calcular la significación

estadística de sus resultados (el valor E) y así poder estimar la probabilidad de obtener

(5)

La primera versión de BLAST (BLAST-1) no permitía introducir huecos en el alineamiento. Las versiones modernas (NCBI-BLAST-2 y WU-BLAST) sí, pero en este caso no existe un tratamiento estadístico sólido que permita evaluar la significación de los resultados.

BLAST-1 (sin huecos)

La primera versión de BLAST para efectuar alineamientos locales (BLAST-1) no contemplaba la existencia de huecos. El algoritmo se lleva a cabo en cuatro etapas:

Etapa nº 1.- Procesamiento previo de la secuencia problema.

Al igual que FASTA, BLAST intenta encontrar rápidamente las regiones similares entre la secuencia problema y cada secuencia de la BD para no perder tiempo explorando regiones que no guardan ningún parecido. Para ello divide la secuencia problema en

"palabras" (words) con un número de caracteres determinado (w). Por ejemplo, a

partir de la secuencia RGDVI se obtienen 4 palabras con un tamaño w = 3: RGD, GDV y DVI. En el caso de proteínas se suele utilizar un tamaño w = 3 y en el caso de DNA se suele utilizar un tamaño w = 11.

Se supone que los alineamientos significativos deben contener "palabras" idénticas o muy parecidas. Con cada palabra de la secuencia problema se genera una lista de

palabras "parecidas" (neighbors) que incluye aquellas palabras que, al compararlas

con la palabra original de la secuencia problema obtengan una puntuación superior a un valor T (threshold) utilizando una matriz de puntuación adecuada (por defecto, se utiliza la matriz BLOSUM62). A diferencia de FASTA, en esta primera etapa BLAST ya tiene en cuenta las similitudes entre los distintos aminoácidos.

(6)

Ajustando los parámetros T y w se puede escoger entre hacer un alineamiento sensible pero lento, o uno más rápido pero con menor sensibilidad. Al disminuir w o T aumenta la sensibilidad de la búsqueda (disminuye el número de falsos negativos) pero ésta se hace más lenta.

Etapa nº 2: Búsqueda de las palabras de las listas en las secuencias de las BD.

Se buscan las palabras que aparecen en las listas generadas en la etapa anterior en las secuencias de las BD. Cada vez que se encuentra una coincidencia, se registra su

posición en la memoria del ordenador.

A partir de este momento, la búsqueda se limita a aquellas regiones en las que se han encontrado coincidencias. Esta es la clave de la rapidez del algoritmo, ya que se reduce

extraordinariamente el espacio de búsqueda. Si aumentamos el valor de T se

obtienen menos coincidencias, se reduce todavía más el espacio de búsqueda y BLAST funciona con mayor rapidez, pero aumentan las probabilidades de pasar por alto algún alineamiento significativo (aumentan los falsos negativos) y se reduce la sensibilidad.

Para hacer que los alineamientos encontrados sean significativos se suelen enmascarar

las regiones de la secuencia que presentan baja complejidad. Estas regiones

contienen secuencias repetidas que pueden ofrecer alineamientos de escaso o nulo interés biológico.

Etapa nº 3: Extensión

En esta etapa BLAST intenta extender el alineamiento a ambos lados de cada

coincidencia sin dejar huecos, utilizando el algoritmo de Smith-Waterman. Así se

(7)

existe similitud entre las dos secuencias. En este caso, la puntuación del alineamiento local aumenta a medida que éste se va extendiendo en las dos direcciones.

Extensión del alineamiento Final del proceso de extensión

El proceso de extensión se detiene en el momento en que la puntuación acumulada

alcanza un valor igual a la puntuación máxima registrada menos un valor X, que es un parámetro del programa. Cuando se detiene la extensión, el alineamiento retrocede hasta el punto en que alcanzó la puntuación máxima.

El programa selecciona aquellos alineamientos que tienen una puntuación igual o mayor que S (score), uno de los parámetros ajustables del programa. Cada alineamiento que cumple con esta condición recibe el nombre de HSP (High-scoring Segment Pair) y el que obtiene la máxima puntuación es el MSP (Maximal Segment Pair).

Etapa nº 4: Evaluación

Nunca hay que extraer conclusiones sobre el significado biológico de un alineamiento basándose exclusivamente en su puntuación. Lo primero que hay que hacer es

determinar es si el resultado es estadísticamente significativo y, después, hay que

tener en cuenta el contexto biológico de la búsqueda y toda la información que se pueda conseguir por otras vías.

La significación estadística es una medida de la probabilidad de obtener un alineamiento con esa misma puntuación por simple azar. A partir de la puntuación obtenida (S) BLAST calcula la significación estadística de cada alineamiento. Como las puntuaciones de los MSP se ajustan a una distribución de valores extremos, es posible calcular la probabilidad de que un MSP obtenga una puntuación igual o mayor que S por simple casualidad. Esta probabilidad se llama valor p y se calcula mediante la siguiente expresión:

p(score ≥ S) = 1 − exp (−K m n e-λS)

donde m y n son las longitudes de las secuencias comparadas, y K y λ son dos parámetros que dependen de la matriz de sustitución empleada.

Cuanto menor sea el valor P, menos probable es que el alineamiento se deba a simple azar. A modo de orientación,

(8)

• si p < 10-100_{las secuencias son idénticas y se observarán alineamientos largos} que abarcan prácticamente la totalidad de la secuencia.

• si 10-100_{< p < 10}-50_{, se trata de secuencias casi idénticas (alelos o SNP).}

• si 10-50_{< p < 10}-10_{, se trata de secuencias estrechamente relacionadas que,} probablemente, son homólogas o comparten algún dominio conservado.

• si 10-10_{< p < 10}-1_{, podría haber un parecido remoto.}

• si p > 10-1_{, lo más probable es que el parecido no sea significativo.}

Cuando se hace una búsqueda en una BD, además del valor p también se suele incluir el

valor E: el número de alineamientos con una puntuación igual o mayor que S que se

espera encontrar por simple azar en una BD de igual tamaño y composición:

E = K m n e-λS

donde m y n indican la longitud de la secuencia problema y de la BD, respectivamente,

S es la puntuación del alineamiento y K e λ son dos constantes que dependen del sistema de puntuación.

Cuanto menor sea el valor E, menos probable es que el alineamiento se deba a una simple casualidad. A modo de orientación,

• si E ≤ 0,02, es probable que las secuencias sean homólogas. • si 1 < E < 1, no se puede descartas que sean homólogas.

• si E ≥ 1, lo más probable es que el alineamiento se deba a una simple casualidad.

BLAST con huecos

BLAST-2 (NCBI) (http://blast.ncbi.nlm.nih.gov/Blast.cgi)

Las dos primeras etapas de BLAST-2 son idénticas a las de BLAST-1 (generación de listas de "palabras parecidas" a partir de la secuencia problema y su localización en las secuencias de las BD).

La primera diferencia con BLAST-1 aparece en la 3ª etapa, a la hora de seleccionar las coincidencias que se van a extender. Introduce un nuevo requisito: para extender una palabra (sin huecos) tiene que haber otra palabra en la misma diagonal y a una

distancia menor que un valor A (que es un parámetro que puede ser modificado por el

usuario). Esta condición se denomina algoritmo de las dos coincidencias (two-hit

algorithm) y reduce la sensibilidad (aparecen más falsos negativos), pero esta

circunstancia se puede compensar reduciendo el parámetro T (el umbral de similitud para la lista de palabras parecidas generada en la 1ª etapa).

(9)

Cuando se cumple este requisito, el programa procede a extender sin huecos (como en BLAST-1) la segunda coincidencia (marcada en la figura superior con un asterisco). De este modo se genera un HSP. Si la puntuación de un HSP supera un determinado

valor umbral se procede a hacer un alineamiento con huecos (la segunda diferencia

con respecto a BLAST-1).

Para hacer el alineamiento local con huecos se utiliza una variante del algoritmo de

Smith y Waterman. En cada HSP, el alineamiento comienza en el punto medio de la

subsecuencia de 11 caracteres de longitud que tenga la máxima puntuación y se extiende en ambas direcciones. La extensión se detiene cuando la puntuación del alineamiento desciende Xg o más puntos con respecto a la puntuación más alta alcanzada y el alineamiento se acorta hasta llegar a ese valor máximo. Los

alineamientos se ordenan en función del valor E.

Comienzo del alineamiento con huecos Extensión del alineamiento con huecos

WU-BLAST (http://www.ebi.ac.uk/Tools/sss/wublast/)

Este algoritmo fue desarrollado por Warren Gish (Universidad de Washington) en 1996. Las primeras tres etapas son iguales que las de BLAST-1. En la 4ª etapa, se lleva a cabo un alineamiento con huecos en los HSP que han obtenido una puntuación mayor que cierto umbral. Se utiliza un algoritmo de programación dinámica que es una mezcla del bandeado (el que usa FASTA) y el condicionado por la puntuación (el que usa BLAST-2). Ofrece las opciones de utilizar un algoritmo de doble coincidencia en la tercera etapa (como BLAST-2) o escoger un alineamiento sin huecos (en este caso funciona igual que BLAST-1). Otra característica interesante de WU-BLAST es que contempla la presencia de más de una región de alineamiento local en la secuencia y las considera de forma independiente.