El virus de la gripe. Análisis bioinformático

(1)

El virus de la gripe

(2)

• Es una enfermedad respiratoria, de origen

vírico y altamente contagiosa.

• Obliga a hospitalizar a 200.000 personas al

año en USA.

• Está relacionada con 30.000 muertes al año

en USA.

(3)

• Generalmente, un ataque de un virus, si no

es letal, convierte al paciente en resistente

al ataque del

mismo

virus.

• En el caso de la gripe, el virus cambia su

exterior cada año.

(4)

• Es necesario estudiar la evolución del virus

para conocer sus mecanismos e intentar

desactivarlo.

• Para ello la secuenciación del genoma de

numerosos virus es necesario pero no es

suficiente sino va acompañado de la

capacidad de análisis de los datos.

• Las herramientas para dicho análisis las

proporciona la Bioinformática.

(5)

Internet

Web

Bases de datos

Informática

Probabilidades

Matemática discreta

Geometría

Matemática

Álgebra

Algoritmos de

optimización

Estructura de

datos

Computación

Estadística

Biología computacional

Bioinformática

(6)

Bases de datos

genómicas

(7)

(8)

(9)

(10)

(11)

(12)

• Hay varios “grandes” proyectos en marcha.

Los resultados obtenidos se encuentran en

la base de datos del NCBI.

• A la vista de la importancia del tema de la

gripe, el NCBI ha creado una página web

específica.

El estudio genómico del virus de la gripe

(13)

(14)

(15)

Común a muchas bases de datos

Específico de la bioinformática

(16)

Base de datos

Acceso a la secuencias

(17)

Estructura del virus

(18)

(19)

(20)

(21)

(22)

(23)

(24)

(25)

(26)

El virus de la gripe española (1918)

(27)

(28)

(29)

Española Aviar

Delecciones

(30)

Entre ambos virus hay toda una

historia evolutiva.

La principal herramienta

bioinformática que se usa para su

estudio es el árbol filogenético.

(31)

Árboles filogenéticos

(32)

Árboles filogenéticos

Surgen a partir de la teoría de la evolución de Darwin.

Son representaciones

gráficas de las relaciones evolutivas entre un grupo de organismos vivos.

(33)

Primer árbol filogenético debido a Haeckel 1866

Todas las especies descienden por evolución de una especie ancestral común.

La aparición de una nueva especie se produce por la

subdivisión de una existente en dos subespecies que han

divergido tanto que pierden la capacidad de cruzarse.

(34)

Árboles filogenéticos

(35)

Orangután Gorila _Chimpancé Tiempo Gorila Chimpancé Australophitecus Humanos Ardiphitecus Raíz Orangután

(36)

Orangután Gorila _Chimpancé Tiempo Gorila Chimpancé Australophitecus Humanos Ardiphitecus Raíz Orangután

(37)

Tiempo

Gorila

Chimpancé

Australophitecus

Humanos

Periodo evolutivo del ancestro común a Austrolophitecus y Humanos

Momento en que aparece la especie humana

Ardiphitecus

Raíz

Comienza la existencia del ancestro común a Austrolophitecus y Humanos

Orangután

(38)

Tiempo Gorila Chimpancé Australophitecus Humanos Ardiphitecus Raíz Orangután

(39)

Tiempo Gorila Chimpancé Australophitecus Humanos Ardiphitecus Raíz Orangután

Ejemplo: Árbol filogenético para el grupo Hominidae

Hojas Nodos

(40)

¿Qué datos se usan?

Secuencias

Datos morfológicos

Lista ordenada de genes si se dispone del genoma completo

(48)

¿Qué datos se usan?

Secuencias

Datos morfológicos

(49)

¿Qué datos se usan?

Secuencias

Datos morfológicos

Lista ordenada

Lugares de restricción, SNPs, Secuencias de aminoácidos, etc

(50)

(51)

Principales métodos

Métodos de distancia Máxima parsimonia Máxima verosimilitud

(52)

Árbol

filogenético

Métodos de distancia

(53)

Árbol

filogenético

Métodos de distancia

Datos Estimación

(54)

Árbol filogenético

Métodos de distancia

Datos Estimación Matriz de distancias Estimación

(55)

Métodos de distancia

Datos Estimación Matriz de distancias Construcción Estimación

(56)

Métodos de distancia

Datos Estimación Matriz de distancias Construcción Estimación

(57)

Esa distancia no es conocida y hay que estimarla a partir de los datos usando modelos evolutivos.

•

El modelo usado depende, entre otros factores, del tipo de datos que se tiene, del tipo de organismo y del criterio del investigador.

(60)

La matriz de distancias

T

_nn







T1 T₂ . . . Tn

T

₁

T

₂

. . . T

n

d

_ij _{es la distancia observada entre las especies i,j.}

En general no es una distancia en el sentido matemático del término

(61)

Métodos de distancia Construcción     d 11 d12 . . . d1n d 21 d22 . . . d2n . . . . d_n 1 dn2 . . . dnn     Cálculo

(62)

Métodos de distancia Construcción     d 11 d12 . . . d1n d 21 d22 . . . d2n . . . . d_n 1 dn2 . . . dnn     Cálculo

(63)

Se busca el mínimo de las distancias C y D son las más próximas Métodos de distancia Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única

(64)

(65)

(66)

(67)

Si la matriz de distancia corresponde a una

distancia ultramétrica se puede reconstruir el árbol de forma única

(68)

d

_{U A}

=

(

d

AC

+

d

AD

)

2

UPGMA Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única

(69)

Métodos de distancia Datos Reconstrucción A B C D Si la matriz no es ultramétrica B C Ancestro común a B y C

El algoritmo de Neighbor-Joining intenta corregir el problema

(70)

El algoritmo de Neighbor-Joining

El procedimiento es el mismo que el del UPGMA, salvo que para buscar el mínimo usa una distancia corregida.

La idea es cambiar la noción de vecino.

Vecinos serán aquellos que están próximos pero también alejados de los demás.

(71)

(72)

¿Cómo se calculan las distancias

entre secuencias de nucleótidos?

(73)

¿Cómo se calculan las distancias

entre secuencias de nucleótidos?

Podemos pensar en usar como distancia la proporción de no coincidencias entre los nucleótidos; pero esta

(74)

¿Cómo se calculan las distancias

entre secuencias de nucleótidos?

distancia no refleja correctamente el proceso evolutivo. Podría pasar que después de varias mutaciones

(75)

¿Cómo se calculan las distancias

entre secuencias de nucleótidos?

Lo más correcto es usar un modelo probabilístico de evolución de nucleótidos.

distancia no refleja correctamente el proceso evolutivo. Podría pasar que después de varias mutaciones

(76)

Los modelos de

evolución

(77)

La probabilidad entra en escena

Las secuencias evolucionan mediante mutaciones, inserciones, delecciones, etc. Nosotros nos vamos

a restringir al caso de mutaciones.

Hay muchos modelos aplicables. Nosotros sólo veremos los dos más sencillos, Jules-Cantor y

(78)

Los modelos sencillos asumen que en una secuencia cada “sitio” evoluciona de forma

independiente.

(79)

independiente.

S

₌

s

₁

s

₂

s

₃

. . . s

_n

_n

−1

r

n

Dadas dos secuencias alineadas

(80)

independiente.

S

₌

s

₁

s

₂

s

₃

. . . s

_n

_n

−1

r

n

Dadas dos secuencias alineadas P (S | R, t) = n ! i₌₁ P (si | ri, t) La probabilidad de que S haya evolucionado a partir de R en un tiempo t es:

(81)

independiente.

S

₌

s

₁

s

₂

s

₃

. . . s

_n

_n

−1

r

n

Dadas dos secuencias alineadas P (S | R, t) = n ! i₌₁ P (si | ri, t) La probabilidad de que S haya evolucionado a partir de R en un tiempo t es:

Sólo necesitamos el modelo de evolución de cada sitio

(82)

Sólo necesitamos el modelo de evolución de cada sitio

Como en cada sitio puede haber 4 estados A,G,C,T necesitamos conocer las probabilidades de cada una

de las mutaciones en un tiempo t.

Para modelizar se usan cadenas de Markov continuas, por lo que la matriz anterior no se da directamente.

(83)

Modelo de Jules-Cantor (1969)

Matriz de “velocidades”     −3α α α α α −3α α α α α −3α α α α α −3α    

(84)

Modelo de Jules-Cantor (1969)

Matriz de “velocidades”     −3α α α α α −3α α α α α −3α α α α α −3α     Matriz de probabilidades           1 4 + 3 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 + 3 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 + 3 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 + 3 4 e− 4αt          

(85)

A G

C T

Purinas

Piramidinas Modelo de Kimura 2 parámetros

(86)

A G

C T

Purinas

(87)

A G

C T

Purinas

(88)

Una vez escogido el modelo, la distancia entre dos secuencias se puede pensar como la suma del tiempo de evolución transcurrido desde la “bifurcación” de su

ancestro común más cercano

S R

(89)

El problema es que este ancestro no es conocido!! Por lo tanto hay que estimar esa distancia evolutiva. La forma más usual, ya que estamos metidos de lleno

en probabilidades, es buscar lo más probable (verosimil).

Como los sitios se suponen evolucionan de forma independiente, nos basta trabajar el

(90)

S R

Ancestro?

Datos iniciales:

El árbol, los nucleótidos de S y R

Datos a estimar: v₁, v₂

V₁ _V

(91)

S R

Ancestro?

Datos iniciales:

V₁ _V

2

(92)

S R

Ancestro?

Datos iniciales:

V₁ _V

2

(93)

S R

Ancestro?

Datos iniciales:

V₁ _V

2

Si el ancestro fuese una G tendríamos

Esto nos lo da el modelo elegido

(94)

Como el ancestro puede ser cualquier nucleótido de forma equiprobable obtenemos:

(95)

(96)

Lo que buscamos son los valores de v₁, v₂ que hagan máxima esa probabilidad.

Como los modelos que usamos son reversibles, esa probabilidad sólo depende de la suma v₁+v₂.

(97)

(98)

Máxima verosimilitud

Para un árbol arbitrario, se puede hacer algo análogo, salvo que tendremos muchos más parámetros que estimar.

El método de máxima verosimilitud se basa en la

optimización de una función de verosimilitud obtenida a partir del árbol bajo el establecimiento de un modelo de

evolución y unas premisas o hipótesis simplificadoras. Computacionalmente, si para un árbol, la búsqueda del

óptimo no es sencilla, la búsqueda del árbol óptimo es casi imposible si el número de taxones es alto.

(99)

(100)

Máxima parsimonia

Parece ser el más usado.

La idea de partida es que las hipótesis simples son mejores que las más complejas y que las hipótesis

“ad hoc” deben ser evitadas si es posible.

Lo que se busca es encontrar el mínimo número de cambios que explique los datos.

(101)

Máxima parsimonia

El algoritmo más simple es el de Fitch.

En un primer paso, se recorre el árbol hacia la raíz para determinar el número mínimo de cambios

que se necesitan.

En un segundo paso se intenta, ya partiendo de la raíz, reconstruir las secuencias de los ancestros

para obtener ese número mínimo.

Como los cambios en un sitio no afectan a los otro sitios, se puede hacer sitio a sitio.

(102)

Máxima parsimonia

1 2 3 4 5

(103)

Máxima parsimonia 1 2 3 4 {a,t} 5 a g a t a

(104)

Máxima parsimonia 1 2 3 4 {a,t} 5 {a} a g a t a

(105)

Máxima parsimonia {a, g} 1 2 3 4 {a,t} 5 {a} a g a t a

(106)

Máxima parsimonia {a, g} 1 2 3 4 {a,t} {a} 5 {a} a g a t a

(107)

(108)

(109)

Máxima parsimonia

{a, g}

El número mínimo de cambios es 2. 1 2 3 4 {a,t} {a} 5 {a} a g a t a

(110)

Máxima parsimonia

{a, g}

El número mínimo de cambios es 2. 1 2 3 4 {a,t} {a} 5 {a} a g a t a

(111)

Máxima parsimonia

{a, g}

El número mínimo de cambios es 2. Reconstrucción 1 2 3 4 {a,t} {a} 5 {a} a g a t a

(112)

Ejemplos de uso de los

árboles filogenéticos en

el estudio del virus de la

(113)

La principal proteína de la capsula es la

hemaglutinina. Ésta se une al ácido siálico de

la superficie celular para entrar en ella.

La Hemaglutinina es también la primera

proteína reconocida y atacada por el sistema

inmune.

La supervivencia del virus depende de su

capacidad de encontrar nuevos receptores o de

su capacidad de mutación.

(114)

El virus de la gripe evoluciona a una

velocidad de 6.7x

10

–3

_{mutaciones por}

nucleótido por año. Es decir 1 millón de veces

más rápido que los humanos.

(115)

Tras un examen de virus

conocidos de 1968-1987

hecho por Fitch, se constató

que en lugar de una variedad

de linajes derivados de los

distintos virus del año 1968,

había sólo uno y los otros se

(116)

Fitch y sus coautores comprobaron la hipótesis

de un mayor número de mutaciones en la

región antigénica en la línea vírica persistente

que en las extintas.

Además las mutaciones sinónimas (el cambio

en el nucleótido no modifica la proteína)

aparecían en menor proporción.

Todo ello abunda en la tesis de la selección

positiva.

(117)

El virus se especializa, y se observan diferentes tipos que

infectan principalmente a humanos, principalmente cerdos,

(118)

(119)

En la pandemia de 1968, irrumpe el subtipo H3 en los

humanos. ¿De dónde vino?

(120)

(121)

La hipótesis más aceptada entre los

investigadores es que la pandemias

humanas comienzan cuando las

cepas de la gripe de aves y humanos

infectan simultáneamente un cerdo e

allí intercambian genes y se

(122)

(123)

¿Cómo podemos hacer

una filogenia en la web

(124)

(125)

(126)

(127)

(128)

(129)

(130)

(131)

Aves

Humanos

Porcino

(132)

Otras herramientas

(133)

BLAST

Bases de datos de proteínas (PDBI, SwissProt, etc)

Bases de datos funcionales (KEGG, GO)

(134)

(135)

(136)