El virus de la gripe
•
Es una enfermedad respiratoria, de origen
vírico y altamente contagiosa.
•
Obliga a hospitalizar a 200.000 personas al
año en USA.
•
Está relacionada con 30.000 muertes al año
en USA.
•
Generalmente, un ataque de un virus, si no
es letal, convierte al paciente en resistente
al ataque del
mismo
virus.
•
En el caso de la gripe, el virus cambia su
exterior cada año.
•
Es necesario estudiar la evolución del virus
para conocer sus mecanismos e intentar
desactivarlo.
•
Para ello la secuenciación del genoma de
numerosos virus es necesario pero no es
suficiente sino va acompañado de la
capacidad de análisis de los datos.
•
Las herramientas para dicho análisis las
proporciona la Bioinformática.
Internet
Web
Bases de datos
Informática
Probabilidades
Matemática discreta
Geometría
Matemática
Álgebra
Algoritmos de
optimización
Estructura de
datos
Computación
Estadística
Biología computacional
Bioinformática
Bases de datos
genómicas
•
Hay varios “grandes” proyectos en marcha.
Los resultados obtenidos se encuentran en
la base de datos del NCBI.
•
A la vista de la importancia del tema de la
gripe, el NCBI ha creado una página web
específica.
El estudio genómico del virus de la gripe
Común a muchas bases de datos
Específico de la bioinformática
Base de datos
Acceso a la secuencias
Estructura del virus
El virus de la gripe española (1918)
Española Aviar
Delecciones
Entre ambos virus hay toda una
historia evolutiva.
La principal herramienta
bioinformática que se usa para su
estudio es el árbol filogenético.
Árboles filogenéticos
Árboles filogenéticos
Surgen a partir de la teoría de la evolución de Darwin.
Son representaciones
gráficas de las relaciones evolutivas entre un grupo de organismos vivos.
Primer árbol filogenético debido a Haeckel 1866
Todas las especies descienden por evolución de una especie ancestral común.
La aparición de una nueva especie se produce por la
subdivisión de una existente en dos subespecies que han
divergido tanto que pierden la capacidad de cruzarse.
Árboles filogenéticos
Orangután Gorila Chimpancé Tiempo Gorila Chimpancé Australophitecus Humanos Ardiphitecus Raíz Orangután
Orangután Gorila Chimpancé Tiempo Gorila Chimpancé Australophitecus Humanos Ardiphitecus Raíz Orangután
Tiempo
Gorila
Chimpancé
Australophitecus
Humanos
Periodo evolutivo del ancestro común a Austrolophitecus y Humanos
Momento en que aparece la especie humana
Ardiphitecus
Raíz
Comienza la existencia del ancestro común a Austrolophitecus y Humanos
Orangután
Tiempo Gorila Chimpancé Australophitecus Humanos Ardiphitecus Raíz Orangután
Tiempo Gorila Chimpancé Australophitecus Humanos Ardiphitecus Raíz Orangután
Ejemplo: Árbol filogenético para el grupo Hominidae
Hojas Nodos
¿Qué datos se usan?
¿Qué datos se usan?
Secuencias alineadas “sin huecos” de ADN, ARN o mARN.
¿Qué datos se usan?
¿Qué datos se usan?
Secuencias
¿Qué datos se usan?
Secuencias
¿Qué datos se usan?
Secuencias
Datos morfológicos
Lista ordenada de genes si se dispone del genoma completo
¿Qué datos se usan?
Secuencias
Datos morfológicos
¿Qué datos se usan?
Secuencias
Datos morfológicos
Lista ordenada
Lugares de restricción, SNPs, Secuencias de aminoácidos, etc
Principales métodos
Métodos de distancia Máxima parsimonia Máxima verosimilitud
Árbol
filogenético
Métodos de distancia
Árbol
filogenético
Métodos de distancia
Datos Estimación
Árbol filogenético
Métodos de distancia
Datos Estimación Matriz de distancias EstimaciónÁrbol filogenético
Métodos de distancia
Datos Estimación Matriz de distancias Construcción EstimaciónÁrbol filogenético
Métodos de distancia
Datos Estimación Matriz de distancias Construcción EstimaciónÁrbol filogenético
Métodos de distancia
Datos Estimación Matriz de distancias Construcción Estimación Modelo biológicoÁrbol filogenético
Métodos de distancia
Datos Estimación Matriz de distancias Construcción Estimación Modelo biológico Modelo biológicoMétodos de distancia
¿Qué mide la distancia
entre dos especies?
•
Habitualmente la distancia entre dos especies mide el número de años (o generaciones) transcurridos desde la subdivisión de la especie ancestral común en las dos especies en cuestión.•
Esa distancia no es conocida y hay que estimarla a partir de los datos usando modelos evolutivos.•
El modelo usado depende, entre otros factores, del tipo de datos que se tiene, del tipo de organismo y del criterio del investigador.Métodos de distancia
La matriz de distancias
T
1T
2. . .
T
n
d
11d
12. . .
d
1nd
21d
22. . .
d
23. . .
. . .
. . .
. . .
d
n1d
n2. . .
d
nn
T1 T2 . . . TnT
1T
2. . . T
nd
ij es la distancia observada entre las especies i,j.En general no es una distancia en el sentido matemático del término
Métodos de distancia Construcción d 11 d12 . . . d1n d 21 d22 . . . d2n . . . . dn 1 dn2 . . . dnn Cálculo
Métodos de distancia Construcción d 11 d12 . . . d1n d 21 d22 . . . d2n . . . . dn 1 dn2 . . . dnn Cálculo
Se busca el mínimo de las distancias C y D son las más próximas Métodos de distancia Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única
Se busca el mínimo de las distancias C y D son las más próximas Métodos de distancia Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única
Se busca el mínimo de las distancias C y D son las más próximas Métodos de distancia Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única
Se busca el mínimo de las distancias C y D son las más próximas Métodos de distancia Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única
Métodos de distancia
Si la matriz de distancia corresponde a una
distancia ultramétrica se puede reconstruir el árbol de forma única
Métodos de distancia
d
U A=
(
d
AC+
d
AD)
2
UPGMA Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma únicaMétodos de distancia Datos Reconstrucción A B C D Si la matriz no es ultramétrica B C Ancestro común a B y C
El algoritmo de Neighbor-Joining intenta corregir el problema
Métodos de distancia
El algoritmo de Neighbor-Joining
El procedimiento es el mismo que el del UPGMA, salvo que para buscar el mínimo usa una distancia corregida.
La idea es cambiar la noción de vecino.
Vecinos serán aquellos que están próximos pero también alejados de los demás.
¿Cómo se calculan las distancias
entre secuencias de nucleótidos?
¿Cómo se calculan las distancias
entre secuencias de nucleótidos?
Podemos pensar en usar como distancia la proporción de no coincidencias entre los nucleótidos; pero esta
¿Cómo se calculan las distancias
entre secuencias de nucleótidos?
Podemos pensar en usar como distancia la proporción de no coincidencias entre los nucleótidos; pero esta
distancia no refleja correctamente el proceso evolutivo. Podría pasar que después de varias mutaciones
¿Cómo se calculan las distancias
entre secuencias de nucleótidos?
Lo más correcto es usar un modelo probabilístico de evolución de nucleótidos.
Podemos pensar en usar como distancia la proporción de no coincidencias entre los nucleótidos; pero esta
distancia no refleja correctamente el proceso evolutivo. Podría pasar que después de varias mutaciones
Los modelos de
evolución
La probabilidad entra en escena
Las secuencias evolucionan mediante mutaciones, inserciones, delecciones, etc. Nosotros nos vamos
a restringir al caso de mutaciones.
Hay muchos modelos aplicables. Nosotros sólo veremos los dos más sencillos, Jules-Cantor y
Los modelos sencillos asumen que en una secuencia cada “sitio” evoluciona de forma
independiente.
Los modelos sencillos asumen que en una secuencia cada “sitio” evoluciona de forma
independiente.
S
=
s
1s
2s
3. . . s
n−1
s
nR
=
r
1r
2r
3. . . r
n−1
r
nDadas dos secuencias alineadas
Los modelos sencillos asumen que en una secuencia cada “sitio” evoluciona de forma
independiente.
S
=
s
1s
2s
3. . . s
n−1
s
nR
=
r
1r
2r
3. . . r
n−1
r
nDadas dos secuencias alineadas P (S | R, t) = n ! i=1 P (si | ri, t) La probabilidad de que S haya evolucionado a partir de R en un tiempo t es:
Los modelos sencillos asumen que en una secuencia cada “sitio” evoluciona de forma
independiente.
S
=
s
1s
2s
3. . . s
n−1
s
nR
=
r
1r
2r
3. . . r
n−1
r
nDadas dos secuencias alineadas P (S | R, t) = n ! i=1 P (si | ri, t) La probabilidad de que S haya evolucionado a partir de R en un tiempo t es:
Sólo necesitamos el modelo de evolución de cada sitio
Sólo necesitamos el modelo de evolución de cada sitio
Como en cada sitio puede haber 4 estados A,G,C,T necesitamos conocer las probabilidades de cada una
de las mutaciones en un tiempo t.
P (A | A, t) P (A | G, t) P (A | C, t) P (A | T, t) P (G | A, t) P (G | G, t) P (G | C, t) P (G | T, t) P (C | A, t) P (C | G, t) P (C | C, t) P (C | T, t) P (T | A, t) P (T | G, t) P (T | C, t) P (T | T, t)
Para modelizar se usan cadenas de Markov continuas, por lo que la matriz anterior no se da directamente.
Modelo de Jules-Cantor (1969)
Matriz de “velocidades” −3α α α α α −3α α α α α −3α α α α α −3α Modelo de Jules-Cantor (1969)
Matriz de “velocidades” −3α α α α α −3α α α α α −3α α α α α −3α Matriz de probabilidades 1 4 + 3 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 + 3 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 + 3 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 − 1 4 e− 4αt 1 4 + 3 4 e− 4αt A G
C T
Purinas
Piramidinas Modelo de Kimura 2 parámetros
A G
C T
Purinas
Piramidinas Modelo de Kimura 2 parámetros
A G
C T
Purinas
Piramidinas Modelo de Kimura 2 parámetros
Una vez escogido el modelo, la distancia entre dos secuencias se puede pensar como la suma del tiempo de evolución transcurrido desde la “bifurcación” de su
ancestro común más cercano
S R
El problema es que este ancestro no es conocido!! Por lo tanto hay que estimar esa distancia evolutiva. La forma más usual, ya que estamos metidos de lleno
en probabilidades, es buscar lo más probable (verosimil).
Como los sitios se suponen evolucionan de forma independiente, nos basta trabajar el
S R
Ancestro?
Datos iniciales:
El árbol, los nucleótidos de S y R
Datos a estimar: v1, v2
V1 V
S R
Ancestro?
Datos iniciales:
El árbol, los nucleótidos de S y R
Datos a estimar: v1, v2
V1 V
2
S R
Ancestro?
Datos iniciales:
El árbol, los nucleótidos de S y R
Datos a estimar: v1, v2
V1 V
2
S R
Ancestro?
Datos iniciales:
El árbol, los nucleótidos de S y R
Datos a estimar: v1, v2
V1 V
2
Si el ancestro fuese una G tendríamos
Esto nos lo da el modelo elegido
Como el ancestro puede ser cualquier nucleótido de forma equiprobable obtenemos:
Como el ancestro puede ser cualquier nucleótido de forma equiprobable obtenemos:
Como el ancestro puede ser cualquier nucleótido de forma equiprobable obtenemos:
Lo que buscamos son los valores de v1, v2 que hagan máxima esa probabilidad.
Como los modelos que usamos son reversibles, esa probabilidad sólo depende de la suma v1+v2.
Máxima verosimilitud
Para un árbol arbitrario, se puede hacer algo análogo, salvo que tendremos muchos más parámetros que estimar.
El método de máxima verosimilitud se basa en la
optimización de una función de verosimilitud obtenida a partir del árbol bajo el establecimiento de un modelo de
evolución y unas premisas o hipótesis simplificadoras. Computacionalmente, si para un árbol, la búsqueda del
óptimo no es sencilla, la búsqueda del árbol óptimo es casi imposible si el número de taxones es alto.
Máxima parsimonia
Parece ser el más usado.
La idea de partida es que las hipótesis simples son mejores que las más complejas y que las hipótesis
“ad hoc” deben ser evitadas si es posible.
Lo que se busca es encontrar el mínimo número de cambios que explique los datos.
Máxima parsimonia
El algoritmo más simple es el de Fitch.
En un primer paso, se recorre el árbol hacia la raíz para determinar el número mínimo de cambios
que se necesitan.
En un segundo paso se intenta, ya partiendo de la raíz, reconstruir las secuencias de los ancestros
para obtener ese número mínimo.
Como los cambios en un sitio no afectan a los otro sitios, se puede hacer sitio a sitio.
Máxima parsimonia
1 2 3 4 5
Máxima parsimonia 1 2 3 4 {a,t} 5 a g a t a
Máxima parsimonia 1 2 3 4 {a,t} 5 {a} a g a t a
Máxima parsimonia {a, g} 1 2 3 4 {a,t} 5 {a} a g a t a
Máxima parsimonia {a, g} 1 2 3 4 {a,t} {a} 5 {a} a g a t a
Máxima parsimonia {a, g} 1 2 3 4 {a,t} {a} 5 {a} a g a t a
Máxima parsimonia {a, g} 1 2 3 4 {a,t} {a} 5 {a} a g a t a
Máxima parsimonia
{a, g}
El número mínimo de cambios es 2. 1 2 3 4 {a,t} {a} 5 {a} a g a t a
Máxima parsimonia
{a, g}
El número mínimo de cambios es 2. 1 2 3 4 {a,t} {a} 5 {a} a g a t a
Máxima parsimonia
{a, g}
El número mínimo de cambios es 2. Reconstrucción 1 2 3 4 {a,t} {a} 5 {a} a g a t a