Bioinformática y nuevas técnicas (NGS)
para ADN mitocondrial y sus
aplicaciones forenses
Lourdes Prieto y Walther Parson
Introducción y conceptos
básicos
ADN mitocondrial:
introducción y conceptos básicos
Una molécula muy especial que tenemos que comprender Características, herencia y nomenclatura
Heteroplasmia
Variabilidad
Características,
herencia y
nomenclatura
La molécula de ADNmt es un todo, no se puede separar
Es un genoma simple
16569pb, hebras H y L
Circular, libre del efecto de las exonucleasas Haploide
Sin histonas, expuesto a moléculas reactivas Numerosas copias por célula
Sec
ue
nc
ia
ció
n
de
l g
enoma
m
it
oc
ondr
ia
l hum
ano
Anderson et al., (1981), Sequence and organization of human
mitochondrial genome. Nature 290: 457-465.
Cambridge
Reference Sequence (CRS)
Se realizó a partir de células de placenta de un individuo europeo. Nucleótidos numerados (1 a 16569)
Andrews et al., (1999), Reanalysis and revision of the CRS for human mitochondrial DNA. Nature Genetics 23: 147. Revised Cambridge Reference Sequence (rCRS)
GenBank: M63933
Secuencia de referencia
GenBank: NC001807
D-Loop o Región Control
• Región de interés forense: D-Loop o Región Control
• Situada entre los genes tRNA
Proy
tRNA
Phe• No codificante: contiene el origen de la replicación de la cadena H,
así como los promotores de la transcripción de ambas cadenas.
REGION CONTROL o D-LOOP
tRNAPro HV1 VR1 HV2 VR2 tRNAPhe
16024 16365 73 340 576
342pb 275pb 268pb 137pb HV3 438 574
El número de mitocondrias es mucho mayor en el óvulo (105)que en el espermatozoide (50)
Las mitocondrias espermáticas entran en el óvulo y sobreviven unas horas
Se sabe de la existencia de mecanismos que eliminan las mitocondrias espermáticas
Herencia materna
Todos los individuos emparentados matrilinealmente poseen el mismo ADNmt (excepto mutaciones)
Nomenc
la
tur
a
Polémica
• Behar et al., 2012 (AJHG 90: 675-684): proponen
una nueva secuencia de referencia
– Reconstructed Sapiens Reference Sequence
(RSRS)
– Inferencia de la secuencia ancestral de sapiens
a partir de genomas mitocondriales de H.
neanderthalensis y más de 18000 genomas
humanos
• Salas et al., (2012) (FSIgen 6:e182-e184):
– Recomiendan continuar con rCRS como
secuencia de referencia
• Phylotree: ambas nomenclaturas
ISFG recommendations 2014: usar rCRS
Nomenclatura:
comparación con rCRS
• Tipos de sustituciones
– Transiciones:
• Pi (C y T) Pi
• Pu (G y A) Pu
– Transversiones:
• Pi Pu
• Pu Pi
A
G
C
T
transiciones transversiones rCRS SUSTITUCIONES 73G 73 A GT T....
G....
73....
GGT GT....
A73GNomenclatura:
comparación con rCRS
• Tipos de In-Dels:
– De un solo nucleótido
– De varios nucleótidos
A AT A....
....
239 C AAT A....
....
239 239.1C T A G A....
....
249 T A G....
....
249 249del INSERCIONES DELECIONES ISFG recommendations 2014: no usar “D” o “d” (A,G,T para IUPAC)249DEL 249- -239.1C A249- A249DEL A249del
Nomenclatura:
comparación con rCRS
• Inserciones-deleciones en zonas homopolimericas
• Se asume que las in-dels ocurren al final del stretch
302 ACCCCCCCTCCCCC315 CRS 315.1C 302 ACCCCCCCTCCCCC315C 309.1C 315.1C 302 ACCCCCCCCTCCCCC315C 309.1C 309.2C 315.1C 302 ACCCCCCCCCTCCCCC315C
Nomenclatura:
problemas en el alineamiento con rCRS
rCRS 145CTCATCCTATTATTTA160Muestra 145CTCATCTCATTATTTA160
1 4 5 1 4 6 1 4 7 1 4 8 1 4 9 1 5 0 1 5 1 1 5 2 1 5 3 1 5 4 1 5 5 1 5 6 1 5 7 1 5 8 NOMENCLATURA CRS C T C A T C C T A T T A T T ALIN. 1 C T C A T C T C A T T A T T 151T 152C ALIN. 2 C T C A T C - T C A T T A T T 151del 152.1C Alineamiento filogenético
Bandelt & Parson (2008). Consistent treatment of length variants in the human mtDNA control region: a reppraisal. Int. J. Leg. Med. 122 (1): 11-21. Se basa en resaltar los cambios que están descritos en la filogenia
• Diferentes alineamientos dan lugar a diferentes resultados en las búsquedas en bases de datos
• Ejemplo: búsqueda realizada con el rango 150-340 (sin SAM)
Nomenclatura:
problemas en el alineamiento con rCRS
151T 152C 263G 315.1C 151del 152.1C 263G 315.1C EVITA EL PROBLEMA!!! (SAM)
Heteroplasmia:
puntual y
de longitud
Mezcla de moléculas portadoras de una mutación (o más!) y moléculas salvajes
La tasa de mutación del ADNmt es mayor que la del ADNn,
LAS HETEROPLASMIAS SON
RELATIVAMENTE FRECUENTES
Heteroplasmia puntual o de secuencia (PHP)
Nomenclatura UIPAC
Pu
r
ina + Pu
r
ina
R
P
y
rimidina + P
y
rimidina
Y
Símbolo Significado R G o A Y T o C M A o C K G o T S G o C W A o T H A o C o T B G o T o C V G o C o A D G o A o T N G o A o C o TPHP con inserciones/deleciones
• Secuencias con y sin
deleción
• Secuencias con transición, y
con y sin deleción
t152
....
....
152 A T CC T....
....
152 A T CC T....
....
CC AT 152c....
....
152 A T CC T....
....
152 A CC T....
....
CC AT C Recomendaciones ISFG 2014: usar minúsculasMezcla de T152 y 152DEL Mezcla de 152C y 152DEL
PHP con inserciones/deleciones
Recomendaciones ISFG 2014: usar minúsculas• Secuencias con y sin inserción A A T A
....
....
239 C AAT A....
....
239 239.1c A A T A....
....
• Secuencias con transición, y con y sin inserción
A A T A
....
....
239 C AA A....
....
239 239C 239.1c A A T A....
....
C C C Mezcla de T239 y 239.1C Mezcla de 239C y 239.1C 0 5 10 15 20 25 30 35 40 45 16024 16051 16 07 8 16105 16132 161 59 16186 16213 16240 16267 16294 16 32 1 16348 16375 16402 16429 16456 16 48 2 16509 16536 165 63 21 48 77 104 131 158 185 212 239 269 297 322 349 378 405 433 460 490 519 553 N u m b er o f O b se rv at io n s 16093 16519 146 152 16183 16189 195 204 16192 215 Irwin et al (2009)6% (311) de los individuos tipados muestran PHP en 114 posiciones en la RC 97% (302) una, 7 (2%) 2 y 1 (<1%) 3 posiciones
Correlación significante (p < 0.001) entre puntos calientes de heteroplasmia y puntos calientes de sustitución determinados a partir de los mismos datos Evaluación de la hetroplasmia de secuencia en 5.015 muestras
Se han observado casos de muestras con 2 e incluso 3 heteroplasmias de secuencia (Irwin et al., 2009; Melton et al., 2005)
Número de PHP
Identificación de cadáver de mujer (muestra de músculo) Muestras de referencia: esposo e hija (mucosa bucal)
mtDNA: 3 diferencias en posiciones que muestran heteroplasmia puntual (16024-576)
CADÁVER: 72Y 185R 189R 263G 315.1C 513A 16148T 16519C HIJA: 185A 263G 315.1C 513A 16148T 16519C
Número de PHP
Del Bo et al., (2003). High mutational burden in the mtDNA control region from aged muscles: a single-fiber study. Neurobiology of aging 24 (6): 829-838 M A D R E H I J A M A D R E H I J A
Heteroplasmia
de longitud
• Se producen fundamentalmente en zonas polinucleotídicas de más de 8 residuos (Ej.: C runs) • Origen: mutación por “slippage” de la polimerasa durante la replicación (Hauswirth, 1984) • Dan lugar a secuencias borrosas
C C C C C C C C C C C C C 13 Cs C C C C C C C C C C C C 12 Cs C C C C C C C C C CCC C C 14 Cs template C C C C C C C C C CCC C 13 Cs template 310 C
Heteroplasmia de longitud (LHP)
73 340 16365 16024 HV1 HV2 16189HV1: 16183-16193
rCRS ACCCCCTCCCCATG 16189C ACCCCCCCCCCATG T16189C 16189 CHeroplasmia de Longitud, lectura de secuencia borrosa
Aparece en todos los haplogrupos, pero con más frecuencia en algunos (Ej: HG-B)
HV1
• Nomenclatura
Heteroplasmia de longitud (LHP)
rCRS AAAACCCCCTCCCCATG
16189C AAAACCCCCCCCCCATG
Siempre tomar como referencia 16189C rCRS AAAACCCCCTCCCCATG 16183C 16184A 16189C AAACACCCCCCCCCATG rCRS AAAACCCCCTCCCCATG 16189C 16193.1C AAAACCCCCCCCCCCATG
Las inserciones al final del tracto (en 3’)
En el tracto de poli-A, dar preferencia a las transversiones (salvo que la filogenia sugiera otra opción) Alineamiento alternativo que no sigue estas reglas:
16182.1C 16189DEL
HV1
ISFG Recommendations 2014: ver ESM
HV2: 303-315
73 340 16365 16024 HV1 HV2 310 rCRS ACCCCCCCTCCCCG 309.1C 315.1C ACCCCCCCCTCCCCCG 310 C Muy frecuente (74%) Poco frecuente (5%) Suele contraerse (< 13Cs) rCRS ACCCCCCCTCCCCG 310C ACCCCCCCCCCCCCGAparece en todos los haplogrupos
Heteroplasmia de longitud (LHP)
HV2
73 340 16365 16024 HV1 HV2 568-573 HV3: 568-573Suele estar asociada a algunos haplogrupos (Ej. HG-I)
Heteroplasmia de longitud (LHP)
HV3
HV3: 568-573 564GACACCCCCCTAT576 rCRS 564GACACCCCCCCTAT576 573.1C 564GACACCCCCCCCCTAT576 573.1C 573.2C 573.3C 564GACACCCCCCCCCCCCTAT576 573.1C 573.2C 573.3C 573.4C 573.5C 573.6CNomenclatura de las LHP
• Para muestras de bases de datos:
– Informar la variante dominante de la heteroplasmia de
longitud (molécula mayoritaria)
– Tomar como referencia el nucleótido no repetitivo que
presenta un pico más alto tras la región heteroplásmica:
• HV1: el punto donde la G en 16196 sea más alta • HV2: el punto donde la T en 310 sea más alta • HV3: el punto donde la G en 577 sea más alta
Recomendaciones ISFG 2014: ver ESM3 G3 1 6 T3 1 0 A3 0 2 -3 1 5 .1 C
HV2
Nomenclatura de las LHP: ejemplo
reverse strand forward strand iiiiiiiv 315.1C ACCCCCCCCTCCCCCCG (8Cs) (i) 309.1C 315.1C ACCCCCCCCCTCCCCCCG (9Cs) (ii) 309.1C 309.2C 315.1C ACCCCCCCCCCTCCCCCCG (10Cs) (iii) 309.1C 309.2C 309.3C 315.1C ACCCCCCCCCCCTCCCCCCG (11Cs) (iv) 309.1C 309.2C 309.3C 309.4C 315.1C MAYORITARIA
En el linaje:
En el individuo
(en el tejido o entre tejidos)
Heteroplasmia
según localización
263G 315.1C 152C 263G 315.1C
MADRE HIJO
sangre pelo 1 pelo 2
Variabilidad:
haplotipos y
haplogrupos, mutaciones
La región control es uno de los marcadores genéticos con mayor poder de discriminación
FILIGENIA MITOCONDRIAL
• La replicación del ADN mitocondrial produce una tasa de error mucho mayor que la delADN nuclear
• Si la tasa de mutación mt fuera lenta habría muchas personas con el mismo ADNmt, no existiría tanta variabilidad.
• En D-Loop las mutaciones son especialmente frecuentes por no contener códigos para proteínas.
Individuo ancestral Hijos 1ª generación Hijos 2ª generación Hijos N generación *
A lo largo del tiempo se van acumulando mutaciones y el ADNmt
del primer individuo se diferencia cada vez más de sus descendientes
La estabilidad molecular varía entre los nucleótidos de la molécula mitocondrial
mutación
• HAPLOTIPO
Ejemplo hipotético:
diferentes
haplotipos
143A 195C 263G 315.1C 16278T 16293G 16311C 73G 263G 315.1C 497T 16093C 16224C 16311C 16519C 72C 195C 263G 315.1C 16153A 16298C
Ejemplo real (16024-576):
secuencia de ADN (con sus polimorfismos) que se heredada en conjunto (sin recombinación)
• HAPLOGRUPO
conjunto de secuencias (haplotipos) que comparten polimorfismos específicos y tienen un origen común
(relacionadas por descendencia)
Los haplogrupos están definidos por “motivos” (polimorfismos específicos en ciertas posiciones) localizados en la región control y en la región codificante Haplogrupo canis Haplogrupo felidae
HAPLOGROUP MOTIFS
16024-576 D1 73G 210G 228A 263G 315.1C 489C 16223T 16239T 16325C 16362C 16519C D1 73G 263G 309.1C 315.1C 489C 16223T 16325C 16360T 16362C 16519C 16527T D1 71.1G 73G 263G 315.1C 489C 524.1A 524.2C 16223T 16325C 16362C 16519C 16527T D1 73G 210G 228A 263G 315.1C 489C 16223T 16239T 16288C 16325C 16362C D1 73G 263G 315.1C 489C 16187A 16223T 16325C 16362C D1 73G 152C 263G 309.1C 315.1C 489C 524.1A 524.2C 16223T 16311C 16325C 16362C L3 N M 489 M8 D 16362 16298 D4 D4h D4e D4b D1 16325Asignación de haplotipos
en haplogrupos
Filogenia mitocondrial
• La elevada tasa de mutación del mtDNA (especialmente de la región control) complica la clasificación de haplotipos en haplogrupos • Homoplasia: mutación paralela que hace que dos secuencias presenten un mismo polimorfismo adquirido de forma independiente • Dos individuos pueden compartir un polimorfismo no por tener un ancestro común, sino porque la misma variante surgió en dos linajes diferentes PROBLEMAS EN LA ASIGNACIÓN DE HAPLOTIPOS EN HAPLOGRUPOS M M8 D 16298
16362 no es suficiente para identificar un haplogrupo debido a su elevada recurrencia a lo largo de la filogenia mitocondrial
16362
• Necesidad de estudiar coding region. Por ejemplo, es imposible distinguir linajes dentro de
haplogrupos como H o D si no es a través de la coding region o de HV3. Pero hay que tener en cuenta
LAS MIGRACIONES
El haplogrupo no se puede asociar al aspecto de una persona
Distribución de haplogrupos
• Los haplogrupos más antiguos del árbol mitocondrial se encuentran en el África sub-sahariana. En este continente encontramos la mayor diversidad mitocondrial, formada por los haplogrupos L0, L1, L2, L3a, L3bcd, L3eix, L3f, L3h, L4, L5, L6, y L7 • Salida de África: Haplogrupo L3. Los L3 que salieron de África dieron lugar a dos
sub-haplogrupos, los “macro-haplogrupos” euroasiáticos M y N
Anticuado, pero todavía útil
• Macro-haplogrupo N: divergió rápidamente hacia el gran sub-clado R (linajes B, F, HV, H, J, K, P, T, U y V); los haplogrupos A, I, S, W, X, Y y sub-haplogrupos de N surgen directamente de la raíz de N
• Macro-haplogrupo M: divergió hacia C, D, E, G, Q y Z
Distribución de haplogrupos
Anticuado, pero todavía útil
Phylotree: http://www.phylotree.org/
A.W. Röck, A. Dür, M. van Oven, W. Parson, Concept for estimating mitochondrial DNA haplogroups using a maximum likelihood approach (EMMA). Forensic Sci. Int. Genet. 7 (2013) 601-609. (16024-576) 73G 146C 150T 152C 182T 195C 198T 263G 315.1C 16114A 16129A 16213A 16223T 16278T 16390A
Walther Parson Última sesión de la
Mutaciones
• Es necesario conocer las tasas de mutación de los datos
genéticos que utilizamos
– la tasa de mutación del mtDNA es mayor que la del nDNA
• Es necesario entender cómo se comportan las
mutaciones
– En polimorfismos de repetición (STRs) las mutaciones de 1
step son más probables que las de 2, 3, 4… steps
– En polimorfismos de secuencia (ADNmt) hay unas posiciones
nucleotídicas más propensas a mutación que otras (hot
spots)
Mutaciones
• Aún no tenemos un conocimiento profundo de la tasa de mutación
por nucleótido.
• Algunas estimad publicadas: Soares et al. 2009
• Pero además, la estabilidad/inestabilidad de un polimorfismo es
variable de unos haplogrupos a otros
– Se puede medir por medio del “fluctuation rate” (Rock et al., 2013). Ejemplo:
• 16217C es muy abundante en los haplogrupos HV2 y B4
• Está presente con frecuencias del 98% y 99% respectivamente (baja tasa de fluctuación)
• Por el contrario, los haplotipos de estos haplogrupos pueden presentar o no presentar 152C (la mitad lo presentan y la otra mitad no lo presentan): alta tasa de fluctuación
Mutaciones
• Y también es necesario tener en cuenta qué estamos
comparando:
– El tipo de comparación que se esté realizando (directa o
indirecta)
• Mancha de sangre escena vs. sangre del sospechoso
• Cadáver vs. familiar materno
– Los tipos de tejidos involucrados en la comparación
• Mismo tejido/fluido vs. distinto tejido/fluido
Mutaciones somáticas
Naue et al., Poster, Viena ISFG 2011
• Comprobaron que la ocurrencia de heteroplasmia de secuencia es dependiente del tejido
• Los tejidos que muestran un mayor grado de PHP son cerebro, hígado y músculo esquelético
• Además, el músculo esquelético muestra posiciones concretas con más tendencia a PHP: 72Y, 189R
Mutaciones somáticas
Naue et al., Poster y presentación oral, Bruselas 2014 • 9 tejidos distintos de 100 individuos
• Métodos para confirmar las PHP: secuenciación clásica (Sanger), clonación, minisecuenciación y secuenciación masiva.
El 88 % de los individuos estudiados muestran al menos una PHP en alguno de los tejidos
En el 75 % de ellos se detectan 2 o más puntos heteroplásmicos
PHPs son más abundantes en músculo e hígado, seguido cerebro, pelo y corazón. Se detecta acumulación de heteroplasmia en
posiciones específicas en músculo, hígado y cerebro.
• Las muevas tecnologías revelan que la frecuencia de PHP se ha subestimado.
?
Preguntas
Workshop mtDNA, Jornadas GHEP-ISFG 2014, Quito
The mitochondria are where energy is
released