Bioinformática Máster en Biotecnología

(1)

Bioinformática

Máster en Biotecnología

http://bioinfo2.ugr.es/bioinfo Dr. José L. Oliver

(2)

Biología Molecular: ‘un gen una proteína’ ‘un gen un laboratorio’ ‘un gen una tesis’

Genómica : ‘un genoma una tesis’

De ~nada a ~todo

2001

Antes se estudiaba el efecto de un gen

…ignorando así al 99.99% restante Ahora tenemos datos de todos los genes

¿Qué hacer con ellos?

¿Cómo derivar nuevo conocimiento?

 Es necesario un nuevo enfoque, un cambio de paradigma

“If you can’t do Bioinformatics, you can’t do Biology”…

(3)

• Secuencias de genes y proteínas • Estructuras 3D

• Expresión génica (microarrays)

• Interacción entre proteínas (interactoma) • Secuenciación masiva • Genómica personalizada Computación Conocimiento biológico Salud Biotecnología Medio ambiente Genómica comparada Bases de datos Programas Biología Molecular Genómica ¿Qué es la Bioinformática?

(4)

usuarios

desarrolladores

bioinformática

informática en

salud pública

informática

médica

infrastructura

(5)

Grandes proyectos genómicos:

• Genoma Humano

• 1000 Genomas

(6)

El Proyecto Genoma Humano

Sus objetivos fueron:

• Identificar los aprox. 20.000-25.000 genes en el genoma humano

• Determinar la secuencia de los 3.2 Gbp de nucleótidos que componen el genoma haploide y almacenar esta información en bases de datos

• Mejorar el software para analizar estos datos • Transferencia de tecnología al sector privado

• Abordar los aspectos éticos, legales y sociales (ELSI) que pudiera provocar el proyecto

(7)

El Proyecto Genoma Humano

• Fue una iniciativa internacional lanzada en la década de los 90 del pasado siglo para mapear y secuenciar el conjunto de genes del ser humano (genoma)

• Completado en 2003 con la publicación de la secuencia de referencia del genoma humano

(8)

Secuenciación masiva

SOLID Sequencing by Ligation (SBL) 454 Pyrosequencing (PS) Illumina Reversible Termination (RT)

(9)

Secuenciación masiva

SANGER SECUENCIACIÓN MASIVA

Di-deoxy terminator Roche 454 GS FLX (PS) Illumina HiSeq 2000 (RT) SOLID V4 (SBL) Salida por proceso 1.6 Mb 600 Mb 200 GB 100 GB Tiempo/Proceso 1h 10 h 9 d 11 d Longitud media “reads” 800 pbs 400 pb 100 pb 75 pb Salida por día 38.4 Mb 1.44 GB 22.2 GB 9 GB

Usos frecuentes - Secuenciación de novo Captura de exones Resecuenciación Captura de exones Metagenómica Resecuenciación Captura de exones Metagenómica

(10)

David Deamer made this sketch in 1989 when the idea for nanopore sequencing came to him

(11)

MinION nanopore: a miniaturised single-molecule analysis system,

designed for single use and to work through the USB port of a laptop or desktop computer

(12)

Secuenciación de DNA mediante nanoporos de proteínas

• Proyecto financiado por los NIH: el nanoporo lo suministra una proteína, la alfa-hemolisina (aHL)

• Una de las hebras del DNA atraviesa este nanoporo, movida por un motor molecular de polimerasa

• Los nucleótidos se van identificando por un laser a medida que atraviesan el nanoporo

Conectando miles o millones de estos nanoporos, se espera secuenciar un genoma completo en… 10 minutos!

 Importancia para el diagnóstico/pronóstico del cáncer y otras enfermedades

(13)

PacBio

Sequencing with the PacBio RS II system based on single molecule, real-time (SMRT) technology:

Long reads: Depending upon starting library, half of the data are in reads >14,000 base pairs long with the longest reads over 40,000 base pairs.

High accuracy: Perform de novo assembly of genomes and detect variants with greater than 99.999% accuracy. Sequence individual molecules with 99% accuracy at greater than Sanger lengths.

High sensitivity: Detect minor variants that are present at a frequency less than 0.1%.

(14)

Secuenciación masiva

APLICACIONES

Re-secuenciación Regulación Epigenómica

• SNVs y CNVs • Inserciones y

deleciones

• Expresión génica • ARNs pequeños

• Metilación del ADN • Histonas

(15)

El proyecto 1000 Genomas pretende la

caracterización de la variación genética en el

genoma humano

(16)

Trio project: whole-genome shotgun sequencing at high coverage

(average 42 X) of two families (one Yoruba from Ibadan, Nigeria (YRI); one of European ancestry in Utah (CEU)), each including two parents and one daughter.

Low-coverage project: whole-genome shotgun sequencing at low

coverage (2–6 X) of 59 unrelated individuals from YRI, 60 unrelated individuals fromCEU, 30 unrelated Han Chinese individuals in Beijing (CHB) and 30 unrelated Japanese individuals in Tokyo (JPT).

Exon project: targeted capture of 8,140 exons from 906 randomly

selected genes (total of 1.4 Mb) followed by sequencing at high coverage (average >50 X) in 697 individuals from 7 populations of African (YRI, Luhya inWebuye, Kenya (LWK)), European (CEU, Toscani in Italia (TSI)) and East Asian (CHB, JPT, Chinese in Denver, Colorado (CHD)) ancestry.

(17)

(18)

(19)

• La ‘Encyclopedia of DNA Elements’ (ENCODE) surge de una

colaboración internacional iniciada en 2003 y financiada por el

‘National Human Genome Research Institute’ (NHGRI).

• El objetivo de ENCODE es elaborar un catálogo exhaustivo

de todos los elementos funcionales en el genoma humano,

incluyendo tanto ARNs como proteínas, asi como aquellos

elementos reguladores que controlan el tipo celular y el

momento del desarrollo en que un gen es activo.

• La cuestión es: la suma de los exones de los aprox. 21.000

genes humanos no llegan al 2% del genoma ¿para que sirve

el 98% restante? ¿es ADN basura?

(20)

Algunas de las técnicas utilizadas en ENCODE

RNA-seq. Aislamiento y secuenciación masiva de ARN

CAGE. Captura y secuenciación masiva de los ‘caps’ metilados en los extremos 5’

del ARN. Estos ‘caps’ suelen formarse en los sitios de inicio de la transcripción

RNA-PET. Captura simultánea de ARNs con caps metilados y cola de poly-A, es

decir ARNs completos, seguida de la secuenciación de un trozo en cada extremo.

ChIP-seq. Inmunoprecipitación de las proteínas unidas a la cromatina y

secuenciación de las secuencias de ADN asociadas. Se suelen usar anticuerpos frente a factores de transcripción, proteínas no-histonas que se unen a la

cromatina, o bien histonas modificadas por metilación, acetilación, etc.

(21)

DNase-seq. La enzima DNasa I corta preferencialmente regiones de la

cromatina unidas a proteínas no-histonas y que corresponden a regiones

de ‘cromatina abierta’. Los puntos de corte se secuencian, obteniéndose

así un listado de sitios hipersensibles a DNasa I que corresponden a sitios

de cromatina activa.

FAIRE-seq. (Formaldehyde assisted isolation of regulatory elements).

Permite aislar regiones genómicas libres de nucleosomas.

RRBS (Reduced representation bisulphite sequencing). El tratamiento del

ADN con bisulfito convierte las citosinas no-metiladas en uracilo, mientras

que no afecta a las citosinas metiladas. Se usan enzimas de restricción que

cortan alrededor de los dinucleótidos CpG, con lo que se limita el análisis a

aquellas regiones ricas en CpG (islas CpG).

(22)

(23)

(24)

Principales hallazgos de ENCODE

La mayor parte del genoma (80.4%) se puede asociar con al menos una función en alguno de los 147 tipos celulares analizados. Puesto que puede haber hasta 2.000 tipos celulares, este porcentaje podría llegar a ser mucho más alto!

Los elementos específicos de primates están sometidos a selección natural  deben ser funcionales

Se han descubierto 399.124 enhancers y 70.292 promotores

Muchas de los elementos funcionales encontrados se localizan en las regiones no-codificadoras de proteínas (fuera de los genes)

Los SNPs asociados con enfermedades mediante GWAS abundan en las regiones no-codificadoras y residen en zonas funcionales identificadas por ENCODE.

Muchas enfermedades se asocian con un determinado factor de transcripción que varía entre tipos celulares.

(25)

Felix Muerdter & Alexander Stark, Nature 512, 374–375 (28 August 2014)

Más de 1600 nuevos conjuntos de datos, lo que hace un total de 3300 entre ENCODE y modENCODE

(26)

Cautelas sobre el proyecto ENCODE (extraidas de las publicaciones de 2014):

“…although they are extremely data-rich, the papers expose how data sets that are created to catalogue all functional elements under standardized conditions are not sufficient for understanding the regulation of transcription, chromatin biology and enhancer function, nor the evolution of these mechanisms.”

Según Dan Graur esto quiere decir que:

• Not every piece of chewing gum attached to the soles of your shoes is functional.

• Moreover, the function of the sole of your shoe to which the chewing gum stuck is NOT to bind chewing gum.

(27)

• Bases de datos públicas en línea: EBI, NCBI

• El software se ejecuta en servidores remotos de acceso público: • Formularios Web: Copiar/pegar datos  Resultados

• Ventajas:

• Datos actualizados on-line

• Acceso a software profesional permanentemente actualizado por sus propios autores

• No tendremos que instalar ningún programa ni base de datos en

nuestra máquina local, todo lo haremos a través de un navegador web • Podremos acceder a las prácticas del curso desde cualquier ordenador

(Windows, Linux, Mac…) con acceso a Internet

Los programas y bases de datos que utilizaremos

funcionan en servidores web:

(28)

Bioinformática

Máster en Biotecnología

http://bioinfo2.ugr.es/bioinfo Dr. José L. Oliver