• No se han encontrado resultados

INTRODUCCIÓN GENERAL

TRANSPOSICIÓN IN VITRO

I.3. Secuenciamiento y abordaje del estudio de genomas microbianos

I.3.1. Métodos de secuenciación

El ADN es la macromolécula donde se almacena la información hereditaria necesaria para el desarrollo y funcionamiento de los organismos vivos. En el año 1975, Frederick Sanger y sus colaboradores desarrollaron un método para determinar el orden de los nucleótidos en una molécula de ADN que revolucionó la biología (Sanger & Coulson, 1975) y posteriormente surgió la técnica de Maxam y Gilbert (Maxam & Gilbert, 1977). Estos dos métodos fueron denominados de primera generación. Si bien durante muchos años la técnica de Sanger fue ejecutada en forma manual, resultando muy engorrosa, no tardaron en aparecer los primeros equipos capaces de realizar este proceso en forma automatizada. Durante la década de 1990, se desarrollaron equipos cada vez más poderosos capaces de realizar múltiples reacciones de secuenciación a la vez y generar secuencias de hasta 1000 nucleótidos (también llamados pares de bases, pb) con una muy baja tasa de error. Fue mediante esta metodología, ya sea en forma manual o automatizada, que se obtuvieron las secuencias completas de, primero, algunos pocos genes, más tarde de virus completos y finalmente de genomas de diferentes organismos como bacterias y hasta incluso eucariotas.

El logro más espectacular alcanzado mediante esta técnica ha sido quizás la secuenciación del primer genoma humano, publicado en una versión preliminar en el año 2001 y en forma completa en el año 2003 (Green, et al., 2015).

Si bien el método de Sanger (con algunas modificaciones) es aún ampliamente utilizado, para ciertos objetivos su uso se encuentra limitado principalmente por la longitud de las lecturas que pueden obtenerse, por su rendimiento y su alto costo.

Método de

aislamiento Ventajas Desventajas

Aislamiento endógeno

• Conocimiento de la bacteria huésped original

• Aplicable a todos los plásmidos de bacterias cultivables (conjugativos, movilizables y no transmisibles)

• Los plásmidos de bajo número de copias o poco abundantes pueden perderse

• Plásmidos pequeños (limitado por el proceso de transformación de los plásmidos en la bacteria receptora) • Sólo para plásmidos de bacterias cultivables

• Requiere de marcadores de selección codificados por los plásmidos

• Requiere que los plásmidos tengan un

origen de replicación compatible con la bacteria receptora

Aislamiento exógeno

• Independiente de cultivo

• Se pueden aislar plásmidos independientemente de la dominancia numérica

• Se pueden obtener plásmidos de gran tamaño

• Desconocimiento de la bacteria huésped original

• Requiere de marcadores de selección y movilización/conjugación en los plásmidos (no permite obtener plásmidos no transmisibles)

• Aislamiento selectivo de plásmidos movilizables y conjugativos

• Posibilidad de aislar plásmidos lineales si se usa un huésped indicado

TRACA

• Aplicable a todos los plásmidos bacterianos circulares (conjugativos, movilizables y no transmisibles)

• Independiente de la dominancia numérica de los plásmidos

• Independiente de las características del plásmido (marcador de selección, origen de replicación, funciones de movilización/ conjugación)

• Independiente de cultivo

• Caracterización de la secuencia de plásmido facilitada por la presencia de la secuencia conocida del transposón

• El paso de transformación bacteriana limita el tamaño de los plásmidos a capturar

• El transposón puede inactivar genes de interés

• No permite capturar plásmidos lineales

• Los transposones disponibles y los huéspedes bacterianos pueden limitar el rango de plásmidos y la caracterización funcional

• Desconocimiento de la bacteria huésped original

Tabla I.1. Resumen de los métodos más utilizados para la obtención y caracterización de plásmidos en muestras ambientales

Tabla I.1 (Continuación) Método de

aislamiento Ventajas Desventajas

Extracción plasmídica seguida de gradiente en ClCs

• Aplicable a todos los plásmidos bacterianos circulares

• Desconocimiento de la bacteria huésped original

• Independiente de las características del plásmido (marcador de selección, origen de replicación, funciones de movilización/ conjugación)

• No permite capturar plásmidos lineales si se usan técnicas de aislamiento plasmídico tradicionales (gradiente en ClCs, lisis alcalina)

• Independiente de cultivo • Se pueden obtener plásmidos de gran tamaño

MDA

• Aplicable a todos los plásmidos bacterianos circulares

• Desconocimiento de la bacteria huésped original

• Independiente de las características del plásmido (marcador de selección, origen de replicación, funciones de movilización/ conjugación)

• No permite capturar plásmidos lineales

• Independiente de cultivo • Se pueden obtener plásmidos de gran tamaño (Norman et al 2014)

Clasificación bioinformática

• Aplicable a todos los plásmidos bacterianos

• No se conoce la bacteria huésped original de los plásmidos

• Independiente de las características del plásmido (marcador de selección, origen de replicación, funciones de movilización/ conjugación)

• Se pueden obtener plásmidos de gran tamaño

• Independiente de cultivo

• Pueden obtenerse secuencias parciales de los plásmidos, por la baja abundancia de los mismos en la muestra de ADN total de la comunidad

• Puede perderse información, ya que la clasificación depende de la similitud de las secuencias con plásmidos previamente identificados

• El ensamblado de los plásmidos puede ser muy difícil o imposible

La necesidad de acceder a una gran cantidad de secuencias y genomas impulsó el desarrollo de tecnologías que permiten la secuenciación, procesamiento y análisis de datos de manera fácil y ágil. En este sentido, en el año 2005 comenzaron a aparecer las primeras plataformas de secuenciamiento de alto rendimiento, también llamadas de segunda generación. La llegada de los sistemas de secuenciación por síntesis o

pirosecuenciación de alto rendimiento dieron solución a la mayoría de los problemas arriba mencionados para el análisis de la diversidad microbiana. Las tecnologías de secuenciación de segunda generación se volvieron un método simple, rápido y barato para el análisis de comunidades microbianas en comparación con los laboriosos métodos basados en bibliotecas de clones.

La primera tecnología de alto rendimiento en aparecer fue la plataforma 454 Life-Sciences de Roche (Metzker, 2005) que emplea un método de pirosecuenciamiento. En esta metodología, se fragmentan bibliotecas de ADN de entre 400 y 800 pb, se ligan a adaptadores y se desnaturalizan las hebras, las cuales son capturadas por perlas, en donde se produce una amplificación por PCR en emulsión. Luego, las perlas se transfieren a placas en donde se agregan los dNTPs (de a uno a la vez, separados por lavados intermedios). Cada vez que se libera un pirofosfato al incorporarse un dNTP, éste impulsa una reacción que convierte luciferina en oxiluciferina, generando una señal lumínica que permite determinar qué nucleótido se ha incorporado. Por ejemplo, con esta tecnología pueden obtenerse hasta 1,3 millones de secuencias de un largo promedio de 700-800 pb en cada corrida de secuenciación (Loman, et al., 2012), comparado con las 96 secuencias de una placa completa en el sistema de Sanger. Por otro lado, el método permite el etiquetado del ADN generando la posibilidad de secuenciar múltiples muestras a la vez y poder diferenciarlas.

Paralelamente, al mismo tiempo que surgían los pirosecuenciadores, se desarrollaron otras dos tecnologías capaces de generar volúmenes de información aún mayores a los del 454: el Solexa, comprado y comercializado luego por Illumina, y el Solid, comercializado por Life Sciences. La plataforma Genome Analyzer de Illumina

fue liberada al mercado en el año 2006. Ésta utiliza un secuenciamiento por síntesis, luego de un primer paso de amplificación de la muestra de ADN. En esta técnica, primero se fragmenta el ADN de la muestra y se ligan adaptadores en los extremos del ADN fragmentado. Luego, el ADN se selecciona por tamaño, se desnaturalizan las hebras y se adhieren a una celda, en donde se produce una amplificación por PCR en puente para formar clusters con cientos de copias de cada fragmento de ADN. El ADN amplificado se convierte en simple hebra y es luego secuenciado. La técnica de

secuenciación emplea fluoróforos terminadores reversibles y permite generar un total de 25 millones – 6 billones de secuencias de un largo de 2x 150 – 2x 300 pb, dependiendo de la serie de Illumina utilizada (http://www.illumina.com/systems/ sequencing) (ver Figura I.4). Posteriormente, se han desarrollado una gran cantidad de plataformas de secuenciamiento, como Ion Torrent y SOliD, entre otras, así como variantes de las técnicas previamente mencionadas (Morey, et al., 2013). El Solid, comercializado a partir del 2007, se basó en la tecnología de ligación de oligonucleótidos y permite generar un promedio de 3 mil millones de pares de bases en secuencias de 75 + 35 pb (Loman, et al., 2012).

Todas estas plataformas difieren entre sí en ciertos detalles pero en general siguen pasos similares: preparación de la muestra, amplificación clonal y posterior secuenciamiento masivo en paralelo en rondas cíclicas (Reuter, et al., 2015). Los principales factores a tener en cuenta a la hora de la elección de una plataforma de secuenciamiento son: la longitud de las lecturas generadas, el rendimiento, la precisión y el número de veces que cada lectura es secuenciada independientemente, además del costo por base. La estrategia específica empleada por cada plataforma determina su calidad, cantidad y sesgo de los datos de secuencia resultante y la utilidad de la plataforma para aplicaciones particulares.

La principal limitante de las tecnologías de segunda generación es que la longitud de las lecturas no es tan larga como con las técnicas anteriores, principalmente debido a la disminución progresiva de la eficiencia en el transcurso de la reacción de secuenciación. Las lecturas cortas son un problema a la hora de realizar el alineamiento y ensamblado de las secuencias. Por otro lado, el uso de PCR para la amplificación del ADN puede potencialmente introducir un sesgo (Morey, et al., 2013).

La ambición por abaratar aún más los costos de secuenciación y aumentar la fiabilidad de las secuencias resultantes ha llevado a los denominados secuenciadores de tercera generación, basados en la secuenciación de una única molécula de ADN (single molecule real time sequencing). El primer secuenciador de este tipo lo comercializa Helicos BioSciences y se basa en la secuenciación a tiempo real de miles

de millones de pequeñas moléculas únicas de ADN adheridas a una superficie sólida. Permite generar de forma fiable fragmentos de entre 25 y 45 bases. Dada la pequeñez de las lecturas generadas, esta tecnología está recomendada para la resecuenciación de genomas y no para la secuenciación de novo. En un paso más adelante se sitúa la tecnología desarrollada por la empresa Pacific Biosciences que consigue lecturas (reads) de hasta 20.000 pb de longitud con un tamaño medio de entre 4.200 y 8.500 pb, que resuelve los problemas asociados a la segunda generación de secuenciadores (esto es: regiones homopoliméricas, repeticiones en tándem, lecturas cortas). Se trata de un enfoque completamente diferente, ya que lo que se ancla a una superficie sólida (nanoporo) es la enzima ADN polimerasa. Otra tecnología, encuadrada en los secuenciadores de tercera generación, es la desarrollada por ZS Genetics, que utiliza la microscopía electrónica y permite leer la secuencia del ADN directamente sobre una

Figura I.4. Esquema general del secuenciamiento de alto rendimiento utilizando la plataforma Illumina. Consiste en 4 pasos sucesivos que incluyen la preparación de la muestra (fragmentación y ligación de adaptadores), procesamiento (aumento de la cantidad de ADN por PCR en puente), secuenciamiento (mediante el uso de una polimerasa y nucleótidos marcados diferencialmente), y procesamiento de la información obtenida (lectura y posterior ensamblado).

4) Formación de clusters 1) Adhesión del ADN

a la superficie Adaptador Adaptador 2) Amplificación por PCR en puente Nucleótidos 3) Desnaturalización Secuenciamiento Nucleótidos marcados Polimerasa ADN fragmentado Adaptadores Ligación de adaptadores

Procesamiento de la muestra Procesamiento

de datos Ciclo 1 Ciclo 2 Ciclo 3 Clusters Preparación de la muestra Obtención de las secuencias

imagen electrónica. La lectura de la secuencia requiere de la replicación previa de una hebra molde de ADN para poder marcarla con bases modificadas con iodo, bromo o triclorometilo antes de analizarlas.

Estos métodos tienen la capacidad de secuenciar moléculas únicas de ADN sin necesidad de realizar una amplificación clonal antes de la secuenciación, lo que evita la introducción de errores que se puede dar por la reacción de PCR y requiere menos manipulación de la muestra en comparación con los métodos de segunda generación. Estas tecnologías por lo general también implican la secuenciación por síntesis química, pero las técnicas de detección se basan principalmente en el reconocimiento físico de las bases de ADN en una cadena de ADN no modificado, en lugar de en la detección de incorporación química. En estas nuevas tecnologías, la reacción de secuenciación no se detiene por lavado y escaneo luego de la incorporación de cada base, por lo cual el tiempo y el consumo de reactivo disminuyen.

I.3.2. Secuenciamiento de alto rendimiento y metagenómica: aplicación al estudio de