• No se han encontrado resultados

TítuloOptimización de la técnica de utrasecuenciación para el estudio de miocardiopatías congénitas humanas

N/A
N/A
Protected

Academic year: 2020

Share "TítuloOptimización de la técnica de utrasecuenciación para el estudio de miocardiopatías congénitas humanas"

Copied!
241
0
0

Texto completo

(1)Indice de contenidos Resumen ....................................................................................................................................................... 4 Resumo ......................................................................................................................................................... 7 Abstract ....................................................................................................................................................... 10 Introducción ................................................................................................................................................ 13 Secuenciación ......................................................................................................................................... 14 Métodos históricos ............................................................................................................................. 14 Next generation sequencing ............................................................................................................... 18 Secuenciación Illumina........................................................................................................................ 28 Sistemas de enriquecimiento.................................................................................................................. 32 Bioinformática......................................................................................................................................... 35 Alineamiento ....................................................................................................................................... 39 Ensamblaje .......................................................................................................................................... 42 Detección de variantes ....................................................................................................................... 42 Métodos de análisis de variaciones en el número de copias (CNVs).................................................. 44 Anotación de variantes ....................................................................................................................... 47 Predictores .......................................................................................................................................... 50 Bases Genéticas de las enfermedades Cardiovasculares........................................................................ 53 Miocardiopatías. Trastornos Estructurales. ........................................................................................ 53 Trastornos arritmogénicos .................................................................................................................. 57 Objetivos ..................................................................................................................................................... 60 Materiales ................................................................................................................................................... 62 y métodos ................................................................................................................................................... 62 Preparación de la muestra .......................................................................................................................... 63 Extracción de ADN .................................................................................................................................. 63 Lisis ...................................................................................................................................................... 63 Filtración ............................................................................................................................................. 63 Elución ................................................................................................................................................. 63 Cuantificación de ADN total .................................................................................................................... 63 Medida de calidad y cantidad del ADN ................................................................................................... 64 Integridad. ........................................................................................................................................... 64 1.

(2) Cuantificación del ADN de doble cadena. ........................................................................................... 66 Genotipado mediante sondas Taqman. .............................................................................................. 67 Fragmentación del ADN. ..................................................................................................................... 67 Preparación de librerías .......................................................................................................................... 68 Selección del tamaño de los fragmentos generados .......................................................................... 68 Preparación de muestras Haloplex ......................................................................................................... 74 Preparación de las muestras con SureselectQXT.................................................................................... 75 Preparación de un genoma completo. ................................................................................................... 77 Puesta a punto para la técnica de la PCR para la detección de los puntos de rotura de un CNV. ......... 77 Secuenciación ......................................................................................................................................... 81 Bioinformática ........................................................................................................................................... 86 Generación de muestra in silico.............................................................................................................. 86 Alineamiento ........................................................................................................................................... 86 Postprocesado ........................................................................................................................................ 89 Variant calling ......................................................................................................................................... 91 Métricas de calidad ................................................................................................................................. 93 Anotación de las variantes ...................................................................................................................... 94 Filtrado de Variantes ............................................................................................................................... 94 Detección de Variantes estructurales ..................................................................................................... 95 Por profundidad de cobertura ............................................................................................................ 96 Por distancia entre pares PEM ............................................................................................................ 96 Visualización de alineamientos ........................................................................................................... 97 Diseño de las regiones a estudiar ........................................................................................................... 97 Evaluar la implantación de la NGS en el estudio de cardiopatías congénitas humanas........................... 100 Comparación de métodos de enriquecimiento. ................................................................................... 100 Haloplex y SureselectXT .................................................................................................................... 100 Exoma vs panel personalizado. ......................................................................................................... 112 Comparación entre secuenciadores ................................................................................................. 115 Comparación de alineadores ............................................................................................................ 120 Comparación entre variants calling .................................................................................................. 121 Regiones con mala mapabilidad ....................................................................................................... 123 Regiones con baja profundidad ........................................................................................................ 126 2.

(3) Desarrollo de un flujo de trabajo para la implantación de la NGS en el diagnóstico de cardiopatías congénitas ................................................................................................................................................. 128 Preparación de la muestra .................................................................................................................... 128 Secuenciación de la muestra ................................................................................................................ 129 Alineamiento contra la secuencia de referencia. ............................................................................. 130 Medida de contaminación de las muestras. ..................................................................................... 130 Genotipado mediante 4 variant calling............................................................................................. 131 Anotación de las variantes .................................................................................................................... 132 Detección de CNVs. ........................................................................................................................... 133 Deleción de gen completo SCN5A mediante genoma completo. ......................................................... 138 Puesta a punto de la técnica de la PCR para la detección de los puntos de rotura de un CNV............ 139 Validación de la aplicabilidad de la NGS para el diagnóstico de cardiopatías congénitas humanas. ... 141 Discusión ................................................................................................................................................... 143 Evaluar la implantación de la NGS para el diagnóstico de cardiopatías congénitas humanas ............. 144 Desarrollo de un flujo de trabajo para la implantación de la NGS en el diagnóstico de cardiopatías congénitas ............................................................................................................................................. 154 Validación de la aplicabilidad de la NGS para el diagnóstico de cardiopatías congénitas humanas .... 160 Conclusiones ............................................................................................................................................. 161 Bibliografía ................................................................................................................................................ 165 ANEXO A ................................................................................................................................................ 174 Tabla de detección de variantes de la muestra in silico ....................................................................... 174 ANEXO B ................................................................................................................................................ 175 Métricas de cobertura de las muestras secuenciadas en el Hiscan...................................................... 175 ANEXO C ................................................................................................................................................ 176 Métricas de cobertura de la comparación entre XT y QXT ................................................................... 176 ANEXO D................................................................................................................................................ 177 Métricas de coberturas Nextseq y HIseq .............................................................................................. 177 ANEXO E ................................................................................................................................................ 179 Script para generar un genoma de referencia de las regiones de estudio ........................................... 179 ANEXO F ................................................................................................................................................ 185 Script para calcular el BAF..................................................................................................................... 185 ANEXO G ............................................................................................................................................... 186 3.

(4) Lista de genes estudiados ..................................................................................................................... 186 ANEXO H................................................................................................................................................ 194 Lista de variantes incluida en la validación por Sanger. ....................................................................... 194 Anexo I Publicaciones ............................................................................................................................... 217. Resumen. 4.

(5) Resumen. Dada la importancia que está adquiriendo la secuenciación de ácidos nucleicos, no sólo en el ámbito del diagnóstico genético, sino en el de la medicina en general. Desde el año 2005, se ha venido desarrollando una nueva técnica de secuenciación denominada, secuenciación de nueva generación (NGS). que permite secuenciar de forma rápida y económica cualquier genoma. Su aplicación en la práctica clínica necesita una extensa validación y puesta a punto de todo el flujo de trabajo que conlleva utilizar estas nuevas tecnologías, a dos niveles: •. Flujo de trabajo en el laboratorio de biología molecular. •. Procesado de datos bioinformáticos .. Existen diferentes alternativas para lograr llegar al objetivo final de proporcionar un diagnóstico rápido y preciso. Se evaluaron diferentes flujos de trabajo a nivel de laboratorio e bioinformáticos, incluyendo: •. Diferentes métodos de preparación de muestras. •. Distintos equipos de secuenciación de nueva generación. •. Variados métodos de procesado informático de los datos generados. Con el objetivo final de validar un protocolo con alta reproducibilidad y sensibilidad para la detección variantes genéticas implicadas en el diagnóstico de enfermedades cardiovasculares de origen congénito.. 5.

(6) Resumo. 6.

(7) Resumo. Resumo. 7.

(8) Resumo. Dada a importancia que está a adquirir a secuenciación de ácidos nucleicos, non só no ámbito do diagnostico xenético, senón naquel da medicina en xeral. Dende o ano 2005. veuse desenvolvendo una nova técnica de secuenciación denominada:. Secuencaición de nova xeración (NGS). Que permite secuenciar de forma rápida e económica calquera xenoma A súa aplicación na práctica clínica necesita dunha extensa validación e afinación de todo o fluxo de traballo que acarrega utilizar estas novas tecnoloxías a dous niveis. •. Fluxo de traballo no laboratorio de bioloxía molecular. •. Procesado de datos bioinformáticos. Existen diferentes alternativas para lograr acadar o obxetivo final de proporcionar un diagnose rápida e precisa Evaluáronse diferentes fluxos de traballo a nivel de laboratorio e bioinformáticos , incluindo: •. Diferentes métodos de preparación de mostras.. •. Distintos equipos de secuenciación de nova xeración.. •. Variados métodos do procesado informático dos datos xerados.. Con o obxetivo final de validar un protocolo con alta reproducibilidade e sensibilidade para o diagnóstico de enfermedades cardiovasculares de origen conxénito.. 8.

(9) Abstract. 9.

(10) Abstract. Abstract. 10.

(11) Abstract Due the actual importance of nucleic acids sequencing, not just in the field of genetic diagnosis, but also on general medicine Since 2005, a new sequencing technique has been developed, called Next Generation Sequencing (NGS), wich allows a rapid and economical sequencing for any genome Its application in clinical practice requires a wide validadtion and fine tuning of the entire workflow wich involve the use of these new technologies at two levels: Workflow in the molecular biology laboratory. Bioinformatics data processing There are different alternatives to archive the goal of providing a rapid and accurate diagnosis. Different workflows were evaluated at laboratory and bioinformatics levels including: Different methods for sample preparation. Several New Generation Sequencing equipment Various methods of informatic data processing. Witth the goal of validating a protocol with high reproductibility and accuracy for the deteccion of genetics variants involved in the diagnosis of congenital cardiovascular diseases.. 11.

(12) Introducción. 12.

(13) Introducción. Introducción. 13.

(14) Introducción. Secuenciación Una secuencia de ADN es una disposición u ordenamiento de las cuatro bases nitrogenadas que forman una molécula de ácido desoxirribonucleico: Adenina (A), Guanina(G), Citosina (C) y Timina (T). Así pues, se puede definir secuenciación como un conjunto de métodos y técnicas bioquímicas cuya finalidad es la determinación de los nucleótidos: A, G, C y T, en una cadena de. ácido desoxirribonucleico (ADN).. Normalmente, la secuencia de ADN constituye la información genética heredable, por lo que su determinación resulta útil en el estudio de la investigación básica y aplicada, pero en los últimos tiempos ha dado el salto al diagnóstico clínico.. Métodos históricos El primer concepto de secuenciación tuvo lugar en 1949 cuando Sanger en sus estudios sobre la insulina, denotó la importancia de la secuencia en macromoléculas biológicas (1), resumiendo sus hallazgos en el trabajo que le valió el Premio Nobel en 1959: Examination of the sequences of the two chains reveals neither evidence of periodicity of any kind, nor does there seem to be any basic principle which determines the arrangement of the residues. (2). En 1953, Watson y Crick descubrieron la doble hélice del ADN (3); sin embargo, transcurrieron 15 años más hasta la primera determinación experimental de la secuenciación del ADN, este hecho fue debido a distintos factores ●. Las propiedades químicas de las distintas moléculas de ADN eran tan similares que era difícil separarlas para poder trabajar con ellas.. ●. La longitud de la cadena de ADN de origen natural es mucho mayor que las de las proteínas, la secuencia completa era inaccesible.. ●. Los 20 residuos de aminoácidos que se encontraron en las proteínas tienen propiedades ampliamente variables, las cuales se había demostrado que eran útiles en la separación de péptidos. La existencia de sólo cuatro bases en el ADN, suponía un problema mayor para secuenciar el ADN en comparación a la secuenciación de proteínas.. ●. No se conocían ADNasas específicas, mientras que la secuenciación de las proteínas dependía de proteasas capaces de escindirlos aminoácidos adyacentes.. Con el descubrimiento de las enzimas de restricción en 1970 de Hemophilus influenzae (4), (5) se obtuvo un método para cortar las largas moléculas de ADN en pequeños fragmentos que podían ser separados en función de su tamaño usando un gel agarosa mediante electroforesis, facilitando así su procesamiento. 14.

(15) Introducción En 1975 Sanger desarrolla el método plus and minus para la secuenciación de ADN (6) , que consistía en separar los productos sintetizados por la ADN polimerasa en función de su tamaño en un gel de poliacrilamida. La síntesis del ADN mediante la extensión del cebador se llevó a cabo en dos reacciones secuenciales. La primera era lenta y asincrónica resultando una población de productos desde uno a unos pocos cientos de bases. El marcaje P32 era incorporado en este paso. Este producto era dividido en 8 alícuotas y usado como cebador en la segunda ronda de síntesis por la ADN polimerasa. En esta reacción, la síntesis era terminada por la aportación de sólo uno de los cuatro nucleótidos trifosfato (reacción “plus”) o bien tres de los cuatro (reacción minus). Las productos de esas 8 reacciones son entonces analizados por una electroforesis y radiografiadas con rayos X, al revelar la película existen moléculas que difieren en un simple nucleótido, de esta manera se secuenció el primer genoma completo del φX174 (7) el cual se utiliza hoy en día como control de secuenciación en plataformas illumina. En 1977 Maxan and Gilbert (8) publican un método para secuenciar ADN basado en la modificación química del ADN y su posterior escisión en bases específicas . Para ello, usaban un gel de poliacrilamida en el que se marcaba el límite de resolución de la técnica por la separación de los fragmentos generados. La técnica consistía en romper estas moléculas marcadas con reacciones químicas específicas para cada una de las cuatro bases. Cuatro alícuotas de la misma muestra se tratan bajo condiciones distintas, posteriormente el tratamiento con piperidina rompe la molécula de ADN a nivel de la base modificada. Los productos de estas cuatro reacciones se resuelven en función de su tamaño en geles de poliacrilamida donde la secuencia puede leerse en base al patrón de bandas radiactivas obtenidas. Esta técnica permite la lectura de unas 100 bases de secuencia. En resumen, el método requiere marcaje radiactivo en uno de los extremos y la purificación del fragmento de ADN que se desea secuenciar. El tratamiento químico genera rupturas en una pequeña proporción de uno o dos de los cuatro nucleótidos en cada una de las cuatro reacciones; una reacción fragmentaba en ambas purinas dando preferencia a la Guanina (reacción G >A) o a la Adenina (reacción A > G), otra actuaba contra las pirimidinas (C + T) y la última sólo actuaba contra las Citosinas (C). De ese modo se genera una serie de fragmentos marcados a partir del final marcado radiactivamente hasta el primer lugar de corte en cada molécula. Los fragmentos posteriormente se separan por tamaño mediante electroforesis en gel de poliacrilamida, separando los productos de las cuatro reacciones en cuatro carriles distintas, pero una al lado de la otra. Para visualizar los fragmentos generados en cada reacción, se hace una autorradiografía del mismo, lo que proporciona una imagen de una serie de bandas oscuras correspondientes a los fragmentos marcados con el radioisótopo, a partir de las cuales se puede inferir la secuencia.. 15.

(16) Introducción En diciembre de 1977 se publica el método dideoxy desarrollado por Sanger (9) , este método consistía en el uso de nucleótidos terminadores de cadena que eran análogos a los 4 dNTPs pero con una modificación para que pudieran terminar la elongación de la cadena. La modificación consistía en la ausencia de un grupo 3´-OH necesario para la formación del enlace fosfodiéster entre dos nucleótidos consecutivos durante la elongación de la cadena de ADN. El método clásico de terminación de la cadena o método de Sanger necesita una hebra molde de ADN de cadena sencilla, un cebador de ADN, una ADN polimerasa con nucleótidos marcados radiactivamente o mediante fluorescencia y nucleótidos modificados que terminan la elongación de la cadena de ADN. La muestra de ADN se divide en cuatro reacciones de secuenciación separadas que contienen los cuatro desoxinucleótidos estándar (dATP, dGTP, dCTP y dTTP) y una ADN polimerasa. En cada reacción se añade solo uno de los cuatro dideoxinucleótidos (ddATP, ddGTP, ddCTP, o ddTTP), cuando se incorpora uno de estos dideoxinucleótidos se termina la elongación de la cadena al carecer un grupo 3'-OH que se necesita para la formación del enlace fosfodiéster entre dos nucleótidos durante la elongación de la cadena de ADN, esta incorporación en la cadena naciente de ADN termina su extensión, lo que produce varios fragmentos de ADN de longitud variable. Los dideoxinucleótidos se añaden a concentraciones lo suficientemente bajas como para que produzcan todas las posibilidades de fragmentos y al mismo tiempo sean suficientes para realizar la secuenciación. Los fragmentos de ADN sintetizados y marcados de nuevo son desnaturalizados por calor y separados por tamaño (con una resolución de un solo nucleótido) mediante electroforesis en gel de poliacrilamida-urea. Cada una de las cuatro reacciones de síntesis se analiza en carriles individuales para cada nucleótido (A, T, G y C) y se visualizan las bandas de ADN mediante autorradiografía o luz ultravioleta. El resultado se lee de abajo arriba por peso molecular como se indica en la figura 1. A partir de estos métodos basados en separación en matrices sólidas, de fragmentos en función de su tamaño,empezó una carrera por secuenciar cada vez organismos más grandes. El progreso en la metodología permitió aumentar la complejidad de las regiones a secuenciar. Así, en 1981 Sanger y colaboradores (10) , secuenciaron el genoma mitocondrial humano de 16,5 kb, después el genoma completo del fago lambda de 48,5 kb (11) , seguido de por Baer (12)ly la secuenciación del Epstein-Barr virus de 172kb en 1984 y también el genoma del citomegalovirus humano de 273kb en 1991. (13) Durante este periodo se consiguió aumentar la longitud de las lecturas de la secuenciación dideoxy desde las 100 pb hasta unas 400 pb. Esta mejora fue resultado del uso de geles más delgados y con más carriles, y del. 16.

(17) Introducción marcaje del ADN con S35 que permitía bandas más nítidas que el marcaje con P32 debido a la menor energía de las partículas beta emitidas.. Figure 1. Representación esquematica de la secuenciación de Sanger. Una banda oscura en un carril indica que el final de la elongación de la cadena.. En 1986, en el laboratorio de Leroy Hood (14) en colaboración con Applied Biosystems, se publican los resultados de la primera secuenciación automática. En este estudio se muestra como el resultado de la secuenciación fue obtenido directamente por un ordenador sin necesidad de autorradiografiar el gel. Para ello, elegidieron el método dideoxy, en el que los ddNTPs estaban marcados usando 4 electrofluoróforos diferentes. La diferencia con el método clásico era que se habían mezclado los 4 ddNTPs en una sola reacción y la electroforesis se realizaba en un gel con forma de tubo. La fluorescencia desprendida por los fragmentos de ADN era captada por un detector óptico que era capaz de distinguir los 4 dideoxinucleótidos en función del fluoróforo con el que estaban marcados. Los datos obtenidos por el detector de fluorescencia eran almacenados en un ordenador. Al igual que en los métodos basados en gel, la secuencia era deducida por el orden en cual los 4 diferentes ddNTPs pasaban por el detector. Nuevas versiones de esta técnica empezaron a surgir, potenciando el empleo cada vez mayorde la secuenciación automática. En 1996, ABI introdujo el primer secuenciador de electroforesis capilar: el ABI Prism 310, presentando dos años más tarde el ABI Prism 3700 con 96 capilares. Es en este punto, cuando por primera vez se considera 17.

(18) Introducción realmente secuenciación automática ya que el gel había sido sustituido por un sistema de capilares y una matriz polimérica. Las muestras para electroforesis eran cargadas directamente desde las placas, eliminado este paso manual que era necesario en la anterior generación de secuenciadores. Hasta 1995, solamente se habían secuenciado virus y genomas de organelas, per es en este año cuando Craig Venter secuenció dos especies de bacterias: Haemophilus influenzae (15) y Mycoplasma genitalium (16). La secuenciación de H. influenzae introdujo la fragmentación del genoma completo, método utilizado para secuenciar genomas celulares de gran importancia como fueron el primer genoma eucariota de la levadura S.cerevisiae, de 12 Mb a finales de 1996 (17). El primer genoma animal fue el de C. elegans de 97 Mb en 1998 (18) y en el año 2001 se publica el primer borrador del genoma humano (19), (20). Revolucionando el diagnóstico genético humano.. Next generation sequencing. Las tecnologías next generation sequencing incluyen una variedad de métodos que se pueden agrupar de manera general en: •. el modo de preparar la muestra.. •. obtención de la imagen. •. análisis de los datos.. Tienen en común que el fragmento de ADN no necesita una migración electroforética. Cada tecnología utiliza protocolos específicos y la producción de los datos son diferentes, lo que representa una serie de retos cuando se comparan las plataformas entre sí, en base a la calidad de los datos y su coste. Los protocolos corrientes implican la fragmentación del ADN genómico inicial. Hay que añadirle un adaptador universal a cada lado del fragmento generado, este, es utilizado cono diana por los cebadores específicos en una reacción de amplificación. Quedando la molécula de ADN lista para su secuenciación. Normalmente el ADN es amplificado clonalmente en un primer paso previo a la secuenciación, ya que la mayoría de los sistemas basados en imágenes no son capaces de detectar la fluorescencia desprendida por una sola molécula, haciendo necesaria la amplificación previa de los ADN moldes. Los métodos más comunes utilizados para tal fin son:. 18.

(19) Introducción. •. La PCR de emulsión.. •. La amplificación en fase sólida.. Finalmente, el producto es inmovilizado en una superficie sólida o soporte. La inmovilización espaciada de estos fragmentos permite que miles de millones de reacciones de secuencia tengan lugar simultáneamente. En el año 2004, sale a la luz el primer ultrasecuenciador conocido como Roche 454 FLX, el cual utiliza una tecnología de secuenciación alternativa, la pirosecuenciación. Este método fue desarrollado por Mostafa Ronaghi y Pal Nyrén en 1996 (21). Está basada en la secuenciación por síntesis, acoplando la síntesis de ADN a una reacción quimioluminiscente, lo que permite una rápida determinación de secuencias en tiempo real. La técnica utiliza cuatro reacciones enzimáticas que tienen lugar en un único tubo en el que se monitoriza la síntesis de la cadena complementaria de ADN, usando como molde ADN de cadena simple. Los nucleótidos son añadidos de forma consecutiva a la reacción y en caso de incorporación, se libera pirofosfato inorgánico (PPi), éste desencadena una serie de reacciones que resultan en la producción de luz, de forma proporcional a la cantidad de DNA y el número de nucleótidos incorporados. La generación de luz se detecta en forma de pico y se graba gracias a un sistema de detección, reflejando la actividad de los enzimas en la reacción. La técnica de pirosecuenciación se realiza en 5 pasos como se puede ver en la figura 2. Figura 1 (1). una molécula de ssDNA amplificado por PCR híbrida con el cebador de secuenciación y se incuba con los enzimas DNA polimerasa, ATP sulfurilasa, luciferasa y apirasa, más los sustratos adenosina-5’-fosfosulfato (APS) y luciferina. (2) La. 19.

(20) Introducción adición de uno de los 4 dNTPs inicia el segundo paso, en el que la DNA polimerasa cataliza la incorporación del dNTP al molde si es complementario. (3) La ATP-sulfurilasa convierte cuantitativamente el PPi en ATP en presencia de APS. El ATP generado permite la conversión de la luciferina en oxiluciferina por acción de la luciferasa, generando luz visible en cantidades proporcionales a la cantidad de ATP presente. La luz emitida es detectada por una cámara CCD y puede ser analizada por el programa. Cada señal luminosa es proporcional a la cantidad de nucleótidos incorporados. (4)Para continuar con la secuenciación, es esencial la degradación de aquellos dNTPs que no han sido incorporados. La apirasa es el enzima encargado de ello. 5.Nuevos dNTPs pueden ser añadidos para iniciar un nuevo ciclo.. Roche 454 En la aproximación de Roche 454 FLX, (22) los fragmentos generados del ADN son mezclados con perlas de agarosa, las cuales tienen oligonucleótidos complementarios al adaptador específico del 454 que llevan los fragmentos de ADN generados. Cada perla se asocia con un único fragmento, cada uno de estos complejos perla/fragmento es aislado en una micela de agua y aceite que contienen los reactivos para la PCR, con la ayuda de un termociclador, tiene lugar la PCR de emulsión en la que cada micela produce aproximadamente un millón de copias de cada fragmento de ADN anclado en la superficie de las perlas. Estas moléculas amplificadas individualmente son luego secuenciadas en masa. Para ello, las perlas se disponen sobre una placa picotiter que contiene una única perla en cada uno de varios cientos de miles de pocillos individuales, que proporciona un lugar fijo en el que cada reacción de secuenciación se pueda controlar. A continuación, se le añaden unas esferas liofilizadas que contienen las polimerasas y se distribuyen en capas dentro de la placa junto con otras esferas enzimáticas que contienen luciferasa y sulfurilasa. Esta capa de esferas enzimáticas ayuda a que las perlas con ADN permanezcan en el interior del pocillo durante la reacción de secuenciación. Una vez que la picotiter está preparada, se coloca en frente de la cámara CCD (Charge-coupled Device) que captará la luz emitida por cada perla durante el proceso de secuenciación, el cual tiene lugar gracias a la adición de los reactivos de secuenciación que fluyen a través de los pocillos de la placa. Durante el flujo de nucleótidos, cada una de los cientos de miles de perlas con millones de copias de ADN se secuencia en paralelo, cuando un nucleótido es complementario a la cadena molde, la polimerasa extiende la hebra existente de ADN mediante la adición de nucleótidos. Esta adición resulta en una reacción que genera una señal de luz que es recogida por la cámara CCD del equipo. La intensidad de la señal es proporcional al número de nucleótidos incorporados. Como se puede ver en la figura 3, los cuatro primeros nucleótidos (TCGA) situados en el adaptador son utilizados para la construcción de la librería y permiten al software del 454 calibrar la luz emitida por la incorporación de cada nucleótido de manera individual. En la secuencia TTCTGCGAA, se observa que la intensidad asociada a las primera T es el doble que a la tercera base T, esto indica que se han añadido dos T al mismo tiempo, lo mismo ocurre con las dos adeninas del final de la secuencia. 20.

(21) Introducción La mayor limitación de la tecnología 454 es la falta de detección de homopolímeros debido a que no existe ningún elemento preventivo que evite las múltiples incorporaciones consecutivas en el mismo ciclo. La longitud de todos los homopolímeros se infiere por la intensidad de la señal, lo que le hace propenso a una tasa de error mayor que la discriminación de incorporaciones contra no incorporaciones. Como consecuencia, el tipo de error dominante en esta plataforma es inserción–deleción. (23). En comparación con otras plataformas de nueva generación, la ventaja clave de la plataforma 454 es de longitud de lectura, aunque el coste por base de secuenciación de esta plataforma 454 es mucho mayor que el de otras plataformas. Sin embargo, es el método más utilizado para ciertas aplicaciones en el que las longitudes de lectura son críticas, como son, el ensamblaje de novo y la metagenómica.. Figura 2. Esquema de las intensidades de las bases incorporadas en el sistema de Roche 454, a intensidad más alta indica la adición de dos o más nucleótidos iguales añadidos al mismo tiempo.. ABI SOLiD. En el 2005 se desarrolla en el laboratorio de George Church una tecnología de secuenciación basada en ligación (24) y en 2007 Applied biosystems la redefine y lanza al mercado la plataforma ABI SOLiDTM, siendo un enfoque único para la secuenciación de los fragmentos amplificados, la aproximación de ligación 21.

(22) Introducción Al igual que en la plataforma de Roche 454, la amplificación de los fragmentos se realiza por PCR de emulsión en unas micelas de agua-aceite que contienen todo lo necesario para realizar la amplificación y una perla magnética de 1 µm que lleva unida el adaptador P1 a su superficie. Los cebadores hibridan con el adaptador P1, antes de la emulsión se diluye el producto para maximizar el número de microrreactores que contienen una única molécula de ADN y una única perla. Cuando se crea la emulsión, se realiza la amplificación clonal de la única molécula de ADN. Las emulsiones se rompen para liberar las perlas magnéticas de los microrreactores y se purifica mediante diferentes lavados con sus respectivos tampones. La secuenciación tiene lugar cuando un cebador universal complementario a la secuencia del adaptador P1 se ancla y permite las posteriores reacciones de ligación (Figura 4). La plataforma SOLid utiliza un sistema novedoso basado en la codificación de dos bases. Como resultado se obtiene una secuencia de nucleótidos interpretada a partir de una secuencia de colores mediante el uso de las dos bases de codificación anteriormente mencionadas. Cada uno de los cuatro posibles fluoróforos representa cuatro posibles combinaciones de dinucleótidos. Durante la ligación cada base es interrogada dos veces, el color desprendido en cada ciclo de ligación es almacenado digitalmente. El beneficio de la codificación de dos bases de colores, es que el diseño único de la matriz permite que los errores generados por la medición sean fácilmente distinguibles de los verdaderos polimorfismos. Una medición errónea se produce cuando un color es incorrecto, y por lo tanto un espacio de color único que discrepa con el espacio de color de la secuencia de referencia. Un verdadero polimorfismo requiere que dos colores adyacentes cambien al mismo tiempo. Esto permite una fácil discriminación entre las medidas erróneas y los polimorfismos. Esta característica confiere una clara ventaja sobre la codificación de una sola base usada por los sistemas basados en ADN polimerasas, en las que no es posible distinguir entre una medida errónea y un polimorfismo, lo que hace que requiera de una mayor profundidad de cobertura.. 22.

(23) Introducción. Figura 3. A) un cebador universal, una Ligasa y una mezcla de sondas octaméricas fluorescentes que contienen todas las posibles combinaciones de A, C, G, T, interrogan la secuencia del molde desconocido. (B) Sólo la sonda homóloga a las primeras 5 bases de la secuencia desconocida estará en la posición apropiada para ser ligado al cebador universal de secuenciación. Las sondas que hibridan en otras regiones de la secuencia de ADN no funcionan como sustratos para la ligasa, porque la enzima sólo puede establecer un enlace fosfodiéster entre el fosfato 5´ de un oligonucleótido y el 3´hidroxilo del segundo oligonucleótido. El extremo 3´de la sonda que interroga sólo ligara con el extremo 5´del cebador universal. Las sondas están marcadas con cuatro diferentes fluoróforos, cada uno asociado dentro de la sonda con un conjunto distinto de cuatro combinaciones de dinucleótidos en las posiciones 1 y 2. (C) ,la fluorescencia emitida de manera específica en función del fluoróforo durante la reacción será captada por el sensor.. La sonda y los nucleótidos del 6 al 8 son liberados antes de la siguiente ronda de ligación, esta eliminación ese produce mediante escisión química del enlace modificado entre los nucleótidos 5 y 6 de la sonda.. 23.

(24) Introducción. Semiconductores: Ion torrent La secuenciación por semiconductores es lanzada al mercado en febrero del 2010 y es un método de secuenciación de ADN basado en la detección de iones de hidrógeno que se liberan durante la polimerización de ADN (25). No usando una secuenciación óptica como en los casos anteriores. Es un método de secuenciación por síntesis, durante el cual una hebra complementaria se construye sobre la base de la secuencia molde. En la naturaleza, la incorporación de un desoxirribonucleótido trifosfato (dNTP) en una cadena de ADN en crecimiento implica la formación de un enlace covalente y la liberación de pirofosfato y una carga positiva de iones hidrógeno. Un dNTP sólo será incorporado si es complementario a un nucleótido no apareado de la cadena molde. La secuenciación mediante semiconductores aprovecha estos hechos ya que si se libera un ión hidrógeno es porque se ha producido una reacción de un dNTP. La reacción tiene lugar en micropocillos dentro de un chip semiconductor, cada micropocillo contiene una sola molécula de ADN molde y una polimerasa. Estos pocillos son secuencialmente inundados con dNTP´s sin modificar. Si un dNTP introducido es complementario al siguiente nucleótido desapareado en la cadena molde, éste es incorporado a la cadena complementaria por la ADN polimerasa. El ion de hidrógeno que se libera en la reacción cambia el pH de la solución, y es detectada por un ISFET (transistor de efecto campo sensible a iones). Las moléculas de dNTP no adheridas se eliminan antes del siguiente ciclo. Si están presentes homopolímeros en la secuencia molde, múltiples moléculas de dNTP se incorporarán en un solo ciclo. Esto conduce a un número correspondiente de átomos de hidrógeno liberados y una señal electrónica proporcionalmente mayor. Debajo de la capa de micropocillos hay una capa susceptible a iones, por debajo de la cual se sitúa el sensor de iones ISFET. Todas las capas están contenidas dentro de un chip semiconductor CMOS (Semiconductor complementario de óxido metálico), similar a los usados en la industria electrónica. Cada chip contiene una matriz de micropocillos con sus correspondientes detectores ISFET. Cada ion hidrógeno liberado dispara el sensor ISFET. La serie de impulsos eléctricos transmitidos desde el chip a un ordenador se traduce en una secuencia de ADN, sin requerir conversión de señal intermedia, ya que los eventos de incorporación de nucleótidos se miden directamente, evitando así el uso de nucleótidos marcados y las mediciones ópticas. El procesamiento de señales y la obtención de la secuencia de ADN puede llevarse a cabo con el software apropiado para ello. 24.

(25) Introducción Esta tecnología difiere de otras en que no se usan nucleótidos modificados ni procesos ópticos, con lo que los costes de secuenciación se abaratan drásticamente. La tecnología fue patentada por ADN Electronics Ltd, desarrollado por Ion Torrent Systems Inc. Ion Torrent ha comercializado su máquina como un secuenciador rápido, compacto y económico.. Figura 4. Se muestra un esquema del funcionamiento del sistema donde cuando se incorpora un nucleótido se libera un hidrógeno. Si el nucleótido no es incorporado no se libera el hidrogeno, en el caso de que se incorporen dos bases iguales se liberan dos hidrógenos. Estructura del microchip. Imágenes procedentes de:. https://www.thermofisher.com/es/es/home/life-. science/sequencing/next-generation-sequencing/ion-torrent-next-generation-sequencingtechnology.html Los principales beneficios de la secuenciación por semiconductores son la alta velocidad de secuenciación y el bajo coste. Mientras que la limitación más importante, al igual que ocurre con la pirosecuenciación, la encontramos en. zonas donde se secuencian homopolímeros, donde resulta difícil diferenciar. longitudes de 7 ó 8 unidades del mismo nucleótido.. Pacific Biosciences En 2009 se presenta la primera secuenciación en tiempo real procedente de una molécula única de ADN. (26). La tecnología SMRT (single molecule real-time), aprovecha el proceso natural de la replicación del. 25.

(26) Introducción ADN. En esta técnica, encontramos una sucesión de pocillos sobre una película de aluminio que a su vez, está depositada sobre un sustrato de vidrio. Cada hueco o pocillo recibe el nombre de ZMW (zero-mode waveguide) de sus siglas en inglés. El volumen de este pocillo se mide en escala de zeptolitros. En el interior de cada ZMW hay una ADN polimerasa junto con la molécula molde. La ADN polimerasa se encuentra unida al sustrato de vidrio mediante una interacción mediada por proteínas. A su vez, al ADN utilizado como molde previamente se le han unido los adaptadores específicos para la secuenciación. La característica principal de estos adaptadores es su forma de burbuja y son añadidos al ADN molde resultando éste en una molécula circular. Un aspecto clave de este tipo de secuenciación son los nucleótidos marcados, los cuales presentan la fluorescencia unida a la cadena de fosfato del nucleótido, en lugar de a la base., Típicamente, una ADN polimerasa puede incorporar unos pocos nucleótidos marcados antes de que deje de polimerizar, los nucleótidos utilizados en este sistema. Como un paso natural en el proceso de síntesis, la cadena de fosfato se escinde, por acción del ADN polimerasa cuando es incorporado a la cadena creciente, tras esta escisión el fluoróforo difunde rápidamente, dejando un fragmento de ADN completamente natural. Cuando la reacción de secuencia comienza, la polimerasa incorpora nucleótidos en los que cada base lleva un fluoróforo distinto, durante la iniciación de la incorporación de bases, el nucleótido fluorescente es capturado por el sitio activo de la polimerasa cerca del fondo de la ZMW, en este fondo, existe una cámara de alta resolución que graba la fluorescencia del nucleótido recién incorporado. Durante la unión, la pareja fosfato y fluoróforo son separados del nucleótido, lo que hace que disminuya la señal fluorescente. La polimerasa sintetiza una copia del ADN molde teniendo lugar una sucesión de incorporación de nucleótidos que son grabados en tiempo real. La polimerasa tiene la capacidad de desplazar la cadena de ADN mediante RCA (Rolling circle amplification), esta capacidad unida a las librerías circularizadas en las que los tamaños de insertos sean relativamente pequeños, la secuenciación puede realizarse primero en un sentido y después en el antisentido, y en repetidas ocasiones,lo que hace que mejore la precisión de la identificación de bases, ya que la secuenciación en tiempo real tiene altas tasas de error. En tamaños de inserto grandes la precisión disminuye ya que la secuencia es leída menos veces. La principal ventaja de esta tecnología es la obtención de lecturas largas, las cuales son ideales para el ensamblaje de genomas aún por descubrir. Al tratarse de secuenciación en tiempo real, tiene aplicaciones directas importantes como el estudio de modificaciones de bases como pueden ser las metilaciones, basándose en las diferentes cinéticas de la polimerasa al incluir una base modificada.. 26.

(27) Introducción. Oxford nanopore La primera secuenciación mediante un canal de membrana fue descrita en 1996 (27) La técnica del nanoporo no modifica el DNA, ni lo copia, ni utiliza marcadores fluorescentes. Esta técnica permite diferenciar los nucleótidos del DNA haciendo atravesar las moléculas de ácidos nucléicos por unos diminutos poros. Cuando los nucleótidos atraviesan el poro, se produce un cambio de carga eléctrica, específica para cada tipo de base nucleotídica, que pueden ser detectados, registrados y almacenados para posteriormente presentarse en forma de secuencia de nucleótidos. Esta tecnología fue lanzada al público general en mayo del 2015 y requiere de dos proteínas. En un primer paso, una exonucleasa se une a la doble cadena de ADN e introduce primeramente una cadena de ADN en el poro, el cual está formado por la proteína alfa hemolisina y una proteína heptamérica con un diámetro de 1nm. A su vez, el poro presenta en su interior una ciclodextrina que actúa como sitio de unión para los nucleótidos. Durante la fase de unión, el paso por el nanoporo se interrumpe creando una señal característica para cada nucleótido. El rastro de corriente eléctrica proporciona una grabación de la secuencia de nucleótidos a medida que estos van pasando a través del nanoporo. La principal ventaja que presenta este sistema es que ofrece una solución a las limitaciones de la secuenciación de lecturas cortas, permitiendo la secuenciación de moléculas de ADN largas en minutos sin la necesidad de modificar o preparar las muestras.. Secuenciación mediante microscopía. Con los avances en microscopía se pueden crear imágenes con un límite de resolución de 0,1 nanómetros, utilizando esta tecnología ZS Genetics ha conseguido secuenciar largas moléculas de ADN. Todavía no se ha lanzado el producto comercialmente. El ADN normal, no es visible con un microscopio electrónico debido a que solamente presenta elementos con una masa atómica ligera en su composición, para ello utilizan unos dNTPS con átomos con una mayor masa atómica. El ADN de doble cadena debe ser desnaturalizado para convertirlo en ADN de cadena simple. Posteriormente tiene lugar la reacción de polimerización, no amplificación, en la cual los dNTPS usados tienen una masa atómica alta y lo suficientemente distinta como para poder diferenciar cada nucleótido en una imagen de microscopía electrónica. Las cadenas de ADN son alineadas en un sustrato 27.

(28) Introducción mediante DNA combing con el fin de que el microscopio electrónico pueda diferenciar cada base. Las cadenas de ADN son bombardeadas con una fuente de electrones obteniéndose una imagen de claros y oscuros que posteriormente son descifrados por el software informático y traducidos en una secuencia de ADN.. Secuenciación Illumina. El proceso descrito a continuación es el típico de uno de sus modelos, el hiseq y con secuenciación tipo paired end, además requiere de un cBot para amplificar las librerías generadas. Las diferentes librerías son añadidas a cada carril de la célula de flujo para permitir secuenciaciones independientes. La separación de esta celda en carriles y su sellado minimizan el riesgo de contaminación y el manejo de los errores. Los grupos clonales son generados en una estación de cluster de Illumina o en un cBot, este proceso no requiere habitaciones limpias, robótica o hardware adicional. Un requisito indispensable para la secuenciación en estas plataformas es la adición de unas pequeñas secuencias de nucleótidos a cada extremo del ADN que se quiere estudiar, estos oligonucleótidos reciben el nombre de adaptadores, son secuencias diferentes en cada extremo y obedecen al nombre de P5 y P7. Como característica, tienen una secuencia complementaria a los oligonucleótidos presentes en la célula de flujo con los cuales se unirán. Este soporte sólido de sílice sirve para inmovilizar la librería y proceder a su amplificación para generar copias idénticas de la misma, las cuales son necesarias para potenciar la resolución del aparato, ya que necesita que un alto número de copias idénticas sean excitadas al mismo tiempo para que se pueda detectar la señal. Esta amplificación se lleva a cabo mediante una PCR mediada por puente, la cual tiene lugar en un soporte sólido con las librerías inmovilizadas mediante puentes de hidrógeno y en condiciones isotérmicas. En esa matriz sólida, es donde tienen lugar los ciclos de desnaturalización, anillamiento, extensión y lavado. (figura 6) La molécula de ADN anclada actúa como molde para la polimerasa que realiza la etapa de extensión, la nueva molécula creada es complementaria y se encuentra unida a la célula de flujo mediante un enlace covalente, es esta, la que forma el puente con otro punto cercano de la célula de flujo mediante un enlace por puentes de hidrógeno en un extremo mientras conserva su enlace covalente en el otro. En ese punto. 28.

(29) Introducción ocurre otra extensión dando como resultado una molécula igual a la original, pero ahora está unida por un extremo mediante puentes de hidrógeno y por el otro mediante un enlace covalente. La posterior desnaturalización tiene como objetivo eliminar las uniones débiles (puentes de hidrógeno) obteniendo en este caso, dos moléculas complementarias separadas en lugar de una inicial. Repitiendo los ciclos se generan grupos de moléculas o clusters. El ciclo acaba con la liberación de la cadena complementaria para tener solamente un grupo de moléculas de ADN de simple cadena, todas ellas iguales en cada cluster mediante el proceso que Illumina llama linealización del extremo P5. El extremo 3´OH libre es bloqueado para prevenir uniones no específicas, los cebadores de secuenciación son hibridados a los extremos del ADN molde, se transfiere la célula de flujo que contiene los clusters de clonación al secuenciador.. Figura 5 La librería de ADN es diluida a pM, desnaturalizada e introducida en los 8 carriles de la célula de flujo, las secuencias de ADN son capturadas por sus extremos en donde llevan los adaptadores unidos, estos adaptadores se unen covalentemente a los adaptadores anclados en la superficie de la célula de flujo. Los ADN unidos son extendidos desde el extremo 3´ y permanecen unidos covalentemente con el oligonucleótido de la célula de flujo, se produce desnaturalización para obtener ADN de simple cadena, el otro extremo libre híbrida con un oligonucleótido adyacente de la célula de flujo formando puentes en forma de U invertida. Esta molécula de ADN que ha formado el puente es copiada creando de esta manera ADN de doble cadena, ambas cadenas están unidas entre sí por enlaces de hidrógeno y con la célula de flujo por enlaces covalentes. Posteriormente vuelve a ser desnaturalizado, el extremo libre de esas dos moléculas hibrida de nuevo con los oligonucleótidos unidos a la célula de flujo, se forman nuevos puentes y se vuelven a extender. Este proceso de amplificación por puentes isotérmicos es repetido 35 veces para crear un cluster de aproximadamente 2000 moléculas, las cadenas de sentido negativas son liberadas mediante un proceso de escisión específica de los oligonucleótidos de la célula de flujo. https://support.illumina.com/training/onlinecourses/sequencing.html. La terminación de la síntesis del ADN después de la adición de un único nucleótido illumina utiliza unos terminadores reversibles 3´-O-azidomethyl 2´deoxynucleosido trifosfato (A, C, T, G), cada uno marcado. 29.

(30) Introducción con un fluoróforo diferente (28). Para la incorporación de estos nucleótidos la polimerasa debe estar modificada en su centro activo. Después de la incorporación del nucleótido, los restantes que no han sido incorporados son lavados. Es en este momento cuando tiene lugar la captura de la imagen mediante la excitación de los fluoróforos por dos tipos de láser. El láser verde identifica la incorporación de las bases G y T, mientras que el láser rojo identifica la incorporación de las bases A y C, también se utilizan dos diferentes filtros para distinguir entre (G/T) y (A/C), la señal llega a la cámara CCD la cual determina cual es el nucleótido incorporado. Se obtiene una foto de múltiples clústeres a la vez, cada cluster es identificado por una posición X-Y. Después le sigue el paso de la escisión, el cual elimina el grupo inhibidor y el fluoróforo. Antes de empezar un nuevo ciclo de incorporación de nucleótidos tiene lugar un lavado adicional. La extensión sincrónica nucleótido a nucleótido hace que la secuenciación de homopolímeros sea posible, sin embargo, un posible error en la incorporación del nucleótido durante el ciclo de secuencia crea un efecto de desfase, algunas moléculas de ese clúster van más adelantadas deteriorando las señales a través de los ciclos, es por este proceso que Illumina sólo puede secuenciar moléculas pequeñas. El gran éxito de secuenciación de la plataforma Illumina radica en su habilidad para realizar billones de reacciones a la vez, teniendo lugar todas ellas en la célula de flujo. Normalmente, estos secuenciadores cuentan con hasta ocho cámaras distintas que reciben el nombre de líneas, cada línea es independiente pudiéndose secuenciar mezclas de librerías distintas en cada una de ellas sin que exista contaminación entre esas líneas. Debido a que el dispositivo de captura de imagen no puede capturar todos los clústeres presentes en una línea en una simple imagen, se obtienen varias imágenes de múltiples localizaciones de una línea, a estas localizaciones se les llama tiles (figura7). Cada imagen puede tener cientos de miles de clústeres, cada cluster está formado por una molécula que consta de mil copias. La función de estas mil copias de la misma molécula es incrementar el nivel de intensidad de la señal emitida, sería imposible detectar la señal proveniente de una sola secuencia de ADN molde. Sin embargo, la distancia física de las copias de ADN que forman un cluster está por debajo del límite de difracción, permitiendo que la imagen a percibir se corresponda con un solo punto.. 30.

(31) Introducción. Figura 6 Se muestra una célula de flujo de ocho carriles en el que el primer zoon muestra una baldosa (tile) formada por miles de clusteres, en el que cada cluster está formado por la amplificación clonal de una molecula inicial de ADN [122]. Los datos obtenidos por esta secuenciación es una serie de imágenes obtenidas de la emisión de millones de clústeres en una combinación específica de línea, tile, ciclo y fluoróforo. Estas imágenes sirven de entrada al algoritmo de base calling. Una vez que se obtienen las imágenes, es necesario discernir en cada posición que base se corresponde con cada imagen y con qué calidad. Para ello Illumina utiliza un algoritmo en el que es prioritario pasar la imagen a una intensidad utilizando el programa de multiplexing Firecrest, que identifica cada posición del cluster y extrae la intensidad mediante el filtrado de imágenes, realza los clusters, elimina el ruido de fondo y detecta clústeres basados en características morfológicas en la imagen. Firecrest también ajusta la escala y el registro de una imagen. Actualmente, se realiza en tiempo real con el proceso de secuenciación en un servidor dedicado, el cual crea un archivo de intensidades que contienen la posición de cada cluster en línea, tile, X e Y coordenadas junto con una matriz de cuatro intensidades, una por cada base en cada ciclo. Los valores de intensidades muestran una correlación linear con los datos obtenidos con las imágenes generadas. Por otra parte, se utiliza un módulo llamado Bustard para el base calling, que descodifica la señal y aplica una serie de correcciones para el cross-talk, phasing y prephasing.. 31.

(32) Introducción Las plataformas Illumina poseen dos láseres y cuatro filtros para detectar los cuatro fluoróforos distintos anclados a cada nucleótido. Las frecuencias de emisión de estos cuatro fluoróforos se superponen, por lo que las cuatro imágenes generadas no son independientes, Bustard realiza una deconvolución mediante una matriz de frecuencias. En cuanto al fenómeno Phasing/Prephasing, cabe destacar que dependiendo de la eficacia de los fluidos y de la reacción de secuenciación, un número pequeño de moléculas de cada cluster pueden adelantarse al resto (prephasing) o retrasarse del resto (phasing) durante la incorporación de nucleótidos en cada ciclo. Este efecto es mitigado aplicando correcciones basadas en la misma frecuencia de bases durante la fase de base calling. Otros problemas que pueden aparecer en este tipo de secuenciación son aquellos relacionados con el descoloramiento que sufre el fluoróforo, debido a que el proceso de secuenciación puede durar días y el ADN es lavado en exceso. La presencia del láser puede crear especies reactivas y al mismo tiempo, el ADN está sometido a condiciones ambientales adversas. Es por todo ello que la intensidad de la señal fluorescente disminuye con el tiempo. La escisión insuficiente del fluoróforo puede crear una distorsión residual; diferentes tipos de fluoróforos pueden tener diferentes probabilidades de escisión y si un fluoróforo tiene una probabilidad más alta de una mala escisión que los otros puede crear un sesgo de un nucleótido determinado, que aumentará con los ciclos de secuenciación.. Sistemas de enriquecimiento. Debido a que no todos los secuenciadores tienen la capacidad para secuenciar un genoma humano completo, se han creado diferentes sistemas de enriquecimiento que permiten al usuario seleccionar zonas específicas del ADN que son las que después se secuenciarán.. Con los sistemas de enriquecimiento de las zonas de interés, los costes y los esfuerzos se reducen significativamente en comparación con la secuenciación del genoma completo. Existen diversos sistemas de enriquecimiento, cada uno caracterizado por unas cuestiones técnicas y de facilidad de uso propias.. 32.

(33) Introducción Uno de los mayores desafíos de los sistemas de enriquecimiento es el factor de enriquecimiento, relacionado con la especificidad. Este parámetro responde a la relación de las secuencias leídas on/off target y a la profundidad de cobertura, que es el número de veces que se repite una misma base secuenciada, siendo este último aspecto el que sufre más variaciones. Los sistemas de enriquecimiento se pueden clasificar según la naturaleza de la reacción principal (29) (figura 8) ●. Hibridación: cadenas cortas de ácidos nucleicos complementarias a las zonas de interés hibridan con los fragmentos de ADN preparados mediante perdigonada,. Se puede llevar a cabo tanto en solución líquida como en soporte sólido. De esta manera se puede capturar y aislar físicamente las secuencias de interés.. ●. Circularización selectiva: también llamadas sondas de inversión molecular (MIPs) , consisten en sondas circulares que son complementarias a los extremos de las zonas de interés, estas sondas circulares una vez unidas a la región de interés mediante unas reacciones muy específicas son capaces de capturar las secuencias deseadas para posteriormente realizar una amplificación selectiva de las mismas. En este caso la fragmentación del ADN suele realizarse de una manera controlada mediante enzimas de restricción.. ●. Amplificación por PCR: donde la reacción en cadena de la polimerasa es directamente llevada a las regiones de interés, se suelen utilizar múltiples Long-range PCR en paralelo, dependiendo del tamaño que posea la región de interés. Se puede realizar con unas reacciones estándar de PCR multiplex o mediante un gran número de reacciones de PCR que amplifiquen un gran número de reacciones de pequeños fragmentos.. Es necesario una correcta elección del sistema de enriquecimiento debido a las diferentes características de los mismos, así pues, si se necesita una gran cantidad de megabases para analizar por ejemplo un exoma, la aproximación de captura por hibridación sería la mejor opción, aun cuando existan regiones con una captura no óptima. Sin embargo, cuando se quiere estudiar una región pequeña en muchas muestras, el enriquecimiento basado en la PCR puede ser la mejor opción para el análisis de variantes genéticas en la región de interés. Algunos de los principales problemas que pueden aparecer asociados al uso de las diferentes técnicas de enriquecimiento son: 33.

(34) Introducción ●. Los elementos repetidos, tanto los intercalados como las repeticiones en tándem, así como los pseudogenes localizados en las cercanías de la región de interés. La exclusión de los elementos repetitivos enmascarados de la región de interés es una forma eficiente de reducir los productos no deseados.. ●. Valores extremos en el porcentaje de Guaninas y Citosinas (<25% o >65%) tienen un considerable impacto negativo en la eficiencia del enriquecimiento (30), lo que hace difícil enriquecer las zonas 5´UTR/ promotoras y los primeros exones de cada gen. Que normalmente son ricos en contenido G/C (31). Figura 7. Métodos usados en el enriquecimiento de regiones de interés según el tamaño de la región enriquecida, 1 Enriquecimiento basado en hibridación por captura, puede ser en soporte solido (a) como en solución (b). Una librería fragmentada por perdigonada es hibridada contra unas sondas homologas a las secuencias de interés, posteriormente a la hibridación las regiones no homologas a la zona de interés son descartadas mediante lavados con diferentes reactivos. 2 Enriquecimiento mediante MIPs compuesta por una molécula universal (azul) flanqueada por unas regiones diana especificas, la amplificación tiene lugar cuando se circulariza la mólecula y se cierran el circulo mediante una ligasa, los clásicos MIPs hibridan contra ADN fragmentado mecánicamente (a) mientras que otras pueden estar adaptadas a un coctel de enzimas de restricción en el que las MIPs deben ser adaptadas al patrón de restricción enzimática (b).3 Enriquecimiento mediante PCR, típicamente un fragmento por reacción (a) Multiplex PCR (b) o PCR basada en microgotas (c) (modificado de Mertes et al.). Los tres sistemas de enriquecimiento se diferencian en la preparación específica, la hibridación de las sondas específicas utilizadas para la captura, requiere como paso previo la fragmentación del ADN en rangos de 100 a 250 pb. ,El enriquecimiento mediante PCR se realiza directamente sobre el ADN genómico empleando una batería de oligonucleótidos que actúan como cebadores en las regiones de interés; mientras que el enriquecimiento mediante MIPS ofrece la manera más rápida de preparación de. 34.

(35) Introducción las librerías ya que los primers de secuenciación son añadidos a la sonda de circularización, lo que elimina la necesidad de más pasos para la preparación de las librerías. Entre las opciones para preparar una librería mediante hibridación existen dos estrategias distintas: ●. La realización de una mezcla de muestras antes de realizar el enriquecimiento, conocidas en la literatura como pre-captura.. ●. La realización de una mezcla de muestras que se realiza después del enriquecimiento, conocidas como librerías basadas en post-captura.. La principal ventaja de las librerías pre-captura es que se reduce el tiempo de procesado y los costes de los reactivos. Como desventaja, aparece una disminución de la eficiencia de captura (32),(33). Esta disminución puede ser compensada aumentando la cantidad de datos generados, pero siempre hay que tener en cuenta que en este tipo de estrategias alguna muestra puede no funcionar correctamente dando resultados inferiores a los esperados, siendo necesaria su repetición. Por otro lado, las estrategias post-captura en la que cada muestra se trata individualmente hasta su entrada en el secuenciador, tienen el inconveniente de que se requiere un mayor tiempo de procesado para cada muestra. La principal ventaja radica en que la eficiencia de la captura es superior. Otra desventaja importante de las estrategias pre-captura, es que después de la captura se realiza una PCR que puede formar lo que se denomina jumping PCR, causando cierta ambigüedad en las lecturas generadas para cada muestra, esto ocurre en los últimos ciclos de la PCR cuando el ADN molde empieza a funcionar como cebador en la reacción de amplificación, se ha calculado que este fenómeno ocurre con una incidencia del 0,4% (34).. Bioinformática Cuando en 1953 Watson y Crick propusieron el modelo de la doble hélice para explicar la estructura del ADN, no imaginaron el gran volumen de información que de forma exponencial se generaría a partir de ese momento (figura 9). Contrariamente a lo que podría suponerse, las herramientas computacionales comenzaron a aplicarse en la biología molecular mucho antes del comienzo de la era de Internet o de los proyectos de secuenciación del genoma. Hacia 1960, la creciente cantidad de datos referentes a la química de las proteínas llevó a los. 35.

Figure

Figura 6 Se muestra una célula de flujo de ocho carriles en el que el primer zoon muestra una baldosa (tile)  formada por miles de  clusteres, en el que cada cluster está formado por la amplificación clonal de una molecula inicial de ADN [122]
Figura 8. Número de secuencias de genes y genomas encontrados  en GenBank en enero 2017
Figura 10. Comparación entre la recnología de un array CGH y la metodología de NGS para detectar CNVs
Figura 12. Clasificación de las miocardiopatías propuesta por la sociedad europea de cardiología  Miocardiopatía Hipertrófica Familiar
+7

Referencias

Documento similar

You may wish to take a note of your Organisation ID, which, in addition to the organisation name, can be used to search for an organisation you will need to affiliate with when you

Where possible, the EU IG and more specifically the data fields and associated business rules present in Chapter 2 –Data elements for the electronic submission of information

The 'On-boarding of users to Substance, Product, Organisation and Referentials (SPOR) data services' document must be considered the reference guidance, as this document includes the

In medicinal products containing more than one manufactured item (e.g., contraceptive having different strengths and fixed dose combination as part of the same medicinal

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

Package Item (Container) Type : Vial (100000073563) Quantity Operator: equal to (100000000049) Package Item (Container) Quantity : 1 Material : Glass type I (200000003204)