INDICE DE TABLAS Y FIGURAS

(1)

INSTITUTO DE BIOTECNOLOGÍA-UNAM

MÉTODOS FISICOQUÍMICOS EN BIOTECNOLOGÍA:

SECUENCIACIÓN

DE ÁCIDOS NUCLEICOS

PROYECTO DE INVESTIGACIÓN: ROSALIA DE NECOCHEA CAMPION

JUAN CARLOS CANUL TEC

(2)

INDICE

Algunos acontecimientos relevantes al desarrollo de los 3 métodos de secuenciación de los ácidos nucleicos

1.0 INTRODUCCIÓN 5

1.1 Los orígenes de la investigación de los ácidos nucleícos 6 1.2 La identificación de los componentes 7 1.3 El descubrimiento de la estructura del ADN 8

2.0 FUNDAMENTOS TEÓRICOS 11

2.1 Estructura de los ácidos nucleicos 11 2.2 Función biológica de los ácidos nucleicos 12

3.0 DESARROLLO HISTÓRICO 13

3.1 Secuenciación de ácidos nucleicos 13 3.2 El método de degradación química 17 3.2.1 Ventajas y desventajas 19

3.3 El método enzimático 20

3.3.1 Limitaciones del método enzimático 21

4.0 MÉTODOS CONTEMPORÁNEOS EN LA SECUENCIACIÓN 22 4.1 Automatización del método de Sanger 22 4.1.1 La técnica de PCR y su relevancia a la secuenciación 23

4.1.2 Polimerasa Taq 24

4.1.3 Marcado de la cadena de ADN 25 4.1.4 Incorporación del marcaje a la cadena de ADN 26 4.1.5 Secuenciación automatizada 28 4.1.6 El desarrollo de maquinas de secuenciación 29

4.2 Secuenciación de ARN 31

4.2.1 Métodos indirectos 31

4.2.2 Métodos directos 33

4.3 Resumen de enzimas utilizadas en la secuenciación 34

5.0 ESTRATEGIAS Y APLICACIONES DE LA SECUENCIACIÓN DE 35 ÁCIDOS NUCLEICOS

5.1 Proyecto de secuenciación del genoma humano 35 5.2 Estrategias para la secuenciación de fragmentos grandes 37 5.2.1 “Chromosome Walking” 37 5.2.2 “Shotgun Sequencing” 38

5.3 Otras aplicaciones 40

6.0 El FUTURO DE LA SECUENCIACION 41

6.1 Secuenciación por hibridización 41 6.2 Secuenciación a futuro sin fragmentación de ADN 41

(3)

INDICE DE TABLAS Y FIGURAS Figuras

Figura 1. Las bases presentes en los ácidos nucleicos 7

Figura 2. Estructura química de los nucleótidos 8

Figura 3. Estructura de la doble hélice del ADN 11

Figura 4. El método de secuenciación de Maxam y Gilbert 19

Figura 5. Enzimas de restricción 20

Figura 6. El método de secuenciación de Sanger 21

Figura 7. La reacción de PCR 23

Figura 8. Secuenciadora con detección paralela para 96 caplilares 31

Figura 9. La secuenciadora ABI PRISM 3700 32

Figura 10. La estrategia de “chromosome walking” 38

Figura 11. La estrategia de secuenciación “shotgun” 39

Figura 12. Secuenciación por hibridización 41

Tablas

Tabla 1. 22

Descubrimientos significativos que permitieron el desarrollo de métodos automatizados de secuenciación de ácidos nucleicos

Tabla 2. 35

(4)

Algunos acontecimientos relevantes al desarrollo de los métodos de secuenciación de los ácidos nucleícos

1871. Johann Meisher describe el ácido desoxirribonucleico (ADN) en el esperma de la trucha.

1944. Oswald Avery, Colin McLeod y Macyln McCarthy demuestran que el ADN es la substancia en donde reside la información genética.

1950. Erwin Chargaff determina que las cantidades de adenina y timina, y de citosina y guanina, son las mismas en el ADN: “reglas de Chargaff”.

1952. Rosalind Franklin y Maurice Wilkins llevan a cabo estudios de cristalografía de rayos X del ADN.

1953. James Watson y Francis Crick proponen el modelo de la doble hélice del ADN.

1958. Matthew Meselson y Frank Stahl demuestran que la replicación del ADN es semiconservativa.

1960. Arthur Kornberg descubre y aísla la enzima ADN polimerasa.

1961. Marshall Niremberger y Severo Ochoa establecen el código genético universal.

1968. Matthew Meselson y Robert Yuan aíslan la primera endonucleasa de restricción.

1977. Allan Maxam y Walter Gilbert, y Frederick Sanger et al., desarrollan simultáneamente métodos para la determinación de la secuencia de nucleótidos del ADN.

1978. F. Sanger y su equipo reportan la secuencia genómica completa del virus øX174.

1981. Se reporta la secuencia del genoma de la mitocondria humana.

(5)

1986. Leroy Hood y Lloyd Smith desarrollan el primer secuenciador automático, que usa un láser que reconoce marcadores de fluorescencia en el ADN.

1987. Kary Mullis desarrolla la técnica de PCR que permite amplificar millones de veces fragmentos específicos de ADN.

1988. Por iniciativa de Watson, el Instituto Nacional de Salud en EUA, establece la Oficina para la Investigación del Genoma Humano.

1990. Tres grupos desarrollan simultáneamente el método de electroforesis capilar, que optimiza la automatización de los métodos de secuenciación del ADN.

Se inicia el Proyecto del Genoma Humano.

1995. Se reporta la primera secuencia completa del genoma de un organismo vivo, el de la bacteria Haemophilus influenzae.

1996. Se reporta la primera secuencia del genoma de un eucarionte, el de la levadura Saccharomyces cerevisiae.

1998. Se reporta la primera secuencia del genoma de un animal; el de

Caenorhabditis elegans.

1999. Se reporta la secuencia nucleotídica del cromosoma humano 22.

2000. Se reporta la primera secuencia del genoma de una planta, el de

Arabidopsis thaliana.

2001. Se reporta por dos grupos en forma simultánea, la secuencia nucleotídica del genoma humano.

(6)

1.0 INTRODUCCIÓN.

El lento y tortuoso progreso que acompañó los inicios de la investigación de los ácidos nucleicos es representativo de lo limitado de las técnicas y la falta de facilidades en los períodos tempranos de la bioquímica. Las dificultades encontradas por los investigadores fueron muchas. Era difícil asegurar la homogeneidad del material de trabajo. No existían métodos establecidos para el estudio de macromoléculas, y tampoco pautas para el aislamiento de unidades estructurales. Afortunadamente, algunas substancias cercanamente relacionadas fueron sintetizadas por químicos orgánicos en experimentos que usualmente no estaban relacionados con los ácidos nucleicos. Si la investigación de los ácidos nucleicos debe mucho a la química orgánica en su período inicial, el trabajo conjunto de la biología y la química han hecho de la investigación contemporánea de los ácidos nucleicos una rica fuente de descubrimiento e invención que ha transformado y mejorado la condición humana.

En general, los ácidos nucleicos son polímeros lineales de nucleótidos. Pueden tener desde 80 nucleótidos, como en el tARN, hasta más de 108 pares de nucleótidos en un cromosoma eucariótico. El cromosoma de Escherichia coli tiene 4 x 106_{pares de bases, 4Mpb. El ADN genómico de una sola célula}

humana tiene 3,900 Mpb. A un laboratorio de la mitad de la década de los setentas le habría tomado dos meses secuenciar 150 nucleótidos. Actualmente, un laboratorio especializado es capaz de secuenciar varios millones de nucleótidos al día. Desde esta perspectiva, resulta notoria la capacidad de secuenciación de ácidos nucleicos de las tecnologías disponibles actualmente. Y es principalmente, el desarrollo y la automatización de los métodos fisicoquímicos de macromoléculas biológicas, en general, lo que ha permitido lograr estos avances en el conocimiento del material genético.

A finales del siglo pasado, se secuenciaron los primeros genomás, correspondientes a las bacterias Haemophilus Influenzae y Mycobacterium genitalium. Esfuerzos más recientes han permitido la determinación de secuencias genómicas más complejas. El primer eucarionte secuenciado fue

Saccharomyces cerevisiae. Posteriormente se reportaron las secuencias de los genomás de Caenorhabditis elegans, de Drosophila melanogaster y de

(7)

Con la determinación de la secuencia nucleotídica del genoma humano y la de otros organismos nos hemos adentrado en el conocimiento de la célula. Conociendo la secuencia de todos los genes de un organismo, es posible deducir su proteoma. Asimismo, con la información que se tiene, es posible empezar el estudio integral y global de las redes metabólicas y conocer la manera en que una célula regula la expresión genética en diferentes condiciones metabólicas. Sin embargo, este nuevo conocimiento es preliminar. Si bien podemos enlistar todos los genes de una célula, la determinación de las posibles interacciones entre sus productos es una meta a largo plazo todavía. Hay, pues, mucho más que conocer para entender el proceso mismo de la vida.

En este trabajo se expone una breve perspectiva histórica de algunos de los hechos que han repercutido sensiblemente en el avance de las tecnologías para la secuenciación de los ácidos nucleícos. Desde el tortuoso camino que llevo a la elucidación de la estructura de la doble hélice, pasando por los esfuerzos iniciales para desentrañar el lenguaje del ADN (y de la vida) y los esfuerzos más recientes que inauguraron la era de la genómica. Una mirada hacia atrás siempre es importante, no sólo porque ayuda a consolidar los conceptos de una materia en particular, sino también porque se puede aprender de las experiencias de otros. Además, se presentan los fundamentos teóricos y físicos relacionados con la química de los ácidos nucleicos.y su secuenciación. Finalmente, se citan algunas de las aplicaciones que han permitido profundizar en el conocimiento del material genético de las células.

1.1 Los orígenes de la investigación de los ácidos nucleicos.

(8)

quedó en el anaquel del laboratorio. Tuvieron que pasar varias décadas para revelar que, de hecho, era una botella de genes.

1.2 La identificación de los componentes.

Lentamente se fueron llevando a cabo estudios más exactos para la identificación de los componentes de los ácidos nucleicos. La guanina (G) había sido aislada del guano; sin embargo, su relación con los ácidos nucleicos se estableció hasta 1910, al compararla con el nucleósido que Phoebus Levene obtuvo del ácido guanílico. Albrecht Kossel y A. Neumann aislaron la adenina (A) y la timina (T) de la glándula del timo. Ascoli y Steudel descubrieron la citosina (C) y el uracilo (U) (Schlenk, 1988).

La ribosa y la desoxirribosa fueron aisladas por Levene en 1909 y 1930, respectivamente. En ambos casos, el aislamiento de los nucleósidos fue un requisito para proveer el material inicial. La hidrólisis con piridina del ácido nucleico de levadura produjo fosfatos y los nucleósidos adenosina, citosina, guanosina y uridina. Levene determinó que en todos los nucleósidos la pentosa era una ribosa y nombró al ácido original como ácido ribonucleico (ARN). Los nucleósidos fueron identificados como derivados de las bases A, C, G y U (figura 1). En 1929, Levene identificó la desoxirribosa del ácido nucleico aislado del tejido de la pantorrilla, al cual denominó ácido desoxirribonucleico (ADN). Este ácido exhibía una mayor resistencia a la hidrólisis química que el ARN, y consiguió degradarlo con enzimás, seguido de la hidrólisis ácida de sus desoxinucleótidos.

En 1935, se descubrió que el ADN podría ser cortado enzimáticamente en mononucleótidos, en presencia de arsenato. Usando este procedimiento, Klein y Thannhauser obtuvieron los desoxirribonucleótidos y establecieron que cada nucleótido está unido por un enlace fosfodiéster del hidroxilo 5´ al hidroxilo 3´ de su otro vecino (figura 2).

(9)

De manera lenta y errática, las ideas provenientes de diversos campos empezaron a señalar al ADN como un participante de importancia en la vida de la célula. El trabajo de Fred Griffith en 1928 y el de los investigadores Oswald Avery, Colin McLeod y Macyln McCarthy, en 1944, permitió demostrar inequívocamente que la información genética reside en el ADN. Esta contribución dio lugar a que un importante esfuerzo científico se enfocara en la determinación de la composición y la estructura química de la molécula del ADN. Pese a lo anterior, durante algún tiempo muchos bioquímicos insistieron en que el ADN era una molécula demásiado “tonta” como para llevar mucha información; los componentes del ADN parecían muy simples y repetitivos como para ser portadores de información.

Figura 2. Estructura química de los (a) ribonucleótidos y (b) desoxirribonucleótidos , constituyentes de los ácidos nucleicos. En el ARN, el C-1´ de la D-ribosa está unido al N-9 de A o G, o al N-1 de C o U. En el ADN, la 2´-desoxi-D-ribosa está unida de la misma forma a las cuatro bases, pero la T toma el lugar del U (los números con tilde se refieren a los átomos de la pentosa; los números sin tilde se refieren a los de la base nitrogenada). Los grupos fosfato pueden estar unidos al C3´ o al C5´ de la pentosa. Si el grupo fosfato está ausente, el compuesto es un nucleósido. En todos los nucleótidos y nucleósidos naturales, el enlace N-glicosídico que une la base nitrogenada al C1´ del azúcar es de configuración _ (Voet & Voet, 1995).

1.3 El descubrimiento de la estructura del ADN.

A mediados del siglo pasado, los investigadores no pudieron avanzar más en la elucidación de la estructura primaria del ADN. Ninguno de los requerimientos claves para la determinación de la secuencia estaba a la mano: no habían métodos para obtener muestras puras de ADN con una secuencia de bases homogénea, y tampoco estaban disponibles métodos para el corte de cadenas de ADN en una base específica. Consecuentemente, toda la atención se centró en la estructura secundaria.

(10)

sucesores, sin embargo, cada contribución tenía un error. En 1938, William Astbury obtuvo un patrón de difracción de rayos-x de fibras secas de ADN, y dedujo que el espacio de 3.34 Å a lo largo del eje de la fibra correspondía al de una sucesión cercana de nucleótidos planos. Éstos sobresalían perpendicularmente a lo largo del eje de la molécula para formar una estructura relativamente rígida. Algunos años después, J. Gulland estudió la viscosidad y la birrefringencia de flujo del ADN y postuló la presencia de puentes de hidrógeno que unían a los grupos hidroxilo de la piridina y la purina y a algunos de los grupos aminos. Desafortunadamente, utilizó las formás tautoméricas enol para la timina y la guanina. La importancia de las formás tautoméricas correctas (ceto), se reconoció hasta 1953.

Erwin Chargaff estudió la composición del ADN de una amplia variedad de fuentes. Mediante cromatografía en papel separó los productos de la hidrólisis del ADN y con espectroscopia ultravioleta cuantificó sus abundancias relativas. Sus datos mostraron que la proporción de purinas (A+G) siempre es igual a la proporción de pirimidinas (C-T) en el ADN de cualquier organismo. Aunque la proporción (G+C)/(A+T) varía de especie a especie, diferentes tejidos de una sola especie tienen la misma composición de ADN. Cualquier estructura propuesta para el ADN tenía que considerar este patrón (figura 3).

Los patrones de difracción de rayos X realizados por Rosalind Franklin y Maurice Wilkins revelaron que el ADN podía tener dos estructuras secundarias posibles, cuya formación dependía de la humedad relativa a la cual se obtuvieran los datos. La forma A del ADN se obtuvo a baja humedad. En cambio, el patrón del B-ADN prevalece a una humedad elevada. Éste patrón entrecruzado, representativo de las estructuras helicoidales, tiene una fuerte reflexión a 0.34 nm, que indica el espaciamiento entre los pares de bases adyacentes, y una reflexión a 3.4 nm que corresponde a un giro completo de la hélice. Franklin propuso que este comportamiento requería que los grupos fosfatos estuvieran expuestos al agua en el exterior de la hélice, con el corolario de que las bases estuvieran en el interior de la hélice.

(11)

convenció de que la esencia de la cuestión tenía que ser una regla que gobernara los puentes de hidrógeno entre las bases.

Aconsejado por Jerry Donohue, Watson manipuló modelos de las bases, en las formás tautoméricas ceto, apareando la A con la T y la G con la C. Encontró una relación simple y convincente que involucraba dos puentes de hidrógeno para una pareja A·T y tres puentes de hidrógeno para una pareja G·C. La característica especial de este esquema de apareamiento de bases es que la geometría relativa de los enlaces uniendo las bases a las pentosas es virtualmente idéntico para los pares A·T y G·C. Resultó obvio que si una purina siempre se aparea con una pirimidina, entonces una secuencia irregular de bases en una cadena sencilla de ADN podría estar apareada regularmente en el centro de una doble hélice sin pérdida de simetría. Las reglas de Chargaff fueron reveladas directamente como una consecuencia obligatoria de una estructura de doble hélice para el ADN. Sobre todo, ya que la secuencia de bases de una cadena automáticamente determina la de su pareja, Crick y Watson pudieron visualizar fácilmente cómo una cadena sencilla podría ser el templado para la síntesis de una segunda cadena de secuencia de bases complementaria (figura 3).

(12)

Figura 3. Representación esquemática de la estructura de la doble hélice del ADN. En el texto se explica la configuración de la estructura.

2.0 FUNDAMENTOS TEORICOS.

2.1 Estructura de los ácidos nucleicos.

(13)

Al igual que en el ADN, los estudios de la estructura del ARN empezaron con su estructura primaria. Esta búsqueda se logró en paralelo que la del ADN, pero tuvo la complejidad extra del grupo hidroxilo 2´ de los ribonucleótidos. A diferencia del ADN, las moléculas de ARN constan generalmente de cadenas únicas de polinucleótido, debido a que se forman copiando la secuencia de bases de una cadena de ADN. El apareamiento de las bases de Watson-Crick en el ARN es normal, aunque el tARN es una rica fuente de pares de bases inusuales. Hoy se sabe que el ARN tiene una mayor versatilidad estructural que el ADN en la variedad de sus especies, en la diversidad de sus conformaciones, y en su reactividad química. Los ARNs naturales pueden formar estructuras de doble cadena o adoptar una forma globular compuesta por pequeños dominios dobles conectados por segmentos de cadena sencilla. Las dobles hélices del ARN sólo pueden adoptar la forma A, ya que el hidroxilo 2´ de la ribosa constituye un impedimento estérico.

2.2 Función biológica de los ácidos nucleicos.

Las funciones de los ácidos nucleicos son de almacenamiento, expresión y replicación de la información biológica. En términos generales, todas las moléculas de ADN tienen una configuración similar. Sin embargo, el ADN de una determinada especie de organismos tiene una secuencia de bases propia: su estructura primaria está agrupada en unidades funcionales llamadas genes. La información que contiene esta secuencia desempeña diversas funciones. Los genes estructurales codifican para enzimás, proteínas estructurales y proteínas reguladoras. Otros tipos de genes codifican moléculas de ARN que no especifican la estructura primaria de un polipéptido, i.e., tARNs.

El primer paso en la síntesis de proteínas es la síntesis de una molécula de ARN usando como molde un segmento de una de las cadenas del ADN. En la transcripción, el orden de los desoxirribonucleótidos de uno o varios genes se transfiere uno por uno a una secuencia de ribonucleótidos complementaria. Este proceso está mediado por la enzima ARN polimerasa; y al igual que la replicación del ADN, siempre ocurre en la dirección 5' a 3'.

(14)

las de los exones. Esta molécula de ARN se “procesa” para dar lugar al mARN maduro que se exporta del núcleo de la célula al citoplasma, donde luego se traduce en proteína.

La información genética contenida en cada molécula de mARN se traduce en proteínas a través de un proceso enzimático que se realiza en los ribosomás. En la traducción participan principalmente tres tipos distintos de ARN: el ARN ribosomal (rARN), que junto con varias proteínas forman los ribosomás; el ARN mensajero (mARN), que acarrea la información genética contenida en genes específicos del ADN y los ARNs de transferencia (tARN), que sirven como adaptadores específicos para cada aminoácido durante el ordenamiento lineal de éstos en la síntesis de proteínas, conforme la secuencia del mARN.

La síntesis de proteínas, que de facto es la traducción de la secuencia de nucleótidos presentes en el mARN, se lleva a cabo mediante la polimerización de aminoácidos en proteínas, a nivel de los ribosomás en dirección 5' a 3'. La secuencia del mARN realiza la codificación en forma de tripletes de bases (codones) de acuerdo con el código genético, incorporando en cada paso de lectura un aminoácido de la proteína. Cada tARN tiene una secuencia complementaria o anticodón para el codón del aminoácido, que le permite reconocer el codón correcto sobre el mARN.

3.0 DESARROLLO HISTORICO

3.1 Secuenciación de ácidos nucleicos.

(15)

La estrategia básica de la secuenciación de ácidos nucleicos es idéntica a la que se utiliza en la secuenciación de proteínas. Ésta involucra:

1.- La degradación específica y el fraccionamiento de los polinucleótidos de interés a fragmentos suficientemente pequeños para ser secuenciados.

2.- La secuenciación de los fragmentos pequeños.

3.- El ordenamiento de los fragmentos a través de la repetición de los pasos anteriores, usando un procedimiento de degradación que produce una serie de fragmentos de polinucleótidos que traslapan el punto de corte en la primera serie.

El primer ácido nucleico en ser secuenciado fue el tARNAla_{de levadura.}

La secuencia de este nucleótido de 76 bases fue realizada por Holley y colaboradores en siete años (Stewart y Letham, 1977). Ellos usaron métodos de secuenciación similares a los que se usaban para secuenciar proteínas; la hidrólisis parcial con enzimás y el fraccionamiento de los productos en columnas de intercambio iónico. El grupo de Holley introdujo el uso de la ribonucleasa T1 (de Aspergillus oryzae), la cual corta ARN después de residuos

de guanina y de la ribonucleasa pancreática A, que corta después de residuos pirimídinicos.

Poco después, Frederick Sanger y sus colaboradores dirigieron sus esfuerzos para desarrollar técnicas de fraccionamiento más rápidas y simples, las cuales permitieron la secuenciación de ARN y luego de ADN. El grupo de Sanger marcó el ARN con 32P, y pudo detectarlo mediante autoradiografías. Además, introdujeron un método más sencillo para fraccionar los oligonucleótidos. Una técnica de separación bidimensional, con electroforesis en acetato de celulosa, seguido de la electroforesis de intercambio iónico en papel. Siguiendo este enfoque general, el grupo de Sanger desarrollo varios métodos para estudiar los nucleótidos aislados (Sanger, 1988).

Uno de los métodos consistía en someter a los oligonucleótidos digeridos con la ribonucleasa T1, a una digestión parcial con una exonucleasa

(16)

desarrolló un sistema bidimensional en el que primero se digería con una exonucleasa y los fragmentos obtenidos se ordenaban de acuerdo a su tamaño, de tal manera que cada punto difería del punto siguiente por un nucleótido. El sistema fue arreglado para que las posiciones relativas de dos puntos vecinos dependieran de los nucleótidos por los cuales diferían. El método fue extendido para usarse con digestiones más complejas, pero no fue posible distinguir la A de la G con absoluta certidumbre. Con estos métodos, se secuenció el ARN ribosomal 5S de 120 residuos (Sanger, 1988). El arte de secuenciar ARN por estás técnicas alcanzó su cenit en 1976, con la secuenciación del genoma de 3,569 nucleótidos del bacteriofago MS2 por Walter Fiers.

El principal problema con la secuenciación del ADN era su talla muy larga; el ADN más pequeño que se encontraba disponible era el de genomas de bacteriófagos de cadena simple, de cerca de 5000 nucleótidos, como el øX174. Y éstos eran muy largos para poder secuenciarlos con los métodos que existían hasta ese momento. Otra dificultad era la falta de enzimas de restricción adecuadas. No existía una enzima con una especificidad análoga a la de la ribonucleasa T1 para el ADN.

Alrededor de 1973, se usaron técnicas similares a las empleadas con el ARN para secuenciar ADN, y se pudieron determinar unas pocas secuencias de unos 50 residuos. Sin embargo, los métodos eran lentos y laboriosos, y resultó obvio que si se iban a atacar secuencias vastas de materiales genéticos, se necesitaba un nuevo enfoque. Una alternativa a la hidrólisis parcial fue usar técnicas de copiado enzimático para la secuenciación. C. Weissmann y sus colaboradores descubrieron que el bacteriófago Q_ tiene una ARN polimerasa que copia su propio ARN y desarrollaron técnicas para marcar el ARN y deducir su secuencia. La enzima obvia para copiar el ADN fue la ADN polimerasa.

(17)

preparar una digestión específica en C y otras digestiones similares para escindir los otros residuos.

Por otra parte, la ADN polimerasa requiere un ADN de cadena sencilla como templado y un iniciador o “primer”. Éste es un oligonucleótido que contiene un extremo 3´ libre que es complementario con una cadena molde de ADN y funciona como punto de inicio para la adición de nucleótidos. Sanger y su grupo utilizaron como templado el ADN de cadena sencilla del bacteriófago f1 y sintetizaron el iniciador con base en el método desarrollado por Khorana. Como iniciador usaron un desoxirribonucleótido con una secuencia predicha a partir de la secuencia de aminoácidos, ya conocida, de una proteína de la superficie del bacteriófago. Con este método, pudieron determinar la secuencia de 80 nucleótidos. Sin embargo, para poder sintetizar otros 80 residuos, necesitaban hacer otro iniciador. Este procedimiento era todavía lento para analizar muchos fragmentos.

(18)

Después de 1975, se realizó un progreso dramático en la tecnología de la secuenciación de los ácidos nucleicos. Tres avances hicieron esto posible:

1.- El descubrimiento de las endonucleasas de restricción, enzimás que cortan ADN de cadena doble en secuencias específicas.

2.- El desarrollo de mejores técnicas de secuenciación de ADN.

3.- El desarrollo de técnicas de clonación que permitieron la adquisición de un segmento de ADN en las cantidades necesarias para secuenciarlo.

En 1977, se reportaron dos protocolos para la secuenciación de ADN. El primer método fue el de Maxam y Gilbert. Con este método, al igual que con el de Sanger, se obtiene una autoradiografía en donde puede leerse una secuencia. Sin embargo, se determina la secuencia de una molécula de ADN utilizando químicos que cortan en posiciones específicas fragmentos marcados en sus extremos 5´. El segundo método es el de Sanger. Éste utiliza un templado de ADN de cadena sencilla para sintetizar la hebra complementaria, la cual se termina en posiciones específicas. En los dos casos, la secuencia de la molécula se determina por diferencias en los tamaños de los fragmentos generados.

3.2 El método de degradación química (Maxam and Gilbert, 1977).

En este método, un fragmento de ADN de cadena doble o sencilla se marca en los extremos 5´ o 3´ de una o ambas hebras con 32_{P. Después,}

la muestra de ADN se divide en cuatro alícuotas y se fragmenta en cuatro reacciones químicas distintas. Posteriormente, los fragmentos de ADN generados pueden ser separados por electroforesis en cuatro carriles distintos con base en su tamaño. Conociendo el nucleótido en el que se realizaron los cortes, se puede inferir la secuencia de la molécula original (figura 4). Las reacciones químicas que se utilizan para fragmentar la molécula de ADN son las siguientes:

(19)

generadas, se puede comparar contra un tratamiento que favorezca el corte de las adeninas.

2. Corte de adeninas. Esta reacción es una variación de la anterior. Las purinas metiladas se tratan inicialmente con un ácido diluido. Esto favorece el corte de las adeninas metiladas. Después de un tratamiento alcalino las guaninas también son cortadas. Este tratamiento genera una serie de bandas oscuras y claras que también corresponden a las adeninas, y las guaninas, respectivamente.

3. Corte de pirimidinas. Esta reacción utiliza el reactivo hidracina, que corta las bases citosina y timina. Posteriormente, se trata con piperidina para completar la reacción.

4. Corte de citosina. La presencia de NaCl 2M inhibe la reacción de hidracina con tiamina, y el tratamiento posterior con piperidina, produce solamente fragmentos que terminan en citosina.

(20)

1 2 3 4

Figura 4. El método de Maxam y Gilbert para secuenciar ADN. Los números de los carriles en el gel corresponden a los distintos tipos de corte que se describen en el texto.

3.2.1 Ventajas y desventajas del método de degradación química.

La baja resolución obtenida cuando se reportó la técnica no se debió a un factor inherente al método de Maxam-Gilbert, si no a una limitante de los geles de acrilamida. En un inicio, se consideraba un logro poder diferenciar el tamaño de 250 fragmentos y determinar la secuencia de ese tamaño. El análisis de una secuencia en geles de acrilamida era complicado, ya que no se podía separar los fragmentos grandes. Otro problema que comúnmente afecta la resolución de las bandas obtenidas en el gel es el ensanchamiento de bandas cuyas secuencias favorecen la formación de estructuras secundarias. Para mejorar la resolución del gel se ha reportado que el uso de geles de acrilamida muy delgados, en conjunto con un voltaje alto de corrimiento, produce bandas más delgadas y mejor separadas (Sanger y Coulson, 1978).

(21)

etiquetados para el análisis. Alternativamente, las dos hebras marcadas pueden ser desnaturalizadas y separadas en un gel (Maxam y Gilbert, 1977).

Hoy en día, el método más usado para la secuenciación de ácidos nucleicos es el método de Sanger. Sin embargo, es justo decir que el método de Maxam-Gilbert es el más adecuado para determinar la secuencia de fragmentos cortos de ADN, debido a que puede determinar la secuencia desde la primera base. En cambio, el método de Sanger sólo permite la lectura a partir de la base 10-20 (Tahara et al., 1990).

Figura 5. Las enzimás de restricción reconocen secuencias específicas de ADN y pueden ser utilizadas para separar las hebras etiquetadas antes de secuenciar por el método de Maxam-Gilbert.

3.3 El método enzimático (Sanger et al., 1977).

El método de secuenciación enzimático salió casi al mismo tiempo que el de Maxam y Gilbert, pero ha sido más utilizado. Esto se debe, en gran parte, a que se han realizado grandes avances en la automatización de esta técnica, lo cual se discutirá más adelante. El método de Sanger se basa en el uso de la ADN polimerasa para sintetizar cadenas de ADN con una terminación específica. Con este método se generan fragmentos de ADN de todos los tamaños posibles que se puedan distinguir entre sí, por el tipo de marcaje que llevan o por la incorporación de un terminador específico. Las enzimás del tipo de la ADN polimerasa requieren de un templado de ADN de cadena sencilla, y realizan la síntesis de la hebra complementaria extendiéndola a partir de un iniciador en dirección 5’ a 3’. Entre los componentes de la reacción se incluyen nucleótidos que no tienen un grupo hidroxilo en su extremo 3’ (ddNTP), para poder obtener una terminación especifica en las cadenas. Una vez que el ddNTP se incorpora como el residuo terminal, evita que la cadena de ADN sintetizada continúe extendiéndose. La incorporación de los ddNTPs es al azar, de tal forma que se obtienen fragmentos de todos los tamaños posibles que terminan en un residuo especifico.

(22)

terminador (ddNTP), se pueden generar fragmentos complementarios de diferentes tamaños que terminan en el mismo nucleótido. Después, estos fragmentos se pueden separar en un gel de electroforesis con cuatro carriles distintos, para determinar la secuencia del templado (figura 6).

Figura 6. El método de Sanger. Cuatro reacciones con ddNTPs diferentes permiten la síntesis de distintos fragmentos con una terminación específica. Estos fragmentos se pueden separar por electroforesis y comparando los tamaños, se puede determinar la secuencia del templado.

El método de Sanger tiene varias ventajas sobre el método de Maxam-Gilbert (Blackburn y Gait, 1996). Las reacciones de secuenciación del método enzimático se pueden realizar en unas horas, en cambio las del método de Maxam-Gilbert tardan al menos un día. Las reacciones del método de Sanger son más “puras”, con menos contaminantes que puedan afectar la resolución del gel.

3.3.1 Limitaciones del método enzimático.

(23)

de Sanger reportó que con esta técnica se podía determinar una secuencia de hasta 300 nucleótidos, a partir de 15 bases del iniciador, aproximadamente. Al momento de publicar esta técnica, también reportaron que la mayor dificultad era que los ddGTPs no estaban disponibles comercialmente. Desde entonces se ha experimentado con variaciones del protocolo original y se han realizado grandes avances en la automatización de este método. En la tabla 1 se resumen algunos de los avances más importantes que han permitido el desarrollo de métodos automatizados para la secuenciación de ADN.

4.0 MÉTODOS CONTEMPORÁNEOS EN LA SECUENCIACIÓN

4.1 Automatización del método de Sanger

En la tabla 1 se resumen algunos de los avances mas importantes que han permitido el desarrollo de métodos automatizados para la secuenciación de ADN (usando el método de Sanger).

Tabla 1. Descubrimientos significativos que permitieron el desarrollo de los métodos automatizados de secuenciación de ácidos nucleicos.

Avance Descripción Referencia

Reacción en cadena de la polimerasa

(PCR)

Técnica que permite la amplificación exponencial de un fragmento de ADN

Mullis, 1990

Polimerasa Taq Polimerasa termoestable que puede utilizarse en el PCR

Innis et al., 1988; Carballeira et al.,

1990 Marcaje del

ADN El marcaje y el tipo de detección utilizadopara identificar los fragmentos de ADN sintetizados

Prober et al., 1987; Igloi, 1998

Secuenciadores automatizados

Desarrollo de máquinas automatizadas con la capacidad determinar la secuencia de miles de pares de bases por día

Hunkapiller, et al., 1991; Lipshutz y

(24)

4.1.1 La técnica de PCR y su relevancia en la secuenciación de ADN.

En 1985, el químico Kary Mullis desarrolló la técnica de la reacción en cadena de la polimerasa (PCR). Este método permite la amplificación exponencial de una molécula de ADN, generando millones de copias de un fragmento. Esto se lleva acabo con oligonucleótidos que contienen un grupo extremo 3´ libre, que es complementario con la cadena molde de ADN. Los “oligos” funcionan como punto de inicio para la adición de nucleótidos y para copiar la cadena molde en el PCR. Una vez que el oligonucleótido se une a su blanco, la polimerasa de ADN puede seguir extendiendo la hebra complementaria. En una reacción típica de PCR se usan dos oligonucleótidos que flanquean la región de ADN que se desea amplificar. El número de copias del fragmento de ADN que se encuentra entre los dos oligonucleotidos se amplifica con varios ciclos de reacción.

Cada ciclo de una reacción de PCR consta de tres pasos (figura 7):

1) Desnaturalización de las hebras de ADN- El templado es el fragmento de ADN que se desea amplificar, junto con la región que reconocen los oligonucleótidos. Para que el oligonucleótido se pueda unir, es necesario que el templado sea de cadena sencilla. Así que este paso del PCR es para separar las cadenas de ADN, si el templado es de doble cadena. Además, en este paso se deshace cualquier tipo de estructura secundaria formada entre los segmentos complementarios de los oligonucleótidos y que pudiera interferir con su habilidad de unirse al t e m p l a d o . T í p i c a m e n t e , l a desnaturalización del ADN se hace con una incubación breve del tubo de reacción a una temperatura de 94 ºC.

2) Temperatura de alineamiento - Esta temperatura se calcula con base en las características de los oligos que serán utilizados. La temperatura a la cual la mitad de los oligos están unidos a su blanco (Tm), se calcula tomando en cuenta el tamaño de los oligos y su contenido de GC (%GC). Después de

(25)

desnaturalizar las hebras de ADN, se incuba a una temperatura cercana a la Tm, para que los oligos puedan encontrar su región complementaria en el templado. y se unan a ella.

3).Extensión de la cadena de ADN - Este es el último paso de un ciclo de reacción de PCR y normalmente se hace a 72 ºC, la temperatura óptima para la polimerasa de ADN. En este paso, la polimerasa extiende la cadena complementaria del templado. La síntesis de la cadena complementaria tiene como punto de inicio el complejo oligonucleótido/templado. El tiempo de incubación de este paso depende del tamaño del segmento que se desea amplificar. Como regla general se considera que la polimerasa puede sintetizar 1,000 bases por minuto. En la reacción de PCR, típicamente, se llevan acabo de 30 a 40 ciclos de estos tres pasos, para lograr la amplificación deseada.

La técnica de PCR resultó relevante para la secuenciación de ácidos nucleicos debido a que se adaptó al método de Sanger, de tal forma que se puede sintetizar un mayor número de copias de los fragmentos con una terminación específica. De esta forma, la señal del marcaje que lleva cada fragmento aumenta, y es posible obtener lecturas más claras de los fragmentos grandes, lo que a su vez, permite la lectura de secuencias más largas, una vez que se pueda superar el problema de la resolución de los geles.

4.1.2 Polimerasa Taq.

(26)

El uso de la Klenow para generar fragmentos de ADN en las reacciones de PCR y para síntetizarlo en la secuenciación de ácidos nucleicos se fue reemplazando con otras polimerasas más estables, aisladas de organismos termófilos. Una de las polimerasas más conocidas, fue aislada de Thermus aquaticus, y se le dio el nombre de Taq (Innis et al., 1988). Dedido a que esta enzima es resistente a altas temperaturas, fue posible automatizar la reacción de PCR, sin necesidad de añadir enzima nueva en cada ciclo de reacción. La temperatura de extensión de las cadenas de ADN se realiza a 72 ºC, en lugar de 37 ºC. Al hacer el alineamiento de los oligos a una temperatura más elevada, se obtiene una mayor especificidad y homogeneidad en los fragmentos generados para la reacción.

Las polimerasas termoestables que se caracterizaron a finales de los 80s contribuyeron a optimizar el método de Sanger para secuenciar ácidos nucleicos. En ese tiempo, se reportó la purificación de polimerasas que podían sintetizar hasta 1500 bases de ADN por minuto, y que mantenían su actividad en un intervalo amplio de temperaturas elevadas (70-80 ºC) (Carballeira et al., 1990). Con estas enzimás, por fin fue posible obtener fragmentos uniformes de ADN de hasta 1000 bases y se pudo determinar una secuencia de este tamaño (Innis et al., 1988).

4.1.3 Marcado de la cadena de ADN.

Se han explorado distintas maneras de marcar la cadena de ácidos nucleicos sintetizados para la secuenciación de ácidos nucleicos por el método de Sanger. Originalmente, se utilizaron nucleótidos marcados con 32_{P en la}

(27)

Existen muchas diferentes etiquetas para los fragmentos de ADN. Las moléculas fluorescentes tienen varias propiedades que se adaptaron con cierta facilidad hacia el desarrollo de métodos automatizados para la secuenciación de ácidos nucleicos, y las limitaciones en su uso se han ido resolviendo. Por ejemplo, se observó que una inconsistencia en la intensidad de la señal de los distintos fragmentos, podía complicar la interpretación de la información que se obtenía del detector (Bennett, 2003). Experimentando con distintos fluoróforos, se han encontrado algunos que dan una señal constante y que se pueden distinguir entre si con mayor facilidad (Rosenblum et al., 1997). También, se observó que la modificación de los dideoxynucleótidos (ddNTPs) con algún componente fluorescente, puede causar que la migración del fragmento de ADN en un gel de acrilamida sea un poco distinta, y causar dificultad en la interpretación de la secuencia. Prober et al. (1987) encontraron que era posible usar cuatro etiquetas fluorescentes de la misma familia y que estaban estructuralmente relacionados, pero con distintos rangos de absorción. La similitud de estructura provoca que la influencia sobre la migración de los distintos fragmentos sea mínima y facilita la interpretación de la secuencia.

Además, se ha intentado variar la proporción de nucleótidos que están en la mezcla de reacción. Ansorge et al. (1990) encontraron que la polimerasa T7 tiene preferencia por algunos nucleótidos. Observaron que si se usa una proporción equimolar de cada ddNTP, marcado con una molécula fluorescente, la magnitud de la señal que se obtiene es distinta, y se incrementa en el orden A<G<C<T. Para compensar esta preferencia natural, se varió la proporción de los ddNTPs en la mezcla de reacción (2:2:1:0.5 = T:C:G:A) y así la intensidad de la señal obtenida de las bandas fue constante).

Otro problema, fue la afinidad de las polimerasas por los terminadores ddNTPs. Tabor y Richardson (1995) identificaron el residuo crítico que discriminaba entre dNTPs y ddNTPs en el sitio activo de la polimerasa Taq y mediante ingeniería de proteínas reemplazaron este aminoácido. El resultado fue una polimerasa intrínsicamente termoestable con 8,000 veces más afinidad por los ddNTPs.

4.1.4 Incorporación del marcaje a la cadena de ADN.

Independientemente del tipo de marcaje utilizado, existen distintas formás de incorporar el marcaje a los fragmentos de ADN generados en una reacción de síntesis. Se han explorado tres formás distintas de incorporación:

(28)

ADN y no existen muchas posibilidades de que el marcaje interfiera con el proceso enzimático de la síntesis. Sin embargo, en la práctica esta región ha sido difícil de modificar enzimáticamente porque es muy inerte. Kempe et al. (1985) reportaron que después de una incubación de 96 horas con ARN ligasa, sólo pudieron modificar 20% del iniciador en el extremo 5’ con un marcador de biotina.

2. Marcaje incorporado en la cadena- Se pueden incorporar nucleótidos marcados a la cadena de ADN durante su síntesis, tal como lo hicieron Sanger

et al.(1997). Es importante que el marcaje no interfiera con la actividad de la polimerasa que incorpora los nucleótidos a la cadena. Igloi (1998) reportó que sólo dos de las polimerasas termoestables, utilizadas comúnmente en la secuenciación, aceptan dNTPs fluorescentes como sustratos. A pesar de que el marcaje de ADN fue el primero en reportarse, no se ha utilizado tan ampliamente porque no tiene ventajas claras sobre los otros métodos.

(29)

4.1.5 Secuenciación automatizada

Los hallazgos de la década de los 80s (mejores polimerasas, PCR, marcas fluorescentes) contribuyeron al desarrollo de máquinas automatizadas capaces de determinar miles de bases de secuencia por día. Las primeras máquinas de secuenciación salieron a finales de los 80s. En 1986, Smith et al. reportaron una técnica de secuenciación automatizada, basada en la terminación específica con cuatro diferentes fluoróforos. La mezcla de síntesis se cargaba en un solo carril de gel, en tubo, y se usaba un detector óptico para determinar la absorción de cada banda, casi al final del tubo. Esta información pasaba directamente a una computadora y permitía obtener información precisa de hasta 200 pares de bases (pb) de la secuencia. Sin embargo, habían varias áreas que podían ser optimizadas para aumentar la longitud de la secuencia obtenida: (1) el tamaño, diámetro y composición del gel electroforético, (2) los reactivos para la reacción de secuenciación, (3) las condiciones de electroforesis, (4) equipo óptico/electrónico de detección, (5) los marcadores fluorescentes (Smith et al., 1986).

Posteriormente, se experimentó con el uso de una máquina que tenía un detector óptico capaz de leer la información de cuatro carriles (Ansorge et al., 1987). En este caso, se reportó que era posible obtener información precisa de más de 400 pb, usando solo un marcador fluorescente y separando las cuatro reacciones. Sin embargo, se reportó que a pesar de las aparentes ventajas del uso de marcadores distintos y un carril de detección, era mejor separar las reacciones para que los resultados no se vieran afectados por las diferencias (causantes de variación en la migración electroforética) o similitudes (espectros de absorción traslapados) entre los marcadores (Ansorge et al, 1987).

Ansorge et al. (1988) reportaron el primer protocolo que usaba marcadores fluorescentes en lugar de isótopos radioactivos para el método de secuenciación de Maxam-Gilbert. Utilizaron un marcador que no interfería con la degradación de la molécula de ADN y lograron secuenciar 50 oligonucleótidos de 20 bases cada uno, en un sólo gel. En este reporte, los autores demuestran que también es factible automatizar el método de Maxam-Gilbert usando fluoróforos. Sin embargo, en los años siguientes no hubo muchos avances en esta área, ya que el desarrollo de las técnicas automatizadas de secuenciación se enfocó principalmente en mejorar el método de Sanger.

(30)

(Zimmmerman et al., 1994). Esto fue un gran hallazgo, porque a pesar de los avances en la automatización de la secuenciación la información que se obtenía después de unas 400 bases de secuencia era difícil de interpretar y susceptible a error. La excepción eran reacciones de secuenciación utilizando la polimerasa T7, con la cual era posible obtener hasta 700 bases de secuencia con 99% de precisión, pero esta tenia la desventaja de no ser termoestable (Ansorge et al., 1990; Church et al., 1994).

4.1.6 El desarrollo de máquinas de secuenciación

Después de que Smith et al. (1986) reportaron el uso de la primera máquina automatizada que usaba un detector óptico para obtener la información de secuenciación (la cual pasaba directamente a una computadora). Se empezó a experimentar con otros equipos y variaciones de la técnica de secuenciación con el objetivo de mejorar el rendimiento con estas máquinas.

a) Secuenciadoras basadas en geles tipo “slab”--Estas secuenciadoras usan un gel vertical para separar los fragmentos generados durante la reacción de secuenciación y tienen distintos sistemas de detección para leer el orden de los marcadores fluorescentes. Meldrum (2000) hace una comparación de algunas propiedades de las máquinas comerciales más comunes que salieron en los 1990s:

ABI PRISM 377 _ Esta secuenciadora salió a finales de los 80s. Se basaba en el uso de un carril para detectar cuatro marcadores fluorescentes distintos. Usa una cámara CCD y es capaz de leer hasta 200 bases por muestra por hora. Se pueden cargar hasta 96 muestras en un solo gel y éstos se detectan simultáneamente.

ASTRAL _ Esta máquina usa un láser de Argón para iluminar las muestras lateralmente. Puede detectar más de cuatro marcadores distintos por muestra y es capaz de acomodar hasta 96 muestras por gel. En un experimento típico se pueden obtener 300 bases de secuencia por muestra en un tiempo de 7-8 hrs.

(31)

Había mucho interés en reducir el tiempo requerido para obtener los datos de secuenciación, dado que esto era uno de los pasos limitantes para completar proyectos de secuenciación. La compañía MJ Research, Inc. introdujo una máquina en 1998 que llamaron el sistema “HUGE”. Ésta se basaba en el uso de un gel horizontal de poliacrilamida ultra-delgado (75 µm); Tenía 96 carriles y podía leer 450 bases por carril en 90 minutos (Meldrum, 2000) . Este aparato se superó en 1999, cuando se introdujo el secuenciador “Clipper”, desarrollado por la compañía Visible Genetics, Inc. Éste era capaz de secuenciar 400 bases en 30 minutos en un gel de poliacrilamida con un grosor de 50 µm, o 1000 bases en menos de cuatro horas (Yager et al., 1999).

b) Secuenciadoras basadas en electroforesis capilar- El segundo tipo de secuenciadoras automáticas se basaba en un sistema capilar para hacer la separación de los fragmentos de distinto tamaños. Los capilares se caracterizan por tener un diámetro pequeño (≈200 µm) y permiten hacer una separación rápida de alta resolución sin calentar la muestra (Huang y Mathies, 1994). Por mucho tiempo, esta técnica de separación se vio limitada por el problema de cómo detectar múltiples capilares sin tener que usar múltiples detectores. Por lo tanto, a pesar del beneficio de que la separación capilar es muy rápida (1-2 horas con excelente resolución), no podía competir con las secuenciadoras que separaban las muestras en un gel tipo “slab” (Huang y Mathies, 1994; Behr et al., 1999). En 1994, Huang y Mathies reportaron el uso de un aparato con un sistema de detección paralelo de dos fluoróforos que podía leer la información de 25 capilares simultáneamente. Esta máquina era aproximadamente 10 veces más rápida que las secuenciadoras típicas de geles tipo “slab”. Pronto empezaron a salir otras secuenciadoras automáticas que usaban separación por electroforesis capilar, con sistemas de detección paralelos (figura 8) para multiples capilares, por ejemplo:

CEQ 2000 (Evans, 2000) _ Esta secuenciadora tiene ocho capilares con un detector de cuatro colores. Los pasos para preparar el gel, i.e., la desnaturalización de la muestra y la carga, son automatizadas. Este sistema es capaz de determinar 500 bases de secuencia de cada capilar en 2 horas, o leer hasta 96 muestras automáticamente en un día.

(32)

Figura 8. Esta secuenciadora tiene un detector paralelo capaz de leer la información de 96 capilares simultáneamente. Luz de un láser de Argón se guía por una fibra óptica (Fi) hasta el generador (PI) que distribuye la luz de forma uniforme por todos los capilares.

MegaBACE 1000 _ Esta máquina también tiene 96 capilares y es posible obtener secuencias hasta de 800 pares de bases por corrida (Meldrum, 2000)

(33)

Figura 9. La secuenciadora ABI PRISM 3700. Es el aparato que actualmente se tiene en el IBt-UNAM. Hay una segunda máquina en el Centro de Investigación sobre Fijación de Nitrogeno (CIFN-UNAM). Puede correr 768 reacciones de secuencia sin atención técnica en 36 horas. La longitud de las lecturas obtenidas es de un promedio de 600-700 bases” (kinish.cifn.unam.mx/~retligen/infrastructura.htm).

4.2 Secuenciación de ARN

Paralelo al desarrollo de los métodos de secuenciación de ADN, también se reportaron avances en la secuenciación de ARN. Desde que Holley secuenció un tARN para Alanina en 1965, se han desarrollado métodos de secuenciación de ARN similares a los utilizados para secuenciar ADN (Blackburn y Gait, 1996). Básicamente, los métodos de secuenciación de ARN se dividen en 2 categorías.

4.2.1 Métodos indirectos

(34)

4.2.2Métodos directos

Estos métodos se utilizan para secuenciar la molécula de ARN cuando es complicado utilizar el método indirecto (Igloi, 1998). Esto suele suceder con ARNs muy pequeños, o con estructuras secundarias extensas (ribosomales, transferencia). Todas estas técnicas requieren de que el ARN este en forma pura.

a) Método enzimático-- En los primeros reportes se experimentó con una forma enzimática para secuenciar ARN directamente. En este caso, los autores Brownlee y Cartwright (1977) reportaron los resultados de la secuenciación de una molécula de mARN de casi 200 pb. Utilizaron un iniciador marcado con 32P y la transcriptasa reversa. Usando reacciones similares a las del método de Sanger, los autores generaron fragmentos de cADN con una terminación específica dada por ddNTPs. Después, resolvieron el orden de los fragmentos de ADN generados en un gel de acrilamida. Se ha visto que la concentración del ARN templado influye mucho en la resolución del gel. Los autores Carpenter y Simon (1990) reportaron que cuanto mayor era la cantidad de ARN viral usado como templado, menor era la resolución obtenida en el gel de acrilamida debido a que las bandas eran anchas, complicando la interpretación del orden. Ellos obtuvieron la mejor resolución utilizando 0.4 µg (0.75 pmol) de ARN como templado. En una reacción de secuenciación de rARN, Bakin y Ofengand (1992) obtuvieron la mejor resolución empleando 10 veces menos ARN, es decir, solamente 0.13 pmol.

(35)

b) Método químico-- En 1977 se presentó un método de ruptura química del ARN similar al de Maxam y Gilbert (Donis-Keller et al., 1977). La molécula de ARN (en este caso ARN ribosomal) se marca con una molécula de 32P en un extremo. Después se utilizaron nucleasas para hacer digestiones de la molécula de ARN marcado en distintos lugares. La RNAsa T1 corta las guaninas, la RNAsa U2 corta las

adeninas y una hidrólisis alcalina rompe todos los enlaces fosfodiéster (Donis-Keller et al., 1977). Se utiliza un gel de acrilamida para separar los fragmentos de estos tres tipos de ruptura, lo que permite determinar el orden de las guaninas, adeninas y pirimidinas de una molécula de ARN ribosomal.

A diferencia del método enzimático, en el que se puede usar un iniciador marcado para generar los fragmentos que serán secuenciados, el método químico requiere que la molécula de ARN sea marcada directamente. Esto se puede hacer introduciendo una marca de 32P en el extremo 5’ de la molécula con una cinasa T4, o en el extremo 3’ con una ligasa T4 (Blackburn and Gait, 1996).

4.3 Resumen de enzimas usadas en la secuenciación de ácidos nucleicos.

(36)

Tabla 2- Algunas de las enzimas que han tenido un papel importante en el desarrollo de los métodos de secuenciación

Enzima Función Referencia

Fragmento Klenow

Una polimerasa de ADN que utilizo Sanger en su reacción de secuenciación. No es termoestable.

Sanger et al., 1977

T7 Una polimerasa de ADN no termoestable que se utilizaba frecuentemente en las reacciones de secuenciación con el Método Sanger. Se utilizaba frecuentemente para

incorporar terminadores (ddNTPs) etiquetadas con un fluoroforo.

(Ansorge et al., 1990)

Taq

polimerasa

Una polimerasa termoestable aislada de T. aquaticus (termofilo). Fue una gran herramienta en el desarrollo de la técnica de PCR.

Innis et al., 1988

Enzimas de restricción

El primero fue aislado de E. coli en 1968 por Matthew Meselson y Robert Yuan. Son nucleasas que reconocen y cortan secuencias específicas de ADN (doble cadena). Se utilizan en el método de degradación química para aislar los fragmentos (32_{P) que serán secuenciados.}

Maxam y Gilbert, 1977

Transcriptasa reversa

Una polimerasa de ADN que sintetiza una cadena de ADN utilizando una molécula de ARN como templado

Brownlee y Cartwright, 1977

RNAsa T1 La RNAsa T1 corta las moléculas de ARN (cadena sencilla) en las guaninas.

Donis-Keller et al., 1977

RNAsa U2 RNAsa U2 corta las moléculas de ARN (cadena sencilla)

en las adeninas. Donis-Kelleret al., 1977

RNA ligasa Se utiliza para unir una marca radioactiva ( 32_{P) en el} extremo 5’ de la molécula de ARN (cadena sencilla).

Blackburn y Gait, 1996

Cinasa T4 Se utiliza para unir una marca radioactiva (32_{P) en el} extremo 3’ de la molécula de ARN (cadena sencilla).

Blackburn y Gait, 1996

5.0 ESTRATEGIAS Y APLICACIONES DE LA SECUENCIACIÓN DE ÁCIDOS NUCLEICOS

5.1 Proyecto de secuenciación del genoma humano

(37)

de este proyecto se anunció oficialmente en 1990 por los departamentos de Salud y Energía con un presupuesto de 3 mil millones de dólares y la meta de completar la secuencia en 15 años (Venter et al., 2001).

¿De qué nos sirve la información de la secuencia de un genoma? De una forma muy general, los objetivos principales del proyecto de secuenciación del genoma humano eran los siguientes (Olson, 1993):

a) Mejorar la infraestructura de la investigación genética - La secuencia del genoma humano permitiría la ampliación del conocimiento genético de nuestro organismo. Se pueden utilizar técnicas como el PCR para analizar detalladamente ciertos segmentos del genoma. Conociendo su secuencia, se pueden diseñar oligonucleótidos que reconocen y se unen a secuencias complementarias en el ADN.

b) Comparar el papel de una secuencia de ADN en los humanos y en los organismos modelo – Se pueden comparar las secuencias de los genes identificados en el genoma humano con los genes de otros organismos y conocer el grado de similitud o diferencia que existe entre dos especies. También se puede inferir la función de ciertos genes con base en los conocimientos de otro gen similar, identificado en otro organismo.

c) Mejorar la bioquímica analítica del ADN - Este era el reto más grande cuando se anunció el inicio del proyecto de secuenciación del genoma humano, ya que se refería a mejorar las herramientas para el análisis de ADN. Éste era un reto técnico, ya que para obtener la secuencia completa del genoma humano en el tiempo propuesto era necesario desarrollar la estrategia y las máquinas de secuenciación con capacidad de secuenciar dos Mpb por año.

(38)

5.2 Estrategias para la secuenciación de fragmentos grandes de ADN.

5.2.1 “Chromosome Walking”

Hay dos estrategias generales para secuenciar fragmentos grandes de ADN. La primera se llama caminata cromosomal “chromosome walking” (Brown, 1999; figura 10) y consiste en lo siguiente: (1) la fragmentación parcial del ADN para su inserción en un vector de clonación; (2) la obtención de un banco de clonas de fragmentos que contienen segmentos que se traslapan y; (3) la secuenciación de una clona y la identificación de una segunda que posea la continuación del segmento que se está secuenciando. Este proceso se repite hasta que se completa la secuencia de la molécula original de ADN (e.g., un cromosoma).

(39)

Figura 10. La estrategia “chromosome walking” permite determinar la secuencia de un fragmento enorme de ADN ensamblando muchas secuencias pequeñas de distintas clonas (www.bio.miami.edu/dana/250/25003_10.htm).

5.2.2 “Shotgun Sequencing”

(40)

2001). Tal vez, esta razón es suficiente para explicar la resistencia durante tanto tiempo para la realización del proyecto del genoma humano, considerando que es un genoma al menos 25 veces más grande que cualquier otro genoma ya secuenciado (Internacional Human Genome Sequencing Consortium, 2001). Aun cuando Weber y Myers (1997) presentaron un plan para terminar la secuenciación del genoma humano con esta estrategia, demostrando que sería más rápido y menos costoso, su propuesta no fue bien recibida.

Figura 11. En la estrategia “shotgun” se secuencian fragmentos al azar y luego usando un programa computacional se encuentran las regiones que se traslapan para determinar la secuencia del fragmento original

(http://www.bioteach.ubc.ca/Bioinformatics/GenomeProjects/shotgun%201.gif).

(41)

Al conocerse la secuencia del genoma humano se hicieron varios hallazgos importantes (Venter et al., 2001; Internacional Human Genome Sequencing Consortium, 2001):

a) El genoma está compuesto por 1% de exones, 24% de intrones y 75% de regiones intergénicas.

b) Hay entre 30,000 y 40,000 genes que codifican para proteínas.

c) Se han identificado más de 2.1 millones de polimorfismos de un solo nucleótido (SNPs) en el genoma. Éstos ocurren más o menos uno de cada 1300 bases.

Si se secuencia una región del genoma de dos individuos, se encontrará que son 99.3% idénticos. En gran parte, las diferencias son cambios de una sola base conocidos como SNPs; se encontraran las dos alternativas en más de 1% de la población (Chiche et al., 2002). Dado que muchas enfermedades genéticas están asociadas a variaciones pequeñas como los SNPs, hay interés en utilizar la información del proyecto del genoma humano para identificar los SNPs responsables de ciertas enfermedades (Tang et al., 2004).

5.3 Otras aplicaciones

(42)

6.0 El FUTURO DE LA SECUENCIACION

6.1 Secuenciación por hibridización

Entre otras cosas el conocimiento de la secuencia de los genomas o los genes de los organismos también ha permitido desarrollar nuevos métodos de secuenciación. Como reportan Isaksson y Landegren (1999) uno de estos es la secuenciación por hibridización. Una forma en la cual puede funcionar este método es utilizando “microarrays”. Estos son soportes pequeños en los cuales se imobilian pequeños fragmentos de ADN en un orden conocido. Después se pasa la muestra de ADN (con secuencia desconocida) y se cuantifica el grado de hibridización, y por consecuencia el grado de identidad con las secuencias fijas en el soporte (Cantor y Smith, 1999). Esto parece funcionar especialmente bien en la identificación de SNPs. Wang et al. (1998) reportaron que es posible identificar el genotipo de un individuo analizando 500 SNPs a la vez en un experimento de hibridización con un “microarray” de oligonucleotidos. Una posibilidad para la secuenciación de acidos nucleicos a futuro, que discuten los autores Cantor y Smith (1999) es el hacer hibridización contra oligonucleotidos que formen palabras de tal forma que se pueda ir determinando la secuencia sobrelapando los fragmentos (de 6-8 nucleótidos) con los cuales híbrida el fragmento secuenciado (Figura 12).

Figura 12. La forma en la cual se puede utilizar hibridización para secuenciar. La molécula de ADN se hibridiza contra pequeños oligonucleotidos que son como “palabras”. Después, se determina la secuencia.

6.2 Secuenciación a futuro sin fragmentación de ADN

(43)

una molécula de ADN. Esto se podría hacer tal vez marcando las bases individuales con algún metal pesado.

(44)

7.0 REFERENCIAS

Ansorge, W., B. Sproat, J. Stegemann, C. Schwager and M. Zenke (1987) AutomatedDNA sequencing: ultrasensitive detection of fluorescent bands during electrophoresis. Nucleic Acids Res 15(11): 4593-4602

Ansorge, W. A. Rosenthal, B. Sproat, C. schwager, J. Stegemann and H. Voss (1988) Non-radioactive automated sequencing of oligonucleotides by chemical degradation. Nucleic Acids Res 16(5): 2203-2206

Ansorge, W., J. Zimmerman, C. Schwager, J. Stegemann, H. Erfle, and H. Voss (1990) One label, one tube, Sanger DNA sequencing in one and two lanes on a gel. Nucleic Acids Res 18(11): 3419-3420

Bakin, A. and J. Ofengand (1992) A high sensitivity method for sequencing RNA: application to ribosomal RNA. BioTechniques 13(5):682-683

Behr, S., M. Matzig, A. Levin, H. Eickhoff, C. Heller, (1999) A fully automated multicapillary electrophoresis device for DNA analysis. Electrophoresis 20: 1492-1507

Bennet, P. (2003) DNA sequencing and the human genome Project. Molecular Biology In Cellular Pathology. John Wiley & Sons, Ltd pp. 308-328

Blackburn, G. M. and M. Gait (1996), Nucleic Acids in Chemistry and Biology, 2nd_{Ed., Oxford, U. Pr., NY, EUA.}

Brown, T.A. (1999) Genomes. Bios Scientific Publishers, Ltd. John Wiley & Sons, Inc, New York, USA. pp. 59-82

Brownlee, G. and E. Carterwright (1977) Rapid gel sequencing of RNA by primed synthesis with reverse transcriptase. J Mol Biol 114: 93-117

Cantor, C. and C. Smith (1999) Genomics: The science and technology behind the human genome project. John Wiley & Sons, Inc.

Carballeira, N., M. Nazabal, J. Brito, O. Garcia (1990)Purification of a

thermostable DNA polimerase from Thermus thermophilus HB8, useful in the polymerase Chain reaction. BioTechniques 9(3): 276-281

(45)

Chiche, J., A. Cariou, J. Mira (2002) Bench-to-bedside review: Fulfilling promises of the human genome project. Critical Care 6(3): 212-215

Church, G. G. Gryan, N. Lakey, S. Kieffer-Higgins, L. Mintz, M. Temple, M. Rubenfield, L. Jaehn, H. Ghazizadeh, K. Robison, and P. Richterich (1994) Automated multiplex sequencing. Chapt 2. Automated DNA

sequencing and analysis. Edit. Adams, M. C. Fields, J. Venter. Academic Press, Inc. SD, USA. Pp. 11-16

Donis-Keller, H. A. Maxam, and W. Gilbert (1977) Mapping adenines, guanines, and pyrimidines in RNA. Nucleic Acids Res 4(8): 2527-2538

Evans, T. (2000) Engineering in genomics. Developing and commercializing a DNA sequencer. IEE EMB 19(4): 117-120

Huang, X. and R. Mathies (1994) Application of capillary array electrophoresis to DNA sequencing. Chapt 3. Automated DNA sequencing and analysis. Edit. Adams, M. C. Fields, J. Venter. Academic Press, Inc. SD, USA. Pp. 17-28

Hunkapiller, T., R. Kaiser, B. Koop, and L. Hood (1991) Large-scale and automated DNA sequence determination. Science 25: 59-67

Igloi, G. (1998) Strategies for introducing non-radioactive labels during the automated Sequence analysis of nucleic acids. Elec J Biotech 1(1): 23 30

Innis, M., D. Myambo, D. Gelfand, and M. Brow (1988) DNA sequencing with Thermus aquaticus DNA polymerase and direct sequencing of

polymerase Chain reaction-amplified DNA. Proc Natl Acad Sci, 85:9436 9440

International Human Genome Sequencing Consortium (2001) Initial sequencing and analysis of the human genome. Nature 409: 860-921

Isaksson, A. and U. Landegren (1999) Accessing genomic information: alternatives to PCR. Curr Opin Biotechnology 10: 11-15

(46)

Kempe, T., W. Sundquist, F. Chow, and L. Hu (1985) Chemical and enzymatic biotin-labeling of oligodeoxyribonucleotides. Nucleic Acids Res 13:45-57

Levine, J., Suzuki, D. El secreto de la vida. Dirección General de Divulgación de la ciencia, UNAM, México (2000).

Lewin, B. (1997) Genes. Oxford University Press, Inc. New York. Pp. 472-477

Lipshutz, R. and S. Fodor (1994) Advanced DNA sequencing technologies. Curr Opin Struct Biol 4:376-380

Maxam, A. and W. Gilbert (1977) A new method for sequencing DNA. Proc Natl Acad Sci 74(2): 560-564

Meldrum, D. (2000) Automation for genomics, part two: sequencers, microarrays, and future trends. Genome Res 10: 1288-1303

Mullis, K (1990) The unusual origin of the polymerase chain reaction. Sci Am 262(4):56-65

Myers, G. (1999) Whole-genome DNA sequencing. Computing in Science & Engineering. IEEE pp. 33-43

Olson, M. (1993) The human genome project. Proc Natl Acad Sci, USA. 90: 4338-4344

Prober, J. et al., (1987) A system for rapid DNA sequencing with fluorescent chain-terminating dideoxynucleotides. Science. 238: 336-341

Rosenblum, B., L. Lee, S. Spurgeon, S. Khan, S. Menchen, C Heiner, and S. Chen (1997) New dye-labeled terminators for improved DNA sequencing patterns. Nucleic Acids Res 25(22):4500-4504

Sanger, F., S. Nicklen, and A.R. Coulson (1977) DNA sequencing with chain terminating inhibitors. Proc Natl Acad Sci 74(12): 5463-5467

Sanger, F. and A.R. Coulson (1978) The use of thin acrylamide gels for DNA sequencing. FEBS Lett 87(1): 107-110

(47)

Schlenk, F., (1988).Early nucleic acid chemistry, Trends Biochem. Sci., 13: 67-69

Smith, L., S. Fung, M. Hunkapiller, T. Hunkapiller, and L Hood (1985) The synthesis of oligonucleotides containing an aliphatic amino group at the 5’ terminus: synthesis of fluorescent DNA primers for use in DNA

sequence analysis. Nucleic Acids Res. 13(7): 2399-2412

Smith, L. J. Sandlers, R. Kaiser, P. Hughes, C. Dodd, C. Connell, C. Heiner, S. Kent, and L. Hood (1986) Fluorescence detection in automated DNA sequence analysis. Nature 321: 64-69

Stewart, P. R. and D. Letham (1977), The ribonucleic acids, 2nd Ed., Springer Verlag, NY, EUA, pp. 374.

Tabor, S. and C. Richardson (1995) A single residue in DNA polymerases of the Escherichia coli DNA polymerase I family is critical for distinguishing between deoxy and dideoxyribonucleotides. Proc Natl Acad Sci, USA 92: 6339-6343

Tahara, T., J. Kraus, and L. Rosenberg (1990) Direct DNA sequencing of PCR Amplified genomic DNA by the Maxam-Gilbert method. BioTechniques 8(4): 366-367

Tang, K., P. Oeth, S. Kammerer, M. Denissenko, J. Ekblom, C. Jurinke, D. van den Boom, A. Braun, and C. Cantor. (2004) Minin Disease

susceptibility genes through SNP analyses and expression profiling using MALDI-TOF máss spectrometry. J. Proteome Res 3(2): 218-227

Venter, C. et al. (2001) The sequence of the human genome. Science 291: 1304-1351

Voet, D. and J. Voet, (1995) Biochemistry, 2nd Ed. John Wiley and Sons, Inc. NY, EUA

Wang, D. et al. (1998) Large-scale identification, mapping, and genotyping of single nucleotide polymorphisms in the human genome. Science 280: 1077-1082