FACULTAD DE CIENCIAS Departamento de Biología Molecular
SINTESIS DISCONTINUA DE RNA EN CORONAVIRUS
PEDRO ANTONIO MATEOS GOMEZ
CENTRO NACIONAL DE BIOTECNOLOGÍA
Madrid, 2012
FACULTAD DE CIENCIAS Departamento de Biología Molecular
SINTESIS DISCONTINUA DE RNA EN CORONAVIRUS
PEDRO ANTONIO MATEOS GOMEZ
CENTRO NACIONAL DE BIOTECNOLOGÍA
Madrid, 2012
UNIVERSIDAD AUTÓNOMA DE MADRID FACULTAD DE CIENCIAS
Departamento de Biología Molecular
SINTESIS DISCONTINUA DE RNA EN CORONAVIRUS
Memoria presentada por Pedro Antonio Mateos Gómez para optar al grado de Doctor en Ciencias
por la Universidad Autónoma de Madrid
Madrid, Mayo de 2012
El trabajo que se describe en esta memoria ha sido realizado en el Centro Nacional de Biotecnología (CNB, CSIC) bajo la codirección de los Drs. Isabel Sola y Luis Enjuanes.
Madrid, Mayo de 2012
Fdo. Isabel Sola Fdo. Luis Enjuanes
El que pregunta o se pregunta es porque quiere saber.
Mi abuelo
A mis padres
Abreviaturas
ABREVIATURAS
aa Aminoácido
AD Dominio activo
APN Aminopeptidasa N, CD13
B-M Motivo de RNA B
BAC Cromosoma artificial bacteriano
BCoV Coronavirus bovino
BHK Células de riñón de cría de hamster
BHK-pAPN Células de riñón de hámster que expresan la aminopeptidasa N porcina
BHK-N Células de riñón de hámster que expresan la aminopeptidasa N porcina y la proteína N de TGEV
BW Tampón de unión y lavado
BtCoV Coronavirus de murciélago
cB-M Motivo de RNA complementario al motivo de RNA B
CCV Coronavirus canino
cDNA DNA complementario
CMV Citomegalovirus
CoV Coronavirus
CS Secuencia central conservada
cCS Copia de la secuencia central conservada
cTRS Copia de la secuencia reguladora de la transcripción
dE Elemento distal
DMEM Medio de Eagle modificado por Dulbecco
DNA Ácido desoxirribonucleico
DNAsa Desoxirribonucleasa
dNTPs Desoxinucleótidos trifosfato
dsRNA RNA de doble cadena
DO Densidad óptica
DTT 1,4-Ditiotreitol
EAV Virus de la arteritis equina EDTA Ácido etilén diamino-tetraacético
FCS Suero fetal de ternera
FIPV Virus de la peritonitis infecciosa felina
gRNA RNA genómico
HCoV Coronavirus humano
h d.i. Horas después de la infección h d.t. Horas después de la transfección
Huh-7 Línea celular de carcinoma hepatocelular IBV Virus de la bronquitis infecciosa aviar
kb Kilobase
LB Luria-Bertani
MALDI Desorción/ionización por láser asistida por matriz m d.i. Multiplicidad de infección
MHV Virus de la hepatitis de ratón
mRNA RNA mensajero
MS Espectrometría de masas
nsp Proteína no estructural
nt Nucleótido
ORF Fase abierta de lectura
PAGE Electroforesis en gel de poliacrilamida
pAPN Aminopeptidasa N porcina
pb Pares de bases
PCR Reacción en cadena de la polimerasa
pE Elemento proximal
PEDV Virus de la diarrea epidémica porcina
PFU Unidades formadoras de placa
poliA Tramo de poliadeninas, An poliU Tramo de poliuridinas, Un
PRCV Virus respiratorio porcino
Abreviaturas
PUR46-C11 Virus TGEV, clon Purdue 46-Madrid
qRT-PCR Transcripción reversa seguida de PCR cuantitativa RCNMV Virus del mosaico necrótico del trébol rojo
RMN Resonancia magnética nuclear
RNA Ácido ribonucleico
rpm Revoluciones por minuto
RpRd RNA polimerasa RNA dependiente
rRNA RNA ribosomal
RS Sentido reverso
RT Transcripción reversa
rTGEV Virus TGEV recombinante
RT-PCR Transcripción reversa seguida de PCR SARS Síndrome respiratorio agudo y grave
SDS Dodecil sulfato sódico
sgmRNA RNA mensajero subgenómico
sgRNA RNA subgenómico
ST Línea celular de testículo de cerdo
TAE Tampón Tris-acetato EDTA
TBSV Virus del achaparrado peludo del tomate TGEV Virus de la gastroenteritis porcina transmisible TRM Motivo regulador de la transcripción
TRMopt Motivo regulador de la transcripción optimizado
tRNA RNA de transferencia
Tm Temperatura de fusión
TRS Secuencia reguladora de la transcripción
UTR Región no traducida
UV Luz ultravioleta
VS Sentido viral
I. ÍNDICE
Indice
I I. INDICE
II. RESUMEN EN INGLES………..……….……… 1
III. INTRODUCCION………... 3
1. TRANSCRIPCION EN VIRUS RNA DE POLARIDAD POSITIVA ………….. 3
2. CARACTERISTICAS GENERALES DE LOS CORONAVIRUS……… 5
3. EL VIRUS DE LA GASTROENTERITIS PORCINA TRANSMISIBLE………. 7
3.1. Estructura y composición del virión………... 7
3.2. Ciclo infectivo viral……… 8
3.3. Estructura del genoma y expresión génica………. 10
4. MODELO DE TRANSCRIPCION EN CORONAVIRUS ...……… 11
4.1 Factores que regulan la transcripción ………...……….. 12
5. MECANISMO DE REGULACION DE LA TRANSCRIPCION QUE INCREMENTA LA SINTESIS DEL sgmRNA N DE TGEV ……… 14
IV. OBJETIVOS……….… 19
V. MATERIALES Y METODOS………...……….…. 21
1. TECNICAS DE ANALISIS ESTRUCTURAL DEL RNA …..………. 21
1.1. Producción a gran escala de transcritos de RNA.…….………. 21
1.2. Espectroscopía de resonancia magnética nuclear ………. 21
1.3. Experimentos de desnaturalización térmica mediante espectroscopía UV.... 22
1.4. Ensayos de hibridación de RNA ...………. 22
2. LINEAS CELULARES EUCARIOTAS ...…..………. 23
3. VIRUS………. 23
3.1. Aislados virales……...……….……….. 23
3.2. Crecimiento y titulación del virus TGEV………..………. 23
4. BACTERIAS……….……….. 24
4.1. Cepas y cultivos de bacterias………...………... 24
4.2. Preparación de bacterias competentes…….………... 24
4.3. Transformación de bacterias…….………. 24
5. TECNICAS DE MANIPULACION DE DNA ………... 25
5.1. Plásmidos de clonaje.………...………...………... 25
Indice
II
5.2. Manipulación y purificación de plásmidos…….………... 25
5.3. Enzimas de restricción y modificación de DNA………...………. 26
5.4. Amplificación del DNA mediante PCR….…….………... 26
5.5. Electroforesis de DNA en geles de agarosa…..………. 26
6. CONSTRUCCION Y MUTAGENESIS DE PLASMIDOS.………….….……… 26
7. TRANSFECCION DE CELULAS Y RESCATE DE VIRUS ………... 31
7.1. Experimentos de transfección de replicones de TGEV.…………..………... 31
7.2. Rescate de virus TGEV infectivos a partir de cDNAs ……...………... 32
8. TECNICAS DE ANALISIS DE LA EXPRESION GENICA EN TGEV …..…… 32
8.1. Cuantificación de RNA por RT-PCR cuantitativa a tiempo real ………... 32
8.2. Análisis de RNA mediante Northern-blot ... 33
9. TECNICAS DE ANALISIS DE PROTEINAS EN TGEV...….. 34
9.1. Análisis de proteínas de TGEV mediante Western-blot ... 34
9.2. Cromatografía de afinidad de RNA …...…….……..……...……… 34
9.3. Análisis de proteínas purificadas en cromatografía de afinidad …... 35
10. ANALISIS IN SILICO DE SECUENCIAS ...….. 36
VI. RESULTADOS.………..……….…. 37
1. RELEVANCIA DE LA ESTRUCTURA SECUNDARIA DE LA TRS DEL LIDER DE TGEV EN LA SINTESIS DE RNA ...…..……….…….. 37
1.1. La TRS-L de TGEV presenta en solución una estructura en horquilla ... 37
1.2. Estructura y estabilidad de mutantes de la secuencia TRS-L ……….……... 43
1.3. Efecto de la estructura y estabilidad de la horquilla de la TRS-L en la replicación y la transcripción de replicones de TGEV ………. 45
1.4. Efecto de la estructura y estabilidad de la TRS-L en la hibridación con la cTRS-B………...….………... 50
2. ESTUDIO DE LA RELEVANCIA EN LA TRANSCRIPCION DEL GEN N DE TGEV DE LAS SECUENCIAS FLANQUEANTES A LOS ELEMENTOS PROXIMAL Y DISTAL ……….……….…... 52
2.1. Efecto de la extensión de la complementariedad entre los elementos proximal y distal en la potenciación de la transcripción del gen N ....………….. 52
2.2. Relevancia de las secuencias flanqueantes al elemento distal en la potenciación de la transcripción del gen N …...…...….………….… 55
2.3. Relevancia de las secuencias 5’ flanqueantes al elemento proximal en la potenciación de la transcripción del gen N...…………...……….…….……….. 59
2.4. Regulación de la transcripción del gen 3a por el motivo regulador de la transcripción. Relevancia de las posiciones relativas de los elementos del motivo regulador de la transcripción ...………. 61
Indice
III 3. ESTUDIO DE LA FUNCION DEL DOMINIO ACTIVO EN EL MECANISMO
DE ACTIVACION TRANSCRIPCIONAL DEL GEN N ………... 63
3.1. Efecto de la relocalización del dominio activo inmediatamente delante de la CS del gen N en la transcripción del gen N ...…….…….………. 63
3.2. Requerimiento de la secuencia primaria del dominio activo para la activación transcripcional del gen N ……...……….…….………. 64
3.3. Requerimiento estructural de la horquilla 3’ del dominio activo para la activación transcripcional …... 67
3.4. Requerimiento de la estructura secundaria de la región basal C de la horquilla 3’ del dominio activo para la activación transcripcional …….………. 68
3.5. Requerimiento de la secuencia primaria de la región B de la horquilla 3’ del dominio activo para la activación transcripcional ...…….…….………. 69
3.6. Implicación de la región B de la horquilla 3’ del dominio activo en interacciones a larga distancia ...……...……….…….………. 70
3.7. La interacción del dominio activo con el extremo 5’ del genoma del virus TGEV es relevante para su ciclo infectivo ... 75
3.8. Conservación de los elementos implicados en la potenciación de la transcripción del gen N en la especie Alphacoronavirus1 de CoV …….………. 78
4. OPTIMIZACION DE LA EXPRESION GENICA EN VECTORES DERIVADOS DE TGEV MEDIANTE EL MOTIVO REGULADOR DE LA TRANSCRIPCION DEL GEN N ...………... 80
4.1. Potenciación de la transcripción del gen 3a por el motivo regulador de la transcripción del gen N en virus TGEV infectivo ...….…….………. 80
VII. DISCUSION.………..……….…….... 85
1. RELEVANCIA DE LA ESTRUCTURA DE LA TRS-L DE TGEV EN LA TRANSCRIPCION ………... 85
2. MECANISMO DE REGULACION DE LA TRANSCRIPCION DEL GEN N EN TGEV ...………...……….. 89
VIII. CONCLUSIONES.………..….…….…….... 99
IX. BIBLIOGRAFIA.……….…….... 101
X. ANEXO.………..………...……….…….... 110
Indice
IV
INDICE DE FIGURAS
1. Modelos de transcripción en virus RNA de polaridad positiva ………..……..… 4
2. Estructura del virión del coronavirus TGEV…………..………... 7
3. Ciclo infectivo viral ...……….…….. 9
4. RNAs de TGEV durante la infección ..….………...………..… 11
5. Síntesis discontinua del RNA durante la transcripción de coronavirus ..…...… 13
6. Niveles relativos de sgmRNAs de TGEV y correlación con el valor del apareamiento entre el líder (TRS-L) y el RNA naciente de polaridad negativa complementario a las TRSs de cada gen (cTRS-B)..…...……... 15
7. Esquema del replicón REP-1 y de las regiones necesarias para la activación transcripcional del gen N ... 16
8. Representación del modelo de trabajo propuesto para la activación transcripcional del gen N ……….…... 17
9. Estructura secundaria de la secuencia TRS-L silvestre y de las secuencias TRS- L mutadas determinada por RMN ...…….. 38
10. Espectro NOESY bidimensional de la secuencia TRS-L silvestre de TGEV .…. 39 11. Espectros de RMN de los protones imino de las secuencias de la TRS-L silvestre y mutadas ...……….…... 40
12. Electroforesis en gel y perfiles de desnaturalización de RNAs con secuencias de la TRS-L silvestre y mutadas ...………...…….. 42
13. Organización del genoma de TGEV, del replicon REP-1 y del sgmRNA M ….. 46
14. Replicación y actividad transcripcional de los replicones de TGEV con mutaciones en la TRS-L ...……..……….……….... 48
15. Correlación entre la estabilidad térmica y la síntesis de sgmRNA en los mutantes de la TRS-L de TGEV …..……...………...…….. 50
16. Ensayos de hibridación in-vitro ...……….... 51
17. Efecto de la extensión de la complementariedad entre los elementos proximal y distal en la actividad transcripcional del gen N de TGEV ………….…..…….…... 54
18. Relevancia de las secuencias flanqueantes al elemento distal en la transcripción del gen N ...………...…….. 56
19. Relevancia de las secuencias distales 5’ flanqueantes al elemento distal en la potenciación de la transcripción del gen N ...………..…….. 58
20. Relevancia de las secuencias 5’ flanqueantes al elemento proximal en la potenciación de la transcripción del gen N ...…….…………..…...……….. 60
21. Motivo regulador de la transcripción optimizado ...………...…… 61
22. Influencia de las posiciones relativas del dominio activo y de los elementos proximal y distal en la activación transcripcional ...……….……….… 62
23. Relevancia del dominio activo en la potenciación de la transcripción del gen N... 64
Indice
V 24. Efecto de la estructura secundaria del dominio activo en la activación transcripcional ...………..………...… 66 25. Relevancia funcional de las regiones de la horquilla 3’ del dominio activo ....… 67 26. Relevancia funcional de la estructura secundaria de la región C de la horquilla 3’ del dominio activo ………...………...… 69 27. Relevancia de la región B de la horquilla 3’ del dominio activo en la activación transcripcional ...………..………….. 70 28. Proteínas que interaccionan con la región B del dominio activo ...…………... 71 29. Implicación del dominio activo en una interacción RNA-RNA con el extremo 5’ del genoma del virus TGEV ...……… 74 30. Relevancia de la interacción RNA-RNA entre el dominio activo y los nucleótidos 477-486 del extremo 5’ del genoma en el ciclo infectivo de TGEV ...… 77 31. Conservación de la interacción RNA-RNA entre el dominio activo y el extremo 5’ del genoma en la especie Alphacoronavirus1 de CoV ...…….…… 79 32. Potenciación de la transcripción del gen 3a por el motivo regulador de la transcripción en virus TGEV infectivo …………... 82 33. Modelo para la regulación transcripcional del gen N por el motivo regulador de la transcripción ...…………. 93
INDICE DE TABLAS
I. Oligonucleótidos utilizados para la mutagénesis directa en los replicones y cDNAs infectivos ...………... 29 II. Oligonucleótidos utilizados para el ánalisis por qRT-PCR a tiempo real .…... 33 III. Estabilidad térmica de las secuencias silvestre y mutadas de la TRS-L de TGEV y energías de hibridación con la secuencia complementaria de la TRS del gen M ... 44 IV. Energías de hibridación de la TRS-L silvestre y mutadas de TGEV con la cTRS-B de los genes N y 7 ...…... 49
II. RESUMEN
EN INGLÉS
Resumen en inglés
1 Transmissible gastroenteritis coronavirus (TGEV) genomic RNA transcription generates 5’ and 3’-coterminal subgenomic mRNAs. This process involves a discontinuous step during the synthesis of minus sense subgenomic RNA that is driven by the transcription-regulating sequences, located preceding each viral gene (TRS-Bs) and also at the 3’ end of the leader sequence (TRS-L), which is present only once at the 5’ end of the genome. TRSs include a highly conserved core sequence (CS, 5’- CUAAAC-3’) and variable flanking sequences. Coronavirus (CoV) transcription is a high frequency recombination process that links newly synthesized minus subgenomic RNA copies to the leader region. RNA recombination requires sequence homology between the acceptor and the donor RNA sequences. In addition, the acceptor sequence needs to be located in a hairpin structure. The TRS-L acts as the acceptor RNA, and the complementary sequence of the TRS-Bs (cTRS-B) would act as the donor RNA. To study whether the TRS-L is structured and to determine the functional impact of this structure on genomic and subgenomic viral RNA synthesis, we have used a combination of NMR spectroscopy and UV thermal denaturation approaches together with site-directed mutagenesis and in vivo transcriptional analyses. The structural studies indicated that a 36-nucleotide oligomer encompassing the wild type TRS-L formed a structured hairpin closed by an apical AACUAAA heptaloop. This loop contained most of the CS and was isolated from a nearby internal loop by a short Watson-Crick base paired stem. TRS-L mutations altering the structure and the stability of the TRS-L hairpin affected replication and transcription, indicating the requirement of a functional RNA hairpin structure in these processes.
Another requirement of discontinuous transcription is sequence homology. In fact, in TGEV, the extent of complementarity between TRS-L and cTRS-B (complement of TRS-B) measured as the free energy (∆G) of duplex formation, is one of the factors regulating the transcription of sgmRNAs. Relative amounts of every subgenomic mRNA (sgmRNA) correlate with the ∆G values of the indicated base-pairing. In addition, N gene sgmRNA transcription is controlled by a transcription regulating motif, that implies a long distance RNA-RNA interaction between complementary nanonucleotides named proximal and distal elements, that precede the N gene sequence.
The extension of the complementarity between the proximal and distal elements and the deletion of the sequences between them increased N gene transcription. The transcription regulating motif has been optimized to a minimal sequence showing a 4- fold activity increase in sgmRNA synthesis in relation to the native RNA motif. Full-
Resumen en inglés
2
length TGEV infectious viruses were generated with the optimized transcription regulating motif that enhanced 5-fold the transcription of 3a gene, what can be applied in the engineering of expression vectors based in coronavirus genomes.
The active domain, another essential component of the transcription regulating motif, has been identified. Relocation of the active domain upstream of the N gene CS sequence in the absence of the proximal and distal elements also enhanced sgmRNA N transcription. The active domain primary sequence was necessary for its activity. It was demonstrated that a 10 nt sequence included in the active domain established a new RNA-RNA interaction with a complementary sequence located in the 5’ end of the genome. The requirement of this long distance interaction for transcription was shown by the disruption and restoration of sequence complementarity in CoV replicons.
Furthermore, nucleotide substitutions reducing the required complementarity in engineered mutant viruses led to mutations along viral passages in cell cultures that restored complementarity, wild-type transcription levels and viral titers. The relevance of the formed high-order structures for viral cycle was reinforced by the phylogenetic conservation in CoVs of the RNA motifs involved in their formation.
The template switch step during the discontinuous RNA synthesis requires the physical proximity of RNA genome domains located between 20 to 30 thousand nucleotides apart. The efficacy of this risky recombination step can be facilitated by long-distance RNA-RNA interactions like that identified for N gene in this work.
According to the proposed working model for N gene transcription, the long-distance RNA-RNA interaction between proximal and distal elements would relocate the distant active domain in close proximity with the N gene CS sequence. At this position, the RNA-RNA interaction between the active domain and the 5’ end of the genome would bring together the sequences involved in the recombination process, what probably facilitates the template switching during the synthesis of negative sgRNA. This finding indicates that the formation of RNA high-order structures in the CoV genome is necessary to promote the expression of, at least, viral N gene that encodes an essential protein for transcription and virion formation.
III. INTRODUCCIÓN
Introducción
3 1. TRANSCRIPCIÓN EN VIRUS RNA DE POLARIDAD POSITIVA
Los virus con genoma RNA de polaridad positiva representan un tercio de todos los géneros de virus e incluyen importantes patógenos humanos tales como el coronavirus (CoV) causante del síndrome respiratorio agudo y severo (SARS), para el que todavía no existe una vacuna efectiva.
Los virus RNA de polaridad positiva que infectan células eucarióticas utilizan una amplia variedad de estrategias para regular la expresión de los genes que codifican.
Estas incluyen la segmentación del genoma, el procesamiento de una poliproteína, el salto de fase en el ribosoma durante la traducción, la supresión del codón de terminación y la síntesis de RNAs mensajeros subgenómicos (sgmRNAs). En los virus que sintetizan sgmRNAs, se diferencian dos procesos de síntesis de RNA, la replicación y la transcripción. La replicación, consiste en la síntesis de RNAs con la longitud completa del genoma. Por tanto es un proceso que comparten con el resto de virus de RNA de polaridad positiva. El proceso de transcripción consiste en la síntesis de RNAs de longitud subgenómica. Aunque esta síntesis está ampliamente extendida entre los virus RNA de polaridad positiva, no es compartido por todos. La transcripción representa una estrategia utilizada para la expresión de proteínas codificadas en el extremo 3’ de genomas policistrónicos. En los mRNAs subgenómicos, las secuencias codificantes originalmente localizadas hacia el extremo 3’ del genoma, se encuentran en el extremo 5’ del mRNA. Dado que la traducción de los genomas virales generalmente se produce por un mecanismo dependiente de cap, sólo las fases de lectura abiertas (ORFs) localizadas en el extremo 5’ del RNA son traducidas eficientemente. Por tanto, la síntesis de sgmRNAs permite la eficiente expresión de proteínas que se encuentran codificadas en la región 3’ del genoma.
Una gran variedad de virus RNA de polaridad positiva sintetizan mRNAs subgenómicos, incluyendo virus que infectan a animales, como alfavirus, rubivirus, coronavirus y nodavirus, o virus de plantas como bromovirus, tombusvirus, potexvirus, closterovirus y carmovirus. En estos virus se han descrito tres mecanismos de transcripción para la generación de sgmRNAs: iniciación interna, terminación prematura y síntesis discontinua. En la transcripción por iniciación interna, la síntesis de los sgmRNAs utiliza como molde la copia de polaridad negativa del genoma viral, por lo que se producen directamente sgmRNAs de polaridad positiva. Este mecanismo fue inicialmente descrito en el virus del mosaico del bromo (BMV) (Miller et al., 1985) (Fig. 1). En la transcripción por la terminación prematura, se sintetizan RNAs de
Introducción
4
polaridad negativa y longitud subgenómica cuando la polimerasa alcanza una secuencia terminadora de la transcripción en el RNA genómico (White, 2002) (Fig 1). La transcripción discontinua se asemeja al mecanismo de terminación prematura durante la extensión del RNA de polaridad negativa, pero además, tiene la peculiaridad de incluir un proceso se síntesis discontinua que añade una copia de la secuencia líder también de polaridad negativa. La secuencia líder se encuentra situada una única vez en el extremo 5’ del genoma viral. De esta forma, se obtiene una colección de RNAs subgenómicos que son 5’ y 3’ coterminales (Fig. 1). La transcripción discontinua es un mecanismo exclusivo de la mayoría de los virus del orden Nidovirales (Enjuanes et al., 2006;
Pasternak et al., 2001; Sawicki and Sawicki, 1995). Tanto en la transcripción por terminación prematura como por síntesis discontinua, los RNAs de polaridad negativa y de tamaño subgenómico se utilizan como moldes para generar los correspondientes mRNAs subgenómicos.
Figura 1. Modelos de transcripción en virus RNA de polaridad positiva. El RNA codificante en polaridad positiva (+) se muestra con una línea azul oscura. El RNA de polaridad negativa (-) se muestra con una línea azul clara.
Las secuencias implicadas en la regulación de la transcripción se representan con un rectángulo amarillo. En el modelo de transcripción discontinua, la secuencia líder que se fusiona a los mensajeros transcritos se representa en rojo. La línea curva representa el plegamiento propuesto para permitir la aproximación de secuencias alejadas en el genoma. Los óvalos representan factores virales o celulares implicados en el proceso. Las cabezas de flecha indican el sentido de la síntesis del RNA. sgmRNAs, RNAs mensajeros sub-genómicos.
Introducción
5 2. CARACTERÍSTICAS GENERALES DE LOS CORONAVIRUS
La familia Coronaviridae está incluida en el orden Nidovirales, junto con las familias Arteriviridae y Roniviridae (Enjuanes et al., 2008). La familia Arteriviridae incluye el único género Arterivirus cuyo miembro más representativo es el virus de la arteritis equina (EAV) (Snijder and Spaan, 1995). La familia Roniviridae incluye el género Okavirus, que incluye los únicos nidovirus que infectan a invertebrados (Walker et al., 2005). La familia Coronaviridae se compone a su vez de las subfamilias Coronavirinae y Torovirinae. La subfamilia Coronavirinae, que infecta mamíferos y aves, incluye cuatro géneros, Alphacoronavirus, Betacoronavirus, Gammacoronavirus y el recientemente propuesto Deltacoronavirus. La subfamilia Torovirinae incluye dos géneros, Torovirus que infecta mamíferos y Bafinivirus que infecta peces (de Groot et al., 2011) (ver también: http://ictvonline.org/virusTaxonomy.asp?bhcp=1).
El genoma de los coronavirus es un RNA no segmentado, de cadena sencilla y polaridad positiva de unas 30 kb, siendo el de mayor longitud conocida para virus RNA.
La organización básica del genoma de coronavirus es común a otros miembros del orden Nidovirales. Todos ellos codifican la poliproteína de la replicasa en el extremo 5’
del genoma y las proteínas estructurales en el tercio próximo al extremo 3’, en el orden 5’-S-E-M-N-3’ (de Vries et al., 1997; Enjuanes et al., 2008). Además, los diferentes coronavirus poseen un número variable de genes accesorios intercalados entre los genes estructurales comunes, que codifican proteínas específicas de género. La expresión génica en coronavirus combina distintos mecanismos de regulación, incluyendo un salto de fase del ribosoma durante la traducción del gen de la replicasa, el procesamiento proteolítico de la replicasa y la síntesis de mRNAs subgenómicos 5’ y 3’ coterminales que se originan por un proceso de transcripción discontinua único entre los virus RNA (de Groot et al., 2011; Enjuanes et al., 2006; Lai and Cavanagh, 1997). La presencia de estos mRNAs subgenómicos con estructura anidada dio lugar al nombre del orden Nidovirales (del latín nidus, nido).
Las especies de la familia Coronaviridae se han clasificado dentro de las subfamilias y géneros mediante el análisis filogenético de dominios conservados en el gen de la replicasa: ADRP (ADP-ribosa-1 fosfatasa); 3CLpro (proteína no estructural 5, nsp5, que es la proteinasa principal para el procesamiento de la poliproteína); nsp12 (RdRp, RNA polimerasa dependiente de RNA); nsp13 (helicasa); nsp14 (ExoN, 3’→5’
exoribonucleasa); nsp15 (NendoU, endoribonucleasa específica de uridilato) y nsp16 (Ribosa-2’-O-metiltransferasa). Se considera que los virus que comparten más del 90%
Introducción
6
de identidad en estos dominios conservados pertenecen a la misma especie (de Groot et al., 2011) (Lamber y Gorbalenya, en preparación). El género Alphacoronavirus incluye varias especies: Alphacoronavirus 1, que incluye a su vez como subespecies: el virus de la gastroenteritis porcina transmisible (TGEV), el coronavirus respiratorio porcino (PRCV), los coronavirus caninos (CCoV) tipo I y II y los coronavirus felinos, tipo I (FCoV) y tipo II o virus de la peritonitis infecciosa felina (FIPV); otras especies del género Alphacoronavirus son los Coronavirus Humanos 229E (HCoV-229E) y NL63, el Virus de la diarrea epidémica porcina (PEDV), y algunos virus de murciélagos (Miniopterus bat coronavirus 1, Miniopterus bat coronavirus HKU8, Rhinolophus bat coronavirus HKU2 y Scotophilus bat coronavirus 512) (de Groot et al., 2011). El género Betacoronavirus está constituido por la especie Betacoronavirus 1, que incluye las subespecies coronavirus bovino (BCoV) y coronavirus humano HCoV-OC43; la especie Coronavirus murino, con la subespecie virus de la hepatitis murina (MHV); la especie Coronavirus humano HKU1 (HCoV-HKU1 N1); la especie Coronavirus relacionados con el síndrome respiratorio agudo y severo (SARS-CoV); y dos especies de coronavirus de murciélagos, coronavirus HKU5 y coronavirus HKU9 (de Groot et al., 2011). El género Gammacoronavirus incluye las especies Coronavirus aviares, cuyo virus más representativo es el virus de la bronquitis infecciosa aviar (IBV), y Coronavirus de la ballena beluga SW1 (de Groot et al., 2011).
Los coronavirus infectan un amplio rango de animales vertebrados, incluyendo especies salvajes y de interés en ganadería, además de animales de compañía. Los coronavirus causan mayoritariamente enfermedades respiratorias, entéricas, hepáticas y del sistema nervioso central, ocasionando graves pérdidas económicas (Enjuanes et al., 2008; Lai and Holmes, 2001; Perlman et al., 2000). A finales de los años 60 los coronavirus se reconocieron por primera vez como patógenos humanos, causando principalmente infecciones del tracto respiratorio superior, como el resfriado común. En el año 2003, los coronavirus atrajeron la atención mundial, debido a la emergencia en China del SARS-CoV, que causó una epidemia infectando a más de 8000 personas de 32 países con una mortalidad del 10% (Drosten et al., 2003; Rota et al., 2003). Desde entonces, se han identificado nuevos coronavirus en humanos, como el HCoV-NL63 (van der Hoek et al., 2004) y el HCoV-HKU1 (Woo et al., 2005a; Woo et al., 2005b), que pueden producir neumonías relativamente graves, lo que refuerza la relevancia de los coronavirus como patógenos humanos.
Introducción
7 3. EL VIRUS DE LA GASTROENTERITIS PORCINA TRANSMISIBLE El coronavirus TGEV, modelo de estudio en esta tesis, pertenece a la especie Alphacoronavirus 1 y produce una enteritis muy contagiosa en lechones recién nacidos, con índices de mortalidad cercanos al 100% (Saif and Bohl, 1984). La enfermedad, descrita por primera vez en EEUU (Doyle and Hutchings, 1946), se ha identificado en numerosos países europeos, en América central y del sur, en Canadá y en diversos países asiáticos. Actualmente la mayor parte del ganado porcino europeo presenta inmunidad parcial frente al virus TGEV (Charley et al., 2006) debido a la exposición a la subespecie natural atenuada PRCV (Enjuanes and Van der Zeijst, 1995; Pensaert and Van Reeth, 1998). Fuera de Europa la diseminación de PRCV no parece haber sido tan efectiva (Paul et al., 2003) y la enfermedad continúa siendo un problema económico para los productores de ganado porcino, particularmente en Sudamérica, Rusia, China y EEUU.
3.1. Estructura y composición del virión
El virus TGEV tiene forma esférica con un diámetro aproximado de 100 nm. Posee una envuelta lipídica en la que se encuentran integradas las proteínas estructurales S, E y M (Fig. 2). Por debajo de este nivel estructural se encuentra la nucleocápsida, que está formada por el genoma RNA asociado a la nucleoproteína N, ésta a su vez se asocia al extremo C-terminal de la proteína M (Escors et al., 2001; Neuman et al., 2006).
La glicoproteína S es la más prominente de la envuelta del virus y se asocia formando trímeros que constituyen las espículas. Estas espículas confieren a la partícula viral cierta apariencia de corona en microscopía electrónica, lo que da nombre a la familia.
Introducción
8
Figura 2. Estructura del virión del coronavirus TGEV. (A) Modelo de la partícula viral, con los dos niveles estructurales que la conforman: la envuelta lipídica, en la que ese integran las proteínas S, E y M, y la nucleocápsida formada por el genoma de RNA asociado a la proteína N, a su vez asociada al dominio C-terminal de la proteína M. (B) Micrografías electrónicas de viriones de TGEV purificados y teñidos con acetato de uranilo, mostrando las coronas características formadas por proteínas de la espícula.
La nucleoproteína N forma parte de la nucleocápsida helicoidal mediante su asociación con el genoma viral. La proteína N tiene la capacidad de unir el RNA viral de forma específica e inespecífica, así como de formar oligómeros, lo que presumiblemente confiere estabilidad y compactación a la nucleocápsida. Se ha descrito además, que la proteína N de TGEV tiene actividad chaperona de RNA (Zuñiga et al., 2010), propiedad que podría ser común a todas las nucleoproteínas de coronavirus. La proteína N está implicada en la síntesis del RNA viral (Almazan et al., 2004). En particular, se ha mostrado esencial para la transcripción probablemente porque facilita el cambio de molde durante este proceso (Zuñiga et al., 2010).
3.2. Ciclo infectivo viral
La infección por coronavirus (Fig. 3) comienza con la unión de la proteína S de la superficie de los viriones al receptor celular, la aminopeptidasa N porcina (pAPN) en el caso de TGEV (Delmas et al., 1992), lo que induce la entrada del virus en la célula. En nuestro laboratorio se han localizado dos dominios en la proteína S que intervienen en el tropismo del virus. El primer dominio (aa 522-744) se une al receptor pAPN y el segundo (en torno al aa 219) probablemente se une a un co-receptor que es esencial para el tropismo entérico de TGEV (Ballesteros et al., 1997; Herrler et al., 1995). Una vez liberada la nucleocápsida en el citoplasma de la célula, el genoma RNA se traduce, dando lugar a las poliproteínas de la replicasa pp1a y pp1ab que se autoprocesan por tres proteasas virales 3CL, PLP1 y PLP2 (Ziebuhr, 2005), dando lugar a componentes virales del complejo de replicación-transcripción. Recientemente se han descrito actividades enzimáticas específicamente conservadas en los Nidovirales, como la endoribonucleasa (NendoU) implicada en la síntesis del RNA viral (Ivanov et al., 2004) y la exoribonucleasa (ExoN) implicada en un sistema de corrección de errores (proofreading) durante la replicación viral (Eckerle et al., 2007; Sola et al., 2011b) que formarían parte del complejo de replicación-transcripción. El complejo se ensambla en vesículas de doble membrana (Gosert et al., 2002; Risco et al., 1998; Snijder et al., 2006), que presumiblemente incluyen factores celulares.
Introducción
9
Figura 3. Ciclo infectivo viral. Esquema de la infección por TGEV. Por simplificación sólo se representan las especies de RNA codificantes, de polaridad positiva. AAA, poliA. gRNA, RNA genómico. VDM, vesículas de doble membrana. RE, retículo endoplásmico. A. Golgi, aparato de Golgi.
La replicasa utiliza el genoma de polaridad positiva como molde para la replicación del genoma y la síntesis de los mensajeros subgenómicos, a través de intermediarios de polaridad negativa de tamaño genómico y subgenómico, respectivamente (Enjuanes et al., 2006; Pasternak et al., 2001; Sawicki and Sawicki, 1995). Los mRNAs subgenómicos se traducen para expresar las proteínas estructurales y no estructurales del extremo 3’ del genoma. Las proteínas de la envuelta S, M y E se insertan en la membrana del retículo endoplásmico a partir del que se traslocan a las cisternas del compartimiento intermedio. Las nucleocápsidas virales, formadas por los genomas
Introducción
10
progenie asociados a la proteína N, se asocian con los componentes estructurales integrados en las membranas del compartimiento intermedio, a través de la interacción entre la nucleoproteína y el dominio C-terminal de la proteína M (Escors et al., 2001;
Narayanan and Makino, 2001; Sturman et al., 1980). Este proceso induce una invaginación de la membrana para formar la envoltura de la nucleocápsida, dando lugar a los viriones inmaduros. Finalmente, los viriones progenie son transportados por las cisternas del aparato de Golgi, donde ocurre su maduración (Salanueva et al., 1999), hasta la membrana plasmática para ser liberados al espacio extracelular, mediante la fusión de las vesículas que los contienen con la membrana plasmática.
3.3. Estructura del genoma y expresión génica
El genoma del coronavirus TGEV es un RNA no segmentado, de cadena sencilla y polaridad positiva de 28.5 kb de longitud (Penzes et al., 2001) (Fig. 4), que es infectivo una vez introducido en células susceptibles (Almazan et al., 2000; Brian et al., 1980;
Gonzalez et al., 2002; Norman et al., 1968). El genoma de los coronavirus se asemeja estructuralmente a los mensajeros celulares por tener una estructura de 7-metil- guanosina o cap en el extremo 5’ (Page et al., 1990), por estar poliadenilado en el extremo 3’ (Jacobs et al., 1986) y por poseer regiones no traducidas en ambos extremos (5’ UTR y 3’ UTR). Sin embargo, se diferencia de los mensajeros eucariotas en su tamaño extremadamente grande y en su estructura policistrónica. El genoma está formado por una secuencia líder de 99 nt en el extremo 5’ que forma parte de la región 5’ UTR, el gen de la replicasa que ocupa 20 kb, y los genes S, 3a, 3b, E, M, N y 7 (Enjuanes et al., 2008), seguidos de la región 3’ UTR (Fig. 4). El gen de la replicasa está formado por dos fases de lectura abiertas, parcialmente solapantes, ORF 1a y ORF 1ab, y se traduce al inicio de la infección para dar lugar a dos poliproteínas, pp1a y pp1ab, la segunda de las cuales se produce mediante un cambio de fase de lectura en el ribosoma (Brierley et al., 1989). Estas dos poliproteínas se autoprocesan para liberar componentes del complejo de replicación–transcripción. La síntesis continua de RNA da lugar a nuevas copias del genoma y se denomina replicación, un proceso que requiere un RNA intermediario de polaridad negativa.
A diferencia del gen de la replicasa, los genes situados en el extremo 3’ del genoma se expresan a partir de una colección de RNAs mensajeros subgenómicos 5’ y 3’
coterminales (Fig. 4). Todos ellos presentan en el extremo 5’ la secuencia líder, que se incorpora mediante un proceso de síntesis discontinua durante la producción de los
Introducción
11 sgRNAs de polaridad negativa. La síntesis de los sgmRNAs se denomina transcripción, y es asistida por las secuencias reguladoras de la transcripción (TRS) (Enjuanes et al., 2006). Los RNAs mensajeros subgenómicos resultantes son estructuralmente policistrónicos, pero sólo se traduce en cada caso la fase de lectura abierta situada en su extremo 5’.
Figura 4. RNAs de TGEV producidos durante la infección. Esquema del genoma de TGEV (barra superior) en el que las letras y números indican los genes virales. Los distintos RNAs virales, genómico y subgenómicos se designan del 1 al 7, se indica su polaridad y las estructuras terminales comunes. La secuencia líder y su complementaria se muestran en cuadros rojos. La secuencia codificante traducida a partir de cada mensajero policistrónico se representa en azul oscuro. La secuencia central conservada (CS) se indica con triángulos rojos invertidos. Su secuencia se muestra en el cuadro inferior que representa las secuencias reguladoras de la transcripción (TRS). L, secuencia líder; UTR, región no traducida; AAA, poliA. UUU, poli U.
4. MODELO DE TRANSCRIPCIÓN EN CORONAVIRUS
El proceso de transcripción discontinua de los coronavirus implica una terminación prematura durante la síntesis de los RNAs de polaridad negativa y un cambio de molde del RNA naciente de polaridad negativa a la región del líder. Los genes expresados a través de los mRNAs subgenómicos se encuentran precedidos por las TRS-Bs (TRSs del body) que incluyen la secuencia central conservada (CS-B; 5’-CUAAAC-3’) idéntica en todos los genes de TGEV y secuencias 5’ y 3’ flanqueantes (5’ TRS y 3’
TRS respectivamente) (Alonso et al., 2002). La misma secuencia CS se encuentra también en el extremo 3’ del líder (CS-L), incluida en la TRS del líder (TRS-L).
Introducción
12
De acuerdo con el modelo de trabajo propuesto en nuestro laboratorio, la TRS que precede a cada gen (TRS-B) podría actuar como una señal de parada o atenuación del complejo de transcripción durante la síntesis del RNA de polaridad negativa. El RNA naciente de polaridad negativa con la copia de la CS en su extremo 3’ experimenta un cambio de molde a la región del líder para completar la síntesis del RNA subgenómico de polaridad negativa, copiando la secuencia líder desde la CS-L (Sola et al., 2005;
Zuñiga et al., 2004) (Fig. 5). Previamente al cambio de molde se podría formar un intermediario RNA de triple cadena incluyendo el RNA molde (TRS-B), el RNA naciente de polaridad negativa (cTRS-B) que actúa como RNA donador y el RNA aceptor en la región del líder (TRS-L). Dado que la transcripción es esencial durante la infección de coronavirus, el proceso del cambio de molde debe producirse con una alta frecuencia. Para ello se requiere aproximar la TRS-L en el extremo 5’ del genoma a las diferentes TRS-B que preceden a cada gen, probablemente mediante interacciones a larga distancia ayudadas por complejos RNA-proteína y proteína-proteína, (Sola et al., 2011b) (Fig. 5). Los complejos formados también podrían contribuir a la parada del complejo de transcripción (Fig 5). Este proceso se asemeja al mecanismo de recombinación del RNA asistido por homología (Brian and Spaan, 1997; Enjuanes et al., 2008; Pasternak et al., 2001). Este mecanismo de recombinación requiere homología de secuencia entre el RNA aceptor y el RNA donador. Además, la secuencia de RNA aceptora debe localizarse en una estructura en horquilla (Draghici and Varrelmann, 2010; Nagy and Simon, 1997; Nagy et al., 1998). En la transcripción de CoV, la TRS-L sería el RNA aceptor y las cTRS-Bs serían el RNA donador. TRS-L y TRS-B, presentan elevada homología en su secuencia.
4.1 Factores que regulan la transcripción
Uno de los factores más importantes en la regulación de la transcripción es el apareamiento de bases entre la TRS-L en el genoma de polaridad positiva y la secuencia complementaria a la TRS de cada gen (cTRS-B) en el RNA de polaridad negativa.
Estudios previos del mecanismo de transcripción en arterivirus (Pasternak et al., 2001;
van Marle et al., 1999) y coronavirus (Zuñiga et al., 2004) han demostrado que el apareamiento de bases entre la CS-L y la secuencia complementaria de la CS-B (cCS-B) en la cadena naciente de polaridad negativa es un factor fundamental para regular la transcripción. Además, un análisis in silico que estimaba el apareamiento entre la TRS- L y el RNA negativo naciente, cuantificando la identidad entre 14 nt de la TRS-L y el
Introducción
13 RNA genómico (gRNA) (Huang and Miller, 1991), predijo con gran precesión las secuencias que conducen a la síntesis de los mRNAs subgenómicos en los coronavirus TGEV, HCoV-229E y BCoV (Zuñiga et al., 2004). Este análisis muestra que los sitios de fusión del gRNA a las TRS-Ls en los sgmRNAs, coinciden con aquellas secuencias del genoma viral que tienen una identidad con la TRS-L por encima de un valor umbral, independientemente de que incluyan CSs canónicas o no canónicas. Sin embargo, la presencia de una CS no canónica reduce en mil veces la producción de sgmRNA a pesar de la alta homología en las secuencias flanqueantes (Zuñiga et al., 2004). Además, se demostró que la complementariedad entre las secuencias flanqueantes a la CS en la TRS-L y las TRS-Bs era esencial para la transcripción (Sola et al., 2005). Así, se observó que una CS canónica cuyas secuencias flanqueantes carecían de homología con la TRS-L, no era suficiente para producir niveles detectables de sgmRNA, sino que se requería una complementariedad mínima entre la TRS-L y cTRS-B proporcionada por la CS y sus nucleótidos adyacentes (Sola et al., 2005).
Figura 5. Síntesis discontinua del RNA durante la transcripción de coronavirus. Esquema del modelo de trabajo de la transcripción discontinua en tres etapas. An, Un, poliA y poliU, respectivamente.
Otro de los factores que estaría regulando la transcripción es la posición en el genoma de cada uno de los genes dado que, en general, cuanto más próximos al extremo
Introducción
14
3’ del genoma, más abundantes son sus sgmRNAs. Sin embargo, no hay estudios exhaustivos que demuestren esta observación general en los coronavirus, porque la proximidad de los genes al extremo 3’ del genoma suele coincidir con una mayor complementariedad entre la TRS-L y la cTRS-B.
Los datos experimentales disponibles son compatibles con el modelo de transcripción propuesto en nuestro laboratorio, que consta de tres etapas (Fig. 5): (I) formación de complejos que aproximen la TRS-L a cada una de las TRS-B; (II) parada o atenuación de la síntesis de RNA en la región de la TRS-B y valoración del apareamiento de bases entre la cTRS-B en el RNA naciente de polaridad negativa y la TRS-L; (III) si la estabilidad del apareamiento entre la cTRS-B y la TRS-L (medida como energía libre, ΔG) supera un valor umbral se produciría en un cierto número de moléculas el cambio de molde a la región del líder, para completar la síntesis del RNA subgenómico de polaridad negativa. Alternativamente, en las moléculas en las que no se produce el cambio de molde, el complejo de transcripción continuaría la síntesis de un sgmRNA de mayor longitud o un gRNA de longitud completa. Por último, los sgmRNAs se sintetizan utilizando como molde los correspondientes sgRNAs de polaridad negativa.
Entre las proteínas que forman parte del complejo de replicación-transcripción se conocen las proteínas virales RpRd, nsp8 o primasa, la helicasa o la proteína N.
Probablemente, otras proteínas virales y celulares contribuyen a la formación de este complejo o a modular su actividad, aunque su conocimiento es todavía limitado (Sola et al., 2011a; Sola et al., 2011b).
5. MECANISMO DE REGULACIÓN DE LA TRANSCRIPCIÓN QUE INCREMENTA LA SÍNTESIS DEL sgmRNA N DE TGEV
Durante la infección de TGEV los mRNAs virales se expresan en cantidades diferentes, manteniendo sus proporciones relativas constantes. El sgmRNA N es el más abundante de todos ellos. La cantidad de sgmRNA N es unas 70 veces mayor que la de sgmRNA S (el menos abundante) y 4,5 veces mayor que la de sgmRNA 7, el segundo sgmRNA en abundancia durante la infección (Fig. 6) (Moreno et al., 2008). El estudio de la estabilidad de los sgmRNAs virales mediante experimentos de marcaje con [33P]
ortofosfato descartó que una mayor estabilidad del sgmRNA N fuera la causa de sus altos niveles durante la infección de TGEV (Moreno et al., 2008). Se observó una buena correlación entre los niveles relativos de los sgmRNAs de TGEV y el valor de ∆G del
Introducción
15 apareamiento entre la TRS-L y cTRS-B en el RNA naciente de polaridad negativa, con la excepción del sgmRNA N. El sgmRNA N, aun siendo el más abundante durante la infección de TGEV, tenía uno de los valores más bajos de energía libre asociada al apareamiento entre la TRS-L y la cTRS-N (Fig. 6). Por lo tanto, en la regulación transcripcional del sgmRNA N deberían estar implicados otros factores además del apareamiento entre la TRS-L y la cTRS-N (Moreno et al., 2008).
Figura 6. Niveles relativos de sgmRNAs de TGEV y correlación con el valor del apareamiento entre el líder (TRS-L) y el RNA naciente de polaridad negativa complementario a las TRSs de cada gen (cTRS-B). Los niveles de mRNAs virales relativos a la cantidad del sgmRNA S se representan con círculos azules. El valor del apareamiento entre la TRS-L y la cTRS de la cada gen se representa con rombos rojos.
Dado que la activación transcripcional observada era específica del gen N, se analizó la presencia de señales responsables de su regulación transcripcional en la secuencia codificante del gen N y en las secuencias que se localizan próximas a la TRS del gen N (5’ TRS distales y proximales). Para ello se utilizó un replicón derivado de TGEV (REP-1), que incluye el gen de la replicasa y los genes M, N y 7 en el extremo 3’ del genoma (Almazan et al., 2000). Los niveles relativos del sgmRNA N con respecto al gRNA producidos por el replicón fueron similares a los observados durante la infección por TGEV, indicando que tanto en el replicón como en el virus completo estaban operando mecanismos similares de regulación de la transcripción. En este estudio se concluyó que la activación transcripcional del gen N requería la presencia de secuencias
Introducción
16
localizadas en la región 5’ TRS-N distal (nt –630 al –290 respecto al primer nucleótido de la CS-N) además de secuencias inmediatamente adyacentes al extremo 5’ de la CS-N (nt -120 al -13 respecto al primer nucleótido de la CS-N) (Moreno et al., 2008) (Fig. 7).
Figura 7. Estructura del replicón REP-1 y de las regiones necesarias para la activación transcripcional del gen N. Representación de los genes que contiene el replicón REP-1: replicasa (ORF1a y b), M, N y 7. TRS-N distal, corresponde a la región central del gen M (nt -630 a -290 respecto a la CS-N). TRS-N proximal, 120 nt que preceden al gen N, que incluyen la región 3’ del gen M y la CS- N. Ambas regiones son esenciales para la potenciación de la transcripción del gen N.
El análisis de la secuencia de las regiones requeridas para la activación transcripcional del gen N mostró la presencia en la región 5’ TRS-N distal (a 448 nt de la CS-N) de una secuencia de 9 nt (5’-AUAUGUAAU-3’) denominada elemento distal (dE), complementaria a otra secuencia de 9 nt (5’-AUUACAUAU-3’) denominada elemento proximal (pE), localizada en la TRS-N proximal, a siete nucleótidos del extremo 5’ de la CS-N. Se confirmó que la complementariedad entre los elementos proximal y distal era un requisito esencial para la activación transcripcional del gen N (Moreno et al., 2008). También se mostró que la estabilidad del híbrido entre estos elementos era un factor decisivo para la activación transcripcional del gen N de TGEV, dado que se requería un mínimo de energía libre en la formación del dúplex para mantener los niveles de sgmRNA N (Moreno et al., 2008). Además, la secuencia del elemento distal era única a lo largo del genoma de TGEV-PUR46-MAD.
Así mismo, también se encontraron secuencias de 9 nucleótidos idénticas a los elementos proximal y distal en las mismas posiciones relativas de la región 5’ TRS-N de los coronavirus PRCV, FCoV, FIPV y CCoV (Moreno et al., 2008). Por tanto, estos elementos de secuencia estaban conservados en las subespecies de Alphacoronavirus 1, pero no en otros CoVs. Es interesante señalar que, a diferencia de otros coronavirus y arterivirus, la especie Alphacoronavirus 1 se caracteriza por la presencia del gen 7 en la última posición del genoma, más cercano el extremo 3’ que el gen N, que es el último gen en el resto de coronavirus y de arterivirus (Moreno et al., 2008). Dado que la proximidad al extremo 3’ del genoma es uno de los factores que regulan positivamente la transcripción en CoV, el mecanismo de activación transcripcional específico del gen
Introducción
17 N permitiría en los Alphacoronavirus 1 aumentar los niveles del sgmRNA N, cuya posición en el genoma del virus no es la más favorable para alcanzar máximos niveles de transcripción. De esta forma, los Alphacoronavirus 1, cuyo gen 3’ terminal es el gen 7 y no el gen N, alcanzarían niveles máximos del sgmRNA N, que codifica la nucleoproteína, esencial para la síntesis de RNA y la morfogénesis viral.
El modelo de trabajo propuesto para explicar la activación transcripcional del sgmRNA N incluiría la interacción RNA-RNA a larga distancia entre los elementos distal y proximal (Fig. 8). Esta interacción se produciría en el gRNA y formaría una estructura secundaria en la región 5’ de la CS-N que aumentaría la frecuencia de parada del complejo de transcripción y el cambio de molde a la región del líder durante la síntesis discontinua del sgRNA N de polaridad negativa, incrementando por tanto, la abundancia del correspondiente sgmRNA N.
Figura 8. Representación del modelo de trabajo propuesto para la activación transcripcional del gen N. En el esquema se muestran las regiones implicadas en la transcripción del gen N: TRS-L, TRS-N, elemento distal (dE) y elemento proximal (pE). También se muestra cómo la interacción a larga distancia entre los elementos dE y pE aumentaría la frecuencia con la que se da el cambio de molde al líder en la CS-N y en consecuencia la cantidad del sgRNA N.
Introducción
18
IV. OBJETIVOS
Objetivos
19 El objetivo general de esta tesis es el estudio del mecanismo de transcripción en coronavirus, utilizando como modelo el virus de la gastroenteritis porcina transmisible (TGEV). La transcripción de coronavirus implica un paso discontinuo durante la síntesis del RNA de polaridad negativa que está dirigido por las secuencias reguladoras de la transcripción (TRSs), que se encuentran al final de la secuencia líder (TRS-L) en el extremo 5’ del genoma y precediendo a cada gen (TRS-B). La transcripción discontinua es un proceso de recombinación asistido por la homología de secuencia de las TRS, donde la TRS-L actúa como RNA aceptor y las copias de las TRS-Bs actúan como RNA donadores. Dado que la TRS-L se encuentra separada de las TRS-Bs por unas 20-27 kb y que la transcripción es esencial en cada ciclo de infección, es necesario que existan mecanismos que contribuyan a que este arriesgado proceso de recombinación se produzca con una alta frecuencia. Uno de los factores que regulan la transcripción de CoV, como se mostrado en este trabajo, es la estructura del RNA de la TRS-L. Además, la proximidad física entre la TRS-L y las TRS-Bs es otro factor que permitiría incrementar la frecuencia de recombinación a los niveles requiridos. En esta tesis se han caracterizado nuevas interacciones RNA-RNA a larga distancia en el genoma del virus y se ha mostrado su relevancia en el proceso de transcripción.
Los objetivos específicos abordados en este trabajo han sido los siguientes:
1. Analizar la relevancia en la transcripción de TGEV de la estructura secundaria y la estabilidad de la horquilla de RNA donde se localiza la TRS-L en el extremo 5’ del genoma.
2. Estudiar la función de la interacción RNA-RNA a distancia entre los elementos proximal y distal en la regulación transcripcional del gen N de TGEV.
3. Identificar y estudiar la función de nuevos motivos de RNA del genoma viral en la regulación de la transcripción del gen N y su relevancia en el ciclo infectivo de TGEV.
4. Aplicar los nuevos conocimientos de la regulación de la transcripción para mejorar la expresión de genes heterólogos en vectores virales derivados del genoma de TGEV.
Objetivos
20
V. MATERIALES
Y MÉTODOS
Material y métodos
21 1. TECNICAS DE ANALISIS ESTRUCTURAL DEL RNA
1.1. Producción a gran escala de transcritos de RNA. Para el análisis estructural por espectroscopía de resonancia magnética nuclear (RMN) se prepararon oligonucleótidos de RNA no marcados con la secuencia nativa de la TRS-L y las secuencias mutantes (Fig. 9), además de oligonucleótidos marcados con 15N y 13C/15N con la secuencia nativa de la TRS-L (WTS), mediante transcripción in vitro con la RNA polimerasa de T7 y usando como molde oligonucleótidos de DNA. Los nucleótidos trifosfato marcados con 15N y 13C/15N se prepararon a partir de RNA celular como se había descrito previamente (Price et al., 1998). Después del proceso de purificación por electroforesis en gel, todas las muestras se microdializaron en solución acuosa con 10 mM de fosfato sódico (pH 6,0) y 0,1 mM de EDTA. La concentración final a la que se usaron los RNAs para los experimentos de RMN oscilaba entre 0,1 y 0,3 mM. La secuencia nativa y algunos mutantes también se analizaron en la misma solución suplementada con 100 mM de NaCl o 5 mM de MgCl2 para evaluar el efecto de la fuerza iónica o de los iones divalentes en la estructura del RNA.
1.2. Espectroscopía de resonancia magnética nuclear. La técnica espectroscópica de RMN proporciona información sobre las distancias entre protones (a través del efecto nuclear Overhauser [NOE]) y sobre los puentes de hidrógeno, lo que es útil para el estudio de la estructura tridimensional de las moléculas de RNA en solución (para una revisión de la metodología ver (Furtig et al., 2003)). Los espectros de RMN se adquirieron en espectrómetros Bruker Avance III a 500 y 600 MHz (equipo con cryoprobe), procesados con Topsin 1.3 (Bruker Biospin), y analizados usando Sparky 3.110 (T. D. Goddard and D. G. Kneller, University of California, San Francisco). Para las muestras no marcadas, los espectros obtenidos en D2O se adquirieron a varias temperaturas (generalmente a 27ºC y 34ºC) e incluyeron series de espectroscopía de 2 dimensiones (2D) NOE (NOESY) (con tiempos de 80, 120 y 250 ms), espectroscopía de correlación filtrada de doble-quanto (DQF-COSY), espectroscopía total de correlación (TOCSY) (60 ms), y experimentos NOESY de marco rotativo (ROESY).
Los espectros NOESY se adquirieron también en H2O, generalmente a 8ºC, con tiempos de 150 ms. El retraso de relajación fue de 2 s para todos los experimentos con las muestras no marcadas. Para las muestras WTS marcadas con 15N, se adquirieron espectros 2D 1H-15N de correlación de quanto sencillo heteronuclear (HSQC) en H2O.
Material y métodos
22
También se hicieron experimentos HNN-COSY que permitieron detectar puentes de hidrógeno entre bases vía uniones N-N (Dingley and Grzesiek, 1998). Para las muestras WTS marcadas con 13C/15N, los espectros obtenidos en D2O se adquirieron a 27ºC, incluyendo distintas series de espectroscopía: 2D 1H-13C HSQS, de correlación de quanto múltiple heteronuclear NOESY 13C editado en tres dimensiones (3D) (HMQC) (tiempos de 100 y 200 ms), de correlación exclusiva 3D HCCH (E-COSY), HCCH- TOCSY 2D, HCP 3D, y de correlación heteronuclear 1H-31P 13C editada 3D (HETCOR).
1.3. Experimentos de desnaturalización térmica mediante espectroscopía UV. La estabilidad térmica de las estructuras de RNA se monitorizó mediante espestroscopía de absorción de UV (260 nm) en función de la temperatura en un espectrofotómetro UV/visible Varian Cary 300. La temperatura se modificó desde 5ºC a 95ºC en un gradiente de 1ºC/min y a continuación se hizo descender siguiendo el mismo gradiente para evaluar la reversibilidad del proceso. Los experimentos se llevaron a cabo usando concentraciones de RNA desde 0,1 a 0,6 unidades de densidad óptica (ODU)/ml (0,5 a 1,6 µM). Los perfiles de desnaturalización térmica se examinaron usando tres soluciones diferentes: una con 0,1 mM de EDTA y 10 mM de cacodilato sódico (pH 6,0) y otras dos que adicionalmente contenían 100 mM de NaCl o 5 mM de MgCl2.
1.4. Ensayos de hibridación de RNA. Los ensayos de hibridación de RNA se llevaron a cabo entre la secuencia de la TRS-L nativa o las TRSs mutantes y la secuencia complementaria a la TRS del gen 7 (cTRS-7). Se sintetizaron RNAs de 34 nt con las secuencias de la TRS-L nativa y las TRSs mutantes (Microsynth), similares a las utilizadas en los experimentos de RMN. Estos RNAs se incubaron con un RNA biotinado de 16 nt con la secuencia de la cTRS-7. Las reacciones de hibridación de cada pareja de RNAs (0,025 µM de cada uno) se realizaron en un volumen total de 10 µl de la solución de hibridación (40 mM de Tris-HCl [pH 7,5]; 0,1 M de NaCl; 0,02 mM de EDTA; 2% de glicerol). Las parejas de RNAs se calentaron en H2O DEPC a 95ºC durante 2 min y después se dejaron enfriar lentamente hasta 37ºC. Después se añadió la solución de hibridación y se incubó durante 10 min. A continuación se añadió la solución de parada (50 mM de EDTA; 2,5% de SDS; 25% de glicerol; 0,01% de xilencianol; 0,01% de azul de bromofenol). Los RNAs se separaron en geles no desnaturalizantes de poliacrilamida al 20% y se transfirieron a membranas de nailon