3. Marcadores basados en microsatélites
3.2. Distribución y frecuencia de los microsatélites
Los microsatélites se encuentran a lo largo de todo el genoma. El tipo, distribución y frecuencia de estos últimos difiere según cada organismo. En el genoma humano (International Human Genome Sequencing Consortium, 2001) concluyó que el 3% del genoma son microsatélites, más de un millón de loci en total. Este número incluye una gran proporción de microsatélites interrumpidos o imperfectos, muchos de los cuales son probablemente monomórficos. Las repeticiones dinucleotídicas son las más abundantes, seguidas de las repeticiones mono y tetranucleotídicas. Las trinucleotídicas son las menos comunes en el genoma humano. De las dinucleotídicas, la repetición (CA)n es la más frecuente, seguida de las repeticiones (AT)n y
(GA)n, mientras que la repetición (GC)n es la más rara (Ellegren, 2004).
El genoma del ratón es mucho más rico en secuencias microsatélite, de dos a tres veces más que en el genoma humano (Mouse Genome Sequencing Consortium, 2002). La frecuencia de los microsatélites difiere entre especies relativamente cercanas, esto parece ser un fenómeno general (Ellegren, 2004). Efectivamente, estas diferencias ocurren incluso entre especies cercanas como humanos y chimpancés (Webster et al., 2002), y dentro del mismo género Drosophila (Pascual et al., 2000; Schlötterer y Harr, 2000).
Muchos autores consideraron que los SSRs son secuencias de selección neutral y de distribución aleatoria a lo largo del genoma (Schlötterer y Wiehe, 1999; Schlötterer, 2000). Sin embargo, Bachtrog et al. (1999), ponen de manifiesto la existencia de variación regional en la frecuencia de los microsatélites. En efecto, en el genoma humano y del ratón, la densidad de los microsatélites es casi el doble en los extremos de los cromosomas. Marcotte et al. (1999) encontraron que el 14% de las
25
regiones codificantes contienen secuencias repetidas, con una frecuencia tres veces mayor en eucariotas que en procariotas. No obstante, el número de repeticiones y el tamaño total de los microsatélites en las regiones transcritas es relativamente pequeño (Kantety et al., 2002; Thiel et al., 2003). En Eucariotas, la densidad de los microsatélites tiende a estar correlacionada positivamente con el tamaño del genoma (Hancock, 1996; Katti et al., 2001). Sin embargo, en plantas, se ha demostrado que la frecuencia de los microsatélites está negativamente correlacionada con el tamaño del genoma, explicado por el hecho de que los microsatélites están infra-representados en las partes repetitivas del genoma que están involucradas en la expansión del genoma (Morgante et al., 2002).
La frecuencia de los microsatélites en los ESTs es de 3 % en Arabidopsis (Cardle et al., 2000), 3,2% en gramíneas (Kantety et al., 2002), 2,9% en caña de azúcar (Cordeiro et al., 2001) y 4% en las Rosáceas después de haber eliminado las secuencias redundantes (Jung et al., 2005). Morgante et al. (2002) afirman que la frecuencia de los microsatélites es más alta en las regiones transcritas y especialmente en las partes no traducidas de éstas que en el ADN genómico. Scotti et al. (2000), encontraron que la frecuencia de los microsatélites formados por dinucleótidos es 20 veces más baja en las secuencias expresadas que en secuencias genómicas cogidas al azar en abeto (Picea abies).
En plantas, la composición de los microsatélites dinucleotídicos difiere entre las secuencias genómicas y transcritas, las repeticiones (AT)n parecen
ser típicas de las regiones no transcritas, sin embargo en ESTs, las repeticiones (AG)n son las más frecuentes seguidas de las repeticiones (AT)n
(Morgante et al., 2002). La repetición (AC)n es poco frecuente en el genoma
de las plantas contrariamente a los mamíferos donde es la más frecuente; la repetición (CG)n es en ambos casos la más rara (Morgante et al., 2002). La
repetición (TAT)n prevalece dentro de los trinucleótidos, aunque algunos
tipos de microsatélites parecen ser específicos o más frecuentes en algunos grupos de plantas como en los cereales, donde la repetición (CGG)n es la
más abundante dentro de las trinucleotídicas, con un 32% en trigo, 49% en sorgo (Thiel et al., 2003; Varshney et al., 2002) y 50% en arroz (Morgante et
26
al., 2002), contrariamente al genoma de Arabidopsis donde esta repetición es la menos frecuente (Jung et al., 2005). En monocotiledóneas, el motivo AAT es el más raro (<1%) (Cordeiro et al., 2001).
En las Rosáceas, las repeticiones dinucleotídicas son las más abundantes en las colecciones de ESTs estudiadas por Jung et al. (2005), representando el 51% en almendro y el 59% en melocotonero y en Rosa del total de microsatélites, seguidos de las repeticiones trinucleotídicas en los tres casos (entre 35% y 43%). Las repeticiones tetra y pentanucleotídicas corresponden a menos del 5%. En un reciente trabajo de secuenciación de la especie P. virginiana L., Wang et al. (2012) confirmaron que las repeticiones dinucleotídicas son las más abondantes representando el 85,9% del total de microsatélites, seguidas por las trinucleotídicas (12,89%). Las repeticiones tetra y pentanucleotídicas sólo representan el 0,84% y 0,42%, respectivamente del total de microsatélites. En general en las Rosáceas, la repetición dinucleotídica más frecuente es (AG)n (Jung et al.,
2005), lo que confirma las observaciones de Sosinski et al. (2000) que estimaron un promedio de un microsatélite con esta repetición cada 100 kb en el genoma del melocotonero, mientras que la repetición menos frecuente es (CG)n. En un estudio sobre ESTs de manzano, Newcomb et al. (2006),
confirmaron los resultados anteriores y encontraron que el 88,3 % del total de las repeticiones dinucleótidas fueron del motivo (AG)n, mientras que las
repeticiones del motivo (CG)n sólo representaban el 0,1%. Similares
conclusiones se obtuvieron en P. virginiana, donde la repeticion más frecuente es la dinucleotídica (AG)n, representando el 46,1% del total de
microsatélites, seguida de la repetición (AT)n (22,5%), de la (AC)n (14,44%) y
de la (CG)n (2,91%). El resto de las repeticiones no representan más del 2%
cada motivo (Wang et al., 2012). En la reciente secuenciación del genoma de P. mume por shotgun, Sun et al. (2013), confirman que la repetición dinucleotídica más frecuente es la (AG)n, mientras que la (CG)n se revela la
menos frecuente. Los motivos trinucleotídicos más abundantes difieren dependiendo de la especie; AAG en Rosa y manzano, AGC en almendro y ATG en melocotonero (Jung et al., 2005; Newcomb et al., 2006). La densidad de los SSRs es de dos a cuatro veces más grande en las regiones
27
no traducidas (UTRs) que en las regiones codificantes (Jung et al., 2005). En efecto, la estimación de la distancia media entre microsatélites en las regiones UTR es de 5,5 kb en Rosa, 5,1 kb en almendro, 7 kb en melocotonero y 13 kb en Arabidopsis. En cambio, el promedio de esta distancia en regiones codificantes es de 12,8 kb en Rosa, 20,3 kb en almendro, 24,4 kb en melocotonero y 25,6 kb en Arabidopsis (Jung et al., 2005). Las repeticiones más frecuentes en las regiones UTR son las dinucleotídicas, con un 84% en almendro y un 74% en melocotonero del total de microsatélites presentes en estas regiones. En cambio, en las regiones codificantes, las repeticiones trinucleotídicas son las más abundantes y representan un 86% en almendro y un 55% en melocotonero del total de