Adriana García Forero Escuela de Biología Universidad Industrial de Santander (UIS). 2009

Texto completo

(1)

INFLUENCIA DE LA ESTRATEGIA DE PARTICIÓN SOBRE EL ANÁLISIS BAYESIANO

Adriana García Forero – Escuela de Biología ‐ Universidad Industrial de Santander (UIS). 

2009 

INTRODUCCIÓN

En el campo de la sistemática, ha habido grandes controversias acerca de la conveniencia de efectuar análisis filogenéticos con datos totales vrs particiones de los mismos. Por un lado, los datos combinados en un único análisis permiten una reconstrucción filogenética basada en más caracteres y bajo condiciones ideales pueden inferir relaciones mejor resueltas o soportadas a las inferidas por análisis separados de cada partición [1]. Adicionalmente, considerar cada partición por separado puede resultar en sobre-parametrización, debido a que tal aproximación hace difícil descubrir cuando es apropiado para dos particiones compartir parámetros [2]. Sin embargo, muchos investigadores defienden los análisis particionados abogando ante todo por la homogeneidad de los datos definida por una historia similar compartida [3]; al mismo tiempo argumentan que el análisis simultáneo de muchos caracteres diferentes incrementa la oportunidad que el soporte de grupos filogenéticos verdaderos dado por caracteres confiables pueda ser diluido por errores sistemáticos o aleatorios producidos por caracteres poco fiables [4].

Los métodos de inferencia filogenética bayesiana facilitan la aplicación de una gran cantidad de modelos ricos en parámetros a diferentes particiones [5]. Lo ideal para la selección del modelo óptimo de una partición sería no ignorar información de otras particiones [2]; no obstante, la utilización de un modelo único para grupos de datos compuestos de subconjuntos con historias evolutivas diferentes puede resultar en un modelamiento engañoso y en error sistemático significativo [6].

Los genes rRNAs y tRNAs contienen una región stem de bases pareadas y una región loop de bases no pareadas. El apareamiento entre los nucleótidos stem tuvo importantes consecuencias para su evolución que difieren respecto a los nucleótidos loop no pareados [7]. Por lo tanto, modelos de evolución separados para regiones stem y loop de genes rRNAs y tRNAs son preferibles sobre un modelo de evolución único para la secuencia entera [8].

El objetivo del presente trabajo es comparar los resultados de un análisis filogenético

bayesiano, realizando diversas particiones de los datos basadas en regiones que han

(2)

evolucionado bajo diferentes condiciones, a través de las probabilidades posteriores de los nodos y los valores obtenidos del factor Bayes, y elegir la mejor estrategia de partición.

METODOLOGÍA

El análisis filogenético se llevó a cabo con 6 taxa ingroup del género Hyla y 1 taxa outgroup (Gastrotheca pseustes). Los datos fueron tomados del trabajo de Darst &

Cannatella [9]. Se utilizaron 2 genes mitocondriales: 12S y tRNA valina. Las secuencias fueron obtenidas del GenBank (Tabla 1) y los genes fueron alineados por medio de Muscle 3.6 [10]; con ayuda de información publicada de la estructura secundaria de los genes utilizados (12S: Titus & Frost [11]; tRNA val: Kumazawa & Nishida [12]), se identificaron las regiones loop y stem. Después se buscó el modelo evolutivo para los genes y para las regiones stem y loop de cada uno en jmodeltest 0.1 [13] utilizando la información Akaike como criterio para la elección. Se realizó el análisis bayesiano en MrBayes 3.1.2 [14] para cuatro estrategias de partición: 1) los dos genes unidos 2) los dos genes por separado 3) regiones loop unidas y regiones stem unidas 4) regiones loop y stem de cada gen por separado. Las estrategias de partición fueron determinadas a priori con base en la identidad de los genes (12S y tRNA-val) e imposiciones bioquímicas y evolutivas (stem y d-loop). Se corrieron 5 millones de generaciones, con muestreo cada 1000 generaciones, 3 cadenas de Markov y especificación de las frecuencias de bases de cada modelo. Se probó convergencia corriendo dos réplicas para cada estrategia de partición y observando resultados similares en las dos corridas. Para elegir la mejor estrategia de partición se utilizó el factor Bayes de acuerdo a lo descrito en el manual de Mrbayes, es decir calculando la diferencia entre las medias armónicas de las dos hipótesis a probar; el factor Bayes se interpreta como el éxito relativo de las dos hipótesis en la predicción de los datos [15]. Las medias armónicas se encontraron con el comando sump en Mrbayes y se utilizó la tabla de Jeffreys [16], modificada por Raftery [15] (Tabla 3) aplicando un corte ൒ 3 como evidencia positiva para la hipótesis alternativa.

RESULTADOS Y DISCUSIÓN

Los modelos de evolución encontrados para cada subconjunto de datos fueron casi siempre diferentes, resaltando la identidad evolutiva de cada región estudiada (tabla 2).

En todos los casos, los 5 millones de generaciones resultaron en convergencia como se

demostró por las topologías iguales para las dos réplicas de cada estrategia de partición

del Análisis Bayesiano.

(3)

La mejor estrategia de partición de acuerdo al Factor Bayes fue la Nº 4, tratando las regiones loop y stem de cada gen por separado; las demás estrategias no mostraron valores significativos (Tabla 4). La evolución de las regiones loop y stem está marcada por una fuerte presion selectiva para el mantenimiento de la estructura secundaria que hace que los cambios en la región stem de una base apareada a un estado no apareado tienda a ser fuertemente seleccionada en contra [7]. Por otro lado, las probabilidades posteriores de los nodos fueron mayores en el análisis bayesiano llevado a cabo con la estrategia 4, lo que refleja que una modelación más precisa usando modelos específicos para las particiones, reduce el error sistemático produciendo valores de likelihood mayores y una estimación más exacta de las probabilidades posteriores [6].

Otro punto interesante, es que diferente a lo esperado la peor estrategia de partición no fue la 1, conteniendo todos los datos juntos sino la 3, en la que las regiones loop de los dos genes estaban unidas e igualmente las regiones stem. De esta forma se observa que las regiones loop y stem de diferentes genes pueden haber evolucionado de forma diferente y más en el caso de los genes utilizados ya que el gen 12S codifica proteínas ribosomales mitocondriales, mientras el gen tRNA valina codifica para RNA transferente [17]. Por lo tanto, la simple adición de particiones no necesariamente mejora los resultados; en lugar la identidad de cada partición es extremadamente importante [2]

En cuanto al análisis filogenético, se encontraron relaciones internas dentro del género Hyla similares a las reportadas por Darst & Cannatella, con {H. lanciformis + H.

calcarata} y {H. picturata + H. pellucens} siendo grupos hermanos y H. pantosticta a la vez siendo grupo hermano de estos dos clados. Además el género Hyla no es un grupo monofilético como lo indica la posición de H. triangulum dentro del grupo.

La importancia de trabajar con particiones definidas por una historia similar se evidenció

en las probabilidades posteriores de los nodos y se confirmó por medio del factor Bayes,

al determinar que la mejor estrategia de partición fue aquella con identidades claras para

los subconjuntos más pequeños posibles de caracteres compartiendo un proceso

evolutivo común. El tamaño reducido del set de datos fue una limitante a la hora de

reforzar las conclusiones, ya que sólo se pudieron evaluar probabilidades posteriores

para 4 nodos. Aún así se confirma que los métodos filogenéticos y en especial el Análisis

Bayesiano obtienen mejores resultados cuando trabajan con modelos evolutivos

apropiados aplicados a particiones adecuadas.

(4)

BIBLIOGRAFÍA

1- Kluge, A.G., 1997. Testability and the refutation and corroboration of cladistic hypotheses. Cladistics 13, 81–96.

2- Nylander, J.A., Ronquist, F., Huelsenbeck, J.P., Nieves Aldrey, J.L., 2004. Bayesian phylogenetic analysis of combined data. Systematic Biology 53, 47–67.

3- Baker, R.H.,and DeSalle, R., 1997. Multiple sources of character information and the phylogeny of Hawaiian drosophilids. Syst. Biol. 46, 654–673.

4- Bull, J.J., Huelsenbeck, J.P., Cunningham, C.W., Swofford, D., Waddell, P.J., 1993.

Partitioning and combining data in phylogenetic analysis. Syst. Biol. 42, 384–397.

5- Huelsenbeck, J. P., and K. A. Crandall. 1997. Phylogeny estimation and hypothesis testing using maximum likelihood. Annu. Rev. Ecol. Syst. 28:437-466.

6- Brandley, M.C., Schmitz, A., Reeder, T.W., 2005. Partitioned Bayesian analyses, partition choice, and the phylogenetic relationships of scincid lizards. Systematic Biology 54, 373–390.

7- Telford, M.J., Wise, M.J., Gowri-Shankar, V., 2005. Consideration of RNA secondary structure significantly improves likelihood-based estimates of phylogeny: examples from the Bilateria. Molecular Biology and Evolution 22, 1129–1136.

8- Boumans, L., Vieites, D.R., Glaw, F., Vences, M., 2007. Geographical patterns of deep mitochondrial differentiation in widespread Malagasy reptiles. Mol. Phylogenet. Evol. 45, 822–839.

9- Darst, C. R., and D. C. Cannatella. 2004. Novel relationships among hyloid frogs inferred from 12S and 16S mitochondrial DNA sequences. Molecular Phylogenetics and Evolution 31(3):462–475.

10- Robert C, E. 2004. MUSCLE: multiple sequence aligment with high accuracy and high throughput, Nucleic Acids Research 32(5). 1792-97

11- Titus, T. A., and D. R. Frost. 1996. Molecular homology assessment and phylogeny in

the lizard family Opluridae (Squamata: Iguania). Mol. Phylogenet. Evol. 6:49–62.

(5)

12- Kumazawa, Y., and M. Nishida. 1993. Sequence evolution of mitochondrial tRNA genes and deep-branch animal phylogenetics. J. Mol. Evol. 37:380–398.

13- Posada D. 2008. jModelTest: Phylogenetic Model Averaging. Molecular Biology and Evolution 25: 1253-1256.

14- Huelsenbeck, J.P & Ronquist, F. (2001). MRBAYES: Bayesian inference o phylogeny. Biometrics. 17:754 755.

15- Raftery,A. 1996. Hypothesis testing and model selection. Pages 163–18 in Markov Chain Monte Carlo in Practice (W. R. Gilks, S. Richardson, and D. J. Spiegelhalter, eds.).

Chapman and Hall, New York, USA.

16- Jeffreys, H. 1935. Some tests of significance, treated by the theory of probability. P.

Camb. Philos. Soc. 31:203–222.

17- Klug, W. & M. Cummings. 2006 Conceptos de genética. 8º edición. Prentice Hall,

Madrid. 814p

(6)

ANEXOS  

Taxa Genes 12S y tRNA valina

Gastrotheca pseustes AY326051

Hyla calcarata AY326056

Hyla lanciformis AY326054

Hyla pantosticta AY326052

Hyla picturata AY326055

Hyla triangulum AY326053

Hyla pellucens AY326058

Tabla 1. Números de acceso al GenBank de los genes 12S ribosomal y tRNA valina para los 16 taxa 

   

Particiones Modelo

Genes unidos GTR + G

12S GTR + G

tRNA valina TPM3uf

Loop 12S TIM2 + G

Stem 12S TPM2 + I + G

Loop tRNA valina JC

Stem tRNA valina K80

Loop total (12S + tRNA valina) TIM2 + G Stem total (12S + tRNA valina) TPM2 + G

Tabla 2. Modelos encontrados en jmodeltest para cada una de las particiones utilizadas 

   

Factor Bayes Evidencia para H1

< 0 Negativo (Soporte H0) 1 - 3 Apenas vale la pena mencionarla

3 - 20 Positiva

20 - 150 Fuerte

>150 Muy fuerte

Tabla 3. Interpretación del factor Bayes. Tabla de Jeffreys modificada por Raftery. Tomada de Nylander et al. 

(2004). 

 

 

(7)

 

  P4  P3  P2  P1 

P1  6.37  ‐0.08  0.95  ‐ 

P2  5.72  ‐0.29  ‐   

P3  6.45  ‐     

P4  ‐       

Tabla 4. Valores del Factor Bayes resultantes de la comparación entre las estrategias de partición utilizadas. 

Un valor positivo indica evidencia para H1. P1, P2, P3, P4=Estrategias de partición 1, 2, 3 y 4 como son  descritas en el texto. 

     

 

Figura 1. Análisis Bayesiano para la estrategia de partición 1, los dos genes unidos. Los valores corresponden  a las probabilidades posteriores de los nodos.  

 

gastr

trian

panto

calca

lanci 0.88

pictu

pellu 0.87

1.00 0.98

(8)

 

Figura 2. Análisis Bayesiano para la estrategia de partición 2, los genes por separado. Los valores  corresponden a las probabilidades posteriores de los nodos.  

 

 

Figura 3. Análisis Bayesiano para la estrategia 3, regiones loop unidas y regiones stem unidas. Los valores  corresponden a las probabilidades posteriores de los nodos. 

gastr

trian

panto

calca

lanci 0.86

pictu

pellu 0.94

1.00 0.98

gastr

trian

panto

calca

lanci 0.87

pictu

pellu 0.78

1.00 0.98

(9)

 

Figura 4. Análisis bayesiano para la estrategia 4, regiones loop y stem de cada gen por separado. Los valores  corresponden a las probabilidades posteriores de los nodos 

   

                 

gastr

trian

panto

calca

lanci 0.90

pictu

pellu 0.91

1.00 0.98

Figure

Actualización...

Referencias

Actualización...

Related subjects :