Análisis estadísticos utilizando una matriz de AFLPs

Los marcadores AFLPs utilizados en esta tesis fueron amplificados previamente en la tesis de la Ing. Agr. Valeria Beaufort. Registrada esta información se elaboraron matrices con los pares de loci de AFLP informativos de acuerdo con los parámetros y supuestos para cada uno de los análisis que se ejecutaron. En total se utilizaron 6 combinaciones de los cebadores: P40-M38, P40-M43, P41-M31, P41-M39, P41-M43 y P41-45 (Tabla 3). Los productos de amplificación se resolvieron en geles de acrilamida al 6%, en una cuba Biorad. Se estableció una pre corrida de 30 minutos a 60 Watts para templar el buffer, y posteriormente 1000 Voltios constantes durante 3 h 30 minutos. El revelado del gel se realizó con nitrato de plata. Se dejó a secar 24 hs para luego registrar las bandas.

Tabla 3. Secuencias de cebadores AFLP Pst+3 y Mse+3 utilizados para el análisis de 118 genotipos de trigo candeal de distintos orígenes geográficos.

Cebador Código Secuencia

MseAAA M31 5´ GATGAGTCCTGAGTAAAAA 3´ MseACT M38 5´ GATGAGTCCTGAGTAAACT 3´ MseAGA M39 5´ GATGAGTCCTGAGTAAAGA 3´ MseATA M43 5´ GATGAGTCCTGAGTAAATA 3´ MseATG M45 5´ GATGAGTCCTGAGTAAATG 3´ PstAGC P40 5´ GACTGCGTAGGTGCAGAGC 3´ PstAGG P41 5´ GACTGCGTAGGTGCAGAGG 3´

2.7.1 Registro de marcadores y análisis datos

Los productos de PCR fueron identificados visualmente de los geles de poliacrilamida previamente escaneados, codificándose como 0: la ausencia, 1: la presencia y -1 dato perdido (banda ilegible, borrosa, indefinida) de una determinada banda. Con este registro se

54 creó una matriz binaria de datos con la que se realizaron los siguientes análisis de variabilidad.

2.7.2 Análisis de la variabilidad alélica

El poder de discriminación de los marcadores AFLP fue evaluado mediante los parámetros: porcentaje de loci polimórficos (%P), índice de contenido polimórfico (PIC) e índice de marcador (MI) que fueron calculados a partir de resultados obtenidos con el programa GenAlEx 6.4 (Peakall & Smouse, 2006). Para efectuar estos análisis previamente se eliminaron aquellos loci con más de 10% de datos perdidos y alelos raros o en baja frecuencia, dato que fue entregado por el programa. El parámetro %P se calculó según Pamidimarri et al. (2009), como el cociente entre el número total de bandas polimórficas/número total de bandas x 100. El índice de contenido polimórfico (PIC) de cada marcador se utilizó para evaluar la capacidad de los cebadores en detectar locus polimórficos y su frecuencia en los genotipos estudiados (Anderson et al., 1993); el mismo se calculó de acuerdo a Roldan-Ruiz et al. (2000), mediante la fórmula:

PIC= 2 fi (1-fi)

Donde: fi = frecuencia de las bandas donde está presente el marcador; (1-fi)= frecuencia de las bandas ausentes del marcador. El MI se calculo a través de la fórmula sugerida por Powell et al. (1996) como MI=PIC*η*β, donde η es el número total de bandas y β es la proporción de bandas polimórficas.

2.7.3 Distancia genética

A partir de la matriz binaria de datos se calculó la distancia genética entre genotipos usando la Distancia Genética Binaria (DG) (Huff et al., 1993), calculada como:

2 1 2 xy n GD n n   =  −   

Donde, n es el número total de bandas polimórficas y 2nxy es el número de marcadores

55 presencia como ausencia de bandas. Las distancias genéticas también fueron analizadas mediante la técnica multivariada Análisis de Coordenadas Principales (PCoA), para así obtener una representación gráfica de la relación entre genotipos y grupos de origen. La distribución de la variación genética se estudió mediante el Análisis de la Varianza Molecular (AMOVA) (Excoffier et al., 1992). Como medida de diferenciación genética entre accesiones se usó el estadístico PhiPT o φPT (análogo al Fst), cuyo valor de significancia se estableció mediante la realización de 1000 permutaciones. La ventaja de este método en relación a los estadísticos clásicos de Wright (Fst) es que no utiliza frecuencias alélicas y por tanto evita asumir equilibrio de Hardy-Weinberg manteniendo el supuesto de independencia entre loci. Todos estos análisis estadísticos se realizaron con los programas GenAlEx 6.4 (Sneath & Sokal, 1973) e InfoStat (Di Rienzo et al., 2008).

2.7.3 Estructura poblacional del germoplasma

Para estimar la estructura de la población se utilizaron dos enfoques. En uno de ellos se desarrolló una matriz de similitud genética a partir de la distancia binaria genética (Huff et al., 1993), que se utilizó para construir un dendrograma mediante el algoritmo UPGMA. Para el segundo enfoque, análisis bayesiano, se seleccionaron 6 combinaciones de AFLPs con valores medios a altos de PIC. Los marcadores con una alta frecuencia de alelos raros y datos perdidos mayor o igual al 10% se evitaron debido a que los alelos raros sobrestiman el DL (Gaut & Long 2003; Somers et al., 2007). Las 118 accesiones fueron agrupadas de acuerdo al método heurístico basado en el algoritmo Bayesiano MCMC (Marcov Chain Monte Carlo), implementado en el programa Structure (Pritchard et al. 2000; Falush et al. 2003; Falush et al. 2007; Hubisz et al. 2009).

El proceso de MCMC comienza asignando aleatoriamente los individuos a un número predeterminado de grupos, donde las frecuencias alelicas se estiman en cada grupo y los individuos son reasignados basadose en las estimaciones de las frecuencias alelicas. Esto se repite muchas veces, y es el denominado proceso burnin, que comprende normalmente 100.000 iteraciones, que resultan en la convergencia progresiva hacia estimaciones confiables de las frecuencias alelicas en cada población y en la determinación según probabilidades de pertenencia de los individuos a una población.

56 La medición o determinación del supuesto número de poblaciones (K), utiliza la estimación de las MCMC y se realiza por separado de la primera etapa denominada burnin. Structure realiza análisis individuales para cada uno de los números de poblaciónes asumidos, de uno a un número razonablemente apropiado para el régimen de muestreo. Structure aplica un modelo a los datos de K poblaciones asumidas o grupos genéticos, cada uno caracterizado por un subconjunto de frecuencias alelicas identificadas en los datos. Comúnmente K no es definido fácilmente por el usuario para el conjunto de genotipos, aunque este parámetro debe ser preseleccionado. Por lo tanto, un primer paso apropiado es calcular la probabilidad de los datos para una gama de valores de K creando probabilidades posteriores de K, denominadas X y escritas: X | K. Puesto que K no es un valor absoluto, los valores definidos por el usuario deben considerarse cuidadosamente, teniendo en cuenta las características de las poblaciones muestreadas. La ejecución de una serie de valores de K prescritos para obtener sus valores de X normalmente crea probabilidades menores que las del valor de K más apropiado, estas probabilidades tienden a ser muy similares para valores de K más altos. Por lo tanto, los gráficos de valores de X progresan típicamente a una meseta para niveles de K más allá del número más aplicable de poblaciones detectadas, por lo que el valor K más pequeño estable, representa el valor óptimo. Kalinowski (2011) señala que se crean mejores clusters aplicando los valores de K más realistas, por lo que es prudente obtener el valor más pequeño de K que maximiza la probabilidad global de los datos, este enfoque captura la principal estructura de la población subyacente en los datos sin sobreestimarla .

Durante cada análisis, los coeficientes de pertenencia permiten asignar los individuos a cada grupo. La matriz de coeficientes de pertenencia, denominada matriz Q, se genera con filas para el número de individuos analizados y columnas para los grupos K. Los coeficientes medios de pertenencia individuales para cada población forman la matriz Q de la población. Si la mezcla no es un factor para las muestras de las poblaciones analizadas, las probabilidades posteriores de pertenecer a cada uno de los grupos K se calculan para cada individuo y un genotipo puede considerarse un miembro del grupo con mayor probabilidad. Si se considera la mezcla, los coeficientes de pertenencia se hacen a través de múltiples grupos.

57 Este enfoque bayesiano se utilizó para inferir el número de subpoblaciones (K) y para asignar los individuos a cada una de las subpoblaciones en base a la proporción de miembros en cada sub-población y coeficiente de pertenencia (matriz Q) calculada por el software Structure V.2 (Pritchard et al. 2000). Para esta tesis el número potencial de grupos considerado varió de K=1 a 10, y se realizaron 3 corridas independientes de cada valor K. El valor óptimo de K se estableció evaluando el estadístico ∆K y L(K) de acuerdo a (Evanno et al. 2005). La medida ∆K provee una mejor estimación del valor real de K que el máximo valor L(K) devuelto por el programa Structure. Para establecer el valor K del germoplasma el programa Structure realizó 100.000 repeticiones iniciales o iteration burn- in (iteration burn-in: se refiere a la práctica de descartar una porción inicial de una muestra de cadena de Markov, de manera que se minimice el efecto de estos valores iniciales en la inferencia a posteriori del parámetro) y 1.000.000 iteraciones finales (Pritchard y Wen, 2004). El modelo estadístico indicado en el programa fue el de mezcla de genomas con alelos correlacionados y no se indicó grado de parentesco entre las accesiones. La matriz Q, se estimó como el promedio de tres corridas para K=6 según el resultado de (Evanno et al. 2005).

2.7.4 Análisis de desequilibrio de ligamiento

Del total de loci polimórficos de la matriz binaria utilizada en el análisis de variabilidad alélica, se eliminaron aquellos loci con más de 10% de datos perdidos y alelos raros o en baja frecuencia Este análisis se realizo previamente en el análisis de variabilidad genética en el programa GenAlEx 6.4. Se genero un matriz codificándose como BB la ausencia de banda, AA la presencia de banda y NA dato perdido (banda ilegible, borrosa, indefinida). El DL se estimó entre todos los pares posibles de marcadores polimórficos de AFLP, y usando el cuadrado de la correlación (r2) como parámetro (Weir 1996). Los loci se consideraron en DL con alta significancia cuando el valor de P <0,0001. El resto de los valores de r2 no se consideraron informativos. Los valores de r2 y su valor crítico de significancia, estimado mediante la realización de 1000 permutaciones, se calcularon utilizando el programa TASSEL (Bradbury et al., 2007).

58 2.8 Mapeo por asociación

Para identificar y mapear variantes alélicas de genes relacionados al CPC, CIEa*, CIE b*, CIEL*, PMG, PH y PGP se utilizó el método de mapeo asociativo. Para ello primero se seleccionaron 118 genotipos de un total de 133 de los cuales se tenía información genética producida por la genotipificación con AFLP. La estructura poblacional fue inferida a partir de análisis bayesianos con el software Structure como se explico anteriormente. Se utilizaron los datos fenotípicos colectados y determinados como se explicó mas arriba en la sección 2.4. La genotipificación de la población se logró a partir de los resultados obtenidos de las combinaciones de cebadores de AFLPs mencionados previamente. Para el mapeo asociativo a nivel de todo el genoma, se utilizó el siguiente modelo lineal mixto:

y = Xβ + Qv + Ku + e

Donde X es la matriz de marcadores moleculares, β es el vector de parámetros relacionados con la regresión simple de los marcadores en el fenotipo, Q es la matriz de estructura explicada como probabilidad de pertenencia de cada individuo en una subpoblación, v es el vector de efectos de cada grupo o subgrupo, K es la matriz de identidad, u es la vector de efectos poligénicos, e es el vector de los errores aleatorios. Previo al análisis los alelos raros (frecuencia meno al 10%) no fueron considerados. El análisis se realizó mediante el programa TASSEL, versión 2.0.1 (Bradbury et al., 2007). El modelo utilizado fue el modelo lineal mixto (MLM, Q + K) (Yu et al., 2006). Se consideró la existencia de asociación significativa entre un marcador y un carácter con una tasa de falso descubrimiento (FDR False Discovery Rate) de p <0,05 (Benjamini y & Hochberg 1995).

2.9 Análisis del gen ZDS

In document Asociación de marcadores de AFLPs y caracteres de calidad y rendimiento en trigo candeal Triticum turgidum L. var. Durum (página 71-76)