COMPARACIONES A POSTERIOR - Experimentación en agricultura

Se utilizan en experimentos que no tienen una estructuraa priori de los tratamientos y permiten realizar todas las comparaciones posibles por parejas [ax (a- 1) / 2] entre las medias. Al ser los procedimientos más empleados tradicionalmente, se han denunciado numerosos abusos derivados de su utilización para comparar medias de un factor cuantitativo o de experimentos con una estructura claramente definida de los tratamientos.

Los métodos de comparaciones múltiples son numerosos y se pueden agrupar en dos ca- tegorías en función de la protección que ofrecen contra los errores de tipo I y de tipo II. Los que presentan una mayor potencia contra el error tipo II (falsos negativos) y, por tanto, ofrecen una menor protección contra el error tipo I (falsos positivos), se consideran “liberales”, mientras que los que protegen especialmente contra el error tipo I y presentan una menor potencia contra el error tipo II, serían los “conservadores”. En el primer grupo se incluyen la mínima diferencia significativa (MDS o “least significant difference,LSD”), o mínima diferencia significativa protegida de Fisher (FLSD), y la LSD de Waller-Duncan-Bayes (BLSD). En el segundo grupo se incluyen los tests deDuncan, Student-Newman-Keuls (SNK), Tukey, Sidak, Bonferroni y Scheffé. El orden de estos métodos respecto a la protección frente al error de tipo I sería:

FLSD≤BLSD<Duncan<SNK<Tukey<Sidak<Bonferroni<Scheffé

La estrategia general de estos métodos se basa en establecer un valor crítico de compara- ción (C) y si el valor absoluto de la diferencia entre las medias que comparamos supera ese nivel crítico se declara que dichas medias son diferentes significativamente. El nivel de sig- nificación (α) para el cálculo del valor crítico suele ser 0.05, aunque puede utilizarse otro. Los intervalos de confianza para las comparaciones se calculan comoX₁- X₂+ C . Respecto a la utilización de uno u otro de estos métodos no existe un acuerdo unánime entre los esta-

dísticos, por lo que tendrá que ser una decisión particular en función de los objetivos del experimento y la protección deseada frente a los errores tipo I y tipo II. Por eso, muchos programas estadísticos incluyen varios de ellos.

Para utilizar las comparaciones múltiples en el programaStatistix, una vez realizado el ANOVA correspondiente, en la pantalla de resultados se elige la siguiente secuencia:

Results>Multiple Comparisons>All-pairwise Comparisons

En la pantalla resultante se introduce el método de comparación (Tukey, LSD, Scheffé, Mul- tiplicative Sidak, Bonferroni), el nivel de significaciónα (generalmenteα = 0.05), y el formato de presentación de los resultados (grupos homogéneos o matriz triangular; generalmente se utiliza el primero) y se pulsa OK. El resultado del análisis presenta varios es- tadísticos, entre los que destaca el valor crítico para comparación, según el test seleccio- nado. En la opción grupos homogéneos, las medias aparecen seguidas de una o varias letras, cada letra señala a un grupo homogéneo de medias, de forma que medias seguidas por al- guna letra común no difieren significativamente entre sí para el nivelα elegido. En la otra op- ción de formato de resultados, las medias aparecen en una matriz triangular, destacándose con un asterisco todos los pares de medias que difieren significativamente.

A continuación se indican las características más sobresalientes de los métodos de compa- ración múltiple más utilizados en los experimentos agronómicos.

Método de la Mínima Diferencia Significativa (MDS o “LSD”)

El método de la mínima diferencia significativa (MDS), o “Least Significant Difference” (LSD), es el que suele dar el valor crítico más bajo y, por tanto, el menos conservador, o más liberal, de los métodos de comparación múltiple. El valor crítico para una comparación es:

dondet es la t de Student para el nivel de significaciónα, yγgrados de libertad del error; CME es el cuadrado medio del error y r₁y r₂son el número de observaciones de cada media. Cuando éstas son igualesr₁=r₂=r.

El problema de este método es que el error tipo I aumenta al aumentar el número de comparaciones. Por ello, este método se ha recomendado sólo después de que el ANOVA haya resultado significativo, denominándose como eltest LSD protegido de Fisher (FLSD). En cual- quier caso, este test es el que ofrece menor protección contra el error tipo I, por lo que de- bería usarse sólo en contrastes establecidosa priori y cuando el número de comparaciones es pequeño.

12 grados de libertad. Para un nivel de significaciónα=0,05 el valor det en la Tabla A1 es 2,179, luego:

La hipótesis nula se rechaza cuando la diferencia entre dos medias es superior al valor crí- tico MDS. Las comparaciones entre medias y su significación se muestran a continuación:

Comparaciones Diferencia Valor crítico Significación

12,0-10,5 1,5 2.05 NS 12,0-8,0 4 2.05 * 12,0-9,25 2,75 2.05 * 12,0-10,25 1,75 2.05 NS 10,5-8,0 2,5 2.05 * 10,5-9,25 1,25 2.05 NS 10,5-10,25 0,25 2.05 NS 8,0-9,25 -1,25 2.05 NS 8,0-10,25 -2,25 2.05 * 9,25-10,25 -1,0 2.05 NS

Se han encontrado diferencias significativas entre las variedades 1 y 3; 1 y 4; 2 y 3; 5 y 3, no difiriendo significativamente las demás comparaciones.

En el programaStatistic, siguiendo la secuencia:

Results >Multiple comparisons >All-pairwise comparisons se elije LSD paraα= 0,05 y se obtiene la siguiente salida:

LSD All-Pairwise Comparisons Test of Rendimiento for Variedades

Variedad Mean Homogeneous Groups

1 12.000 A

2 10.500 AB

5 10.250 AB

4 9.250 BC

3 8.000 C

Alpha 0.05 Standard Error for Comparison 0.9421

Critical T Value 2.179 Critical Value for Comparison 2.0526

Error term used: V002*V001, 12 DF

There are 3 groups (A, B, etc.) in which the means are not significantly different from one another.

Como es lógico los resultados coinciden con los obtenidos anteriormente. El programa muestra el nivel de significaciónα, el valor det para ese nivel de significación, el valor de y el valor crítico para la comparación (MDS).

Método deTukey

Este método, conocido también como “Honestly Significant Difference (HSD)”, hace uso del estadístico Q (“amplitud estudentizada”) y es aplicable a comparaciones por pares de medias, por lo que puede dar diferencias significativas aunque el valor deF en el ANOVA no resulte significativo. El valor crítico se calcula teniendo en cuenta el número de tratamientos, lo que protege contra el error tipo I. Aunque es, por tanto, un método conservador, resulta el más liberal de ellos. Su principal desventaja, aparte de su sensibilidad al error tipo II, es que re- quiere el mismo número de observaciones o repeticiones en las medias. Este inconveniente se supera con una variante del método conocida como eltest de Tukey-Kramer.

El estadístico Q viene dado por la expresión:

siendo CME el cuadrado medio del error y n el número de repeticiones. Los valores críticos del test están tabulados en la Tabla A14. La hipótesis nula es rechazada si el valor de Q calculado es mayor que el valor crítico de la tabla.

Tomemos como ejemplo los datos de la Tabla 7.1, que recoge los datos de un experimento en bloques al azar con cinco tratamientos (variedades) y cuatro bloques. El CME = 1,775 con 12 grados de libertad. Para un nivel de significaciónα=0,05 y cinco tratamientos, el valor crítico mostrado en la Tabla A14 es 4,51. Los valores de Q para las diferentes comparaciones de todas las medias entre sí serían:

Las comparaciones se muestran a continuación:

Comparaciones Q Valor crítico Significación 12,0-10,5 1,5 / 0,6661 = 2,25 4,51 NS 12,0-8,0 4 / 0,6661 = 6,00 4,51 * 12,0-9,25 2,75 / 0,6661 = 4,12 4,51 NS 12,0-10,25 1,75 / 0,6661 = 2,62 4,51 NS 10,5-8,0 2,5 / 0,6661 = 3,75 4,51 NS 10,5-9,25 1,25 / 0,6661 = 1,87 4,51 NS 10,5-10,25 0,25 / 0,6661 = 0,37 4,51 NS 8,0-9,25 -1,25 / 0,6661 = -1,87 4,51 NS 8,0-10,25 -2,25 / 0,6661 = -3,37 4,51 NS 9,25-10,25 -1,0 / 0,6661 = -1,50 4,51 NS

Se concluye que la única diferencia significativa la muestran las variedades 1 y 3, y el resto de las comparaciones no muestran diferencias significativas entre sí. Los resultados son algo diferentes a los obtenidos con la mínima diferencia significativa, donde se aprecian tres grupos de significación. Puede comprobarse en este ejemplo que el test de Tukey se muestra más conservador que el de la MDS.

En el programaStatistic, siguiendo la secuencia:

Results >Multiple comparisons >All-pairwise comparisons se elije Tukey paraα= 0,05 y se obtiene la siguiente salida:

Tukey HSD All-Pairwise Comparisons Test of Rendimien for Variedade

Variedade Mean Homogeneous Groups

1 12.000 A 2 10.500 AB 5 10.250 AB

4 9.250 AB

3 8.000 B

Alpha 0.05 Standard Error for Comparison 0.9421

Critical Q Value 4.515 Critical Value for Comparison 3.0078

Error term used: Bloques*Variedade, 12 DF There are 2 groups (A and B) in which the means are not significantly different from one another.

El programa muestra las medias, la asociación en grupos de significación, el valor deα, el valor crítico de Q que se recoge en las tablas, y el valor crítico para la comparación, que in- dica la diferencia mínima que debe existir entre dos medias para que su diferencia resulte significativa, valor que solo se supera al comparar las variedades 1 y 3.

Procedimientos de Bonferroni y de Sidak

Ambos métodos arrojan resultados muy parecidos y siguen la misma estrategia para pro- tección del error tipo I. Ésta consiste en penalizar el valor de significación P. En eltest de Stu- dent, que utiliza el método LSD, el valor de significación es la constanteα. En cambio, en estos métodos el nivel de significación ajustado (p) es una función decreciente de m, siendo m el número de comparaciones. El método de Bonferroni emplea la función p=α / m, mientras que el de Sidak usa la funciónp= 1-- (1-α)m. Por tanto, en cualquiera de ellos la tasa del error tipo I es inferior aα, siendo generalmente el método deBonferroni más conservador que el deSidak. El problema de estos procedimientos es que resultan demasiado conservadores cuando el número de comparaciones (m) aumenta, por lo que sólo son útiles cuando el número de comparaciones es bajo.

La popularidad de ambos métodos, sobre todo el deBonferroni, también se debe a que al ser tan conservadores presentan la ventaja de darle más credibilidad a las conclusiones del investigador. Además, estos procedimientos se pueden usar en muchas otras situaciones y contextos distintos del ANOVA, incluso asociados con tests no paramétricos.

Para ambos métodos, el valor crítico se obtiene igual que con la mínima diferencia significativa, pero utilizando el valor dep:

Valor crítico =

La hipótesis nula se rechaza cuando la diferencia entre dos medias es superior o igual al valor crítico. Un problema para el cálculo manual es encontrar tablast de Student para cual- quier valor deα, algo superado en los programas informáticos.

Vamos a ilustrar el procedimiento de cálculo de uno de estos métodos, el de Bonferroni, con el mismo ejemplo anterior de la Tabla 7.1, que recoge los datos de un experimento en bloques al azar con cinco tratamientos (variedades) y cuatro bloques. El CME = 1,775 con 12 grados de libertad. Para un nivel de significaciónα=0.05, el valor dep= =0,005, y el valor crítico resulta:

Valor crítico =

0,05 10

El valor det no aparece en la Tabla A1 que no muestra los valores para un nivel de signifi- cación de 0,005, aunque se puede intuir el valor aproximado en esa tabla.

Las comparaciones se muestran a continuación:

Comparaciones Diferencia Valor crítico Significación

12,0-10,5 1,5 3,23 NS 12,0-8,0 4 3,23 * 12,0-9,25 2,75 3,23 NS 12,0-10,25 1,75 3,23 NS 10,5-8,0 2,5 3,23 NS 10,5-9,25 1,25 3,23 NS 10,5-10,25 0,25 3,23 NS 8,0-9,25 -1,25 3,23 NS 8,0-10,25 -2,25 3,23 NS 9,25-10,25 -1,0 3,23 NS

Los resultados son los mismos que los obtenidos con el test de Tukey. En el programaStatistic, siguiendo la secuencia:

Results >Multiple comparisons >All-pairwise comparisons se elije el test de Bonferroni y se obtiene la siguiente salida:

Bonferroni All-Pairwise Comparisons Test of Rendimien for Variedade

Variedade Mean Homogeneous Groups

1 12.000 A 2 10.500 AB 5 10.250 AB

4 9.250 AB

3 8.000 B

Alpha 0.05 Standard Error for Comparison 0.9421

Critical T Value 3.428 Critical Value for Comparison 3.2298

Error term used: Bloques*Variedade, 12 DF There are 2 groups (A and B) in which the means are not significantly different from one another.

El programa muestra las medias, la asociación en grupos de significación, el valor deα, el valor det para la prueba de dos colas, y el valor crítico para la comparación, que es el calculado anteriormente.

Procedimiento deScheffé

Es el método que generalmente suele dar un valor crítico más elevado y, por tanto, el más conservador de los tests de comparación múltiple. El valor crítico para la comparación es una función de laF general del ANOVA, por lo que las comparaciones con este método nunca son significativas si laF no es significativa. Este método se recomienda cuando la comisión de un error tipo I pueda tener consecuencias muy graves. También es útil para establecer comparaciones sugeridas por los datos. El programaStatistix lo incluye, junto a la t de Student, en los contrastes ortogonales, pero esta opción sólo deberá tenerse en cuenta cuando el con- traste no se haya establecidoa priori, sino en función de los datos obtenidos, o cuando se realicen todas las comparaciones ortogonales posibles con un número elevado de medias. Este test puede utilizarse aún cuando el número de repeticiones de cada media sea dife- rente. El valor crítico para la comparación es:

Valor crítico = siendo:

t el número de tratamientos F0,05el valor de F en la Tabla A2

n el número de repeticiones de cada muestra CME el cuadrado medio del error.

La hipótesis nula se rechaza cuando la diferencia entre dos medias es superior al valor crí- tico.

Tomando el mismo ejemplo anterior de la Tabla 7.1, que recoge los datos de un experimento en bloques al azar con cinco tratamientos (variedades) y cuatro bloques, se tiene que el CME = 1,775 con 12 grados de libertad. Los grados de libertad de los tratamientos son 4, por lo que el valor de F en la Tabla A2 resulta 3,26. El valor crítico es:

Valor crítico =

Comparaciones Diferencia Valor crítico Significación 12,0-10,5 1,5 3,40 NS 12,0-8,0 4 3,40 * 12,0-9,25 2,75 3,40 NS 12,0-10,25 1,75 3,40 NS 10,5-8,0 2,5 3,40 NS 10,5-9,25 1,25 3,40 NS 10,5-10,25 0,25 3,40 NS 8,0-9,25 -1,25 3,40 NS 8,0-10,25 -2,25 3,40 NS 9,25-10,25 -1,0 3,40 NS

Los resultados son los mismos que los obtenidos con el test de Tukey y con el de Bonferroni, pero nótese que el valor crítico para la comparación es el mayor de todos.

En el programaStatistic, siguiendo la secuencia:

Results >Multiple comparisons >All-pairwise comparisons se elije el test de Scheffé y se obtiene la siguiente salida:

Scheffe All-Pairwise Comparisons Test of Rendimien for Variedade

Variedade Mean Homogeneous Groups

1 12.000 A 2 10.500 AB 5 10.250 AB

4 9.250 AB

3 8.000 B

Alpha 0.05 Standard Error for Comparison 0.9421

Critical F Value 3.259 Critical Value for Comparison 3.4015

Error term used: Bloques*Variedade, 12 DF There are 2 groups (A and B) in which the means are not significantly different from one another.

El programa muestra las medias, la asociación en grupos de significación, el valor deα, el valor deF y el valor crítico para la comparación, que es el calculado anteriormente.

Otros métodos de comparación múltiple

Una variante del testLSD es el método de Waller-Duncan, también conocido como el test LSD bayesiano (BLSD). Este test determina un valor crítico similar al método LSD, pero en este caso el investigador tiene la posibilidad de establecer una estimación subjetiva de la impor- tancia relativa de los errores tipo I y tipo II. El programaStatistix no lo incluye entre los procedimientos de comparación múltiple, pero las tablas de los valores t de riesgo-promedio-mínimo aparecen en diversos textos de estadística, como en Steel y Torrie (1985).

Dos métodos utilizados habitualmente en experimentos agronómicos y en otras áreas de la biología son el deamplitud múltiple de Duncan y el de Student-Neuman-Keuls (SNK). Ambos tienen en común que usan amplitudes múltiples para comparar. Es decir, no calculan un único valor crítico, sino varios, en función del número de medias y de la distancia o separación entre ellas. Son métodos menos conservadores que el deTukey, pero algo más que el LSD. La desventaja principal de estos métodos es que son más complejos de utilizar y, sobre todo, que no permiten establecer intervalos de confianza. Por ello, no son muy utilizados ac- tualmente y algunos programas, comoStatistix, no los incluyen. Se han desarrollado algunas modificaciones del testSNK que eliminan algunos de sus inconvenientes y mejoran su potencia (menor riesgo de error tipo II), como eltest Shaffer-Ryan, pero todavía son poco utilizados y no se incluyen en la mayoría de los programas estadísticos.

Otro método recomendado para comparaciones múltiples en experimentos con numerosas medias en los que es deseable obtener grupos de medias que no se solapen (por ejemplo, comparación de cultivares) es el deScott-Knottt basado en el análisis “cluster”. No obstante, experimentos de simulación han demostrado que este método protege menos contra el error tipo I que el métodoFLSD (Willavize et al., 1980), por lo que no ha tenido una amplia difusión. Como conclusión sobre los diferentes contrastes y procedimientos de comparación múltiple hay que destacar que no existe un único método y que la elección del más adecuado depende del experimento a analizar. Lo más recomendable es planificar las comparacionesa priori y aplicar el método de los contrastes ortogonales, o los contrastes polinómicos para un factor cuantitativo con pocos niveles, o bien la comparación con un testigo de referencia o con el mejor. Cuando no es posible planificar las comparacionesa priori, se debería limitar el nú- mero de comparaciones y hacer sólo las que realmente son relevantes, aplicando métodos conservadores como los deBonferroni o Sidak. Finalmente, cuando interese realizar todas las comparaciones posibles de pares de medias, el método más recomendado por diversos autores es el deTukey (Gilligan, 1986; Hsu, 1996; Analytical Software, 2003).

Es el diseño más simple que resulta de utilidad cuando las unidades experimentales son esen- cialmente homogéneas, es decir, cuando la variación entre ellas es pequeña y agruparlas en bloques sería poco más que un proceso aleatorio. Este es el caso en muchos tipos de experimentos de laboratorio, en los que una cantidad de material está completamente mezclado y luego se divide en porciones pequeñas para formar unidades experimentales a las cuales se les asigna los tratamientos de forma aleatoria. Casos similares son los experimentos con animales o plantas con condiciones ambientales muy parecidas.

Los tratamientos se asignan a las unidades experimentales de forma completamente aleatoria, sin ninguna restricción. El diseño completamente aleatorio es flexible en cuanto a que el número de tratamientos y de repeticiones sólo está limitado por el número de unidades experimentales disponibles. El número de repeticiones puede variar de un tratamiento a otro, aunque lo ideal sería tener un número igual por tratamiento. Como la aleatorización no tiene restricciones, el error experimental contiene toda la variación entre unidades experimentales excepto la debida a los tratamientos, por lo que aporta el máximo de grados de libertad para el error.

El principal inconveniente del diseño completamente aleatorio es su poca precisión si las unidades experimentales no son uniformes.

In document Experimentación en agricultura (página 77-87)