ANÁLISIS DE LA VARIANZA (UN FACTOR)
Notas de clase
ÍNDICE
1. Introducción.
2. Modelo de un factor completamente aleatorizado. 3. Procedimientos para comparaciones múltiples. 4. Verificación de las hipótesis básicas.
1. Introducción
El análisis de la varianza (ANOVA, de su expresión inglesa), debido a R.A. Fisher, surge, poco después de la 1ª Guerra Mundial, como una técnica encaminada a comparar las medias de más de dos poblaciones, que son observadas en circunstancias experimentales no totalmente controlables u homogéneas. En concreto, inicialmente, parte de los trabajos de este autor en investigación agraria y, por ello, ha incorporado términos propios de esta campo en su desarrollo teórico: tratamiento, factor, unidad experimental, etc. El problema que se plantea Fisher es cómo estudiar si existen o no diferencias (en términos de media) en la respuesta o reacción que tienen un grupo de unidades experimentales ante distintos tratamientos con un determinado factor. Por ejemplo, ¿sería igual la cosecha de trigo (respuesta media), observada en diversos grupos de parcelas (unidades experimentales), si se les somete a distintos niveles (tratamientos) de abonado (factor)?. Si la respuesta es afirmativa y el experimento estadístico ha sido diseñado correctamente, podría concluirse que el nivel de abonado no afecta a la cosecha obtenida. Por el contrario, si hay diferencias significativas en la cosecha media obtenida para cada nivel de abonado, podemos deducir que hay, al menos, un nivel que determina que el volumen cosechado sea distinto de los demás (supongamos que superior) y procederemos a la identificación del nivel que produce esa mayor respuesta.
Su singularidad respecto al contraste de la diferencia de medias poblacionales radica, además de que se emplea para comparar más de dos poblaciones, en que se considera que los resultados pueden verse expuestos a efectos de factores no controlables en el experimento: diferentes calidades de suelos, horas de insolación, pendientes, etc., en el ejemplo anterior. Por eso, un objetivo básico del método es aislar y evaluar la incidencia de los errores achacables al propio experimento. El ANOVA ha tenido un gran desarrollo y ha dado lugar a una rama con personalidad propia en el campo de la Estadística: el diseño de experimentos.
El análisis de la varianza también puede ser contemplado como un caso especial de regresión (véase el Gráfico 1.1) en que la variable dependiente cuantitativa, Y, que se
cuantitativa, pero agrupada en clases, modalidades o categorías), X, que puede tomar k categorías y que se supone, en principio, se encuentra siempre bajo control del investigador, que decide tales categorías. La variable dependiente, Y, es la respuesta (observación o medida) obtenida para las k categorías (tratamientos o niveles) de la variable explicativa o factor, X, en cada una de las n unidades experimentales que constituyen el tamaño (muestra) del experimento. En el gráfico mencionado, puede observarse como la respuesta media de cada uno de los grupos de 5 unidades experimentales observadas es diferente para cada nivel de factor, mostrando, en este ejemplo, un mayor valor para el nivel o tratamiento C que para el A o el B.
Gráfico 1.1
Hablaremos de análisis de la varianza de un factor (one-way), cuando sólo se contempla una sola variable explicativa. Al modelo de dos variables explicativas, siempre observadas por categorías, le llamaremos análisis de la varianza de dos factores (two-way), y así sucesivamente. En esta lección trataremos, exclusivamente, los modelos de uno y dos factores.
El modelo más simple (véase Tabla 1) de diseño consiste en suponer que se tiene
sólo un factor y que las nunidades experimentales se asignan en forma completamente
aleatoria a cada uno de los k≥2 tratamientos (n= n1+ n2+...+ nj+... +nk). Los tamaños
muestrales de cada tratamiento no tienen por qué ser iguales. Las respuestas
El objetivo es comparar los efectos medios o respuestas medias, Y.j , que producen los distintos tratamientos o niveles de factor. La hipótesis nula será que las medias poblaciones son iguales, y, por tanto, igual a la media global, frente a la alternativa de que al menos una no lo es:
H0: µ1=µ2=...=µj=...µk = µ H1: no todas las µj son iguales
Por hipótesis, se supondrá normalidad y varianza igual en las poblaciones. Si se acepta la hipótesis nula, por tanto, concluiremos diciendo que la respuesta es la misma en todas las unidades experimentales y que no se ve afectada por los distintos niveles
de factor o tratamientos fijados1 por el investigador. Como es fácil de entender, el
contraste estadístico hará uso de las medias muestrales, y se basará, además de esta de normalidad que acabamos de enunciar, en una serie de hipótesis que comentamos a continuación.
Tabla 1: Análisis de la varianza Unidades Experimentales (n) • • • • • • • • • • (n1) • • • • • • • • • • • • • • (n2) ... • • • • • • • • • • • • (nk) Tratamientos (Var. Explicativa, X) X1 Nivel 1 X2 Nivel 2 ... Xk Nivel k Hipótesis Respuesta (Var. Dependiente, Y) Y1 N(µ1 , σ) Y2 N(µ2 , σ) ... Yk N(µk , σ) Muestra: Respuesta observada y11 y21 .. yi1 .. 1 1 n y y12 y22 .. yi2 .. 2 2 n y ... y1k y2k .. yik .. k nk y Totales muestrales T.1 T.2 ... T.k Medias muestrales Y .1 Y .2 ... Y.k
La realización correcta de un diseño experimental de este tipo tiene su fundamento en dos premisas fundamentales: aleatoriedad y repetición. La primera, en el proceso de asignación de las unidades experimentales a los distintos tratamientos, garantiza la imparcialidad y neutralidad ante la presencia de posibles efectos externos, no controlables por el investigador, que puedan perturbar el experimento. La segunda, mediante la observación de las unidades experimentales, que se supondrán homogéneas,
sometidas a un mismo tratamiento, pondrá de manifiesto los cambios en la respuesta que no son atribuibles a variaciones en los niveles de factor. Es decir, las variaciones aleatorias o error experimental.
En estos conceptos se basan los dos diseños básicos de modelos para el análisis de la varianza:
• Diseño completamente aleatorio: todas las unidades experimentales son homogéneas y su asignación a los distintos tratamientos (o viceversa) se hace de forma totalmente aleatoria.
• Diseño en bloques completamente aleatorio: no todas las unidades son homogéneas, pero es posible agruparlas en bloques homogéneos y asignarles, en cada uno de ellos, de forma totalmente aleatoria, los tratamientos correspondientes. Se trata de limitar el error experimental, evitando, en la forma mencionada, la heterogeneidad de las unidades experimentales en el análisis. Antes de pasar a exponer algunos de los modelos más importantes, digamos que la exigencia de que el investigador planee anticipadamente el experimento, hace que esta metodología tenga pocas posibilidades de aplicarse con rigor a ciencias no experimentales.
2. Modelo de un factor completamente aleatorizado
Se corresponde con el tipo de modelo formulado en el apartado anterior. Una sola variable explicativa, o factor, con, al menos, dos categorías o niveles (tratamientos), que producen una respuesta observable en las distintas unidades experimentales o elementos muestrales. Se supone que estos son homogéneos y que se asignan en forma aleatoria a los distintos tratamientos. Se trata, por tanto, de un diseño completamente aleatorizado.
El objetivo es comprobar si hay diferencias significativas en la repuesta media para los distintos niveles de factor. Como dijimos, es una extensión del contraste de la diferencia de medias de dos poblaciones normales, con varianzas desconocidas, pero iguales. El objetivo, por tanto, es realizar el contraste siguiente:
H1: no todas las µj son iguales
Si rechazamos la hipótesis nula, es que podremos distinguir los efectos que producen los distintos tratamientos. Si la aceptásemos, cualquier discrepancia en las respuestas medias sería achacable al azar, producto del error experimental.
La respuesta de la unidad experimental i ante el tratamiento j, yij , será igual a la
respuesta media del grupo de las nj unidades experimentales (homogéneas) sometidas a
este tratamiento, µj , más el error experimental o efecto aleatorio producido, εij . Puede
representarse mediante la siguiente ecuación:
yij = µj + εij
El efecto diferencial, τj , del tratamiento j respecto al efecto medio global o del
conjunto de la muestra, µ , puede escribirse como sigue:
τj = µj - µ
y el modelo quedaría expresado en los siguientes términos:
yij = µ + τj + εij , para j=1, 2,...,k ; i=1, 2,..., nj [1]
Se supone que los errores son independientes y se distribuyen normalmente, con media cero y varianza constante:
εij ∼ N(0 , σ2) para j=1, 2,...,k ; i=1, 2,..., nj
Si trabajamos con la hipótesis de efectos fijos, es decir, si admitimos que los
niveles de factor son seleccionados a priori por el investigador, la distribución de la
respuesta será la misma que la del error (µ y τj serían constantes). Por tanto, se
distribuirá normal e independientemente, pero su media estará desplazada a µj (µ + τj =
yij ∼ N(µj , σ2) para j=1, 2,...,k ; i=1, 2,..., nj
Las inferencias realizadas con este modelo sólo serán válidas para los niveles
que se han seleccionado previamente2. Esta hipótesis, junto con la de unidades
experimentales homogéneas, hace que se pueda considerar que se trabaja con la misma
población original, pero tratada en k formas diferentes.
Las hipótesis de normalidad e independencia de la respuesta, junto con la de varianza constante, necesitan de una verificación previa a la aplicación del análisis. Se ha comprobado que este resulta muy robusto ante la violación de la hipótesis de normalidad, pero que, sin embargo, es muy sensible a la presencia de valores extremos
en las muestras (outliers). Por otro lado, si hay diferencias apreciables en las varianzas
de los distintos grupos, el test puede resultar afectado. Si, por ejemplo, existe asociación
entre los tamaños muestrales, nj , y las varianzas correspondientes, σ , se ha 2j
demostrado que el valor muestral del estadístico (veremos que es una F ) tiende a tomar
valores muy grandes y, por tanto, a rechazar la hipótesis nula, que, como se ha dicho, es la de igualdad de medias o, de forma equivalente, que los efectos diferenciales son todos nulos:
H0 : τ1 = τ2 = ...= τj =...= τk =0
El modelo dado por la ecuación [1], dado que τj = (µj - µ) y εij = (yij - µj ),
puede escribirse como sigue:
yij = µ + (µj - µ) + (yij - µj )
o, de otra forma,
(yij - µ) = (µj - µ) + (yij - µj ) [2]
Si observamos con detenimiento, esta ecuación nos está diciendo que la
diferencia respecto a la media global de cualquier observación, (yij - µ), se puede
descomponer en dos factores:
2 En el modelo de efectos aleatorios, se considera que τ
j∼ N(0, σ2). Las inferencias serían válidas para
• La parte correspondiente a la diferencia inducida por el tratamiento, evaluada por la diferencia de la media del grupo de unidades experimentales
sometidas a ese tratamiento a la media global del experimento: (µj - µ).
• La diferencia observada en cada una las unidades experimentales sometidas
a ese mismo tratamiento respecto a la media dentro del mismo: (yij - µj ). Por
las hipótesis vertidas anteriormente (homogeneidad de las unidades experimentales y aleatoriedad en su asignación), esta diferencia será de tipo aleatorio, no explicada por el nivel de factor aplicado o tratamiento, y recogerá el error experimental.
Si hubiera un tratamiento que produce resultados diferenciados, la diferencia debida al mismo debería ser suficientemente mayor que la provocada por el error aleatorio. Este será el razonamiento en que, como se verá más adelante, se apoyará el test utilizado para la verificación de la hipótesis de medias iguales.
Como no será posible trabajar con los parámetros poblacionales µ y µj , habrá
que estimarlos a partir de las correspondientes medias muestrales, que, suponiendo σ2
igual para todos los grupos o niveles, son los mejores estimadores de las
correspondientes medias poblacionales. Les llamaremos, respectivamente, Y.. y Y.j.
Incorporando a la ecuación [2] estas estimaciones:
(yij - Y ) = .. (Y.j −Y..) + (yij - Y.j)
Elevando al cuadrado ambos miembros de la igualdad y sumando para i y para j,
tendremos:
[
]
∑∑
∑∑
∑∑
∑∑
∑∑
= = = = = = = = = = − − + − + − = = − + − = − k j n i k j n i j ij j k j n i j ij j k j n i ij j k j n i ij j j j j j Y y Y Y Y y Y Y Y y Y Y Y y 1 1 1 1 . .. . 1 1 2 . 2 .. . 1 1 2 .. .. . 1 1 2 .. ) )( ( 2 ) ( ) ( ) ( ) ( ) (Puede comprobarse que el último sumando de esta última expresión siempre será nulo:
0 ) ( ) ( ) )( ( 1 . .. . 1 1 1 . .. . = − − = − −
∑
∑∑
∑
= = = = j j n i j ij j k j n i k j j ij j Y y Y Y Y y Y Yya que la expresión entre corchetes es la suma de las diferencias respecto a su media de los valores de las observaciones del grupo o tratamiento j. Por tanto, finalmente, queda:
∑∑
∑∑
∑∑
= = = = = = − + − = − k j n i k j n i j ij j k j n i ij j j j Y y Y Y Y y 1 1 1 1 2 . 2 .. . 1 1 2 ..) ( ) ( ) ( [3]Esta es la ecuación fundamental del análisis de la varianza. Nos dice que la suma total de cuadrados (STC) de las desviaciones en la respuesta de las unidades experimentales, con respecto a la media global del experimento, se descompone en dos sumandos:
• El primero, representa la suma de cuadrados de las desviaciones respecto a la respuesta media global producidas por los distintos tratamientos (SCTR), en términos de la diferencia de sus correspondientes respuestas medias respecto a dicha media global. Es decir, la suma de cuadrados de las diferencias entre grupos.
• El segundo, recoge la suma de cuadrados de las desviaciones en la respuesta de cada unidad experimental con respecto a la media obtenida dentro del tratamiento (grupo, muestra) a que ha sido sometida. Es decir, la suma de cuadrados de los errores experimentales (SCE) observados dentro de cada grupo.
Así, pues, de la expresión STC = SCTR + SCE , puede concluirse que las variaciones totales en la respuesta (STC) se explican por los efectos de las variaciones inducidas por los distintos tratamientos (SCTR), más una componente residual que recoge las variaciones debidas al error experimental (SCE).
Si las respuestas medias para los distintos tratamientos son iguales entre sí, entonces SCTR=0, y todas las variaciones en la respuesta se deben, exclusivamente, al error experimental (aleatorio). Para un valor grande de SCTR, mayor serán las diferencias existentes entre las medias de los tratamientos y la global. Los distintos niveles de factor (valores o modalidades de la variable explicativa), en tal caso, explicarían, en principio, las variaciones en la respuesta (variable dependiente).
Si todas las respuestas son iguales dentro de todos y cada uno de los tratamientos o grupos, entonces SCE=0. Absolutamente todas las variaciones en la respuesta se deberían al efecto de los tratamientos.
Ambos sumandos, dada una suma total de cuadrados, juegan de forma inversa: a un mayor valor de SCTR le corresponde un valor menor de SCE, y viceversa. Cuanto mayor sea el primero respecto al segundo, tantas más razones habrá para rechazar la hipótesis nula de que las respuestas medias son iguales. Por consiguiente, el cociente SCTR/SCE , puede ser un estadístico adecuado para llevar a cabo el contraste de dicha hipótesis3.
No es excesivamente complicado demostrar que
χ
σ 2 1 2 = k− SCTR . Veamos:
[
]
2 .. 1 . .. 2 .. 1 2 . 1 . .. 2 .. 1 2 . 1 2 .. . 1 2 .. . 1 1 2 .. . ) ( ) )( ( que ya , ) ( ) ( ) )( ( 2 ) ( ) ( ) ( ) ( ) ( ) ( µ µ µ µ µ µ µ µ µ µ µ − = − − − − − = = − − − − + − = = − − − = − = − =∑
∑
∑
∑
∑
∑
∑∑
= = = = = = = = Y n Y Y n Y n Y n Y Y n Y n Y n Y Y n Y Y n Y Y SCTR k j j j k j j j k j j j k j j j k j j j k j j j k j n i j j Por consiguiente, 2 .. 2 1 . 2 / / − − − =∑
= n Y n Y SCTR k j j j σ µ σ µσ , es una suma de los
cuadrados de variables independiente y normalmente distribuidas4, con µ=0 y σ=1. Se
trata, por tanto, de una distribución Chi-cuadrado con k-1 grados de libertad.
Tampoco es difícil demostrar que
χ
σ 2 2 n k SCE − = . Se ha visto que
∑∑
= = − = k j n i j ij j Y y SCE 1 1 2 . ) ( , y se sabe que j j n i j ij j j n y Y n SCE js
( ) 1 1 1 1 1 2 . 2ˆ
− = − − =∑
= , por lo3 Se puede demostrar que E(SCTR/k-1)=σ2+(1/k-1)∑
jnjτj2, que es mayor que E(SCE/n-k)=σ2. La región
crítica del test estará, por tanto, situada a la derecha de la distribución de este estadístico.
que k j SCE j j
s
n
=∑
−
=1 2ˆ
)
1
(
. Si dividimos por σ2 , teniendo en cuenta que las k muestrasson independientes, tendremos lo siguiente:
χ
σ σ 2 2 1 2 2 ˆ ) 1 ( k n k j j j s SCE n − = → = −∑
ya que∑
= − = − k j j n k n 1 ) 1 ( .Se puede demostrar que SCTR y SCE son independientes, por lo que,
k n k k n k F k n k CME CMTR k n SCE k SCTR − − − − → − − → = − − , 1 2 2 1 2 2 / 1 / / ) / ( 1 / ) / ( χ χ σ σ
siendo, CMTR y CME los cuadrados medios de los tratamientos y los cuadrados medios
del error, respectivamente5. Así, pues, el test de la F de Snedecor será el adecuado para
contrastar la hipótesis de que las respuestas medias de los tratamientos son iguales, frente a la alternativa de que al menos una no lo es:
H0: µ1=µ2=...=µj=...=µk=µ
H1: no todas las medias son iguales
Cuanto mayor sea la suma de cuadrados explicadas por los tratamientos, o variación entre grupos, en relación a la explicada por los errores, o variaciones dentro de los grupos, más evidente es que las respuestas medias a los diferentes tratamientos no son iguales. Rechazaremos la hipótesis nula con valores suficientemente grandes de la F observada, situándose la región crítica del test, por tanto, en la cola derecha de la distribución F. La F observada vendrá dada por la siguiente expresión:
∑∑
∑∑
= = = = − − − − = = k j n i j ij k j n i j obs j j k n Y y k Y Y CME CMTR F 1 1 2 . 1 1 2 .. . / ) ( 1 / ) (Pueden obtenerse fórmulas de cálculo más sencillas para las diferentes sumas de cuadrados que intervienen en el análisis, desarrollando convenientemente las
5 Obsérvese que SCTR estima σ2 , a través de la distribución de las medias, [k. (σ2/k)= σ2], mientras que
SCE hace lo mismo en la distribución de las respuestas. La distribución muestral de un ratio de este tipo es una distribución F central, si la hipótesis nula de igualdad es cierta. La hipótesis alternativa es que esta
F no es central sino tumbada hacia la derecha (parámetro de no centralidad,
∑
τ , significativamente 2jexpresiones iniciales. Dejamos su obtención como ejercicio para el alumno, que debe obtener las siguientes expresiones finales:
SCTR STC SCE n T y Y n y Y y STC n T n T Y n Y n Y Y SCTR k j n i ij k j n i ij k j n i ij k j k j j j k j j j n i j j j j j − = − = − = − = − = − = − =
∑∑
∑∑
∑∑
∑
∑
∑
∑
= = = = = = = = = = 1 1 2 .. 2 1 1 2 .. 2 1 1 2 .. 2 .. 1 1 2 . 1 2 .. 2 . 1 2 .. . ) ( ) (Es usual presentar los resultados obtenidos en forma de una tabla, cuyo contenido es el siguiente: Tabla ANOVA Fuente de variación Grados de libertad Suma de cuadrados Cuadrados medios F observada -Tratamientos (Entre grupos) -Error (Dentro grupos) k-1 n-k
∑∑
= = − k j n i j j Y Y 1 1 2 .. . ) (∑∑
= = − k j n i j ij j Y y 1 1 2 . ) ( SCTR/k-1 SCE/n-k CME CMTR Fobs = Total n-1∑∑
= = − k j n i ij j Y y 1 1 2 ..) ( ⇒ η2 =R2=(SCTR/STC)El sígnificado de η2 (eta cuadrado) es similar al de R2 en el análisis de regresión,
ya que da el porcentaje de variabilidad en la respuesta que viene explicado por el factor o variable explicativa. Finamente, como se pone de manifiesto en la nota a pié de página número 3, hay que señalar que los cuadrados medios del error (SCE/n-k), es el mejor
estimador de la varianza poblacional (σ2).
3. Procedimientos para comparaciones múltiples.
Si la hipótesis nula, de igualdad de medias, resulta rechazada, la cuestión inmediata que surge es como localizar cuáles son los grupos o tratamientos que tienen medias diferentes. Es necesario, por tanto, realizar un análisis ex post, con objeto de encontrar la media o medias que resultan ser diferentes y por las que la hipótesis nula es rechazada.
Hay diversas propuestas para llevar a cabo este procedimiento de comparación entre múltiples medias: Mínima Diferencia Significativa (LSD, en inglés), Bonferroni, Tukey, Scheffé, Duncan, ...). El primero no garantiza el mantenimiento del nivel de significación para el conjunto del experimento. Los demás son soluciones de compromiso entre el cumplimiento de esta garantía y la pérdida de potencia del test que generalmente supone su aplicación. Vamos a ver, a continuación, el procedimiento de la Mínima Diferencia Significativa (MDS), propuesto por Fisher.
Sean Y.j e Y.l, respectivamente, las medias muestrales de los grupos o tratamientos
j y l . Su diferencia será un estadístico muestral cuya distribución, como ya conocemos,
será la siguiente: ) 1 , 0 ( ) ( ) ( ) ( . . . . N Y Y l j Y Y l j l j − − − ≈ − σ µ µ dónde, l j l Y j Y Y Y Y Y n n n n l j l j l j 1 1 2 2 2 2 ) ( . . . . . . − = + = + =σ + σ σ σ σ σ
suponiendo que se cumple la hipótesis, formulada anteriormente, de que la respuesta se
distribuye normalmente con media µ y varianza σ2 , constante e igual en todos los
grupos o tratamientos (homoscedasticidad).
Como σ2 es desconocida, la estimaremos mediante los cuadrados medios de los
errores o error cuadrático medio, que se demuestra es su mejor estimador insesgado. Es decir, k n SCE s − = 2
ˆ . Por lo tanto, según se sabe,
k n l j l j l j t n n s Y Y − ≈ + − − − 1 1 ˆ ) ( ) ( . . µ µ
Mediante este estadístico, se puede establecer un intervalo de confianza del
+ ± − − l j k n j j n n s t Y Y ) .ˆ 1 1 ( . . ,α/2
Si el intervalo contiene el valor cero, la diferencia de medias no será significativa.
Es posible plantear este procedimiento de otra forma. Supongamos que H0 es
cierta (por tanto, µj = µl ), y sea tn-k,α/2 el valor del estadístico correspondiente al punto
crítico del test, con un nivel de significación α. Se puede afirmar que en este punto,
según la fórmula que expresa la distribución de tn-k, la diferencia de medias viene dada
por la siguiente ecuación:
l j k n l j n n s t Y Y. − . = − ,α/2 .ˆ 1 + 1
Puesto que α, nj y nl son constantes, punto crítico del test y diferencia de medias
se determinan mutuamente, pudiendo afirmarse que esta es la discrepancia máxima permitida en cualquier pareja de medias para no considerarlas como diferentes, dado un
nivel de significación α para realizar el contraste. Así, pues, puede afirmarse que la
diferencia mínima (MDS) a partir de la cual estamos dispuestos a rechazar la igualdad entre las dos medias consideradas, viene dada por la expresión:
l j k n n n s t MDS = − ,α/2 .ˆ 1 + 1
Cualquier valor superior nos llevaría a rechazar la hipótesis de igualdad de las dos medias sometidas a comparación. Esta expresión también puede ser escrita en la forma que sigue:
α α 1, ; 2 2 / ; 2 . 1 1 . . ˆ . 1 1 k n l j k n l j F CME n n t s n n MDS − − + = + =
Es preciso obtener el valor de esta expresión para cada una de las k(k-1)/2 comparaciones repetidas de medias que son necesarias realizar, lo que en la práctica supone repetir ese número de veces el contraste de la t que ya se viera en capítulos anteriores.
Sin embargo, hay un caso especial en que es posible simplificar todo este procedimiento. Si se trata de un diseño experimental equilibrado (igual número de observaciones o unidades experimentales en cada grupo o tratamiento), entonces resulta
que nj = nl = m , la igualdad anterior quedaría como sigue:
α α/2 2 1, ; ; .ˆ m 2 . . n k k n s m CME F t MDS= − = −
En tal caso, los cálculos se simplifican bastante, ya que el valor obtenido para la MDS, con el nivel de significación dado para obtener el valor de la F, sirve como única referencia para contrastar todas las diferencias de medias. El intervalo de confianza único sería el siguiente:
MDS Y
Yj − )l ±
( . .
Si el valor cero está dentro del intervalo formado, aceptaremos la hipótesis nula, de igualdad de medias. En caso contrario, la rechazaremos. Visto de otra forma, sólo si
MDS Y
Y.j − .l ≤ aceptaremos H0. Es evidente que, en este caso, los cálculos se
simplificarían enormemente. El procedimiento lógico es, en primer lugar, ordenar las medias, de menor a mayor valor. A continuación, se comienzan las comparaciones por las dos medias más alejadas entre sí, continuando con este criterio hasta que se encuentre una diferencia no significativa. En este momento puede ahorrarse el esfuerzo de continuar con los contrastes, puesto que no será posible encontrar ninguna pareja de medias que sea diferente, al ser su diferencia siempre menor que la primera hallada como no significativa.
Sin embargo, este método de la MDS tiene un inconveniente. Obsérvese que si
el error de Tipo I en el contraste se estableciera como α=0,05 y hubiera k grupos, el
número esperado de diferencias que resultarían significativas, a pesar de que la hipótesis
nula de igualdad fuese cierta, sería 0,05[k(k-1)/2], ya que α es la probabilidad de
rechazar la hipótesis nula siendo cierta y [k(k-1)/2] el número total de comparaciones
que se pueden realizar. Bastaría con que k tomase un valor suficientemente grande para
que se pudiesen extraer falsas conclusiones, encontrándose excesivas parejas con diferencias significativas. Ello se debe a que el error de Tipo I en los sucesivos
contrastes con el estadístico t, es el error de cada comparación en particular, pero no es
el error para el conjunto del experimento. Por ejemplo, si tuviéramos cinco tratamientos,
suponiendo que α=0,05, la probabilidad de rechazar la hipótesis nula en una
comparación específica, siendo falsa, sería (1-α)=0,95. Si suponemos que los tests son
independientes, tal probabilidad para el conjunto del experimento (10 comparaciones)
vendría dada por (0,95)10=0,60. El verdadero valor global de α, para todas las
comparaciones, sería de 0,4 y no el 0,05 requerido. Su autor recomienda, por tanto, que
sólo se aplique si se rechaza la hipótesis nula, de igualdad de medias, con el test F, para
un nivel α de significación (test de la MDS “protegido”). En estas circunstancias se ha
demostrado que es un test bastante efectivo.
Se han aportado procedimientos alternativos que intentan reducir el error de Tipo I para el conjunto del experimento y generalizar la posibilidad de comparaciones entre subconjuntos de medias. Los de Bonferroni, Scheffé y Tukey, quizás sean los más conocidos y vienen incorporados en la mayoría de los paquetes estadísticos para ordenador personal. Cada uno debería aplicarse en el caso para el que está más indicado, careciendo de sentido la aplicación indiscriminada y simultánea de todos ellos. A continuación, vamos a definir los tests propuestos por estos autores.
Aproximación de Bonferroni:
Se puede demostrar que si α es el nivel de significación propugnado para todo
el experimento y α* el correspondiente a cada contraste entre dos medias particulares, se
cumple que α≤α*[k(k-1)/2]. Con base en esta desigualdad, Bonferroni propone que para
cada una de las comparaciones se tome el nivel de significación dado por α* = α /[k(k-1)/2]
Por tanto, para un nivel global de significación α, el intervalo de confianza para
la igualdad de dos medias se definiría como sigue:
l j k n l j n n s t Y Y ) .ˆ 1 1 ( . − . ± − ,α*/2 +
Si el número de comparaciones ([k(k-1)/2]) es relativamente grande, para un
individuales del método anterior (MDS). Suele aconsejarse utilizar este test de Bonferroni cuando el número de comparaciones no es muy elevado, dejando para estos casos otros procedimientos como el de Scheffé, por ejemplo.
Aproximación de Scheffé:
Es el procedimiento más conservador para contrastar si las diferencias de medias son significativas y persigue que el error de Tipo I para el experimento en su conjunto
sea α en todos los posibles contrastes que se puedan realizar entre las medias, no sólo
por parejas, sino, también, entre subconjuntos de medias. En este sentido es el más
flexible, aunque está más indicado para contrastes planificados (diseñados ex ante por el
investigador). El intervalo de confianza que propone para ello viene dado por la siguiente expresión: + − ± − − − l j k n k l j n n F k s Y Y ) .ˆ ( 1). . 1 1 ( . . 1, ;α
Obsérvese el parecido de esta expresión con la formulada para la MDS, cuando
se utiliza el estadístico F en los cálculos. En este caso, aparece con los grados de
libertad de SCTR, k-1, y viene multiplicada por este mismo valor.
Aproximación de Tukey:
Esta alternativa utiliza para las comparaciones entre medias la distribución de
rangos studentizada y, en principio, supone que el experimento es equilibrado, lo que es
una restricción para su aplicación generalizada6; es decir, que los tamaños de las k
muestras son iguales (m). El rango studentizado se define como la distribución muestral
del rango de la muestra dividido por la desviación éstándar estimada. Si sˆ2 =CME y el
rango se basa en las medias de muestras de tamaño m, este estadístico se define como
sigue: m s Y Y q max min 2 ˆ ) ( − =
6 Hay quien sostiene que, para tamaños muestrales no muy distintos, este test es muy robusto y es posible
Si se toma un valor crítico de esta distribución para una comparación entre parejas de medias, obtendríamos el nivel de significación apropiado para el peor de los casos posibles de diferencias entre medias. Por tanto, parece razonable aceptar que tal nivel sería el adecuado para todas las comparaciones posibles entre medias, es decir, para el conjunto del experimento. La distribución de este estadístico depende del
número de medias (k), de los grados de libertad del error cuadrático medio (gl=n-k) y
del nivel de significación (α). Conocido el valor crítico, qα(k,gl), se puede calcular el
estadístico llamado W de Tukey o, también, “diferencia honestamente significativa”,
como sigue: m CME gl k q W = α( , )
Tomando este valor como referencia, cualquier pareja de medias cuya diferencia sea mayor al mismo se aceptará como significativamente diferentes.
4. Verificación de las hipótesis básicas.
Se ha visto como la comparación de las múltiples medias en el análisis de la varianza concluye con un test, basado en la distribución F de Snedecor. La validez de este test, sin embargo, depende del cumplimiento de las hipótesis básicas que se han formulado sobre el modelo. Así, la violación de la hipótesis de normalidad y/o independencia en la respuesta y en los errores echaría por tierra la distribución Chi-cuadrado que se obtuvo para las sumas de Chi-cuadrados, y, por tanto, el test F realizado finalmente. La existencia de heteroscedasticidad (varianzas distintas en los tratamientos) puede hacer que el valor de las sumas de cuadrados no se deba exclusivamente a los distintos niveles de factor. Si la asignación de las unidades experimentales no se hace al azar, puede que los errores no se distribuyan en forma aleatoria, etc.
Hay un enfoque sencillo, gráfico, para estudiar el cumplimiento de estas hipótesis, que es observar el comportamiento de los errores. De cualquier forma, es posible aplicar cualquiera de los test de normalidad y aleatoriedad, ya estudiados en el contexto de los contrastes no paramétricos. Veamos algunas propuestas simples, incorporadas en la mayoría de los paquetes estadísticos.
a) Normalidad.
Como se acaba de comentar, una alternativa válida sería hacer el contraste de Kolmogorov-Smirnov-Lilliefors. Otra vía de análisis es la utilización del análisis exploratorio de datos, utilizando instrumentos tales como los diagramas de barras,
gráficos de tallos y hojas (stem and leaf), para observar la forma de una distribución, o
los de cajas (box-and-wisker), que suelen ser bastante útiles para detectar valores
extraños. Estos análisis es conveniente realizarlos mediante la distribución de los errores o residuos (yij - Yi.), ya que, al ser yij=µ+τj+εij, los valores observados en la respuesta
tendrán las características de las distribución de (τj+εij) y sólo la distribución de los
residuos (estimación de los errores) nos podrá informar sobre el cumplimiento o no de las hipótesis básicas del modelo formulado.
Se suelen utilizar, también, los llamados diagramas o gráficos Q-Q (cuantil-cuantil), en los que, en general, los cuantiles de una muestra se representan en relación a
sus valores esperados en una distribución normal. Este gráfico debería dar lugar a una línea recta y estar comprendidos en el intervalo (-3,+3), si los datos proceden de una población distribuida normalmente. Los residuos observados, previamente
estandarizados (εij / (CME)1/2), se colocan en
el eje de abscisas y los esperados, según la distribución normal tipificada, se toman en el eje de ordenadas. Una nube de puntos próxima a una línea recta, hará plausible la hipótesis de normalidad en los residuos y, por tanto, en la respuesta. Por el contrario, cualquier desviación de esta pauta de comportamiento indicará una desviación de la hipótesis de normalidad. Además, valores muy alejados del recorrido propio de una normal tipificada, (-3,+3), pueden indicar la presencia de valores extremos en la muestra (outliers), también detectables, como se ha dicho anteriormente, mediante los gráficos
de cajas (box-and-whisker plots). La figura 4.1 recoge dos casos de análisis de residuos.
En el primero de ellos, la hipótesis de normalidad es aceptable; en el segundo, además del comportamiento no aleatorio de los residuos, su alejamiento de la recta, indicaría una desviación de la normalidad.
El test F es muy robusto ante la violación de la hipótesis de normalidad. Los efectos, por tanto, del incumplimiento de esta hipótesis no suelen ser, en general, importantes. Tales efectos se manifiestan, especialmente, ante una desviación fuerte en la asimetría de la distribución o la existencia de valores extremos. Claro que, en tales casos, las medias no deberían de ser utilizadas como valores representativos de la tendencia central en la población y carecería de interés hacer inferencias sobre ellas.
Por otro lado, si el tamaño muestral de los tratamientos es suficientemente grande, siempre se puede aplicar el teorema central del límite a la distribución muestral de la media, que, como se sabe, se distribuirá normalmente, aunque la población de
RESIDUOS OBSERVADOS RESI DUO S ESPERADO S -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5 -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5 RESIDUOS OBSERVADOS R ESI D U O S ESPER AD O S -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5 -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5 Figura 4.1
datos que conduzcan a la normalidad o, finalmente, acudir al análisis de la varianza no paramétrico, mediante el test de Kruskal-Wallis, basado en la comparación múltiple de las medianas, que veremos más adelante.
b)Homoscedasticidad (igualdad de varianzas).
Si las varianzas de los grupos no son iguales, las sumas de cuadrados obtenidas podrían tomar valores distintos sólo porque la variabilidad respecto a la media (varianza) en cada grupo es diferente y no porque los niveles medios de factor difieran de uno a otro grupo o tratamiento. En este caso, no todas las poblaciones tendrán la misma varianza y no se debería usar la varianza del conjunto del experimento como una estimación del correspondiente parámetro poblacional, que se supone igual pata todas ellas. En consecuencia, el test F (cociente entre dos estimadores de varianzas que se suponen iguales) deja de ser válido.
Hay que decir que aquí, también, el test F se comporta en forma robusta, especialmente si los tamaños de las muestras son similares, siendo, como máximo, la mayor el doble de la menor (la distribución muestral de las varianzas, especialmente para muestras pequeñas, es muy dispersa, por lo que importantes diferencias muestrales en las varianzas pueden no ser estadísticamente significativas). Los problemas graves se producen cuando hay una relación entre medias y varianzas.
Una forma sencilla de detectar posibles problemas de este tipo es mediante el gráfico desviación típica-media (véase la figura 4.2), que pone en evidencia la posible existencia de correlación entre las varianzas y las medias de los tratamientos. Otros procedimientos aplicables son la
MEDIAS D ESVIAC ION ES EST AN D A R (r=0,96) MEDIAS D ESVIAC IO N ES EST AN D A R (r=0,05) Figura 4.2
comparación de la dispersión de los residuos por tratamientos, mediante los correspondientes gráficos de cajas o, si las muestras son muy pequeñas y lo anterior no es significativo, la representación de la secuencia de los mismos que, en caso de violación de esta hipótesis de homoscedasticidad, suele dar una distribución asimétrica. De existir, puede afirmarse que es muy negativo para la fiabilidad del test F, puesto que tiende a inflar el nivel de significación, rechazando la igualdad de medias. Por ejemplo, puede ocurrir que la única media diferente a las demás, la mayor de todas, sea la procedente de la muestra que, también, presenta mayor varianza. El test F podría dar como significativa la diferencia de esta media, mientras que un test t en esa muestra sobre el valor poblacional de la media, proponiendo como tal en la hipótesis nula alguna de las observadas en los otros grupos, no arrojaría diferencias estadísticamente significativas, dada la gran variabilidad que existe en el mismo y el consiguiente reflejo que este hecho tendría en el tamaño del intervalo de confianza obtenido.
Este hecho suele ocurrir cuando hay valores extremos (outliers) en los datos.
Basta con que existan uno o dos valores de este tipo en una muestra con pocas observaciones, para que se eleve fuertemente la media y, también, la varianza. Ello conduciría a detectar, inadecuadamente, una media diferente a las demás y un valor observado de la F superior a lo normal, provocado por la gran varianza (cuadrados medios) de esta muestra o tratamiento. Sin embargo, eliminando los valores extraños, la hipótesis nula de igualdad de medias sería, probablemente, aceptada.
En cualquier caso, si se piensa que se puede estar en presencia de varianzas distintas, es recomendable realizar un test de hipótesis para verificarla. Hay diferentes test para contrastar la hipótesis de igualdad de varianzas: Cochran, Bartlett-Box, Hartley, entre otros. Todos ellos descansan en la hipótesis de normalidad. Uno de los
más utilizados es este último, llamado Fmax de Hartley, que será el que veremos a
continuación.
Se basa, el test de Hartley, en el cociente entre la mayor y la menor de la varianzas muestrales. Bajo la hipótesis nula, de que las varianzas son iguales, este autor obtuvo los valores críticos del test, en función del número de varianzas incluídas en el
1 , ; ˆ ˆ − → = maxkn min max F s s H
Cuanto mayor sea este cociente, mayor será la posibilidad de rechazar la hipótesis de igualdad de varianzas. Los valores críticos del test están tabulados. Como se acaba de decir, el cumplimiento de la hipótesis de normalidad es una exigencia para la utilización del test. En caso de incumplimiento, debe aplicarse otro procedimiento.
El estadístico C de Cochran es muy similar al anterior y, también, está tabulado.
Su definición es la siguiente:
∑
= = k j j max s s C 1 2 2 ˆ ˆPor último, el estadístico B de Bartlett, de complicada expresión que no
reproducimos, sigue una distribución 2
1 −
k
χ . Una ulterior transformación posibilita una
aproximación (Bartlett-Box) a una distribución F.
Los tres contrastes suelen venir en los programas estadísticos más conocidos,
por lo que basta observar el nivel de significación (p-value) obtenido y, con esta
información, tomar la decisión de aceptar o rechazar la hipótesis nula, que en todos los casos es la de igualdad de las varianzas.
Si las diferencias entre varianzas son producidas por la existencia de algún tipo de relación entre la respuesta y alguna característica de las unidades experimentales (por ejemplo, magnitudes económicas que varían en porcentajes, mayor variabilidad de la longitud de una planta grande que de una pequeña, etc.), es muy posible la relación entre la desviación estándar y la respuesta media. En este caso, puede ser útil recurrir a transformar los valores de las observaciones, intentando que cumplan las hipótesis básicas. En este sentido, se pueden realizar algunas transformaciones que tiendan a
equilibrar las varianzas. Por ejemplo, si la media es proporcional a σ, el modelo
logarítmico sobre las yij evitaría el problema. Si la proporción fuese respecto a σ2, se
debería tomar la raíz cuadrada de yij . En caso de datos expresados en proporciones o
porcentajes, se aconseja tomar arcsen( yij ). Estas transformaciones suelen venir
c) Independencia.
Otra hipótesis básica que se debería contrastar, porque, como las anteriores,
puede afectar al test F utilizado en la
tabla ANOVA, es si las muestras tomadas para cada grupo de observaciones o tratamientos son aleatorias. Si esta hipótesis no se cumple, no es posible garantizar que las
respuestas, yij , sean independientes.
Cualquiera de los tests estudiados
en otras lecciones (test de rachas, por ejemplo) para detectar la aleatoriedad, sería de aplicación a este fin. Generalmente, se utilizan los residuos para llevarlos a cabo. El empleo de gráficos de residuos, de nuevo, puede ser útil para detectar un posible comportamiento no aleatorio de los mismos y, por tanto, de la respuesta: si se distribuyen de forma aleatoria, sin sistemática alguna, a lo largo del eje de abscisas, y su media es aproximadamente cero, podremos deducir que existe independencia. Sin embargo, un comportamiento según cierto modelo, deducible de la visión del gráfico, debe hacernos pensar en la posibilidad de un comportamiento no aleatorio en la respuesta (véase la figura 4.3). OBSERVACIÓN RE S IDUO S -0.25 -0.15 -0.05 0.05 0.15 0.25 0 1 2 3 4 5 6 7 8 9 10 11 12 OBSERVACIÓN RE S IDUO S -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5 0 1 2 3 4 5 6 7 8 9 10 11 12 Figura 4.3
5. Análisis de la varianza no paramétrico.
Cuando la hipótesis de normalidad no se cumple, pero se supone que los k≥2
tratamientos tienen la misma distribución, existe la posibilidad de verificar si hay una respuesta diferenciada ante los tratamientos, utilizando un test no paramétrico de
localización para k muestras aleatorias independientes. Los niveles de respuesta se
miden, ahora, mediante las correspondientes medianas. Para el diseño de un factor completamente aleatorizado suele utilizarse el test de Kruskal-Wallis, mientras que para el modelo en bloques el test más generalizado es el de Friedman.
Test de Kruskal-Wallis
El test de Kruskal-Wallis es un test no paramétrico que se utiliza para comparar tres o más muestras. La hipótesis a contrastar es que todas las poblaciones tienen la misma función de distribución, frente a la alternativa de que al menos dos difieren en su localización (mediana). Es un test análogo al utilizado en el análisis de la varianza (ANOVA) para un diseño completamente aleatorizado, por lo que puede considerarse un ANOVA no paramétrico, pero que no depende, como aquel, de la hipótesis de que todas las poblaciones que se someten a comparación se distribuyen normalmente. Sólo se supondrá que las poblaciones tienen la misma distribución. Se puede considerar como una extensión lógica del test de Wilcoxon-Mann-Whitney al caso de más de dos (k) poblaciones, pudiéndose obtener dicho test a partir de este de Kruskal-Wallis sin
más que particularizar para k=2.
Su finalidad, como acabamos de decir, es la verificación de la igualdad de las
medianas, M, de los k grupos o tratamientos. La hipótesis a contrastar es, por lo tanto,
H0 : M1= M2=...= Mk H1 : no todas son iguales
El desarrollo del test es relativamente fácil y exige menos cálculos que los necesarios para completar una tabla ANOVA. Los pasos a seguir para la aplicación del test son los siguientes:
Test de Kruskal-Wallis Muestras (Tratamientos) 1 2 .. k y11(r11) y21(r21) .. ) ( 1 1 1 1 n n r y y12(r12) y22(r22) .. ) ( 2 2 2 2 n n r y .. .. .. .. y1k(r1k) y2k(r2k) .. ) ( nk k nk rk y Suma rangos Medias rangos R.1 1 . R R.2 2 . R .. R.k k R. 2 ) 1 ( ... 2 1 1 1 1 . .. =
∑
=∑∑
= + + + = + = = = n n n r R R j n i k j ij k j j1.- De ser cierta la hipótesis nula, puede afirmarse que las distintas muestras provienen todas de una misma población. Por tanto, podemos considerar las
∑
= = k j j n n 1observaciones del experimento como elementos de una muestra única que ordenaremos de menor a mayor.
2.- Se asigna el correspondiente rango, rij , a cada una de las observaciones, yij. De
existir valores iguales, se sigue el mismo criterio que en el test no paramétrico de Wilcoxon, visto en otra lección: asignarle a todos ellos la media de los valores de sus respectivos rangos.
3.- Se calcula para cada muestra (tratamiento) la suma de los rangos, R.j .
4.- Se obtiene el valor del estadístico de Kruskal-Wallis, que se define como sigue7:
+ − − = + − =
∑
∑∑
= = = j n i k j ij k j j j n n r n s con n n n R s H 1 2 1 2 2 1 2 2 . 2 4 ) 1 ( 1 1 , 4 ) 1 ( 1Si no se repite ningún valor en las muestras (mismo rango), esta expresión se
convierte en otra de más simple manejo8:
) 1 ( 3 ) 1 ( 12 1 2 . − + + =
∑
= n n R n n H k j j jDe este estadístico existen tablas que dan los valores críticos, para los tamaños ordenados de las k muestras y para diferentes niveles de significación. Además, puede
demostrarse que para nj > 5, si la hipótesis nula es cierta, puede aproximarse una
distribución Chi-cuadrado con k-1 grados de libertad. La cola de la derecha puede ser utilizada como región crítica del contraste.
Conceptualmente, el test parte del estadístico 2
.. 1 . ) (R R n V k j j j − =
∑
= , que viene a ser algo similar, formalmente, a la suma de cuadrados de los tratamientos, utilizando losvalores de los rangos en vez de las respuestas observadas, y, por tanto, R.j y R.. son,
respectivamente, la media de los rangos obtenidos por los elementos de la muestra
j-ésima y la media de los rangos del conjunto del experimento o muestra combinada. Si
H0 es cierta, estas diferencias cuadráticas tenderán a ser nulas y V estaría próximo a
cero. Por el contrario, si no fuese cierta, serían grandes y V tomaría un valor tanto más alto cuanto mayores fuesen las diferencias entre las medias muestrales y la global de la muestra conjunta (media del experimento en ANOVA). Tomaríamos, por tanto, la cola
derecha de la distribución
χ
21 −
k .
No es demasiado complicado demostrar que multiplicando V por
) 1 ( 12 + n n , se
obtiene la expresión del estadístico H definido anteriormente. Recuérdese, para ello, que la suma total de rangos en la muestra combinada será
2 ) 1 (n+
n
y, por tanto, la media global sería
2 ) 1 (n+
. Valores altos de H, por encima del punto crítico dado en las tablas, serán indicadores de que existe, al menos, una mediana que es significativamente diferente a las demás.
8 En este caso,
∑∑
2ij
La existencia de una diferencia en la localización de alguna de las poblaciones,
para un nivel α de significación, se pondrá en evidencia siempre que:
+ − − − > − − l j obs k n l l j j n n n H n s t n R n R 1 1 1 1 2 ; 2 / . . α
donde Hobs representa el valor muestral del estadístico H .
Test de Friedman
Para el caso de un diseño en bloques, se puede utilizar un test no paramétrico,
llamado test de Friedman, que es una adaptación del caso anterior a las peculiaridades de este diseño de análisis de la varianza. Los pasos a dar son los siguientes:
1. Se ordenan las respuestas observadas para las distintas muestras o tratamientos dentro de cada uno de los bloques y se les asigna un rango que, lógicamente, irá de 1 a k (número de tratamientos, igual al número de
observaciones por bloque). Como en el caso anterior, le llamaremos rij a
estos rangos.
2. Se obtiene la suma de rangos para cada muestra o tratamiento. Como cada
tratamiento es asignado sólo a una unidad experimental de cada bloque, esta
suma constará de a sumandos (a=número de bloques). Llamaremos R.j a esta
suma.
3. En estas circunstancias, el test queda definido como sigue:
2 1 1 2 . 3 ( 1) ) 1 ( 12 − = → + − + =
∑
k k j j F R a k k ak H χ. Valores altos del estadístico conducirán a rechazar la hipótesis de que las
distribuciones de los tratamientos tienen igual localización (mediana).
Hay que decir, que existe una alternativa más reciente, propuesta por Iman y
Davenport, que está basada en un test F en vez de la aproximación con la χ2, cuya
) 1 )( 1 ( ), 1 ( 1 2 . 1 1 2 2 1 2 . 1 4 ) 1 ( 1 ) 1 ( − − − = = = = → − − + − =
∑
∑∑
∑
k a k k j j a i k j ij k j j F R a r k ak R a a Tsiempre que la hipótesis nula, de igualdad de localización de las poblaciones sea cierta y se trabaje con muestras grandes. Si no hay observaciones repetidas,
6 / ) 1 2 )( 1 ( 2 = + +
∑∑
rij ak k k , por similitud con lo dicho en la nota a pié de páginadel test anterior. Este test es superior al realizado mediante HF .
Es posible realizar comparaciones múltiples, basadas en las sumas de rangos de
los tratamientos. Para un nivel α de significación, se puede afirmar que las
distribuciones de dos tratamientos difieren en localización siempre que: ) 1 )( 1 ( 2 ) 1 )( 1 ( ; 2 / . . − > − − − − k a aD t R R obs k a l i α