Principios)de)ANOVA)
Dept. of Marine Science and Applied Biology Jose Jacobo Zubcoff
Licencia creative commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
Intro Test ANOVA Requisitos Resultados
¿Qué es y para que sirve?
ANOVA
Compara la distribución de una variable continua normal en
dos o más poblaciones
(niveles o categorías)
Pruebas de contraste para dos o más grupos
independientes (ANOVA entre sujetos): un factor
completamente aleatorizado.
Ejemplo de problema a resolver:
Se quiere estudiar la abundancia en tres zonas pesqueras, una de las cuales
tiene cierto nivel de protección (pesquera).
Se espera que comparando los valores de esta zona con la de otras dos con
parecidas características el hecho resultará evidente.
Hipótesis:
ANOVA
:
:
1 0H
H
No existen diferencias entre las k zonasHipótesis nula no cierta (al menos alguna zona es diferente al resto)
Intro Test ANOVA Requisitos Resultados
ANOVA
H
0: No existen diferencias entre los
k
niveles
H
1: La hipótesis nula no es cierta
Hipótesis nula: (todas las medias poblacionales de los “k" grupos son iguales)
H0: µ1=µ2=µ3...=µa=µ
Hipótesis alternativa: (al menos una media poblacional difiere)
H1: No es cierto H0
• Parte de un conjunto de observaciones muestrales
•
K niveles o categorías
ANOVA
Supongamos un universo de notas de 9 alumnos
de 3 grupos distintos
No hay diferencia ENTRE grupos
Ni DENTRO de los grupos
Grupo 1 Grupo 2 Grupo 3
5
5
5
5
5
5
5
5
5
X
i,j= µ
Intro Test ANOVA Requisitos Resultados
ANOVA
Supongamos que aplicamos un método de enseñanza (
factor
)
que afecta:
Donde
α
i= {1,2,0}
efecto del factor!
Grupo 1 Grupo 2 Grupo 3
5+1=6
5+2=7
5+0=5
5+1=6
5+2=7
5+0=5
5+1=6
5+2=7
5+0=5
X
i,j= µ + α
i!El factor influye en establecer diferencias ENTRE grupos
Pero NO DENTRO
ANOVA
Donde
ε
i,j= {-1,-2,0,2,0,1,3,4,0}
efecto aleatoriedad
Grupo 1
Grupo 2
Grupo 3
5+1-1 = 5 5+2+2 = 9 5+0+3 = 8
5+1-2 = 4 5+2+0 = 7 5+0+4
= 9
5+1+0 = 6 5+2+1 = 8 5+0+0 = 5
X
i,j= µ + α
i+ ε
i,j!La ALEATORIEDAD influye en la variabilidad
DENTRO
de los
grupos
• Por razones ALEATORIAS algunos alumnos rinden mas que otros
Intro Test ANOVA Requisitos Resultados
ANOVA
Grupo 1
Grupo 2
Grupo 3
5+1-1 = 5
5+2+2 = 9 5+0+3 = 8
5+1-2 = 4
5+2+0 = 7 5+0+4
= 9
5+1+0 = 6 5+2+1 = 8 5+0+0 = 5
X
1.
= 5
"
X
2
.= 8
"X
3.
= 7.33"
X
..
= 6.78"
Calculamos las medias por grupo y la media global
Intro Test ANOVA Requisitos Resultados
ANOVA
Grupo 1
Grupo 2
Grupo 3
5
9
8
4
7
9
6
8
5
X
1.
= 5
"
X
2
.= 8
"X
3.
= 7.33"
X
..
= 6.78"
Para calcular el efecto aleatorio: medimos las diferencias DENTRO
∑
(
X
ij− X ..
)
2∑
=
(
X
ij− X
i.)
2 j=1 ni∑
i=1 k∑
+
n
i(
X
i.− X..
)
2 i=1 k∑
9Intro Test ANOVA Requisitos Resultados
ANOVA
Grupo 1
Grupo 2
Grupo 3
5
9
8
4
7
9
6
8
5
X
1.
= 5
"
X
2
.= 8
"X
3.
= 7.33"
X
..
= 6.78"
Para calcular el efecto del
factor
: medimos las diferencias
ENTRE
€
∑
(
X
ij− X ..
)
2∑
=
(
X
ij− X
i.)
2 j=1 ni∑
i=1 k∑
+
n
i(
X
i.− X..
)
2 i=1 k∑
10ANOVA)
Tenemos)dos)2pos)de)variabilidad:)
–
ENTRE)grupos))(debida)al)factor))
–
DENTRO)grupos))(debida)a)la)aleatoriedad))
)
Para poder afirmar que el factor produce efectos:
La variabilidad ENTRE grupos debe ser significativamente
grande respecto a la DENTRO grupos
Intro Test ANOVA Requisitos Resultados
ANOVA)
Generalizando+…+
1
2
Niveles del factor
k
1
X
1,1X
2,1...
X
k,12
X
1,2X
2,2X
i,jX
k,2j
X
1,jX
2,j...
X
k,jn
X
1,n1X
2,n2...
X
k,nki = 1,2,3,...,k j = 1,2,3,..., n
k(no balanceado)
Media al nivel i del factor = (1/n
i)
∑
X
i,jj=1
Media general =
(
1/N) ∑ ∑ X
i,jSiendo N = ∑n
iANOVA)
H
0:
µ
1
= µ
2
= … = µ
k
!
H
1: Al menos una igualdad no es cierta!
)
•
Según)la)Hipótesis)fijada))))
modelo)probabilís2co)
NO)se)rechaza)H
0)sí)y)solo)sí:)
+
))
€
F =
Q
Ek −1
Q
Dn − k
≤ F
k−1,n−k,α 14Intro Test ANOVA Requisitos Resultados
Análisis de la varianza de un factor:
µ1 f(X1j) X1j µ2 f(X2j) X2j µa f(Xaj) Xaj µ µ1 f(X1j) X1j µ2 f(X2j) X2j µa f(Xaj) Xaj µ A1 A2 Aa 15
Análisis de la varianza de un factor:
Construcción del estadístico de contraste:
Si el Fcalc > Fcrit para (a-1) y a(n-1) g.l., se rechaza H0:
al menos una de las medias Xi es significativamente diferente de las demás MCENTRE / MCDENTRO sigue una distribución F
1
Probabilidad p
Solo hay un valor crítico. La variable F es una t al cuadrado, de ahí que sólo haya una cola.
Intro Test ANOVA Requisitos Resultados
ANOVA
Fuentes de variación
Sumas de cuadrados G.L. Cuadrados
Medios
F
ENTRE
k–1
DENTRO
n–k
TOTAL
n–1
P-valor
Signif.
k n Q k Q F D E − − = 1(
)
2 1 .. .∑
= − = k i i i E n X X Q(
)
(
)
∑
∑∑
= = = − = − = k i i k i n j i ij D S n X X Q i 1 2 2 1 1 . 1(
)
∑∑
= = − = k i n j ij i X X Q 1 1 .. 21
/
E Ek
S
Q
−
=
2/
D Dn
k
S
Q
−
=
21
/
n
S
Q
−
=
17ANOVA
Hipótesis necesarias para realizar un ANOVA
a)
Normalidad de la respuesta en cada nivel
b)
Homogeneidad de las varianzas
c)
Independencia de los valores obtenidos
Intro Test ANOVA Requisitos Resultados Requisitos de ANOVA Homogeneidad de varianzas: f(x1) µ f(x2) µ f(x3) µ f(x1) µ f(x2) µ f(x3) µ
Cuando varianzas ≠, se incrementa el error Tipo I
Requisitos de ANOVA
Homogeneidad de varianzas:
Test de heterogeneidad de varianzas:
Bartlett -> high alfa, sensible a NO normalidad
Levene -> es una ANOVA para VAR. Asume var iguales!!
Scheffe -> insensible a NO normalidad, pero no lo recomnieda … Hartley ->problema cuando 1 var es pequeña….
… etc.
Test de Cochran C = mayor si2
∑ si2
La distribución C para a (tratamientos) y (n-1) g.l. ha sido tabulada Si Cobs < Cc, aceptamos la H0 de homogeneidad de varianzas
Intro Test ANOVA Requisitos Resultados
Requisitos de ANOVA
Homogeneidad de varianzas: Varianzas
homogéneas ANOVA
Varianzas no
homogéneas Transformación de datos
Conteos (o datos que siguen una dist. de Poisson) ! √ (X + 1) Ratios, tasas, concentraciones, etc. ! log (X) o log (X + 1) Porcentajes y proporciones ! sen-1 √ X (= arcsen X)
Test de homogeneidad
Transformación de datos
• Útil para eliminar heterogeneidad de la varianza.
• Sólo es efectivo si la media tiene una relación constante con la varianza.
• La transformación debe ser monotónica.
• Deben mantenerse las medias en el mismo orden.
• La transformación debe utilizarse únicamente para evitar el problema de
heterogeneidad de la varianza.
• Transformaciones sistemáticas son perjudiciales.
Requisitos de ANOVA
Intro Test ANOVA Requisitos Resultados
Raíz cuadrada
• Poblaciones que siguen una distribución de Poisson: medias y
varianzas son iguales
• Frecuencias o recuentos por unidad de tiempo o superficie.
• Principalmente con abundancias muy pequeñas.
√
X + 1
Transformación de datos
Requisitos de ANOVA
Logarítmo
• Muestreos con valores muy altos: medias mayores y varianza mucho mayores. • Datos distribuidos log-normal
• Medidas de tasas, concentraciones, relaciones,...
• Ej: Relación entre el número de presas comida por depredador, cantidad de clorofila por peso algal,...
• Independiente del tipo de logaritmo usado.
• Sumar una constante (1) para aplicar logaritmos por los valores que son 0. • Problema en valores muy pequeños: solo cuando son mayores de 10.
log (X+1)
Transformación de datos
Requisitos de ANOVA
Intro Test ANOVA Requisitos Resultados
Arcoseno
• Porcentajes y proporciones
• Distribución Binomial.
• Ej. Porcentaje de cobertura de
Posidonia
sen
-1
√
X
Transformación de datos
Requisitos de ANOVA
logit transformation
(1/2) log ((p / 1-p))
• Transforma los valores de porcentajes desde -
∞
hasta +
∞
• La transformación de arcoseno limita los valores desde 0 hasta
π
/ 2
radianes (0 hasta 90 º) .
Transformación de datos
Requisitos de ANOVA
Intro Test ANOVA Requisitos Resultados
Si la transformación de datos no es posible
• Situaciones biológicas que presentan varianzas heterogéneas:
gran agrupación de organismos.
• Cuando son experimentos bien replicados: el análisis de la
varianza es suficientemente robusto.
• Experimentos grandes y balanceados.
• La validez del test y probabilidades asociadas con la
distribución de la F ratio no se ven muy afectadas.
Requisitos de ANOVA
• Si se acepta la Ho no existe problema.!
• Si se rechaza debe ser un
α
menor (0.01): así se evita error tipo I.#
!
Utilizar un test no paramétrico !
no soluciona el problema de !
heterogeneidad de !
varianzas!
(debemos intentar explicar dicha heterogeneidad)!
!
Si la transformación de datos no soluciona la Heterogeneidad
Requisitos de ANOVAIntro Test ANOVA Requisitos Resultados Requisitos de ANOVA Homogeneidad de varianzas: Test de homogeneidad Varianzas homogéneas ANOVA Varianzas no
homogéneas Transformación de datos
Si se acepta H0 (p > 0,05), no hay problema Si se rechaza H0, considerar αc = 0,01
Utilizar un test no paramétrico (p.ej. Kruskal-Wallis) no soluciona el problema
Requisitos de ANOVA
Normalidad de los datos
El análisis de la varianza es suficientemente robusto a las desviaciones de la normalidad (Glass et al. 1972, Harwell et al. 1992, Lix et al. 1996)*, sobre todo cuando:
• hay un gran número de tratamientos y / o réplicas; • los datos están equilibrados.
Las transformaciones a menudo corrigen el apuntamiento, pero cuidado cuando existe homogeneidad de varianzas no es recomendable transformar.
(*) References!
!
Glass, G.V., P.D. Peckham, and J.R. Sanders. 1972. Consequences of failure to meet assumptions underlying fixed effects analyses of variance and covariance. Rev. Educ. Res. 42: 237-288.!
Harwell, M.R., E.N. Rubinstein, W.S. Hayes, and C.C. Olds. 1992. Summarizing Monte Carlo results in methodological research: the one- and two-factor fixed effects ANOVA cases. J. Educ. Stat. 17: 315-339.!
Lix, L.M., J.C. Keselman, and H.J. Keselman. 1996. Consequences of assumption violations revisited: A quantitative review of alternatives to the one-way analysis of variance F test. Rev. Educ. Res. 66: 579-619.!
Schmider, Emanuel; Ziegler, Matthias; Danay, Erik; Beyer, Luzi; Bühner, Markus. 2010. Is it really robust? Reinvestigating the robustness of ANOVA against violations of the normal distribution assumption.!
Methodology: European Journal of Research Methods for the Behavioral and Social Sciences, Vol 6(4), 2010, 147-151. doi:
Intro Test ANOVA Requisitos Resultados
Resumen del problema de la FALTA de INDEPENDENCIA de datos
No independencia
DENTRO de los tratamientos ENTRE los tratamientos No independencia
σ
2edentro de las muestras
es subestimado
F-ratio excesivo
Incremento del error Tipo I:
Se detectan Diferencias
sin importancia
σ
2eentre de las muestras
es subestimado
F-ratio muy pequeño
Incremento del error Tipo II
Diferencias reales no
son detectadas
σ
2edentro de las muestras
es sobreestimado
F-ratio demasiado pequeño
Incremento del error Tipo II
Diferencias reales no
son detectadas
σ
2eentre de las muestras
es sobreestimado
F-ratio excesivo
Incremento del error Tipo I
Diferencias sin importancia
son detectadas
Correlación
+
Correlación
-31• NOTA (ANOVA): en caso de rechazar la hipótesis nula se hace necesario
efectuar hipótesis específicas.
• Hemos de efectuar contrastes entre medias. Estos pueden ser :
• Contrastes Simples (cuando involucran únicamente dos medias)
• Contrastes Complejos (cuando involucran tres o más medias).
• Empleando otro criterio, los contrastes pueden ser:
• "a priori" (cuando se plantean antes de analizar los datos)
• "a posteriori" (cuando se plantean una vez vistos los datos)
Comparaciones múltiples
Intro Test ANOVA Requisitos Resultados
Al hacer varias comparaciones se aumenta la probabilidad de error de tipo I
Si en cada uno de los contrastes empleamos un = 0'05 al hacer los 3
contrastes del ejemplo, la probabilidad de cometer algún error de tipo I en el
experimento es mayor de 0'05.
(De manera análoga que comprar muchos billetes de lotería aumenta nuestras posibilidades de tener premio.)
Por tanto, se precisa controlar la probabilidad de error tipo I en cada
contraste, que será menor que 0'05.
Comparaciones múltiples
Dos tipos de definición de HA
a priori (antes de realizar el experimento)
a posteriori (no propongo alternativas hasta haber
realizado el experimento)
Los tests a priori son más potentes, pero están sometidos a mayor riesgo de error Ej: Dunn Sidak
Ejemplo de comparación a priori: H0: µ1 = µ2 = µ3 = µ4
HA: µ3 > µ1; µ3 > µ2; µ3 > µ4
Intro Test ANOVA Requisitos Resultados
Tests a posteriori"
Comparan todos los posibles pares de medias entre sí, de tal modo que definen la alternativa a la H0
Subconjuntos Homogéneos
• Únicamente podrá definirse una HA sin ambigüedad en el caso de que se los distintos tratamientos se reúnan en grupos tales que:
1. no haya diferencias entre las medias dentro de un grupo, y 2. cada media en un grupo difiere de todas las medias del otro
grupo
• Uno de los tests más utilizados es el de Student-Newman-Keuls (SNK) • Otros tests utilizables:
Scheffe Tukey LSD
Bonferroni … etc.
Bonferroni
"
Test que realiza comparaciones dos a dos basado en el contraste de diferencias de medias, σ2 desconocidas pero iguales:
Siendo:
Como interesa mantener Alfa por debajo del nivel predeterminado, se corrige utilizando para cada nivel K, (constante de penalización):
OJO: Test conservador que detecta menos diferencias de las reales. No se recomienda
cuando existen muchos niveles
chazo
No
t
n
n
S
X
X
K k n j i d j iRe
1
1
<
, /⇒
+
−
− α n k Q S D D − = 2!
2
)!
2
(
!
2
""
#
=
−
$
%%
&
'
=
k
k
k
K
Nº de posibles comparacionesIntro Test ANOVA Requisitos Resultados
Otros test:
Existen otros test basados también en comparaciones de diferencias de medias
tomadas dos a dos. Entre otros:
Fisher LSD (diferencia mínima significativa): Test aplicado cuando no es
necesario el incremento del error Tipo I (aplicación directa del test t-Student):
No se aplica penalización (no conservador). Usado para pocas comparaciones.
Tukey HSD (diferencia significativa honesta): Aplica penalización (conservador).
Utiliza el llamado estadístico de rango studerizado
ANOVA y Test a posteriori
Intro Test ANOVA Requisitos Resultados -2 -1 0 1 Lago4-Lago3 Lago3-Lago2 Lago3-Lago1
95% family-wise confidence level
Differences in mean levels of grupo
Tukey: Ejemplo con R
Si aplicamos Tukey con R en un ejemplo que ANOVA rechazaba H
0OJO: MEDIAS IGUALES (no existen diferencias significativas p-valor>0.05) Se observa también en la gráfica Todas las líneas incluyen el CERO
Test a posteriori
Ejemplo: Se tienen los siguientes datos
¿Es suficientemente importante esta
diferencia como para concluir que la
zona 1 es diferente las demás?
Lago 1
7.8
9.2
6.9
8
8.6
Lago 2
7.2
6.5
5.9
7.8
6.4
Lago 3
5.6
7.1
6.3
6.7
6.5
Lago 4
7.2
6.6
6.3
7.4
6.5
ANOVA y Test a posteriori
Zona 1
Zona 2
Zona 3
Zona 4
lago1 lago2 lago3 lago4
5.5 6.0 6.5 7.0 7.5 8.0 8.5 9.0
Intro Test ANOVA Requisitos Resultados
1. Hipótesis del contraste:
2. Verificar hipótesis del modelo
(…)
• Independencia de los valores observados (comprobar)
• Normalidad (para cada grupo test –ej. KS-)
• Homogeneidad de las Varianzas (Test de Cochran):
:
:
1 0
H
H
No existen diferencias entre las k lagunasHipótesis nula no cierta (alguna laguna es diferente al resto)
:
:
1 4 3 2 1 0H
H
µ
=
µ
=
µ
=
µ
Al menos una igualdad no es cierta
(alfa:0.05)
ANOVA y Test a posteriori
b) Tabla ANOVA:
Fuentes de variación Sumas de cuadrados Grados de Libertad Cuadrados MediosF
Signif.
ENTRE
DENTRO
TOTAL
878
.
5
459
.
0
70
.
2
1
exp=
=
−
−
=
k
n
Q
k
Q
F
D E tF
c⇒
F
k−1,n−k,α=
F
3,16,0.05 05 . 0 , 16 , 3 exp5
.
878
3
.
24
F
F
t=
>
=
006648
.
0
)
(
3,16>
exp=
=
−
valor
P
F
F
tp
5.878 p<0.01 RECHAZO 3 16 19 8.09 7.34 15.43 2.70 0.459 0.812ANOVA y Test a posteriori
Intro Test ANOVA Requisitos Resultados
Muestras Dif.med. tij t16, 0. 05/6 p-valorij aprox. p-valorij 1 y 2 1.34 4.945 Signif. p<0.005 0.000073 1 y 3 1.66 6.126 Signif. p<0.005 0.000007 1 y 4 1.30 4.797 Signif. p<0.005 0.000099 2 y 3 0.32 1.181 No signif. 0.1<p<0.25 0.127 2 y 4 -0.04 0.148 No signif. p>0.25 0.442 3 y 4 -0.36 1.328 No signif. 0.1<p<0.25 0.101
c) Test a posteriori (aplicación Bonferroni):
ANOVA y Test a posteriori
6
!
2
)!
2
4
(
!
4
2
4
2
""
#
=
−
=
$
%%
&
'
=
""
#
$
%%
&
'
=
k
K
677
.
0
459
.
0
=
=
−
=
k
n
Q
S
D D...
...
...
...
...
...
945
.
4
5
1
5
1
677
.
0
76
.
6
10
.
8
1
1
12=
+
−
=
⇒
+
−
=
t
n
n
S
X
X
t
j i D j i ij673228
.
2
0083 . 0 , 16 / ,=
=
=
t
−t
t
c n k α K (Obtenido con R: qt(1-0.00833,16)(Obtenido con R: pt(t,n-k,lower.tail=false)
Recuerda: Tanto tc como p-valor se pueden
c) Test a posteriori (aplicación Tukey con R):
ANOVA y Test a posteriori
-3 -2 -1 0 1 Lago4-Lago3 Lago3-Lago2 Lago3-Lago1
95% family-wise confidence level
Intro Test ANOVA Requisitos Resultados
Tests
a posteriori!
• Comparan todos los posibles pares de medias entre sí, de tal modo que definen la alternativa a la H0
• Únicamente podrá definirse una HA sin ambigüedad en el caso de que se los distintos tratamientos se reúnan en grupos tales que:
1. no haya diferencias entre las medias dentro de un grupo, y 2. cada media en un grupo difiere de todas las medias del otro
grupo
• Uno de los tests más utilizados es el de Student-Newman-Keuls (SNK) • Otros tests utilizables:
Scheffe Tukey LSD Bonferroni … etc. 46
Tests a posteriori Test SNK: Rango 1 2 3 4 5 test SNK Medias 2,6 3,8 4,1 6,4 7,1 g Q D=QxET Comparaciones 5-14,5* 4-13,8* 5-23,3* 3-11,5 4-22,6* 5-33,0* 2-11,2 3-20,3 4-32,3* 5-40,7 5 4,10 1,97 4 3,84 1,84 3 3,49 1,68 2 2,89 1,39 ET = √ (MCDENTRO / n) = √ (1,60 / 7) = 0,48
Qij = Xi – Xj / ET está tabulado para H0 verdadera
α = 0,05 gl = 30 Si (Xi –Xj) > D, la diferencia es significativa (*) 5 > 1 5 > 2 5 > 3 5 = 4 4 > 1 4 > 2 4 > 3 3 = 1 3 = 2 2 = 1 5 = 4 > 3 = 2 = 1
Hay 2 Subconjuntos Homogéneos
Intro Test ANOVA Requisitos Resultados
Tests a posteriori Presentación de resultados
53
Intro Test ANOVA Requisitos Resultados
Tests a posteriori
Un resultado tal que:
5 4 3 2 1
… no hay una HA identificable !!
… comportamiento en forma de gradiente.
¿Hay Subconjuntos Homogéneos?
55