• No se han encontrado resultados

Principios)de)ANOVA)

N/A
N/A
Protected

Academic year: 2021

Share "Principios)de)ANOVA)"

Copied!
48
0
0

Texto completo

(1)

Principios)de)ANOVA)

Dept. of Marine Science and Applied Biology Jose Jacobo Zubcoff

Licencia creative commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)

(2)

Intro Test ANOVA Requisitos Resultados

¿Qué es y para que sirve?

ANOVA

Compara la distribución de una variable continua normal en

dos o más poblaciones

(niveles o categorías)

Pruebas de contraste para dos o más grupos

independientes (ANOVA entre sujetos): un factor

completamente aleatorizado.

(3)

Ejemplo de problema a resolver:

Se quiere estudiar la abundancia en tres zonas pesqueras, una de las cuales

tiene cierto nivel de protección (pesquera).

Se espera que comparando los valores de esta zona con la de otras dos con

parecidas características el hecho resultará evidente.

Hipótesis:

ANOVA

:

:

1 0

H

H

No existen diferencias entre las k zonas

Hipótesis nula no cierta (al menos alguna zona es diferente al resto)

(4)

Intro Test ANOVA Requisitos Resultados

ANOVA

H

0

: No existen diferencias entre los

k

niveles

H

1

: La hipótesis nula no es cierta

Hipótesis nula: (todas las medias poblacionales de los “k" grupos son iguales)

H0: µ1=µ2=µ3...=µa=µ

Hipótesis alternativa: (al menos una media poblacional difiere)

H1: No es cierto H0

•  Parte de un conjunto de observaciones muestrales

• 

K niveles o categorías

(5)

ANOVA

Supongamos un universo de notas de 9 alumnos

de 3 grupos distintos

No hay diferencia ENTRE grupos

Ni DENTRO de los grupos

Grupo 1 Grupo 2 Grupo 3

5

5

5

5

5

5

5

5

5

X

i,j

= µ

(6)

Intro Test ANOVA Requisitos Resultados

ANOVA

Supongamos que aplicamos un método de enseñanza (

factor

)

que afecta:

Donde

α

i

= {1,2,0}

efecto del factor!

Grupo 1 Grupo 2 Grupo 3

5+1=6

5+2=7

5+0=5

5+1=6

5+2=7

5+0=5

5+1=6

5+2=7

5+0=5

X

i,j

= µ + α

i!

El factor influye en establecer diferencias ENTRE grupos

Pero NO DENTRO

(7)

ANOVA

Donde

ε

i,j

= {-1,-2,0,2,0,1,3,4,0}

efecto aleatoriedad

Grupo 1

Grupo 2

Grupo 3

5+1-1 = 5 5+2+2 = 9 5+0+3 = 8

5+1-2 = 4 5+2+0 = 7 5+0+4

= 9

5+1+0 = 6 5+2+1 = 8 5+0+0 = 5

X

i,j

= µ + α

i

+ ε

i,j!

La ALEATORIEDAD influye en la variabilidad

DENTRO

de los

grupos

•  Por razones ALEATORIAS algunos alumnos rinden mas que otros

(8)

Intro Test ANOVA Requisitos Resultados

ANOVA

Grupo 1

Grupo 2

Grupo 3

5+1-1 = 5

5+2+2 = 9 5+0+3 = 8

5+1-2 = 4

5+2+0 = 7 5+0+4

= 9

5+1+0 = 6 5+2+1 = 8 5+0+0 = 5

X

1.

= 5

"

X

2

.

= 8

"

X

3.

= 7.33"

X

..

= 6.78"

Calculamos las medias por grupo y la media global

(9)

Intro Test ANOVA Requisitos Resultados

ANOVA

Grupo 1

Grupo 2

Grupo 3

5

9

8

4

7

9

6

8

5

X

1.

= 5

"

X

2

.

= 8

"

X

3.

= 7.33"

X

..

= 6.78"

Para calcular el efecto aleatorio: medimos las diferencias DENTRO

(

X

ij

− X ..

)

2

=

(

X

ij

− X

i.

)

2 j=1 ni

i=1 k

+

n

i

(

X

i.

− X..

)

2 i=1 k

9

(10)

Intro Test ANOVA Requisitos Resultados

ANOVA

Grupo 1

Grupo 2

Grupo 3

5

9

8

4

7

9

6

8

5

X

1.

= 5

"

X

2

.

= 8

"

X

3.

= 7.33"

X

..

= 6.78"

Para calcular el efecto del

factor

: medimos las diferencias

ENTRE

(

X

ij

− X ..

)

2

=

(

X

ij

− X

i.

)

2 j=1 ni

i=1 k

+

n

i

(

X

i.

− X..

)

2 i=1 k

10

(11)

ANOVA)

Tenemos)dos)2pos)de)variabilidad:)

– 

ENTRE)grupos))(debida)al)factor))

– 

DENTRO)grupos))(debida)a)la)aleatoriedad))

)

Para poder afirmar que el factor produce efectos:

La variabilidad ENTRE grupos debe ser significativamente

grande respecto a la DENTRO grupos

(12)

Intro Test ANOVA Requisitos Resultados

ANOVA)

Generalizando+…+

1

2

Niveles del factor

k

1

X

1,1

X

2,1

...

X

k,1

2

X

1,2

X

2,2

X

i,j

X

k,2

j

X

1,j

X

2,j

...

X

k,j

n

X

1,n1

X

2,n2

...

X

k,nk

i = 1,2,3,...,k j = 1,2,3,..., n

k

(no balanceado)

Media al nivel i del factor = (1/n

i

)

X

i,j

j=1

Media general =

(

1/N) ∑ ∑ X

i,j

Siendo N = ∑n

i

(13)

ANOVA)

H

0

:

µ

1

= µ

2

= … = µ

k

!

H

1

: Al menos una igualdad no es cierta!

)

• 

Según)la)Hipótesis)fijada))))

modelo)probabilís2co)

NO)se)rechaza)H

0

)sí)y)solo)sí:)

+

))

F =

Q

E

k −1

Q

D

n − k

≤ F

k−1,n−k,α 14

(14)

Intro Test ANOVA Requisitos Resultados

Análisis de la varianza de un factor:

µ1 f(X1j) X1j µ2 f(X2j) X2j µa f(Xaj) Xaj µ µ1 f(X1j) X1j µ2 f(X2j) X2j µa f(Xaj) Xaj µ A1 A2 Aa 15

(15)

Análisis de la varianza de un factor:

Construcción del estadístico de contraste:

Si el Fcalc > Fcrit para (a-1) y a(n-1) g.l., se rechaza H0:

al menos una de las medias Xi es significativamente diferente de las demás MCENTRE / MCDENTRO sigue una distribución F

1

Probabilidad p

Solo hay un valor crítico. La variable F es una t al cuadrado, de ahí que sólo haya una cola.

(16)

Intro Test ANOVA Requisitos Resultados

ANOVA

Fuentes de variación

Sumas de cuadrados G.L. Cuadrados

Medios

F

ENTRE

k–1

DENTRO

n–k

TOTAL

n–1

P-valor

Signif.

k n Q k Q F D E − − = 1

(

)

2 1 .. .

= − = k i i i E n X X Q

(

)

(

)

∑∑

= = = − = − = k i i k i n j i ij D S n X X Q i 1 2 2 1 1 . 1

(

)

∑∑

= = − = k i n j ij i X X Q 1 1 .. 2

1

/

E E

k

S

Q

=

2

/

D D

n

k

S

Q

=

2

1

/

n

S

Q

=

17

(17)

ANOVA

Hipótesis necesarias para realizar un ANOVA

a) 

Normalidad de la respuesta en cada nivel

b) 

Homogeneidad de las varianzas

c) 

Independencia de los valores obtenidos

(18)

Intro Test ANOVA Requisitos Resultados Requisitos de ANOVA Homogeneidad de varianzas: f(x1) µ f(x2) µ f(x3) µ f(x1) µ f(x2) µ f(x3) µ

Cuando varianzas ≠, se incrementa el error Tipo I

(19)

Requisitos de ANOVA

Homogeneidad de varianzas:

Test de heterogeneidad de varianzas:

Bartlett -> high alfa, sensible a NO normalidad

Levene -> es una ANOVA para VAR. Asume var iguales!!

Scheffe -> insensible a NO normalidad, pero no lo recomnieda … Hartley ->problema cuando 1 var es pequeña….

… etc.

Test de Cochran C = mayor si2

∑ si2

La distribución C para a (tratamientos) y (n-1) g.l. ha sido tabulada Si Cobs < Cc, aceptamos la H0 de homogeneidad de varianzas

(20)

Intro Test ANOVA Requisitos Resultados

Requisitos de ANOVA

Homogeneidad de varianzas: Varianzas

homogéneas ANOVA

Varianzas no

homogéneas Transformación de datos

Conteos (o datos que siguen una dist. de Poisson) ! √ (X + 1) Ratios, tasas, concentraciones, etc. ! log (X) o log (X + 1) Porcentajes y proporciones ! sen-1 √ X (= arcsen X)

Test de homogeneidad

(21)

Transformación de datos

•  Útil para eliminar heterogeneidad de la varianza.

•  Sólo es efectivo si la media tiene una relación constante con la varianza.

•  La transformación debe ser monotónica.

•  Deben mantenerse las medias en el mismo orden.

•  La transformación debe utilizarse únicamente para evitar el problema de

heterogeneidad de la varianza.

•  Transformaciones sistemáticas son perjudiciales.

Requisitos de ANOVA

(22)

Intro Test ANOVA Requisitos Resultados

Raíz cuadrada

•  Poblaciones que siguen una distribución de Poisson: medias y

varianzas son iguales

•  Frecuencias o recuentos por unidad de tiempo o superficie.

•  Principalmente con abundancias muy pequeñas.

X + 1

Transformación de datos

Requisitos de ANOVA

(23)

Logarítmo

•  Muestreos con valores muy altos: medias mayores y varianza mucho mayores. •  Datos distribuidos log-normal

•  Medidas de tasas, concentraciones, relaciones,...

•  Ej: Relación entre el número de presas comida por depredador, cantidad de clorofila por peso algal,...

•  Independiente del tipo de logaritmo usado.

•  Sumar una constante (1) para aplicar logaritmos por los valores que son 0. •  Problema en valores muy pequeños: solo cuando son mayores de 10.

log (X+1)

Transformación de datos

Requisitos de ANOVA

(24)

Intro Test ANOVA Requisitos Resultados

Arcoseno

•  Porcentajes y proporciones

•  Distribución Binomial.

•  Ej. Porcentaje de cobertura de

Posidonia

sen

-1

X

Transformación de datos

Requisitos de ANOVA

(25)

logit transformation

(1/2) log ((p / 1-p))

•  Transforma los valores de porcentajes desde -

hasta +

•  La transformación de arcoseno limita los valores desde 0 hasta

π

/ 2

radianes (0 hasta 90 º) .

Transformación de datos

Requisitos de ANOVA

(26)

Intro Test ANOVA Requisitos Resultados

Si la transformación de datos no es posible

•  Situaciones biológicas que presentan varianzas heterogéneas:

gran agrupación de organismos.

•  Cuando son experimentos bien replicados: el análisis de la

varianza es suficientemente robusto.

•  Experimentos grandes y balanceados.

•  La validez del test y probabilidades asociadas con la

distribución de la F ratio no se ven muy afectadas.

Requisitos de ANOVA

(27)

• Si se acepta la Ho no existe problema.!

• Si se rechaza debe ser un

α

menor (0.01): así se evita error tipo I.#

!

Utilizar un test no paramétrico !

no soluciona el problema de !

heterogeneidad de !

varianzas!

(debemos intentar explicar dicha heterogeneidad)!

!

Si la transformación de datos no soluciona la Heterogeneidad

Requisitos de ANOVA

(28)

Intro Test ANOVA Requisitos Resultados Requisitos de ANOVA Homogeneidad de varianzas: Test de homogeneidad Varianzas homogéneas ANOVA Varianzas no

homogéneas Transformación de datos

Si se acepta H0 (p > 0,05), no hay problema Si se rechaza H0, considerar αc = 0,01

Utilizar un test no paramétrico (p.ej. Kruskal-Wallis) no soluciona el problema

(29)

Requisitos de ANOVA

Normalidad de los datos

El análisis de la varianza es suficientemente robusto a las desviaciones de la normalidad (Glass et al. 1972, Harwell et al. 1992, Lix et al. 1996)*, sobre todo cuando:

•  hay un gran número de tratamientos y / o réplicas; •  los datos están equilibrados.

Las transformaciones a menudo corrigen el apuntamiento, pero cuidado cuando existe homogeneidad de varianzas no es recomendable transformar.

(*) References!

!

Glass, G.V., P.D. Peckham, and J.R. Sanders. 1972. Consequences of failure to meet assumptions underlying fixed effects analyses of variance and covariance. Rev. Educ. Res. 42: 237-288.!

Harwell, M.R., E.N. Rubinstein, W.S. Hayes, and C.C. Olds. 1992. Summarizing Monte Carlo results in methodological research: the one- and two-factor fixed effects ANOVA cases. J. Educ. Stat. 17: 315-339.!

Lix, L.M., J.C. Keselman, and H.J. Keselman. 1996. Consequences of assumption violations revisited: A quantitative review of alternatives to the one-way analysis of variance F test. Rev. Educ. Res. 66: 579-619.!

Schmider, Emanuel; Ziegler, Matthias; Danay, Erik; Beyer, Luzi; Bühner, Markus. 2010. Is it really robust? Reinvestigating the robustness of ANOVA against violations of the normal distribution assumption.!

Methodology: European Journal of Research Methods for the Behavioral and Social Sciences, Vol 6(4), 2010, 147-151. doi:

(30)

Intro Test ANOVA Requisitos Resultados

Resumen del problema de la FALTA de INDEPENDENCIA de datos

No independencia

DENTRO de los tratamientos ENTRE los tratamientos No independencia

σ

2e

dentro de las muestras

es subestimado

F-ratio excesivo

Incremento del error Tipo I:

Se detectan Diferencias

sin importancia

σ

2e

entre de las muestras

es subestimado

F-ratio muy pequeño

Incremento del error Tipo II

Diferencias reales no

son detectadas

σ

2e

dentro de las muestras

es sobreestimado

F-ratio demasiado pequeño

Incremento del error Tipo II

Diferencias reales no

son detectadas

σ

2e

entre de las muestras

es sobreestimado

F-ratio excesivo

Incremento del error Tipo I

Diferencias sin importancia

son detectadas

Correlación

+

Correlación

-31

(31)

•  NOTA (ANOVA): en caso de rechazar la hipótesis nula se hace necesario

efectuar hipótesis específicas.

•  Hemos de efectuar contrastes entre medias. Estos pueden ser :

•  Contrastes Simples (cuando involucran únicamente dos medias)

•  Contrastes Complejos (cuando involucran tres o más medias).

•  Empleando otro criterio, los contrastes pueden ser:

•  "a priori" (cuando se plantean antes de analizar los datos)

•  "a posteriori" (cuando se plantean una vez vistos los datos)

Comparaciones múltiples

(32)

Intro Test ANOVA Requisitos Resultados

Al hacer varias comparaciones se aumenta la probabilidad de error de tipo I

Si en cada uno de los contrastes empleamos un = 0'05 al hacer los 3

contrastes del ejemplo, la probabilidad de cometer algún error de tipo I en el

experimento es mayor de 0'05.

(De manera análoga que comprar muchos billetes de lotería aumenta nuestras posibilidades de tener premio.)

Por tanto, se precisa controlar la probabilidad de error tipo I en cada

contraste, que será menor que 0'05.

Comparaciones múltiples

(33)

Dos tipos de definición de HA

a priori (antes de realizar el experimento)

a posteriori (no propongo alternativas hasta haber

realizado el experimento)

Los tests a priori son más potentes, pero están sometidos a mayor riesgo de error Ej: Dunn Sidak

Ejemplo de comparación a priori: H0: µ1 = µ2 = µ3 = µ4

HA: µ3 > µ1; µ3 > µ2; µ3 > µ4

(34)

Intro Test ANOVA Requisitos Resultados

Tests a posteriori"

Comparan todos los posibles pares de medias entre sí, de tal modo que definen la alternativa a la H0

Subconjuntos Homogéneos

•  Únicamente podrá definirse una HA sin ambigüedad en el caso de que se los distintos tratamientos se reúnan en grupos tales que:

1.  no haya diferencias entre las medias dentro de un grupo, y 2.  cada media en un grupo difiere de todas las medias del otro

grupo

•  Uno de los tests más utilizados es el de Student-Newman-Keuls (SNK) •  Otros tests utilizables:

Scheffe Tukey LSD

Bonferroni … etc.

(35)

Bonferroni

"

Test que realiza comparaciones dos a dos basado en el contraste de diferencias de medias, σ2 desconocidas pero iguales:

Siendo:

Como interesa mantener Alfa por debajo del nivel predeterminado, se corrige utilizando para cada nivel K, (constante de penalización):

OJO: Test conservador que detecta menos diferencias de las reales. No se recomienda

cuando existen muchos niveles

chazo

No

t

n

n

S

X

X

K k n j i d j i

Re

1

1

<

, /

+

− α n k Q S D D − = 2

!

2

)!

2

(

!

2

""

#

=

$

%%

&

'

=

k

k

k

K

Nº de posibles comparaciones

(36)

Intro Test ANOVA Requisitos Resultados

Otros test:

Existen otros test basados también en comparaciones de diferencias de medias

tomadas dos a dos. Entre otros:

Fisher LSD (diferencia mínima significativa): Test aplicado cuando no es

necesario el incremento del error Tipo I (aplicación directa del test t-Student):

No se aplica penalización (no conservador). Usado para pocas comparaciones.

Tukey HSD (diferencia significativa honesta): Aplica penalización (conservador).

Utiliza el llamado estadístico de rango studerizado

(37)

ANOVA y Test a posteriori

(38)

Intro Test ANOVA Requisitos Resultados -2 -1 0 1 Lago4-Lago3 Lago3-Lago2 Lago3-Lago1

95% family-wise confidence level

Differences in mean levels of grupo

Tukey: Ejemplo con R

Si aplicamos Tukey con R en un ejemplo que ANOVA rechazaba H

0

OJO: MEDIAS IGUALES (no existen diferencias significativas p-valor>0.05) Se observa también en la gráfica Todas las líneas incluyen el CERO

Test a posteriori

(39)

Ejemplo: Se tienen los siguientes datos

¿Es suficientemente importante esta

diferencia como para concluir que la

zona 1 es diferente las demás?

Lago 1

7.8

9.2

6.9

8

8.6

Lago 2

7.2

6.5

5.9

7.8

6.4

Lago 3

5.6

7.1

6.3

6.7

6.5

Lago 4

7.2

6.6

6.3

7.4

6.5

ANOVA y Test a posteriori

Zona 1

Zona 2

Zona 3

Zona 4

lago1 lago2 lago3 lago4

5.5 6.0 6.5 7.0 7.5 8.0 8.5 9.0

(40)

Intro Test ANOVA Requisitos Resultados

1.  Hipótesis del contraste:

2.  Verificar hipótesis del modelo

(…)

•  Independencia de los valores observados (comprobar)

•  Normalidad (para cada grupo test –ej. KS-)

•  Homogeneidad de las Varianzas (Test de Cochran):

:

:

1 0

H

H

No existen diferencias entre las k lagunas

Hipótesis nula no cierta (alguna laguna es diferente al resto)

:

:

1 4 3 2 1 0

H

H

µ

=

µ

=

µ

=

µ

Al menos una igualdad no es cierta

(alfa:0.05)

ANOVA y Test a posteriori

(41)

b) Tabla ANOVA:

Fuentes de variación Sumas de cuadrados Grados de Libertad Cuadrados Medios

F

Signif.

ENTRE

DENTRO

TOTAL

878

.

5

459

.

0

70

.

2

1

exp

=

=

=

k

n

Q

k

Q

F

D E t

F

c

F

k−1,nk

=

F

3,16,0.05 05 . 0 , 16 , 3 exp

5

.

878

3

.

24

F

F

t

=

>

=

006648

.

0

)

(

3,16

>

exp

=

=

valor

P

F

F

t

p

5.878 p<0.01 RECHAZO 3 16 19 8.09 7.34 15.43 2.70 0.459 0.812

ANOVA y Test a posteriori

(42)

Intro Test ANOVA Requisitos Resultados

Muestras Dif.med. tij t16, 0. 05/6 p-valorij aprox. p-valorij 1 y 2 1.34 4.945 Signif. p<0.005 0.000073 1 y 3 1.66 6.126 Signif. p<0.005 0.000007 1 y 4 1.30 4.797 Signif. p<0.005 0.000099 2 y 3 0.32 1.181 No signif. 0.1<p<0.25 0.127 2 y 4 -0.04 0.148 No signif. p>0.25 0.442 3 y 4 -0.36 1.328 No signif. 0.1<p<0.25 0.101

c) Test a posteriori (aplicación Bonferroni):

ANOVA y Test a posteriori

6

!

2

)!

2

4

(

!

4

2

4

2

""

#

=

=

$

%%

&

'

=

""

#

$

%%

&

'

=

k

K

677

.

0

459

.

0

=

=

=

k

n

Q

S

D D

...

...

...

...

...

...

945

.

4

5

1

5

1

677

.

0

76

.

6

10

.

8

1

1

12

=

+

=

+

=

t

n

n

S

X

X

t

j i D j i ij

673228

.

2

0083 . 0 , 16 / ,

=

=

=

t

t

t

c n k α K (Obtenido con R: qt(1-0.00833,16)

(Obtenido con R: pt(t,n-k,lower.tail=false)

Recuerda: Tanto tc como p-valor se pueden

(43)

c) Test a posteriori (aplicación Tukey con R):

ANOVA y Test a posteriori

-3 -2 -1 0 1 Lago4-Lago3 Lago3-Lago2 Lago3-Lago1

95% family-wise confidence level

(44)

Intro Test ANOVA Requisitos Resultados

Tests

a posteriori!

•  Comparan todos los posibles pares de medias entre sí, de tal modo que definen la alternativa a la H0

•  Únicamente podrá definirse una HA sin ambigüedad en el caso de que se los distintos tratamientos se reúnan en grupos tales que:

1.  no haya diferencias entre las medias dentro de un grupo, y 2.  cada media en un grupo difiere de todas las medias del otro

grupo

•  Uno de los tests más utilizados es el de Student-Newman-Keuls (SNK) •  Otros tests utilizables:

Scheffe Tukey LSD Bonferroni … etc. 46

(45)

Tests a posteriori Test SNK: Rango 1 2 3 4 5 test SNK Medias 2,6 3,8 4,1 6,4 7,1 g Q D=QxET Comparaciones 5-14,5* 4-13,8* 5-23,3* 3-11,5 4-22,6* 5-33,0* 2-11,2 3-20,3 4-32,3* 5-40,7 5 4,10 1,97 4 3,84 1,84 3 3,49 1,68 2 2,89 1,39 ET = √ (MCDENTRO / n) = √ (1,60 / 7) = 0,48

Qij = Xi – Xj / ET está tabulado para H0 verdadera

α  = 0,05 gl = 30 Si (Xi –Xj) > D, la diferencia es significativa (*) 5 > 1 5 > 2 5 > 3 5 = 4 4 > 1 4 > 2 4 > 3 3 = 1 3 = 2 2 = 1 5 = 4 > 3 = 2 = 1

Hay 2 Subconjuntos Homogéneos

(46)

Intro Test ANOVA Requisitos Resultados

Tests a posteriori Presentación de resultados

(47)

53

(48)

Intro Test ANOVA Requisitos Resultados

Tests a posteriori

Un resultado tal que:

5 4 3 2 1

… no hay una HA identificable !!

… comportamiento en forma de gradiente.

¿Hay Subconjuntos Homogéneos?

55

Referencias

Documento similar