Introducción al Análisis de la Varianza

Texto completo

(1)

Introducción al Análisis de la Varianza

F. Javier Cara

Universidad Politécnica de Madrid

(2)

Distribuciones import. en Analisis de la Varianza

SeanX1,X2, . . . ,Xn,Y1,Y2, . . . ,Ym, variables aleatorias

independientes con distribuciónXi,Yj ❀N(0,1)∀i,j. Se definen:

◮ Distribuciónχ2

n(ji-cuadrado) conngrados de libertad: (X12+X22+· · ·+Xn2)❀χ2n

Propiedades:

E[χ2n] =n, Var[χ2n] =2n,

χ2m+χ2n=χm+n2 (χ2m, χ2nindependientes). ◮ Distribuciónt−student conngrados de libertad:

Yi X2 1+X22+···+Xn2 n 12 ❀ N(0,1) χ2 n n 12 =tn

◮ DistribuciónF conmyngrados de libertad: Y2 1+Y 2 2+···+Y 2 m m X2 1+X22+···+Xn2 ❀ χ2 m m χ2 n = Fm,n

(3)

Muestras

◮ Sea{x1,x2, . . . ,xn}una muestra aleatoria simple de una variable aleatoriaX con función de densidad de probabilidad dada. ◮ Se define lamedia muestralcomo

¯ x = x1+x2+. . .+xn n = n P i=1 xi n

◮ Se define lavarianza muestralcomo

s2=(x1−x¯) 2+ (x 2−¯x)2+. . .+ (xn−x¯)2 n = n P i=1 (xi−x¯)2 n

◮ Se define lavarianza muestral corregidacomo

ˆ s2= n P i=1 (xi−¯x)2 n1 = n n1s 2

◮ Sonvariables aleatoriasya que toman diferentes valores según la muestra seleccionada. Por lo tanto podemos calcular su media, su varianza y su función de densidad de probabilidad.

(4)

Distribución de la media muestral (pobl. normal)

◮ Sea{x1,x2, . . . ,x

n}una muestra aleatoria simple de una variable aleatoriaX con función de densidad de probabilidad

X N(µ, σ2).

◮ Esperanza de la media muestral

E[¯x] = E[x1] +E[x2] +. . .+E[xn]

n =

nµ n =µ

◮ Varianza de la media muestral

Var[¯x] = Var[x1] +Var[x2] +. . .+Var[xn]

n2 =

nσ2 n2 =

σ2 n

◮ Función de densidad de probabilidad de la media muestral La función de densidad dex¯es una normal, ya que la combinación lineal de normales es otra normal:

¯ x ❀N µ,σ 2 n

(5)

Distribución de la varianza muestral (normal)

Se tiene que: n X i=1 (xi−x¯)2= n X i=1 (xi−µ+µ−x¯)2= n X i=1 (xi−µ)2+n(µ−¯x)2+2(µ−x¯) n X i=1 (xi−µ) Por tanto n X i=1 (xi−x¯)2= n X i=1 (xi−µ)2−n(µ−¯x)2⇒ n X i=1 (xi−µ)2= n X i=1 (xi−x¯)2+n(µ−x¯)2 n X i=1 (xi−µ)2=ns2+n(¯x−µ)2 Dividiendo porσ2 n X i=1 xi−µ σ 2 =ns 2 σ2 + ¯ x µ σ/√n 2

(6)

Distribución de la varianza muestral (normal)

Se tiene que xi−µ σ ❀N(0,1)⇒ n X i=1 xi−µ σ 2 ❀χ2n ¯ x N µ,σ 2 n ⇒ ¯ x µ σ/√n 2 ❀χ21

Por tanto, de acuerdo con las propiedades de laχ2 ns2

σ2 ❀χ 2

n−1

Además, se tiene que cumplir que x¯ ys2son independientes

Por último E ns2 σ2 =n1E[s2] = n−1 n σ 2 Var ns2 σ2 =2(n1)⇒Var[s2] = 2(n−1) n2 σ 4

(7)

Distrib. de varianza muestral corregida (normal)

◮ Sea{x1,x2, . . . ,xn}una muestra aleatoria simple de una variable aleatoriaX con función de densidad de probabilidad

X ❀N(µ, σ2). ◮ Sabemos que ns2 σ2 ❀χ 2 n−1 ˆ s2= n n1s 2 ◮ Por tanto (n1)ˆs2 σ2 ❀χ 2 n−1 E (n −1)ˆs2 σ2 =n1E[ˆs2] =σ2 Var (n −1)ˆs2 σ2 =2(n1)⇒Var[ˆs2] = 2σ 4 n1

Luego la varianza muestral corregida es un estimador centrado de la varianza.

(8)

Comparación de dos tratamientos (test de la

t

)

◮ Se desea comparar dos tratamientos para reducir el nivel de colesterol en sangre.

◮ Se seleccionan 20 individuos y se asignan al azar a dos tipos de dietas, A y B.

◮ La reducción consequida después de dos meses es: Dieta A Dieta B 51.3 29.6 39.4 47.0 26.3 25.9 39.0 13.0 48.1 33.1 34.2 22.1 69.8 34.1 31.3 19.5 45.2 43.8 46.4 24.9

(9)

Contraste de Hipotesis

◮ Vamos a representar los datos de la tabla pory

ij, dondei: dieta (i =1,2),j: individuo (j=1,2, . . . ,10). Por ejemplo,y24=13.0

◮ La media de los datos correspondientes a la dieta A se va a representar como¯y1•, y la media de los datos correspondientes

a la dieta B comoy¯2• ¯ y1•= 10 P j=1 y1j 10 =43.1, y¯2•= 10 P j=1 y2j 10 =29.3 ◮ Necesitamos las siguientes hipótesis

1. Normalidad:y1j❀N(µ1, σ21),y2j ❀N(µ2, σ22)

2. Homocedasticidad:σ12=σ22=σ2

3. Independencia:Cov[yij,ykl] =0

◮ Ya podemos expresar matemáticamente lo que nos pide el problema

H0:µ1=µ2 H1:µ16=µ2

(10)

Varianza muestral

s

ˆ

t2

◮ Tenemos que

◮ La distribución de las medias muestrales es:

¯ y1•❀N µ1, σ2 n1 , y2¯•❀N µ2, σ2 n2

◮ La distribución de las varianzas corregidas es

(n1−1)ˆs21 σ2 ❀χ 2 n1−1, (n2−1)ˆs22 σ2 ❀χ 2 n2−1

◮ Además vamos a definir

ˆ s2t = (n1−1)ˆs12+ (n2−1)ˆs22 n2 donde n=n1+n2

(11)

Distribución de

ˆ

s

t2 ◮ Operando (n2)ˆs2 t σ2 = (n1−1)ˆs21 σ2 + (n2−1)ˆs22 σ2

◮ Por las propiedades de laχ2 (n2)ˆs2 t σ2 ❀χ 2 n−2 E (n −2)ˆs2 t σ2 =n2E[ˆst2] =σ2 Var (n2)ˆs2 t σ2 =2(n2)⇒Var[ˆs2t] = 2σ 4 n2 ◮ sˆ2

(12)

Distribución de

y

¯

1

y

¯

2

◮ Recordad las propiedades de la esperanza y de la varianza: seanx ey dos variables independientes

E[a+bx+cy] =a+bE[x] +cE[y] Var[a+bx+cy] =b2Var[x] +c2Var[y] ◮ Por tanto

E[¯y1•−¯y2•] =E[¯y1•]−E[¯y2•] =µ1−µ2

Var[¯y1•−¯y2•] =Var[¯y1•] +Var[¯y2•] =

σ2 n1

2 n2

◮ La combinación lineal de normales es otra normal ¯ y1•−y¯2•❀N µ1−µ2, σ2 1 n1 + 1 n2

(13)

Solución del contraste de hipótesis (1)

◮ Por tanto tenemos que

(¯y1•−¯y2•)−(µ1−µ2) σq1 n1 + 1 n2 ❀N(0,1) (n2)ˆs2 t σ2 ❀χ 2 n−2

◮ Peroσ2es desconocida. Operando (¯y1•−¯y2•)−(µ1−µ2) σq1 n1+ 1 n2 "(n2s2 t σ2 (n−2) #12 ❀ N(0,1) hχ2 n−2 (n−2) i12 =tn−2

◮ Simplificando obtenemos el estadístico del contraste (¯y1•−y¯2•)−(µ1−µ2) ˆ st q 1 n1 + 1 n2 ❀tn−2

(14)

Solución del contraste de hipótesis (2)

◮ Contraste de hipótesis H0:µ1−µ2=0 H1:µ1−µ26=0 ◮ SiH 0es cierta,µ1−µ2=0 t0= ¯ y1•−y¯2• ˆ st q 1 n1 + 1 n2 ❀tn−2 Si|t0| ≤tn−2;α2 ⇒No se rechazaH0 Si|t0|>tn−2;α2 ⇒Se rechazaH0

(15)

Solución del contraste de hipótesis (problema)

◮ Con los datos del problema

n1=10, n2=10, n=20 ¯ y1•=43.1, y¯2•=29.3, ˆs 2 1=150.18, sˆ22=111.73 ˆ s2t =(n1−1)ˆs 2 1+ (n2−1)ˆs22 n2 =130.9567 t0= ¯ y1•−y¯2• ˆ st q 1 n1 + 1 n2 =2.6965 ◮ α=0.05⇒t 18;0.025 =2.1009<t0⇒Se rechazaH0 ◮ α=0.01⇒t18;0.005 =2.8784>t0⇒No se rechazaH0 ◮ Podemos calcular el p-valor

pvalor =P(t >2.6965|t t18)+P(t <−2.6965|t ❀t18) =0.0148 pvalor < αse rechazaH0

(16)

Intervalo de confianza

◮ También podemos calcular el intervalo de confianza para la diferencia de medias P    −tn−2;α2 ≤ (¯y1•−y¯2•)−(µ1−µ2) ˆ st q 1 n1 + 1 n2 ≤tn−2;α2    =1α µ1−µ2∈(¯y1•−y¯2•)±tn−2;α 2ˆst s 1 n1 + 1 n2

◮ Con los datos del problema

α=0.05µ1−µ2∈(3.0480,24.5520)

α=0.01µ1−µ2∈(−0.9309,28.5309)

◮ Si el intervalo contiene al cero, entonces no se puede rechazar queµ1−µ2=0

(17)

Función t.test de R

Resolver este problema con R es muy sencillo:

> dietaA<-c(51.3,39.4,26.3,39.0,48.1,34.2,69.8,31.3,45.2,46.4) > dietaB<-c(29.6,47.0,25.9,13.0,33.1,22.1,34.1,19.5,43.8,24.9) >

> t.test(dietaA,dietaB,var.equal=TRUE)

Two Sample t-test

data: dietaA and dietaB

t = 2.6965, df = 18, p-value = 0.01476

alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval:

3.048013 24.551987 sample estimates: mean of x mean of y

(18)

Contraste de igualdad de varianzas

◮ Al principio adoptamos la hipótesis de igualdad de las varianzas. Podemos comprobar si esa hipótesis es válida mediante el siguiente contraste H0:σ21=σ22 H1:σ216=σ22 ◮ Sabemos que (n1−1)ˆs12 σ2 1 ❀χ2n1−1, (n2−1)ˆs22 σ2 2 ❀χ2n2−1 ◮ Operando (n1−1)ˆs21/σ 2 1 (n1−1) (n2−1)ˆs22/σ22 (n2−1) ❀ χ2n1−1 n1−1 χ2 n2−1 n2−1 =Fn1−1,n2−1 ◮ Simplificando ˆ s2 1/σ21 ˆ s2 2/σ22 ❀Fn1−1,n2−1

(19)

Contraste de igualdad de varianzas

◮ Contraste de hipótesis H0:σ12/σ22=1 H1:σ12/σ226=1 ◮ SiH0es ciertoσ2 1=σ22y por tanto F0= ˆ s2 1 ˆ s2 2 ❀Fn1−1,n2−1 ◮ SiF0∈[Fn 1−1,n2−1,1−α 2,Fn1−1,n2−1,α 2]⇒No se rechazaH0 ◮ SiF06∈[Fn 1−1,n2−1,1−α 2,Fn1−1,n2−1,α 2]⇒Se rechazaH0

(20)

Intervalo de confianza para

σ

12

22 ◮ Tenemos que ˆ s2 1/σ21 ˆ s2 2/σ22 ❀Fn1−1,n2−1 ◮ El intervalo de confianza es P Fn1−1,n2−1,1−α 2 ≤ ˆ s2 1/σ12 ˆ s2 2/σ22 ≤Fn1−1,n2−1,α 2 =1α σ2 1 σ2 2 ∈ ˆs2 1 ˆ s2 2 Fn2−1,n1−1;1−α2, ˆ s2 1 ˆ s2 2 Fn2−1,n1−1;α2

(21)

Intervalo de confianza (problema)

◮ Con los datos del problema

n1=10, n2=10, n=20, sˆ12=150.18, ˆs22=111.73 F0= 150.18 111.73 =1.3441 ◮ α=0.05⇒F9,9;0.975=0.2484, F9,9;0.025 =4.0260⇒No se rechazaH0 ◮ Intervalo de confianza σ2 1 σ2 2 ∈ 150.18 111.730.2484, 150.18 111.734.0260 = [0.3339,5.4115]

(22)

Función var.test de R

> dietaA<-c(51.3,39.4,26.3,39.0,48.1,34.2,69.8,31.3,45.2,46.4) > dietaB<-c(29.6,47.0,25.9,13.0,33.1,22.1,34.1,19.5,43.8,24.9) >

> var.test(dietaA,dietaB)

F test to compare two variances

data: dietaA and dietaB

F = 1.3441, num df = 9, denom df = 9, p-value = 0.6667

alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval:

0.3338537 5.4113109 sample estimates: ratio of variances

(23)

Comparación de dos tratamientos (ANOVA)

◮ Vamos a resolver el problema de la comparación de dos tratamientos mediante otro procedimiento conocido como

análisis de la varianza.

◮ Este método consiste básicamente

1. Proponer un modelo matemático para los datos del problema 2. Formular contrastes de hipótesis sobre los parámetros del modelo

que nos permitan resolver el problema de partida

3. Resolver los contrastes descomponiendo la varianza de los datos según diferentes componentes

(24)

Modelo (2 tratam.)

◮ yijrepresenta el datoj-ésimo dato del grupo o tratamientoi (i =1,2).

◮ Se adopta el siguiente modelo para los datos

yij =µi +uij , i =1,2, j =1, . . . ,ni dónde

µ

i: media del grupoi(parte determinista, igual para todo el grupo)

◮ u

ij: diferencia entre el datoyij y la media del grupoµi(parte

aleatoria, depende de cada dato)

◮ Con las siguientes hipótesis

1. Normalidad:

y1j ❀N(µ1, σ21), y2j❀N(µ2, σ22)⇒ yij ❀N(µi, σ2i), i=1,2,j =1, . . . ,ni

Esta condición es equivalente a

uij❀N(0, σ2i), i=1,2, j=1, . . . ,ni

2. Homocedasticidad: σ12=σ22=σ2 3. Independencia: Cov[yij,ykl] =0

(25)

Estimación parámetros del modelo (2 tratam.)

◮ El modelo depende de 3 parámetros: 2 mediasµi yσ2

◮ Para estimar estos parámetros utilizamos el método de máxima verosimilitud

◮ La función de densidad para una observación cualquiera es

yij❀N(µi, σ2)⇒f(yij|µi, σ2) = 1 √ 2πσ2exp − 1 2σ2(yij−µi) 2

◮ La función de densidad para todas las observaciones, suponiendo que son independientes

f(Y|µ, σ2) = 2 Y i=1 ni Y j=1 1 √ 2πσ2exp −21σ2(yij−µi) 2

dondeY = [y11 · · · y2n2],µ= [µ1µ2]. Esta función es la función

de verosimilitud.

◮ En la práctica trabajamos con el logaritmo de la verosimilitud

L(µ, σ2) =logf(Y|µ, σ2) =−n2log(2πσ2)−21σ2 2 X i=1 ni X j=1 (yij−µi)2

(26)

Estimación parámetros del modelo (2 tratam.)

Los estimadores de los parámetros son aquellos que hacen máxima la función de verosimilitud: ∂L(µ, σ2) ∂µi =− 2 2σ2 ni X j=1 (yij−µi)2(−1) =0 ˆ µi = ni P j=1 yij ni = ¯yi• i=1,2 ∂L(µ, σ2) ∂σ2 =− n 2σ2 + 1 2σ4 2 X i=1 ni X j=1 (yij−µi)2=0 ˆ σ2= 2 P i=1 ni P j=1 (yij−y¯i•) 2 n

(27)

Propiedades de

µ

ˆ

i

(2 tratam.)

◮ Estimador ˆ µi = ni P j=1 yij ni ◮ Esperanza E[ˆµi] = E[yi1] +E[yi2] +. . .+E[yini] ni = niµ ni =µi ◮ Varianza Var[ˆµi] =

Var[yi1] +Var[yi2] +. . .+Var[yini] n2 i = niσ 2 n2 i = σ 2 ni

◮ La función de densidad de probabilidad deµˆi es una normal ya que es combinación lineal de normales:

ˆ µi ❀N µi,σ 2 ni

(28)

Propiedades de

σ

ˆ

2

(2 tratam.)

◮ Tenemos ˆ σ2= 2 P i=1 ni P j=1 (yij−y¯i•) 2 n = n1 P j=1 (y1j −¯y1•) 2+Pn2 j=1 (y2j −¯y2•) 2 n ◮ Por tanto nσˆ2 σ2 = n1 X j=1 y 1j−y¯1• σ 2 + n2 X j=1 y 2j−y¯2• σ 2 y 1j −¯y1• σ ❀N(0,1)⇒ n1 X j=1 y 1j−y¯1• σ 2 ❀χ2n1−1

ya que solon1−1 son independientes. Efectivamente

¯ y1•= n1 P j=1 y1j n1 ⇒ n1 X j=1 y1j−n1y¯1•=0⇒ n1 X j=1 (y1j −¯y1•) =0

Luego dadosn1−1 valores de y1j−

¯ y1•

(29)

Propiedades de

σ

ˆ

2

(2 tratam.)

◮ Por el mismo razonamiento n2 X j=1 y2j−y¯2• σ 2 ❀χ2n2−1 ◮ Por tanto nσˆ2 σ2 ❀χ 2 n1−1+χ 2 n2−1=χ 2 n−2 dónde n=n1+n2 ◮ Por tanto E nσˆ2 σ2 =n2E[ˆσ2] = n−2 n σ 2 Var nσˆ2 σ2 =2(n2)⇒Var[ˆσ2] = 2(n−2) n2 σ 4

(30)

Residuos del modelo (2 tratam.)

◮ Modelo

yij=µi+uij ◮ Estimación de las medias:µˆi = ¯yi

◮ Se definen los residuose

ij como las estimaciones deuij

eij= ˆuij ⇒eij =yij−µˆi ⇒ eij=yij−y¯i•

◮ Losnresiduos del modelo no son independientes ya que ni X j=1 eij = ni X j=1 yij−niy¯i•=0, i =1,2

◮ Es decir, la suma de los residuos en cada grupoi es nula. Dadosni−1 residuos en cada grupo, el último queda determinado porque suman cero.

◮ Se llamangrados de libertad de los residuosal número de residuos independientes, es decir,n2.

(31)

Varianza residual (2 tratam.)

◮ Se define la varianza residualsˆ2 Rcomo ˆ s2R= 2 P i=1 ni P j=1 e2 ij n2 ◮ Por tanto ˆ σ2= 2 P i=1 ni P j=1 (yij−y¯i•) 2 n = 2 P i=1 ni P j=1 e2 ij n ⇒ nσˆ2 n2 = ˆs 2 R⇒ (n2)ˆs2 R σ2 ❀χ 2 n−2 E (n −2)ˆs2 R σ2 =n2E[ˆsR2] =σ2 Var (n −2)ˆs2 R σ2 =2(n−2)⇒Var[ˆs2R] = 2 n2σ 4 ◮ Luegoˆs2

(32)

El contraste de igualdad de medias (2 tratam.)

◮ Problema: ¿son igual de efectivas las dos dietas?

Dieta A Dieta B 51.3 29.6 39.4 47.0 26.3 25.9 39.0 13.0 48.1 33.1 34.2 22.1 69.8 34.1 31.3 19.5 45.2 43.8 46.4 24.9

◮ Modelo para los datos:

yij=µi+uij, yij ❀N(µi, σ2) ◮ Solución: (contraste de igualdad de medias)

H0:µ1=µ2 H1:µ16=µ2

(33)

La descomposición de la variabilidad (2 tratam.)

◮ Para resolver el contraste hacemos

(yij−y¯••) = (¯yi•−y¯••) + (yij−y¯i•)

dondey¯••es la media global

¯ y••= 2 P i=1 ni P j=1 yij n = n1y¯1•+n2y¯2• n

◮ Elevando al cuadrado y sumando para todoi,j

2 X i=1 ni X j=1 (yij−¯y••) 2= 2 X i=1 ni X j=1 (¯yi•−¯y••) 2+ 2 X i=1 ni X j=1 (yij−y¯i•) 2 ya que 2 X i=1 ni X j=1 [(¯yi•−¯y••)(yij−y¯i•)] = 2 X i=1  (¯yi•−y¯••) ni X j=1 eij  =0

(34)

La descomposición de la variabilidad (2 tratam.)

◮ Por tanto 2 X i=1 ni X j=1 (yij−y¯••) 2= 2 X i=1 ni(¯yi•−y¯••) 2+ 2 X i=1 ni X j=1 (yij−¯yi•) 2

◮ Se denominavariabilidad totala:

VT = 2 X i=1 ni X j=1 (yij−y¯••) 2

◮ Se denominavariabilidad explicadaa:

VE = 2 X i=1 ni(¯yi•−y¯••) 2

◮ Se denominavariabilidad totalo residual a:

VNE= 2 X i=1 ni X j=1 (yij−y¯i•) 2= 2 X i=1 ni X j=1 e2 ij ◮ Por tanto

(35)

Distribución de VE (2 tratam.)

◮ Tenemos yij❀N(µi, σ2)⇒¯yi•❀N µi, σ2 ni ◮ Siµ1=µ2=µ ¯ yi•❀N µ,σ 2 ni

y ademásy¯1•,y¯2•son independientes porque proceden de

muestras independientes de la misma población. Por tanto

¯y 1•−µ σ/√n1 2 + y¯ 2•−µ σ/√n2 2 ❀χ22 y¯ 1•−¯y•• σ/√n1 2 + y¯ 2•−y¯•• σ/√n2 2 ❀χ21 ya quey¯••= (n1y¯1•+n2y¯2•)/n 2 P i=1 ni(¯yi•−¯y••) 2 σ2 = VE σ2 ❀χ 2 1

(36)

Distribución de VNE (2 tratam.)

◮ Tenemos VNE = 2 X i=1 ni X j=1 e2ij

◮ Por otro lado la varianza residual

ˆ s2R= 2 P i=1 ni P j=1 e2 ij n2 (n2)ˆs2 R σ2 ❀χ 2 n−2 ◮ Por tanto VNE σ2 ❀χ 2 n−2

(37)

Contraste de la F (2 tratam.)

◮ Contraste H0:µ1=µ2 H1:µ16=µ2 ◮ SiH 0es cierta VE σ2 ❀χ 2 1, VNE σ2 ❀χ 2 n−2

(ésto se cumple siempre para VNE. Para VE, sólo siH0es cierta)

◮ Ahora podemos construir el estadístico del contraste

F0= VE/σ2 1 VNE/σ2 n−2 = VE VNE/(n2) ❀ χ2 1/1 χ2 n−2/(n−2) =F1,n−2 ◮ SiF0F1 ,n−2;α⇒No se rechazaH0 ◮ SiF0>F1 ,n−2;α⇒Se rechazaH0

(38)

La tabla ANOVA (2 tratam.)

Los datos necesarios para resolver el contraste se organizan en una tabla conocida comotabla ANOVA:

Fuentes de Suma de Grados de Varianzas F0

variacion cuadrados libertad

Entre grupos VE 1 VE VE

VNE/(n−2)

Residual VNE n-2 VNE/(n-2) =ˆs2 R

(39)

Solución del problema (2 tratam.)

◮ Para nuestros datos tenemos

n=20, y¯1•=43.1, y¯2•=29.3, y¯••=36.2

◮ Tabla ANOVA

Fuentes de Suma de Grados de Varianzas F0

variacion cuadrados libertad

Entre grupos 952.2 1 952.2 7.2711 Residual 2357.2 18 130.96 TOTAL 3309.4 19 ◮ α=0.05⇒F1,18;0.05=4.4139<F 0⇒Se rechazaH0 ◮ α=0.01⇒F1,18;0.01=8.2854>F0⇒Se aceptaH0 ◮ Podemos calcular el p-valor

pvalor =P(F >7.2711|F F1,18) =0.0148 pvalor < αse rechazaH0

(40)

Función aov de R

> dietaA<-c(51.3,39.4,26.3,39.0,48.1,34.2,69.8,31.3,45.2,46.4) > dietaB<-c(29.6,47.0,25.9,13.0,33.1,22.1,34.1,19.5,43.8,24.9) > datos<-c(dietaA,dietaB) > > dieta<-c(rep(1,times=10),rep(2,times=10)) > dieta<-factor(dieta) > > modelo<-aov(datos~dieta) > > anova(modelo)

Analysis of Variance Table

Response: datos

Df Sum Sq Mean Sq F value Pr(>F)

dieta 1 952.2 952.20 7.2711 0.01476 *

Residuals 18 2357.2 130.96

(41)

Comparación de K tratamientos (ANOVA)

◮ La ventaja del método de análisis de la varianza es que se puede generalizar, se puede utilizar para análisis más complejos. ◮ Por ejemplo, cuando hay más de dos tratamientos:

◮ Se desea comparar el rendimiento de cuatro semillas: A, B, C, D. ◮ Un terreno se divide en 24 parcelas similares y se asigna al azar

cada semilla a 6 parcelas. Los resultados obtenidos son:

A B C D 229.1 233.4 211.1 270.4 253.7 233.0 223.1 248.6 241.3 219.2 217.5 230.0 254.7 200.0 211.8 250.7 237.2 224.3 207.6 230.0 241.3 202.0 213.7 245.8

◮ Por tanto, se quieren comparar 4 grupos o tratamientos. ◮ Este problema no se puede resolver con eltest de la t. Hay que

(42)

Modelo (K tratam.)

◮ yijrepresenta el datoj-ésimo dato del grupo o tratamientoi (i =1, . . . ,K).

◮ Se adopta el siguiente modelo para los datos

yij=µi+uij , i=1, . . . ,K, j =1, . . . ,ni dónde

µi: media del grupoi(parte determinista, igual para todo el grupo)

◮ u

ij: diferencia entre el datoyij y la media del grupoµi(parte

aleatoria, depende de cada dato)

◮ Con las siguientes hipótesis

1. Normalidad:

yij❀N(µi, σ2i), i=1, . . . ,K, j=1, . . . ,ni

Esta condición es equivalente a

uij ❀N(0, σi2), i=1, . . . ,K, j=1, . . . ,ni

2. Homocedasticidad: σ12=· · ·=σK2 =σ2

(43)

Estimación parámetros del modelo (K tratam.)

◮ El modelo depende deK +1 parámetros: K mediasµi yσ2 ◮ Para estimar estos parámetros utilizamos el método de máxima

verosimilitud

◮ La función de densidad para una observación cualquiera es

yij❀N(µi, σ2)⇒f(yij|µi, σ2) = 1 √ 2πσ2exp − 1 2σ2(yij−µi) 2

◮ La función de densidad para todas las observaciones, suponiendo que son independientes

f(Y|µ, σ2) = K Y i=1 ni Y j=1 1 √ 2πσ2exp −21σ2(yij−µi) 2

dondeY = [y11 · · · yKnk],µ= [µ1 · · · µK]. Esta función es la función de verosimilitud.

◮ En la práctica trabajamos con el logaritmo de la verosimilitud

L(µ, σ2) =logf(Y|µ, σ2) =−n2log(2πσ2)−21σ2 K X i=1 ni X j=1 (yij−µi)2

(44)

Estimación parámetros del modelo (K tratam.)

Los estimadores de los parámetros son aquellos que hacen máxima la función de verosimilitud: ∂L(µ, σ2) ∂µi =− 2 2σ2 ni X j=1 (yij−µi)2(−1) =0 ˆ µi = ni P j=1 yij ni = ¯yi• i =1, . . . ,K ∂L(µ, σ2) ∂σ2 =− n 2σ2 − 1 2σ4 K X i=1 ni X j=1 (yij−µi)2=0 ˆ σ2= K P i=1 ni P j=1 (yij−y¯i•) 2 n

(45)

Propiedades de

µ

ˆ

i

(K tratam.)

◮ Estimador ˆ µi = ni P j=1 yij ni ◮ Esperanza E[ˆµi] = E[yi1] +E[yi2] +. . .+E[yini] ni = niµ ni =µi ◮ Varianza Var[ˆµi] =

Var[yi1] +Var[yi2] +. . .+Var[yini] n2 i = niσ 2 n2 i = σ 2 ni

◮ La función de densidad de probabilidad deµˆi es una normal ya que es combinación lineal de normales:

ˆ µi ❀N µi,σ 2 ni

(46)

Propiedades de

σ

ˆ

2

(K tratam.)

◮ Tenemos ˆ σ2= K P i=1 ni P j=1 (yij−y¯i•) 2 n = n1 P j=1 (y1j−y¯1•) 2+· · ·+PnK j=1 (y2j−y¯2•) 2 n ◮ Por tanto nσˆ2 σ2 = n1 X j=1 y 1j −y¯1• σ 2 +· · ·+ nK X j=1 y 2j−y¯2• σ 2 y 1j −¯y1• σ ❀N(0,1)⇒ n1 X j=1 y 1j−y¯1• σ 2 ❀χ2n1−1

ya que solon1−1 son independientes. Efectivamente

¯ y1•= ni P j=1 y1j n1 ⇒ ni X j=1 y1j−n1y¯1•=0⇒ ni X j=1 (y1j −¯y1•) =0

Luego dadosn1−1 valores de y1j−

¯ y1•

(47)

Propiedades de

σ

ˆ

2

(K tratam.)

◮ Por el mismo razonamiento nK X j=1 y2j−y¯2• σ 2 ❀χ2nK−1 ◮ Por tanto nσˆ2 σ2 ❀χ 2 n1−1+· · ·+χ 2 nK−1=χ 2 n−K dónde n=n1+· · ·+nk ◮ Por tanto E nσˆ2 σ2 =nK E[ˆσ2] = n−K n σ 2 Var nσˆ2 σ2 =2(nK)⇒Var[ˆσ2] = 2(n−K) n2 σ 4

(48)

Residuos del modelo (K tratam.)

◮ Modelo

yij=µi+uij ◮ Estimación de las medias:µˆi = ¯yi

◮ Se definen los residuose

ij como las estimaciones deuij

eij= ˆuij ⇒eij =yij−µˆi ⇒ eij=yij−y¯i•

◮ Losnresiduos del modelo no son independientes ya que ni X j=1 eij = ni X j=1 yij−niy¯i•=0, i =1, . . . ,K

◮ Es decir, la suma de los residuos en cada grupoi es nula. Dadosni−1 residuos en cada grupo, el último queda determinado porque suman cero.

◮ Se llaman grados de libertad de los residuos al número de residuos independientes, es decir,nK.

(49)

Varianza residual (K tratam.)

◮ Se define la varianza residualsˆ2 Rcomo ˆ s2R= K P i=1 ni P j=1 e2 ij nK ◮ Por tanto ˆ σ2= K P i=1 ni P j=1 (yij−¯yi•) 2 n = K P i=1 ni P j=1 e2 ij n ⇒ nσˆ2 nK = ˆs 2 R⇒ (nK)ˆs2 R σ2 ❀χ 2 n−K E (n −K)ˆs2 R σ2 =nK E[ˆsR2] =σ2 Var (n −K)ˆs2 R σ2 =2(n−K)⇒Var[ˆs2R] = 2 nKσ 4 ◮ Luegoˆs2

(50)

El contraste de igualdad de medias (K tratam.)

◮ Problema: ¿tienen igual rendimiento las cuatro semillas?

A B C D 229.1 233.4 211.1 270.4 253.7 233.0 223.1 248.6 241.3 219.2 217.5 230.0 254.7 200.0 211.8 250.7 237.2 224.3 207.6 230.0 241.3 202.0 213.7 245.8 ◮ Modelo para los datos:

yij=µi+uij, yij ❀N(µi, σ2)

i =1, . . . ,K, j =1, . . . ,ni ◮ Solución: (contraste de igualdad de medias)

H0:µ1=µ2=µ3=µ4

(51)

La descomposición de la variabilidad (K tratam.)

◮ Para resolver el contraste hacemos

(yij−y¯••) = (¯yi•−y¯••) + (yij−y¯i•)

dondey¯••es la media global

¯ y••= K P i=1 ni P j=1 yij n = n1¯y1•+n2y¯2•+· · ·+nK¯yK• n

◮ Elevando al cuadrado y sumando para todoi,j K X i=1 ni X j=1 (yij−¯y••) 2= K X i=1 ni X j=1 (¯yi•−¯y••) 2+ K X i=1 ni X j=1 (yij−y¯i•) 2 ya que K X i=1 ni X j=1 [(¯yi•−¯y••)(yij−y¯i•)] = K X i=1  (¯yi•−y¯••) ni X j=1 eij  =0

(52)

La descomposición de la variabilidad (K tratam.)

◮ Por tanto K X i=1 ni X j=1 (yij−y¯••) 2= K X i=1 ni(¯yi•−y¯••) 2+ K X i=1 ni X j=1 (yij−¯yi•) 2

◮ Se denominavariabilidad totala:

VT = K X i=1 ni X j=1 (yij−y¯••) 2

◮ Se denominavariabilidad explicadaa:

VE = K X i=1 ni(¯yi•−y¯••) 2

◮ Se denominavariabilidad totalo residual a:

VNE= K X i=1 ni X j=1 (yij−y¯i•) 2= K X i=1 ni X j=1 e2 ij ◮ Por tanto

(53)

Distribución de VE (K tratam.)

◮ Tenemos yij❀N(µi, σ2)⇒¯yi•❀N µi, σ2 ni ◮ Siµ1=· · ·=µK =µ ¯ yi•❀N µ,σ 2 ni

y ademásy¯1•,y¯2•, . . . ,¯yK•son independientes porque proceden

de muestras independientes de la misma población. Por tanto

y¯ 1•−µ σ/√n1 2 + y¯ 2•−µ σ/√n2 2 +· · ·+ ¯y K•−µ σ/√nK 2 ❀χ2K ¯ y1•−y¯•• σ/√n1 2 + ¯ y2•−y¯•• σ/√n2 2 +· · ·+ ¯ yK•−¯y•• σ/√nK 2 ❀χ2K−1 ya quey¯••= (n1y¯1•+n2y¯2•+· · ·+nKy¯K•)/n K P i=1 ni(¯yi•−y¯••)2 σ2 = VE σ2 ❀χ 2 K−1

(54)

Distribución de VNE (K tratam.)

◮ Tenemos VNE = K X i=1 ni X j=1 e2ij

◮ Por otro lado la varianza residual

ˆ s2R= K P i=1 ni P j=1 e2 ij nK (nK)ˆs2 R σ2 ❀χ 2 n−K ◮ Por tanto VNE σ2 ❀χ 2 n−K

(55)

Contraste de la F (K tratam.)

◮ Contraste

H0:µ1=µ2=· · ·=µK

H1:Al menos una es diferente

◮ SiH 0es cierta VE σ2 ❀χ 2 K−1, VNE σ2 ❀χ 2 n−K

(ésto se cumple siempre para VNE. Para VE, sólo siH0es cierta)

◮ Ahora podemos construir el estadístico del contraste

F0= VE/σ2 K−1 VNE/σ2 n−K = VE/(K −1) VNE/(nK) ❀ χ2 K−1/(K −1) χ2 n−K/(n−K) =FK−1,n−K ◮ SiF0≤FK −1,n−K;α⇒No se rechazaH0 ◮ SiF0>F K−1,n−K;α⇒Se rechazaH0

(56)

La tabla ANOVA (K tratam.)

Los datos necesarios para resolver el contraste se organizan en una tabla conocida comotabla ANOVA:

Fuentes de Suma de Grados de Varianzas F0

variacion cuadrados libertad

Entre grupos VE K-1 VE/(K-1) VE/(K−1) VNE/(n−K)

Residual VNE n-K VNE/(n-K) =ˆsR2

(57)

Solución del problema (K tratam.)

◮ Para nuestros datos tenemos

n=24, ¯y1•=242.88, y¯2•=218.65,

¯

y3•=214.13, y¯4•=245.92, ¯y••=230.40

◮ Tabla ANOVA

Fuentes de Suma de Grados de Varianzas F0

variacion cuadrados libertad

Entre grupos 4795.6 3 1598.53 11.217 Residual 2850.1 20 142.51 TOTAL 7676.7 23 ◮ α=0.05⇒F 3,20;0.05=3.0984<F0⇒Se rechazaH0 ◮ α=0.01⇒F 3,20;0.01=4.9384<F0⇒Se rechazaH0

◮ Podemos calcular el p-valor

pvalor =P(F >11.217|F F3,20) =0.0001559 pvalor < αse rechazaH0

(58)

Función aov de R

> A<-c(229.1,253.7,241.3,254.7,237.2,241.3) > B<-c(233.4,233.0,219.2,200.0,224.3,202.0) > C<-c(211.1,223.1,217.5,211.8,207.6,213.7) > D<-c(270.4,248.6,230.0,250.7,230.0,245.8) > rendimiento<-c(A,B,C,D) > semilla<-c(rep(1,times=6),rep(2,times=6),rep(3,times=6),rep(4,times=6) > semilla<-factor(semilla) > modelo<-aov(rendimiento~semilla) > anova(modelo)

Analysis of Variance Table

Response: rendimiento

Df Sum Sq Mean Sq F value Pr(>F)

semilla 3 4795.6 1598.53 11.217 0.0001559 ***

Residuals 20 2850.1 142.51

(59)

Análisis de las diferencias entre medias

◮ Cuando las medias son diferentes (se rechazaH

0) nos interesa

conocer cuál es el tratamiento con mayor media y cual es el tratamiento con menor media.

◮ Una opción es calcular los intervalos de confianza de cada media. yi•❀N µi, σ2 ni ⇒ yi•−µi σ √n i ❀N(0,1)

◮ Por otro lado

(nK)ˆs2 R σ2 ❀χ 2 n−K ◮ Operando yi•−µi ˆ sR √ ni ❀tn−K

◮ Luego los intervalos de confianza son

µi ∈yi•±tn−K;α2

ˆ

sR

n

(60)

Intervalos de confianza para las medias

◮ Para el problema de las semillas se obtiene (α=0.05): Semilla yi• Lim. Inf. Lim. Sup.

A 242.9 235.7 250.1 B 218.7 211.4 225.8 C 214.1 206.9 221.3 D 245.9 238.7 253.1 ◮ Gráficamente 210 240 Sem medias 1 2 3 4

◮ Las semillas A y D tienen un rendimiento similar. Sus intervalos se solapan y no podemos asegurar cuál de las dos tiene mayor rendimiento. Igual para B y C.

(61)

Contrastes múltiples

◮ También podemos hacer contrastes dos a dos

H0:µi =µj

H1:µi 6=µj ◮ Para ello utilizamos que

(¯yi•−y¯j•)−(µi −µj) σq1 ni + 1 nj ❀N(0,1) (n2)ˆs2 R σ2 ❀χ 2 n−K ◮ Operando (¯yi•−y¯j•)−(µi−µj) ˆ sR q 1 ni + 1 nj ❀tn−K

◮ Si la hipótesis nula es cierta

t0= (¯yi•−y¯j•) ˆ sR q1 ni + 1 nj ❀tn−K

(62)

Contrastes múltiples (problema)

◮ Para el problema de las semillas tenemos que hacer los siguientes contrastes: A-B, A-C, A-D, B-C, B-D, C-D. ◮ En general, con K tratamientos tendremos K

2

contrastes. ◮ En la siguiente tabla se indica el p-valor de los contrastes

p-valor=P(t>t0|t tn−k) +P(t <−t0|t ❀tn−k)⇒ p-valor=2P(t>t0|t tn−k) contraste t0 p-valor A-B 3.5161 0.0022 A-C 4.1714 0.0005 A-D 0.4401 0.6646 B-C 0.6553 0.5197 B-D 3.9562 0.0008 C-D 4.6115 0.0002 ◮ Si p-valor< αno se acepta la hipótesis nula.

(63)

Metodología

1. Especificar el modelo 2. Estimar los parámetros 3. Contraste ANOVA

4. Intervalos de confianza para los parámetros 5. Diagnosis de las hipótesis

◮ Normalidad ◮ Homocedasticidad ◮ Independencia

Figure

Actualización...

Referencias

Actualización...