Tema 5: Contrastes de hip´ otesis
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 1
Planteamiento del problema
SeaX una v.a. con distribuci´on de probabilidad dada por un modelo param´etrico cuya expresi´on matem´atica es totalmente conocida a excepci´on de alg´un par´ametro desconocidoθ∈Θ.
SeaX1, . . . ,Xn una muestra aleatoria de la poblaci´onX. Objetivo:Dada una partici´on del espacio param´etrico
Θ = Θ0∪Θ1, deseamos decidir, en base a la muestra obtenida, si θ∈Θ0 o siθ∈Θ1. Queremos contrastar
H0 :θ∈Θ0 (hip´otesis nula) H1 :θ∈Θ1 (hip´otesis alternativa)
Un test para contrastar estas dos hip´otesis consiste en proporcionar una regla de decisi´on que, a cada posible observaci´on de la
muestra (x , . . . ,x ), le asigne una decisi´on: aceptar o rechazarH .
Espacio muestral
(x
1,...,x
n
)
(x
1,...,x
n
) Región crítica o de rechazo R
Región de aceptación A
Rechazo H
0
Acepto H
0
TEST
Decisión
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 3
Posibles errores de un test:
Error de tipo I:RechazarH0 cuandoH0 es cierta.
Error de tipo II:Aceptar H0 cuandoH0 es falsa.
Lo ideal ser´ıa
0 = M´axima probabilidad de error de tipo I = m´ax
θ∈Θ0
Pθ(R) y
0 = M´axima probabilidad de error de tipo II = m´ax
θ∈Θ1Pθ(Rc).
Pero, cuando la probabilidad de uno de los dos errores disminuye, la probabilidad del otro aumenta.
Lo que en realidad se hace (teor´ıa de Neyman-Pearson):
1. Acotar la m´axima probabilidad de error de tipo I.
• Se fija un nivel de significaci´on α∈(0,1). T´ıpicamente α= 0.05.
• Se busca una regi´on de rechazo R tal que la m´axima probabilidad de error de tipo I sea menor o igual que α.
2. Minimizar la probabilidad de error de tipo II. Se intenta buscar una regi´on de rechazo R que minimice la m´axima probabilidad de error de tipo II.
Consecuencia: Las hip´otesis H0 y H1 no son “sim´etricas”.
Los test de hip´otesis suelen ser conservadores con la hip´otesis nula:
hace falta mucha evidencia muestral para rechazarH0.
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 5
Contrastes en poblaciones normales
Contrastes sobre la media µde una poblaci´on normal
•Sea X1, . . . ,Xn una muestra deX ∼N(µ, σ) conσ desconocido.
H0:µ=µ0 R=
(x1, . . . ,xn) :|¯x−µ0| ≥tn−1;α/2 s
√n
H0:µ≤µ0 R=
(x1, . . . ,xn) : ¯x−µ0 ≥tn−1;α s
√n
H0:µ≥µ0 R=
(x1, . . . ,xn) : ¯x−µ0 ≤tn−1;1−α
√s n
En todo contraste las regiones de rechazo se pueden expresar en t´erminos del estad´ıstico del contraste, una funci´on de la muestra cuya distribuci´on de probabilidad es (al menos aproximadamente paran grande) totalmente conocida bajo la hip´otesis nulaH0 (o en la frontera entreH yH , que es la situaci´on m´as desfavorable
En loscontrastes acerca de la media de una poblaci´on normalel estad´ıstico del contraste es elestad´ıstico t
t= X¯−µ0
S/√ n ,
que sigue una distribuci´ont de Studenttn−1 si µ=E(X) es igual aµ0. Por eso estos contrastes reciben el nombre det-tests. Las regiones de rechazo se pueden expresar de manera equivalente as´ı:
H0 :µ=µ0 R=
(x1, . . . ,xn) :|t| ≥tn−1;α/2 H0 :µ≤µ0 R={(x1, . . . ,xn) :t ≥tn−1;α} H0 :µ≥µ0 R={(x1, . . . ,xn) :t ≤tn−1;1−α} C´omo hacer un contraste de la t con R:
help(t.test)
t.test(x, y = NULL,
alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, var.equal = FALSE, conf.level =
0.95,...)
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 7
Ejemplo 5.1:Se certifica que un material est´andar de referencia de un suelo contiene 94.6 ppm de un contaminante org´anico. Un an´alisis repetido arroj´o los siguientes resultados: 98.6, 98.4, 97.2, 94.6 y 96.2 ppm. A un nivel de significaci´onα= 0.05 ¿hay suficiente evidencia estad´ıstica para concluir que los resultados difieren del valor esperado?. Si se disminuyeα a 0.01, ¿se rechazar´ıaH0?.
Ejemplo 5.1 (cont.):
X = c(98.6, 98.4, 97.2, 94.6, 96.2) t.test(X,alternative="two.sided",mu=94.6) One Sample t-test
data: X
t = 3.2421, df = 4, p-value = 0.03161
alternative hypothesis: true mean is not equal to 94.6 95 percent confidence interval:
94.94468 99.05532 sample estimates:
mean of x 97
¡Qu´e curioso! Rno parece dar una soluci´on al problema del contraste. ¿O s´ı? Presentemos el concepto de p-valor (p´agina 31).
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 9
Relaci´on entre contrastes de hip´otesis e intervalos de confianza
La regi´on de rechazo R =
(x1, . . . ,xn) :|¯x−µ0| ≥tn−1;α/2 s
√n
del anterior contraste
H0 :µ=µ0 H1 :µ6=µ0 α equivale a
R ={(x1, . . . ,xn) :µ0∈/ IC1−α(µ)}.
En general, en muchos casos dehip´otesis nula simple (es decir, del tipoH0 :θ=θ0) el test usual rechaza H0 (al nivel de significaci´on α) si y s´olo si el intervalo de confianza para θde nivel de confianza
Contrastes sobre la varianza σ2 de una poblaci´on normal
•Sea X1, . . . ,Xn una muestra deX ∼N(µ, σ) conσ desconocido.
H0:σ=σ0 R=
(n−1)s2
σ02 ∈/ (χ2n−1;1−α/2, χ2n−1;α/2)
H0:σ≤σ0 R=
(n−1)s2
σ02 ≥χ2n−1;α
H0:σ≥σ0 R=
(n−1)s2
σ02 ≤χ2n−1;1−α
El estad´ıstico del contraste χ2 = (n−1)S2
σ20 =
Pn
i=1(Xi−X¯)2
σ02 (X-squared en R) sigue una distribuci´on χ2n−1 si σ2=V(X) es igual a σ20. Para hacer este contraste con R hay que instalar el paquete TeachingDemos. Primero pinchar en Install Packages:
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 11
En el cuadro de di´alogo
escribirTeachingDemosen el hueco y pinchar enInstall. Si el paquete se instala correctamente, en la consola aparece:
> install.packages("TeachingDemos")
Installing package(s) into C:/R/R-2.15.1/library (as lib is unspecified)
probando la URL ’http://cran.es.r-project.org/bin/windows/contrib/2.15/
TeachingDemos_2.9.zip’
Content type ’application/zip’ length 772933 bytes (754 Kb) URL abierta
downloaded 754 Kb
package TeachingDemos successfully unpacked and MD5 sums checked The downloaded binary packages are in
C:\usuarios\AppData\Local\Temp\Rtmp00ZpFR\downloaded_packages
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 13
Luego hay que “cargar” el paquete instalado, marc´andolo en la lista de paquetes disponibles:
Observemos que, al tratar de cargar el paquete, en la consola aparece el aviso de que la versi´on de R que el autor de
TeachingDemosutiliz´o era m´as moderna que la que yo utilizo.
Esto no tiene por qu´e suponer ning´un problema, a menos que en el paquete se utilicen funciones de la versi´on m´as reciente.
La funci´on espec´ıfica deTeachingDemosque utilizaremos es sigma.test.
Ejemplo 5.1 (cont.):
X = c(98.6, 98.4, 97.2, 94.6, 96.2) sigma.test(X)
One sample Chi-squared test for variance data: X
X-squared = 10.96, df = 4, p-value = 0.05403
alternative hypothesis: true variance is not equal to 1 95 percent confidence interval:
0.9835518 22.6250622 sample estimates:
var of X 2.74
sigma.test(X,sigma=2,alternative="greater")
One sample Chi-squared test for variance data: X
X-squared = 2.74, df = 4, p-value = 0.6022
alternative hypothesis: true variance is greater than 4 95 percent confidence interval:
1.155176 Inf sample estimates:
var of X 2.74
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 15
Contrastes con dos poblaciones normales independientes
•SeanX1, . . . ,Xn1 e Y1, . . . ,Yn2 muestras aleatorias independientes deX ∼N(µ1, σ1) e Y ∼N(µ2, σ2) respectivamente (σ1 yσ2 desconocidas). X e Y son v.a.
independientes.
H0 :σ1 =σ2 R = s12
s22 ∈/ (Fn1−1;n2−1;1−α/2,Fn1−1;n2−1;α/2)
=
1∈/ IC1−α
σ12 σ22
H0 :σ1 ≤σ2 R = s12
s22 >Fn1−1;n2−1;α
H0 :σ1 ≥σ2 R = s12
s22 <Fn1−1;n2−1;1−α
Ejemplo 5.2:Un microbi´ologo desea averiguar si hay diferencia en el tiempo que tarda en producir yogur utilizando dos tipos de bacterias:lactobacillus acidophilus(A) ybulgaricus (B). Se prepararon siete remesas de yogur con cada tipo de lactobacilo. A continuaci´on se muestra el tiempo (en horas) hasta que se produjo cada remesa:
Cultivo A
6.8 6.3 7.4 6.1 8.2 7.3 6.9 Cultivo B
6.1 6.4 5.7 5.5 6.9 6.3 6.7 Suponiendo que la distribuci´on de ambos conjuntos de
observaciones se puede considerar normal, contrastar la hip´otesis de homocedasticidad (igualdad de varianzas):
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 17
Ejemplo 5.2 (cont.):
A = c(6.8, 6.3, 7.4, 6.1, 8.2, 7.3, 6.9) B = c(6.1, 6.4, 5.7, 5.5, 6.9, 6.3, 6.7)
var.test(A,B,ratio=1,alternative="two.sided",conf.level
=0.9)
F test to compare two variances data: A and B
F = 1.9814, num df = 6, denom df = 6, p-value = 0.4259 alternative hypothesis: true ratio of variances is not
equal to 1
90 percent confidence interval:
0.462521 8.487957 sample estimates:
ratio of variances 1.981378
•SeanX1, . . . ,Xn1 e Y1, . . . ,Yn2 muestras aleatorias independientes deX ∼N(µ1, σ1) e Y ∼N(µ2, σ2) respectivamente (σ1 =σ2 desconocida). X e Y son v.a.
independientes.
H0 :µ1=µ2 R=
|¯x−y¯| ≥tn1+n2−2;α/2sp r 1
n1 + 1 n2
={0∈/IC1−α(µ1−µ2)}
H0 :µ1≤µ2 R=
¯
x−y¯≥tn1+n2−2;αsp
r 1 n1 + 1
n2
H0 :µ1≥µ2 R=
¯
x−y¯≤tn1+n2−2;1−αsp r 1
n1 + 1 n2
donde
sp2= (n1−1)s12+ (n2−1)s22 n1+n2−2
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 19
El estad´ıstico del contraste
t= X¯−Y¯ Sp
q1 n1 +n1
2
sigue una distribuci´on tn1+n2−2 si µ1 =µ2. Podemos reexpresar las regiones de rechazo as´ı:
H0 :µ1 =µ2 R=
|t| ≥tn1+n2−2;α/2
H0 :µ1 ≤µ2 R={t≥tn1+n2−2;α} H0 :µ1 ≥µ2 R={t≤tn1+n2−2;1−α} Ejemplo 5.2 (cont.):
Ejemplo 5.2 (cont.):
t.test(A,B,alternative="two.sided",conf.level=0.95,var.
equal=TRUE)
Two Sample t-test data: A and B
t = 2.3375, df = 12, p-value = 0.03755
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.05238216 1.49047498 sample estimates:
mean of x mean of y 7.000000 6.228571
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 21
•Datos emparejados:Sea (X1,Y1), . . . ,(Xn,Yn) una muestra aleatoria de (X,Y) dondeX e Y no son independientes, pero los pares (Xi,Yi), parai = 1, . . . ,n, son independientes entre s´ı.
DenotemosE(X) =µ1 yE(Y) =µ2 y supongamos que D=X −Y ∼N(µ=µ1−µ2, σ). Entonces
D1 =X1−Y1, . . . ,Dn =Xn−Yn es una muestra aleatoria de D.
Podemos realizar los siguientes contrastes de hip´otesis bas´andonos en los tests de la p´agina 6:
H0 :µ1=µ2 ⇔H0 :µ= 0 H0 :µ1≤µ2 ⇔H0 :µ≤0 H0 :µ1≥µ2 ⇔H0 :µ≥0
Ejemplo 5.3:Consideremos el contenido en colesterol de 6 muestras de plasma sangu´ıneo humano medido con dos t´ecnicas distintas.
Contenido de colesterol (g/l) Muestra
de plasma M´etodo A M´etodo B Diferencia di
1 1.46 1.42 0.04
2 2.22 2.38 -0.16
3 2.84 2.67 0.17
4 1.97 1.80 0.17
5 1.13 1.09 0.04
6 2.35 2.25 0.10
El m´etodo B da un resultado menor que el m´etodo A en 5 de las 6 muestras. ¿Es el m´etodo B sistem´aticamente diferente del A?
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 23
Ejemplo 5.3:
A = c(1.46,2.22,2.84,1.97,1.13,2.35) B = c(1.42,2.38,2.67,1.80,1.09,2.25)
t.test(A,B,alternative="two.sided",mu=0,paired=TRUE) Paired t-test
data: A and B
t = 1.2, df = 5, p-value = 0.2839
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.06852909 0.18852909 sample estimates:
mean of the differences 0.06
Contrastes para distribuciones no normales
Para construir la regi´on de rechazo en los contrastes sobre
par´ametros de distribuciones no gaussianas se suele utilizar el TCL.
Contrastes sobre una proporci´on p
SeaX1, . . . ,Xn una muestra aleatoria de una v.a. X∼Bernoulli(p).
Suponemos quen es grande.
H0:p =p0 R= (
|¯x−p0|>zα/2
rp0(1−p0) n
)
H0:p ≤p0 R= (
¯
x−p0 >zα
rp0(1−p0) n
)
H0:p ≥p0 R= (
¯
x−p0 <z1−α
rp0(1−p0) n
)
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 25
Ejemplo 5.5:Most Like it Hotes el t´ıtulo de un informe publicado por el Pew Research Center el 18 de marzo de 2009:
www.pewsocialtrends.org/2009/03/18/most-like-it-hot/
El informe afirma “by an overwhelming margin, Americans want to live in a sunny place”. La afirmaci´on se basa en una muestra representativa de 2260 adultos estadounidenses. De ´estos, 1288 dijeron que preferir´ıan vivir en un clima c´alido en lugar de en un clima fr´ıo. ¿Proporcionan los datos suficiente evidencia estad´ıstica de que la mayor´ıa de los estadounidenses adultos prefieren un clima c´alido frente a uno fr´ıo? Utilizar un nivel de significaci´onα= 0.01.
Ejemplo 5.5 (cont.):
prop.test(1288,2260,p=0.5,alternative="greater",correct=FALSE)
1-sample proportions test without continuity correction data: 1288 out of 2260, null probability 0.5
X-squared = 44.1841, df = 1, p-value = 1.495e-11 alternative hypothesis: true p is greater than 0.5 95 percent confidence interval:
0.552708 1.000000 sample estimates:
p 0.5699115
Lacorrecci´on por continuidada˜nade un t´ermino extra al estad´ıstico del contraste para corregir el error cometido al aproximar una distribuci´on discreta (binomial) por una distribuci´on continua (normal). La correcci´on ajusta la probabilidad del error de tipo I (que se “infla” al emplear la aproximaci´on normal cuando el tama˜no muestral es peque˜no). Por ejemplo, en el caso del contrasteH0:p=p0, la regi´on de rechazo es R={|z|>zα/2}donde el estad´ıstico del contraste es
sin correcci´on por continuidad con correcci´on por continuidad z =qx−p¯ 0
p0 (1−p0 ) n
z = |¯qx−p0|−2n1
p0 (1−p0 ) n
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 27
Comparaci´on de dos proporciones
SeanX1, . . . ,Xn1 e Y1, . . . ,Yn2 muestras de X ∼Bernoulli(p1) e Y ∼Bernoulli(p2), v.a. independientes.
H0: p1=p2 R= (
|¯x−y|¯ >zα/2 s
¯ p(1−p)¯
1 n1
+ 1 n2
)
H0: p1≤p2 R= (
¯
x−y¯>zα
s
¯ p(1−p)¯
1 n1 + 1
n2 )
H0: p1≥p2 R= (
¯
x−y¯<z1−α
s
¯ p(1−p)¯
1 n1 + 1
n2 )
donde ¯p= Pn1
i=1xi +Pn2
j=1yj
n1+n2 = n1x¯+n2y¯ n1+n2 .
Ejemplo 5.6:Bas´andose en las propiedades bioqu´ımicas del xilitol, un az´ucar obtenido de la madera de abedul, unos investigadores finlandeses creen que el uso regular de este edulcorante puede prevenir las otitis en ni˜nos menores de 5 a˜nos. Se tom´o una muestra de 165 ni˜nos que tomaron cinco dosis diarias de un jarabe placebo y 68 de ellos tuvieron infecci´on de o´ıdo. Otros 159 ni˜nos tomaron cinco dosis diarias de xilitol y 46 de ellos sufrieron otitis durante el estudio. ¿Hay suficiente evidencia de que el xilitol reduce el riesgo de infecci´on de o´ıdo?
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 29
Ejemplo 5.6 (cont.):
prop.test(c(68,46),c(165,159),p=NULL,alternative="greater",correct=FALSE)
2-sample test for equality of proportions without continuity correction data: c(68, 46) out of c(165, 159)
X-squared = 5.3554, df = 1, p-value = 0.01033 alternative hypothesis: greater
95 percent confidence interval:
0.03637624 1.00000000 sample estimates:
prop 1 prop 2 0.4121212 0.2893082
El concepto de p-valor
Dado un test, definido para todos los niveles de significaci´on posibles, se define elp-valor, para unos datos prefijados, comoel
´ınfimo de los valores α para los cuales se rechaza la hip´otesis nula a un nivel de significaci´onα.
P(x1, . . . ,xn) = ´ınf{α:H0 es rechazada al nivelα}.
Cu´anto m´as peque˜no es el p-valor, m´as evidencia estad´ıstica aportan los datos a favor deH1.
Los programas inform´aticos que realizan contrastes de hip´otesis (R, SPSS, Excel, Matlab,. . . ) no realizan el contraste para un nivel de significaci´onα, sino que directamente nos dan el p-valor del contraste.
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 31
Comparaci´ on de medias de m´ as de dos poblaciones normales (an´ alisis de la varianza)
El objetivo del An´alisis de la Varianza es estudiar si existe relaci´on entre el valor medioE(Y) de una variable respuestao
caracter´ıstica,Y, y unavariable cualitativa,atributoo factor.
Ejemplo 5.7:Algunas variedades de nematodos (gusanos
microsc´opicos que viven en el suelo) se alimentan de las ra´ıces de plantas variadas y cultivos. Este par´asito es especialmente
abundante en climas templados y h´umedos y puede causar grandes estragos en la producci´on agraria. Las plagas de nematodos se pueden tratar, por ejemplo, con nematicidas. Sin embargo, debido al peque˜no tama˜no de los gusanos, es muy dif´ıcil medir la
efectividad de estos pesticidas directamente. Para comparar cuatro nematicidas, se considera la cantidad (en libras) de tomates de una variedad espec´ıfica recogidos en campos de las mismas
Ejemplo 5.7 (cont.):
Nematicida
A B C D
18.6 18.7 19.4 19.0 18.4 19.0 18.9 18.8 18.4 18.9 19.5 18.6 18.5 18.5 19.2 18.7
18.3 18.8
Nematodos.txt
Nematodos Produccion Nematicida
18.6 A 18.4 A 18.4 A 18.5 A 18.3 A 18.7 B 19.0 B 18.9 B 18.5 B 19.4 C 18.9 C 19.5 C 19.2 C 18.8 C 19.0 D 18.8 D 18.6 D 18.7 D
Página 1
Queremos averiguar si existen diferencias significativas entre la producci´on media de los campos dependiendo del tipo de nematicida utilizado.
Datos = read.table("Nematodos.txt", header=TRUE)
P = Datos$Produccion N = Datos$Nematicida
plot(P ~ N,xlab="Nematicida",ylab="
Produccion")
A B C D
18.418.618.819.019.219.4
Nematicida
Produccion
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 33
En el Ejemplo 5.7 el factor tomaI = valores (los niveles, grupos o tratamientos del factor). Se mide la producci´on de tomate n1= veces con el nematicida A,n2 = veces con el B,n3 = veces con el C yn4 = veces con el D.
ni = no de observaciones de la respuesta para el niveli del factor Sin1 =n2=. . .=nI se dice que el dise˜noesequilibrado.
n=
I
X
i=1
ni = no total de observaciones de Y
yij =j-´esimo valor observado de la respuesta en el niveli, i = 1, . . . ,I,j = 1, . . . ,ni
Ejemplo 5.7 (cont.):
Suponemos que, en el niveli del factor, la respuesta Y oscila aleatoriamente en torno a un nivel desconocidoµi, la media de la poblaci´oni-´esima:E(Yij) =µi. Cada observaci´onyij resulta de una perturbaci´on aleatoria en torno al valor medio µi.
Nematicida
Producción
A B C D
18.418.618.819.019.219.4
µ1
µ2
µ3
µ4
En el Modelo de An´alisis de la Varianza (ANOVA = ANalysis Of VAriance) se supone que lasni observacionesYi1,Yi2, . . . ,Yini de la poblaci´oni son una muestra aleatoria de unaN(µi, σ). Se supone tambi´en que todas las observaciones Yij, para i = 1, . . . ,I, j = 1, . . . ,ni, son independientes entre s´ı.
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 35
El modelo ANOVA con un factor depende deI+ 1 par´ametros desconocidos: las mediasµ1,. . . ,µI y la varianza com´unσ2. Los estimamos respectivamente mediante las medias muestrales por niveles del factor
ˆ µi = 1
ni
ni
X
j=1
yij = ¯yi•
y mediante lavarianza residual sR2 = 1
n−I
I
X
i=1 ni
X
j=1
(yij−y¯i•)2
= (n1−1)s12+ (n2−1)s22+. . .+ (nI−1)sI2
n−I ,
dondesi2 =Pni
j=1(yij −y¯i•)2/(ni −1) es la cuasi-varianza muestral en la poblaci´on i-´esima.
Ejemplo 5.7 (cont.):
i yij ni y¯i• si2
1 18.6 18.4 18.4 18.5 18.3 2 18.7 19.0 18.9 18.5 3 19.4 18.9 19.5 19.2 18.8 4 19.0 18.8 18.6 18.7
n=
sR2 = tapply(P,N,mean)
A B C D
18.440 18.775 19.160 18.775 tapply(P,N,var)
A B C D
0.01300000 0.04916667 0.09300000 0.02916667
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 37
El contraste de igualdad de medias H0 : µ1 =µ2 =. . .=µI
(todas las medias son iguales, el factor no influye) H1 : µi 6=µj para alg´un pari 6=j.
(al menos dos de las medias difieren, el factor influye) El contraste compara las diferencias entre medias muestrales con la variabilidad experimental, medida porsR2, para decidir si ´esta ha podido generar esas diferencias o no.
En concreto, sea
SCT =
I
X
i=1 ni
X
j=1
(yij −y¯••)2,
lavariabilidado suma de cuadrados total, que mide la dispersi´on entre los datos y la media global
¯
y = 1XI
ni
Xy .
El an´alisis de la varianza descompone la variabilidad total en dos t´erminos: (1) SCE = la variabilidad entre las medias por grupos y la media general y (2) SCR = la variabilidad residual o variabilidad dentro del grupo. Espec´ıficamente
SCT = SCE + SCR, donde
SCE =
I
X
i=1
ni(¯yi•−y¯••)2
denota lavariabilidad o suma de cuadrados explicadapor las diferencias entre niveles del factor y
SCR =
I
X
i=1 ni
X
j=1
(yij −y¯i•)2 = (n−I)sR2 denota lavariabilidad o suma de cuadrados residual.
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 39
La tabla ANOVA y el contraste
Los t´erminos de la descomposici´on de la variabilidad se disponen en la llamadatabla ANOVA
Fuentes de Suma de Grados de Varianzas o Cuadrados
variaci´on (FV) cuadrados (SC) libertad (gl) medios (CM) Estad´ıstico Explicada o
Entre grupos SCE =
I
X
i=1
ni(¯yi•−y¯••)2 I−1 se2= SCE
I−1 F
Residual o
Dentro de los gruposSCR =
I
X
i=1 ni
X
j=1
(yij−y¯i•)2 n−I sR2 = SCR n−I
Total SCT =
I
X
i=1 ni
X
j=1
(yij−¯y••)2 n−1
Si la hip´otesis nula de igualdad de medias H0 :µ1=µ2=. . .=µI es cierta entonces
F = se2
sR2 ∼FI−1,n−I. Una regi´on de rechazo para el contraste
H0: µ1=µ2 =. . .=µI =µ H1: µi 6=µj para alg´un pari 6=j. al nivel de significaci´onα es
R={F >FI−1,n−I,α}.
ParaI = 2 poblaciones, este contraste es matem´aticamente equivalente al contrastet de Student que compara dos medias de distribuciones normales con varianzas iguales.
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 41
Ejemplo 5.7 (cont.):Para hacer la tabla ANOVA con R:
T=aov(Produccion~Nematicida,data=as.data.frame(Datos)) summary(T)
Df Sum Sq Mean Sq F value Pr(>F) Nematicida 3 1.299 0.4329 9.197 0.00129 **
Residuals 14 0.659 0.0471 ---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Observaci´on: El modelo de regresi´on lineal simple establece que el valor de la variable respuestaY cuando la variable explicativa X toma el valor x es:
Y =a+bx+, siendouna v.a.N(0, σ).
El modelo de an´alisis de la varianza con un factor establece que el valor de la variable respuestaY es:
Y =µ1F1+µ2F2+. . .+µIFI + donde
Fi =
1 si el factor est´a en el nivel i
0 si el factor est´a en un nivel distinto del i yes una v.a.N(0, σ).
Ambos modelos son casos particulares demodelos lineales, en los que la variable respuesta se estudia en t´erminos de variables explicativas de tal manera que la respuestaY es una funci´on lineal de todos los par´ametros del modelo m´as un t´ermino de “ruido” .
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 43
Contrastes no param´ etricos: contrastes χ
2En los contrastes param´etricos el objetivo es contrastar si el valor de un par´ametro est´a o no en una cierta regi´on del espacio param´etrico, supuesto que la v.a. X de inter´es sigue un modelo param´etrico espec´ıfico.
En los contrastes no param´etricos no se parte de la hip´otesis de queX sigue un modelo param´etrico, sino que se establecen hip´otesis m´as generales y complejas, como, por ejemplo, queX siga o no un cierto modelo param´etrico de distribuci´on.
Los contrastes no param´etricos m´as conocidos son los contrastes χ2, llamados as´ı porque el estad´ıstico del contraste sigue
aproximadamente una distribuci´onχ2 cuando la hip´otesis nula es cierta.
Contraste de bondad de ajuste (goodness-of-fit test) Primer caso
SeaX1, . . . ,Xn una muestra de una poblaci´onX con distribuci´on de probabilidad desconocida. Queremos contrastar si, en base a la informaci´on muestral, es razonable suponer que la distribuci´on de X viene dada por un determinado modelo de probabilidad P. Es decir, queremos ver si los datos “se ajustan bien” a P:
H0: El modelo de probabilidad de X es P.
H1: El modelo de probabilidad de X no es P.
Hacemos una partici´on (arbitraria) del espacio muestral de X enk clasesA1, . . . ,Ak. Para cadaAi definimos
Oi = frecuencia absoluta observada enAi
= N´umero de individuos de la muestra X1, . . . ,Xn
que pertenecen aAi
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 45
ei = frecuencia absoluta esperada en Ai si H0 es cierta
= n P(Ai)
Elestad´ıstico del contraste de bondad de ajuste χ2=
k
X
i=1
(Oi −ei)2 ei =
k
X
i=1
Oi2 ei −n
sigue aproximadamente (cuandon es grande) una distribuci´on χ2k−1 si H0 es cierta.
Rechazamos la hip´otesis nulaH0: “El modelo de probabilidad de X es P” al nivel de significaci´onα si
χ2 > χ2k−1;α.
Un ejemplo cl´asico: el experimento de Mendel Se cruzaron plantas de guisantes con fe-
notipo rugoso-amarillo con otras de fe- notipo liso-verde. En la segunda gene- raci´on se pod´ıan observar cuatro fenoti- pos (liso-amarillo, rugoso-amarillo, liso- verde, rugoso-verde) cuyas respectivas probabilidades, seg´un el principio de la transmisi´on independiente de Mendel, deb´ıan ser
p1 = 9
16,p2= 3
16,p3 = 3
16,p4= 1 16. Observados n = 556 guisantes en la se- gunda generaci´on del experimento se ob- tuvieron los siguientes n´umeros de gui- santes con dichos fenotipos:
O1= 315,O2 = 101,O3 = 108,O4 = 32.
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 47
¿Proporcionan estos resultados alguna evidencia en contra de la teor´ıa mendeliana?
Aplicando el test para contrastar H0:p1 = 9
16,p2= 3
16,p3 = 3
16,p4= 1 16, se tiene
e1= 556·9
16 = 312.75, e2=e3= 556· 3
16 = 104.25, e4= 556· 1
16 = 34.75 El valor del estad´ıstico del contraste es
χ2= 3152
312.75+ 1012
104.25+ 1082
104.25+ 322
34.75−556 = 556.47−556 = 0.47 y el punto cr´ıtico de la regi´on de rechazo esχ24−1;0.05=χ23;0.05= 7.81.
Segundo caso
SeaX1, . . . ,Xn una muestra de una poblaci´onX con distribuci´on de probabilidad desconocida. En base a la informaci´on muestral, queremos contrastar si la distribuci´on de X viene dada por un determinado modelo param´etrico de probabilidad perteneciente a la familiaF ={Pθ :θ∈Θ}. Es decir, queremos ver si los datos se ajustan bien a un determinado modelo param´etrico:
H0: El modelo de probabilidad de X es alg´unPθ de la familia F.
H1: El modelo de probabilidad de X no es ning´un Pθ deF.
Hacemos una partici´on (arbitraria) del espacio muestral de X enk clasesA1, . . . ,Ak. Para cadaAi definimos
Oi = frecuencia absoluta observada enAi
ei = frecuencia absoluta esperada enAi siH0 es cierta
= n Pθ(Ai)'n Pθˆ(Ai),
donde ˆθ= (ˆθ1, . . . ,θˆr) = e.m.v. deθ= (θ1, . . . , θr)
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 49
Elestad´ıstico del contraste de bondad de ajuste χ2=
k
X
i=1
(Oi −ei)2 ei
=
k
X
i=1
Oi2 ei
−n
sigue aproximadamente (cuandon es grande) una distribuci´on χ2k−1−r si H0 es cierta.
Rechazamos la hip´otesis nulaH0: “El modelo de probabilidad de X es alg´un Pθ de la familiaF” al nivel de significaci´onα si
χ2> χ2k−1−r;α.
Este tipo de contraste se aplica, por ejemplo, en Gen´etica para contrastar ratios no mendelianos. La herencia no mendeliana comprende patrones de herencia diferentes de los formulados por Mendel (dominancia incompleta, codominancia, alelos m´ultiples, herencia polig´enica o herencia ligada al sexo). En este tipo de
Ejemplo 5.8 (Equilibrio de Hardy-Weinberg, HWE):En una poblaci´on de tama˜no infinito, con apareamiento al azar (panmixia), en la que no haya mutaci´on, migraci´on o selecci´on, las frecuencias al´elicas se mantienen constantes con el tiempo, y las frecuencias genot´ıpicas vienen determinadas por las frecuencias al´elicas:
P(AA) =p2 P(Aa) = 2pq P(aa) =q2
Para detectar si las frecuencias genot´ıpicas observadas son significativamente diferentes de las esperadas por HWE se realiza una pruebaχ2 de bondad de ajuste. ¿Son las siguientes frecuencias compatibles con que la muestra haya sido tomada de una
poblaci´on en HWE?
AA AB BB Total
Oi 130 763 1698 2591 ei
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 51