• No se han encontrado resultados

Tema 5: Contrastes de hip´ otesis

N/A
N/A
Protected

Academic year: 2023

Share "Tema 5: Contrastes de hip´ otesis"

Copied!
51
0
0

Texto completo

(1)

Tema 5: Contrastes de hip´ otesis

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 1

(2)

Planteamiento del problema

SeaX una v.a. con distribuci´on de probabilidad dada por un modelo param´etrico cuya expresi´on matem´atica es totalmente conocida a excepci´on de alg´un par´ametro desconocidoθ∈Θ.

SeaX1, . . . ,Xn una muestra aleatoria de la poblaci´onX. Objetivo:Dada una partici´on del espacio param´etrico

Θ = Θ0∪Θ1, deseamos decidir, en base a la muestra obtenida, si θ∈Θ0 o siθ∈Θ1. Queremos contrastar

H0 :θ∈Θ0 (hip´otesis nula) H1 :θ∈Θ1 (hip´otesis alternativa)

Un test para contrastar estas dos hip´otesis consiste en proporcionar una regla de decisi´on que, a cada posible observaci´on de la

muestra (x , . . . ,x ), le asigne una decisi´on: aceptar o rechazarH .

(3)

Espacio muestral

(x

1

,...,x

n

)

(x

1

,...,x

n

) Región crítica o de rechazo R

Región de aceptación A

Rechazo H

0

Acepto H

0

TEST

Decisión

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 3

(4)

Posibles errores de un test:

Error de tipo I:RechazarH0 cuandoH0 es cierta.

Error de tipo II:Aceptar H0 cuandoH0 es falsa.

Lo ideal ser´ıa

0 = M´axima probabilidad de error de tipo I = m´ax

θ∈Θ0

Pθ(R) y

0 = M´axima probabilidad de error de tipo II = m´ax

θ∈Θ1Pθ(Rc).

Pero, cuando la probabilidad de uno de los dos errores disminuye, la probabilidad del otro aumenta.

(5)

Lo que en realidad se hace (teor´ıa de Neyman-Pearson):

1. Acotar la m´axima probabilidad de error de tipo I.

• Se fija un nivel de significaci´on α∈(0,1). T´ıpicamente α= 0.05.

• Se busca una regi´on de rechazo R tal que la m´axima probabilidad de error de tipo I sea menor o igual que α.

2. Minimizar la probabilidad de error de tipo II. Se intenta buscar una regi´on de rechazo R que minimice la m´axima probabilidad de error de tipo II.

Consecuencia: Las hip´otesis H0 y H1 no son “sim´etricas”.

Los test de hip´otesis suelen ser conservadores con la hip´otesis nula:

hace falta mucha evidencia muestral para rechazarH0.

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 5

(6)

Contrastes en poblaciones normales

Contrastes sobre la media µde una poblaci´on normal

•Sea X1, . . . ,Xn una muestra deX ∼N(µ, σ) conσ desconocido.

H0:µ=µ0 R=

(x1, . . . ,xn) :|¯x−µ0| ≥tn−1;α/2 s

√n

H0:µ≤µ0 R=

(x1, . . . ,xn) : ¯x−µ0 ≥tn−1;α s

√n

H0:µ≥µ0 R=

(x1, . . . ,xn) : ¯x−µ0 ≤tn−1;1−α

√s n

En todo contraste las regiones de rechazo se pueden expresar en t´erminos del estad´ıstico del contraste, una funci´on de la muestra cuya distribuci´on de probabilidad es (al menos aproximadamente paran grande) totalmente conocida bajo la hip´otesis nulaH0 (o en la frontera entreH yH , que es la situaci´on m´as desfavorable

(7)

En loscontrastes acerca de la media de una poblaci´on normalel estad´ıstico del contraste es elestad´ıstico t

t= X¯−µ0

S/√ n ,

que sigue una distribuci´ont de Studenttn−1 si µ=E(X) es igual aµ0. Por eso estos contrastes reciben el nombre det-tests. Las regiones de rechazo se pueden expresar de manera equivalente as´ı:

H0 :µ=µ0 R=

(x1, . . . ,xn) :|t| ≥tn−1;α/2 H0 :µ≤µ0 R={(x1, . . . ,xn) :t ≥tn−1;α} H0 :µ≥µ0 R={(x1, . . . ,xn) :t ≤tn−1;1−α} C´omo hacer un contraste de la t con R:

help(t.test)

t.test(x, y = NULL,

alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, var.equal = FALSE, conf.level =

0.95,...)

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 7

(8)

Ejemplo 5.1:Se certifica que un material est´andar de referencia de un suelo contiene 94.6 ppm de un contaminante org´anico. Un an´alisis repetido arroj´o los siguientes resultados: 98.6, 98.4, 97.2, 94.6 y 96.2 ppm. A un nivel de significaci´onα= 0.05 ¿hay suficiente evidencia estad´ıstica para concluir que los resultados difieren del valor esperado?. Si se disminuyeα a 0.01, ¿se rechazar´ıaH0?.

(9)

Ejemplo 5.1 (cont.):

X = c(98.6, 98.4, 97.2, 94.6, 96.2) t.test(X,alternative="two.sided",mu=94.6) One Sample t-test

data: X

t = 3.2421, df = 4, p-value = 0.03161

alternative hypothesis: true mean is not equal to 94.6 95 percent confidence interval:

94.94468 99.05532 sample estimates:

mean of x 97

¡Qu´e curioso! Rno parece dar una soluci´on al problema del contraste. ¿O s´ı? Presentemos el concepto de p-valor (p´agina 31).

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 9

(10)

Relaci´on entre contrastes de hip´otesis e intervalos de confianza

La regi´on de rechazo R =

(x1, . . . ,xn) :|¯x−µ0| ≥tn−1;α/2 s

√n

del anterior contraste

H0 :µ=µ0 H1 :µ6=µ0 α equivale a

R ={(x1, . . . ,xn) :µ0∈/ IC1−α(µ)}.

En general, en muchos casos dehip´otesis nula simple (es decir, del tipoH0 :θ=θ0) el test usual rechaza H0 (al nivel de significaci´on α) si y s´olo si el intervalo de confianza para θde nivel de confianza

(11)

Contrastes sobre la varianza σ2 de una poblaci´on normal

•Sea X1, . . . ,Xn una muestra deX ∼N(µ, σ) conσ desconocido.

H0:σ=σ0 R=

(n−1)s2

σ02 ∈/ (χ2n−1;1−α/2, χ2n−1;α/2)

H0:σ≤σ0 R=

(n−1)s2

σ02 ≥χ2n−1;α

H0:σ≥σ0 R=

(n−1)s2

σ02 ≤χ2n−1;1−α

El estad´ıstico del contraste χ2 = (n−1)S2

σ20 =

Pn

i=1(Xi−X¯)2

σ02 (X-squared en R) sigue una distribuci´on χ2n−1 si σ2=V(X) es igual a σ20. Para hacer este contraste con R hay que instalar el paquete TeachingDemos. Primero pinchar en Install Packages:

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 11

(12)
(13)

En el cuadro de di´alogo

escribirTeachingDemosen el hueco y pinchar enInstall. Si el paquete se instala correctamente, en la consola aparece:

> install.packages("TeachingDemos")

Installing package(s) into C:/R/R-2.15.1/library (as lib is unspecified)

probando la URL ’http://cran.es.r-project.org/bin/windows/contrib/2.15/

TeachingDemos_2.9.zip’

Content type ’application/zip’ length 772933 bytes (754 Kb) URL abierta

downloaded 754 Kb

package TeachingDemos successfully unpacked and MD5 sums checked The downloaded binary packages are in

C:\usuarios\AppData\Local\Temp\Rtmp00ZpFR\downloaded_packages

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 13

(14)

Luego hay que “cargar” el paquete instalado, marc´andolo en la lista de paquetes disponibles:

Observemos que, al tratar de cargar el paquete, en la consola aparece el aviso de que la versi´on de R que el autor de

TeachingDemosutiliz´o era m´as moderna que la que yo utilizo.

Esto no tiene por qu´e suponer ning´un problema, a menos que en el paquete se utilicen funciones de la versi´on m´as reciente.

La funci´on espec´ıfica deTeachingDemosque utilizaremos es sigma.test.

(15)

Ejemplo 5.1 (cont.):

X = c(98.6, 98.4, 97.2, 94.6, 96.2) sigma.test(X)

One sample Chi-squared test for variance data: X

X-squared = 10.96, df = 4, p-value = 0.05403

alternative hypothesis: true variance is not equal to 1 95 percent confidence interval:

0.9835518 22.6250622 sample estimates:

var of X 2.74

sigma.test(X,sigma=2,alternative="greater")

One sample Chi-squared test for variance data: X

X-squared = 2.74, df = 4, p-value = 0.6022

alternative hypothesis: true variance is greater than 4 95 percent confidence interval:

1.155176 Inf sample estimates:

var of X 2.74

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 15

(16)

Contrastes con dos poblaciones normales independientes

•SeanX1, . . . ,Xn1 e Y1, . . . ,Yn2 muestras aleatorias independientes deX ∼N(µ1, σ1) e Y ∼N(µ2, σ2) respectivamente (σ12 desconocidas). X e Y son v.a.

independientes.

H012 R = s12

s22 ∈/ (Fn1−1;n2−1;1−α/2,Fn1−1;n2−1;α/2)

=

1∈/ IC1−α

σ12 σ22

H01 ≤σ2 R = s12

s22 >Fn1−1;n2−1;α

H01 ≥σ2 R = s12

s22 <Fn1−1;n2−1;1−α

(17)

Ejemplo 5.2:Un microbi´ologo desea averiguar si hay diferencia en el tiempo que tarda en producir yogur utilizando dos tipos de bacterias:lactobacillus acidophilus(A) ybulgaricus (B). Se prepararon siete remesas de yogur con cada tipo de lactobacilo. A continuaci´on se muestra el tiempo (en horas) hasta que se produjo cada remesa:

Cultivo A

6.8 6.3 7.4 6.1 8.2 7.3 6.9 Cultivo B

6.1 6.4 5.7 5.5 6.9 6.3 6.7 Suponiendo que la distribuci´on de ambos conjuntos de

observaciones se puede considerar normal, contrastar la hip´otesis de homocedasticidad (igualdad de varianzas):

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 17

(18)

Ejemplo 5.2 (cont.):

A = c(6.8, 6.3, 7.4, 6.1, 8.2, 7.3, 6.9) B = c(6.1, 6.4, 5.7, 5.5, 6.9, 6.3, 6.7)

var.test(A,B,ratio=1,alternative="two.sided",conf.level

=0.9)

F test to compare two variances data: A and B

F = 1.9814, num df = 6, denom df = 6, p-value = 0.4259 alternative hypothesis: true ratio of variances is not

equal to 1

90 percent confidence interval:

0.462521 8.487957 sample estimates:

ratio of variances 1.981378

(19)

•SeanX1, . . . ,Xn1 e Y1, . . . ,Yn2 muestras aleatorias independientes deX ∼N(µ1, σ1) e Y ∼N(µ2, σ2) respectivamente (σ12 desconocida). X e Y son v.a.

independientes.

H012 R=

|¯x−y¯| ≥tn1+n2−2;α/2sp r 1

n1 + 1 n2

={0∈/IC1−α1−µ2)}

H01≤µ2 R=

¯

x−y¯≥tn1+n2−2;αsp

r 1 n1 + 1

n2

H01≥µ2 R=

¯

x−y¯≤tn1+n2−2;1−αsp r 1

n1 + 1 n2

donde

sp2= (n1−1)s12+ (n2−1)s22 n1+n2−2

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 19

(20)

El estad´ıstico del contraste

t= X¯−Y¯ Sp

q1 n1 +n1

2

sigue una distribuci´on tn1+n2−2 si µ12. Podemos reexpresar las regiones de rechazo as´ı:

H012 R=

|t| ≥tn1+n2−2;α/2

H01 ≤µ2 R={t≥tn1+n2−2;α} H01 ≥µ2 R={t≤tn1+n2−2;1−α} Ejemplo 5.2 (cont.):

(21)

Ejemplo 5.2 (cont.):

t.test(A,B,alternative="two.sided",conf.level=0.95,var.

equal=TRUE)

Two Sample t-test data: A and B

t = 2.3375, df = 12, p-value = 0.03755

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

0.05238216 1.49047498 sample estimates:

mean of x mean of y 7.000000 6.228571

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 21

(22)

•Datos emparejados:Sea (X1,Y1), . . . ,(Xn,Yn) una muestra aleatoria de (X,Y) dondeX e Y no son independientes, pero los pares (Xi,Yi), parai = 1, . . . ,n, son independientes entre s´ı.

DenotemosE(X) =µ1 yE(Y) =µ2 y supongamos que D=X −Y ∼N(µ=µ1−µ2, σ). Entonces

D1 =X1−Y1, . . . ,Dn =Xn−Yn es una muestra aleatoria de D.

Podemos realizar los siguientes contrastes de hip´otesis bas´andonos en los tests de la p´agina 6:

H012 ⇔H0 :µ= 0 H01≤µ2 ⇔H0 :µ≤0 H01≥µ2 ⇔H0 :µ≥0

(23)

Ejemplo 5.3:Consideremos el contenido en colesterol de 6 muestras de plasma sangu´ıneo humano medido con dos t´ecnicas distintas.

Contenido de colesterol (g/l) Muestra

de plasma M´etodo A M´etodo B Diferencia di

1 1.46 1.42 0.04

2 2.22 2.38 -0.16

3 2.84 2.67 0.17

4 1.97 1.80 0.17

5 1.13 1.09 0.04

6 2.35 2.25 0.10

El m´etodo B da un resultado menor que el m´etodo A en 5 de las 6 muestras. ¿Es el m´etodo B sistem´aticamente diferente del A?

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 23

(24)

Ejemplo 5.3:

A = c(1.46,2.22,2.84,1.97,1.13,2.35) B = c(1.42,2.38,2.67,1.80,1.09,2.25)

t.test(A,B,alternative="two.sided",mu=0,paired=TRUE) Paired t-test

data: A and B

t = 1.2, df = 5, p-value = 0.2839

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-0.06852909 0.18852909 sample estimates:

mean of the differences 0.06

(25)

Contrastes para distribuciones no normales

Para construir la regi´on de rechazo en los contrastes sobre

par´ametros de distribuciones no gaussianas se suele utilizar el TCL.

Contrastes sobre una proporci´on p

SeaX1, . . . ,Xn una muestra aleatoria de una v.a. X∼Bernoulli(p).

Suponemos quen es grande.

H0:p =p0 R= (

|¯x−p0|>zα/2

rp0(1−p0) n

)

H0:p ≤p0 R= (

¯

x−p0 >zα

rp0(1−p0) n

)

H0:p ≥p0 R= (

¯

x−p0 <z1−α

rp0(1−p0) n

)

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 25

(26)

Ejemplo 5.5:Most Like it Hotes el t´ıtulo de un informe publicado por el Pew Research Center el 18 de marzo de 2009:

www.pewsocialtrends.org/2009/03/18/most-like-it-hot/

El informe afirma “by an overwhelming margin, Americans want to live in a sunny place”. La afirmaci´on se basa en una muestra representativa de 2260 adultos estadounidenses. De ´estos, 1288 dijeron que preferir´ıan vivir en un clima c´alido en lugar de en un clima fr´ıo. ¿Proporcionan los datos suficiente evidencia estad´ıstica de que la mayor´ıa de los estadounidenses adultos prefieren un clima c´alido frente a uno fr´ıo? Utilizar un nivel de significaci´onα= 0.01.

(27)

Ejemplo 5.5 (cont.):

prop.test(1288,2260,p=0.5,alternative="greater",correct=FALSE)

1-sample proportions test without continuity correction data: 1288 out of 2260, null probability 0.5

X-squared = 44.1841, df = 1, p-value = 1.495e-11 alternative hypothesis: true p is greater than 0.5 95 percent confidence interval:

0.552708 1.000000 sample estimates:

p 0.5699115

Lacorrecci´on por continuidadnade un t´ermino extra al estad´ıstico del contraste para corregir el error cometido al aproximar una distribuci´on discreta (binomial) por una distribuci´on continua (normal). La correcci´on ajusta la probabilidad del error de tipo I (que se “infla” al emplear la aproximaci´on normal cuando el tama˜no muestral es peque˜no). Por ejemplo, en el caso del contrasteH0:p=p0, la regi´on de rechazo es R={|z|>zα/2}donde el estad´ıstico del contraste es

sin correcci´on por continuidad con correcci´on por continuidad z =qx−p¯ 0

p0 (1−p0 ) n

z = qx−p0|−2n1

p0 (1−p0 ) n

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 27

(28)

Comparaci´on de dos proporciones

SeanX1, . . . ,Xn1 e Y1, . . . ,Yn2 muestras de X ∼Bernoulli(p1) e Y ∼Bernoulli(p2), v.a. independientes.

H0: p1=p2 R= (

|¯x−y|¯ >zα/2 s

¯ p(1−p)¯

1 n1

+ 1 n2

)

H0: p1≤p2 R= (

¯

x−y¯>zα

s

¯ p(1−p)¯

1 n1 + 1

n2 )

H0: p1≥p2 R= (

¯

x−y¯<z1−α

s

¯ p(1−p)¯

1 n1 + 1

n2 )

donde ¯p= Pn1

i=1xi +Pn2

j=1yj

n1+n2 = n1x¯+n2y¯ n1+n2 .

(29)

Ejemplo 5.6:Bas´andose en las propiedades bioqu´ımicas del xilitol, un az´ucar obtenido de la madera de abedul, unos investigadores finlandeses creen que el uso regular de este edulcorante puede prevenir las otitis en ni˜nos menores de 5 a˜nos. Se tom´o una muestra de 165 ni˜nos que tomaron cinco dosis diarias de un jarabe placebo y 68 de ellos tuvieron infecci´on de o´ıdo. Otros 159 ni˜nos tomaron cinco dosis diarias de xilitol y 46 de ellos sufrieron otitis durante el estudio. ¿Hay suficiente evidencia de que el xilitol reduce el riesgo de infecci´on de o´ıdo?

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 29

(30)

Ejemplo 5.6 (cont.):

prop.test(c(68,46),c(165,159),p=NULL,alternative="greater",correct=FALSE)

2-sample test for equality of proportions without continuity correction data: c(68, 46) out of c(165, 159)

X-squared = 5.3554, df = 1, p-value = 0.01033 alternative hypothesis: greater

95 percent confidence interval:

0.03637624 1.00000000 sample estimates:

prop 1 prop 2 0.4121212 0.2893082

(31)

El concepto de p-valor

Dado un test, definido para todos los niveles de significaci´on posibles, se define elp-valor, para unos datos prefijados, comoel

´ınfimo de los valores α para los cuales se rechaza la hip´otesis nula a un nivel de significaci´onα.

P(x1, . . . ,xn) = ´ınf{α:H0 es rechazada al nivelα}.

Cu´anto m´as peque˜no es el p-valor, m´as evidencia estad´ıstica aportan los datos a favor deH1.

Los programas inform´aticos que realizan contrastes de hip´otesis (R, SPSS, Excel, Matlab,. . . ) no realizan el contraste para un nivel de significaci´onα, sino que directamente nos dan el p-valor del contraste.

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 31

(32)

Comparaci´ on de medias de m´ as de dos poblaciones normales (an´ alisis de la varianza)

El objetivo del An´alisis de la Varianza es estudiar si existe relaci´on entre el valor medioE(Y) de una variable respuestao

caracter´ıstica,Y, y unavariable cualitativa,atributoo factor.

Ejemplo 5.7:Algunas variedades de nematodos (gusanos

microsc´opicos que viven en el suelo) se alimentan de las ra´ıces de plantas variadas y cultivos. Este par´asito es especialmente

abundante en climas templados y h´umedos y puede causar grandes estragos en la producci´on agraria. Las plagas de nematodos se pueden tratar, por ejemplo, con nematicidas. Sin embargo, debido al peque˜no tama˜no de los gusanos, es muy dif´ıcil medir la

efectividad de estos pesticidas directamente. Para comparar cuatro nematicidas, se considera la cantidad (en libras) de tomates de una variedad espec´ıfica recogidos en campos de las mismas

(33)

Ejemplo 5.7 (cont.):

Nematicida

A B C D

18.6 18.7 19.4 19.0 18.4 19.0 18.9 18.8 18.4 18.9 19.5 18.6 18.5 18.5 19.2 18.7

18.3 18.8

Nematodos.txt

Nematodos Produccion Nematicida

18.6 A 18.4 A 18.4 A 18.5 A 18.3 A 18.7 B 19.0 B 18.9 B 18.5 B 19.4 C 18.9 C 19.5 C 19.2 C 18.8 C 19.0 D 18.8 D 18.6 D 18.7 D

Página 1

Queremos averiguar si existen diferencias significativas entre la producci´on media de los campos dependiendo del tipo de nematicida utilizado.

Datos = read.table("Nematodos.txt", header=TRUE)

P = Datos$Produccion N = Datos$Nematicida

plot(P ~ N,xlab="Nematicida",ylab="

Produccion")

A B C D

18.418.618.819.019.219.4

Nematicida

Produccion

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 33

(34)

En el Ejemplo 5.7 el factor tomaI = valores (los niveles, grupos o tratamientos del factor). Se mide la producci´on de tomate n1= veces con el nematicida A,n2 = veces con el B,n3 = veces con el C yn4 = veces con el D.

ni = no de observaciones de la respuesta para el niveli del factor Sin1 =n2=. . .=nI se dice que el dise˜noesequilibrado.

n=

I

X

i=1

ni = no total de observaciones de Y

yij =j-´esimo valor observado de la respuesta en el niveli, i = 1, . . . ,I,j = 1, . . . ,ni

Ejemplo 5.7 (cont.):

(35)

Suponemos que, en el niveli del factor, la respuesta Y oscila aleatoriamente en torno a un nivel desconocidoµi, la media de la poblaci´oni-´esima:E(Yij) =µi. Cada observaci´onyij resulta de una perturbaci´on aleatoria en torno al valor medio µi.

Nematicida

Producción

A B C D

18.418.618.819.019.219.4

µ1

µ2

µ3

µ4

En el Modelo de An´alisis de la Varianza (ANOVA = ANalysis Of VAriance) se supone que lasni observacionesYi1,Yi2, . . . ,Yini de la poblaci´oni son una muestra aleatoria de unaN(µi, σ). Se supone tambi´en que todas las observaciones Yij, para i = 1, . . . ,I, j = 1, . . . ,ni, son independientes entre s´ı.

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 35

(36)

El modelo ANOVA con un factor depende deI+ 1 par´ametros desconocidos: las mediasµ1,. . . ,µI y la varianza com´unσ2. Los estimamos respectivamente mediante las medias muestrales por niveles del factor

ˆ µi = 1

ni

ni

X

j=1

yij = ¯yi

y mediante lavarianza residual sR2 = 1

n−I

I

X

i=1 ni

X

j=1

(yij−y¯i)2

= (n1−1)s12+ (n2−1)s22+. . .+ (nI−1)sI2

n−I ,

dondesi2 =Pni

j=1(yij −y¯i•)2/(ni −1) es la cuasi-varianza muestral en la poblaci´on i-´esima.

(37)

Ejemplo 5.7 (cont.):

i yij nii• si2

1 18.6 18.4 18.4 18.5 18.3 2 18.7 19.0 18.9 18.5 3 19.4 18.9 19.5 19.2 18.8 4 19.0 18.8 18.6 18.7

n=

sR2 = tapply(P,N,mean)

A B C D

18.440 18.775 19.160 18.775 tapply(P,N,var)

A B C D

0.01300000 0.04916667 0.09300000 0.02916667

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 37

(38)

El contraste de igualdad de medias H0 : µ12 =. . .=µI

(todas las medias son iguales, el factor no influye) H1 : µi 6=µj para alg´un pari 6=j.

(al menos dos de las medias difieren, el factor influye) El contraste compara las diferencias entre medias muestrales con la variabilidad experimental, medida porsR2, para decidir si ´esta ha podido generar esas diferencias o no.

En concreto, sea

SCT =

I

X

i=1 ni

X

j=1

(yij −y¯••)2,

lavariabilidado suma de cuadrados total, que mide la dispersi´on entre los datos y la media global

¯

y = 1XI

ni

Xy .

(39)

El an´alisis de la varianza descompone la variabilidad total en dos t´erminos: (1) SCE = la variabilidad entre las medias por grupos y la media general y (2) SCR = la variabilidad residual o variabilidad dentro del grupo. Espec´ıficamente

SCT = SCE + SCR, donde

SCE =

I

X

i=1

ni(¯yi•−y¯••)2

denota lavariabilidad o suma de cuadrados explicadapor las diferencias entre niveles del factor y

SCR =

I

X

i=1 ni

X

j=1

(yij −y¯i)2 = (n−I)sR2 denota lavariabilidad o suma de cuadrados residual.

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 39

(40)

La tabla ANOVA y el contraste

Los t´erminos de la descomposici´on de la variabilidad se disponen en la llamadatabla ANOVA

Fuentes de Suma de Grados de Varianzas o Cuadrados

variaci´on (FV) cuadrados (SC) libertad (gl) medios (CM) Estad´ıstico Explicada o

Entre grupos SCE =

I

X

i=1

niyi•y¯••)2 I1 se2= SCE

I1 F

Residual o

Dentro de los gruposSCR =

I

X

i=1 ni

X

j=1

(yijy¯i•)2 nI sR2 = SCR nI

Total SCT =

I

X

i=1 ni

X

j=1

(yij¯y••)2 n1

(41)

Si la hip´otesis nula de igualdad de medias H012=. . .=µI es cierta entonces

F = se2

sR2 ∼FI−1,n−I. Una regi´on de rechazo para el contraste

H0: µ12 =. . .=µI =µ H1: µi 6=µj para alg´un pari 6=j. al nivel de significaci´onα es

R={F >FI−1,n−I,α}.

ParaI = 2 poblaciones, este contraste es matem´aticamente equivalente al contrastet de Student que compara dos medias de distribuciones normales con varianzas iguales.

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 41

(42)

Ejemplo 5.7 (cont.):Para hacer la tabla ANOVA con R:

T=aov(Produccion~Nematicida,data=as.data.frame(Datos)) summary(T)

Df Sum Sq Mean Sq F value Pr(>F) Nematicida 3 1.299 0.4329 9.197 0.00129 **

Residuals 14 0.659 0.0471 ---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

(43)

Observaci´on: El modelo de regresi´on lineal simple establece que el valor de la variable respuestaY cuando la variable explicativa X toma el valor x es:

Y =a+bx+, siendouna v.a.N(0, σ).

El modelo de an´alisis de la varianza con un factor establece que el valor de la variable respuestaY es:

Y =µ1F12F2+. . .+µIFI + donde

Fi =

1 si el factor est´a en el nivel i

0 si el factor est´a en un nivel distinto del i yes una v.a.N(0, σ).

Ambos modelos son casos particulares demodelos lineales, en los que la variable respuesta se estudia en t´erminos de variables explicativas de tal manera que la respuestaY es una funci´on lineal de todos los par´ametros del modelo m´as un t´ermino de “ruido” .

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 43

(44)

Contrastes no param´ etricos: contrastes χ

2

En los contrastes param´etricos el objetivo es contrastar si el valor de un par´ametro est´a o no en una cierta regi´on del espacio param´etrico, supuesto que la v.a. X de inter´es sigue un modelo param´etrico espec´ıfico.

En los contrastes no param´etricos no se parte de la hip´otesis de queX sigue un modelo param´etrico, sino que se establecen hip´otesis m´as generales y complejas, como, por ejemplo, queX siga o no un cierto modelo param´etrico de distribuci´on.

Los contrastes no param´etricos m´as conocidos son los contrastes χ2, llamados as´ı porque el estad´ıstico del contraste sigue

aproximadamente una distribuci´onχ2 cuando la hip´otesis nula es cierta.

(45)

Contraste de bondad de ajuste (goodness-of-fit test) Primer caso

SeaX1, . . . ,Xn una muestra de una poblaci´onX con distribuci´on de probabilidad desconocida. Queremos contrastar si, en base a la informaci´on muestral, es razonable suponer que la distribuci´on de X viene dada por un determinado modelo de probabilidad P. Es decir, queremos ver si los datos “se ajustan bien” a P:

H0: El modelo de probabilidad de X es P.

H1: El modelo de probabilidad de X no es P.

Hacemos una partici´on (arbitraria) del espacio muestral de X enk clasesA1, . . . ,Ak. Para cadaAi definimos

Oi = frecuencia absoluta observada enAi

= N´umero de individuos de la muestra X1, . . . ,Xn

que pertenecen aAi

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 45

(46)

ei = frecuencia absoluta esperada en Ai si H0 es cierta

= n P(Ai)

Elestad´ıstico del contraste de bondad de ajuste χ2=

k

X

i=1

(Oi −ei)2 ei =

k

X

i=1

Oi2 ei −n

sigue aproximadamente (cuandon es grande) una distribuci´on χ2k−1 si H0 es cierta.

Rechazamos la hip´otesis nulaH0: “El modelo de probabilidad de X es P” al nivel de significaci´onα si

χ2 > χ2k−1;α.

(47)

Un ejemplo cl´asico: el experimento de Mendel Se cruzaron plantas de guisantes con fe-

notipo rugoso-amarillo con otras de fe- notipo liso-verde. En la segunda gene- raci´on se pod´ıan observar cuatro fenoti- pos (liso-amarillo, rugoso-amarillo, liso- verde, rugoso-verde) cuyas respectivas probabilidades, seg´un el principio de la transmisi´on independiente de Mendel, deb´ıan ser

p1 = 9

16,p2= 3

16,p3 = 3

16,p4= 1 16. Observados n = 556 guisantes en la se- gunda generaci´on del experimento se ob- tuvieron los siguientes n´umeros de gui- santes con dichos fenotipos:

O1= 315,O2 = 101,O3 = 108,O4 = 32.

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 47

(48)

¿Proporcionan estos resultados alguna evidencia en contra de la teor´ıa mendeliana?

Aplicando el test para contrastar H0:p1 = 9

16,p2= 3

16,p3 = 3

16,p4= 1 16, se tiene

e1= 556·9

16 = 312.75, e2=e3= 556· 3

16 = 104.25, e4= 556· 1

16 = 34.75 El valor del estad´ıstico del contraste es

χ2= 3152

312.75+ 1012

104.25+ 1082

104.25+ 322

34.75−556 = 556.47−556 = 0.47 y el punto cr´ıtico de la regi´on de rechazo esχ24−1;0.0523;0.05= 7.81.

(49)

Segundo caso

SeaX1, . . . ,Xn una muestra de una poblaci´onX con distribuci´on de probabilidad desconocida. En base a la informaci´on muestral, queremos contrastar si la distribuci´on de X viene dada por un determinado modelo param´etrico de probabilidad perteneciente a la familiaF ={Pθ :θ∈Θ}. Es decir, queremos ver si los datos se ajustan bien a un determinado modelo param´etrico:

H0: El modelo de probabilidad de X es alg´unPθ de la familia F.

H1: El modelo de probabilidad de X no es ning´un Pθ deF.

Hacemos una partici´on (arbitraria) del espacio muestral de X enk clasesA1, . . . ,Ak. Para cadaAi definimos

Oi = frecuencia absoluta observada enAi

ei = frecuencia absoluta esperada enAi siH0 es cierta

= n Pθ(Ai)'n Pθˆ(Ai),

donde ˆθ= (ˆθ1, . . . ,θˆr) = e.m.v. deθ= (θ1, . . . , θr)

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 49

(50)

Elestad´ıstico del contraste de bondad de ajuste χ2=

k

X

i=1

(Oi −ei)2 ei

=

k

X

i=1

Oi2 ei

−n

sigue aproximadamente (cuandon es grande) una distribuci´on χ2k−1−r si H0 es cierta.

Rechazamos la hip´otesis nulaH0: “El modelo de probabilidad de X es alg´un Pθ de la familiaF” al nivel de significaci´onα si

χ2> χ2k−1−r.

Este tipo de contraste se aplica, por ejemplo, en Gen´etica para contrastar ratios no mendelianos. La herencia no mendeliana comprende patrones de herencia diferentes de los formulados por Mendel (dominancia incompleta, codominancia, alelos m´ultiples, herencia polig´enica o herencia ligada al sexo). En este tipo de

(51)

Ejemplo 5.8 (Equilibrio de Hardy-Weinberg, HWE):En una poblaci´on de tama˜no infinito, con apareamiento al azar (panmixia), en la que no haya mutaci´on, migraci´on o selecci´on, las frecuencias al´elicas se mantienen constantes con el tiempo, y las frecuencias genot´ıpicas vienen determinadas por las frecuencias al´elicas:

P(AA) =p2 P(Aa) = 2pq P(aa) =q2

Para detectar si las frecuencias genot´ıpicas observadas son significativamente diferentes de las esperadas por HWE se realiza una pruebaχ2 de bondad de ajuste. ¿Son las siguientes frecuencias compatibles con que la muestra haya sido tomada de una

poblaci´on en HWE?

AA AB BB Total

Oi 130 763 1698 2591 ei

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 5: Contrastes de hip´otesis 51

Referencias

Documento similar

Los niveles elevados de antígeno de superficie del virus de la hepatitis B y la carga viral materna, así como la presencia de antígeno e, se asocian a mayor riesgo de