• No se han encontrado resultados

Tema 5. Contrastes de hipótesis. Estadística (Química). Profesora: Amparo Baíllo Tema 5: Contrastes de hipótesis 1

N/A
N/A
Protected

Academic year: 2021

Share "Tema 5. Contrastes de hipótesis. Estadística (Química). Profesora: Amparo Baíllo Tema 5: Contrastes de hipótesis 1"

Copied!
30
0
0

Texto completo

(1)
(2)

Planteamiento del problema

SeaX1, . . . ,Xn una muestra aleatoria de una v.a. X con funci´on de

distribuci´onFθ dondeθ∈Θ.

Objetivo:Dada una partici´on del espacio param´etrico

Θ = Θ0∪Θ1, deseamos decidir, en base a la muestra obtenida, si θ∈Θ0 o siθ∈Θ1. Queremos contrastar

H0 :θ∈Θ0 (hip´otesis nula) H1 :θ∈Θ1 (hip´otesis alternativa)

Un test para contrastar estas dos hip´otesis consiste en proporcionar una regla de decisi´on que, a cada posible observaci´on de la

(3)

Espacio muestral

(x

1

,...,x

n

)

(x

1

,...,x

n

)

Región crítica

o de rechazo

R

Región de

aceptación A

Rechazo H

0

Acepto H

0

TEST

Decisión

(4)

Posibles errores de un test:

• Error de tipo I:RechazarH0 cuandoH0 es cierta.

• Error de tipo II:Aceptar H0 cuandoH0 es falsa.

Lafunci´on de potenciade un test con regi´on de rechazoR para contrastarH0 :θ∈Θ0 frente aH1 :θ∈Θ1 es la funci´on

Θ −→ [0,1]

θ 7−→ Pθ(R).

Lo que nos gustar´ıa:

Θ

Θ

0

Θ

1

θ

Potencia = 1 Potencia = 1 Potencia = 0

(5)

Lo que en realidad se hace (teor´ıa de Neyman-Pearson):

1. Acotar la m´axima probabilidad de error de tipo I. • Se fija unnivel de significaci´onα∈(0,1). T´ıpicamente

α= 0.05.

• Se define eltama˜no de un test como la m´axima probabilidad de error de tipo I: m´ax

θ∈Θ0

Pθ(R).

• Se busca una regi´on de rechazo R tal que m´ax

θ∈Θ0

Pθ(R)≤α. 2. Minimizar la probabilidad de error de tipo II. Se intenta

buscar una regi´on de rechazoR que maximice la funci´on de potencia cuandoθ∈Θ1.

Las hip´otesis H0 y H1 no son sim´etricas.

Los test de hip´otesis suelen ser conservadores con la hip´otesis nula: hace falta mucha evidencia muestral para rechazarH0.

(6)

Contrastes en poblaciones normales

•Sea x1, . . . ,xn una muestra de X ∼N(µ, σ) conσ desconocido.

Definimos el estad´ısticot = (¯x−µ0)/(s/√n). H0:µ=µ0 R= (x1, . . . ,xn) :|t| ≥tn−1;α/2 H0:µ≤µ0 R={(x1, . . . ,xn) :t ≥tn−1;α} H0:µ≥µ0 R={(x1, . . . ,xn) :t ≤tn−1;1−α} H0 :σ=σ0 R= (n−1)s2 σ20 ∈/ (χ 2 n−1;1−α/2, χ 2 n−1;α/2) H0 :σ≤σ0 R= (n−1)s2 σ20 ≥χ 2 n−1;α H0 :σ≥σ0 R= (n−1)s2 σ2 0 ≤χ2n−1;1−α

(7)

Ejemplo 5.1:Se certifica que un material est´andar de referencia de un suelo contiene 94.6 ppm de un contaminante org´anico. Un an´alisis repetido arroj´o los siguientes resultados: 98.6, 98.4, 97.2, 94.6 y 96.2 ppm. A un nivel de significaci´onα= 0.05 ¿hay suficiente evidencia estad´ıstica para concluir que los resultados difieren del valor esperado? Si se hace una medida m´as y se obtiene 94.5 ¿cambiar´ıa la respuesta?

(8)

Relaci´on entre contrastes de hip´otesis e intervalos de confianza La regi´on de rechazo R = (x1, . . . ,xn) :|¯x−µ0| ≥tn−1;α/2 s √ n

del anterior contraste

H0 :µ=µ0 α H1 :µ6=µ0

equivale a

R ={(x1, . . . ,xn) :µ0∈/ IC1−α(µ)}.

En general, en algunos casos dehip´otesis nula simple (es decir, del tipoH0 :θ=θ0) el test usual rechaza H0 (al nivel de significaci´on α) si y s´olo si el intervalo de confianza para θde nivel de confianza 1−α no contiene al valorθ0.

(9)

•SeanX1, . . . ,Xn1 e Y1, . . . ,Yn2 muestras aleatorias independientes deX ∼N(µ1, σ1) e Y ∼N(µ2, σ2) respectivamente (σ1 yσ2 desconocidas). X e Y son v.a. independientes. H0 :σ1 =σ2 R = s12 s22 ∈/ (Fn1−1;n2−1;1−α/2,Fn1−1;n2−1;α/2) = 1∈/ IC1−α σ2 1 σ2 2 H0 :σ1 ≤σ2 R = s12 s2 2 >Fn1−1;n2−1;α H0 :σ1 ≥σ2 R = s12 s22 <Fn1−1;n2−1;1−α

(10)

Ejemplo 4.3 (cont.):Se quiere comparar la grasa corporal (en kg.) entre nadadoras y corredoras ol´ımpicas. Se observan los datos:

Corredoras Nadadoras 11.2 7.6 14.1 12.7 10.1 7.3 15.1 13.7 9.4 6.9 11.4 11.9 9.2 5.5 14.3 10.7 8.3 5.0 9.2 8.7 8.2 3.7

Si la distribuci´on de las variables observadas es normal, ¿hay suficiente evidencia muestral, al nivelα= 0.05, para concluir que la varianza para las corredoras es menor que para las nadadoras?

(11)

•SeanX1, . . . ,Xn1 e Y1, . . . ,Yn2 muestras independientes de

X ∼N(µ1, σ1) e Y ∼N(µ2, σ2) respectivamente (σ1 =σ2

desconocida).X e Y son v.a. independientes.

H0 :µ1=µ2 R= |¯x−y¯| ≥tn1+n2−2;α/2sp r 1 n1 + 1 n2 ={|t| ≥tn1+n2−2;α/2} H0 :µ1≤µ2 R= ¯ x−y¯≥tn1+n2−2;αsp r 1 n1 + 1 n2 ={t ≥tn1+n2−2;α} H0 :µ1≥µ2 R= ¯ x−y¯≤tn1+n2−2;1−αsp r 1 n1 + 1 n2 ={t ≤tn1+n2−2;1−α} dondesp2 = (n1−1)s 2 1 + (n2−1)s22 n1+n2−2 y t = ¯ x−y¯ sp q 1 n1 + 1 n2 .

(12)

Ejemplo 5.2:La homogeneidad de la concentraci´on de cloruro en una muestra de agua de un lago es sometida a prueba mediante el an´alisis de extracciones de las aguas superficiales y cercanas al fondo, con los resultados siguientes (en ppm Cl):

Superficie Fondo 26.30 26.22 26.43 26.32 26.28 26.20 26.19 26.11 26.49 26.42

Determinar si existen diferencias significativas entre la concentraci´on media de Cl en la superficie y en el fondo.

(13)

•Datos emparejados:Sea (X1,Y1), . . . ,(Xn,Yn) una muestra

aleatoria de (X,Y) dondeX e Y no son independientes, pero los pares (Xi,Yi), parai = 1, . . . ,n, son independientes entre s´ı.

DenotemosE(X) =µ1 yE(Y) =µ2 y supongamos que D=X −Y ∼N(µ=µ1−µ2, σ). Entonces

D1 =X1−Y1, . . . ,Dn =Xn−Yn es una muestra aleatoria de D.

Podemos realizar los siguientes contrastes de hip´otesis bas´andonos en los tests de la p´agina 6:

H0 :µ1=µ2 ⇔H0 :µ= 0

H0 :µ1≤µ2 ⇔H0 :µ≤0 H0 :µ1≥µ2 ⇔H0 :µ≥0

(14)

Ejemplo 5.3:Consideremos el contenido en colesterol de 6 muestras de plasma sangu´ıneo humano medido con dos t´ecnicas distintas.

Contenido de colesterol (g/l) Muestra

de plasma M´etodo A M´etodo B Diferencia di

1 1.46 1.42 0.04 2 2.22 2.38 -0.16 3 2.84 2.67 0.17 4 1.97 1.80 0.17 5 1.13 1.09 0.04 6 2.35 2.25 0.10

El m´etodo B da un resultado menor que el m´etodo A en 5 de las 6 muestras. ¿Es el m´etodo B sistem´aticamente diferente del A?

(15)

Contrastes para distribuciones no normales

Tests de nivel aproximado α (muestras grandes) para la

media de cualquier distribuci´on

SeaX1, . . . ,Xn una muestra aleatoria de X conE(X) =µ <∞ y

V(X) =σ2<∞. Entonces, por el Teorema Central del L´ımite,

¯ X −µ s/√n aprox. ∼ N(0,1). H0 :µ=µ0 R= (x1, . . . ,xn) : ¯ x−µ0 s/√n >zα/2 H0 :µ≤µ0 R= (x1, . . . ,xn) : ¯ x−µ0 s/√n >zα H0 :µ≥µ0 R= (x1, . . . ,xn) : ¯ x−µ0 s/√n <−zα

(16)

Contrastes sobre una proporci´on p

SeaX1, . . . ,Xn una muestra aleatoria de una v.a. X∼Bernoulli(p).

Suponemos quen es grande.

H0:p =p0 R= ( |¯x−p0|>zα/2 r p0(1−p0) n ) ={|z|>zα/2} H0:p ≤p0 R= ( ¯ x−p0 >zα r p0(1−p0) n ) ={z >zα} H0:p ≥p0 R= ( ¯ x−p0 <z1−α r p0(1−p0) n ) ={z <−zα} dondez = qx¯−p0 p0(1−p0) n

(17)

El concepto de p-valor

Dado un test, definido para todos los niveles de significaci´on posibles, se define elp-valor, para unos datos prefijados, comoel ´ınfimo de los valores α para los cuales se rechaza la hip´otesis nula

a un nivel de significaci´onα.

P(x1, . . . ,xn) = ´ınf{α:H0 es rechazada al nivelα}.

Cu´anto m´as peque˜no es el p-valor, m´as evidencia estad´ıstica aportan los datos a favor deH1.

El p-valor se puede interpretar como la probabilidad de obtener un valor “al menos tan raro” como el que se ha obtenido cuandoH0

(18)

Comparaci´

on de medias de m´

as de dos poblaciones

normales (an´

alisis de la varianza)

El objetivo del An´alisis de la Varianza es estudiar si existe relaci´on entre el valor medio de unavariable respuesta Y y una variable cualitativa,atributo ofactor.

Ejemplo 5.4:Se mide la contaminaci´on de un r´ıo analizando la cantidad de ox´ıgeno que contiene en disoluci´on el agua. Se toman muestras en cuatro lugares diferentes del r´ıo (a 10, 25, 50 y 100 km. del nacimiento), obteni´endose:

A 100 km. 4.8 5.2 5.0 4.7 5.1 A 50 km. 6.0 6.2 6.1 5.8 A 25 km. 5.9 6.1 6.3 6.1 6.0 A 10 km. 6.3 6.6 6.4 6.4 6.5 1 2 3 4 4.5 5 5.5 6 6.5 i y

Queremos averiguar si existen diferencias significativas en el nivel medio de contaminaci´on a distintas alturas del cauce.

(19)

En el Ejemplo 5.4 el factor tomaI = valores (los niveles, grupos o tratamientos del factor). Se mide la cantidad de ox´ıgeno en disoluci´onn1 = veces a 100 km. del nacimiento del r´ıo,n2 = veces a 50 km.,n3= veces a 25 km. yn4= veces a 10 km. ni = no de observaciones de la respuesta para el niveli del factor

Sin1 =n2=. . .=nI se dice que eldise˜noesequilibrado. n=

I

X i=1

ni = no total de observaciones de Y

yij =j-´esimo valor observado de la respuesta en el niveli,

i = 1, . . . , I,j = 1, . . . ,ni

(20)

Suponemos que, en el niveli del factor, la respuesta Y oscila aleatoriamente en torno a un nivel desconocidoµi, la media de la

poblaci´oni-´esima:E(Yij) =µi. Cada observaci´onyij resulta de

una perturbaci´on aleatoria en torno al valor medio µi.

En el Modelo de An´alisis de la Varianza (ANOVA = ANalysis Of VAriance) se supone que lasni observacionesYi1,Yi2, . . . ,Yini de

la poblaci´oni son una muestra aleatoria de unaN(µi, σ). Se

supone tambi´en que todas las observaciones Yij, para i = 1, . . . , I,

(21)

El modelo ANOVA con un factor depende deI+ 1 par´ametros desconocidos: las mediasµ1,. . . ,µI y la varianza com´un σ2. Los estimamos respectivamente mediante las medias muestrales por niveles del factor

ˆ µi = 1 ni ni X j=1 yij = ¯yi•

y mediante lavarianza residual sR2 = (n1−1)s 2 1 + (n2−1)s22+. . .+ (nI−1)sI2 n−I , dondesi2 =Pni j=1(yij −y¯i•)2/(ni −1) es la cuasi-varianza muestral en la poblaci´on i-´esima.

(22)

i yij ni y¯i• si2 1 4.8 5.2 5.0 4.7 5.1 2 6.0 6.2 6.1 5.8 3 5.9 6.1 6.3 6.1 6.0 4 6.3 6.6 6.4 6.4 6.5 n= sR2 =

(23)

El contraste de igualdad de medias H0 : µ1 =µ2 =. . .=µI

(todas las medias son iguales, el factor no influye)

H1 : µi 6=µj para alg´un pari 6=j.

(al menos dos de las medias difieren, el factor influye) El contraste compara las diferencias entre medias muestrales con la variabilidad experimental, medida porsR2, para decidir si ´esta ha podido generar esas diferencias o no.

En concreto, sea SCT = I X i=1 ni X j=1 (yij −y¯••)2,

lavariabilidado suma de cuadrados total, que mide la dispersi´on entre los datos y la media global

¯ y••= 1 n I X i=1 ni X j=1 yij.

(24)

El an´alisis de la varianza descompone la variabilidad total en dos t´erminos: (1) SCE = la variabilidad entre las medias por grupos y la media general y (2) SCR = la variabilidad residual o variabilidad dentro del grupo. Espec´ıficamente

SCT = SCE + SCR, donde SCE = I X i=1 ni(¯yi•−y¯••)2

denota lavariabilidad o suma de cuadrados explicadapor las diferencias entre niveles del factor y

SCR = I X i=1 ni X j=1 eij2= (n−I)sR2 = (n1−1)s12+(n2−1)s22+. . .+(nI−1)sI2

denota lavariabilidad o suma de cuadrados residual. Los valores

(25)

La tabla ANOVA y el contraste

Los t´erminos de la descomposici´on de la variabilidad se disponen en la llamadatabla ANOVA

Fuentes de Suma de Grados de Varianzas o Cuadrados

variaci´on (FV) cuadrados (SC)libertad (gl) medios (CM) Estad´ıstico Explicada o

Entre grupos SCE I−1 s

2

e = SCE

I−1 F Residual o

Dentro de los grupos SCR n−I s

2

R= SCR

n−I

(26)

Si la hip´otesis nula de igualdad de medias H0 :µ1=µ2=. . .=µI es cierta entonces F = s 2 e s2 R ∼FI−1,n−I.

Una regi´on de rechazo para el contraste

H0: µ1=µ2 =. . .=µI =µ H1: µi 6=µj para alg´un pari 6=j.

al nivel de significaci´onα es

R={F >FI−1,n−I,α}.

ParaI = 2 poblaciones, este contraste es matem´aticamente equivalente al contrastet de Student que compara dos medias de distribuciones normales con varianzas iguales.

(27)
(28)

El modelo de regresi´

on lineal gaussiano

SeaY una variable dependiente o respuesta y seaX la variable explicativa o regresor. El modelo de regresi´on lineal deY sobre X

supone que, siX =x, entonces

Y =a+bx+,

donde∼N(0, σ).

Las estimaciones de m´axima verosimilitud de los par´ametros ayb

son

ˆ

b = covx,y

vx

y aˆ= ¯y−bˆx.¯

El valor previsto de la respuesta y su correspondiente residuo se definen como

ˆ

yi = ˆa+ ˆbxi y ei =yi −yˆi.

Una estimaci´on insesgada deσ2 es la varianza residual

sR2 =Pn

(29)

El contraste de la regresi´on es

H0 : b = 0 (no hay relaci´on lineal entre X eY) H1 : b 6= 0 (hay relaci´on lineal entre X eY).

A nivel de significaci´on α la regi´on de rechazo de este contraste es

R =

|t|>tn−2;α/2 ,

siendo el estad´ıstico del contraste

t= ˆ b sR/ √ nvx = ˆ b sR/ p (n−1)s2.

(30)

Ejemplo 1.10 (sabor del queso cheddar):En 30 porciones de queso cheddar curado se evalu´o el sabor (Y) y se midi´o la concentraci´on de ´acido l´actico (X). Contrastar si hay relaci´on lineal entreY yX. Caso 1 2 3 4 5 6 7 8 9 10 Sabor 12.3 20.9 39.0 47.9 5.6 25.9 37.3 21.9 18.1 21.0 Ac. L´actico 0.86 1.53 1.57 1.81 0.99 1.09 1.29 1.78 1.29 1.58 Caso 11 12 13 14 15 16 17 18 19 20 Sabor 34.9 57.2 0.7 25.9 54.9 40.9 15.9 6.4 18.0 38.9 Ac. L´actico 1.68 1.90 1.06 1.30 1.52 1.74 1.16 1.49 1.63 1.99 Caso 21 22 23 24 25 26 27 28 29 30 Sabor 14.0 15.2 32.0 56.7 16.8 11.6 26.5 0.7 13.4 5.5 Ac. L´actico 1.15 1.33 1.44 2.01 1.31 1.46 1.72 1.25 1.08 1.25

Referencias

Documento similar

El nuevo Decreto reforzaba el poder militar al asumir el Comandante General del Reino Tserclaes de Tilly todos los poderes –militar, político, económico y gubernativo–; ampliaba

quiero también a Liseo porque en mi alma hay lugar para amar a cuantos veo... tiene mi gusto sujeto, 320 sin que pueda la razón,.. ni mande

6 Para la pervivencia de la tradición clásica y la mitología en la poesía machadiana, véase: Lasso de la Vega, José, “El mito clásico en la literatura española

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

Package Item (Container) Type : Vial (100000073563) Quantity Operator: equal to (100000000049) Package Item (Container) Quantity : 1 Material : Glass type I (200000003204)

d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que