• No se han encontrado resultados

Tema 3. Comparaciones de dos poblaciones

N/A
N/A
Protected

Academic year: 2021

Share "Tema 3. Comparaciones de dos poblaciones"

Copied!
28
0
0

Texto completo

(1)

Contenidos

I Hip´otesis para la diferencia entre las medias de dos poblaciones: muestras pareadas

I Hip´otesis para la diferencia entre las medias de dos poblaciones: muestras independientes

I Dos poblaciones normales con varianzas iguales (y desconocidas)

I Dos poblaciones normales con varianzas conocidas

I Dos poblaciones no normales y muestras grandes

I Dos poblaciones Bernoulli

I Hip´otesis para la raz´on de las varianzas de dos poblaciones: muestras independientes

(2)

Tema 3. Comparaciones de dos poblaciones

Objetivos de aprendizaje

Al finalizar este tema, debieras ser capaz de:

I Llevar a cabo un contraste de hip´otesis para la diferencia de las medias y para el cociente de las varianzas de dos poblaciones

I Construir intervalos de confianza para la diferencia o el cociente

I Diferenciar las situaciones en las que un contraste basado en muestras pareadas es adecuado, de aquellas en las que se debe aplicar un contraste basado en muestras independientes

I Calcular la potencia de un contraste y la probabilidad de un error de Tipo II

(3)

Referencias

I Newbold, P. “Estad´ıstica para administraci´on y econom´ıa”

I Cap´ıtulo 9 (9.6-9.9)

I Ross, S. “Introducci´on a la Estad´ıstica”

(4)

Introducci´

on

En este tema estudiamos el caso en el que en lugar de disponer deuna

muestra aleatoria, tenemosdosmuestras aleatorias de dos poblaciones, y estamos interesados en contrastar:

I la diferencia entre las medias de las dos poblaciones

I en el caso de muestras pareadas

I y en el caso de muestras independientes

I el cociente entre las varianzas de las dos poblaciones

I en el caso de muestras independientes

Emplearemos los procedimientos introducidos en los Temas 1 y 2 para construir intervalos de confianza y realizar contrastes de hip´otesis para las diferencias o cocientes de los par´ametros de las poblaciones indicados.

(5)

pareadas

Ejemplo:Se ha llevado a cabo un estudio sobre la relaci´on entre la actividad cerebral mientras se ven anuncios en televisi´on y la capacidad de la persona para recordar dichos anuncios. Se han mostrado anuncios de dos marcas para diez productos a las personas en la muestra. Para cada anuncio se ha medido la capacidad de cada persona para recordarlo pasadas 24 h., y a cada anuncio de un producto se le han asignado las etiquetas “recuerdo fuerte” o “recuerdo d´ebil”. La siguiente tabla muestra un ´ındice de la actividad cerebral de las personas que han visto estos anuncios en el estudio.

producto: i 1 2 3 4 5 6 7 8 9 10

recuerdo fuerte: xi 137 135 83 125 47 46 114 157 57 144

recuerdo d´ebil: yi 53 114 81 86 34 66 89 113 88 111

(6)

Contrastes para la diferencia entre dos medias: muestras

pareadas

I Sea X una poblaci´on con mediaµX eY otra poblaci´on con media

µY.

I Disponemos de una muestra aleatoria denobservaciones pareadas de ambas poblaciones,{(Xi,Yi)}. Denotaremos como

d1=x1−y1,d2=x2−y2, . . . ,dn=xn−yn

las ndiferencias de valores con media ¯d y cuasi desviaci´on t´ıpicasd.

I Supondremos que lapoblaci´on de las diferencias sigue una distribuci´on normal.

I Contraste bilateralH0: µX−µY =D0frente aH1: µX−µY 6=D0 I El estad´ıstico del contraste es

T = D¯−D0

sD/√n ∼H0 tn−1

I La regi´on de rechazo (a un nivel de significaci´onα) es: RRα={t:t<−tn−1;α/2ot>tn−1;α/2}

(7)

pareadas

Ejemplo:cont.

Poblaci´on:

D= “diferencia entre recuerdo fuerte y d´ebil” D∼N(µX −µY, σD2)

'

MAS: n= 10 Muestra: ¯d =21010 = 21 sd2= 1420221010(21)1 2 = 1088 Objetivo: contrastar H0: µX −µY ≤ D0 z}|{ 0 frente aH1: µX −µY >0 (Contraste unilateral)

Estad´ıstico del contraste: T = ¯ D−D0 sD/ √ n ∼tn−1 Valor observado del estad´ıstico: D0= 0 n= 10 ¯ d = 21 sd= √ 1088 = 32.98 t = ¯ d−D0 sd/ √ n = 21 32.98/√10 = 2.014

(8)

Contrastes para la diferencia entre dos medias: muestras

pareadas

Ejemplo:cont. p-valor =P(T ≥2.014) ∈(0.025,0.05)ya que t9;0.05 z }| { 1.833<2.014< t9;0.025 z }| { 2.262 Por tanto, como p-valor< α= 0.05, rechazamos la hip´otesis nula a este nivel. Densidadtn−1

| |

t= 2.014 p−valor =area 1.833 2.262

Conclusi´on: La evidencia muestral apoya que en promedio la actividad cerebral es mayor para el grupo con recuerdo fuerte que para el grupo con recuerdo d´ebil. Si la actividad cerebral promedio fuese igual para ambos grupos, la probabilidad de obtener muestras tan extremas o m´as que la observada estar´ıa entre 0.025 y 0.05 (un valor bajo).

(9)

pareadas

Ejemplo:cont. En Excel: Ir al menu “Datos”, submenu “An´alisis de datos”, seleccionar la opci´on: “Prueba t para medias de dos muestras emparejadas”

Columnas A y B (datos),en amarillo se muestran el valor observado del estad´ıstico y el p-valor.

(10)

Contraste bilateral para la diferencia entre dos medias via

IC: muestras pareadas

Ejemplo:cont. Construir un intervalo de confianza al 95% paraµX−µY. IC0.95(µX −µY) = ¯ d−tn−1;0.025 sd √ n, ¯ d+tn−1;0.025 sd √ n = 21−2.26232√.98 10,21 + 2.262 32.98 √ 10 = (−2.59,44.59)

Comoel valor 0 pertenecea este intervalo, no podemos rechazar la hip´otesis nula de la igualdad de las medias de las dos poblaciones a un nivel de significaci´on deα= 0.05.

(11)

normales independientes, varianzas de poblaciones iguales

I SeaX una poblaci´on con mediaµX y varianzaσ2

X, eY otra poblaci´on con mediaµY y varianzaσY2

I ambas distribuidas normalmente

I convarianzas poblacionales desconocidas, pero igualesσ2=σ2

X =σY2

I Muestras aleatorias den1observaciones deX yn2observaciones deY, independientes.

I Contraste bilateralH0: µX −µY =D0frente aH1: µX−µY 6=D0

I El estad´ıstico del contraste es

T = X¯−Y¯−D0 sp q 1 n1 + 1 n2 ∼H0tn1+n2−2

donde el estimador de la varianza com´un para las dos poblaciones es

sp2=

(n1−1)sX2 + (n2−1)sY2

n1+n2−2

Nota: grados de libertad =n1+n2−2 (n´umero de observaciones de las muestrasmenos dos- por tener que estimarµX yµY)

I La regi´on de rechazo (para un nivel de significaci´onα) es: RRα={t:t<−tn1+n2−2;α/2ot>tn1+n2−2;α/2}

(12)

Contrastes para la diferencia entre dos medias: muestras

normales independientes, varianzas de poblaciones iguales

Ejemplo:9.8 (Newbold) Se estudia el efecto que la presencia de un moderador puede tener en el n´umero de ideas generadas en un grupo de trabajo. Se observan grupos de cuatro personas, con y sin moderador. En una muestra aleatoria de cuatro grupos con moderador el n´umero promedio de ideas generadas por grupo fue 78.0, con cuasi desviaci´on t´ıpica muestral de 24.4. Para una muestra independiente de cuatro grupos sin moderador el promedio de ideas generadas fue 63.5, y su cuasi desviaci´on t´ıpica fue 20.2. Suponiendo que distribuciones normales con varianzas iguales, contraste la hip´otesis nula (paraα= 0.1) de igualdad de medias, frente a la alternativa de que la media de la poblaci´on es mayor para grupos con moderador.

Poblaci´on 1:

X = “n´umero de ideas en grupos con moderador” X ∼N(µX, σX2)

'

MAS:n1= 4 Muestra: ¯x= 78.0 sx = 24.4 Poblaci´on 2:

Y = “n´umero de ideas en grupos sin moderador”

X ∼N(µY, σ2Y)

'

MAS:n2= 4 Muestra: ¯y = 63.5

sy = 20.2

Suponemos muestras normales independientes y σX2 =σ 2 Y =σ

(13)

normales independientes, varianzas de poblaciones iguales

Ejemplo:9.8 (Newbold cont.)

Objetivo: contrastar H0 :µX−µY= D0 z}|{ 0 frente a H1 : µX−µY >0 (Test unilateral)

Estad´ıstico del contraste: T= X¯−Y¯ sp r 1 n1+ 1n2 ∼H 0tn1 +n2−2 Valor observado del estad´ıstico:

D0 = 0 n1 = 4n2 = 4 ¯ x= 78.0sx= 24.4 ¯y= 63.5sy= 20.2 s2p = (n1 −1)s2x+ (n2−1)sy2 n1 +n2−2 = (4−1)24.42 + (4−1)20.22 4 + 4−2 = 501.7 sp = √501.7 = 22.4 t = ¯x−y¯ spp 1/n1 + 1/n2 = 78.0 −63.5 22.4p 1/4 + 1/4= 0.915 Regi´on de rechazo: RR0.1 ={t:t> 1.440 z}|{ t6;0.1}

Comot= 0.915∈/RR0.1 , no podemos rechazar la hip´otesis nula a un nivel del 10%.

Conclusi´on: Los datos muestrales no contienen suficiente evidencia para pensar que en promedio se generan m´as ideas en grupos con moderador. Pero para tama˜nos muestrales tan peque˜nos el contraste tiene potencia baja y ser´ıan necesarias diferencias muy grandes entre las medias de las poblaciones para rechazar la hip´otesis nula.

(14)

Contrastes para la diferencia entre dos medias: muestras

normales independientes, varianzas de poblaciones iguales

Ejemplo:9.8 (Newbold cont.) Construya un intervalo de confianza al 99% paraµX −µY. IC0.99(µX −µY) = ¯ x−y¯∓tn1+n2−2;0.005sp r 1 n1 + 1 n2 = 78.0−63.5∓3.707·22.4 r 1 4+ 1 4 ! = (−44.22,73.22)

Comoel valor 0 pertenecea este intervalo, no podemos rechazar la hip´otesis nula de igualdad de las medias de las dos poblaciones a un nivel de significaci´onα= 0.01.

(15)

grandes independientes o dos poblaciones normales con

varianzas conocidas

I Sea X una poblaci´on con mediaµX y varianzaσX2, eY otra poblaci´on con mediaµY y varianzaσ2Y.

I Muestras aleatorias den1observaciones deX yn2 observaciones de

Y,independientes, y

I Bientanton1comon2son grandesyσ2X yσ 2

Y son desconocidas,

I OX eY siguen distribuciones normalesyσ2

X yσ2Y son conocidas

I Contraste bilateralH0: µX−µY =D0frente aH1: µX−µY 6=D0 I El estad´ıstico del contraste es:

I Bien Z= X¯r−Y¯ −D0 s2 X n1 + s2 Y n2 ∼H0,aprox.N(0,1) I O Z= ¯ X−Y¯−D0 r σ2 X n1 + σ2 Y n2 ∼H0N(0,1)

I La regi´on de rechazo (para un nivel de significaci´onα) es: RRα={z:z<−zα/2oz>zα/2}

(16)

Contrastes para la diferencia entre dos medias: muestras

grandes independientes o dos poblaciones normales con

varianzas conocidas

Ejemplo:9.7 (Newbold) Se realiza un estudio entre auditores sobre la actividad de las mujeres en su profesi´on. A los encuestados se les pide que den su opini´on con un valor entre uno (muy en desacuerdo) y cinco (muy de acuerdo) sobre la afirmaci´on “En auditor´ıa se asignan los mismos trabajos a las mujeres y a los hombres”. De una muestra de 186 auditores (varones) se obtuvo una respuesta promedio de 4.059 con una cuasi desviaci´on t´ıpica de 0.839. Para una muestra independiente de 172 mujeres auditoras la respuesta promedio fue de 3.680 con una cuasi desviaci´on t´ıpica de 0.966. Contraste la hip´otesis nula (para

α= 0.0001) de que las medias de las dos poblaciones son iguales, frente a la alternativa de que la media de la poblaci´on es mayor para auditores varones. Poblaci´on 1:

X= “respuesta de un auditor var´on” X∼ µX, σX2

'

MAS:n1= 186

Muestra: ¯x= 4.059

sx = 0.839

Poblaci´on 2:

Y = “respuesta de una mujer auditora” X ∼ µY, σ2Y

'

MAS:n2= 172

Muestra: ¯y = 3.680

(17)

grandes independientes o dos poblaciones normales con

varianzas conocidas

Ejemplo:9.7 (Newbold cont.)

Objetivo: contrastar H0 :µX−µY= D0 z}|{ 0 frente a H1 : µX−µY >0 (Contraste unilateral)

Estad´ıstico del contraste: Z=sX−¯ Y¯ s2X n1+ s2Y n2H 0,aprox.N(0,1)

Valor observado del estad´ıstico:

D0 = 0 n1 = 186n2 = 172 ¯ x= 4.059sx= 0.839 ¯y= 3.680sy= 0.966 z = q x¯−¯y s2 x/n1 +sy2/n2 = q 4.059−3.680 0.8392/186 + 0.9662/172 = 3.95 Regi´on de rechazo: RR0.0001 ={z:z> 3.75 z }| { z0.0001}

Comoz= 3.95∈RR0.0001 , rechazamos la hip´otesis nula a un nivel del 0.01%.

Conclusi´on: Los datos contienen una evidencia muy fuerte en favor de que la respuesta promedio entre los varones es mayor que entre las mujeres - esto es, en promedio los varones est´an mas convencidos que las mujeres de que se asignan los mismos trabajos a las mujeres que a los hombres.

(18)

Contrastes para la diferencia entre dos medias: muestras

grandes independientes o dos poblaciones normales con

varianzas conocidas

Ejemplo:9.7 (Newbold) Construya un intervalo de confianza al 95% paraµX −µY. IC0.95(µX −µY) =  ¯x−y¯∓z0.025 s s2 x n1 +s 2 y n2   = 4.059−3.680∓1.96p0.8392/186 + 0.9662/172 = (0.19,0.57)

Comoel valor 0 no pertenecea este intervalo, podemos rechazar la hip´otesis nula de igualdad de las dos medias poblacionales a un nivel de significaci´onα= 0.05.

(19)

muestras grandes independientes

I SeaX ∼Bernoulli(pX) y seaY ∼Bernoulli(pY), dondepX ypY son dos proporciones poblacionales para los individuos que cumplan una propiedad de inter´es.

I Muestras aleatorias den1observaciones deX yn2 observaciones de

Y,independientes, y

I tanton1comon2son grandes

I Contraste bilateralH0: pX−pY = 0 frente a H1: pX −pY 6= 0

I El estad´ıstico del contraste es:

Z = r pˆX−ˆpY ˆ p0(1−pˆ0)“1 n1 + 1 n2 ” ∼H0,aprox.N(0,1), donde ˆ p0= n1ˆpX+n2ˆpY n1+n2

I La regi´on de rechazo (para un nivel de significaci´onα) es: RRα={z:z<−zα/2orz>zα/2}

(20)

Contrastes para la diferencia entre dos proporciones:

muestras grandes independientes

Ejemplo:9.9 (Newbold) En Investigaci´on de Mercados, es importante conseguir un porcentaje de respuestas elevado para las encuestas. Para mejorar este porcentaje se puede incluir una pregunta inicial de motivaci´on que aumente el inter´es del encuestado por completarlo. Se han enviado cuestionarios con pregunta de motivaci´on sobre la mejora los espacios de ocio en una ciudad, a una muestra de 250 hogares, obteniendo 101 respuestas. Otros cuestionarios id´enticos sin pregunta de motivaci´on se han enviado a otra muestra independiente de 250 hogares, obteniendo 75 respuestas. Contraste la hip´otesis nula de que las dos proporciones poblacionales sean iguales, frente a la alternativa de que la tasa de respuestas sea m´as elevada cuando se incluye pregunta de motivaci´on.

Poblaci´on 1:

X= 1 si una persona completa el cuestionario con pregunta de motivaci´on, y 0 en caso contrario X∼Bernoulli(pX)

'

MAS:n1= 250

Muestra: ˆpx= 101250 = 0.404

Poblaci´on 2:

Y = 1 si una persona completa el cuestionario sin pregunta de motivaci´on, y 0 en caso contrario

Y ∼Bernoulli(pY)

'

MAS:n2= 250

(21)

muestras grandes independientes

Ejemplo:9.9 (Newbold cont.)

Objetivo: contrastar H0: pX =pY

frente a H1: pX>pY

(Contraste unilateral) Estad´ıstico del contraste: Z=s ˆpX−ˆpY ˆ p0 (1−ˆp0 ) „ 1 n1+ 1n2 «∼H0,aprox.N(0,1)

Valor observado del estad´ıstico: n1= 250 n2= 250 ˆ px= 0.404 pˆy= 0.300 ˆ p0 = n1ˆpx+n2ˆpy n1+n2 = 250(0.404) + (250)(0.300) 250 + 250 = 0.352 z = r pˆx−ˆpy ˆ p0(1−ˆp0) “ 1 n1+ 1 n2 ” = q 0.404−0.300 0.352(1−0.352)` 1 250+ 1 250 ´ = 2.43 p-valor =P(Z≥z) =P(Z≥2.43) = 0.0075 Como el p-value es muy peque˜no, podemos rechazar la hip´otesis nula a cualquier nivel de significaci´on mayor que 0.0075.

Conclusi´on: Los datos muestrales contienen una fuerte evidencia de que al incluir una pregunta de motivaci´on se obtiene una tasa de respuesta m´as elevada que cuando no se incluye.

(22)

Contrastes para la diferencia entre dos proporciones:

muestras grandes independientes

Ejemplo:9.9 (Newbold cont.) Construya un intervalo de confianza al 95% parapX −pY. IC0.95(pX −pY) = pˆx−pˆy∓z0.025 s ˆ p0(1−pˆ0) „ 1 n1 + 1 n2 «! = 0.404−0.300∓1.96 s 0.352(1−0.352) „ 1 250+ 1 250 «! = (0.1877,0.0203)

Comoel valor 0 no pertenecea este intervalo, podemos rechazar la hip´otesis nula de igualdad de las proporciones de las dos poblaciones para un nivel de significaci´onα= 0.05.

(23)

normales

I Sea X una poblaci´on con mediaµX y varianzaσX2, eY otra poblaci´on con mediaµY y varianzaσ2Y,

I ambas distribuidas normalmente

I Muestras aleatorias den1observaciones deX yn2 observaciones de

Y,independientes. I Contraste bilateralH0: σX2 =σ 2 Y (=σ 2) frente aH 1: σX2 6=σ 2 Y

I El estad´ıstico del contraste es

F= s 2 X s2 Y ∼H0Fn1−1,n2−1

I La regi´on de rechazo (para un nivel de significaci´onα) es: RRα={f :f <Fn1−1,n2−1;1−α/2of >Fn1−1,n2−1;α/2}

(24)

La distribuci´

on F

X1,X2, . . . ,Xn yY1,Y2,Y3, . . . ,Ym son dos conjuntos de variables aleatorias independientes, con distribuci´onN(0,1). La variable aleatoria (cociente de dos v.a.s chi-cuadrado normalizadas) F= 1 n 1 m Pn i=1X 2 i Pm i=1Yi2 sigue una distribuci´onFn,mconny

mgrados de libertad. Para el resultado de la transparencia anterior: s2 X s2 Y =H0 1 n1−1 χ2n1−1 z }| { (n1−1)sX2 σ2 1 n2−1 (n2−1)sY2 σ2 | {z } χ2n2−1 ∼Fn1−1,n2−1 DensidadesF 0 2 4 6 8 0.0 0.2 0.4 0.6 0.8 1.0 1.2 gl1=30 gl2=30 gl1=10 gl2=15 gl1=8 gl2=8 gl1=5 gl2=3

(25)

normales

Ejemplo:9.10 (Newbold) Para una muestra de 17 bonos industriales emitidos recientemente con calificaci´on AAA, la cuasi varianza de sus vencimientos (en a˜nos al cuadrado) fue de 123.35. Para otra muestra independiente de 11 bonos industriales emitidos con calificaci´on CCC, la cuasi varianza de sus vencimientos fue de 8.02. Si se denotan las correspondientes varianzas poblacionales comoσ2

X yσ 2

Y, lleve a cabo un contraste bilateral para compararlas al 5%.

Poblaci´on 1:

X vencimiento de bonos AAA (en a˜nos) X∼N(µX, σ2X)

'

MAS:n1= 17 Muestra: s2

x = 123.35

Poblaci´on 2:

Y vencimiento de bonos CCC (en a˜nos) Y ∼N(µY, σY2)

'

MAS:n2= 11 Muestra: s2

(26)

Contrastes para el cociente de varianzas: muestras

normales

Ejemplo:9.10 (Newbold cont.)

Objetivo: contrastar H0: σ2X =σ 2 Y frente a H1: σ2X 6=σ 2 Y (Contraste bilateral) Estad´ıstico del contraste:

F= sX2 s2 Y

∼H0Fn1−1,n2−1

Valor observado del estad´ıstico:

n1= 17 n2= 11 sx2= 123.35 s 2 y = 8.02 f = 123.35 8.02 = 15.38 Regi´on de rechazo: RR0.10 = {f :f < 0.402 z }| { F16,10;1−0.05} ∪ {f :f >F16,10;0.05 | {z } 2.83 } Nota: el cuantilF16,10;0.05= 2.83 aparece en la tabla de la F, pero no

F16,10;1−0.05. Para calcularlo podemos emplear la propiedad de esta distribuci´on Fn,m;α= Fm,n;1−α1 Obtenemos F16,10;1−0.05= 1 F10,16;0.05 = 1 2.49 = 0.402 Vemos quef = 15.38∈RR0.10.

Conclusi´on: Existe una fuerte evidencia de que las dos varianzas poblacionales son distintas.

(27)

intervalos de confianza

Ejemplo:9.10 (Newbold cont.) Construya un intervalo de confianza al 90% para el cociente de las varianzas.

IC0.90 σ2 X σ2 Y = s2 x s2 y 1 Fn1−1,n2−1;0.05 ,s 2 x s2 y 1 Fn1−1,n2−1;1−0.05 = 123.35 8.02 1 2.83, 123.35 8.02 1 0.402 = (5.43,38.26)

Como era de esperar por el resultado anterior,el valor 1 no pertenecea este intervalo, y podemos rechazar la hip´otesis nula de que las dos varianzas poblacionales sean iguales, para un nivel de significaci´on

(28)

Estad´ısticos pivotales

Par´ametro Hip´otesis Estad´ıstico del contraste Diferencias nor-males Muestras pareadas ¯ D−D0 sD/√n∼tn−1 Pobls. normales Varianzas iguales ¯ X−Y¯−D0 sp r 1 n1+ 1n2 ∼H0tn1 +n2−2 µX−µY =D0 Pobls. normales Vars. conocidas ¯ X−¯Y−D0 s σX2 n1+ σ2Y n2 ∼H0N(0,1) Pobls. no normales Vars. desconocidas Muestras grandes ¯ X−Y−D¯ 0 s s2 X n1+ s2 Y n2 ∼H0aproxN(0,1) pX−pY = 0 Pobls. Bernoulli Muestras grandes ˆ pX−ˆpY s ˆ p0 (1−ˆp0 ) „ 1 n1+ 1n2 «∼H0aproxN(0,1) σ2 X/σY2 = 1 Pobls. normales sX2 s2Y ∼H0Fn1−1,n2−1

Referencias

Documento similar