Tema 3. Comparaciones de dos poblaciones

(1)

Contenidos

I Hip´otesis para la diferencia entre las medias de dos poblaciones: muestras pareadas

I Hip´otesis para la diferencia entre las medias de dos poblaciones: muestras independientes

I Dos poblaciones normales con varianzas iguales (y desconocidas)

I Dos poblaciones normales con varianzas conocidas

I Dos poblaciones no normales y muestras grandes

I Dos poblaciones Bernoulli

I Hip´otesis para la raz´on de las varianzas de dos poblaciones: muestras independientes

(2)

Tema 3. Comparaciones de dos poblaciones

Objetivos de aprendizaje

Al finalizar este tema, debieras ser capaz de:

I Llevar a cabo un contraste de hip´otesis para la diferencia de las medias y para el cociente de las varianzas de dos poblaciones

I Construir intervalos de confianza para la diferencia o el cociente

I Diferenciar las situaciones en las que un contraste basado en muestras pareadas es adecuado, de aquellas en las que se debe aplicar un contraste basado en muestras independientes

I Calcular la potencia de un contraste y la probabilidad de un error de Tipo II

(3)

Referencias

I Newbold, P. “Estad´ıstica para administraci´on y econom´ıa”

I Cap´ıtulo 9 (9.6-9.9)

I Ross, S. “Introducci´on a la Estad´ıstica”

(4)

Introducci´

on

En este tema estudiamos el caso en el que en lugar de disponer deuna

muestra aleatoria, tenemosdosmuestras aleatorias de dos poblaciones, y estamos interesados en contrastar:

I la diferencia entre las medias de las dos poblaciones

I en el caso de muestras pareadas

I y en el caso de muestras independientes

I el cociente entre las varianzas de las dos poblaciones

I en el caso de muestras independientes

Emplearemos los procedimientos introducidos en los Temas 1 y 2 para construir intervalos de confianza y realizar contrastes de hip´otesis para las diferencias o cocientes de los par´ametros de las poblaciones indicados.

(5)

pareadas

Ejemplo:Se ha llevado a cabo un estudio sobre la relación entre la actividad cerebral mientras se ven anuncios en televisión y la capacidad de la persona para recordar dichos anuncios. Se han mostrado anuncios de dos marcas para diez productos a las personas en la muestra. Para cada anuncio se ha medido la capacidad de cada persona para recordarlo pasadas 24 h., y a cada anuncio de un producto se le han asignado las etiquetas “recuerdo fuerte” o “recuerdo débil”. La siguiente tabla muestra un ´ındice de la actividad cerebral de las personas que han visto estos anuncios en el estudio.

producto: i 1 2 3 4 5 6 7 8 9 10

recuerdo fuerte: xi 137 135 83 125 47 46 114 157 57 144

recuerdo d´ebil: yi 53 114 81 86 34 66 89 113 88 111

(6)

Contrastes para la diferencia entre dos medias: muestras

pareadas

I Sea X una poblaci´on con mediaµX eY otra poblaci´on con media

µY.

I Disponemos de una muestra aleatoria denobservaciones pareadas de ambas poblaciones,{(Xi,Yi)}. Denotaremos como

d1=x1−y1,d2=x2−y2, . . . ,dn=xn−yn

las ndiferencias de valores con media ¯d y cuasi desviaci´on t´ıpicasd.

I Supondremos que lapoblaci´on de las diferencias sigue una distribuci´on normal.

I Contraste bilateralH0: µX−µY =D0frente aH1: µX−µY 6=D0 I El estad´ıstico del contraste es

T = D¯−D0

sD/√n ∼H0 tn−1

I La regi´on de rechazo (a un nivel de significaci´onα) es: RRα={t:t<−tn−1;α/2ot>tn−1;α/2}

(7)

pareadas

Ejemplo:cont.

Poblaci´on:

D= “diferencia entre recuerdo fuerte y d´ebil” D∼N(µX −µY, σD2)

'

MAS: n= 10 Muestra: ¯d =210₁₀ = 21 s_d2= 142022₁₀−₋10(21)₁ 2 = 1088 Objetivo: contrastar H0: µX −µY ≤ D0 z}|{ 0 frente aH1: µX −µY >0 (Contraste unilateral)

Estad´ıstico del contraste: T = ¯ D−D0 sD/ √ n ∼tn−1 Valor observado del estad´ıstico: D0= 0 n= 10 ¯ d = 21 sd= √ 1088 = 32.98 t = ¯ d−D0 sd/ √ n = 21 32.98/√10 = 2.014

(8)

Contrastes para la diferencia entre dos medias: muestras

pareadas

Ejemplo:cont. p-valor =P(T ≥2.014) ∈(0.025,0.05)ya que t9;0.05 z }| { 1.833<2.014< t9;0.025 z }| { 2.262 Por tanto, como p-valor< α= 0.05, rechazamos la hip´otesis nula a este nivel. Densidadtn−1

| |

t= 2.014 p−valor =area 1.833 2.262

Conclusión: La evidencia muestral apoya que en promedio la actividad cerebral es mayor para el grupo con recuerdo fuerte que para el grupo con recuerdo débil. Si la actividad cerebral promedio fuese igual para ambos grupos, la probabilidad de obtener muestras tan extremas o más que la observada estar´ıa entre 0.025 y 0.05 (un valor bajo).

(9)

pareadas

Ejemplo:cont. En Excel: Ir al menu “Datos”, submenu “An´alisis de datos”, seleccionar la opci´on: “Prueba t para medias de dos muestras emparejadas”

Columnas A y B (datos),en amarillo se muestran el valor observado del estad´ıstico y el p-valor.

(10)

Contraste bilateral para la diferencia entre dos medias via

IC: muestras pareadas

Ejemplo:cont. Construir un intervalo de confianza al 95% paraµX−µY. IC0.95(µX −µY) = ¯ d−tn−1;0.025 sd √ n, ¯ d+tn−1;0.025 sd √ n = 21−2.26232√.98 10,21 + 2.262 32.98 √ 10 = (−2.59,44.59)

Comoel valor 0 pertenecea este intervalo, no podemos rechazar la hip´otesis nula de la igualdad de las medias de las dos poblaciones a un nivel de significaci´on deα= 0.05.

(11)

normales independientes, varianzas de poblaciones iguales

I SeaX una poblaci´on con mediaµX y varianzaσ2

X, eY otra poblaci´on con mediaµY y varianzaσY2

I ambas distribuidas normalmente

I convarianzas poblacionales desconocidas, pero igualesσ2₌_σ2

X =σY2

I Muestras aleatorias den1observaciones deX yn2observaciones deY, independientes.

I Contraste bilateralH0: µX −µY =D0frente aH1: µX−µY 6=D0

I El estad´ıstico del contraste es

T = X¯−Y¯−D0 sp q 1 n1 + 1 n2 ∼H0tn1+n2−2

donde el estimador de la varianza com´un para las dos poblaciones es

sp2=

(n1−1)sX2 + (n2−1)sY2

n1+n2−2

Nota: grados de libertad =n1+n2−2 (n´umero de observaciones de las muestrasmenos dos- por tener que estimarµX yµY)

I La regi´on de rechazo (para un nivel de significaci´onα) es: RRα={t:t<−tn1+n2−2;α/2ot>tn1+n2−2;α/2}

(12)

Contrastes para la diferencia entre dos medias: muestras

normales independientes, varianzas de poblaciones iguales

Ejemplo:9.8 (Newbold) Se estudia el efecto que la presencia de un moderador puede tener en el número de ideas generadas en un grupo de trabajo. Se observan grupos de cuatro personas, con y sin moderador. En una muestra aleatoria de cuatro grupos con moderador el número promedio de ideas generadas por grupo fue 78.0, con cuasi desviación t´ıpica muestral de 24.4. Para una muestra independiente de cuatro grupos sin moderador el promedio de ideas generadas fue 63.5, y su cuasi desviación t´ıpica fue 20.2. Suponiendo que distribuciones normales con varianzas iguales, contraste la hipótesis nula (paraα= 0.1) de igualdad de medias, frente a la alternativa de que la media de la población es mayor para grupos con moderador.

Poblaci´on 1:

X = “n´umero de ideas en grupos con moderador” X ∼N(µX, σX2)

'

MAS:n1= 4 Muestra: ¯x= 78.0 sx = 24.4 Poblaci´on 2:

Y = “n´umero de ideas en grupos sin moderador”

X ∼N(µY, σ2Y)

'

MAS:n2= 4 Muestra: ¯y = 63.5

sy = 20.2

Suponemos muestras normales independientes y σX2 =σ 2 Y =σ

(13)

normales independientes, varianzas de poblaciones iguales

Ejemplo:9.8 (Newbold cont.)

Objetivo: contrastar H_{0 :}µ_X−µ_Y= D0 z}|{ 0 frente a H_{1 :} µ_X−µ_Y >0 (Test unilateral)

Estad´ıstico del contraste: T= X¯−Y¯ sp r 1 n1+ 1n2 ∼_H 0tn1 +n2−2 Valor observado del estad´ıstico:

D_{0 = 0} n_{1 = 4}n_{2 = 4} ¯ x= 78.0sx= 24.4 ¯y= 63.5sy= 20.2 s2_p = (n1 −1)s2_x+ (n2−1)s_y2 n1 +n2−2 = (4−1)24.42 + (4−1)20.22 4 + 4−2 = 501.7 sp = √501.7 = 22.4 t = ¯x−y¯ spp 1/n1 + 1/n2 = 78.0 −63.5 22.4p 1/4 + 1/4= 0.915 Regi´on de rechazo: RR0.1 ={t:t> 1.440 z}|{ t6;0.1}

Comot= 0.915∈/RR0.1 , no podemos rechazar la hip´otesis nula a un nivel del 10%.

Conclusión: Los datos muestrales no contienen suficiente evidencia para pensar que en promedio se generan más ideas en grupos con moderador. Pero para tamaños muestrales tan pequeños el contraste tiene potencia baja y ser´ıan necesarias diferencias muy grandes entre las medias de las poblaciones para rechazar la hipótesis nula.

(14)

Contrastes para la diferencia entre dos medias: muestras

normales independientes, varianzas de poblaciones iguales

Ejemplo:9.8 (Newbold cont.) Construya un intervalo de confianza al 99% paraµX −µY. IC0.99(µX −µY) = ¯ x−y¯∓tn1+n2−2;0.005sp r 1 n1 + 1 n2 = 78.0−63.5∓3.707·22.4 r 1 4+ 1 4 ! = (−44.22,73.22)

Comoel valor 0 pertenecea este intervalo, no podemos rechazar la hip´otesis nula de igualdad de las medias de las dos poblaciones a un nivel de significaci´onα= 0.01.

(15)

grandes independientes o dos poblaciones normales con

varianzas conocidas

I Sea X una poblaci´on con mediaµX y varianzaσX2, eY otra poblaci´on con mediaµY y varianzaσ2Y.

I Muestras aleatorias den1observaciones deX yn2 observaciones de

Y,independientes, y

I Bientanton1comon2son grandesyσ2X yσ 2

Y son desconocidas,

I OX eY siguen distribuciones normalesyσ2

X yσ2Y son conocidas

I Contraste bilateralH0: µX−µY =D0frente aH1: µX−µY 6=D0 I El estad´ıstico del contraste es:

I Bien Z= X¯r−Y¯ −D0 s2 X n1 + s2 Y n2 ∼H₀,aprox.N(0,1) I O Z= ¯ X−Y¯−D0 r σ2 X n1 + σ2 Y n2 ∼H0N(0,1)

I La regi´on de rechazo (para un nivel de significaci´onα) es: RRα={z:z<−zα/2oz>zα/2}

(16)

Contrastes para la diferencia entre dos medias: muestras

grandes independientes o dos poblaciones normales con

varianzas conocidas

Ejemplo:9.7 (Newbold) Se realiza un estudio entre auditores sobre la actividad de las mujeres en su profesión. A los encuestados se les pide que den su opinión con un valor entre uno (muy en desacuerdo) y cinco (muy de acuerdo) sobre la afirmación “En auditor´ıa se asignan los mismos trabajos a las mujeres y a los hombres”. De una muestra de 186 auditores (varones) se obtuvo una respuesta promedio de 4.059 con una cuasi desviación t´ıpica de 0.839. Para una muestra independiente de 172 mujeres auditoras la respuesta promedio fue de 3.680 con una cuasi desviación t´ıpica de 0.966. Contraste la hipótesis nula (para

α= 0.0001) de que las medias de las dos poblaciones son iguales, frente a la alternativa de que la media de la poblaci´on es mayor para auditores varones. Poblaci´on 1:

X= “respuesta de un auditor var´on” X∼ µX, σX2

'

MAS:n1= 186

Muestra: ¯x= 4.059

sx = 0.839

Poblaci´on 2:

Y = “respuesta de una mujer auditora” X ∼ µY, σ2Y

'

MAS:n2= 172

Muestra: ¯y = 3.680

(17)

grandes independientes o dos poblaciones normales con

varianzas conocidas

Objetivo: contrastar H_{0 :}µ_X−µ_Y= D₀ z}|{ 0 frente a H1 : µX−µY >0 (Contraste unilateral)

Estad´ıstico del contraste: Z=sX−¯ Y¯ s2_X n₁+ s2_Y n₂ ∼_H 0,aprox.N(0,1)

Valor observado del estad´ıstico:

D0 = 0 n1 = 186n2 = 172 ¯ x= 4.059sx= 0.839 ¯y= 3.680sy= 0.966 z = q x¯−¯y s2 x/n1 +sy2/n2 = q 4.059−3.680 0.8392/186 + 0.9662/172 = 3.95 Regi´on de rechazo: RR0.0001 ={z:z> 3.75 z }| { z0.0001}

Comoz= 3.95∈_{RR0.0001 , rechazamos la hip´}otesis nula a un nivel del 0.01%.

Conclusi´on: Los datos contienen una evidencia muy fuerte en favor de que la respuesta promedio entre los varones es mayor que entre las mujeres - esto es, en promedio los varones est´an mas convencidos que las mujeres de que se asignan los mismos trabajos a las mujeres que a los hombres.

(18)

Contrastes para la diferencia entre dos medias: muestras

grandes independientes o dos poblaciones normales con

varianzas conocidas

Ejemplo:9.7 (Newbold) Construya un intervalo de confianza al 95% paraµX −µY. IC0.95(µX −µY) =  ¯x−y¯∓z0.025 s s2 x n1 +s 2 y n2   = 4.059−3.680∓1.96p0.8392_/_{186 + 0}_.₉₆₆2_/₁₇₂ = (0.19,0.57)

Comoel valor 0 no pertenecea este intervalo, podemos rechazar la hip´otesis nula de igualdad de las dos medias poblacionales a un nivel de significaci´onα= 0.05.

(19)

muestras grandes independientes

I SeaX ∼Bernoulli(pX) y seaY ∼Bernoulli(pY), dondepX ypY son dos proporciones poblacionales para los individuos que cumplan una propiedad de inter´es.

Y,independientes, y

I tanton1comon2son grandes

I Contraste bilateralH0: pX−pY = 0 frente a H1: pX −pY 6= 0

I El estad´ıstico del contraste es:

Z = r pˆX−ˆpY ˆ p0(1−pˆ0)“1 n1 + 1 n2 ” ∼H0,aprox.N(0,1), donde ˆ p0= n1ˆpX+n2ˆpY n1+n2

I La regi´on de rechazo (para un nivel de significaci´onα) es: RRα={z:z<−zα/2orz>zα/2}

(20)

Contrastes para la diferencia entre dos proporciones:

muestras grandes independientes

Ejemplo:9.9 (Newbold) En Investigación de Mercados, es importante conseguir un porcentaje de respuestas elevado para las encuestas. Para mejorar este porcentaje se puede incluir una pregunta inicial de motivación que aumente el interés del encuestado por completarlo. Se han enviado cuestionarios con pregunta de motivación sobre la mejora los espacios de ocio en una ciudad, a una muestra de 250 hogares, obteniendo 101 respuestas. Otros cuestionarios idénticos sin pregunta de motivación se han enviado a otra muestra independiente de 250 hogares, obteniendo 75 respuestas. Contraste la hipótesis nula de que las dos proporciones poblacionales sean iguales, frente a la alternativa de que la tasa de respuestas sea más elevada cuando se incluye pregunta de motivación.

Poblaci´on 1:

X= 1 si una persona completa el cuestionario con pregunta de motivaci´on, y 0 en caso contrario X∼Bernoulli(pX)

'

MAS:n1= 250

Muestra: ˆpx= 101₂₅₀ = 0.404

Poblaci´on 2:

Y = 1 si una persona completa el cuestionario sin pregunta de motivaci´on, y 0 en caso contrario

Y ∼Bernoulli(pY)

'

MAS:n2= 250

(21)

muestras grandes independientes

Objetivo: contrastar H0: pX =pY

frente a H1: pX>pY

(Contraste unilateral) Estad´ıstico del contraste: Z=s ˆpX−ˆpY ˆ p0 (1−ˆp0 ) „ 1 n1+ 1n2 «∼H0,aprox.N(0,1)

Valor observado del estad´ıstico: n1= 250 n2= 250 ˆ px= 0.404 pˆy= 0.300 ˆ p0 = n1ˆpx+n2ˆpy n1+n2 = 250(0.404) + (250)(0.300) 250 + 250 = 0.352 z = _r pˆx−ˆpy ˆ p0(1−ˆp0) “ 1 n1+ 1 n2 ” = _q 0.404−0.300 0.352(1−0.352)` 1 250+ 1 250 ´ = 2.43 p-valor =P(Z≥z) =P(Z≥2.43) = 0.0075 Como el p-value es muy pequeño, podemos rechazar la hipótesis nula a cualquier nivel de significación mayor que 0.0075.

Conclusión: Los datos muestrales contienen una fuerte evidencia de que al incluir una pregunta de motivación se obtiene una tasa de respuesta más elevada que cuando no se incluye.

(22)

Contrastes para la diferencia entre dos proporciones:

muestras grandes independientes

Ejemplo:9.9 (Newbold cont.) Construya un intervalo de confianza al 95% parapX −pY. IC0.95(pX −pY) = pˆx−pˆy∓z0.025 s ˆ p0(1−pˆ0) „ 1 n1 + 1 n2 «! = 0.404−0.300∓1.96 s 0.352(1−0.352) „ 1 250+ 1 250 «! = (0.1877,0.0203)

Comoel valor 0 no pertenecea este intervalo, podemos rechazar la hip´otesis nula de igualdad de las proporciones de las dos poblaciones para un nivel de significaci´onα= 0.05.

(23)

normales

I Sea X una poblaci´on con mediaµX y varianzaσX2, eY otra poblaci´on con mediaµY y varianzaσ2Y,

I ambas distribuidas normalmente

Y,independientes. I Contraste bilateralH0: σX2 =σ 2 Y (=σ 2_{) frente a}_H 1: σX2 6=σ 2 Y

I El estad´ıstico del contraste es

F= s 2 X s2 Y ∼H0Fn1−1,n2−1

I La regi´on de rechazo (para un nivel de significaci´onα) es: RRα={f :f <Fn1−1,n2−1;1−α/2of >Fn1−1,n2−1;α/2}

(24)

La distribuci´

on F

X1,X2, . . . ,Xn yY1,Y2,Y3, . . . ,Ym son dos conjuntos de variables aleatorias independientes, con distribuci´onN(0,1). La variable aleatoria (cociente de dos v.a.s chi-cuadrado normalizadas) F= 1 n 1 m Pn i=1X 2 i Pm i=1Yi2 sigue una distribuci´onFn,mconny

mgrados de libertad. Para el resultado de la transparencia anterior: s2 X s2 Y =H₀ 1 n1−1 χ2n1−1 z }| { (n1−1)sX2 σ2 1 n2−1 (n2−1)sY2 σ2 | {z } χ2n2−1 ∼Fn1−1,n2−1 DensidadesF 0 2 4 6 8 0.0 0.2 0.4 0.6 0.8 1.0 1.2 gl1=30 gl2=30 gl1=10 gl2=15 gl1=8 gl2=8 gl1=5 gl2=3

(25)

normales

Ejemplo:9.10 (Newbold) Para una muestra de 17 bonos industriales emitidos recientemente con calificación AAA, la cuasi varianza de sus vencimientos (en años al cuadrado) fue de 123.35. Para otra muestra independiente de 11 bonos industriales emitidos con calificación CCC, la cuasi varianza de sus vencimientos fue de 8.02. Si se denotan las correspondientes varianzas poblacionales comoσ2

X yσ 2

Y, lleve a cabo un contraste bilateral para compararlas al 5%.

Poblaci´on 1:

X vencimiento de bonos AAA (en a˜nos) X∼N(µX, σ2X)

'

MAS:n1= 17 Muestra: s2

x = 123.35

Poblaci´on 2:

Y vencimiento de bonos CCC (en a˜nos) Y ∼N(µY, σY2)

'

MAS:n2= 11 Muestra: s2

(26)

Contrastes para el cociente de varianzas: muestras

normales

Objetivo: contrastar H0: σ2X =σ 2 Y frente a H1: σ2X 6=σ 2 Y (Contraste bilateral) Estad´ıstico del contraste:

F= sX2 s2 Y

∼H0Fn1−1,n2−1

Valor observado del estad´ıstico:

n1= 17 n2= 11 sx2= 123.35 s 2 y = 8.02 f = 123.35 8.02 = 15.38 Regi´on de rechazo: RR0.10 = {f :f < 0.402 z }| { F16,10;1−0.05} ∪ {f :f >F16,10;0.05 | {z } 2.83 } Nota: el cuantilF16,10;0.05= 2.83 aparece en la tabla de la F, pero no

F16,10;1−0.05. Para calcularlo podemos emplear la propiedad de esta distribuci´on Fn,m;α= _F_m,n;1−α1 Obtenemos F16,10;1−0.05= 1 F10,16;0.05 = 1 2.49 = 0.402 Vemos quef = 15.38∈RR0.10.

Conclusi´on: Existe una fuerte evidencia de que las dos varianzas poblacionales son distintas.

(27)

intervalos de confianza

Ejemplo:9.10 (Newbold cont.) Construya un intervalo de confianza al 90% para el cociente de las varianzas.

IC0.90 _σ2 X σ2 Y = _s2 x s2 y 1 Fn1−1,n2−1;0.05 ,s 2 x s2 y 1 Fn1−1,n2−1;1−0.05 = ₁₂₃_.₃₅ 8.02 1 2.83, 123.35 8.02 1 0.402 = (5.43,38.26)

Como era de esperar por el resultado anterior,el valor 1 no pertenecea este intervalo, y podemos rechazar la hip´otesis nula de que las dos varianzas poblacionales sean iguales, para un nivel de significaci´on

(28)

Estad´ısticos pivotales

Par´ametro Hip´otesis Estad´ıstico del contraste Diferencias nor-males Muestras pareadas ¯ D−D₀ sD/√n∼tn−1 Pobls. normales Varianzas iguales ¯ X−Y¯−D0 sp r 1 n₁+ 1n₂ ∼H₀tn1 +n2−2 µX−µY =D0 Pobls. normales Vars. conocidas ¯ X−¯Y−D₀ s σ_X2 n₁+ σ2_Y n₂ ∼H0N(0,1) Pobls. no normales Vars. desconocidas Muestras grandes ¯ X−Y−D¯ ₀ s s2 X n1+ s2 Y n2 ∼H0aproxN(0,1) pX−pY = 0 Pobls. Bernoulli Muestras grandes ˆ pX−ˆpY s ˆ p_{0 (1}−ˆp_{0 )} „ 1 n₁+ 1n₂ «∼H0aproxN(0,1) σ2 X/σY2 = 1 Pobls. normales s_X2 s2_Y ∼H0Fn1−1,n2−1