Pruebas Hipotesis

(1)

DEPARTAMENTO DE ESTADÍSTICA Y MATEMÁTICAS UNIDAD 3

PRUEBAS DE HIPÓTESIS 2.2. Dos muestras: Pruebas para diferencia de medias

Se dispone de una muestra aleatoria de tamaño n de una población normal X que tiene media _X y varianza _X2 ; también se dispone de una muestra aleatoria de tamaño m de una población normal Y que tiene media _Y y varianza _Y2. Queremos comparar las medias poblacionales. Para ello vamos a realizar las siguientes pruebas

  0 0 0 0 0 0 0 0 0 : : : 1) 2) 3) : : : X Y X Y X Y a X Y a X Y a X Y H D H D H D vs vs vs H D H D H D                        _ _        _ _  _ _  _ _  __ _ 

La estadística de prueba es XY . Aceptamos H0 cuando la diferencia entre el valor

observado de la estadística de prueba en la muestra no sea “muy diferente” del valor propuesto D para ₀ _X _Y. Para buscar diferencias significativas entre estas cantidades utilizamos la distribución de XY para ello es necesario saber la manera en que se tomaron las muestras; es decir, es necesario saber si las muestras son dependientes o independientes; también se requiere conocer como son las distribuciones poblacionales, saber si las varianzas son o no conocidas y los tamaños muestrales.

2.2.1. Contrastes basados en muestras independientes:

Supongamos que se tienen muestra aleatorias independientes de tamaños n y m de dos poblaciones X e Y que son normales con medias _X y _Y y varianzas de una muestra _X2 y



_Y2 conocidas. En este caso, la distribución de la estadística de prueba es:

0 2 2 ~ (0,1) X Y X Y D Z N n m      

Esta estadística la utilizaremos para buscar diferencias significativas entre XY y D0. Con

base en esta estadística se tiene que las regiones críticas de tamaño α y los valores p para los tres contrastes anteriores son las siguientes:

(2)

Prueba bilateral. 0 0 0 : : X Y a X Y H D vs H D           _ _ 

En este caso parece razonable rechazar H0 cuando el valor observado paraX Y en la

muestra sea suficientemente diferente del valor propuesto D para ₀ X Y. Entonces, valores grandes de la estadística Z en cualquier dirección nos conducen a rechazar H0; por

esta razón,

R C

. .





z z

/



z

 2

o

z

 

z

2



Entonces, rechazamos H0 a favor de Ha y concluimos que _X _Y D₀ cuando

0 2 2 ( ) . . c X Y x y D z R C n m



    

El valor p para la prueba es:





2

_c

p valor





P Z



z

Prueba unilateral derecha.

0 0 0 : : X Y a X Y H D vs H D       _ _    _ _ 

En este caso parece razonable rechazar H0 cuando el valor observado para XY en la

muestra sea suficientemente mayor que el valor propuesto D para ₀



X





Y; por lo tanto,

valores extremos en la cola derecha de la estadística Z nos conducen a rechazar H0. Por esta

razón, la región crítica de tamaño



y el valor p son:





. .

/

R C



z z



z

_

Entonces, rechazamos H0 a favor de Ha y concluimos que _X _Y D₀ cuando

0 2 2 ( ) . . c X Y x y D z R C n m



    

(3)

El valor p es:



c



p valor





P Z



z

Prueba unilateral izquierda.

0 0 0 : : X Y a X Y H D vs H D           _ _ 

En este caso parece razonable rechazar H0 cuando el valor observado para X Y en la

muestra sea suficientemente menor que el valor propuesto D para ₀



X





Y; por esta

razón, la región crítica y el valor p para un nivel de significancia



preestablecido para esta prueba son:

R C

. .





z z

/

 

z





Entonces, rechazamos H0 a favor de Ha y concluimos que _X _Y D₀ cuando

0 2 2 ( ) . . c X Y x y D z R C n m



     El valor p es:



c



p valor





P Z



z

Observaciones:

a) Los contrastes anteriores siguen siendo válidos aun cuando las poblaciones no sean normales, siempre que los tamaños muestrales son grandes.

b) Los contrastes anteriores siguen siendo válidos aun cuando las varianzas poblacionales sean desconocidas, en este caso las reemplazamos por las varianzas muestrales S y _X2

2 Y

S , pero se requiere que los tamaños muestrales sean grandes. En este caso, la

estadística de prueba es 0 2 2 ~ (0,1) X Y X Y D Z N S S n m    

Además, el valor calculado de la estadística es: 0 2 2 ( ) c X Y x y D z s s n m    

(4)

Ejemplo 4. Se cree que el promedio verbal para el número de respuestas correctas para la prueba SAT para los hombres es mayor que el de las mujeres por más de 10 puntos. Las muestras aleatorias para ambos sexos arrojaron los siguientes resultados:

Hombres Mujeres

Tamaño muestral = 125 100 Media muestral = 480 460 Desviación estándar muestral = 60 52 Asuma normalidad.

a) Utilizar un nivel de significancia del 5% para determinar si se encuentra apoyada la creencia por la evidencia muestral. ¿Cuál es el p – valor?

b) Suponga que la verdadera diferencia es de –11 puntos. ¿Cuál es la potencia de la prueba anterior?

Solución:

Sea X = Calificación en la prueba verbal SAT para los hombres esta variable tiene una media poblacional _X y una varianza



_X2 desconocida. De una muestra aleatoria de tamaño n = 125 se obtiene X 480, S_X 60

De una muestra aleatoria de tamaño m = 100 de Y que representa la calificación en la prueba verbal SAT para los mujeres. Esta variable tiene una media poblacional _Y y una varianza _Y2 desconocida. De de la muestra se obtiene Y 460, S_Y 52

Se cree que el promedio para los hombres está por encima del de las mujeres por más de 10 puntos. Lo anterior lo podemos indicar como _X _Y 10, pues la cantidad _X _Y nos indica en qué cantidad la media poblacional de X está por encima de la de Y. Entonces a) Utilizar un nivel de significancia del 5% para probar la creencia; para ello, debemos

realizar la siguiente prueba de hipótesis:

0: 10 : 10 X Y a X Y H vs H           _ _ 

Esta es una prueba unilateral derecha para la diferencia de medias poblacionales de dos poblaciones independientes con varianzas poblacionales desconocidas y tamaños muestrales grandes, entonces la estadística de prueba para el contraste es

0 2 2 ~ (0,1) X Y X Y D Z N S S n m    

(5)

La región crítica es



0.05



. .

/

1.645 R C



z z



z

_



z



Usando la información muestral se obtiene que el valor calculado de la estadística de prueba es: 2 2 480 460 ( 10) 1.34 60 52 125 100 c z      

Como z_c 1.34R C. . entonces no es posible rechazar H0 y esto nos permite inferir que

posible que los hombres superen a las mujeres en esa prueba pero no lo hacen por más de 10 puntos.

El valor p para la prueba es:



1.34 

0.0901

0.05 p valor





P Z





 



Entonces rechazamos H0.

b) Si la verdadera diferencia es _X_Y  11 10, entonces la hipótesis nula es falsa y para este valor la potencia de la prueba es:







0



0 Rechazar / es falsa 1.645 / 11 c X Y Potencia P H H P Z       

Para encontrar esta probabilidad hay que tener en cuenta

2 2 10 c X Y X Y Z S S n m     Entonces, 2 2 10 1.645 / _X _Y 11 X Y X Y Potencia P S S n m      _{ }              

Como la verdadera media no es 10 sino que es 11, entonces la estadística anterior está mal estandarizada. Para corregir este problema restamos 1 en el numerador de la parte izquierda de la expresión anterior y esta misma cantidad se resta al lado derecho, y así se obtiene que

(6)

2 2 2 2 2 2 10 1 1 1.645 1 1.645 1.51 0.0655 60 52 125 100 X Y X Y X Y Potencia P S S S S n m n m P Z    _{ } _                                

Ejemplo 4.1. Un fabricante afirma que la tensión de ruptura promedio del hilo A excede a las hilo B en al menos 12 kilogramos. Para probar esta afirmación se pusieron a prueba 50 hilos de cada tipo bajo condiciones controladas. El hilo tipo A tuvo una tensión promedio de 86.7 kilogramos con una desviación estándar de 6.28; mientras que el hilo tipo B tuvo una tensión promedio de 77.8 kilogramos con una desviación estándar de 5.61. Utilice un nivel de significancia del 5% para probar la afirmación del fabricante. Encuentre el valor p de la prueba.

Solución:

Sea X = La tensión de ruptura del hilo tipo A y _X es la tensión de ruptura promedio de hilo.

Sea Y = La tensión de ruptura del hilo tipo B y _Y es la tensión de ruptura promedio de hilo.

En la muestra aleatoria de tamaño n = 50 de X se obtiene x86.7 y S_X 6.28 y en la muestra de tamaño m = 50 de Y se obtiene y 77.8 y S_Y 5.61

El fabricante afirma que la resistencia promedio del hilo tipo A excede a la del hilo tipo B en al menos 12 kilogramos y esto quiere decir que _X _Y 12, entonces debemos probar a un nivel de significancia  0.05 lo siguiente:

0: 12 : 12 X Y a X Y H vs H           _ _ 

Esta es una prueba unilateral izquierda para la diferencia entre dos medias poblacionales de poblaciones independientes con varianzas poblaciones desconocidas y tamaños muestrales grandes; por lo tanto, la estadística de prueba es:

0 2 2 ~ (0,1) X Y X Y D Z N S S n m    

(7)

Entonces, la región critica de para es



0.05



. .

/

1.645 R C



z z

 

z

 

Para tomar la decisión buscamos

2 2 2 2 12 86.7 77.8 12 2.6031 6.28 5.61 50 50 c X Y x y z S S n m          

Como z_c  2.6031R C. ., entonces rechazamos H0 y concluimos que la afirmación de

fabricante no es cierta.

Ahora bien, el valor p para esta prueba es:

( _c 2.6031) 0.0046 0.05

p valor P Zz      Entonces, rechazamos H0.

El caso de varianzas poblacionales desconocidas pero iguales:

Un caso de particular interés es en el que las varianzas poblacionales son desconocidas, pero podemos suponer que son iguales. En este caso, la estadística de prueba es:

0 ( 2)

~

1

n m p

X

Y

D

t

S

n

m

 

 





Donde, 2 2

(

1)

(

1)

2

x Y p

n

S

m

S

n m









 

Entonces, las regiones críticas y los valores p para los contrastes alternativos son las siguientes:

Prueba bilateral:



( 2, 2) ( 2, 2)





2



. .

/

_{n m}

o

_{n m}

2

_{n m} _c

R C



t t



t

_ _{ }

t

 

t

_ _{ }

 

p valor



P t

_{ }



t



( , 2)





2



. .

/

_{n m}

_{n m} _c

R C



t t



t

_ _{ }

 

p valor



P t

_{ }



t

(8)



( , 2)





2



. .

/

_{n m}

_{n m} _c

R C



t t

 

t

_{  }

 

p valor



P t

_{ }



t

En cualquiera de los tres casos anteriores se rechaza H0 cuando

t

c



R C

. .

donde

0

1

c p

x

y

D

t

S

n

m

 





Ejemplo 5. A finales de la década de los setenta se descubrió que la sustancia carcionogénica NDMA se formaba durante el proceso de secado de la malta verde, la cual se empleaba para fabricar cerveza. A principios de los ochenta se desarrolló un nuevo proceso para el secado de la malta, el cual minimizaba la formación de NDMA. Se tomaron muestras aleatorias de una cerveza doméstica que se fabricó empleando ambos procesos, y se midieron los niveles de NDMA en partes por billón. Los resultados están en la tabla adjunta:

Proceso 6 4 5 5 6 5 5 6 4 6 7 4

propuesto

Si se supone que se muestrearon dos poblaciones normales e independientes con varianzas iguales, ¿existe alguna razón para creer, a un nivel de significancia del 5% que ha disminuido la cantidad de NDMA en más de dos partes por billón con el empleo del nuevo proceso? Encuentre el p – valor para el contraste.

Solución:

Sea X = Cantidad NDMA que se forma en el secado de la malta verde en el proceso anterior. Entonces, se puede afirmar que X ~N(

 

_X, 2)

Sea Y = Cantidad NDMA que se forma en el secado de la malta verde en el proceso nuevo. Entonces, se puede afirmar que Y~N(

 

_Y, 2)

En lo anterior se asume que las varianzas poblacionales son iguales. Además, podemos asumir independencia entre las poblaciones X e Y.

Ahora bien, _X _Y representa la reducción promedio verdadera en partes por billón por el empleo del nuevo proceso. Entonces nos piden contrastar que la reducción es superior a dos partes por billón; esto es hay que realizar el siguiente contraste de hipótesis:

0: 2 : 2 X Y a X Y H vs H           _ _ 

(9)

Para la realización de la prueba se toman dos muestras aleatorias independientes de tamaños n12 y m12 de las poblaciones X e Y, respectivamente. Ahora, de las muestras se obtiene que: Summary Statistics X Y ---Count 12 12 Average 5.25 1.33333 Variance 0.931818 0.787879 Standard deviation 0.965307 0.887625 Sum 63.0 16.0

---Dado que las poblaciones son normales, independientes con varianzas desconocidas pero iguales, entonces la estadística de prueba para el contraste es:

0 ( 2) (20 20 2) (18) ~ 1 1 n m p X Y D t t t t S n m           Donde 2 2 11 11 11 0.931818 11 0.787879 0.92728 22 22 x Y p S S S         

Entonces, la región crítica de tamaño  0.05 es:



(0.05,22)



. . / 1.717 R C  t tt 

Ahora, el valor calculado de la estadística de prueba es:

0 5.25 1.33 2 _5.071845 1 1 1 1 0.92728 12 12 c p x y D t S n m          Ahora, como 5.071845 . . c t  R C

Entonces, rechazamos H0 y concluimos que con el empleo del nuevo proceso de secado de

la malta verde se produce una reducción en NDMA en más de dos partes por billón. 2.2.2. Contrastes basados en muestras dependiente (datos pareados):

En este caso suponemos que se tiene una muestra aleatoria de n pares de observaciones de la forma (X Y₁, ), (₁ X Y₂, ₂), , (X Y de dos poblaciones normales dependientes X e Y que n, n) tienen medias _X y _Y. Queremos determinar si _X _Y D₀ o no lo es. Para realizar

(10)

la prueba definimos la v.a D X Y~N(

 

_D, _D2) con _D _X _Y y



_D2 es desconocida. Las pruebas para determinar si _D _X _Y D₀ se basan en la estadística

0 0 ( 1)

~

/

n D D

D

X

Y

D

t

S

n

S

n



 



donde D  X Y S_D son media y desviación estándar de las diferencia entre X e Y. Entonces, las regiones criticas de tamaño α y el p – valor para las tres pruebas anteriores son las siguientes:

Prueba bilateral: 0 0 0 : : D X Y a D X Y H D vs H D              _ _ _ 

La región crítica y el p – valor son:



( /2, 1) ( /2, 1)





1



. . / _n _n 2 _n _c

R C  t tt_    t t_   p valor  P t   t

Prueba unilateral derecha:

0 0 0 : : D X Y a D X Y H D vs H D         _ _ _    _ _ _ 

La región crítica y el p – valor son:



( , 1)





1



. .

/

_n

_n _c

R C



t t



t

_ _



p valor





P t

_



t

Prueba unilateral izquierda:

0 0 0 : : D X Y a D X Y H D vs H D         _ _ _    _ _ _ 

La región crítica y p valor son



( /2, 1)





1



. .

/

_n

_n _c

R C



t t

 

t

_ _



p valor





P t

_



t

En cualquiera de los tres casos anteriores se rechaza H0 cuando t_cRC donde 0

/

c d

d

D

t

S

n





(11)

Donde d  s_d son media y desviación estándar muestral de las diferencias muestrales. Observación: Usado la estadística

( 1)

(

)

(

)

~

/

X Y X Y n D D

D

X

Y

t

S

n

S

n





 





Se obtiene que el intervalo de confianza del 100(1



)% para (X Y) es ( / 2, 1) ( / 2, 1) d d n X Y n s s d t d t n n           

Ejemplo 6: Se llevó a cabo un estudio para determinar el grado en el cual el alcohol entorpece la habilidad de pensamiento para llevar a cabo una tarea. Se seleccionaron al azar diez personas de distintas características y se les pidió que participaran en el experimento. Después de proporcionarles la información pertinente, cada persona llevó a cabo el experimento sin nada de alcohol en su organismo. Entonces, la tarea volvió a llevarse a cabo, después de que cada persona había consumido una cantidad suficiente de alcohol para tener un contenido en su organismo de 0.1%. Los tiempos antes y después (en minutos) están en la siguiente tabla.

Participante Antes (X) Después (Y) Después – Antes = D

1 28 39 11 2 22 45 23 3 55 67 12 4 45 61 16 5 32 46 14 6 35 58 23 7 40 51 11 8 25 34 9 9 37 48 11 10 20 30 10 Media - muestral 33.9 47.9 14

Desviación estándar muestral 10.90 11.80 5.14

Suponiendo que los tiempos antes y después se pueden modelar por una distribución normal, ¿puede concluirse a un nivel de significancia del 5% que el tiempo después es mayor que el tiempo promedio “antes” por más de 10 minutos? Encuentre el p – valor para el contraste. Construya un intervalo de confianza del 95% para la diferencia entre los tiempos promedio después menos antes.

Solución: Sea D = Y – X = Diferencia de tiempos después – antes ~ N(_D   _y _X, _D2) con varianza desconocida, donde Y~N( _y, 2_y) es el tiempo después y X ~N(

 

_X, _X2)

(12)

es el tiempo antes. Los resultados muestrales para la variable D están en la tabla anterior y nos muestran que d 14 y s_d 5.14.

Observe se está suponiendo que el tiempo promedio después es mayor que el tiempo promedio antes; entonces _D _Y _X representa en cuanto el tiempo promedio después supera al tiempo promedio antes y se espera que lo supere en más de 10 minutos. Por lo tanto, debemos contrastar a un nivel de significancia del 5% las siguientes hipótesis:

0 0 : 10 : 10 D Y X D Y X H vs H              _ _ _ 

La estadística de prueba para este contraste es 0 (10) 10 ~ / / 10 D D D D D t t S n S    

La región crítica de tamaño α = 0.05 es

RC =



t t/ t_(0.05,9) 1.833



El valor calculado de la estadística a partir de la información muestral es

10 14 10 2.461 / 10 5.14 / 10 c d d t S     

Como tc = 2.461 pertenece a la región crítica, entonces se rechaza H0 y podemos concluir

que el tiempo promedio después es mayor que el tiempo promedio antes por más de 10 minutos.

2.3. PRUEBAS PARA VARIANZAS.

Caso 1. Una sola muestra: Pruebas para la varianza de una población normal.

Se quiere probar el valor ₀2 para la varianza 2 de una población normal. Para la prueba usaremos la estadística muestral S proveniente de una muestra aleatoria de tamaño n _X2

tomada de la población de interés. Los contrastes que vamos realizar son los siguientes:

1) 2 2 0 0 2 2 0 : : a H vs H



     _  ; 2) 2 2 0 0 2 2 0 : : a H vs H

 



  _    _  y 3) 2 2 0 0 2 2 0 : : a H vs H

 



  _    _ 

En cualquiera de los casos, la estadística de prueba bajo H0 cierta es

(13)

2 2 2 1 2 0

(

1)

~

X n

n

S









Con esta estadística pretendemos buscar diferencias significativas entre la varianza muestral S y el valor propuesto _X2 ₀2 para la varianza poblacional y de esta forma rechazaremos la hipótesis nula. Ahora, para un nivel de significancia  preestablecido, las regiones críticas y los valores p para los contrastes anteriores son:

Prueba bilateral: 2 2 0 0 2 2 0 : : a H vs H



     _ 

Rechazaremos la hipótesis nula cuando el valor observado de la varianza muestral sea “suficientemente” diferente del valor propuesto y esto ocurre cuando el valor muestral de la estadística de prueba sea un valor extremo de la distribución



_n2_₁. Por lo tanto, la región crítica de tamaño α es:



2 2 2 2 2



( 2, 1) (1 2, 1)

. .

/

_n

R C



 





_ _









__ _ Si 2 2 2 0

(

1)

.

X c

n

s

R C











_{rechazamos H}₀_{en favor de la alternativa.}

El valor p para esta prueba viene dado como:

2 2 2 1 2 2 2 1

2 (

) si

1 2 (

) si

1

n c c n c c

P

X

p valor

P

X



_







_{ }







Prueba unilateral derecha: 2 2 0 0 2 2 0 : : a H vs H

 



  _    _ 

Rechazaremos la hipótesis nula cuando el valor observado de la varianza muestral sea “suficientemente” mayor que el valor propuesto para ésta y esto ocurre cuando el valor muestral de la estadística de prueba sea un valor extremo en la cola derecha de la distribución



_n2_₁. Por lo tanto, la región crítica de tamaño α es:



2 2 2



( , 1)

. .

/

_n

(14)

Si 2 2 2 0

(

1)

.

X c

n

s

R C











rechazamos H0 en favor de la alternativa.

El p – valor para esta prueba es: Valor – p = P(



_n2₁



_c2)

Prueba unilateral izquierda: 2 2 0 0 2 2 0 : : a H vs H

 



  _    _ 

Rechazaremos la hipótesis nula cuando el valor observado de la varianza muestral sea “suficientemente” menor que el valor propuesto para ésta. Por lo tanto, la región crítica de tamaño α es:



2 2 2



(1 , 1)

. .

/

_n

R C



 





__ _ Si 2 2 2 0 ( 1) . X c n s R C







  rechazamos H0 en favor de la alternativa.

El p – valor para esta prueba es: Valor – p



P





_n2₁





_c2



Ejemplo 7: (Ejercicio 9.43 del texto de Canavos) En un proceso de llenado, la tolerancia para el peso de los recipientes es de ocho gramos. Para reunir este requisito, la desviación estándar en el proceso debe ser de dos gramos. Los pesos de 25 recipientes seleccionados al azar dieron una desviación estándar de 2.8 gramos.

a) Si los pesos se encuentran normalmente distribuidos, determine si la varianza de éstos es diferente del valor necesario. Empléese un nivel de significancia del 2%.

b) ¿Para qué valores de la varianza muestral no puede rechazarse la hipótesis nula del apartado anterior? ¿Se encuentran estos valores equidistantes del valor necesario de la varianza? ¿Cómo deberían ser? Comente.

Ejemplo 7.1.: El gerente de una planta sospecha que el número de piezas que produce un trabajador en particular por día, fluctúa más allá del valor normal esperado. El gerente decide observar el número de piezas que produce este trabajador durante diez días, seleccionados éstos al azar. Los resultados son: 15, 12, 8, 13, 12, 15, 16, 9, 8, y 14. Si se sabe que la desviación estándar para todos los trabajadores es de 2 unidades y si el número de éstas que se produce diariamente, se encuentra modelado en forma adecuada por una distribución normal, a un nivel de significancia del 5%, ¿tiene apoyo la sospecha del gerente? Obtener el p – valor para el contraste.

Solución:

(15)

De la muestra aleatoria dada se obtiene x12.2y s2_X 8.84444. El gerente sospecha que σ = desviación estándar de X > 2. Dada la información anterior nos piden contrastar a un nivel de significancia del 5% (α = 0.05) la sospecha. Esto es, hay que realizar con α = 0.05 la siguiente prueba de hipótesis:

2 0 0 2 : 2 : 4 : 2 : 4 a a H H vs vs H H           _    _  _  

La estadística de prueba para este contraste es

2 2 2 2 9 2 0

(

1)

9 ~

4 n

S









La región crítica de tamaño α = 0.05 es



2 2 2



(0.05,9)

. .

/

16.92 R C



 







El valor calculado de la estadística de prueba es

2 2

9 9 8.84444

19.8999

4

c

s









Ahora, como



_c2



19.8999



RC

(19.8999 16.92)



, entonces rechazamos H0 y

concluimos que el número de piezas que produce este trabajador por día fluctúa más allá del valor normal esperado.

El p – valor = P





₉2 18.8999



. De la tabla se concluye que 0.01 < p – valor < 0.02. Entonces, para un nivel de significancia del 5% se rechaza H0, pues el p – valor <

0.05.

Caso 2: Pruebas para la igualdad de varianzas de dos poblaciones normales.

Sean S_X2 y S las varianzas muestrales de dos muestras aleatorias independientes de _Y2

tamaños

n

y

m

de dos poblaciones X e Y que tienen varianzas poblacionales



_X2 y



_Y2, respectivamente. Queremos comparar las varianzas poblacionales; para ello utilizaremos las varianzas muestrales y la estadística de prueba es:

2 2 ( 1, 1) 2 2

~

Y X n m X Y

S

F

S



 

(16)

1) 2 2 0 2 2 : : X Y a X Y H vs H          _  2) 2 2 0 2 2 : : X Y a X Y H vs H       _    _ 

Bajo H0 cierta, la estadística de prueba se reduce a

2 ( 1, 1) 2

~

X n m Y

S

F

S

 



Entonces, rechazaremos H0 cuando haya “mucha” diferencia entre las varianzas muestrales

y esto quiere decir que S es mucho mayor o mucho menor que_X2 S ; entonces las regiones _Y2

las regiones críticas de tamaño α y los valores p para los dos contrates anteriores son: Prueba bilateral: ( 2, 1, 1) (1 2, 1, 1) ( 2, 1, 1)

1 . .

/

_n _m

o

_n _m m n

R C

F F

F

         









_







_







( 1, 1) ( 1, 1)

2 (

) si

1 2 (

) si

1

n m c c n m c c

P F

F

p valor

P F

F

   









_{ }





Prueba unilateral derecha:



( , 1, 1)



. .

/

_n _m

R C



F F



F

_ _ _ ( 1, 1)

(

_n _m _c

)

p valor





P F

_ _



F

En cualquiera de los dos casos rechazamos H0 a favor de la alternativa Ha cuando

2 2 X c Y

s

F

s



_{caiga en la región crítica.}

Ejemplo 8: Un inversionista desea comparar el riesgo asociado con dos diferente mercados, A y B. El riesgo de un mercado se mide por la variación en los cambios diarios de precios. El inversionista piensa que el riesgo asociado con el mercado B es mayor que el del mercado A. Se obtienen muestras aleatorias independientes de 21 cambios diarios de precios para el mercado A y de 16 para el mercado B. Se obtienen los siguientes resultados:

Mercado A Mercado B

Tamaño 21 16

Media 0.3 0.3

(17)

a) Si se supone que las muestras provienen de dos poblaciones normales e independientes a un nivel de significancia del 5% ¿encuentra apoyo la creencia del inversionista? Encuentre el p – valor de la prueba.

b) Si la varianza muestral de A es la dada, ¿cuál es el máximo valor de la varianza muestral de B con base en n = 16 que no llevará al rechazo de la hipótesis nula del apartado anterior?

Solución:

Sean X = Cambios diarios de precios en el mercado A ~ Normal y _X2 la variación en los cambios diarios de precios en este mercado; por lo tanto, 2_X representa el riesgo en el mercado A.

Sea también Y = Cambios diarios de precios en el mercado B ~ Normal y _Y2 la variación en los cambios diarios de precios en este mercado; por lo tanto, _Y2 representa el riesgo en el mercado B.

También se tiene que las poblaciones son independientes. De las muestras aleatorias se obtiene

21, _X 0.25, 16, _y 0.45

n S  m S 

Nos piden usar el nivel de significancia del 0.05 y la información anterior, para contrastar la creencia del inversionista de que el riesgo asociado con el mercado B es mayor que el del mercado A. Esto es, hay que realizar el contraste siguiente:

2 2 0 2 2 : : Y X a Y X H vs H          _ 

La estadística de prueba para este contraste es:

2 ( 1, 1) (15,20) 2

~

Y m n X

S

F

S

 



Entonces, la región crítica de tamaño  0.05 es:



(0.05,15,20) (0.05,15,20)



. .

/

2.20 R C



F



F



F



El valor calculado de la estadística de prueba es

2 2 2 2

0.45 0.2025

3.24

0.25 0.0625

Y c X

s

F

s



(18)

Ahora, como F_c 3.24R C. . entonces rechazamos H₀:



_X2 



_Y2 y concluimos que el riesgo asociado al mercado A es menor que el del mercado B.

Finalmente, el valor – p de la prueba es

(15,20)

( 3.24) 0.05

p valor P F  

Ejemplo 8.1: Se conjetura que las acciones de una compañía sufrirían más variación en una industria con competencia en precios que una en las que existiera un duopolio o colusión tácita. En un estudio sobre la industria de generadores, se halló que en cuatro años de competencia en precios, la variación en las acciones fue de 114.09. En los siguientes siete años, en los cuales hubo duopolio y colusión tácita, esta variación fue de 16.08. Asumir que los datos pueden considerarse como muestras aleatorias independientes de dos poblaciones normales. Contrastar a un nivel de significancia del 5% la conjetura. Encontrar el p – valor para esta pueda.

2.4. PRUEBAS CONCERNIENTES A PROPORCIONES. PRUEBAS PARA UNA PROPORCIÓN.

En muchos problemas prácticos se requiere realizar contrastes sobre la proporción poblacional . Estos contrastes tienen la forma:

0 0 0 0 0 0 0 0 0 : : : 1) , 2) 3) : : : a a a H H H vs vs vs H H H                     _ _   _      _  _  _  __ __

La estadística de prueba para estos contrastes es: ˆ _{X n}_/

  = proporción de éxitos en la muestra de tamaño n observada.

La hipótesis nula será rechazada a favor de la alternativa cuando haya diferencias significativas entre ˆ X n/ sea suficientemente diferente del valor propuesto ₀, para buscar diferencias significativas entre estas dos cantidades, utilizaremos la siguiente estadística 0 0 0

ˆ

~

(0,1)

(1

)

a

Z

N

n

 









Usando la estadística anterior se obtiene que las regiones críticas de tamaño



y el p valor para las pruebas anteriores son las siguientes:

(19)

Prueba bilateral: En este caso rechazamos H0 cuando el valor observado para la proporción

muestral ˆ X n/ sea suficientemente diferente del valor propuesto ₀ para ; por lo tanto,



2 2



. .

/

R C



z z



z

_

  

z

_

Si z_c  ( ˆ ₀) ₀(1₀) nRC, entonces rechazamos H0 a favor de la hipótesis

alternativa. Además, el p – valor para esta prueba es

p – valor = 2 (P Z z_c)

Prueba unilateral derecha: En este caso rechazamos H0 cuando la proporción muestral

estimada ˆ X n/ sea suficientemente mayor que el valor ₀ propuesto para ; por lo tanto, la región crítica es



2



. .

/

R C



Z Z



z

_

Si z_c ( ˆ ₀) ₀(1₀) nRC, entonces rechazamos H0 a favor de la hipótesis

p – valor = (P Zzc)

Prueba unilateral derecha: En este caso rechazamos H0 cuando la proporción muestral

estimada ˆ X n/ sea suficientemente menor que el valor ₀ propuesto para la proporción poblacional, entonces la región crítica es



2



. .

/

R C



Z Z

 

z

_

Si z_c  ( ˆ ₀) ₀(1₀) nRC, entonces rechazamos H0 a favor de la hipótesis

p – valor = (P Zzc)

Ejemplo 9: Una organización de salud se interesa en actualizar su información con respecto a la proporción de hombres que fuman. Con base en estudios previos, se cree que la proporción es de 40%. La organización lleva a cabo una encuesta en la que se selecciona en forma aleatoria 1200 hombres a los cuales se les pregunta sus hábitos de fumador. De los 1200, 420 son fumadores. ¿Será que la evidencia anterior apoya la noción de que la proporción de hombres que fuman es diferente del 40%? Emplee un nivel de significancia del 1% (α = 0.01). Encuentre el p – valor para esta prueba

(20)

PRUEBAS PARA DOS PROPORCIONES

Queremos comparar dos proporciones poblacionales; para ello, supondremos que se tienen dos muestras aleatorias independientes. La primera muestra es de n observaciones de una _X

población X que tiene una proporción poblacional es _X y la proporción muestral resultante es ˆ_X X n_X . La segunda muestra consta de n observaciones de una población Y cuya _Y

proporción poblacional es _Y y la proporción muestral resultante es ˆ_Y Y n_Y .

Para comparar las proporciones poblacionales realizaremos los siguientes contrastes alternativos: 1) ₁₎ 0: ₂₎ 0: ₃₎ 0: : : : X Y X Y X Y a X Y a X Y a X Y H H H vs vs vs H H H                     _ _        _  _  _  __ __

Para tamaños muestrales grandes, la estadística de prueba para los tres contrastes anteriores es la siguiente: 0 0 0 0 ˆ ˆ ~ (0,1) ˆ ₍₁ ˆ ₎ ˆ ₍₁ ˆ ₎ X Y a X Y Z N n n          _  Donde, 0

ˆ

X X Y Y X Y X Y

n

X

Y

n











Entonces, en virtud de la estadística anterior se tiene que las regiones críticas de tamaño α y los valores p son los siguientes:

Prueba bilateral.



2 2



. .

/

o

2 (

_c

)

R C



Z Z



z

_

Z

 

z

_

 

p valor



P Z



z





. .

/

(

_c

)

R C



Z Z



z

_

 

p valor



P Z



z

Prueba unilateral izquierda.





. .

/

(

_c

)

(21)

En cualquiera de los tres casos, cuando

z

_c, que es el valor calculado de la estadística de prueba a partir de la información muestral, caiga en la región crítica rechazamos la hipótesis nula H0 en favor de la alternativa.

Ejemplo 10: Un economista al servicio del estado desea determinar si la frecuencia de desempleo en dos áreas urbanas del estado son diferentes. Con base en muestras aleatorias de tamaño 500 de cada ciudad, el economista encuentra 35 personas desempleadas en un área y 25 en la otra. Bajo las suposiciones apropiadas y con un nivel de significancia del 5% ¿existe alguna razón para creer que las frecuencias de desempleo en las dos áreas son diferentes? ¿Cuál es el valor – p?

Solución:

En la primera región se tiene que:

X = Número de desempleados en la primera región X

 = la proporción de desempleo en la primera región.

A partir de la información muestral se obtiene que la proporción muestral resultante para esta región es ˆ_X 35/ 5000.07.

En la segunda región se tiene que:

Y = Número de desempleados en la segunda región

Y

 = la proporción de desempleo en la segunda región.

A partir de la información muestral se obtiene que la proporción muestral resultante para la segunda región es ˆ_Y 25/ 5000.05.

Nos piden contrastar al 5% (α = 0.05) de significancia si la frecuencia de desempleo en estas regiones es diferente. Esto es, debemos realizar el siguiente contraste de hipótesis

0: 0: 0 : : 0 X Y X Y a X Y a X Y H H vs vs H H               _    _  _ _  

La estadística de prueba para este contraste es

0 0 0 0 ˆ ˆ ~ (0,1) ˆ₍₁ ˆ₎ ˆ₍₁ ˆ₎ X Y a X Y Z N n n          _ 

Donde la proporción común estimada es

0 ˆ ˆ ˆ X X Y Y X Y n n n n       = 35 25 0.06 500 500 X Y X Y n n  _  _  

(22)

Entonces, la región crítica de tamaño α = 0.05 para el contraste es



0.025 0.025

 



. . / 0 / 1.96 0 1.96

R C  Z Zz Z z  Z Z Z 

El valor calculado de la estadística es

0 0 0 0 ˆ ˆ _{0.07 0.05} 8.8652 ˆ₍₁ ˆ₎ ˆ₍₁ ˆ₎ 0.06(1 0.06) 0.06(1 0.06) 500 500 X Y X Y Z n n               _  _

Como z_c 8.8652RC, entonces rechazamos H0 a favor de H1 y concluimos que las

frecuencias de desempleo en las dos regiones es diferente.

El p – valor = 2 (P Z z_c)2 (P Z8.8652)0. Por lo tanto, la hipótesis nula se rechaza a cualquier nivel de significancia.