Pruebas de hipótesis para dos muestras.

(1)

Pruebas

de

hip

ó

tesis

para

dos

(2)

Prueba de Hip

Prueba de Hipóótesis para dos muestras grandes, desviaciones tesis para dos muestras grandes, desviaciones est

estáándar de las poblaciones desiguales.ndar de las poblaciones desiguales.

Las propiedades de la Distribución Normal son también sumamente útiles cuando queremos encontrar si dos conjuntos de observaciones provienen si dos conjuntos de observaciones provienen de la misma poblaci

de la misma poblacióón o si hay diferencias entre dos procesos aplicados a n o si hay diferencias entre dos procesos aplicados a los mismos datos o individuos

los mismos datos o individuos.

Lo que intentamos probar comúnmente es si la diferencia entre dos medias es igual a cero, pero como en general no vamos a encontrar que la diferencia de dos medias muestrales sea cero, aún cuando provengan de la misma población, tenemos que buscar la forma de cuantificar qué tan seguros estamos de que la diferencia es significativa.

Para ello usamos:

1 2 2 2 1 2 1 2

x

z

s

n

−

=

+

Donde

y son las medias de nuestras observaciones y son las desviaciones estándar muestrales

y son los tamaños de cada muestra.

1

x

2 1

s

_s

₂ 1

n

₂

(3)

Por ejemplo, para un nivel de confianza del 99% (o un nivel de significancia del 1% ) si se quiere probar únicamente si hay diferencia:

|Z| > 2.57 Tenemos el 99% de confianza en que la diferencia existe es decir que las muestras provienen de poblaciones

diferentes

|Z| < 2.57 Tenemos el 99% de confianza en que la diferencia NO existe es decir que las muestras provienen de la misma población

Para otros niveles de confianza se requiere usar el valor z crítico correspondiente.

El caso anterior se trata de una prueba de dos colas, pues sólo consiste en probar si EXISTE la diferencia (es igual o no es igual a cero). En caso de que se trate de probar si la diferencia puede ser mayor o menor que el postulado, se requiere de una prueba de una cola, derecha o izquierda.

(4)

Prueba de Hipótesis para dos muestras, desviaciones estándar de las poblaciones desconocidas y no iguales

En este caso empleamos

siendo

y las desviaciones estándar de las muestras

El valor de t para comparar y tomar la decisión se obtiene de la tabla con el nivel de confianza (o significancia) dado y los grados de libertad se calculan por medio de:

2 2 2 1 2 1 2 1

n

s

n

s

x

t

+

−

=

1

s

₂ 1 1 ₂ 2 2 2 2 1 2 1 2 1 2 2 2 2 1 2 1 − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ + − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ + = n n s n n s n s n s

ν

(5)

Prueba de Hipótesis para dos muestras, desviaciones estándar de las poblaciones desconocidas pero iguales

Existe la posibilidad de que las desv. est. de las poblaciones sean iguales, ya sea que se sepa de antemano o se haga una prueba F, en este caso se usa

donde:

que es una forma de estimar la desviación poblacional

El valor de t para comparar y tomar la decisión se obtiene de la tabla con el nivel de confianza o de significancia dado y los grados de libertad están dados por:

NOTA: En general, este caso se puede evitar, pues siempre es posible hacer una prueba suponiendo desviaciones desconocidas y no iguales, y se pierde poco (el resultado es un poco más conservador que en el dado caso de que realmente fueran iguales).

1 2 1 2

1

p

x

t

s

n

−

=

+

2 2 1 1 2 2 1 2

(

1)

(

1)

2

p

s n

s

n

− +

−

=

+

−

1 2 2 n n

ν

= + −

(6)

Prueba de Hipótesis para dos muestras dependientes. Muestras pareadas.

En este caso se trata de dos muestras que pueden contener los mismos individuos en dos condiciones que se trata de diferenciar, para ello se usa:

donde

es la media de las diferencias entre los valores de las muestras es la desviación estándar de las diferencias.

El valor de t para comparar y tomar la decisión se obtiene de la tabla con el nivel de confianza o de significancia dado y los grados de libertad son iguales a

d

s

n

s

d

t

d

=

1 n

ν

= −

(7)

Ejemplos :

1. Una compañía desea comparar el aumento de peso en bebés que consumen su producto contra los que consumen el competidor. Una muestra de 40 bebés de usan la 1ª marca reveló un aumento de peso de 3.2 kg en los primeros tres meses después de nacidos con 1.2 kg de desv est. Una muestra de 55 bebés que usan la 2ª marca indica un aumento de 4.2 kg con desviación estándar de 1.4 kg. Con un nivel de significancia de 0.05 ¿Es posible concluir que los bebés que consumieron el producto de la marca 2 ganaron más peso ? (μ₁ - μ₂ sería negativo)

Se usa la fórmula para desviaciones estándar desiguales. Ho: μ₁ - μ₂ ≥ 0

H1: μ₁ - μ₂ < 0

Notar que decir μ₁ - μ₂ ≥ 0 es equivalente a μ₁ ≥ μ₂

Asi como μ₁ - μ₂ = 0 es equivalente a μ₁ = μ₂

2 2 2 1 2 1 2 1

n

s

n

s

x

t

+

−

=

1

3.2 x

=

x

2

=

4.2

1

1.2 s

=

s

₂

=

1.4

1

40 n

=

n

₂

=

55

(8)

Valores críticos.

Se calculan los grados de libertad:

y se busca el valor crítico para α = 0.05 (es de una cola)

t

_c = -1.66

Como el valor de

t

calculado -3.74 cae en la región de rechazo de Ho, se

rechaza la posibilidad de que la diferencia sea nula (o mayor que cero) y se acepta que los bebés que consumen la marca 1 ganan menos peso que los que consumen la marca 2 (diferencia negativa).

2 2

3.2

4.2

3.74

1.2

1.4

40

55 t

=

−

= −

+

2 2 2 2 2 2 2 1.2 1.4 40 55 90 1.2 1.4 40 55 40 1 55 1

ν

⎛ ⎞ + ⎜ ⎟ ⎝ ⎠ = = ⎛ ⎞ ⎛ ⎞ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ₊ ⎝ ⎠ − − 0.4 0.3 0.2 0.1 0.0 X De n si ty -1.66 0.05 0 Distribution Plot T, df=90

(9)

2. Diez hombres se sometieron a una dieta especial registrando sus pesos antes de comenzarla y después de un mes de estar en ella. Los resultados de los pesos, en libras, se muestran a continuación:

Probar si la dieta logró alguna diferencia, , ya sea positiva o negativa con

α = 0.05. Calcule el valor de P. Solución:

Se usa la prueba de diferencia de medias para datos pareados porque son los mismos individuos.

Hipótesis Ho : μ1 = μ2 H1 : μ1 ≠ μ2 Valores críticos 0.4 0.3 0.2 0.1 0.0 X De n si ty -2.26 0.025 2.26 0 0.025 Distribution Plot T, df=9

(10)

Se procede a calcular las diferencias de cada par:

Al calcular la media de las diferencias obtenemos , con una s_d = 3.53 Calculamos el valor de

t

Decisión y Justificación:

Como 1.79 está entre los dos valores críticos de –2.262 y 2.262, por lo tanto no se rechaza Ho, y se concluye con un α = 0.05 que no existe evidencia estadística que apoye la efectividad de la dieta para variar el peso.

2

1.79

3.53

10

d

t

s

n

=

2 d

=

(11)

Prueba de Hipótesis para dos proporciones

Existen casos en donde queremos saber si dos muestras de proporciones provienen de dos poblaciones diferentes o si hay diferencia estadística entre ellas. En este caso empleamos:

ya que no se conoce la

proporción de las poblaciones El valor del denominador se usa para estimar la desviación estándar de la población, donde

p

_c (proporción conjunta) está dado por:

x

₁

=

número de casos favorables de la primera muestra

x

₂

=

número de casos favorables de la segunda muestra

n

₁

=

número de eventos de la primera muestra

n

₂

=

número de eventos de la segunda muestra

2 1 2 1

)

1 (

)

1 (

n

p

n

p

z

c c c c

−

+

−

=

2 1 2 1

n

x

p

_c

+

=

(12)

Ejemplo :

Los hombres y mujeres adultos radicados en una ciudad grande del norte difieren en sus opiniones sobre la promulgación de la pena de muerte para personas culpables de asesinato. Se preguntó a dos muestras aleatorias de 100 hombres y 100 mujeres su opinión sobre la promulgación de la pena de muerte, y el 12% de los hombres adultos están a favor de la pena de muerte, mientras que sólo 10% de las mujeres adultas lo están. Con un nivel de significancia de 0.05 ¿Se puede afirmar que hay evidencia estadística de que las opiniones difieren entre hombres y mujeres?

H_o:

P

₁=

P

₂ H₁:

P

₁≠

P

₂ 1 2 1 2

12 10

0.11 100 100

c

x

p

n

+

=

+

0.12 0.10

0.45 0.11(0.89)

0.11(0.89)

100

100 z

=

−

=

+

(13)

Valores Críticos :

Como -1.96 < 0.45 < 1.96, es decir que 0.45 cae en la zona de no rechazo de Ho (zona blanca de la figura), se puede afirmar que no hay evidencia estadística de que las opiniones difieran (NO se rechaza la Hipótesis nula). 0.4 0.3 0.2 0.1 0.0 X De n sit y -1.96 0.025 0.025 0 1.96 Distribution Plot