Práctica 7 CONTRASTES DE HIPÓTESIS

(1)

Práctica 7

CONTRASTES DE HIPÓTESIS

_________________________________________________________________

Objetivos:

Utilizar los contrastes de hipótesis para decidir si un parámetro de la distribución de unos datos objeto de estudio cumple o no una cierta condición. Análisis de las relaciones entre contrastes de hipótesis e intervalos de confianza.

Uso del SPSS para el análisis de una y dos muestras: contrastes de hipótesis sobre la media poblacional.

Índice:

1. Construcción de contrastes de hipótesis. 2. Análisis de una y dos muestras con el SPSS. 3. Ejercicios.

(2)

1. Construcción de contrastes de hipótesis.

Algunas investigaciones se realizan para decidir si un parámetro θ de una cierta distribución verifica o no cierta condición. Esta condición se denomina hipótesis nula y se representa por

H0 mientras que la suposición contraria se llama hipótesis alternativa y se denota H1. Un contraste de hipótesis trata de dar un mecanismo para decidir si se rechaza o no la hipótesis

nula en favor de la alternativa usando la información proporcionada por una muestra cuyo comportamiento depende del parámetro.

Se suele hablar sólo de rechazar o aceptar (no rechazar) H0. Se pueden cometer dos tipos de errores:

1. Rechazar H0 siendo cierta (error de tipo I)

2. Aceptar H0 siendo falsa (error de tipo II)

Lo ideal sería minimizar las probabilidades de cometer ambos tipos de error. En la práctica, lo que se hace es fijar la cota para la probabilidad de cometer un error de tipo I en un valor α

(tamaño del test o nivel de significación) pequeño e intentar que la probabilidad de cometer el

error de tipo II sea lo menor posible.

Resumiendo, el problema consiste en decidir si se rechaza o no la hipótesis nula a partir de los datos proporcionados por una muestra. Al igual que en la construcción de intervalos de confianza se busca un buen estimador del parámetro (que resuma la información proporcionada por la muestra) y se construye un test o prueba basado en dicho estimador de forma que si el valor del estimador cumple una cierta condición se rechaza la hipótesis nula y si no la verifica se acepta. Esta condición se expresa por medio de un cierto subconjunto de posibles valores para el estimador llamado región crítica. Si el estimador toma un valor perteneciente a esta

región crítica se rechaza H0 y en caso contrario, se acepta.

La región crítica R se construye de forma que la probabilidad de cometer el error de tipo I sea como mucho α, y, dentro de lo posible, minimizar la probabilidad de cometer el error de tipo II.

(3)

2. Análisis de una y dos muestras con el SPSS

2.1. Prueba t para una muestra

Sea una muestra de una distribución N(µ, σ)

Para el contraste (con σ desconocida)

⎩ ⎨ ⎧ ≠ = 0 1 0 0 : : µ µ µ µ H H

Un buen estimador para µ es la media muestral X y para σ es la cuasivarianza muestral S.

Entonces T = n S X / 0 µ −

sigue una distribución t de Student con n-1 grados de libertad.

La región crítica R se construye de la forma R = {|T| > x}. Intuitivamente, el contraste establece que si la media muestral Xdifiere mucho del valor µ0se debe rechazar la hipótesis nula.

Para que se verifique que P(rechazar H0 | H0 cierta) sea como mucho α, esto es, P( |T| > x) = α. el valor x tiene que ser tn-1; α/2, por seguir T una distribución tn-1.

La región crítica queda entonces R =

⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ > − /2 , 1 -n 0 _t / α µ n S X

Ejemplos

1. La duración de una determinada componente electrónica sigue una distribución normal.

Los resultados de una muestra aleatoria de esta clase de componentes son: 1200, 1350, 1275, 890, 1125, 1520, 1100 horas. Realizar con α = 0.05 el contraste de hipótesis:

⎩ ⎨ ⎧ ≠ = 1100 : 1100 : 1 0 µ µ H H

1. Abrir el fichero de datos EJEMPLO1.SAV

2. Seleccionar el procedimiento Prueba T para una muestra, eligiendo el menú Analizar/Comparar medias/Prueba T para una muestra.

3. Seleccionar la variable ‘duracion’ e introducir el valor 1100 en la ventana correspondiente a ‘Valor de prueba’

(4)

Estadísticos para una muestra 7 1208,5714 200,7219 75,8658 DURACION N Media Desviación típ. Error típ. de la media

Prueba para una muestra

1,431 6 ,202 108,5714 -77,0654 294,2082 DURACION

t gl Sig. (bilateral)

Diferencia

de medias Inferior Superior 95% Intervalo de confianza para la

diferencia Valor de prueba = 1100

Para interpretar el contraste de hipótesis hay que usar el valor que aparece en la casilla ‘Sig. (bilateral)’. En esta casilla está representada la significación o p-valor. En este caso este

p-valor es la probabilidad de que |T| > t = 1,431. La interpretación se resume en lo siguiente: Si el p-valor es menor que el tamaño del test α es porque el valor del estimador usado para el

contraste pertenece a la región crítica y, por tanto, se rechaza la hipótesis nula. Si, por el

contrario, el p-valor es mayor que α, dicho valor no está en la región crítica y se acepta la hipótesis nula.

En este ejemplo, se debe aceptar la hipótesis nula.

Relación entre intervalos de confianza y contrastes de hipótesis

La región de aceptación (complementario de la región crítica) de un contraste de hipótesis para un parámetro θ con tamaño α coincide con un intervalo de confianza para θ al (1-α)x100 %.

En el caso del contraste visto anteriormente, la región de no rechazo (o aceptación) es:

WC_{= {|T|}_≤_tn-1; α/2} = ⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ ≤ − /2 , 1 -n 0 _t / α µ n S X =

⎭

⎬

⎫

⎩

⎨

⎧

₋

_≤

₊

n

S

X

n

S

X

t

_n_-₁_,_α_/2

µ

t

_n_-₁_,_α_/2

Otra forma de interpretar el contraste es ver si el 0 está contenido en el intervalo de confianza al 95% para la diferencia de medias, que también lo proporciona el programa. Si esto es así (como en el ejemplo) se acepta la hipótesis nula y se rechaza en caso contrario.

La prueba T es válida siempre que el tamaño muestral sea suficientemente grande o, en caso contrario, cuando la muestra provenga de una población con distribución normal.

(5)

2.2. Prueba t para dos muestras independientes

Ahora se tienen dos muestras: una provenie de una distribución N(µ1, σ1) y otra de una

N(µ2, σ2)

Para el contraste (con σ ⎩ ⎨ ⎧ ≠ = 2 1 1 2 1 0 : : µ µ µ µ H H 1, σ2desconocidas)

se obtiene la siguiente región crítica R = {|T|> tm; α/2} =

⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ > − /2 , m * t α S Y X

Dependiendo de si las desviaciones típicas son iguales o diferentes se tienen diferentes valores para m y S*_{. Para distinguir entre ambos casos se hace un contraste previo} _.

En realidad el que se hace es

⎩ ⎨ ⎧ ≠ = 2 2 2 1 1 2 2 2 1 0 : : σ σ σ σ H H ⎩ ⎨ ⎧ ≠ = 1 / : 1 / : 2 2 2 1 1 2 2 2 1 0 σ σ σ σ H H

Este se resuelve usando la región crítica R = { ( ₁_, ₁_;₁ _/₂, ₁_, ₁_; _/₂)}

2 1 2 1− − −α − − α ∉ F_n _n F_n _n F siendo ₂ 2 2 1 S S

F= que sigue una distribución F de Fisher-Snedecor con n1-1 y n2-1 grados de

libertad. (n1 y n2 son los tamaños muestrales correspondientes y las respectivas cuasivarianzas muestrales) 2 2 2 1,S S

Si las varianzas son iguales m = n1 + n2 – 2 y S*₌

2 1 1 1 n n + Sp siendo Sp = 1 ) 1 ( ) 1 ( 2 1 2 2 2 2 1 1 − + − + − n n S n S n

En caso contrario m se estima mediante una expresión un poco complicada

(Smith-Satterhwaite) m = ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − + − + 2 2 2 2 2 2 1 2 1 1 2 2 2 2 1 2 1 ) / ( 1 1 ) / ( 1 1 ) / / ( n S n n S n n S n S y S*₌ 2 2 2 1 2 1 n S n S ₊

(6)

Ejemplos

2. Se quiere comparar la calidad de dos máquinas que fabrican un cierto componente

eléctrico. Se han tomado datos sobre la cantidad de componentes estropeados en diferentes lotes obteniéndose para la máquina 1los siguientes datos: 15, 16, 17, 12, 13, 15, 16, 13, 17,

15, 16, 17, 15, 13 y para la máquina 2: 8, 9, 5, 7, 9 , 11, 15, 13, 9, 8.

Contrastar la igualdad de medias con α = 0,05

Para poder efectuar la prueba T para muestras independientes, SPSS necesita una columna en el editor de datos que contenga los valores de la variable cuyas medias en las dos poblaciones se desea comparar, y otra que indica la población o grupo a que pertenece cada individuo.

1. Abrir el fichero EJEMPLO2.SAV. Aparecen en el archivo las columnas ‘fallos’ y

‘maquina’.

2. Seleccionar Analizar/Comparar medias/Prueba T para muestras independientes.

3. Seleccionar la variable numérica ‘fallos’ y situarla en la ventana de Contrastar variables. A continuación, seleccionar la variable de agrupación ‘maquina’ y pulsar Definir grupos.

4. Especificar los dos valores de la variables de agrupación que definen cada máquina:

• Usar valores especificados. Escribir un valor para el Grupo 1 y otro para el Grupo 2.

Los casos con otros valores (si existen) quedarán excluidos.

• Punto de corte. Escribir un número que divida los valores de la variable de

agrupación en dos conjuntos. Todos los códigos menores que el punto de corte forman un grupo y los mayores o iguales que el punto de corte forman el otro grupo.

5. Pulsar ‘Aceptar’ Estadísticos de grupo 14 15,0000 1,6641 ,4447 10 9,4000 2,9136 ,9214 MAQUINA 1,00 2,00 FALLOS N Media Desviación típ. Error típ. de la media

Prueba de muestras independientes

2,303 ,143 5,984 22 ,000 5,6000 ,9359 3,6591 7,5409 5,474 13,187 ,000 5,6000 1,0231 3,3930 7,8070 Se han asumido varianzas iguales No se han asumido varianzas iguales FALLOS F Sig. Prueba de Levene para la igualdad de varianzas t gl Sig. (bilateral) Diferencia de medias Error típ. de

la diferencia Inferior Superior 95% Intervalo de confianza para la

diferencia Prueba T para la igualdad de medias

(7)

Para la interpretación de este contraste, primero se observa la columna ‘Prueba de Levene para la igualdad de varianzas’. En este caso, con α=0,05 se acepta que las varianzas son iguales. Posteriormente, en la fila inferior aparecen los dos contrastes sobre la igualdad de medias para la variable ‘fallos’: uno con varianzas iguales y otro con diferentes. En este caso, hay que fijarse en la fila correspondiente a varianzas iguales. El p-valor es menor que 0,05, por lo que se rechaza la hipótesis nula.

Esta prueba T es válida siempre que los tamaños muestrales sean suficientemente grandes o cuando las muestras provengan de poblaciones con distribuciones normales.

2.3. Prueba t para dos muestras dependientes

En este caso, se tienen dos distribuciones normales apareadas. Esto ocurre, por ejemplo, cuando se miden dos variables sobre una muestra de individuos.

Se tiene una variable D = X-Y que sigue una distribución N(µD, σD) El contraste a efectuar es ⎩ ⎨ ⎧ ≠ = 0 : 0 : 1 0 D D H H µ µ

Se obtiene la siguiente región crítica R = {|T|> tn-1; α/2} =

⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ > − /2 1, -n t / n α S Y X D

Ejemplos

3. Se quiere comparar la rapidez de dos programas informáticos A y B para la resolución de

cierta clase de problemas de ingeniería hidráulica. Para ello se analizan 9 casos utilizando tanto el programa A como el B. Los tiempos obtenidos para resolver estos casos fueron:

Caso 1 2 3 4 5 6 7 8 9

Programa A 11.5 13.2 15.7 9.8 12.6 10.5 11.3 12.6 14.1 Programa B 12.3 12.9 13.1 10.9 11.2 12.1 9.9 11.8 12.3

Contrastar con α = 0,05 si la diferencia de los tiempos medios de resolución es 0.

Para efectuar la Prueba T para muestras emparejadas, a diferencia de las muestras independientes, se necesita una columna en los datos para cada una de las variables a comparar.

1. Abrir EJEMPLO3.SAV

(8)

3. Seleccionar las dos variables en cuya diferencia estamos interesados. Al hacer la primera selección en la columna de variables, esta aparece en el recuadro selecciones actuales como variable 1, y al realizar la segunda selección aparecerá como variable 2. En ese momento, ya seleccionadas las dos es cuando se pueden introducir en la

columna variables relacionadas.

4. Pulsar Aceptar.

Estadísticos de muestras relacionadas

12,3667 9 1,8330 ,6110 11,8333 9 1,0161 ,3387 PROGRAMA PROGRAMB Par 1 Media N Desviación típ. Error típ. de la media

Prueba de muestras relacionadas

,5333 1,4361 ,4787 -,5706 1,6372 1,114 8 ,298 PROGRAMA -PROGRAMB Par 1 Media Desviación típ. Error típ. de

la media Inferior Superior 95% Intervalo de confianza para la

diferencia Diferencias relacionadas

t gl Sig. (bilateral)

Se observa el p-valor en la columna ‘Sig. (bilateral)’. Como es mayor que 0,05 se acepta la igualdad de medias.

Esta prueba T es válida siempre que el tamaño muestral sea suficientemente grande o cuando las muestra provenga de poblaciones con distribución normal.

Ejercicios

1. Durante los últimos 5 años el número de ordenadores qu evende por semana cierta

empresa informática es aproximadamente normal N(µ, σ). En una muestra aleatoria simple de 10 semanas de los últimos 5 años, dicha empresa vendió 175, 168, 171, 169, 183, 165, 188, 177, 167 y 180 ordenadores. Contrastar si el valor medio de las ventas es 200 con α=0,1

2. Contrastar si el peso medio de un cierto tipo de piezas mecánicas difiere según sean

fabricados en dos lugares diferentes A y B con un nivel de significación igual a 0,01. Los datos obtenidos son los siguientes: A: 80, 97, 85, 73, 92, 97, 100, 94 B: 99, 92, 85, 79,

91, 96, 105.

3. Estudiar si un cierto tipo de componente mecánico es simétrico o no en base a la medida

de sus lados izquierdo y derecho con un nivel de significación 0,05. Los datos que se han obtenido en las medidas son:

Pieza 1 2 3 4 5

Izquierdo 11.5 13.2 15.7 9.8 12.6