• No se han encontrado resultados

Contraste de Hipótesis

N/A
N/A
Protected

Academic year: 2022

Share "Contraste de Hipótesis"

Copied!
41
0
0

Texto completo

(1)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 1 CONTRASTE DE HIPÓTESIS

1. Introducción

2. Contraste de una hipótesis estadística 3. Test unilateral y bilateral

4. Test relacionados con una sola media (varianza conocida) 5. Relación con la estimación del intervalo de confianza 6. Test sobre una sola media (varianza desconocida) 7. Test sobre dos medias

7.1. Varianzas conocidas 7.2. Varianzas desconocidas 8. Pruebas relacionadas con varianzas

8.1. Una muestra 8.2. Dos muestras

9. Pruebas sobre proporciones 10. Test de Bondad de ajuste

Aplicaciones:

Prueba de Homogeneidad Test de independencia

(2)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 2 CONTRASTE DE HIPOTESIS

1. INTRODUCCIÓN

No siempre los problemas a los que se enfrenta el científico o el ingeniero, se refieren sólo a la estimación de un parámetro de la población, sino por el contrario, la formulación de un procedimiento de decisión basado en datos, que puede producir una conclusión acerca de algún sistema científico. Se postula o conjetura algo acerca de un sistema. La conjetura se puede exponer como una hipótesis estadística. Los procedimientos que conducen a la aceptación o rechazo de hipótesis estadísticas, comprenden un área muy importante de la inferencia estadística.

Una hipótesis estadística es una afirmación o conjetura acerca de una o más poblaciones. Es importante remarcar que las hipótesis son proposiciones sobre la población en estudio, nunca sobre la muestra.

Contrastar una hipótesis estadísticamente es tomar una decisión sobre si cierta propiedad de una población es compatible con lo observado en una muestra de dicha población.

La técnica del contraste de hipótesis constituye una parte de la Inferencia Estadística que consiste en utilizar la información muestral para examinar la validez de afirmaciones realizadas sobre una característica poblacional.

Nunca se sabe con absoluta certeza la verdad o falsedad de una hipótesis estadística, a no ser que se examine la población entera. Como esto no es práctico, se elige una muestra aleatoria de la población que se estudia, y se utilizan los datos que contiene dicha muestra para proporcionar evidencias que confirmen o no la hipótesis.

La evidencia de la muestra que es inconsistente con la hipótesis planteada, lleva al rechazo de la misma; mientras que la evidencia que apoya a la hipótesis, conduce a su aceptación.

(3)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 3 Desde luego el diseño de un procedimiento de decisión, debe llevarse a cabo con la idea de probabilidad de una conclusión equivocada. Es decir, la aceptación de una hipótesis implica tan sólo que los datos de la muestra no proporcionan evidencia suficiente para rechazarla. El rechazo de la hipótesis implica que la evidencia de la muestra la refuta.

Existen dos tipos de contrastes:

Contrastes paramétricos si la hipótesis concierne a parámetros poblacionales tales como la media o la varianza.

Contrastes no paramétricos son los que afectan a cualidades de la distribución, tales como la bondad del ajuste, homogeneidad de poblaciones, independencia.

2. CONTRASTE DE UNA HIPÓTESIS ESTADÍSTICA

La estructura de la prueba de hipótesis (test de hipótesis) se formulará utilizando el término hipótesis nula.

Llamamos hipótesis nula, H0, a la hipótesis que vamos a contrastar; H0 representa la hipótesis que mantendremos mientras los datos no nos indiquen su falsedad.

El rechazo de H0 da como resultado la aceptación de una hipótesis alternativa, que se representa por H1.

Llamamos hipótesis alternativa, H1, a la hipótesis que se aceptará si H0 se rechaza.

Una hipótesis nula referente a un parámetro de la población, siempre será establecida en forma tal que especifique un valor exacto del parámetro; la hipótesis alternativa admite la posibilidad de varios valores.

Las fases en un contraste de hipótesis son:

1) Definir la hipótesis a contrastar que llamaremos H0 en consecuencia H1.

(4)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 4 2) Definir una medida de discrepancia D que mida la diferencia entre los valores observados y los esperados (de acuerdo con H0) estableciendo su distribución.

3) Tomar una muestra y calcular D.

4) Concluir con una decisión: si la discrepancia D es muy grande, rechazaremos H0; en caso contrario, aceptamos H0.

Por tanto, para realizar un contraste necesitamos una medida de discrepancia, y una ley para juzgar cuando las discrepancias son demasiado grandes.

Al probar cualquier hipótesis estadística, se presentan cuatro posibles situaciones que determinan si la decisión es correcta o equivocada:

La hipótesis nula, es verdadera o falsa y se acepta o se rechaza. No se comete error alguno si es verdadera y se acepta, o si es falsa y se rechaza. Sin embargo, se cometerá error si es verdadera y se rechaza o si es falsa y se acepta.

Decimos que se comete un error de tipo I cuando H0 es verdadera pero se rechaza, se comete un error de tipo II cuando H0 es falsa pero se acepta.

Para definir qué valores de las discrepancias son grandes fijamos un valor α que denominaremos nivel de significación. El valor α es la probabilidad de cometer un error de tipo I, y determina un valor dc de forma que: P(D>dc)= α

0 0

P(error tipo I)=P(rechazar H / H es cierta) α =

DECISIÓN

Se Acepta Se Rechaza

REALIDAD

H0 Es Verdadera Decisión correcta Error de tipo I H0 Es Falsa Error de tipo II Decisión correcta

(5)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 5 La probabilidad de cometer error tipo II, representado por β , es imposible calcularla a no ser que tenga una hipótesis alternativa específica:

0 0

P(error tipo II)=P(aceptar H / H es falsa) β =

Al conjunto de reglas que lleva a aceptar o no una cierta hipótesis, es lo que se llama

"un test o contraste de hipótesis".

La potencia del contraste es la probabilidad de rechazar H0, dada una alternativa específica verdadera:

0 0

1−β =Potencia=P(rechazar H / H es falsa)

Un test muy potente es altamente capaz de detectar la falsedad de los datos.

Uno poco potente no detecta la falsedad de los datos.

En general, a todo número que, obtenido a partir de las observaciones de una muestra, sirve para decidirse por H0 o H , se llama estadístico de contraste. 1

Pero para realizar un test de hipótesis, el investigador no sólo debe fijar H0 y H , y el 1 estadístico de contraste, sino que también habrá de decidir de antemano el valor del error α que está dispuesto a aceptar.

La figura siguiente muestra gráficamente este método. Si la discrepancia observada D cae dentro de la región de rechazo (probabilidad de rechazar y ser verdadera), rechazamos la hipótesis H0, en caso contrario la aceptaremos.

(6)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 6 Definimos la región de rechazo o región crítica por D>dc es el conjunto de valores del estadístico de contraste que

lleva a la decisión de rechazar la hipótesis nula H0 y la región de aceptación de H0 será D≤dc

Consideraciones acerca de α.

1) Aceptar o rechazar la hipótesis H0 puede depender del valor α, siendo posible rechazar H0 con α = 0.05 y aceptar H0 con α = 0.04

2) Dar sólo el resultado del test no indica el grado de discrepancia. Se acostumbra a utilizar niveles de significación del 0.05 ó 0.01.

Si, por ejemplo, se elige un nivel de significación del 0.05 entonces hay aproximadamente 5 ocasiones de cada 100 en que se rechazaría la hipótesis cuando debe ser aceptada.

El nivel de significación (α) se fija a priori independientemente del estadístico.

Un procedimiento para resolver estas consideraciones es utilizar el nivel crítico p de un test, en vez del nivel de significación (α).

Se define el nivel crítico o p valor como el mínimo nivel de significación para el que, con los datos de una muestra concreta, se tendría que rechazar H0.

p=P(D≥D )n .

Es decir, la probabilidad de obtener una discrepancia mayor o igual que la observada en la muestra. De esta forma, el valor de p no se fija a priori, sino que se determina en función de la muestra.

Aceptación d > Rechazo

c

<

α

(7)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 7 Como se evidencia en la figura siguiente, cuanto menor sea el valor crítico, menor es la probabilidad de existir discrepancia como la observada, y menor es la certidumbre de H0.

Esto es; cuanto más cercano a cero sea su valor con mayor confianza se rechazará H0. Puesto que, p=P(D≥D )n y Dn un valor fijo, si p es grande ⇒ Dn es un valor pequeño, por tanto, para un valor fijo de α < p será Dn < dc y aceptamos la hipótesis H0,

En general, cuanto más próximo a 1 sea p con mayor evidencia se habrá de aceptar H0.

A título orientativo,

Si p>0.05 no existe suficiente evidencia para rechazar H0.

Si 0.01<p<0.05 existe incertidumbre entre rechazar o no rechazar H0. Si p<0.01 en general deberá ser rechazada la hipótesis H0,

Si se ha fijado de antemano un nivel de significación α, se acepta H0, si p>α, y se rechaza H0 si p< α

El conjunto de valores posibles del estadístico de contraste, se divide en dos partes.

Una de ella conduce a concluir H0, y se llama región de aceptación; y la otra, lleva a concluir H1, y se llama región de rechazo o región crítica (RC).

Al error de la primera RC que rechaza H0, se le llama nivel crítico o nivel mínimo de significación.

(8)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 8 Los valores fuera de la región de rechazo son los valores de la región de aceptación R(H0). Estas regiones de aceptación coinciden con los intervalos de confianza para los parámetros sobre los que se plantea el contraste con los niveles de confianza de 1-α complemento de los de significación α.

3. TEST UNILATERAL Y BILATERAL

Un test de cualquier hipótesis estadística, donde la alternativa es unilateral, tal como:

Ho:θ =θo

H1:θ >θo o bien 0 0

1 0

: :

=

<

H H

θ θ

θ θ recibe el nombre de test de una cola, ya que la región crítica cae en la cola derecha de la distribución del estadístico de prueba, o en la cola izquierda, respectivamente.

Un test de cualquier hipótesis estadística donde la alternativa es bilateral, tal como:

Ho:θ =θo

H1:θ ≠θo recibe el nombre de test de dos colas, ya que la región crítica se divide en dos partes, generalmente con igual probabilidad en cada cola de la distribución del estadístico de prueba.

Para probar hipótesis en las cuales el estadístico de prueba es discreto, puede escogerse la región crítica arbitrariamente y luego determinar su tamaño. Si α es demasiado grande, puede reducirse haciendo un ajuste en el valor crítico.

Un valor p es el nivel más bajo (de significación) en el cuál el valor observado del estadístico de prueba es significativo.

Los procedimientos para el test de hipótesis, pueden resumirse, supuesto que la hipótesis es Ho:θ =θo :

1. Establecer la hipótesis nula Ho de que θ=θo.

2. Seleccionar una hipótesis alternativa apropiada H1 de una de las alternativas θ<θo, θ>θo o θ ≠θo.

3. Seleccionar la distribución del estadístico de prueba apropiado 4. Calcular el valor del estadístico de prueba con los datos muestrales.

(9)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 9 5. Elegir un nivel de significación α .

6. Establecer la región crítica (si la decisión se va a basar en un valor p, no es necesario establecer la región crítica).

7. Decidir: rechazar Ho si el estadístico de prueba tiene un valor en la región crítica (o si el valor calculado de p es menor o igual que el nivel de significación deseado α );

de otra forma, no rechazar Ho.

4. TEST RELACIONADOS CON UNA SOLA MEDIA (VARIANZA

CONOCIDA):

Presentamos los test de hipótesis acerca de una sola media de población. Se deben, en primer lugar, describir las suposiciones sobre las cuales se basa el experimento. El modelo para la situación fundamental se centra alrededor de un experimento X1, X2,..., Xn que representa una muestra aleatoria de una distribución con media µ y varianza σ2.

Caso bilateral

Considérese primero la hipótesis:

Ho:µ=µo H1:µ ≠µo

El estadístico de prueba apropiado deberá basarse en la variable aleatoria X . Ya sabemos, según el Teorema Central del Límite, que, al margen de la distribución de X, la variable aleatoria tiene una distribución aproximadamente Normal con media µ y desviación típica σ

n.

Conviene normalizar la variable aleatoria : (0,1) /

= X − ≡

X Z N

n µ

σ .

Puede, entonces, determinarse una región crítica con base en el promedio muestral calculado, .

(

1 2 < < 1 2

)

= 1 2 < X/ < 1 2= −1

P z Z z P z z

α α α µn α α

σ puede utilizarse para escribir una región crítica apropiada.

X

X

(10)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 10 Formalmente, la región crítica se crea a partir de α , la probabilidad de error tipo I.

Contraste bilateral (2 colas) 0 0

1 0

: :

=

H H

µ µ µ µ

Hasta este momento, habrá una región crítica de dos colas para la prueba.

El valor crítico z1−α/ 2 corresponde al percentil 1− α/ 2 en la distribución N(0,1), es decir,

1 / 2

P(Z≤z−α )= − α1 / 2.

Se necesita una señal de evidencia de dos colas para respaldar H

1. Así, dado un valor calculado , la prueba formal implica rechazar H0 si el estadístico de prueba calculado:

0

/

= X

z n

µ

σ cae dentro de la región crítica

1 2

< −

z z α o

1 2 <

z α z. En cuyo caso 1

2 <

z α z

Si 1 1

2 2

z α < <z z α no se rechaza Ho.

El rechazo de implica la aceptación de la hipótesis alternativa µ ≠ µo.

Con esta definición de la región crítica, existirá la probabilidad α de rechazar Ho (al caer en la región crítica) cuando, en realidad µ = µo.

O bien, calculando el p-valor=2P(Z>|z|) y comparándolo con α:

p>α se acepta la hipótesis nula, y por lo tanto µ = µo p<α se rechaza la hipótesis nula, y por lo tanto µ ≠ µo X

Ho

(11)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 11 Caso unilateral

Las pruebas de hipótesis unilaterales acerca de la media, comprenden el mismo estadístico que el descrito para el caso bilateral. Aquí la región crítica es de una sola cola de la distribución normal.

Contraste unilateral (cola de la izquierda) 0 0

1 0

: :

<

H H

µ µ µ µ

El valor crítico −z1−α corresponde al percentil α en la distribución N(0,1), es decir, P(Z≤ −z1−α)= α , o bien P(Z≤z1−α) 1= − α .

Para H1:µ < µo, la región crítica está dada por

z < − z

1−α, o bien, p-valor=

P(Z < z)

.

Contraste unilateral (cola de la derecha) 0 0

1 0

: :

<

H H

µ µ µ µ

El valor crítico z1−α corresponde al percentil 1− α en la distribución N(0,1), es decir, P(Z≤z1−α) 1= − α

Para H1:µ >µo, el rechazo (región crítica) resulta cuando

z

1−α

< z

, o bien, p-valor=

P(Z z)

= >

.

(12)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 12 1 Ejemplo:

Se supone que un topógrafo realiza como mínimo 42 mediciones diarias. Ante la duda se hace una comprobación observando las mediciones durante 10 días seleccionados al azar, observándose una media de 40. Suponiendo normalidad con varianza 16 en la distribución de las mediciones diarias con un nivel de significación de 0,05 la suposición inicial. Realizar el contraste para la media.

Solución:

Estamos ante un caso de contraste unilateral para la media de una población normal con varianza conocida.

0 0

1 0

H : 42

H : 42

µ = ≤ µ

µ = > µ

Sabemos que: (0,1)

/

= X − ≡

Z N

n µ σ

El valor del estadístico z bajo la hipótesis nula es:

0 40 42

= -1.581138830

/ 4 / 10

− −

= X =

z n

µ σ

Para α=0,05 en la N(0,1) tenemos que:

(

< − 1

)

= ⇔

(

< − 0,95

)

=0, 05⇒ − 0,95 = −1, 64

P Z z α α P Z z z

Como el valor de nuestro estadístico z bajo la hipótesis nula cae dentro de la región de aceptación (-1,64<-1,58), se ACEPTA que el topógrafo realiza como mínimo 42 mediciones diarias.

O bien, calculamos el p-valor=P(Z<z)=P(Z<-1,581)=0,05693902 > α

(13)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 13 WOLFRAMALPHA: z-test for population mean

5. RELACIÓN CON LA ESTIMACIÓN DEL INTERVALO DE CONFIANZA:

El procedimiento de test de hipótesis a la inferencia estadística, está muy relacionado con la estimación del intervalo de confianza. Para el caso de una sola media poblacional µ, conociendo σ2, la estructura de ambas pruebas de hipótesis y la estimación del intervalo de confianza, se basan en la variable aleatoria:

Z= X −µ σ n

Resulta, entonces, que la prueba de Ho: µ = µo en contraposición con H1:µ ≠ µo, en un nivel de significación α, es equivalente a calcular un intervalo de confianza del 1

(

−α

)

%

de µ y rechazar H0 si µo no está dentro del intervalo de confianza. Si está dentro del intervalo, no se rechaza la hipótesis.

La equivalencia es muy intuitiva: recordar que con un valor observado X , aceptar H0 con un nivel de significación α, implica que:

0

1 / 2 1 / 2 1 / 2 0 1 / 2

/

− < X− < ⇔ − < < +

z z X z X z

n n n

α α α α

µ σ µ σ

σ

Los intervalos de confianza tienen la ventaja frente a los contrastes de hipótesis de que siempre nos dan una idea de la zona en la que se va a encontrar el verdadero valor del parámetro poblacional, mientras que en el caso de los test, cuando se rechaza una hipótesis nula, no se conoce el valor del parámetro en cuestión. Todo lo que se sabe es que es más verosímil que el valor del parámetro sea mayor o menor que un valor concreto.

6. TEST SOBRE UNA SOLA MEDIA (VARIANZA DESCONOCIDA):

La aplicación de la t de Student tanto en intervalos de confianza como en test de hipótesis, se desarrolla bajo las siguientes suposiciones: las v.a. X1,..., Xn representan una

µo

(14)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 14 muestra aleatoria de una distribución con µ y σ2 desconocidos. Entonces la variable aleatoria

/

X S n

µ tiene una distribución t de Student con n-1 grados de libertad.

La estructura de la prueba es idéntica que para el caso de σ conocida, con la salvedad de que el valor de en el estadístico de prueba se reemplaza por la estimación calculada S, y la distribución normal se reemplaza por una distribución t.

Caso bilateral

Es decir, para la hipótesis bilateral: Ho:µ=µo

H1:µ ≠µo el rechazo de Ho, con un nivel de significación α, resulta cuando un estadístico t calculado: 0

/

= Xt S n

µ excede a ,n 1

1 2

t α o es menor que ,n 1

1 2

tα

− .

Contraste bilateral (2 colas) 0 0

1 0

: :

=

H H

µ µ µ µ

El valor crítico t1−α/ 2 corresponde al percentil 1− α/ 2 en la distribución tn-1, es decir,

n-1 1 / 2

P(t ≤t−α )= − α1 / 2.

O bien, calculando el p-valor=2P(tn-1>|t|) y comparándolo con α:

p>α se acepta la hipótesis nula, y por lo tanto µ = µo p<α se rechaza la hipótesis nula, y por lo tanto µ ≠ µo

Se conserva la equivalencia de la prueba t de Student de bilateral para una sola media, y el cálculo de un intervalo de confianza para µ, reemplazando σ por S.

σ

(15)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 15 Caso unilateral

Contraste unilateral (cola de la izquierda) 0 0

1 0

: :

<

H H

µ µ µ µ

El valor crítico −t1−α corresponde al percentil α en la distribución tn-1, es decir,

n-1 1

P(t ≤ −t−α)= α , o bien P(tn-1≤t1−α)= − α 1

Para H1:µ < µo, la región crítica está dada por t< −t1−α −,n 1 o bien, p-valor=P(tn-1<t)

Contraste unilateral (cola de la derecha) 0 0

1 0

: :

>

H H

µ µ µ µ

El valor crítico t1−α corresponde al percentil 1− α en la distribución tn-1, es decir,

n 1 1

P(t ≤t−α)= − α 1

Para H1:µ >µo, el rechazo resulta cuando t >t1−α −,n 1 o bien, p-valor=P(tn-1>t)

Para muestras pequeñas (n<30), con regularidad, es difícil detectar las desviaciones de una distribución normal.

(16)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 16 2 Ejemplo:

Se hace un envío de latas de conserva, de las que se afirma que el peso medio es de 1000 g.

Examinada una muestra de 5 latas, se han obtenido los siguientes datos: media 998 g y varianza muestral 19,6. ¿Puede mantenerse la hipótesis de que µ=1000, con un nivel de significación α=0,05? Obtener un intervalo de confianza al 95% para la media.

Solución:

Contrastamos la hipótesis 0

1

H : 1000 H : 1000

µ = µ ≠

Datos: n=5; X=998 ; S2 =19, 6; 1− α =0.95

t= X 0 998 1000 =1,009511502 S / n 19, 6 / 5

− µ = −

Buscaremos un valor t1−α/ 2 tal que P

(

−t1−α/ 2 <tn 1 <t1−α/ 2

)

= − α1 , siendo n-1 los grados de confianza.

DERIVE:

#1: NSOLVE(STUDENT(t, 4) = 0.975, t)

#2: t = 2.776445150

EXCEL: =INV.T(0,975;4) 2,77645086, o bien, =INV.T.2C(0,05;4)

Puesto que t =1,0095<2,7764, podemos ACEPTAR que la media es 1000 g.

WOLFRAMALPHA:

t-interval xbar=998, s=4.43, n=5

Tenemos una muestra pequeña (n=5) de varianza desconocida:

1 / 2,n 1 1 / 2,n 1

S S

I X t , X t

n n

α −α −α

 

= − + 

Datos: n=5; X=998 ; S2 =19, 6; 1− α =0.95; t0,975;4 =2, 776

( )

0.05

4.43 4.43

I 998 2.776 , 998 2.776 992.48,1003.51

5 5

α=

 

⇒ = − + =

Obviamente se cumple que la media µ =1000

(

992.48,1003.51

)

(17)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 17 7. TEST SOBRE DOS MEDIAS

7.1. Varianzas conocidas

Los test referidos a dos medias representan un conjunto de herramientas analíticas muy importantes para científicos e ingenieros.

Dos muestras aleatorias independientes de tamaños n1 y n2, respectivamente, se obtienen de dos poblaciones con medias y varianzas respectivas µ µ1, 2 y 1 2

2 2

σ σ, . Se sabe que la v.a. 1 2

(

1 2

)

2 2

1 2

1 2

X X

Z

n n

− − µ − µ

= σ +σ

tiene una distribución N(0,1).

Si podemos considerar que σ12 =σ (homocedasticidad), el estadístico anterior se reduce a: 1 2

(

1 2

)

1 2

X X

Z

1 1

n n

− − µ − µ

=

σ +

.

Estos dos estadísticos sirven como base para el desarrollo de los procedimientos de prueba sobre dos medias.

La hipótesis nula sobre dos medias puede escribirse:

0 1 2 0

H :µ − µ =d

La alternativa puede ser unilateral o bilateral. De nuevo, la distribución utilizada es la distribución del estadístico de prueba H0. Se calculan los valores X1 y X2, para σ y 1 σ , el 2 estadístico de prueba es:

1 2 0

2 2

1 2

1 2

X X d

z

n n

− −

= σ +σ

con una región crítica de dos colas en el caso de una alternativa de dos lados. Es decir, el rechazo de H0 en favor de H :1 µ − µ ≠1 2 d0 si

1 2 <

z α z o

1 2

< −

z z α . Las regiones críticas de una cola se utilizan en el caso de las alternativas unilaterales.

(18)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 18 3 Ejemplo

90 teodolitos son llevados a reparar a dos talleres distintos. 50 de ellos al taller A donde los repararon en un tiempo medio de 150 días con una desviación típica de 30 días. Los 40 restantes al taller B, siendo reparados en un tiempo medio de 160 días con una desviación típica de 25 días. Suponiendo que las varianzas son conocidas, ¿se puede considerar que el taller A es más adecuado que el B para conseguir una reparación más rápida?

Solución:

Queremos comparar las medias de dos poblaciones normales de varianzas conocidas.

0 A B

1 A B

H : H :

µ ≤ µ

µ > µ , luego 0 A B

1 A B

H : 0

H : 0

µ − µ ≤ µ − µ >

El estadístico de prueba es: A B

2 2

A B

A B

X X

z

n n

− =

σ σ

+

sustituyendo los valores

2 2

150 160

1.72

30 25

50 40

− = −

+

.

Estableciendo la hipótesis de la distribución normal.

Calculamos el p-valor = P(Z > -1,72) DERIVE: #1: 1-NORMAL(-1.72)

#2: 0.9572837792

EXCEL: =1-DISTR.NORM.ESTAND(-1,72) 0,95728378 WOLFRAMALPHA:

Probability -1.72<x normal distribution, mean=0, sd=1 0,957284 Se ACEPTA la hipótesis nula para cualquier valor de α <0,95728378

7.2. Varianzas desconocidas

Lo más frecuente es que se desconozcan las varianzas.

Si el científico está dispuesto a asumir que ambas distribuciones son normales, y que σ12 =σ , puede utilizarse la prueba t combinada (prueba t de dos muestras). El estadístico de prueba es:

1 2 0

p

1 2

X X d

t 1 1

S n n

− −

=

+

, siendo

2 2

2 1 1 2 2

p

1 2

S (n 1) S (n 1)

S n 1 n 1

− + −

= − + −

(19)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 19 Se utiliza la distribución t - Student con n1+n2-2 grados de libertad y la hipótesis bilateral no se rechaza cuando:

1 2 1 2

1 2,n n 2 1 2,n n 2

tα + − t t α + −

− < <

Las alternativas unilaterales sugieren regiones críticas unilaterales.

4 Ejemplo:

Se utilizan dos teodolitos para hacer ciertas determinaciones, pretendiendo averiguar si la media de los errores cometidos con uno y otro es idéntica para un nivel de significación del 5%. Se hacen 20 determinaciones con el teodolito A y se obtiene una media de 0,4 errores y una desviación típica de 0,2 y otras 20 determinaciones con el B obteniendo una media de 0,5 y una desviación de 0,3. Suponemos que las variables error son normales y con la misma varianza. Comparar los dos teodolitos.

Solución:

Queremos comparar las medias de dos poblaciones normales de varianzas desconocidas pero iguales y muestras pequeñas.

0 A B

1 A B

H : H :

µ = µ

µ ≠ µ , luego 0 A B

1 A B

H : 0

H : 0

µ − µ = µ − µ ≠

El estadístico de prueba es: A B

A B

x x

1 1 t

S n n

− =

+

siendo

2 2 2 2

2 A A B B

A B

(n 1)S (n 1)S 19 0.2 19 0.3

S 0.065

(n 1) (n 1) 19 19

− + − ⋅ + ⋅

= = =

− + − + con lo cual

A B

A B

x x 0.4 0.5

t 1.24

1 1 1 1

S 0.065

n n 20 20

− −

= = =

+ +

Calculando el p-valor=2P(tn-1>|1.24|)=0.2226 > α. Se ACEPTA la hipótesis nula.

WOLFRAMALPHA: 2Probability X>1.24, tudentTdistribution degrees of freedom 38

(20)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 20 Si por el contrario se supone que los dos conjuntos de datos proceden de distribuciones con varianzas desiguales. Se conoce con el nombre de Prueba t heterocedasticidad. Es el test de Welch.

( ) ( )

2 2 2

1 2

1 2

2 2

2 2

1 1 2 2

1 2

s s

n n

g.l.

s / n s / n

n 1 n 1

 

 + 

 

=

− + −

Puesto que el resultado del cálculo normalmente no es un entero, el valor de los grados de libertad se redondea al entero más próximo para obtener un valor crítico de la distribución t.

8.2. PRUEBAS RELACIONADAS CON VARIANZAS PUEBA PARA UNA MUESTRA

Sea X1, X2,…,Xn una muestra aleatoria de una distribución Normal con media µ desconocida y varianza σ2 desconocida.

Contemplamos primero el problema de probar la hipótesis nula Ho de que la varianza poblacional σ2 es igual a un valor especificado σo2.

2 2

0 = 0

H :σ σ Ahora, se nos plantean tres posibles hipótesis alternativas:

2 2

1 < 0

H :σ σ ; H :1 σ2 ≠σ ; 02 H :1 σ202

El estadístico apropiado sobre el que se basa la decisión es el estadístico chi-cuadrado utilizado para determinar un intervalo de confianza para σ2. Por tanto, si suponemos que la distribución de la población que está siendo muestreada es normal, el valor chi-cuadrado para probar σ2o2 está dado por:

2 2

2

2 n 1 2

0

(n 1)S (n 1)S

− ≡ χ ⇒ − = χ

σ σ

donde n es el tamaño de la muestra, S2 es la varianza muestral y σo2 es el valor de σ2 dado por la hipótesis nula. Si Ho es verdadera, χ es un valor de la distribución chi-cuadrado con n -1 grados de libertad.

(21)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 21 Caso bilateral

De aquí que, para una prueba de dos colas con un nivel de significación α, la región crítica es 0< <χ χ y α/ 2 χ χ> 1α/ 2. R C. .=

[

0,χα/ 2)∪

(

χ1α/ 2,+∞

)

El valor crítico χ corresponde al percentil α/ 2 α/ 2 en la distribución χ , es decir, 2n 1

2

n 1 / 2

P(χ < χα )= α/ 2.

El valor crítico χ1−α/ 2 corresponde al percentil 1− α/ 2 en la distribución χ , es decir, 2n 1

2

n 1 1 / 2

P(χ < χ−α )= − α1 / 2.

Contraste bilateral (2 colas) 0 0

1 0

: :

=

H H

σ σ σ σ

O bien, calculando el p-valor =

2 mín P ( ( χ < χ

2n 1

) ( , P χ > χ

2n 1

) )

y comparándolo con α:

p > α se acepta la hipótesis nula, y por lo tanto σ2o2. p < α se rechaza la hipótesis nula, y por lo tanto σ2≠σo2.

(22)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 22 Caso unilateral

Contraste unilateral (cola de la izquierda) 0 0

1 0

: :

<

H H

σ σ σ σ

Para la alternativa unilateral σ2o2, la región crítica es χ χ .< α R C. .=

[

0,χα)

El valor crítico χ corresponde al percentil α en la distribución α χ , es decir, 2n 1

2

P(χn 1 < χ = αα) .

O bien, calculando el p-valor =

P ( χ < χ

2n 1

)

y comparándolo con α:

p > α se acepta la hipótesis nula, y por lo tanto σ σ≥ 0. p < α se rechaza la hipótesis nula, y por lo tanto σ σ . < 0

Contraste unilateral (cola de la derecha) 0 0

1 0

: :

>

H H

σ σ σ σ

Para la alternativa unilateral σ2 >σ , la región crítica es 02 χ χ .> 1−α R C. .=

(

χ1α,+∞

)

El valor crítico χ corresponde al percentil 1− α en la distribución 1−α χ , es decir, 2n 1

2

n 1 1

P(χ < χ−α)= − α1 .

(23)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 23 O bien, calculando el p-valor =

P ( χ > χ

2n 1

)

y comparándolo con α:

p > α se acepta la hipótesis nula, y por lo tanto σ σ≤ 0. p < α se rechaza la hipótesis nula, y por lo tanto σ σ . > 0

Para probar una hipótesis acerca de una varianza poblacional, se procede siguiendo los mismos 6 pasos básicos indicados antes.

5 Ejemplo:

Se desea contrastar si puede suponerse razonablemente que en un nuevo proceso de fabricación de filamentos la varianza del grosor es de 4 milímetros. Para ello se toma una muestra de 28 filamentos que arroja una varianza muestral de 2 milímetro. Suponiendo la variable normal, contrastar la hipótesis en los grosores de los filamentos a un nivel de significación de 0,05.

Solución:

Se trata de realizar un contraste bilateral para la varianza poblacional con media desconocida suponiendo normalidad.

2 2

0 0

2 2

1 0

H : 4

H : 4

σ = σ = σ ≠ σ =

Sabemos que:

2 2 2 n 1

(n 1)S

− ≡ χ

σ En nuestro caso

2

2 0

(n 1)S 27 2 13, 5 4

− ⋅

χ = = =

σ

Por otro lado, los valores críticos para α=0,05 y n=28

0.025,27 2,n 1

α

χ = χ 0.975,27

1 ,n 1 2

α

χ = χ

(24)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 24 Para α = 0,05 ⇒ χ ≤ χP( 227 0.025,27)=0.025⇒ χ0.025,27 =14, 57

Para α = 0,05 ⇒ χ ≤ χP( 227 0.975,27)=0.975⇒ χ0.975,27 =43,19

siendo 13,5 menor que 14,57 RECHAZAMOS la hipótesis nula de que la varianza del grosor de los filamentos es 4 milímetros.

EXCEL: = INV.CHICUAD(0,025;27) 14,75; INV.CHICUAD (0,975;27) 43,19

O bien, calculando el p-valor =

2 mín P ( ( χ <

2n 1

13.5 , P ) ( χ >

2n 1

13.5 ) ) = 0.02865 < α

WOLFRAMALPHA: 2Probability X<13.5, Chi Square Distribution degrees of freedom 27

Al rechazar la hipótesis nula, aceptamos la hipótesis alternativa de que la varianza no es 4; pero podemos plantearnos si es menor que 4 o mayor que 4.

Solución:

Ahora se trata de realizar un contraste unilateral para la varianza poblacional con media desconocida suponiendo normalidad.

2 2

0 0

2 2

1 0

H : 4

H : 4

σ < σ = σ ≥ σ =

Sabemos que:

2 2 2 n 1

(n 1)S

− ≡ χ ⇒

σ

2

2 0

(n 1)S 27 2 13, 5 4

− = ⋅ =

σ El valor crítico para α = 0,05 y n=28

1−α −,n 1 0.95,27

χ = χ

Para α = 0,05 ⇒ χ ≤ χP( 227 0.95)=0.95⇒ χ 0.95 =40.11 EXCEL: = INV.CHICUAD(0,95;27) 40,11

WOLFRAMALPHA: Chi Square Distribution degrees of freedom 27

PERCENTIL 0.95 40.1133

siendo 13,5 menor que 40,11 ACEPTAMOS la hipótesis nula de que la varianza del grosor de los filamentos es menor de 4 milímetros.

O bien, calculando el p-valor =

P ( χ >

2n 1

13.5 ) = 0.98567 > α

WOLFRAMALPHA: 2Probability X<13.5, Chi Square Distribution degrees of freedom 27

(25)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 25 HOMOCEDASTICIDAD

PUEBA PARA DOS MUESTRAS (Comparación de poblaciones)

Considérese ahora el problema de probar la igualdad de varianzas σ12 y σ22, de dos poblaciones. Esto es, debe probarse la hipótesis nula Ho de que σ12 = σ22 en contraposición a una de las alternativas usuales σ1222, σ1222 ó σ12≠σ22.

Para muestras aleatorias independientes de tamaños respectivos n1 y n2, de las dos poblaciones, el valor f para probar σ1222 es la razón f = s12

s22 donde s12 y s22 son las varianzas calculadas a partir de las dos muestras. Si las dos poblaciones tienen distribuciones aproximadamente normales, y la hipótesis nula es verdadera, de acuerdo en resultados obtenidos, la relación f es un valor de la distribución F de Snedecor con n1-1 y n2-1 grados de libertad. Por tanto, las regiones críticas, con nivel de significación α correspondientes a las alternativas unilaterales σ1222 y σ1222 son respectivamente,

1 2

,n 1,n 1

f <Fα y

1 2

1 ,n 1,n 1

f >F−α .

Para la alternativa bilateral σ12≠σ22, la región crítica es

1 2

,n 1,n 1 2

f Fα

< y

1 2

1 ,n 1,n 1 2

f F α

> .

6 Ejemplo:

Se pretende comparar dos métodos de eliminación de observaciones. Se seleccionan una muestra de 50 series con observaciones aberrantes y a 25 de ellas se le aplica el método A y a las otras 25 el B. Los resultados obtenidos son los siguientes:

Método A : xA =4, 3; SA =1, 4 Método B : xB =3, 6; SB =1,1

Suponiendo la variable normal, contrastar la hipótesis de igualdad de medias a un nivel de significación α =0,05.

(26)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 26 Solución:

Debemos en primer lugar contrastar la hipótesis de igualdad de varianzas

2 2

0 A B

2 2

1 A B

H : H :

σ = σ σ ≠ σ

A B A B

2 A

2 ,n 1,n 1 1 ,n 1,n 1

B 2 2

S F , F

S α α

 

∈ 

 

( ) ( )

2 2

A

0.975,24,24 0.025,24,24

2 2

B

S 1.4

1.62 F , F 0.44, 2.27

S =1.1 = ∈ =

DERIVE:

#1: NSOLVE(F_DISTRIBUTION(x, 24, 24) = 0.975, x, 0, 1)

#2: x = 0.4405911279

#3: NSOLVE(F_DISTRIBUTION(x, 24, 24) = 0.025, x, 0, 5)

#4: x = 2.269129557

EXCEL: =INV.F(0,975;24;24) 0,44066972; =INV.F(0,025;24;24) 2,26927455 0,44 < 1,62 < 2,27 y por tanto aceptamos la hipótesis de varianzas iguales.

Contrastamos ahora la igualdad de medias de dos poblaciones normales de varianzas desconocidas pero iguales y muestras pequeñas.

0 A B

1 A B

H : H :

µ = µ µ ≠ µ

El estadístico de prueba es:

A B

A B

,n n 2 2

A B

X X

t

1 1

S n n

α +

− =

+

siendo

2 2 2 2

2 A A B B

A B

(n 1)S (n 1)S 24 1.4 24 1.1

S 1.585

(n 1) (n 1) 24 24

− + − ⋅ + ⋅

= = =

− + − + con lo cual

A B

A B

X X 4.3 3.6

1.966

1 1 1 1

S 1.585

n n 25 25

− −

= =

+ +

y para α = 0,05, t0.975,48=2

DERIVE: #1: NSOLVE(STUDENT(x, 48) = 0.975, x, Real)

#2: x = 2.010634765

EXCEL: =INV.T.2C(0,05;48) 2,01063472

Como 1.93 < 2 admitimos la hipótesis de igualdad de medias.

(27)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 27 9. PRUEBAS SOBRE PROPORCIONES

PUEBA PARA UNA MUESTRA

De una población con una proporción p de elementos con una característica (éxito) extraemos una muestra X1, X2,…,Xn en cuyo caso se trata de una distribución B(n,p) y tiende a una distribución Normal.

La proporción muestral es

1

1

=

=

n k

k

p X

n

(1 )

 , − 

 

 

 

p p

N p n

Se considerar probar que la proporción de éxitos en un experimento binomial es igual a un valor específico.

Contemplamos primero el problema de probar la hipótesis nula Ho de que la proporción de éxitos p0 es igual al parámetro de la distribución binomial.

0 0

H : p= p

Ahora, se nos plantean tres posibles hipótesis alternativas:

1 0

H : p< p ; H : p1p0; H : p1 > p0

El valor

n pes el número de éxitos en una muestra de tamaño n. Los valores de la distribución binomial X que están lejos de la media, npo, conducirá al rechazo de la hipótesis nula.

Caso bilateral

Contraste bilateral (2 colas) 0 0

1 0

: :

=

H p p

H p p

Calculando el p-valor =

2 mín P X p , P X p

   <     >   

     

 

y comparándolo con α:

p-valor > α se acepta la hipótesis nula, y por lo tanto p= p . 0 p-valor < α se rechaza la hipótesis nula, y por lo tanto pp . 0

(28)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 28 Caso unilateral

Contraste unilateral (cola de la izquierda) 0 0

1 0

: :

<

H p p

H p p

Calculando el p-valor =

P X p

 <

 

 

y comparándolo con α:

p-valor > α se acepta la hipótesis nula, y por lo tanto pp0. p-valor < α se rechaza la hipótesis nula, y por lo tanto p< p . 0

Contraste unilateral (cola de la derecha) 0 0

1 0

: :

<

H p p

H p p

Calculando el p-valor =

P X p

 >

 

 

y comparándolo con α:

p > α se acepta la hipótesis nula, y por lo tanto p< p0. p < α se rechaza la hipótesis nula, y por lo tanto pp0.

7 Ejemplo:

Un fabricante afirma que solamente el 4% de sus artículos son defectuosos. Se analizan 350 artículos y se encuentran 7 defectuosos.

Solución:

Planteamos el contrastar

0

1

: 0, 04 : 0, 04

>

H p H p

p-valor =

7

0.9715417229 350

 

 >  = > ≈

   

   

P X p P X

, Se acepta H0

siendo (1 ) 0.04(1 0.04)

, 0.04,

350

 −   − 

≡  =  

p p

X N p N

n

PUEBA PARA DOS MUESTRAS

Deseamos probar que dos proporciones son iguales para ello obtenemos dos muestras X1, X2,…,Xn e Y1, Y2,…,Ym de dos poblaciones B(n,px) y B(m,py). Considerando que n>30 y m>30

Se define el estadístico diferencia de proporciones muestrales

(29)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 29

1 1

1 1

= =

− =

n

m

x y k k

k k

p p X Y

n m

(1 )

(1 )

,

 − − + − 

 

 

 

y y

x x

x y

p p

p p

N p p

n m

Para probar una hipótesis acerca de la diferencia de proporciones, se procede siguiendo los mismos pasos básicos indicados antes.

8 Ejemplo:

Realizar un contraste sobre la influencia del nivel de estudios de los padres en el hijo mayor con 123 padres universitarios y 52 con estudios primarios, resultando que el hijo mayor había realizado estudios universitarios en 78 y 36 familias respectivamente. ¿Se puede admitir que la proporción de universitarios es igual?

Solución:

Planteamos el contrastar

0 1 2 1 2

1 1 2 1 2

: 0

: 0

= ⇔ − =

≠ ⇔ − ≠

H p p p p

H p p p p

Como la muestra es suficientemente grande la diferencia de proporciones se puede considerar Normal

1 2

− ≡

p p 1 2 1(1 1) 2(1 2)

 , − − 

− +

 

 

 

p p p p

N p p

n m

p1 y p2 son las proporciones de las poblaciones, que desconocemos, pero para el cálculo de la desviación típica las podemos aproximar por las proporciones muestrales. Pero la hipótesis nula estable la igualdad de las proporciones poblacionales, por tanto, se debe calcular un valor común. El valor adecuado es la proporción combinada: 1 2

+

= +

np mp

p n m

1 2

− ≡

p p 1 2 1 1

, 1

 −  −  + 

   

   

 

N p p p p

n m

Tenemos que

1 2

78 36 78 36

123; 52; 0.69; 0.63; 0.6514285714

123 52 123 52

+

= = = = = = = =

n m p p p +

con

1 2

1 1 1 1

, 1 0.69 0.63, 0.6514285714(1 0.6514285714)

123 52

      

≡  −  −  + =  − −  + 

X N p p p p N

n m

(

0.06, 0.07882139035

)

X N

p-valor = 2 P X

(

<0

) (

≈2 0.2232644235

)

≈0.4465,

Se acepta H0. No hay evidencias para rechazar que la proporción de universitarios es igual.

(30)

Contraste de Hipótesis

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 30 10. TEST DE BONDAD DE AJUSTE.

Hasta ahora, hemos estudiado aspectos o planteamientos, de un problema que, de forma general, trata de tomar decisiones sobre alguna característica de la población, a partir del estudio de una muestra de dicha población.

El problema que vamos a tratar es el de la conformidad de una distribución experimental y una distribución teórica; esto es, sustituir la distribución experimental (distribución de la muestra de la población), el histograma, o la distribución de frecuencias, por una distribución teórica conocida.

Se trata ahora de ajustar una distribución experimental a una distribución teórica; es decir, ver si de los resultados obtenidos en una muestra de una población, podemos suponer que la población sigue una determinada distribución.

Según sea el histograma o la tabla de frecuencias de la muestra, hacemos una hipótesis sobre la distribución de la población, que estudiaremos en un test de ajuste que mide la bondad de ajuste.

Sea n el tamaño de la muestra y agrupamos en k clases, y sea ni la frecuencia absoluta observada de la clase i. A partir de la muestra estimamos los parámetros de la población teórica, y una vez obtenidos éstos, calculamos la probabilidad pi que le corresponde a cada intervalo i. Las correspondientes frecuencias absolutas teóricas (esperadas) serán npi.

Sean:

n = tamaño de la muestra k = número de clases

ni = frecuencia absoluta de la clase i

pi = probabilidad de cada clase según la distribución teórica

npi = frecuencia absoluta de cada clase según la distribución teórica h = número de parámetros estimados a partir de la muestra

λ = número de grados de libertad

Referencias

Documento similar

Otro aporte interesante del estudio es que tanto en las sesiones más intensas como en las más livianas se alcanza una correlación significativa con la percepción de los

Finally, the results in item 20, regarding the responsibility given in the classes, show a significant correlation in the less intense classes, reflecting that the commitment

El objetivo de este trabajo es analizar la presencia de TAI y de contraste espontáneo en la aurícula izquierda (CEspAI) en una población de pacientes ancianos mayo- res de 65 años

Se llega así a una doctrina de la autonomía en el ejercicio de los derechos que es, en mi opinión, cuanto menos paradójica: el paternalismo sería siempre una discriminación cuando

Edwards, Lindmann y Savage(1963) fueron los primeros que se aproximaron a] problema de la relación entre e] p—valor y la evidencia bayesiana utilizando una clase de

• Ejemplo: «Se está estudiando un nuevo fármaco para poder utilizarlo contra el cáncer de piel. Se espera que sea eficaz en la mayoría de los pacientes sobre los que se

Sometemos a comprobación esta hipótesis mediante una prueba de t de contraste entre medias para grupos independientes, en función de si los alumnos han cursado secundaria en el mismo

saginata, se considera común en Europa del este (15), con una prevalencia mucho más baja en Europa occidental (del orden de 0.01%) (16).. Las infecciones humanas son endémicas