TEMA 7.- CONTRASTES DE HIPÓTESIS

(1)

TEMA 7.- CONTRASTES DE HIPÓTESIS

1 Contrastes de hipótesis Tipos de contrastes

1 .- Contrastes de hipótesis. Tipos de contrastes.

2.- Elementos de un contraste:

2 1 Hipótesis nula e hipótesis alternativa

2.1.- Hipótesis nula e hipótesis alternativa.

2.2.- Nivel de significación de un contraste .Tipos de

errores

errores.

2.3.- Estadístico del contraste

2 4 - Región crítica o región de rechazo

2.4. Región crítica o región de rechazo.

3.- Casos generales a estudiar en contrastes

paramétricos. Ejemplo de resolución de un contraste

p

j

p

paramétrico.

(2)

TEMA 7.- CONTRASTES DE HIPÓTESIS

5 - Pasos a seguir en un contraste

5.- Pasos a seguir en un contraste.

6.- Casos particulares a estudiar en contrastes

paramétricos. Cálculo del p-valor para cada caso.

p

7.- Comentarios para problemas.

8.- Contrastes de hipótesis no paramétricos:

p

8.1.- Introducción. Pasos a seguir en un contraste no paramétrico.

paramétrico.

8.2.- Contraste de la chi-cuadrado para modelos discretos. 8 3 - Contraste de Kolmogorov- Smirnov para modelos 8.3. Contraste de Kolmogorov Smirnov para modelos continuos.

(3)

Ó

1.- CONTRASTES DE HIPÓTESIS. TIPOS DE

CONTRASTES



Un contraste de hipótesis es una técnica

estadística para decidir sobre si “

aceptamos”

o

“

rechazamos”

una cierta hipótesis,

en términos

probabilísticos

.



Un contraste de hipótesis siempre se plantea en

términos de dos hipótesis, que llamaremos

HIPÓTESIS NULA HIPÓTESIS

HIPÓTESIS NULA

e

HIPÓTESIS

ALTERNATIVA.



Un contraste

no es na demostración de ning na



Un contraste

no es una demostración de ninguna

de las dos hipótesis.

Nos indica si, con los datos

de los que disponemos es

MÁS VERAZ

una

de los que disponemos, es

MÁS VERAZ

una

hipótesis que la otra.

(4)

TIPOS DE CONTRASTES DE HIPÓTESIS: hay dos tipos de contrastes:

É

1.- CONTRASTES PARAMÉTRICOS: Las hipótesis se hacen sobre el valor o valores que puede tomar un parámetro/s

desconocido/s θ Los parámetros son: desconocido/s θ. Los parámetros son:

 Si estudiamos una característica X: la media µ, la varianza σ2

(o la desviación típica σ) o la proporción p de individuos que

i i d d

poseen una cierta propiedad.

Ejemplo 1: Se conoce que la vida media de los elementos resultantes de un proceso de fabricación es de 5000 horas Se resultantes de un proceso de fabricación es de 5000 horas. Se introducen mejoras en el proceso y se quiere saber si la vida media ha aumentado o no ( = 5000 ó  > 5000).

 Si estudiamos dos características X e Y: sus medias, µ_X y µ_Y,

o sus varianzas,σ2

X y σ2Y.

Ejemplo 2: Se desea estudiar si la remuneración media obtenida Ejemplo 2: Se desea estudiar si la remuneración media obtenida en un trabajo análogo por personas de la misma cualificación profesional depende del sexo o no (_X = _Y o _X  _Y ).

(5)

2.- CONTRASTES NO PARAMÉTRICOS: Las hipótesis se hacen sobre el modelo de distribución que sigue la variable que se está estudiando

que se está estudiando.

Estos contrastes se han visto en prácticas: Estos contrastes se han visto en prácticas:

 Contraste de la Chi-cuadrado (chi-square test) para modelos discretos.

 Contraste de Kolmogorov-Smirnov (K-S test) para modelos continuos.

Ejemplo 3: Se desea saber si la variable que mide la altura en la población española sigue una distribución normal o no

población española sigue una distribución normal o no. Los elementos de un contraste, que veremos en el punto Los elementos de un contraste, que veremos en el punto

siguiente, son comunes a los contrastes paramétricos y a los no paramétricos.

(6)

2 OS

CO

AS

2.- ELEMENTOS DE UN CONTRASTE

Los elementos que componen un contraste son:

 Hipótesis nula (H₀) e hipótesis alternativa (H₁): recogen las

dos hipótesis que se quieren estudiar. Suelen ser complementarias

complementarias.

 Nivel de significación α: Mide el máximo error que queremos

cometer al tomar la decisión en términos probabilísticos cometer al tomar la decisión, en términos probabilísticos.

 La/s muestra/s: los datos que se toman x₁, x₂,…, x_n de la

característica en estudio X ( si se estudian dos características X e característica en estudio X ( si se estudian dos características X e Y, se toma una muestra de cada una de ellas).

 Estadístico del contraste: Es el estadístico que usaremos para q p

tomar la decisión del contraste, T(X₁, X₂,…, X_n ).

 Región crítica o de rechazo: Si T(x₁₁, x₂₂,…, x_n_n ) pertenece a esta

región de la recta real, la decisión del contraste será rechazar H₀ y aceptar H₁. En caso contrario, aceptaremos H₀.

(7)

2.1.-HIPÓTESIS NULA E HIPÓTESIS ALTERNATIVA

 Un contraste de hipótesis siempre consta de dos hipótesis: la p p p

hipótesis nula (H₀) y la hipótesis alternativa (H₁). Suelen ser hipótesis complementarias.

 En un contraste la hipótesis H₀ es la hipótesis que marca el

contraste: H₀ se considera cierta mientras los datos no

d t l t i

demuestren lo contrario.

 Por ese motivo, el planteamiento habitual es:

 Hipótesis nula (H ): la hipótesis con la que se viene  Hipótesis nula (H₀): la hipótesis con la que se viene

trabajando hasta el momento. En algunos problemas es una hipótesis neutra, que no toma partido por ninguna alternativa.

 Hipótesis alternativa (H₁): es la hipótesis que

incorpora los cambios sobre lo que suele ser la manera incorpora los cambios sobre lo que suele ser la manera habitual de trabajar. Suele ser una hipótesis que toma partido (no neutra).

(8)

Ejemplo 4: Se conoce que la vida media de los elementos resultantes de un proceso de fabricación es de 5000 horas. Se

introducen mejoras en el proceso y se quiere saber si la vida media introducen mejoras en el proceso y se quiere saber si la vida media ha aumentado o no, el planteamiento correcto para las hipótesis nula y alternativa sería:

H₀:  = 5000

H₁:  > 5000

Con este planteamiento:

S id i l id di d l l i

 Se considera cierto que la vida media de los elementos sigue

siendo de 5000 horas (H₀).

 Se tomarán datos después de haber introducido las mejoras para  Se tomarán datos después de haber introducido las mejoras para

ver si estos datos confirman que, efectivamente, se ha producido una mejora en la vida media de los elementos resultantes de un

d f b i i i l d l i di h

proceso de fabricación. Si los datos así lo indican, rechazaremos H₀ y aceptaremos H₁.

(9)

L it ió á i il l l t i t d t t l d

La situación más similar al planteamiento de un contraste es la de un

juicio: H₀: inocente

H : culpable

H₁: culpable

A un enjuiciado se le considera inocente mientras las pruebas no demuestren lo contrario. Entonces,

1.- La hipótesis H₀ se considera cierta de entrada SIEMPRE. Solamente se aceptará como cierta la hipótesis H₁ si los datos m estran e idencia a fa or de H

muestran evidencia a favor de H₁.

2.- Aceptar H₀ no significa que H₀ sea cierta necesariamente sino que los datos NO muestran evidencia a favor de H₁.

los datos NO muestran evidencia a favor de H₁.

3.- Rechazar H₀ SIEMPRE significa aceptar H₁. Significa que los datos SÍ muestran evidencia a favor de H₁.

4.- Un contraste no es una demostración de ninguna de las dos hipótesis. Nos indica si, con nuestros datos, es más veraz una hipótesis que otra

hipótesis que otra.

5.-Al tomar cualquiera de las dos decisiones podemos estar cometiendo un error.

(10)

Ó

2.2.- NIVEL DE SIGNIFICACIÓN DEL CONTRASTE

TIPOS DE ERRORES.

 Al tomar una decisión sobre las hipótesis H₀ y H₁ se pueden

cometer dos tipos de errores:

 Error de tipo I: rechazar H₀ siendo cierta  Error de tipo I: rechazar H₀siendo cierta.  Error de tipo II: aceptar H₀siendo falsa.

 Estos errores se miden en términos de PROBABILIDAD e

i l b bilid d d b ñ

interesa que la probabilidad de cometer ambos sea pequeña.

 Definimos:

1 - = P(cometer error de tipo I) = 1.- = P(cometer error de tipo I) =

= P(rechazar H₀siendo H₀ cierta) = P(aceptar H₁siendo H₀ cierta) = = P(aceptar H₁/H₀ cierta)

 se llama nivel de significación del contraste

2.- P(cometer error de tipo II) = P(no rechazar H₀siendo H₀ falsa) = P(aceptar H₀ siendo H₀ falsa) = P(aceptar H₀ / H₀ falsa)

(11)

h d i id l d i

 Ejemplo 5: una empresa ha adquirido un lote de piezas para ser

montadas en sus equipos pero, para que sea rentable el proceso de montaje, la proporción de piezas defectuosas, p, debe de ser de montaje, la proporción de piezas defectuosas, p, debe de ser menor del 2%. En otro caso, el lote se devolverá a la empresa suministradora.  Posible planteamiento: 0 1 : 0.02 : 0.02 H p H p  

 Cometer error tipo I ( rechazar H₀ siendo cierta) significa

decidir que la proporción de defectuosas es menor del 2%

1

decidir que la proporción de defectuosas es menor del 2%

cuando en realidad no es así. Consecuencia: la empresa acepta un lote incorrecto por lo que no sería rentable el proceso de

t j montaje.

 Cometer error tipo II (aceptar H₀siendo falsa) significa decidir

que la proporción de piezas defectuosas en el lote es mayor o que la proporción de piezas defectuosas en el lote es mayor o igual que el 2% cuando en realidad no lo es.

(12)

 Interesaría minimizar la probabilidad de cometer ambos

tipos de errores pero se puede demostrar que cuando un

t l t di i i

error aumenta el otro disminuye y viceversa.

 Modo de trabajo:  Modo de trabajo:

 Se fija un valor pequeño para la probabilidad de

cometer uno de ellos, por ejemplo, el error de tipo I . co e e u o de e os, po eje p o, e e o de po . Este valor es el nivel de significación del contraste,  . Suele tomarse   0.1 (error máximo del 10%).

S li l i i i l d i II

 Se elige el contraste que minimice el error de tipo II .

 T d l t t t t

 Todos los contrastes que vamos a usar en este tema

(13)

 Por este motivo, en casos reales, las hipótesis se plantean

de manera que el error “más grave” sea el error de tipo

I l t l l i t d E i t l

I porque es el que controla el experimentador. Existe el problema de que “lo más grave” siempre es subjetivo.

 En el ejemplo 5, el planteamiento que hemos hecho sería el

adecuado 0 02 H₀  1 : 0.02 : 0.02 H p H p  

porque así definido, el error de tipo I (la empresa acepta un lote incorrecto por lo que no le resultaría rentable el proceso de montaje) es más grave que el error de tipo II (la empresa de montaje) es más grave que el error de tipo II (la empresa va a devolver un lote correcto).

 En los ejercicios de clase haremos planteamientos más

(14)

Í

 En CONTRASTES PARAMÉTRICOS, los estadísticos

OS S OS h d i l l

2.3.- ESTADÍSTICO DEL CONTRASTE

son LOS MISMOS que hemos usado en intervalos para los mismos casos. Si estudiamos una sola variable X:

á t t dí ti X 2 2 parámetro : estadístico parámetro :estadístico ˆ X S  

Si estudiamos dos variables X e Y, los parámetros son:

ˆ parámetro p : estadístico P , p 2 2 y X X Y X     _

En este caso, sí plantearemos las hipótesis del contraste pero no nos hace falta conocer los estadísticos porque los resolveremos con Statgraphics.

 En CONTRASTES NO PARAMÉTRICOS los

estadísticos que se emplean son distintos y los veremos más adelante.

(15)

Ó

Í

Ó

2.4- REGIÓN CRÍTICA O REGIÓN DE RECHAZO

La REGIÓN CRÍTICA R se define como el conjunto de valores del estadístico para los que se rechaza la hipótesis nula H y se del estadístico para los que se rechaza la hipótesis nula, H₀ y se acepta, por tanto, la hipótesis alternativa H₁ .

La región crítica de un contraste es un intervalo de la recta real. Sea X la variable en estudio. Tomamos una m.a.s. X₁, X₂,…, X_n de X Sea T(X X X ) el estadístico del contraste Entonces al X. Sea T(X₁, X₂,…, X_n ) el estadístico del contraste. Entonces, al sustituir nuestra muestra concreta X₁= x₁ X₂= x₂,…,X_n = x_n en el estadístico, decidiremos sobre el contraste planteado de la siguiente forma: siguiente forma:



1 2



0 1

Si

T x x

, ,...,

x

_n

 

R

Rechazar

H



Aceptar

H



1 2



0 0

Si

T x x

, ,...,

x

_n

 

R

No rechazar

H



Aceptar

H

Observación: Este procedimiento sirve tanto para contrastes

paramétricos donde se estudian una o dos características como para contrastes no paramétricos.

(16)

3.-CASOS GENERALESA ESTUDIAR EN CONTRASTES PARAMÉTRICOS CASO 1 H₀: =C ó   C CASO 2 H₀: =C ó  ≤ C CASO 3 H₀: = C

donde C es una constante CONOCIDA y θ es el parámetro

0 H₁:  C 0 H₁: > C 0 H₁:  C

donde C es una constante CONOCIDA y θ es el parámetro desconocido.

 Los contrastes de hipótesis nula H₀: =C ó H₀:   C se

l i l l ió í i S l l

resuelven igual porque la región crítica SIEMPRE la marca la

hipótesis alternativa, que es la misma en ambos casos, H₁:  C . Lo mismo sucede para los contrastes con H₀ : =C ó H₀ :  ≤ C.

mismo sucede para los contrastes con H₀:  C ó H₀:  ≤ C.

 Los casos 1 y 2 se llaman contrastes unilaterales. El caso 3 se

llama contraste bilateral.

 Las decisiones en el caso 3 con nivel de significación  las

(17)

Si T es el estadístico del contraste, la forma de la región crítica para cada caso la marca la hipótesis alternativa H₁. De hecho, para cada caso la marca la hipótesis alternativa H₁. De hecho, la forma de la región crítica es LA MISMA que la forma de H₁.

CASO 1 CASO 2 CASO 3

CASO 1 H₀: =C ó   C H₁:  C CASO 2 H₀: =C ó  ≤ C H₁: > C CASO 3 H₀: = C H₁:  C CASO 1 T < K CASO 2 T > M CASO 3 Intervalo para θ H₁:  C H₁: > C H₁:  C

Las constantes de las regiones críticas, K y M, se obtendrán a partir de la condición:

p

partir de la condición:

α = P(cometer error de tipo I) = P(rechazar H₀/H₀ cierta) = =P(aceptar H₁₁/H₀₀ cierta) = P(caer en R.C./ H₀₀ cierta)

(18)

Ó

EJEMPLO DE RESOLUCIÓN DE UN CONTRASTE PARAMÉTRICO

 Sea X v a N( ) m a s de tamaño 25 donde la media  Sea X v.a. N(,), m.a.s. de tamaño 25 donde la media

muestral es y la cuasidesviación típica es s = 5. Tomemos como nivel de significación del contraste  = 0.05.

l l 4.2 x  Planteamos el contraste: H₀ :  = 2 H > 2 H₁:  > 2

 El estadístico del contraste y la región crítica son:

 Vamos a calcular K a partir de la ecuación

Estadístico : X Región crítica : X  K ó X ( ,K )  Vamos a calcular K a partir de la ecuación





(error tipo I)

0.05 /

2

0.05 P

 





P X



K





y a tomar la decisión del contraste.

(19)

0.05 ( / 2) ( / 2) / / X K P X K P S n S n



 



       1 24 24 2 2 ( ) ( ) ( 2) / 5 / 25 n K K P t P t P t K S n          

IMPORTANTE: Para obtener las constantes de las regiones críticas en contrastes paramétricos vamos a usar los mismos

pivotes que en intervalos de confianza para los mismos casos. En este ejemplo, X v.a. N(,) con  desconocida, intervalo para μ, j p , (, ) , p μ, el pivote era: 1 / n X t S    

Y es el pivote que usaremos en la segunda igualdad. Entonces, en este ejemplo el cálculo de la constante K se va a reducir a mirar un

/

S n

este ejemplo, el cálculo de la constante K se va a reducir a mirar un valor en las tablas de la distribución t₂₄ .

(20)

Usando las tablas de la distribución t de Student: 24 24 ( 2) 0.05 ( 2) 0.95 2 1.7109 3.7109 P t K P t K K K             

La región crítica resultante es entonces:

.7 09 3.7 09

 

3.7109 ó

(3.7109,

)

X



X





Decisión: Con nuestros datos . Entonces, caemos en la

(

,

)

4.2

x 

región crítica por lo que la decisión del contraste es rechazar H₀ y aceptar H₁ : los datos muestran evidencia a favor de que  > 2.

(21)

0

24

Gráficamente, como la distribución de siendo cierta es / X H t S n    Mean,Std. dev. 0,1 0,3 0,4 0,2



0 0,1 -5 -3 -1 1 3 5 0 K _x _ _4.2

•Con K = 3.7109, la región crítica es la zona rayada en gris. Como , g y g _x  _4.2

hemos decidido rechazar H₀ porque ese valor cae en R.C.

• También podríamos tomar la decisión calculando

4.2

x



4.2 / 0



P X  x H cierta

p

y viendo que este valor (que es el área que queda a la derecha de la línea roja) es menor que α = 0.05.









•Al valor se le llama p-valor del contraste

Vamos a calcularlo en el ejemplo.



4.2 / 0



(22)

valor ( 4 2 / cierta) ( 4 2 / 2)

p  P X  x H  P X    

OBTENCIÓN DEL p-valor EN ESTE EJEMPLO

0 1 24 valor ( 4.2 / cierta) ( 4.2 / 2) 4.2 4.2 2 4.2 2 ( / 2) ( ) ( ) / / n / 5 / 25 p P X x H P X X P P t P t S S S   _{ }                      24 24 / / / 5 / 25 ( 2.2) 1 ( 2.2) 1 0.98 0.02 S n S n S n P t P t        

 Como p-valor = 0.02 <  = 0.05, se rechaza H₀ y se acepta H₁  Por supuesto, se llega a la misma decisión que si obtenemosp , g q

las región crítica y decidimos con ella.

 En la tercera igualdad estamos usando el mismo pivote que

i t l d fi l i

en intervalos de confianza para el mismo caso:

1 / n X t S n    

 Esto mismo haremos en todos los contrastes paramétricos. /

(23)

4.- DEFINICIÓN p – VALOR DE UN CONTRASTE

Vamos a volver sobre la definición de p-valor: El p-valor de un contraste es el mínimo nivel de significación a partir del cual se rechaza la hipótesis nula H₀ .

En el ejemplo, p-valor ≈ 0.02, entonces,

• Si 0.02 < , es decir, si  > 0.02, se rechaza H₀ y se acepta

H₁ . En el ejemplo, con  = 0.05 se da esta situación.

• Si 0.02 > , es decir, si  < 0.02 se acepta H₀. Si en el ejemplo tomásemos  = 0.01, se aceptaría H₀.

Por eso, el p-valor es el  más pequeño a partir del que se Por eso, el p valor es el  más pequeño a partir del que se rechaza H₀ y se acepta H₁ .

(24)

4.- DEFINICIÓN p – VALOR DE UN CONTRASTE

Definición: El p-valor de un contraste es el mínimo nivel de

significación a partir del cual se rechaza la hipótesis nula H₀ .

• El p-valor de un contraste se calcula como la probabilidad de la

región crítica limitada por el valor que toma el estadístico del

contraste con los datos de la muestra, supuesto H₀ cierta. Y en

ese cálculo, usaremos el mismo pivote que usábamos en

intervalos de confianza para el mismo caso intervalos de confianza para el mismo caso.

• Al ser una probabilidad, el p-valor [0,1].

•TOMA DE DECISIONES CON el p-valor: se compara con  y • Si p-valor <Si p-valor < , se rechaza H se rechaza H₀₀ y se acepta Hy se acepta H₁₁ , con más con más

certeza cuanto más cercano sea el p-valor a 0.

• Si p valor >  se acepta H con más certeza cuanto más • Si p-valor > , se acepta H₀, con más certeza cuanto más

(25)

5.- PASOS A SEGUIR EN UN CONTRASTE

 P 1 Pl t i t d l hi ót i l lt ti

 Paso 1: Planteamiento de las hipótesis nula y alternativa en

términos de los parámetros (contrastes paramétricos) o del modelo (contrastes no paramétricos).( p )

 Paso 2: Elegir el estadístico del contraste.

 Paso 3: Definir la región crítica del contraste. Se basa en el

estadístico del contraste y tiene la forma de la hipótesis alternativa en contrastes paramétricos.

 Paso 4: Calcular el p valor del contraste: todos los paquetes  Paso 4: Calcular el p-valor del contraste: todos los paquetes

estadísticos usan este método de resolución.

 Paso 5: Toma de decisiones: comparar el p-valor con α yp p y

 Si p-valor < , se rechaza H₀ y se acepta H₁ , con más

certeza cuanto más cercano sea el p-valor a 0.

 Si p-valor > , se acepta H₀, con más certeza cuanto

(26)

6.-CASOS PARTICULARES A ESTUDIAR EN CONTRASTES

PARAMÉTRICOS. CÁLCULO DEL p-VALOR PARA CADA CASO. Dentro de los tres planteamientos posibles:

CASO 1 CASO 2 CASO 3

H₀: =C ó   C H₁:  C H₀: =C ó  ≤ C H₁: > C H₀: = C H₁:  C los distintos parámetros θ serán:

• Si estudiamos una característica X: la media µ, la

i 2 _{( l d} _{i ió í i} _{) l} _ió

varianza σ2 _{(o la desviación típica σ)}_o _{la proporción p} de individuos que poseen una cierta propiedad.

• Si estudiamos dos características X e Y: la diferencia de medias, µ_X - µ_Y (permite comparar las medias) o el cociente de varianzas σ2 _{/ σ}2 _{(permite comparar las}

cociente de varianzas σ2

X / σ2Y (permite comparar las varianzas).

(27)

6.1.- Contrastes paramétricos para la media

 de una

variable X~N(μ,σ) y muestras pareadas si D = X – Y es

N(

)

N(μ

_D

= μ

_X

- μ

_Y

,σ)

L

l

l i l d i ifi

ió

id

Los valores μ

₀

y α, el nivel de significación, son conocidos.

0 : 0 H   0: 0 H   0 0 1 0 Intervalo de confianza : : H H       0 0 1 : 0 : . . R H X K C l   





1 0 0 : : ; / . . H X C P X x H RC p valor          Intervalo de confianza para  a nivel 1





0 0 0 / cierta / / X x P X x H P S n s n p valor                  0 0 / / X x P S n s n        _  _     0 1 / / / n S n s n x P t s n         _  _   0 1 / n x P t s n       _  _  

(28)

6.2.- Contrastes paramétricos para la media

 de una

variable X no normal con tamaño muestral n ≥ 100

Los valores μ

₀

y α, el nivel de significación, son conocidos.

0 : 0 H   0: 0 H   0 0 1 0 Intervalo de confianza : : H H       0 0 1 : 0 : . . R C l H X K   





1 0 0 : : ; / . . H X C P X x H RC p val ro          Intervalo de confianza para  a nivel 1





0 0 0 / cierta / / p val X x P X x H P S n s n or                  0 0 / / X x P S n s n        _  _       0 / / 0,1 / S n s n x P N s n        _  _  

 

_0,1 0 / x P N s n      _  _  

(29)

6.3.- Contrastes paramétricos para la varianza



2

_{de una}

variable X~N(μ,σ)

Ó



Este tipo de contrastes SÓLO se pueden resolver si la

variable X tiene distribución normal.

L

l

2

l i l d i ifi

ió



Los valores

σ

2₀

y α , el nivel de significación, son

conocidos.

2 2 H 2 2 0 0 2 2 1 0 : : H H       2 2 0 0 2 2 1 0 Intervalo de confianza : : H H      





1 0 2 2 2 0 2 2 : , / ( 1) ( 1) . . S C P S s H n R C p v S n s alor          0 2 02 2 2 1 0 2 : : H H       2 Intervalo de confianza para  a nivel 1 2 2 0 0 2 2 ( 1) ( 1) ( 1) n S n s P n s P      _  _         





2 2 2 2 2 0 2 2 0 0 : , ( 1) ( 1) / . . S K n R C p valo S n s P S s H P r             _  _    2 1 2 0 ( ) n P         0 0 2 2 1 2 0 ( 1) n n s P         _      

(30)

6 4 C é i l ió

6.4.- Contrastes paramétricos para la proporción, p

 Para poder realizar este contraste hace falta n ≥ 100.

 El pivote que se usa es DISTINTO al que se usa en intervalos  El pivote que se usa es DISTINTO al que se usa en intervalos

de confianza.

 Los valores p₀ conocido y α, el nivel de significación, son

id conocidos. 0 0 1: 0 : H p p H p p   0: 0 : H p p H p p   H p p0:  0 ₁ ₀ Intervalo de confianza para p a nivel 1 p p  





1 0 0 : ˆ _{ˆ ˆ} : , / . . H p p P C P P p H RC p valor         1:_ˆ 0 : , . . H p p P K RC p va rlo       0 0 0 0 0 0 ˆ _ˆ (1 ) (1 ) P p p p P p p p p    _ _              





0 0 0 0 0 0 0 ˆ _ˆ ˆ _{ˆ /} (1 ) (1 ) P p p p P P p H P p p p p    _ _               _{0 1} ˆ 0 n n p p P N        _     _{0 1} ˆ 0 n n p p P N        _      0 0 0 0,1 (1 ) p p P N p p n  _           0 0 0 0,1 (1 ) p p P N p p n        _ 

(31)

6.5.- Contrastes paramétricos para el cociente de varianzas, X~N(μ_X,σ_Y) e Y~N(μ_Y,σ_Y) 2 2 X Y  

 Los valores σ2₀ y α, nivel de significación, son conocidos.  En todos casos, las muestras tienen que ser independientesEn todos casos, las muestras tienen que ser independientes  Estos contrastes se plantearán ajustándose a uno de estos tres casos y se resolverán con Statgraphics.

2 2 2 0 0 2 2 2 : _X / _Y H    0 2 2 02 2 2 2 : / / X Y H H     2 2 2 0 0 2 2 2 1 0 : / : / X Y X Y H H         2 2 2 1: / 0 : Statgraphics X Y p va or H l     2 2 2 1 : / 0 : Statgraphics X Y p va or H l     2 2 _{: Statgraphi} intervalo para _X / _Y cs p valor ó   

IMPORTANTE: siempre que la variables sean NORMALES, lo primero que hay que hace es decidir si las varianzas son iguales o primero que hay que hace es decidir si las varianzas son iguales o distintas.

(32)

6.6.- Contrastes paramétricos para la diferencia de medias de dos variables X e Y normales o X e Y con

X Y

  

distribución cualquiera, n , m ≥ 100

L l i l d i ifi ió id

 Los valores μ₀ y α, nivel de significación, son conocidos.  En todos casos, las muestras tienen que ser independientes  Estos contrastes se plantearán ajustándose a uno de estos  Estos contrastes se plantearán ajustándose a uno de estos tres casos y se resolverán con Statgraphics.

0 0 1 0 : : X Y X Y H H           0 0 1 0 : : X Y X Y H H           0 0 1 0 : : X Y Y X H H           1 0 : Statgraphics X Y p va orl     : Statgraphics p va or l interv Stat alo para _X _Y : graphics ó p valor    

(33)

7.- COMENTARIOS PARA PROBLEMAS

1.- Lo primero que hay que hacer es ver en qué caso estamos (una p q y q q ( o dos variables, muestras independientes o pareadas, variables normales o no) y saber sobre qué parámetro nos piden tomar la decisión (media varianza o proporción; diferencia de medias decisión (media, varianza o proporción; diferencia de medias, cociente de varianzas).

2.- Es fundamental plantear correctamente el contraste:

 Hipótesis nula (H₀₀): poner la hipótesis con la que se viene

trabajando hasta el momento o bien una la hipótesis neutra, que no tome partido por ninguna alternativa.

 Hipótesis alternativa (H ): poner en esta hipótesis los  Hipótesis alternativa (H₁): poner en esta hipótesis los

cambios sobre lo que suele ser la manera habitual de

trabajar o bien la hipótesis que queremos verificar si es cierta usando los datos recogidos.

(34)

7.- COMENTARIOS PARA PROBLEMAS

3 - SIEMPRE nos adecuaremos a uno de estos tres

3. SIEMPRE nos adecuaremos a uno de estos tres planteamientos:

CASO 1 CASO 2 CASO 3

CASO 1 H₀: =C ó   C H :  C CASO 2 H₀: =C ó  ≤ C H : > C CASO 3 H₀: = C H :  C H₁:  C H₁: > C H₁:  C

 La resolución de los contrates tiene algunas limitaciones

“técnicas” en problemas académicos.

 La más importante es que el signo = de las hipótesis  La más importante es que el signo = de las hipótesis

siempre debe de ir en H₀.

(35)

7.- COMENTARIOS PARA PROBLEMAS

4 - Los planteamientos de las hipótesis se hacen ANTES de 4. Los planteamientos de las hipótesis se hacen ANTES de

tomar los datos de la muestra. Por ese motivo, en los ejercicios, NO hay que tener en cuenta los valores

t l h l l t i t

muestrales para hacer el planteamiento.

5 Con las tablas que tenemos no vamos a conseguir el valor 5.- Con las tablas que tenemos no vamos a conseguir el valor

exacto del p-valor y vamos a tener que acotarlo. Los

paquetes estadísticos (Statgraphics) sí dan el p-valor exacto. 6.- Los casos de contrastes para una variable y muestras

d di á l l

pareadas se pedirán resolver completos a mano.

Los casos de dos variables, muestras independientes, se resolverán con Statgraphics calculando el p-valor del resolverán con Statgraphics calculando el p-valor del contraste. Previamente, hay que hacer a mano el

(36)

7.- COMENTARIOS PARA PROBLEMAS

7 - En el caso de dos variables normales muestras

7. En el caso de dos variables normales, muestras

independientes, cuando tengamos que hacer un contraste para comparar las medias ,lo primero que hay que hacer

SIEMPRE d idi i l i i l

SIEMPRE es decidir si las varianzas son iguales o distintas. Una vez tomada esta decisión es cuando

pasaremos a realizar el contraste correspondiente a las

p p

medias.

8.- En el caso de contrastes para la varianza, σ2_{, o para el}

i d i 2 2 S h i l

cociente de varianzas, , Statgraphcis resuelve contrastes en términos de las desviaciones típicas. Por ejemplo, 2 _/ 2 X Y   j p , 2 0 0 2 1 1 : 49 : 7 : 49 : 7 H H H H         

(37)

Ó

8. CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS. INTRODUCCIÓN

 Las hipótesis se hacen sobre aspectos como el modelo de

distribución que siguen los datos que se están estudiando o ver si las observaciones que componen la muestra son

o ver si las observaciones que componen la muestra son

independientes.

 Sólo vamos a tratar hipótesis sobre el modelo de

distribución del que podrían proceder los datos recogidos de una variable aleatoria X (prácticas 2 y 3).

 Las hipótesis son del tipo:  Las hipótesis son del tipo:

H₀:X se distribuye según un modelo

H₁:X no se distribuye según ese modelo

 Ejemplos:

H₀₀: X es Bin(5, p) H₀₀: X es N(µ,σ)

(38)

8.1. PASOS EN UN CONTRASTE NO PARAMÉTRICO Son los mismos pasos que para contrastes paramétricos es decir Son los mismos pasos que para contrastes paramétricos, es decir,

 Paso 1: Planteamiento de las hipótesis:  Paso 1: Planteamiento de las hipótesis:

H₀: X sigue el modelo F_θ

H₁: X no sigue el modelo F_θ

 Paso 2: Elegir un estadístico a partir del cual se construye la

región crítica. No son los mismos estadísticos que en contrastes paramétricos (están en el formulario) Elegir el nivel de

paramétricos (están en el formulario). Elegir el nivel de significación α.

 Paso 3: Definir la forma de la región crítica o de rechazo del

contraste.

 Paso 4: Calcular el p-valor del contraste.

P 5 T d d i i H h H l

 Paso 5: Toma de decisiones: aceptar H₀o rechazar H₀, lo que

(39)

Observaciones:

l d l l hi i d d d

1.- El modelo que se propone en la hipótesis H₀ puede depender de parámetros desconocidos o no. En el caso de que existan parámetros desconocidos en las hipótesis, los parámetros se

p p p

estimarán por máxima verosimilitud.

2.- En el caso de rechazar H₀ , la alternativa no es clara y hay que

V di d

0 , y y q

volver a proponer otro modelo diferente para explicar los datos en H₀ y resolver de nuevo el contraste.

Vamos a estudiar dos contrastes:

 Contraste de la chi-cuadrado (Chi-square test en

St t hi ) l l d l d l d

Statgraphics): lo emplearemos cuando el modelo de

distribución que se desea contrastar sea DISCRETO y el número de datos sea n ≥ 30.

número de datos sea n ≥ 30.

 Contraste de Kolmogorov- Smirnov (K-S test en

Statgraphics):g p ) sólo sirve para el caso en que el modelo de p q distribución que se desea contrastar sea CONTINUO. Se puede usar con cualquier número de datos.

(40)

8.2.-CONTRASTE DE LA CHI-CUADRADO (

2

₎



Para una v.a. X, tomamos una muestra de tamaño

n y un nivel de significación α.



Planteamos las hipótesis

 H₀ :X se distribuye según un modelo DISCRETO

H X di t ib ú d l

 H₁:X no se distribuye según ese modelo.



El modelo que se propone en las hipótesis puede

depender de parámetros desconocidos o no En el

depender de parámetros desconocidos o no. En el

primer caso , los parámetros se estimarán

previamente por

máxima verosimilitud

.



Para realizar este contraste hace falta que el

tamaño de la muestra utilizada sea grande (

al

menos 30

)

(41)

PASOS EN EL CONTRASTE DE LA CHI - CUADRADO

PASO 1: Se plantean las hipótesis. Se consideran m clases de forma que se cubra todo el rango de valores de la distribución discreta que se está contrastando. A continuación, se clasifican los datos de la muestra en estas clases y se calcula, para cada clase i, s frec encia absol ta en la m estra (frec encia obser ada)

su frecuencia absoluta en la muestra n_i(frecuencia observada). Tanto las clases como las frecuencias se suelen disponer en una

bl l i á ll d l i i

tabla, por columnas, que se irá rellenando en los siguientes pasos.

EJEMPLO : En un sistema de producción de planchas de metal, se ha observado el número de defectos existentes por m² en cada plancha de una observado el número de defectos existentes por m en cada plancha de una muestra, en una muestra de tamaño 576, con los siguientes resultados:

Nº defectos 0 1 2 3 4 5 Frecuencia 229 211 92 36 7 1

(42)

PASO 2: Se calcula la probabilidad p_i para cada clase i supuesto que H₀ es cierta (usaremos tablas). En general será necesario

q ₀ ( ) g

estimar los parámetros de la distribución propuesta en H₀ para lo que se usa el método de máxima verosimilitud y la muestra. Estas probabilidades se anotan como tercera columna de la tabla. Tiene que cumplirse que



_p_i _₁

PASO 3: Para cada clase i, se calcula np_i (frecuencia esperada) que representa la frecuencia que debería tener la clase i si la

i bl X i i l di t ib ió t H E t

variable X siguiera la distribución propuesta en H₀. Estas frecuencias se anotan como cuarta columna de la tabla.

El d l Chi d d i d l i

El contraste de la Chi-cuadrado necesita que, para cada clase i, se verifique que np_i



5. Si no es así, será necesario redefinir las

clases por ejemplo uniendo clases para que se cumpla la clases, por ejemplo, uniendo clases para que se cumpla la condición anterior. Llamemos k al número final de clases.

(43)

(44)

(45)

PASO 4: El estadístico del contraste va a comparar la diferencia entre lo que sucede en la muestra y lo que debería de suceder en la

t i H f i t ( d i i X i i l di t ib ió muestra si H₀ fuese cierta (es decir, si X siguiese la distribución propuesta en H₀). El estadístico de este contraste es:

2 2 k 2 k 2 k k i i i i=1 _i i=1 _i

(n - np )

n

D =

n

np



np





donde k es el número final de clases. La decisión será rechazar H₀ cuando las diferencias entre los datos tomados y los datos quey q deberían darse si H₀ fuese cierta sean grandes, es decir, la región crítica será de la forma

D > C .

La distribución de D si H₀ es cierta, n



30, np_i



5 es

donde k es el número final de clases y r el número de parámetros

2

1

k r

D





_{ }

donde k es el número final de clases y r el número de parámetros desconocidos en H₀ que ha habido que estimar.

(46)

PASO 5: Calcular el p-valor del contraste:



/ cierta



p valor = P D d H

donde d es el valor que toma el estadístico D con los datos de la m estra Tomaremos la decisión del contraste comparando el



/ 0 cierta



p valor = P D d H 

muestra. Tomaremos la decisión del contraste comparando el

p-valor con α.

Cálculo del p-valor en el ejemplo:









C l 0 01 l d i ió l d







2



5 1 1 2 06 2 06 0 50 0 p valor  P D  . / H cierta  P  _{ }  .  .

Como p-valor > α = 0.01, la decisión es aceptar que los datos vienen de una Poisson.

(47)

RESOLUCIÓN DEL EJEMPLO CON STATGRAPHICS

Con Statgraphics las probabilidades p salen diferentes porque a

Con Statgraphics las probabilidades p_i salen diferentes porque a

mano hemos usado λ=0.9 para mirar en las tablas y Statgraphics usa el valor exacto de λ=0.93. Además, calcula el p-valor de manera

(48)

8.3.- CONTRASTE DE KOLMOGOROV-SMIRNOV

Pl l hi ó i

 Planteamos las hipótesis

 H₀ :X se distribuye según un modelo CONTINUO

con función de distribución F con función de distribución F

 H₁:X no se distribuye según ese modelo.

 Para este contraste es necesario calcular la FUNCIÓN

DE DISTRIBUCIÓN de la variable X propuesta en

H

₀₀

.

 Recordar que la función de distribución para una variableq p

continua X con densidad f venía dada por (tema 2):

 





x

 



 





x

 

F x P X x f t dt    



(49)

Observaciones:

 Si el modelo propuesto en H depende de parámetros  Si el modelo propuesto en H₀ depende de parámetros

desconocidos hay que estimarlos previamente por máxima verosimilitud.

verosimilitud.

 Este contraste se realiza con cualquier tamaño muestral.

 La decisión se toma comparando la función de

distribución del modelo propuesto en Hp p ₀₀ con la función de distribución que considera que cada uno de los

n datos de la muestra tiene probabilidad 1/n. Esta función

de distribución se llama función de distribución empírica.

Si l dif i t l d f i d di t ib ió

 Si la diferencia entre las dos funciones de distribución es

(50)

Ó Ó Í

Para una muestra, se llama FUNCIÓN DE

FUNCIÓN DE DISTRIBUCIÓN EMPÍRICA (de los datos)

, , ,

1 2 ... n

x x x

u ues , se UNC ÓN

DISTRIBUCIÓN EMPÍRICA a la que considera que todos los valores de la muestra tienen la misma probabilidad de suceder, 1/n.

, , ,

1 2 n

x x x

Entonces, ordenando los valores de la muestra de menor a mayor, , tenemos: (1) (2) .... (n) x  x   x (1) 0 1 x x x x x     ₍₁₎ _{ } ₍₂₎ (2) (3) 2 ( ) x x x n x x x F  _{ }       (2) (3) ( ) 1 n F x n n       _  ( 1) ( ) ( ) 1 n n n x x x n x x   _{ }   _ 

(51)

PASOS EN EL CONTRASTE DE KOLMOGOROV

PASO 1: Planteamiento de hipótesis. Dada una muestra, se

ordenan los valores de la misma de MENOR A MAYOR, se

l l l f ió d di t ib ió í i lú d

calcula la función de distribución empírica y se evalúa en cada uno de los datos de la muestra.

Tanto los valores ordenados de la muestra como lo que vale la función de distribución empírica en cada uno de los datos, se suelen disponer en una tabla por columnas

suelen disponer en una tabla, por columnas.

Esta tabla se irá rellenando en los siguientes pasos y de ella,

bt d l i f ió i t l d i ió b

obtendremos la información necesaria para tomar la decisión sobre las hipótesis planteadas.

EJEMPLO: Ver si los datos 0.464, 0.906, -0.482, -1.787, -0.513, provienen de una variable U(-1.8, 1.3). Tomar  = 0.05.

(52)

PASO 1:PLANTEAMIENTO Y CÁLCULO DE LA

FUNCIÓN EMPÍRICA EN EL EJEMPLO

• Ordenamos los valores de menor a mayor: -1.787, -0.513, -0.482 ,0.464, 0 1.787 1 1 787 0 513 x x      _ _{  }  y , , , ,

0.906 (primera columna de la tabla)

• La función de distribución empírica 1.787 0.513 5 2 0.513 0.482 5 x x  _{ }        

La función de distribución empírica asociada a estos datos (tema 2) es F₅: •Nos interesa lo que vale la función

5 5 ( ) 3 0.482 0.464 5 F x x     _ _{ } 

•Nos interesa lo que vale la función en los datos de la muestra, es decir,

F ( 1 787) 1/5 F ( 0 513) 2/5 5 4 0.464 0.906 5 x    _{ }  F₅(-1.787) = 1/5, F₅(-0.513) = 2/5, F₅(-0.482 ) = 3/5, F₅(0.464) = 4/5, 5 1 x 0.906   _ 

F₅(0.906) = 1. Estos valores van en la segunda columna de la tabla.

(53)

PASO 2: Se calcula la función de distribución, F, de la variable , , propuesta en H₀ (tema 2).Si hay algún parámetro desconocido, se estima por máxima verosimilitud. Se evalúa F en la muestra. Estos

l l l d l bl

valores se anotan en la tercera columna de la tabla. Ejemplo: En nuestro caso, H₀ : X es U(-1.8, 1.3)

(54)

PASO 3: La decisión del contraste se tomará comparando la función de distribución del modelo propuesto en H₀ , F, con la f ió d di ib ió í i F

función de distribución empírica, F_n.

Si la diferencia entre estas dos funciones es grande, supuesto que

H₀ sea cierta, la decisión será rechazar H₀.

El estadístico del contraste debe de medir esta diferencia y es:y

L ió í i D K A i d í l l l

max ( ) ( )

n n

D  F x  F x

La región crítica es D_n > K. A partir de aquí, calcularemos el

p-valor del contraste para tomar la decisión:

donde d_n es el valor que el estadístico D_n toma con la muestra de



n n / 0 cierta



p valor P D   d H

n n

(55)

Para calcular el p-valor del contraste necesitamos conocer:

• la distribución de Dla distribución de D_n_n supuesta cierta Hsupuesta cierta H₀₀ . Esta distribución. Esta distribución está tabulada para distintos valores de n y , tablas que

nosotros tenemos.

• el valor que el estadístico toma con nuestros datos d_n . Para cada valor de la muestra, x_i_i , i = 1,.2…,n, calculamos d_n_n así:





( ) max ( ) ( ) ( ) ( ) D x 



F x  F x F x  F x





 





1 ( ) max ( ) ( ) , ( ) ( ) 1 max ( ) , ( ) max , n i n i i n i i i i n i n i D x F x F x F x F x i i F x F x D x D x          _   _   n i n i 



n

 

i n

 

i



   

 

valor que toma con nuestros datos)

d_n max_i D x_n

 

_i (valor que toma D_n con nuestros datos)

(56)



1 2



max

( )

( ) ; la muestra :

, ,...,

n n n

D



F x



F x

x x

x





( )

(

)

( )

D

F

( )

F x





 





1

( ) max

(

)

( ) ,

( )

max

,

n i n i i n i i n i n i

D x

F x

D x

  







( )

F x

 



n i n i



( )

(

)

( )

D



F

( ) ( ) ( ) n i n i i D x  F x  F x 1

( )

(

)

( )

n i n i i

D x



F x

_



F x

x

_i-1

x

_i

(Justificación gráfica de por qué el valor del estadístico con la muestra concreta se calcula de la manera antes indicada)

(57)

Ejemplo : Valor del estadístico con la muestra, p-valor y decisión:



5 0





5 0



0.2152 0.2152 / cierta 1 0.2152 / cierta 0.20 n d p valor P D H P D H        



5





5



0 0 0

(En tablas, 0.4470 / cierta 0.8 0.2152 / cierta 0.8) Como 0.20 0.05, la decisión es aceptar , es decir, se acepta