TEMA 7.- CONTRASTES DE HIPÓTESIS
1
Contrastes de hipótesis Tipos de contrastes
1
.- Contrastes de hipótesis. Tipos de contrastes.
2.- Elementos de un contraste:
2 1 Hipótesis nula e hipótesis alternativa
2.1.- Hipótesis nula e hipótesis alternativa.
2.2.- Nivel de significación de un contraste .Tipos de
errores
errores.
2.3.- Estadístico del contraste
2 4 - Región crítica o región de rechazo
2.4. Región crítica o región de rechazo.
3.- Casos generales a estudiar en contrastes
paramétricos. Ejemplo de resolución de un contraste
p
j
p
paramétrico.
TEMA 7.- CONTRASTES DE HIPÓTESIS
5 - Pasos a seguir en un contraste
5.- Pasos a seguir en un contraste.
6.- Casos particulares a estudiar en contrastes
paramétricos. Cálculo del p-valor para cada caso.
p
p
p
7.- Comentarios para problemas.
8.- Contrastes de hipótesis no paramétricos:
p
p
8.1.- Introducción. Pasos a seguir en un contraste no paramétrico.
paramétrico.
8.2.- Contraste de la chi-cuadrado para modelos discretos. 8 3 - Contraste de Kolmogorov- Smirnov para modelos 8.3. Contraste de Kolmogorov Smirnov para modelos continuos.
Ó
1.- CONTRASTES DE HIPÓTESIS. TIPOS DE
CONTRASTES
Un contraste de hipótesis es una técnica
estadística para decidir sobre si “
aceptamos”
o
“
rechazamos”
una cierta hipótesis,
en términos
probabilísticos
.
Un contraste de hipótesis siempre se plantea en
términos de dos hipótesis, que llamaremos
HIPÓTESIS NULA HIPÓTESIS
HIPÓTESIS NULA
e
HIPÓTESIS
ALTERNATIVA.
Un contraste
no es na demostración de ning na
Un contraste
no es una demostración de ninguna
de las dos hipótesis.
Nos indica si, con los datos
de los que disponemos es
MÁS VERAZ
una
de los que disponemos, es
MÁS VERAZ
una
hipótesis que la otra.
TIPOS DE CONTRASTES DE HIPÓTESIS: hay dos tipos de contrastes:
É
1.- CONTRASTES PARAMÉTRICOS: Las hipótesis se hacen sobre el valor o valores que puede tomar un parámetro/s
desconocido/s θ Los parámetros son: desconocido/s θ. Los parámetros son:
Si estudiamos una característica X: la media µ, la varianza σ2
(o la desviación típica σ) o la proporción p de individuos que
i i d d
poseen una cierta propiedad.
Ejemplo 1: Se conoce que la vida media de los elementos resultantes de un proceso de fabricación es de 5000 horas Se resultantes de un proceso de fabricación es de 5000 horas. Se introducen mejoras en el proceso y se quiere saber si la vida media ha aumentado o no ( = 5000 ó > 5000).
Si estudiamos dos características X e Y: sus medias, µX y µY,
o sus varianzas,σ2
X y σ2Y.
Ejemplo 2: Se desea estudiar si la remuneración media obtenida Ejemplo 2: Se desea estudiar si la remuneración media obtenida en un trabajo análogo por personas de la misma cualificación profesional depende del sexo o no (X = Y o X Y ).
2.- CONTRASTES NO PARAMÉTRICOS: Las hipótesis se hacen sobre el modelo de distribución que sigue la variable que se está estudiando
que se está estudiando.
Estos contrastes se han visto en prácticas: Estos contrastes se han visto en prácticas:
Contraste de la Chi-cuadrado (chi-square test) para modelos discretos.
Contraste de Kolmogorov-Smirnov (K-S test) para modelos continuos.
Ejemplo 3: Se desea saber si la variable que mide la altura en la población española sigue una distribución normal o no
población española sigue una distribución normal o no. Los elementos de un contraste, que veremos en el punto Los elementos de un contraste, que veremos en el punto
siguiente, son comunes a los contrastes paramétricos y a los no paramétricos.
2
OS
CO
AS
2.- ELEMENTOS DE UN CONTRASTE
Los elementos que componen un contraste son: Hipótesis nula (H0) e hipótesis alternativa (H1): recogen las
dos hipótesis que se quieren estudiar. Suelen ser complementarias
complementarias.
Nivel de significación α: Mide el máximo error que queremos
cometer al tomar la decisión en términos probabilísticos cometer al tomar la decisión, en términos probabilísticos.
La/s muestra/s: los datos que se toman x1, x2,…, xn de la
característica en estudio X ( si se estudian dos características X e característica en estudio X ( si se estudian dos características X e Y, se toma una muestra de cada una de ellas).
Estadístico del contraste: Es el estadístico que usaremos para q p
tomar la decisión del contraste, T(X1, X2,…, Xn ).
Región crítica o de rechazo: Si T(x11, x22,…, xnn ) pertenece a esta
región de la recta real, la decisión del contraste será rechazar H0 y aceptar H1 . En caso contrario, aceptaremos H0.
2.1.-HIPÓTESIS NULA E HIPÓTESIS ALTERNATIVA
Un contraste de hipótesis siempre consta de dos hipótesis: la p p p
hipótesis nula (H0) y la hipótesis alternativa (H1). Suelen ser hipótesis complementarias.
En un contraste la hipótesis H0 es la hipótesis que marca el
contraste: H0 se considera cierta mientras los datos no
d t l t i
demuestren lo contrario.
Por ese motivo, el planteamiento habitual es:
Hipótesis nula (H ): la hipótesis con la que se viene Hipótesis nula (H0): la hipótesis con la que se viene
trabajando hasta el momento. En algunos problemas es una hipótesis neutra, que no toma partido por ninguna alternativa.
Hipótesis alternativa (H1): es la hipótesis que
incorpora los cambios sobre lo que suele ser la manera incorpora los cambios sobre lo que suele ser la manera habitual de trabajar. Suele ser una hipótesis que toma partido (no neutra).
Ejemplo 4: Se conoce que la vida media de los elementos resultantes de un proceso de fabricación es de 5000 horas. Se
introducen mejoras en el proceso y se quiere saber si la vida media introducen mejoras en el proceso y se quiere saber si la vida media ha aumentado o no, el planteamiento correcto para las hipótesis nula y alternativa sería:
H0: = 5000
H1: > 5000
Con este planteamiento:
S id i l id di d l l i
Se considera cierto que la vida media de los elementos sigue
siendo de 5000 horas (H0).
Se tomarán datos después de haber introducido las mejoras para Se tomarán datos después de haber introducido las mejoras para
ver si estos datos confirman que, efectivamente, se ha producido una mejora en la vida media de los elementos resultantes de un
d f b i i i l d l i di h
proceso de fabricación. Si los datos así lo indican, rechazaremos H0 y aceptaremos H1.
L it ió á i il l l t i t d t t l d
La situación más similar al planteamiento de un contraste es la de un
juicio: H0: inocente
H : culpable
H1: culpable
A un enjuiciado se le considera inocente mientras las pruebas no demuestren lo contrario. Entonces,
1.- La hipótesis H0 se considera cierta de entrada SIEMPRE. Solamente se aceptará como cierta la hipótesis H1 si los datos m estran e idencia a fa or de H
muestran evidencia a favor de H1.
2.- Aceptar H0 no significa que H0 sea cierta necesariamente sino que los datos NO muestran evidencia a favor de H1.
los datos NO muestran evidencia a favor de H1.
3.- Rechazar H0 SIEMPRE significa aceptar H1. Significa que los datos SÍ muestran evidencia a favor de H1.
4.- Un contraste no es una demostración de ninguna de las dos hipótesis. Nos indica si, con nuestros datos, es más veraz una hipótesis que otra
hipótesis que otra.
5.-Al tomar cualquiera de las dos decisiones podemos estar cometiendo un error.
Ó
2.2.- NIVEL DE SIGNIFICACIÓN DEL CONTRASTE
TIPOS DE ERRORES.
Al tomar una decisión sobre las hipótesis H0 y H1 se pueden
cometer dos tipos de errores:
Error de tipo I: rechazar H0 siendo cierta Error de tipo I: rechazar H0 siendo cierta. Error de tipo II: aceptar H0 siendo falsa.
Estos errores se miden en términos de PROBABILIDAD e
i l b bilid d d b ñ
interesa que la probabilidad de cometer ambos sea pequeña.
Definimos:
1 - = P(cometer error de tipo I) = 1.- = P(cometer error de tipo I) =
= P(rechazar H0 siendo H0 cierta) = P(aceptar H1 siendo H0 cierta) = = P(aceptar H1 /H0 cierta)
se llama nivel de significación del contraste
2.- P(cometer error de tipo II) = P(no rechazar H0 siendo H0 falsa) = P(aceptar H0 siendo H0 falsa) = P(aceptar H0 / H0 falsa)
h d i id l d i
Ejemplo 5: una empresa ha adquirido un lote de piezas para ser
montadas en sus equipos pero, para que sea rentable el proceso de montaje, la proporción de piezas defectuosas, p, debe de ser de montaje, la proporción de piezas defectuosas, p, debe de ser menor del 2%. En otro caso, el lote se devolverá a la empresa suministradora. Posible planteamiento: 0 1 : 0.02 : 0.02 H p H p
Cometer error tipo I ( rechazar H0 siendo cierta) significa
decidir que la proporción de defectuosas es menor del 2%
1
decidir que la proporción de defectuosas es menor del 2%
cuando en realidad no es así. Consecuencia: la empresa acepta un lote incorrecto por lo que no sería rentable el proceso de
t j montaje.
Cometer error tipo II (aceptar H0 siendo falsa) significa decidir
que la proporción de piezas defectuosas en el lote es mayor o que la proporción de piezas defectuosas en el lote es mayor o igual que el 2% cuando en realidad no lo es.
Interesaría minimizar la probabilidad de cometer ambos
tipos de errores pero se puede demostrar que cuando un
t l t di i i
error aumenta el otro disminuye y viceversa.
Modo de trabajo: Modo de trabajo:
Se fija un valor pequeño para la probabilidad de
cometer uno de ellos, por ejemplo, el error de tipo I . co e e u o de e os, po eje p o, e e o de po . Este valor es el nivel de significación del contraste, . Suele tomarse 0.1 (error máximo del 10%).
S li l i i i l d i II
Se elige el contraste que minimice el error de tipo II .
T d l t t t t
Todos los contrastes que vamos a usar en este tema
Por este motivo, en casos reales, las hipótesis se plantean
de manera que el error “más grave” sea el error de tipo
I l t l l i t d E i t l
I porque es el que controla el experimentador. Existe el problema de que “lo más grave” siempre es subjetivo.
En el ejemplo 5, el planteamiento que hemos hecho sería el
adecuado 0 02 H0 1 : 0.02 : 0.02 H p H p
porque así definido, el error de tipo I (la empresa acepta un lote incorrecto por lo que no le resultaría rentable el proceso de montaje) es más grave que el error de tipo II (la empresa de montaje) es más grave que el error de tipo II (la empresa va a devolver un lote correcto).
En los ejercicios de clase haremos planteamientos más
Í
En CONTRASTES PARAMÉTRICOS, los estadísticos
OS S OS h d i l l
2.3.- ESTADÍSTICO DEL CONTRASTE
son LOS MISMOS que hemos usado en intervalos para los mismos casos. Si estudiamos una sola variable X:
á t t dí ti X 2 2 parámetro : estadístico parámetro :estadístico ˆ X S
Si estudiamos dos variables X e Y, los parámetros son:
ˆ parámetro p : estadístico P , p 2 2 y X X Y X
En este caso, sí plantearemos las hipótesis del contraste pero no nos hace falta conocer los estadísticos porque los resolveremos con Statgraphics.
En CONTRASTES NO PARAMÉTRICOS los
En CONTRASTES NO PARAMÉTRICOS los
estadísticos que se emplean son distintos y los veremos más adelante.
Ó
Í
Ó
2.4- REGIÓN CRÍTICA O REGIÓN DE RECHAZO
La REGIÓN CRÍTICA R se define como el conjunto de valores del estadístico para los que se rechaza la hipótesis nula H y se del estadístico para los que se rechaza la hipótesis nula, H0 y se acepta, por tanto, la hipótesis alternativa H1 .La región crítica de un contraste es un intervalo de la recta real. Sea X la variable en estudio. Tomamos una m.a.s. X1, X2,…, Xn de X Sea T(X X X ) el estadístico del contraste Entonces al X. Sea T(X1, X2,…, Xn ) el estadístico del contraste. Entonces, al sustituir nuestra muestra concreta X1= x1 X2= x2,…,Xn = xn en el estadístico, decidiremos sobre el contraste planteado de la siguiente forma: siguiente forma:
1 2
0 1Si
T x x
, ,...,
x
n
R
Rechazar
H
Aceptar
H
1 2
0 0Si
T x x
, ,...,
x
n
R
No rechazar
H
Aceptar
H
Observación: Este procedimiento sirve tanto para contrastes
paramétricos donde se estudian una o dos características como para contrastes no paramétricos.
3.-CASOS GENERALESA ESTUDIAR EN CONTRASTES PARAMÉTRICOS CASO 1 H0: =C ó C CASO 2 H0: =C ó ≤ C CASO 3 H0: = C
donde C es una constante CONOCIDA y θ es el parámetro
0 H1: C 0 H1: > C 0 H1: C
donde C es una constante CONOCIDA y θ es el parámetro desconocido.
Los contrastes de hipótesis nula H0 : =C ó H0 : C se
l i l l ió í i S l l
resuelven igual porque la región crítica SIEMPRE la marca la
hipótesis alternativa, que es la misma en ambos casos, H1: C . Lo mismo sucede para los contrastes con H0 : =C ó H0 : ≤ C.
mismo sucede para los contrastes con H0 : C ó H0 : ≤ C.
Los casos 1 y 2 se llaman contrastes unilaterales. El caso 3 se
llama contraste bilateral.
Las decisiones en el caso 3 con nivel de significación las
Si T es el estadístico del contraste, la forma de la región crítica para cada caso la marca la hipótesis alternativa H1. De hecho, para cada caso la marca la hipótesis alternativa H1. De hecho, la forma de la región crítica es LA MISMA que la forma de H1.
CASO 1 CASO 2 CASO 3
CASO 1 H0 : =C ó C H1: C CASO 2 H0 : =C ó ≤ C H1: > C CASO 3 H0 : = C H1: C CASO 1 T < K CASO 2 T > M CASO 3 Intervalo para θ H1: C H1: > C H1: C
Las constantes de las regiones críticas, K y M, se obtendrán a partir de la condición:
p
partir de la condición:
α = P(cometer error de tipo I) = P(rechazar H0 /H0 cierta) = =P(aceptar H11 /H00 cierta) = P(caer en R.C./ H00 cierta)
Ó
EJEMPLO DE RESOLUCIÓN DE UN CONTRASTE PARAMÉTRICO
Sea X v a N( ) m a s de tamaño 25 donde la media Sea X v.a. N(,), m.a.s. de tamaño 25 donde la media
muestral es y la cuasidesviación típica es s = 5. Tomemos como nivel de significación del contraste = 0.05.
l l 4.2 x Planteamos el contraste: H0 : = 2 H > 2 H1: > 2
El estadístico del contraste y la región crítica son:
Vamos a calcular K a partir de la ecuación
Estadístico : X Región crítica : X K ó X ( ,K ) Vamos a calcular K a partir de la ecuación
(error tipo I)
0.05
/
2
0.05
P
P X
K
y a tomar la decisión del contraste.0.05 ( / 2) ( / 2) / / X K P X K P S n S n
1 24 24 2 2 ( ) ( ) ( 2) / 5 / 25 n K K P t P t P t K S n IMPORTANTE: Para obtener las constantes de las regiones críticas en contrastes paramétricos vamos a usar los mismos
pivotes que en intervalos de confianza para los mismos casos. En este ejemplo, X v.a. N(,) con desconocida, intervalo para μ, j p , (, ) , p μ, el pivote era: 1 / n X t S
Y es el pivote que usaremos en la segunda igualdad. Entonces, en este ejemplo el cálculo de la constante K se va a reducir a mirar un
/
S n
este ejemplo, el cálculo de la constante K se va a reducir a mirar un valor en las tablas de la distribución t24 .
Usando las tablas de la distribución t de Student: 24 24 ( 2) 0.05 ( 2) 0.95 2 1.7109 3.7109 P t K P t K K K
La región crítica resultante es entonces:
.7 09 3.7 09
3.7109 ó
(3.7109,
)
X
X
Decisión: Con nuestros datos . Entonces, caemos en la
(
,
)
4.2
x
región crítica por lo que la decisión del contraste es rechazar H0 y aceptar H1 : los datos muestran evidencia a favor de que > 2.
0
24
Gráficamente, como la distribución de siendo cierta es / X H t S n Mean,Std. dev. 0,1 0,3 0,4 0,2
0 0,1 -5 -3 -1 1 3 5 0 K x 4.2•Con K = 3.7109, la región crítica es la zona rayada en gris. Como , g y g x 4.2
hemos decidido rechazar H0 porque ese valor cae en R.C.
• También podríamos tomar la decisión calculando
4.2
x
4.2 / 0
P X x H cierta
p
y viendo que este valor (que es el área que queda a la derecha de la línea roja) es menor que α = 0.05.
•Al valor se le llama p-valor del contraste
Vamos a calcularlo en el ejemplo.
4.2 / 0
valor ( 4 2 / cierta) ( 4 2 / 2)
p P X x H P X
OBTENCIÓN DEL p-valor EN ESTE EJEMPLO
0 1 24 valor ( 4.2 / cierta) ( 4.2 / 2) 4.2 4.2 2 4.2 2 ( / 2) ( ) ( ) / / n / 5 / 25 p P X x H P X X P P t P t S S S 24 24 / / / 5 / 25 ( 2.2) 1 ( 2.2) 1 0.98 0.02 S n S n S n P t P t
Como p-valor = 0.02 < = 0.05, se rechaza H0 y se acepta H1 Por supuesto, se llega a la misma decisión que si obtenemosp , g q
las región crítica y decidimos con ella.
En la tercera igualdad estamos usando el mismo pivote que
i t l d fi l i
en intervalos de confianza para el mismo caso:
1 / n X t S n
Esto mismo haremos en todos los contrastes paramétricos. /
4.- DEFINICIÓN p – VALOR DE UN CONTRASTE
Vamos a volver sobre la definición de p-valor: El p-valor de un contraste es el mínimo nivel de significación a partir del cual se rechaza la hipótesis nula H0 .En el ejemplo, p-valor ≈ 0.02, entonces,
• Si 0.02 < , es decir, si > 0.02, se rechaza H0 y se acepta
H1 . En el ejemplo, con = 0.05 se da esta situación.
• Si 0.02 > , es decir, si < 0.02 se acepta H0. Si en el ejemplo tomásemos = 0.01, se aceptaría H0.
Por eso, el p-valor es el más pequeño a partir del que se Por eso, el p valor es el más pequeño a partir del que se rechaza H0 y se acepta H1 .
4.- DEFINICIÓN p – VALOR DE UN CONTRASTE
Definición: El p-valor de un contraste es el mínimo nivel designificación a partir del cual se rechaza la hipótesis nula H0 .
• El p-valor de un contraste se calcula como la probabilidad de la
región crítica limitada por el valor que toma el estadístico del
contraste con los datos de la muestra, supuesto H0 cierta. Y en
ese cálculo, usaremos el mismo pivote que usábamos en
intervalos de confianza para el mismo caso intervalos de confianza para el mismo caso.
• Al ser una probabilidad, el p-valor [0,1].
•TOMA DE DECISIONES CON el p-valor: se compara con y • Si p-valor <Si p-valor < , se rechaza H se rechaza H00 y se acepta Hy se acepta H11 , con más con más
certeza cuanto más cercano sea el p-valor a 0.
• Si p valor > se acepta H con más certeza cuanto más • Si p-valor > , se acepta H0, con más certeza cuanto más
5.- PASOS A SEGUIR EN UN CONTRASTE
P 1 Pl t i t d l hi ót i l lt ti
Paso 1: Planteamiento de las hipótesis nula y alternativa en
términos de los parámetros (contrastes paramétricos) o del modelo (contrastes no paramétricos).( p )
Paso 2: Elegir el estadístico del contraste.
Paso 3: Definir la región crítica del contraste. Se basa en el
estadístico del contraste y tiene la forma de la hipótesis alternativa en contrastes paramétricos.
Paso 4: Calcular el p valor del contraste: todos los paquetes Paso 4: Calcular el p-valor del contraste: todos los paquetes
estadísticos usan este método de resolución.
Paso 5: Toma de decisiones: comparar el p-valor con α yp p y
Si p-valor < , se rechaza H0 y se acepta H1 , con más
certeza cuanto más cercano sea el p-valor a 0.
Si p-valor > , se acepta H0, con más certeza cuanto
6.-CASOS PARTICULARES A ESTUDIAR EN CONTRASTES
PARAMÉTRICOS. CÁLCULO DEL p-VALOR PARA CADA CASO. Dentro de los tres planteamientos posibles:
CASO 1 CASO 2 CASO 3
H0 : =C ó C H1: C H0 : =C ó ≤ C H1: > C H0 : = C H1: C los distintos parámetros θ serán:
• Si estudiamos una característica X: la media µ, la
i 2 ( l d i ió í i ) l ió
varianza σ2 (o la desviación típica σ) o la proporción p de individuos que poseen una cierta propiedad.
• Si estudiamos dos características X e Y: la diferencia de medias, µX - µY (permite comparar las medias) o el cociente de varianzas σ2 / σ2 (permite comparar las
cociente de varianzas σ2
X / σ2Y (permite comparar las varianzas).
6.1.- Contrastes paramétricos para la media
de una
variable X~N(μ,σ) y muestras pareadas si D = X – Y es
N(
)
N(μ
D= μ
X- μ
Y,σ)
L
l
l i l d i ifi
ió
id
Los valores μ
0y α, el nivel de significación, son conocidos.
0 : 0 H 0: 0 H 0 0 1 0 Intervalo de confianza : : H H 0 0 1 : 0 : . . R H X K C l
1 0 0 : : ; / . . H X C P X x H RC p valor Intervalo de confianza para a nivel 1
0 0 0 / cierta / / X x P X x H P S n s n p valor 0 0 / / X x P S n s n 0 1 / / / n S n s n x P t s n 0 1 / n x P t s n 6.2.- Contrastes paramétricos para la media
de una
variable X no normal con tamaño muestral n ≥ 100
Los valores μ
0y α, el nivel de significación, son conocidos.
0 : 0 H 0: 0 H 0 0 1 0 Intervalo de confianza : : H H 0 0 1 : 0 : . . R C l H X K
1 0 0 : : ; / . . H X C P X x H RC p val ro Intervalo de confianza para a nivel 1
0 0 0 / cierta / / p val X x P X x H P S n s n or 0 0 / / X x P S n s n 0 / / 0,1 / S n s n x P N s n
0,1 0 / x P N s n 6.3.- Contrastes paramétricos para la varianza
2de una
variable X~N(μ,σ)
Ó
Este tipo de contrastes SÓLO se pueden resolver si la
variable X tiene distribución normal.
L
l
2l i l d i ifi
ió
Los valores
σ
20y α , el nivel de significación, son
conocidos.
2 2 H 2 2 0 0 2 2 1 0 : : H H 2 2 0 0 2 2 1 0 Intervalo de confianza : : H H
1 0 2 2 2 0 2 2 : , / ( 1) ( 1) . . S C P S s H n R C p v S n s alor 0 2 02 2 2 1 0 2 : : H H 2 Intervalo de confianza para a nivel 1 2 2 0 0 2 2 ( 1) ( 1) ( 1) n S n s P n s P
2 2 2 2 2 0 2 2 0 0 : , ( 1) ( 1) / . . S K n R C p valo S n s P S s H P r 2 1 2 0 ( ) n P 0 0 2 2 1 2 0 ( 1) n n s P 6 4 C é i l ió
6.4.- Contrastes paramétricos para la proporción, p
Para poder realizar este contraste hace falta n ≥ 100.
El pivote que se usa es DISTINTO al que se usa en intervalos El pivote que se usa es DISTINTO al que se usa en intervalos
de confianza.
Los valores p0 conocido y α, el nivel de significación, son
id conocidos. 0 0 1: 0 : H p p H p p 0: 0 : H p p H p p H p p0: 0 1 0 Intervalo de confianza para p a nivel 1 p p
1 0 0 : ˆ ˆ ˆ : , / . . H p p P C P P p H RC p valor 1:ˆ 0 : , . . H p p P K RC p va rlo 0 0 0 0 0 0 ˆ ˆ (1 ) (1 ) P p p p P p p p p
0 0 0 0 0 0 0 ˆ ˆ ˆ ˆ / (1 ) (1 ) P p p p P P p H P p p p p 0 1 ˆ 0 n n p p P N 0 1 ˆ 0 n n p p P N 0 0 0 0,1 (1 ) p p P N p p n 0 0 0 0,1 (1 ) p p P N p p n 6.5.- Contrastes paramétricos para el cociente de varianzas, X~N(μX,σY) e Y~N(μY,σY) 2 2 X Y
Los valores σ20 y α, nivel de significación, son conocidos. En todos casos, las muestras tienen que ser independientesEn todos casos, las muestras tienen que ser independientes Estos contrastes se plantearán ajustándose a uno de estos tres casos y se resolverán con Statgraphics.
2 2 2 0 0 2 2 2 : X / Y H 0 2 2 02 2 2 2 : / / X Y H H 2 2 2 0 0 2 2 2 1 0 : / : / X Y X Y H H 2 2 2 1: / 0 : Statgraphics X Y p va or H l 2 2 2 1 : / 0 : Statgraphics X Y p va or H l 2 2 : Statgraphi intervalo para X / Y cs p valor ó
IMPORTANTE: siempre que la variables sean NORMALES, lo primero que hay que hace es decidir si las varianzas son iguales o primero que hay que hace es decidir si las varianzas son iguales o distintas.
6.6.- Contrastes paramétricos para la diferencia de medias de dos variables X e Y normales o X e Y con
X Y
distribución cualquiera, n , m ≥ 100
L l i l d i ifi ió id
Los valores μ0 y α, nivel de significación, son conocidos. En todos casos, las muestras tienen que ser independientes Estos contrastes se plantearán ajustándose a uno de estos Estos contrastes se plantearán ajustándose a uno de estos tres casos y se resolverán con Statgraphics.
0 0 1 0 : : X Y X Y H H 0 0 1 0 : : X Y X Y H H 0 0 1 0 : : X Y Y X H H 1 0 : Statgraphics X Y p va orl : Statgraphics p va or l interv Stat alo para X Y : graphics ó p valor
7.- COMENTARIOS PARA PROBLEMAS
1.- Lo primero que hay que hacer es ver en qué caso estamos (una p q y q q ( o dos variables, muestras independientes o pareadas, variables normales o no) y saber sobre qué parámetro nos piden tomar la decisión (media varianza o proporción; diferencia de medias decisión (media, varianza o proporción; diferencia de medias, cociente de varianzas).
2.- Es fundamental plantear correctamente el contraste:
Hipótesis nula (H00): poner la hipótesis con la que se viene
trabajando hasta el momento o bien una la hipótesis neutra, que no tome partido por ninguna alternativa.
Hipótesis alternativa (H ): poner en esta hipótesis los Hipótesis alternativa (H1): poner en esta hipótesis los
cambios sobre lo que suele ser la manera habitual de
trabajar o bien la hipótesis que queremos verificar si es cierta usando los datos recogidos.
7.- COMENTARIOS PARA PROBLEMAS
3 - SIEMPRE nos adecuaremos a uno de estos tres3. SIEMPRE nos adecuaremos a uno de estos tres planteamientos:
CASO 1 CASO 2 CASO 3
CASO 1 H0 : =C ó C H : C CASO 2 H0 : =C ó ≤ C H : > C CASO 3 H0 : = C H : C H1: C H1: > C H1: C
La resolución de los contrates tiene algunas limitaciones
“técnicas” en problemas académicos.
La más importante es que el signo = de las hipótesis La más importante es que el signo = de las hipótesis
siempre debe de ir en H0.
7.- COMENTARIOS PARA PROBLEMAS
4 - Los planteamientos de las hipótesis se hacen ANTES de 4. Los planteamientos de las hipótesis se hacen ANTES detomar los datos de la muestra. Por ese motivo, en los ejercicios, NO hay que tener en cuenta los valores
t l h l l t i t
muestrales para hacer el planteamiento.
5 Con las tablas que tenemos no vamos a conseguir el valor 5.- Con las tablas que tenemos no vamos a conseguir el valor
exacto del p-valor y vamos a tener que acotarlo. Los
paquetes estadísticos (Statgraphics) sí dan el p-valor exacto. 6.- Los casos de contrastes para una variable y muestras
d di á l l
pareadas se pedirán resolver completos a mano.
Los casos de dos variables, muestras independientes, se resolverán con Statgraphics calculando el p-valor del resolverán con Statgraphics calculando el p-valor del contraste. Previamente, hay que hacer a mano el
7.- COMENTARIOS PARA PROBLEMAS
7 - En el caso de dos variables normales muestras7. En el caso de dos variables normales, muestras
independientes, cuando tengamos que hacer un contraste para comparar las medias ,lo primero que hay que hacer
SIEMPRE d idi i l i i l
SIEMPRE es decidir si las varianzas son iguales o distintas. Una vez tomada esta decisión es cuando
pasaremos a realizar el contraste correspondiente a las
p p
medias.
8.- En el caso de contrastes para la varianza, σ2, o para el
i d i 2 2 S h i l
cociente de varianzas, , Statgraphcis resuelve contrastes en términos de las desviaciones típicas. Por ejemplo, 2 / 2 X Y j p , 2 0 0 2 1 1 : 49 : 7 : 49 : 7 H H H H
Ó
8. CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS. INTRODUCCIÓN
Las hipótesis se hacen sobre aspectos como el modelo de
distribución que siguen los datos que se están estudiando o ver si las observaciones que componen la muestra son
o ver si las observaciones que componen la muestra son
independientes.
Sólo vamos a tratar hipótesis sobre el modelo de
distribución del que podrían proceder los datos recogidos de una variable aleatoria X (prácticas 2 y 3).
Las hipótesis son del tipo: Las hipótesis son del tipo:
H0 :X se distribuye según un modelo
H1:X no se distribuye según ese modelo
H1:X no se distribuye según ese modelo
Ejemplos:
H00: X es Bin(5, p) H00: X es N(µ,σ)
8.1. PASOS EN UN CONTRASTE NO PARAMÉTRICO Son los mismos pasos que para contrastes paramétricos es decir Son los mismos pasos que para contrastes paramétricos, es decir,
Paso 1: Planteamiento de las hipótesis: Paso 1: Planteamiento de las hipótesis:
H0: X sigue el modelo Fθ
H1: X no sigue el modelo Fθ
Paso 2: Elegir un estadístico a partir del cual se construye la
región crítica. No son los mismos estadísticos que en contrastes paramétricos (están en el formulario) Elegir el nivel de
paramétricos (están en el formulario). Elegir el nivel de significación α.
Paso 3: Definir la forma de la región crítica o de rechazo del
contraste.
Paso 4: Calcular el p-valor del contraste.
P 5 T d d i i H h H l
Paso 5: Toma de decisiones: aceptar H0 o rechazar H0 , lo que
Observaciones:
l d l l hi i d d d
1.- El modelo que se propone en la hipótesis H0 puede depender de parámetros desconocidos o no. En el caso de que existan parámetros desconocidos en las hipótesis, los parámetros se
p p p
estimarán por máxima verosimilitud.
2.- En el caso de rechazar H0 , la alternativa no es clara y hay que
V di d
0 , y y q
volver a proponer otro modelo diferente para explicar los datos en H0 y resolver de nuevo el contraste.
Vamos a estudiar dos contrastes:
Contraste de la chi-cuadrado (Chi-square test en
St t hi ) l l d l d l d
Statgraphics): lo emplearemos cuando el modelo de
distribución que se desea contrastar sea DISCRETO y el número de datos sea n ≥ 30.
número de datos sea n ≥ 30.
Contraste de Kolmogorov- Smirnov (K-S test en
Statgraphics):g p ) sólo sirve para el caso en que el modelo de p q distribución que se desea contrastar sea CONTINUO. Se puede usar con cualquier número de datos.
8.2.-CONTRASTE DE LA CHI-CUADRADO (
2)
Para una v.a. X, tomamos una muestra de tamaño
n y un nivel de significación α.
Planteamos las hipótesis
H0 :X se distribuye según un modelo DISCRETO
H X di t ib ú d l
H1:X no se distribuye según ese modelo.
El modelo que se propone en las hipótesis puede
depender de parámetros desconocidos o no En el
depender de parámetros desconocidos o no. En el
primer caso , los parámetros se estimarán
previamente por
máxima verosimilitud
.
Para realizar este contraste hace falta que el
tamaño de la muestra utilizada sea grande (
al
menos 30
)
PASOS EN EL CONTRASTE DE LA CHI - CUADRADO
PASO 1: Se plantean las hipótesis. Se consideran m clases de forma que se cubra todo el rango de valores de la distribución discreta que se está contrastando. A continuación, se clasifican los datos de la muestra en estas clases y se calcula, para cada clase i, s frec encia absol ta en la m estra (frec encia obser ada)
su frecuencia absoluta en la muestra ni(frecuencia observada). Tanto las clases como las frecuencias se suelen disponer en una
bl l i á ll d l i i
tabla, por columnas, que se irá rellenando en los siguientes pasos.
EJEMPLO : En un sistema de producción de planchas de metal, se ha observado el número de defectos existentes por m² en cada plancha de una observado el número de defectos existentes por m en cada plancha de una muestra, en una muestra de tamaño 576, con los siguientes resultados:
Nº defectos 0 1 2 3 4 5 Frecuencia 229 211 92 36 7 1
PASO 2: Se calcula la probabilidad pi para cada clase i supuesto que H0 es cierta (usaremos tablas). En general será necesario
q 0 ( ) g
estimar los parámetros de la distribución propuesta en H0 para lo que se usa el método de máxima verosimilitud y la muestra. Estas probabilidades se anotan como tercera columna de la tabla. Tiene que cumplirse que
pi 1PASO 3: Para cada clase i, se calcula npi (frecuencia esperada) que representa la frecuencia que debería tener la clase i si la
i bl X i i l di t ib ió t H E t
variable X siguiera la distribución propuesta en H0. Estas frecuencias se anotan como cuarta columna de la tabla.
El d l Chi d d i d l i
El contraste de la Chi-cuadrado necesita que, para cada clase i, se verifique que npi
5. Si no es así, será necesario redefinir lasclases por ejemplo uniendo clases para que se cumpla la clases, por ejemplo, uniendo clases para que se cumpla la condición anterior. Llamemos k al número final de clases.
PASO 4: El estadístico del contraste va a comparar la diferencia entre lo que sucede en la muestra y lo que debería de suceder en la
t i H f i t ( d i i X i i l di t ib ió muestra si H0 fuese cierta (es decir, si X siguiese la distribución propuesta en H0). El estadístico de este contraste es:
2 2 k 2 k 2 k k i i i i=1 i i=1 i
(n - np )
n
D =
n
np
np
donde k es el número final de clases. La decisión será rechazar H0 cuando las diferencias entre los datos tomados y los datos quey q deberían darse si H0 fuese cierta sean grandes, es decir, la región crítica será de la forma
D > C .
La distribución de D si H0 es cierta, n
30, npi
5 esdonde k es el número final de clases y r el número de parámetros
2
1
k r
D
donde k es el número final de clases y r el número de parámetros desconocidos en H0 que ha habido que estimar.
PASO 5: Calcular el p-valor del contraste:
/ cierta
p valor = P D d H
donde d es el valor que toma el estadístico D con los datos de la m estra Tomaremos la decisión del contraste comparando el
/ 0 cierta
p valor = P D d H
muestra. Tomaremos la decisión del contraste comparando el
p-valor con α.
Cálculo del p-valor en el ejemplo:
C l 0 01 l d i ió l d
2
5 1 1 2 06 2 06 0 50 0 p valor P D . / H cierta P . .Como p-valor > α = 0.01, la decisión es aceptar que los datos vienen de una Poisson.
RESOLUCIÓN DEL EJEMPLO CON STATGRAPHICS
Con Statgraphics las probabilidades p salen diferentes porque aCon Statgraphics las probabilidades pi salen diferentes porque a
mano hemos usado λ=0.9 para mirar en las tablas y Statgraphics usa el valor exacto de λ=0.93. Además, calcula el p-valor de manera
8.3.- CONTRASTE DE KOLMOGOROV-SMIRNOV
Pl l hi ó i
Planteamos las hipótesis
H0 :X se distribuye según un modelo CONTINUO
con función de distribución F con función de distribución F
H1:X no se distribuye según ese modelo.
Para este contraste es necesario calcular la FUNCIÓN
DE DISTRIBUCIÓN de la variable X propuesta en
H
00.
Recordar que la función de distribución para una variableq p
continua X con densidad f venía dada por (tema 2):
x
x
F x P X x f t dt
Observaciones:
Si el modelo propuesto en H depende de parámetros Si el modelo propuesto en H0 depende de parámetros
desconocidos hay que estimarlos previamente por máxima verosimilitud.
verosimilitud.
Este contraste se realiza con cualquier tamaño muestral.
La decisión se toma comparando la función de
distribución del modelo propuesto en Hp p 00 con la función de distribución que considera que cada uno de los
n datos de la muestra tiene probabilidad 1/n. Esta función
de distribución se llama función de distribución empírica.
Si l dif i t l d f i d di t ib ió
Si la diferencia entre las dos funciones de distribución es
Ó Ó Í
Para una muestra, se llama FUNCIÓN DE
FUNCIÓN DE DISTRIBUCIÓN EMPÍRICA (de los datos)
, , ,
1 2 ... n
x x x
u ues , se UNC ÓN
DISTRIBUCIÓN EMPÍRICA a la que considera que todos los valores de la muestra tienen la misma probabilidad de suceder, 1/n.
, , ,
1 2 n
x x x
Entonces, ordenando los valores de la muestra de menor a mayor, , tenemos: (1) (2) .... (n) x x x (1) 0 1 x x x x x (1) (2) (2) (3) 2 ( ) x x x n x x x F (2) (3) ( ) 1 n F x n n ( 1) ( ) ( ) 1 n n n x x x n x x
PASOS EN EL CONTRASTE DE KOLMOGOROV
PASO 1: Planteamiento de hipótesis. Dada una muestra, se
ordenan los valores de la misma de MENOR A MAYOR, se
l l l f ió d di t ib ió í i lú d
calcula la función de distribución empírica y se evalúa en cada uno de los datos de la muestra.
Tanto los valores ordenados de la muestra como lo que vale la función de distribución empírica en cada uno de los datos, se suelen disponer en una tabla por columnas
suelen disponer en una tabla, por columnas.
Esta tabla se irá rellenando en los siguientes pasos y de ella,
bt d l i f ió i t l d i ió b
obtendremos la información necesaria para tomar la decisión sobre las hipótesis planteadas.
EJEMPLO: Ver si los datos 0.464, 0.906, -0.482, -1.787, -0.513, provienen de una variable U(-1.8, 1.3). Tomar = 0.05.
PASO 1:PLANTEAMIENTO Y CÁLCULO DE LA
FUNCIÓN EMPÍRICA EN EL EJEMPLO
• Ordenamos los valores de menor a mayor: -1.787, -0.513, -0.482 ,0.464, 0 1.787 1 1 787 0 513 x x y , , , ,
0.906 (primera columna de la tabla)
• La función de distribución empírica 1.787 0.513 5 2 0.513 0.482 5 x x
La función de distribución empírica asociada a estos datos (tema 2) es F5: •Nos interesa lo que vale la función
5 5 ( ) 3 0.482 0.464 5 F x x
•Nos interesa lo que vale la función en los datos de la muestra, es decir,
F ( 1 787) 1/5 F ( 0 513) 2/5 5 4 0.464 0.906 5 x F5(-1.787) = 1/5, F5 (-0.513) = 2/5, F5(-0.482 ) = 3/5, F5(0.464) = 4/5, 5 1 x 0.906
F5(0.906) = 1. Estos valores van en la segunda columna de la tabla.
PASO 2: Se calcula la función de distribución, F, de la variable , , propuesta en H0 (tema 2).Si hay algún parámetro desconocido, se estima por máxima verosimilitud. Se evalúa F en la muestra. Estos
l l l d l bl
valores se anotan en la tercera columna de la tabla. Ejemplo: En nuestro caso, H0 : X es U(-1.8, 1.3)
PASO 3: La decisión del contraste se tomará comparando la función de distribución del modelo propuesto en H0 , F, con la f ió d di ib ió í i F
función de distribución empírica, Fn.
Si la diferencia entre estas dos funciones es grande, supuesto que
H0 sea cierta, la decisión será rechazar H0.
El estadístico del contraste debe de medir esta diferencia y es:y
L ió í i D K A i d í l l l
max ( ) ( )
n n
D F x F x
La región crítica es Dn > K. A partir de aquí, calcularemos el
p-valor del contraste para tomar la decisión:
donde dn es el valor que el estadístico Dn toma con la muestra de
n n / 0 cierta
p valor P D d H
n n
Para calcular el p-valor del contraste necesitamos conocer:
• la distribución de Dla distribución de Dnn supuesta cierta Hsupuesta cierta H00 . Esta distribución. Esta distribución está tabulada para distintos valores de n y , tablas que
nosotros tenemos.
• el valor que el estadístico toma con nuestros datos dn . Para cada valor de la muestra, xii , i = 1,.2…,n, calculamos dnn así:
( ) max ( ) ( ) ( ) ( ) D x
F x F x F x F x
1 ( ) max ( ) ( ) , ( ) ( ) 1 max ( ) , ( ) max , n i n i i n i i i i n i n i D x F x F x F x F x i i F x F x D x D x n i n i
n
i n
i
valor que toma con nuestros datos)dn maxi D xn
i (valor que toma Dn con nuestros datos)
1 2
max
( )
( ) ; la muestra :
, ,...,
n n nD
F x
F x
x x
x
( )
(
)
( )
( )
( )
D
F
F
F
F
( )
F x
1( ) max
(
)
( ) ,
( )
( )
max
,
n i n i i n i i n i n iD x
F x
F x
F x
F x
D x
D x
( )
F x
n i n i
( )
(
)
( )
D
F
F
( ) ( ) ( ) n i n i i D x F x F x 1( )
(
)
( )
n i n i iD x
F x
F x
x
i-1x
i(Justificación gráfica de por qué el valor del estadístico con la muestra concreta se calcula de la manera antes indicada)
Ejemplo : Valor del estadístico con la muestra, p-valor y decisión:
5 0
5 0
0.2152 0.2152 / cierta 1 0.2152 / cierta 0.20 n d p valor P D H P D H
5
5
0 0 0(En tablas, 0.4470 / cierta 0.8 0.2152 / cierta 0.8) Como 0.20 0.05, la decisión es aceptar , es decir, se acepta
P D H y P H D H p valor
RESOLUCIÓN DEL EJEMPLO CON
STATGRAPHICS
STATGRAPHICS
Los valores que devuelve Statgraphics son:
DPLUS max , a mano sale 0.1958 DPLUS max ,a mano sale 0.2152
n i n i D x D x
,DN= max max DPLUS, DPLUS ,a mano sale 0.2152
n i
n i n i