Contrastes de hip´ otesis

(1)

Cap´ıtulo 7

Contrastes de hip´ otesis

7.1. Introducci´on . . . . 1

7.1.1. Contraste de media de normal, con varianza conocida . . 2

7.1.2. Contraste de proporci´on . . . . 6

7.2. Contrastes bilaterales . . . . 7

7.2.1. Tests bilaterales m´as usuales . . . . 7

7.3. Contrastes unilaterales . . . . 9

7.3.1. Diseño de tests unilaterales. Elección de hipótesis nula . . 10

7.3.2. Tests unilaterales m´as usuales . . . . 11

7.4. Test generales, funci´on de potencia . . . . 12

7.5. Tests de raz´on de verosimilitudes . . . . 18

7.6. Tests uniformemente m´as potentes . . . . 26

7.6.1. Lema de Neyman–Pearson . . . . 26

7.1. Introducci´ on

Continuamos en este cap´ıtulo dentro del marco general de los dos anteriores: una cierta variableX tiene función de masa/densidad f(x;θ), donde θ es un parámetro desconocido. El objetivo de la tecnolog´ıa de inferencia (paramétrica) consiste en obtener información sobre θa partir de una muestra emp´ırica (x1, . . . , xn).

En el cap´ıtulo 5 analizamos estimadores del parámetro θ (métodos de construc- ción y propiedades). Con un estimador T, la muestra emp´ırica da lugar a una esti- mación θˆ=T(x1, . . . , xn) del parámetro θ.

En el cap´ıtulo 6 nos ocupamos de establecer intervalos de confianza I para el parámetroθ, de manera que, con alta confianza, el verdadero (y desconocido) valor de θesté en el intervalo I (que depende de la muestra).

En este cap´ıtulo cambiaremos el punto de vista, y desarrollaremos una tecnolog´ıa paracontrastar hip´otesis sobre el par´ametro, como que valga 3, que sea mayor

(2)

que 5, etc. Avisamos al lector de que, aunque la cuestión de interés sea distinta, la metodolog´ıa que diseñaremos se va a apoyar en gran medida en los desarrollos que dieron lugar a los intervalos de confianza.

Digamos, por ejemplo, que tenemos una muestra (x1, . . . , xn), donde los xi son ceros o unos, que sabemos que ha sido obtenida lanzando repetidamente una moneda. La hipótesis que queremos contrastar (qué otra pod´ıa ser) es que la moneda en cuestión esregular. En términos más técnicos, siXsigue unaber(1/2) o no. Obser- vamos la muestra, contamos ceros y unos, calculamos promedios y obtenemos que en la muestra aparece un 30 % de unos. Esto, desde luego, parece ir en contra de la hipótesis; no es que sea imposible que una moneda regular produzca tal proporción de caras, pero se nos antoja bastante improbable. ¿Cuánto?, ¿lo suficiente como para descartar que la moneda sea regular?

Veamos. Si la muestra fuera de tamaño 10 y se tuvieran tres caras y siete cruces, quizás la alarma fuera injustificada: no parece que haya suficiente evidencia como para descartar, sin miramientos, la posibilidad de que la moneda sea 50 %-50 %. Sin embargo, si en 1000 lanzamientos obtenemos 300 caras, entonces s´ı, la intuición (y si no, nuestro sabio consejo) nos dice que es prácticamente imposible que tal resul- tado provenga de una moneda regular, lo que nos inducir´ıa a rechazar la hipótesis:

deﬁnitivamente, la moneda estaba cargada.

As´ı que de lo que se trata es de diseñar un cierto procedimiento, o test, cuya expresión expl´ıcita dependerá de la variable X, del estimador del parámetro que se considere, y del tamaño de la muestra, que racionalice el “mosqueo” que la muestra parece producir al respecto de la hipótesis; que cuantifique el peso que la evidencia estad´ıstica (la muestra emp´ırica) aporta en contra de la hipótesis de partida.

Note, lector, cómo en esta ilustración estamos insistiendo siempre en la posibilidad de rechazar la hipótesis.

7.1.1. Contraste de media de normal, con varianza conocida Comenzamos, como para los intervalos de conﬁanza, con el ejemplo b´asico de

contrastar la hip´otesis de que la media (esperanza)μ

de una determinada cantidad X en una poblaci´on que sigueX ∼ N(μ, σ²) toma un determinado valorμ0

suponiendo que se conoce la varianzaσ².

Aprovecharemos este ejemplo concreto para ir introduciendo la terminolog´ıa y notaci´on generales.

A. Hipótesis nula. La hipótesis que queremos contrastar, que se conoce como hipótesis nula y se denota porH0, es en este caso que μ=μ0. Escribiremos

H0:μ=μ0.

Aqu´ı, μ0 es un dato. La hip´otesisH0 puede venir de estudios previos, de modelo te´orico, de. . .

(3)

7.1. Introducción 3 B. Test de hipótesis. Para contrastar esta hipótesis realizaremos un test, que se dice de hipótesis.

1) Tomamos un estad´ıstico para el test, que en este caso va a serX.

2)Estudio previo.Si la hip´otesisH0fuera cierta, entonces la media muestralX de una muestra de tama˜no nseguir´ıa una normal N(μ0, σ²/n).

Si ﬁjamos α peque˜no (digamos α= 1 %), entonces X∈I(μ0, α) :=

μ0−z_α/2√σ

n, μ0+z_α/2√σ n

ocurrir´a con probabilidad de 1−α (digamos, probabilidad de 99 %).

3) Aplicaci´on del test. Ahora obtenemos una muestra concreta de tama˜no n, pongamos (x1, . . . , xn).

Si ocurriera que x no se encuentra en el intervalo I(μ0, α), habr´ıa sucedido un evento extremo, algo que sólo ocurre con probabilidad α (digamos 1 de cada 100). Si as´ı fuera, desconfiar´ıamos de la hipótesis H0. No es que no pueda ocurrir, pero es tan inusual que ocu- rra (si la hipótesis es cierta) que desconfiamos, además cuantificablemente.

•As´ı que, six /∈I(μ0, α),rechazamosla hip´otesisH0y decimos que lo hacemos con nivel de significaci´onα.

• Por el contrario, si hubiera ocurrido x ∈ I(μ0, α) no tendr´ıamos argumentos (evidencia estad´ıstica) para rechazar H0 yaceptamosH0.

Observaciones:

Si x está significativamente alejado de μ0, consideramos que hay evidencia estad´ıstica (suficiente) como para rechazar la hipótesis de queμ=μ0.

En general, un test de hipótesis rechaza la hipótesis H0 cuando sucede algo inusualmente extremo, que va muy en contra (probabilistamente hablando) de la hipótesis.

Los niveles de significación usuales sonα= 5 %,1 %,0.1 %, etc. La significación de 5 % es un estándar de referencia en contrastes de hipótesis de estudios cient´ıficos.

C. Hipótesis alternativa. Cuando rechazamos H0, en la práctica nos estamos quedando con la llamada hipótesis alternativa H1, que en este caso es

H1 :μ=μ0.

Cuando el test rechaza la hipótesis H0 (y acepta H1), lo hace con fundamento, pero cuando aceptaH0 lo hace porque no queda más remedio. Más sobre esto, en el apartado F de esta misma sección.

(4)

D. Región de rechazo. La región Rα = {X /∈ I(μ0, α)} es conocida como la región de rechazo del test. Al complementario de R_α nos referiremos como la región de aceptaciónA_α del test.

Ejemplo 7.1.1. Contraste para la media de una normal de varianza σ² = 4 para una muestra de tama˜no 100.

Tenemos una normalN(μ, σ²), conσ² = 4 (y por tantoσ= 2). La hipótesis nula esH0:μ=μ0, dondeμ0 = 1. Siguiendo el análisis anterior, rechazamos la hipótesis

six cumple que |x−μ0|> z_α/2 √σ n, es decir, six cae en la regi´on de rechazo.

Supongamos que tenemos 100 muestras deX, y que la media muestral esx= 1.3.

Por un lado,

|x−1|= 0.3. Por otro lado, si tomamos α= 1 %, entonces

z_α/2 √σ

n = 2.58 2

10 = 0.52.

La conclusión es que no podemos rechazar la hipótesis nula y, por tanto, no queda más remedio, aceptamosH0.

Si tomamos α= 5 %, entonces z_α/2 √σ

n = 1.96 2

10 = 0.39, y de nuevo tendr´ıamos que aceptar H0.

Sin embargo, si hubi´eramos ﬁjadoα = 15 %, entonces tendr´ıamos que z_α/2 √σ

n = 1.44 2

10 = 0.29,

y en este caso s´ı que rechazar´ıamos H0 (con nivel de significación del 15 %). ♣ E. Nivel de significación α y p-valor. Si, en el ejemplo numérico anterior, fijamos, digamos, α = 5 %, solo rechazar´ıamos H0 cuando |x−1| > 0.39, es decir, cuando la media muestral estuviera por encima de 1.39 o por debajo de 0.61. Sin embargo, si pusiéramos α = 1 %, entonces rechazar´ıamos solo en el caso en que

|x−1| > 0.52 (media muestral por encima de 1.52 o por debajo de 0.48). Ahora, para rechazarH0, se necesita quexse aparte de 1 mucho m´as que en el caso anterior.

Es decir, cuanto más pequeño es el valor de la significación α, más dif´ıcil es que el test rechace la hipótesis H0, y cuanto mayor seaα, más fácil es que se rechace la hipótesisH0.

(5)

7.1. Introducción 5 O, dándole la vuelta, dada la muestra (y el consiguiente valor dex): siα es muy grande, entonces seguramente rechazaremos la hipótesis, y si α es muy pequeño, la aceptaremos. Nos gustar´ıa determinar el menor valor de la significación α para el que rechazar´ıamos la hipótesisH0.

Dada la muestra (x1, x2, . . . , xn) deX, al valor deα, digamos α0, tal que H0 se rechaza para α≥α0 y se acepta paraα < α0, se le denomina p-valor. Es decir, el p-valor es el más pequeño valor de α para el que la hipótesis se rechaza.

no rechaza rechaza p-valor

Un rechazo está más justificado cuanto mas pequeño sea el nivel de significación con que se hace. As´ı que, si el p-valor es muy pequeño, entonces la muestra aporta una evidencia estad´ıstica muy contundente en contra de la hipótesis que se está contrastando.

Ejemplo 7.1.2. C´alculo expl´ıcito del p-valor para el contraste de la media en una muestra normal.

Seguimos con una normal de varianza σ² conocida. La hip´otesis nula se escribe H0:μ=μ0. Tenemosnmuestras, y la media muestral esx. RechazaremosH0cuando

|x−μ0|> z_α/2 √σ

n =⇒ z_α/2<

√n

σ |x−μ0|.

Comoz_α/2 = Φ⁻¹(1−α/2), podemos “despejar” α y obtener una f´ormula expl´ıcita para el p-valor α0:

α0= 2

1−Φ √

n

σ |x−μ0| .

Para la muestra del ejemplo 7.1.1, de tama˜no 100 y con media muestralx= 1.3, tendr´ıamos unp-valor

2

1−Φ 10

2 0.3

= 2(1−Φ(3/2)) = 13.36 %,

que es (medianamente) alto. Esto signiﬁcar´ıa que la evidencia estad´ıstica que la muestra aporta en contra de la hip´otesis no es muy alta.

Sin embargo, con muestras de tamaño 100, si ocurriera que x= 1.5, entonces el p-valor ser´ıa 1.24 %, y el rechazo estar´ıa más que justificado. ♣

(6)

F. Errores y sus tipos. En un test de hip´otesis, se pueden producir cuatro situaciones, recogidas en la siguiente tabla:

Aceptamos H0 Rechazamos H0

H0 cierta OK error tipo 1

H0 falsa error tipo 2 OK

Las dos situaciones en las que el test comete error se conocen tradicionalmente (y poco nemot´ecnicamente) como:

Error de tipo 1.Este es el error que se comete si´ se rechaza la hip´otesisH0

cuando es cierta.

Error de tipo 2. Este es el error que se comete cuando´ se acepta (o no se rechaza) H0 cuando es falsa.

En el test que estamos considerando, la probabilidad de cometer un error del tipo 1 es exactamente α. Como habitualmente tomamos α pequeño, el test está diseñado para que este tipo de error sea pequeño: la probabilidad de equivocarse al rechazar es muy pequeña.

También interesar´ıa controlar la probabilidad de que el error de tipo 2 fuera pequeño, pero el diseño del test anterior no contempla esta posibilidad.

Ejemplo 7.1.3. Inocentes a la c´arcel o culpables en libertad.

En un juicio se intenta dilucidar si un sospechoso es culpable o inocente de un cierto crimen. Nos preguntamos si la hip´otesis que se debe plantear esH0 : “el sospechoso es culpable”, oH0: “el sospechoso es inocente”. Parece asunto intrascendente, pero no.

En el sistema judicial español (y en cualquiera razonable, con la presunción de inocencia como gu´ıa) se plantea como hipótesisH0 : “el sospechoso es inocente”, de manera que la evidencia aportada (las pruebas) han de ser muy contundentes para rechazar H0, y condenar al sospechoso. Con una tabla análoga a la anterior,

Se aceptaH0 Se rechazaH0

H0 cierta Se absuelve a un inocente Se condena a un inocente H0 falsa Se absuelve a un culpable Se condena a un culpable

Y se pretende que la probabilidad de cometer un error de tipo 1 (condenar a un inocente) sea muy pequeña. Esto exige que el sistema sea muy garantista, que las pruebas de culpabilidad hayan de ser muy sólidas. . . lo que conduce, claro, a que en ocasiones algunos culpables queden libres (error de tipo 2). Como es bien sabido.♣ 7.1.2. Contraste de proporción

Tratamos ahora otro caso de interés, en el que se desea contrastar la hipótesis de que, en una determinada población, la proporción de individuos con una determinada caracter´ıstica (votantes por un partido, seguidores de un equipo, etc.) esp0.

(7)

7.2. Contrastes bilaterales 7 Es decir, tenemos una variable X∼Ber(p) y queremos contrastar la hip´otesis

H0: p=p0, contra la hip´otesis alternativa

H1: p=p0.

Si H0 fuera cierta, es decir, si p0 fuera el verdadero valor dep, en una muestra aleatoria (X1, X2, . . . , Xn) de tama˜no n(grande) se habr´ıa de cumplir, con probabilidad 1−α, que

X∈

p0−z_α/2

√n

p0(1−p0), p0+z_α/2

√n

p0(1−p0)

El test de hip´otesis consiste entonces en rechazar H0 cuando en la muestra rea- lizada (x1, . . . , xn) se tiene que

x /∈

p0− z_α/2

√n

p0(1−p0), p0+z_α/2

√n

p0(1−p0)

La región de rechazo es la unión de dos intervalos semiinfinitos:

R_α =

− ∞, p0−z_α/2

√n

p0(1−p0)

p0+z_α/2

√n

p0(1−p0),+∞

El estad´ıstico del test es X. Obs´ervese que, en este caso,xes la proporci´on de la caracter´ıstica en estudio en la muestra.

El test compara la proporción observada x con la proporción p0 esperada/su- puesta, y si son muy diferentes, rechaza la suposición.

7.2. Contrastes bilaterales

En los llamados contrastes bilaterales, la hipótesis que se desea contrastar es que el parámetro de interés tome un determinado valor. Es decir, la hipótesis nulaH0 es H0: θ=θ0 y la hipótesis alternativa esH1 : θ=θ0.

Más adelante se contrastan hipótesis nulas como H0: θ ≤ θ0, conocidas como hipótesis unilaterales, que tienen algún ingrediente adicional.

7.2.1. Tests bilaterales m´as usuales

Con el mismo argumento que en los dos ejemplos que hemos visto (que, de hecho, son contrastes bilaterales), se obtienen los siguiente test de hipótesis, todos con nivel de significación α. Compare el lector con los intervalos de confianza análogos de la sección 6.5.1.

(8)

Contrastes para una poblaci´on

Variable Hip´otesis nula Estad. Regi´on de rechazo N(μ, σ²) H0:μ=μ0 (σconocida) X |x−μ0|> zα/2σ/√ n N(μ, σ²) H0:μ=μ0 (σdesc.) X |x−μ0|> t{n−1;α/2}s/√

n N(μ, σ²) H0:σ²=σ₀² S² ^(n−1)s_σ2 ²

0 ∈/

χ²{n−1;1−α/2}, χ²_{n−1;α/2}

ber(p) H0:p=p0 X |x−p0|> zα/2

p0(1−p0)/√ n poiss(λ) H0:λ=λ0 X |x−λ0|> zα/2√

λ0/√ n

(Nota: el tama˜nonde la muestra ha de ser grande en el caso de la Bernoulli y la Poisson.) Contrastes para dos poblaciones

Variables Hip´otesis nula Regi´on de rechazo

N(μ1, σ₁²),N(μ2, σ²₂) H0:μ1=μ2

(σ1, σ2conocidas) |x1−x2|> zα/2

σ²1

n1 +^σ_n²²

2

N(μ1, σ₁²),N(μ2, σ²₂) H0:μ1=μ2

(σ1=σ2 desconocidas) |x₁−x2|> t{n1+n2−2;α/2} sp

1

n1 +_n¹

2

N(μ1, σ₁²),N(μ2, σ²₂) H0:μ1=μ2

(σ1=σ2 desconocidas) |x1−x2|> t{f;α/2}

s²₁ n1 +_n^s²²

2

N(μ1, σ₁²),N(μ2, σ²₂) H0:σ²₁=σ₂² s²₁ s²₂ ∈/

F{n1−1;n2−1;1−α/2}, F{n1−1;n2−1;α/2}

ber(p1),ber(p2) H0: p1=p2 |x1−x2|> zα/2

p(1−p)

1

n1 +_n¹

2

donde

n1 y n2 son los tama˜nos muestrales (que han de ser grandes para el contraste de medias de Bernoullis);

x1 yx2 son las medias muestrales;

s²₁ ys²₂ son las cuasivarianzas muestrales;

s²_p= (n1−1)s²₁+ (n2−1)s²₂ (n1−1) + (n2−1) ;

f es el entero m´as pr´oximo a (s²₁/n1+s²₂/n2)²

(s²₁/n1)²

n1−1 +^(s_n²²^/n²⁾²

2−1

; p¯= n1x1+n2x2

n1+n2 .

(9)

7.3. Contrastes unilaterales 9

7.3. Contrastes unilaterales

Volvemos al ejemplo b´asico de una variable X ∼ N(μ, σ²), con σ² conocida y donde estamos contrastando una hip´otesis sobre la esperanzaμ.

En particular, planteamos ahora, como hip´otesis nula,

H0:μ≤μ0, para un cierto μ0. La hip´otesis alternativa es H1:μ > μ0. El estad´ıstico es de nuevo X.

Si la hip´otesis H0 es cierta, X sigue una normal N(μ, σ²), con una media μ cuyo valor es menor o igual que el μ0 de

referencia. Es decir, X es unaN(μ, σ²/n), con μ≤μ0, y por tanto X sigue uno de los modelos representados en la ﬁgura.

Esto sugiere rechazar H0 cuandox seamucho mayor queμ0. En concreto, y por analog´ıa con el caso bilateral, la regi´on R_α de rechazo ser´a

x > μ0+zα √σ n. Ahora la significación α se define como

α= sup

μ≤μ0

P_μ(R_α) =P_μ₀(R_α),

y mide la máxima probabilidad de cometer error de tipo 1, que se alcanza justamente en μ=μ0. Véase la nota 7.3.1 siguiente, y también la sección 7.4.

El p-valor es, de nuevo, el valor α0 de la signiﬁcaci´on α para el que, dada la muestra concreta, se rechaza H0 si α≥α0 y no se rechaza paraα≤α0.

Ê Nota7.3.1. Detalle del significado deαen este test unilateral. Queremos medir la probabilidad de cometer un error de tipo 1, es decir, de rechazarH0cuando la hip´otesis es cierta. Ahora, n´otese,H0

incluye un rango completo de valores deμ.

SiX tuviera una mediaμ0, entonces la probabilidad de cometer un error de tipo 1 ser´ıa Pμ0(Rα) =Pμ0(X > μ0+zασ/√

n) =Pμ0

X−μ0

σ/√n > zα

=α.

Mientras que siX tuviera una media ˜μ, con ˜μ < μ0, entonces Pμ˜(Rα) =Pμ˜(X > μ0+zασ/√

n) =Pμ˜

X−μ˜ σ/√

n > zα+μ0−μ˜ σ/√

n < α.

N´otese el menor estricto.

(10)

7.3.1. Diseño de tests unilaterales. Elección de hipótesis nula Seguimos analizando el caso en el queX ∼ N(μ, σ²), con σ² conocida. Tenemos como valor de referencia un ciertoμ0.

Mantenemos, además, la firme convicción de que el verdadero μ es mayor que ese μ0 de referencia. Como los test de contraste de hipótesis funcionan “bien” en caso de rechazo, lo natural es plantear en este caso la hipótesis H0 :μ≤μ0, con la esperanza de que, cuando tengamos la muestra, y por tanto el valor de x, podamos rechazar H0 con un nivel de significación pequeño, y por tanto concluir, confiada y finalmente, queμ es mayor queμ0.

Como situación alternativa, digamos queya disponemos de una muestra, y que el valor dexes bastante mayor que μ0. Esto nos inclina a pensar que, plausiblemente, elμverdadero sea mayor queμ0. De nuevo, el test natural que deber´ıamos plantear tiene como hipótesis nula a H0: μ ≤ μ0. Si x es significativamente mayor que μ0, es decir, si x cae en la región de rechazo para un α pequeño (o mejor, si el p- valor es pequeño), entonces rechazaremos H0 con garant´ıa, con confianza, es decir, confirmaremos confiadamente queμ > μ0.

Ê Nota7.3.2.Bilateral vs unilateral.Supongamos queX ∼ N(μ, σ²). La hip´otesis de referencia es μ= 0 (yσes conocido). Pero no nos hemos decantado por aplicar un contraste bilateral o unilateral.

Tenemos en mente el est´andar de significaci´on de 5 %. Y disponemos de una muestra con mediax, positiva y relativamente grande.

Si planteamos un test bilateral, rechazaremos la hip´otesisH0:μ= 0 si x > zα/2√σ

n = 1.96√σ n.

Mientras que si planteamos un test unilateral, rechazaremos la hip´otesisH0:μ≤0 si x > zα√σ

n = 1.64√σ n.

Como se aprecia, es m´as f´acil rechazar en el unilateral y concluir que μ >0, que rechazar en el bilateral y concluir queμ= 0.

Digamos, por ejemplo, que σ = 2 y n = 100. As´ı que 1.96σ/√n ≈ 0.392, mientras que 1.64σ/√

n ≈ 0.328. Si la muestra nos dierax = 0.35, entonces no podr´ıamos rechazar la hip´ote- sisμ= 0, pero s´ı la hip´otesisμ≤0.

(11)

7.3. Contrastes unilaterales 11 7.3.2. Tests unilaterales m´as usuales

Contrastes para una poblaci´on

Variable Hip´otesis nula Estad. Regi´on de rechazo N(μ, σ²) H0:μ≥μ0 (σconocida) X x < μ0−zασ/√

n N(μ, σ²) H0:μ≤μ0 (σconocida) X x > μ0+zασ/√

n N(μ, σ²) H0:μ≥μ0 (σdesc.) X x < μ0−t{n−1;α}s/√

n N(μ, σ²) H0:μ≤μ0 (σdesc.) X x > μ0+t{n−1;α}s/√

n N(μ, σ²) H0:σ²≥σ₀² S² ^(n−1)s_σ2 ²

0 < χ²_{{n−1;1−α}}

N(μ, σ²) H0:σ²≤σ₀² S² ^(n−1)s_σ2 ²

0 > χ²_{n−1;α}

ber(p) H0:p≥p0 X x < p0−zα

p0(1−p0)/√ n ber(p) H0:p≤p0 X x > p0+zα

p0(1−p0)/√ n poiss(λ) H0:λ≥λ0 X x < λ0−zα√

λ0/√ n poiss(λ) H0:λ≤λ0 X x > λ0+zα√

λ0/√ n

(Nota: el tama˜nonde la muestra ha de ser grande en el caso de la Bernoulli y la Poisson.) Contrastes para dos poblaciones

Variables Hip´otesis nula Regi´on de rechazo

N(μ1, σ₁²),N(μ2, σ²₂) H0:μ1≤μ2

(σ1, σ2 conocidas) x1−x2> zα

σ²₁ n1 +^σ_n²²

2

N(μ1, σ₁²),N(μ2, σ²₂) H0:μ1≤μ2

(σ1=σ2 desconocidas) x1−x2> t{n1+n2−2;α} sp

1

n1 +_n¹

2

N(μ1, σ₁²),N(μ2, σ²₂) H0:μ1≤μ2

(σ1=σ2 desconocidas) x1−x2> t{f;α}

s²₁ n1 +_n^s²²

2

N(μ1, σ₁²),N(μ2, σ²₂) H0:σ²₁≤σ₂² s²₁

s²₂ > F{n1−1;n2−1;α}

ber(p1),ber(p2) H0:p1≤p2 x1−x2> zα

p(1−p)

1

n1 +_n¹

2

donde

n1 y n2 son los tama˜nos muestrales (que han de ser grandes para el contraste de medias de Bernoullis);

x1 yx2 son las medias muestrales; s²₁ ys²₂ son las cuasivarianzas muestrales;

s²_p= (n1−1)s²₁+ (n2−1)s²₂

(n1−1) + (n2−1) ; p¯= n1x1+n2x2

n1+n2 . f es el entero m´as pr´oximo a (s²₁/n1+s²₂/n2)²

(s²₁/n1)²

n1−1 +^(s_n²²^/n²⁾²

2−1

;

(12)

7.4. Test generales, funci´ on de potencia

Planteamos a continuación un marco general para analizar test de contrastes de hipótesis. Partimos, como es habitual, de una variable X con función de densidad/masa f(x;θ), con θ ∈ Θ. El espacio de parámetros Θ se divide en Θ₀ y su complementario Θ₁. La hipótesis nula, que deseamos contrastar, es

H0:θ∈Θ₀, y la hip´otesis alternativa es

H1:θ∈Θ₁. Para construir un test de hip´otesis,

seleccionamos un estad´ısticoT =h(X1, . . . , X_n);

y determinamos una regi´on (de rechazo) R ⊂ R, que habitualmente depende de un cierto nivel o umbral.

La operativa del test va como sigue: dada una muestra emp´ırica (x1, . . . , x_n) de X, obtenemos un valor t=h(x1, . . . , xn) del estad´ıstico. Entonces,

sit∈ R, entonces se rechaza H0 (y se acepta H1);

sit /∈ R, entonces se acepta H0.

Ya hemos visto, en p´aginas anteriores, los estad´ısticos y regiones de rechazo correspondientes a los tests m´as habituales.

Vamos ahora a dar un paso más allá en el análisis y obtener, para cada posible valor de parámetro θ, la probabilidad de que el test rechace la hipótesis nulasupo- niendo que ese θ fuera el verdadero valor del parámetro. Esto es lo que se conoce como lafunción de potencia del test,β(θ), que a cadaθ∈Θ le asocia el número (entre 0 y 1)

(7.1) β(θ) =P_θ(rechazarH0) =P_θ(T ∈ R).

Por supuesto, con la función 1−β(θ) codificamos la probabilidad de que el testacepte la hipótesis suponiendo que ese θfuera el verdadero valor del parámetro.

Lo ideal, claro, ser´ıa que

•β(θ) fuera muy pr´oxima a 0 para todoθ∈Θ₀(es decir, que si la hip´otesis fuera cierta, el test la rechazara con baja probabilidad);

•y queβ(θ) fuera cercana a 1 para todoθ∈Θ₁ (es decir, que si la hip´otesis nula fuera falsa, el test la rechazara con probabilidad cercana a 1).

La primera situación se corresponde con errores de tipo 1. De hecho, lasignifi- caciónα del test se define como

(7.2) α= sup

θ∈Θ0

β(θ),

es decir, la “máxima” probabilidad de rechazo suponiendo que la hipótesis fuera cierta (máxima probabilidad de cometer error de tipo 1).

(13)

7.4. Test generales, función de potencia 13 En la segunda situación, cuando θ ∈ Θ₁ (y la hipótesis H0 es falsa), entonces 1−β(θ) nos da la probabilidad, para cadaθ∈Θ₁, de cometer error de tipo 2. Como veremos en los ejemplos que siguen, en los tests con un nivel de significación pequeño, la probabilidad de cometer errores de tipo 2 puede (y suele) llegar a ser grande.

Los test de las páginas anteriores, que se escriben en términos de unα de referencia, tienen nivel de significación justamenteα, en el sentido técnico dado en (7.2), como ilustramos en los dos siguientes ejemplos.

Ê Nota7.4.1. En un test de contraste de hipótesis general, se plantea una región de rechazoR, que habitualmente depende de uno o varios umbrales. A posteriori, se calcula su nivel de significaciónα siguiendo (7.2). Véanse, en los ejemplos 7.4.3 y 7.4.4, un par de ilustraciones.

En los test estándar que hemos descrito en las primeras secciones de este cap´ıtulo, se pone por adelantado el valor deα, y se diseña la región de rechazoRα para que tenga justamente nivel de significaciónα.

Ejemplo 7.4.1. Funci´on de potencia para el test habitual de la hip´otesisH0:μ=μ0

para X ∼ N(μ, σ²), con σ conocida.

Para muestras (X1, . . . , X_n) de X de tama˜no n, consideramos el estad´ıstico X. Dado unα∈(0,1), y como ya hemos visto, la regi´on de rechazo es

R_α= |X−μ0|> z_α/2 √σ n

Para calcular la funci´on de potencia, recordamos que, siX ∼ N(μ, σ²), entonces (X−μ)/(σ/√

n)∼ N(0,1). Usando esto, tenemos que β(μ) =P_μ(X ∈ R_α) =P_μ

|X−μ0|> z_α/2σ/√ n

= 1−P_μ

|X−μ0| ≤z_α/2σ/√ n

= 1−P_μ

−z_α/2σ/√

n≤X−μ0≤z_α/2σ/√ n

= 1−P_μ

(μ0−μ)−z_α/2σ/√

n≤X−μ≤(μ0−μ) +z_α/2σ/√ n

= 1−P_μ

μ0−μ σ/√

n −z_α/2 ≤ X−μ σ/√

n ≤ μ0−μ σ/√

n +z_α/2

= 1− Φ

μ0−μ σ/√

n +z_α/2 −Φ

μ0−μ σ/√

n −z_α/2

.

La función β(μ) tiende a 1 cuando μ→ ±∞. Y además,β(μ0) = 1−Φ(z_α/2) + Φ(−z_α/2) =α, de manera que el nivel de significación del test es α, como debe ser.

La figura de la izquierda muestra el aspecto de β(μ) para para los valores μ0 = 1, σ= 1,α= 5 % yn= 100. Obsérvese cómoβ es pequeño en el entorno deμ0. Nótese tam- bién que si el verdaderoμestuviera cerca de μ0, pero no fueraexactamente μ0, la hipóte- sis nula ser´ıa falsa, pero el test la aceptar´ıa con una (relativa) alta probabilidad. Si por

(14)

el contrarioμestuviera lejos deμ0, entonces el test cometer´ıa un error de tipo 2 con baja probabilidad. ♣ Ejemplo 7.4.2. Funci´on de potencia para el test habitual de la hip´otesisH0:μ≤μ0

para X ∼ N(μ, σ²), con σ conocida.

El estad´ıstico es de nuevoX. Dado unα∈(0,1), la regi´on de rechazo es R_α= X > μ0+z_α √σ

n

Procediendo como en el ejemplo anterior, β(μ) =P_μ(X ∈ Rα) =P_μ

X > μ0+zασ/√ n

=P_μ

X−μ >(μ0−μ) +zασ/√ n

=P_μ

X−μ σ/√

n > μ0−μ σ/√

n +z_α

= 1−Φ

μ0−μ σ/√

n +z_α

.

Representamos a la izquierda muestra el aspecto deβ(μ) (de nuevo para los valoresμ0 = 1, σ = 1, α = 5 % y n = 100). La función β es pequeña, casi 0, a la izquierda de μ0, como es- perábamos. El nivel de significación viene dado por sup_μ≤μ₀β(μ) =β(μ0) = 1−Φ(zα) = α, como (de nuevo) debe ser.

Como en el ejemplo anterior, si μfuera lige- ramente mayor que μ0, la hip´otesis ser´ıa falsa,

pero el test la aceptar´ıa con alta probabilidad. ♣

Ejemplo 7.4.3. Un test para proporciones.

Queremos contrastar la hipótesis de que la proporción p de personas infectadas por una cierta enfermedad en una población es inferior al 5 %. Es decir, la hipótesis nula es

H0: p≤5 %.

Para contrastarla, diseñamos el siguiente test: analizaremos a cinco personas, y si en esa muestra encontramosal menos una infectada, entonces rechazaremos la hipótesis de partida. El test parece razonable, pues un infectado (o más) de cada cinco apunta a una proporción mucho mayor del 5 % (o menor) supuesto.

Digamos que X1, . . . , X5 son las variables que registran si cada persona analiza- da está infectada o no. Son variables independientes, que siguen¹ una distribución ber(p). Su suma Z = X1+· · ·+X5, que registra el número de infectados, es una variablebin(5, p).

1Para que esto sea cierto, deber´ıamos suponer, en el lenguaje habitual de las urnas, que cada extracci´on se hace con reemplazamiento; o bien que la poblaci´on es tan grande que unas cuantas extracciones no cambian lapde partida.

(15)

7.4. Test generales, funci´on de potencia 15 La regi´on de rechazo se escribe ahora

R={Z ≥1}.

La funci´on de potencia del test es

β(p) =P_p(Z ≥1) = 1−P_p(Z = 0) = 1−(1−p)⁵. A la izquierda hemos dibujado esta función de potencia. Comoβ(p) es una función creciente, la sig- nificación del test es sup_{p≤5 %}β(p) = β(5 %) = 22.62 %, un poco (bastante) alta.

Buscando un mejor nivel de significación, rediseñamos el test y rechazamos la hipótesis si encontramos en la muestra de cinco personas al menos dos infectadas.

La región de rechazo ser´ıa ahoraR={Z ≥2}, y la función de potencia del test ser´ıa β(p) =P_p(Z ≥2) = 1−P_p(Z = 0)−P_p(Z = 1) = 1−(1−p)⁵−5p(1−p)⁴, cuyo aspecto es similar a la de la gráfica anterior, pero que nos dar´ıa un nivel de significación de sup_{p≤5 %}β(p) =β(5 %) = 2.26 %, mucho menor que el anterior.

Obsérvese que, para los dos tests, pero más pronunciadamente en el segundo, la probabilidad de error de tipo 2 puede llegar a ser muy grande. Por ejemplo, si p fuera del 6 %, la hipótesis ser´ıa falsa, pero el test la aceptar´ıa con una (alt´ısima)

probabilidad del 1−β(6 %) = 96.81 %. ♣

Ejemplo 7.4.4. Tests para la uniforme.

Digamos queX ∼unif[0, a], dondeaes un par´ametro positivo. Tratamos primero la hip´otesis

H0:a≤A,

donde A es un cierto valor dado. Digamos que tenemos una muestra (x1, . . . , x_n).

Obsérvese que en cuanto haya algún valorxi mayor que A, la hipótesis no puede ser cierta. Esto sugiere definir la siguiente region de rechazo:

R={m´ax(X1, . . . , Xn)> A}, que describimos usando el m´aximo de las X_i.

La funci´on de potencia asociada es

β(a) =P_a(máx(X1, . . . , Xn)> A) = 1−P_a(máx(X1, . . . , Xn)≤A) = 1−P_a(X≤A)ⁿ. Obsérvese que P_a(X ≤ A) = 1 si a < A, y que P_a(X ≤A) = A/a si a≥A. Lo que nos da, finalmente, que

β(a) =

0, sia≤A, 1−(A/a)ⁿ, sia > A.

(16)

A la izquierda dibujamos la función de potencia del test. El nivel de significación es α = 0, pues β(a) = 0 sia≤A; es decir, no es posible cometer errores de tipo 1 con este test.

Planteamos ahora la hip´otesis

H0:a≥A.

Ahora no está tan claro cómo definir una región de rechazo. Planteamos dos posibles alternativas: una primera un tanto imaginativa, la segunda algo más organizada.

Veamos. La hipótesis H0 sugiere que el parámetroa es “grande”, mayor que A. As´ı que parece razonable rechazarla si en la muestra observáramos “muchos” valores relativamente “pequeños”. Cuantificamos ese “pequeños” con un nivel, digamosA/5, y los “muchos valores”, con, por ejemplo, más de la mitad de ellos. Definimos, pues, la siguiente región de rechazo para una muestra (X1, . . . , X_n):

() R=

#{Xi≤A/5} ≥n/2 . La funci´on de potencia del test es

β(a) =P_a(R) =P(Z ≥n/2),

donde Z es una variable binomial con n repeticiones y probabilidad de ´exito dada porP_a(X ≤A/5). Obs´ervese que

P_a(X ≤A/5) =

1 si a≤A/5, A/(5a) si a > A/5.

Esto nos da, ﬁnalmente, que β(a) =

1 sia < A/5,

P

bin(n,_5a^A

≥n/2) sia > A/5.

A la izquierda dibujamos el aspecto de esta fun- ción de potencia. En azul, la región de paráme- tros en la que la hipótesis es cierta. El nivel de significación del test es α = sup_a≥Aβ(a) = β(A) = P(bin(n,1/5) ≥ n/2). Por ejemplo, si n= 10 yA= 5, rechazamos la hipótesis cuando al menos cinco muestras sean menores o iguales que 1.

(17)

7.4. Test generales, función de potencia 17 El nivel de significación es, en este caso,

α=P(bin(10,1/5)≥5) = 10 j=5

P(bin(10,1/5) =j)≈3.28 %,

que es razonable pequeño. Si el corte en la región de rechazo () se hubiera puesto en A/4, en lugar de en A/5 (manteniendo el n/2), entonces el nivel de significación ser´ıa mayor, de 7.81 %

Como alternativa, podr´ıamos argumentar como sigue: si X sigue unaunif[0, a], esperamos que el máximo de una muestra (grande) de X esté (muy) cerca del valor extremo a. As´ı que si la hipótesis es cierta, es decir, si a ≥ A, el máximo de la muestra deber´ıa estar (quizás bastante) a la derecha de A.

Esto sugiere un test que rechace la hipótesis si el máximo está un poco a la izquierda deA. Cuantificaremos esta idea en el ejemplo 7.5.4. ♣